一种文本聚类方法

文档序号:9687580阅读:383来源:国知局
一种文本聚类方法
【技术领域】
[0001 ]本发明设及语义分析技术领域,更具体地设及一种文本聚类方法。
【背景技术】
[0002] 信息化时代的今天,网络文本呈现出海量的特性,从捜索到的海量文本中提取有 效信息或获取当前热点信息,需要对文本聚类,使同一个文本簇中的文本间相似度尽量的 高,不同簇中的文本间相似度尽量的低。
[0003] 文本聚类中,常用特征词来表达文本的特性,最常用的模型是向量空间模型。向量 空间模型中,每一个文本用一个向量表示,向量中的每一个值表示每一个特征词在文本中 的权重。文本向量空间模型是一个矩阵模型,矩阵的行表示文本,矩阵的列表示特征词属 性,矩阵中的数值表示对应列的特征词在对应行的文本中的权值。
[0004] 向量空间模型中的权值是指特征词能代表文本特性的能力,是一个文本不同于其 他文本的特性。如果特征词在运个文本中出现的次数越高,在其他文本中出现的次数越低, 那么运个特征词在运个文本中的权重就越高,运个特征词就越能代表运个文本的特性。
[0005] 层次聚类算法是通过分解数据集合来构建树形层次结构,具体可W分为分裂(自 顶向下)算法和凝聚(自底向上)算法。分裂算法是将所有的数据集合看做一个簇,一步一步 的将簇分解,然后逐层向下,每个层次都将分裂其中一个簇,直到每一个数据对象都是单独 一个簇或者满足条件为止。相反,凝聚算法是起初将每个数据对象看做一个单独的簇,逐步 的合并簇,从底逐层向上,每一步都合并最相似的两个簇,最终将所有的簇合并为一个簇或 者满足条件为止。
[0006] 文本聚类中常用的还有协同聚类算法,其是将文本和特征词同时进行聚类的方 法,该算法中将行对象和列对象同时聚类或者交替聚类,常常运用到文本聚类算法中,文本 聚类中的行对象是文本对象,列对象是特征词对象,用此方法聚类不仅可W提高聚类的精 确度,而且由于聚类结果的簇中含有文本对象和特征词对象,特征词对象还可W作为文本 簇的主题词,从而达到了主题发现的效果。
[0007] 目前,将层次聚类和协同聚类结合起来研究实际问题,可W达到一个好的聚类效 果,2010年,Li等人提出了层次协同聚类的算法,运个算法用来解决文本和特征词的共同聚 类问题。此方法是将文本和特征词当作叶子节点,利用特征词和文本间的相似性矩阵,用层 次聚类法同时聚类文本和特征词。2011年Li等人又提出了用层次协同聚类的算法来对音乐 信息进行协同聚类,利用艺术家和音乐风格之间的权重信息,对艺术家和音乐风格进行层 次协同聚类,用到了层次聚类算法的凝集算法和分裂算法两种来对实际问题进行聚类。
[000引由于文本和特征词都是海量的,直接运用层次协同聚类将会增加时间复杂度并且 降低精度。而且只考虑了词对于文本的权重值,而忽略了特征词之间的语义关系。例如,假 设一篇文档中出现"高血糖",而另外一篇文档中出现"高血脂",如果单单从特征词的共现 性来判断两篇文档的相似度,运两个特征词被认为是完全独立的,运两篇文档可能不会属 于同一个类,实际上都是属于医学类别,运里就容易出现聚类的错误。

【发明内容】

[0009] 有鉴于此,本发明的目的在于提出一种文本聚类方法。本发明优选的文本聚类方 法可W兼采几种聚类方法的优点,改善聚类效率和精度,同时利用少量的监督信息指导聚 类,使聚类的效果明显得到改善。
[0010] 为了实现上述目的,本发明提出了一种文本聚类方法,包括W下步骤:
[0011] 对文本集先采用半监督聚类方法对特征词进行聚类,在出现频繁的词汇中找出成 对约束实例,出现频繁的词汇集从每篇文档中权重最大的那个特征词抽取出来,从中找出 正约束集和负约束集;
[0012] 根据K最近邻集对所述正约束集和负约束集进行扩充;
[0013] 根据约束集的划分结果对特征词进行聚类。
[0014] 其中,所述根据K最近邻集对所述正约束集和负约束集进行扩充的原则为:
[0015] 距离正约束对其中一个对象的距离非常的近,距离另外一个对象的距离小于此正 约束对的距离,并且此对象和正约束对的两个对象都不属于负约束集,那么此对象和其中 一个对象的关系属于正约束关系;W及
[0016] 距离负约束对其中一个对象的距离非常的近,距离另外一个对象的距离大于此负 约束对的距离,并且此对象和负约束对的两个对象都不属于正约束集,则此对象和其中一 个对象的关系属于负约束关系。
[0017] 基于上述技术方案可知,本发明的方法加入了半监督聚类算法对特征词进行聚 类,找到特征词的簇,对特征词进行合并,不仅降低了向量空间的维度,提高了实验的效率, 而且在少量监督信息的指导下,使特征词的聚类更加合理、可靠;此外,本发明对文本和特 征词进行层次协同聚类之前,扩充文本特征词对象集的相似度矩阵,通过找出文本之间的 语义关系,特征词之间的语义关系,构造了协同矩阵,对原有的只含有特征词和文本之间的 相似度的矩阵,扩充为含有文本之间的相似度、特征词之间的相似度、含有两种对象之间的 相似度的协同矩阵,使层次协同聚类所含有的两种类型的对象任意两两之间的相似度包含 在协同矩阵里面,聚类的效果得到改善。
【附图说明】
[0018] 图1为K最邻近集扩充正约束集的示意图;
[0019] 图2为K最邻近集扩充负约束集的示意图。
【具体实施方式】
[0020] 为使本发明的目的、技术方案和优点更加清楚明白,W下结合具体实施例,并参照 附图,对本发明作进一步的详细说明。
[0021] 聚类分析(Clustering Analysis)是根据事物之间的内在联系对其进行归类,分 成逐个事物的集合,又称簇(Cluster),聚类的结果使同一个簇中的事物之间尽量相似,不 同簇的对象之间尽量相异。常用的聚类分析算法包括层次聚类、协同聚类、半监督聚类等, 下面分述之。
[0022] 层次聚类算法是通过分解数据集合来构建树形层次结构,具体可W分为分裂(自 顶向下)算法和凝聚(自底向上)算法。分裂算法是将所有的数据集合看做一个簇,一步一步 的将簇分解,然后逐层向下,每个层次都将分裂其中一个簇,直到每一个数据对象都是单独 一个簇或者满足条件为止。相反,凝聚算法是起初将每个数据对象看做一个单独的簇,逐步 的合并簇,从底逐层向上,每一步都合并最相似的两个簇,最终将所有的簇合并为一个簇或 者满足条件为止。
[0023] 协同聚类,又称双向聚类,或联合聚类,指对数据集的对象和属性同时聚类或者交 替进行聚类,相互协作,最终达到收敛。数据集的对象和属性常常用数据矩阵的方法表示, 协同聚类就是对数据矩阵的行和列同时或者交替进行聚类,实现行聚类和列聚类的彼此约 束。协同聚类和传统的聚类方法最大的不同是聚类的对象含有两种类型的数据,一种是样 本点,一种是样本的属性。
[0024] 半监督聚类是指利用少量的监督信息来指导聚类分析,从而提高聚类的性能。少 量监督信息是指样本的类标记或者样本点之间的相似约束信息。利用样本的类标记进行聚 类的算法一般是学习少量的监督信息,从中得出聚类的种子,指导聚类的完成。
[0025] 向量空间模型中的权重是指特征词能代表文本特性的能力,是一个文本不同于其 他文本的特性。如果特征词在运个文本中出现的次数越高,在其他文本中出现的次数越低, 那么运个特征词在运个文本中的权重就越高,运个特征词就越能代表运个文本的特性。
[0026] 半监督聚类特征词即用先验信息指导聚类那些关系极为密切的特征词,先验信息 包括约束实例和类别标记,运里用到的先验信息为成对约束实例。
[0027] 本发明公开了一种半监督层次协同文本聚类方法,包括:首先在出现频繁的词汇 集中找出成对约束实例,运个过程可W是人工找出成对约束集,出现频繁的词汇集可W从 每篇文档中权重最大的那个特征词抽取出来,从中找出正约束集和负约束集。然后根据K最 近邻集来对约束集进行扩充,接着根据约束集的划分结果进行聚类。
[0028] 成对约束实例也就是样本间的关联约束,分为正约束(Must-1 ink)和负约束 (C曰nnot-link)〇
[0029] 设正约束集为M,负约束集为C,M和C具有对称性和传递性,如下公式(1)、公式(2), 利用运两个属性可W对Μ集合和C集合进行扩充。
[0032] 对于W上扩充后的少量信息仍然无法满足需要,利用最近Κ临近集原则对Μ集
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1