用于文档聚类的方法及系统的制作方法

文档序号:6426308阅读:148来源:国知局
专利名称:用于文档聚类的方法及系统的制作方法
技术领域
本发明总体上涉及信息处理技术领域,特别地,涉及一种用于文档聚类的方法及系统。
背景技术
随着互联网应用的日益普及,海量的文本信息为文本分析提供了丰富的数据源。通过对文本数据的分析,可以分析出舆论热点等信息。对于文本分析技术而言,文本聚类是众多应用的关键步骤,有效的文本聚类方法,能够提高舆论热点识别的精度。
传统的文本聚类技术,通常是提取文档的文本特征信息,例如关键词词频,而后基于文本特征信息,计算两篇文档之间的相似度,然后基于相似度进行聚类。然而,这种聚类算法存在一定的局限性,其只是考虑文档的内容的相似性,对于如果内容是似乎不关联的文档之间的关联关系则往往无法进行准确分析。因此,需要一种改进的用于文档聚类的方法及系统。

发明内容
本发明一方面提供一种用于文档聚类的方法,包括提取文档的文本特征信息;基于与文档相关的信息建立社会关系网络;基于所述社会关系网络进行图聚类,以获得结构子类;提取所述结构子类的结构特征信息;以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。本发明另一方面提供一种用于文档聚类的系统,包括文本特征信息提取装置,被配置为提取文档的文本特征信息;社会关系网络建立装置,被配置为基于与文档相关的信息建立社会关系网络;图聚类装置,被配置为基于所述社会关系网络进行图聚类,以获得结构子类;结构特征信息提取装置,被配置为提取所述结构子类的结构特征信息;以及聚类装置,被配置为基于所述文本特征信息和所述结构特征信息对文档进行聚类。由于本发明的具体实施例不仅考虑了文档之间的文本特征相似度,还基于文档作者之间的社会关系网络状况,进一步考虑了作者之间的结构特征信息,因此能够提高文档聚类的准确程度。


为了对本发明实施例的特征和优点进行详细说明,将参照以下附图。如果可能的话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中图I示出了本发明的用于文档聚类的第一具体实施方式
;图2、3示出了本发明用于文档聚类的第二具体实施方式
;图4示出了以文档作为节点建立的社会关系网络的示意图;图5示出了本发明用于文档聚类的系统结构示意图;图6示意性示出了可以实现根据本发明的实施例的计算设备的结构方框图。
具体实施例方式现在将参考本发明的示例性实施例进行详细的描述,在附图中图解说明了所述实施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本发明并不限于所公开的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本发明都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外,步骤之间可以有显著的时间间隔。在研究如何使文档聚类方法能够更准确地分析文档之间的关联关系,本申请的发明人发现,随着微博等互联网应用的飞速发展,文档作者之间的社会关系结构信息也成为可以被利用来做文本聚类的重要信息来源,通过文档作者之间的交互关系网络,可以识别出两篇文档作者的相似度,从而有利于提高文档聚类的精度。以互联网的文档为了,文档作者之间的交互关系可以包括对文档的回帖,留言,或者作为文档的共同作者等。·图I示出了本发明用于文档聚类的第一具体实施方式
。在步骤101中,提取文档的文本特征信息。本领域技术人员基于本申请可以采用各种适用的提取文档的文本特征信息的方法。比如,可以米用 TFIDF 算法(Term-Frequency Inverse Document FrequencyAlgorithm)对文档进行特征提取(具体参见参考文献IJ. Allan, J. Carbonell,G.Doddington, J. Yamron and Y. Yang. “Topic detection and tracking pilot study Final report,,· In Proc. of DARPA Broadcast News Transcription and Understanding
Workshop, 1998)。首先,对于每篇文档,进行分词。例如,文档内容为“......数据分析对于
互联网公司是核心技术。”,则会被分词为“数据分析/对于/互联网/公司/是/核心/技术”。对于分词的结果,过滤连接词,结束词,则得到“数据分析/互联网/公司/核心技术”,把剩余词汇,作为词频表的输入。对于所有要处理的文档,建立词频表,统计每个词汇出现的次数,选择频率适中的词汇建立索引词汇库。例如,“数据分析/互联网/核心技术”被选入索引词汇表。统计每篇文档中,索引词汇库表中的词汇,在该文档中出现的频率,得到频率向量,而后按照TFIDF算法的定义,计算每个词汇的特征向量,以该特征向量作为文本特征信息。例如,上述词汇“数据分析/互联网/核心技术”的特征向量被计算为{log2/3,0,0},可以得到该文档的文本特征信息Ti为{1呢2/3,0,0},其中1为整数,用于后续文档之间的相似性计算。由于提取文档的文本特征信息有较多的现有成熟技术,在此不再赘述。。在步骤103中,基于与文档相关的信息建立社会关系网络。文档相关的信息可以包括文档的作者、文档作者之间的回复,文档的共同作者或者例如作者相互在博客上的留言关系,作者之间的转贴关系等等。构建文档的社会关系网络的目的在于能够去分析文档作者的社会关联,从而能够不仅仅基于文档的内容本身来发现文档之间的关联性,有利更准确的文档聚类。在步骤105中,基于社会关系网络进行聚类,以获得结构子类。结构子类是指基于社会关系网络通过图聚类算法,得到的属于同一类节点的集合。本领域技术人员基于本申请可以利用通用的图聚类算法对社会关系网络进行聚类。例如可以采用参考文献2Y. Zhang, J. Wang, Y. Wang, and L. Zhou, “Parallel community detection on largenetworks with propinquity dynamics, ” in Proceedings of the 15th ACM SIGKDDinternational conference on Knowledge discovery and data mining. ACM,2009,pp. 997-1006 和参考文献3M. E. J. Newman and M. Girvan, “Finding and evaluatingcommunity structure in networks,,,Physical review E, vol. 69, no. 2, pp. 26113, 2004
坐寸ο在步骤107中,提取所述结构子类的结构特征信息。其中所述结构特征信息包括结构子类成员个数、结构子类成员归属和结构子类紧密程度中至少之一。其中结构子类成员个数指的是结构子类中成员的个数。结构子类成员归属指成员是否属于这个结构子类,通常我们是需要判断两个成员是否属于同一个结构子类。结构子类紧密程度指的是结构子类中成员与本子类成员联系紧密程度。这些结构特征信息表征了社会关系网络中各个节点之间的社会关联程度,可以用于帮助文档的聚类。当然,本领域技术人员基于本申请也可以选择其它合适的结构特征信息来表征社会关系网络中各个节点之间的社会关联程度。
在步骤109中,则基于所述结构特征信息和所述文本特征信息对文档进行聚类。可以基于所述结构特征信息和所述文本特征信息计算文档之间的相似性。在得到了各个文档之间的相似性后,就可以进一步地基于各个文档之间的相似度利用聚类算法对各个文档进行聚类。本领域技术人员可以基于本申请,利用得到的文档之间的相似性作为输入,应用本领域常用的聚类算法对各个文档进行聚类,例如KMeans聚类算法、K-MED0IDS算法、CLARANS算法等。在运用相关聚类算法后,就可以得到更为有效的文档分类,这比单一的常规的基于文本特征的聚类方法更好地分析出文档之间的内在关联,从而有效提高了文本聚类的精度。图2、3则示出了本发明用于文档聚类的第二具体实施方式
。在此将结合具体的实例对第二具体实施方式
进行说明。在步骤201中,基于文档的作者关系建立社会关系网络。其中基于文档作者的关系,以作者为顶点,以作者之间的交互关系作为边,构建社会关系网。假设原始数据如表I所示。原始数据可以作为文档相关的信息进行保存,并在后续的进行文档聚类中利用这些信息。值得注意的是,这里仅仅是以作者及其回复作者作为文档的相关信息来获取文档之间的相互关联,还可以以其它方面相关信息来获取文档之间的相互关联。表I
权利要求
1.一种用于文档聚类的方法,包括 提取文档的文本特征信息; 基干与文档相关的信息建立社会关系网络; 基于所述社会关系网络进行图聚类,以获得结构子类; 提取所述结构子类的结构特征信息;以及 基于所述文本特征信息和所述结构特征信息对文档进行聚类。
2.一种如权利要求I所述的方法,其中所述基于所述文本特征信息和所述结构特征信息对文档进行聚类包括 基于所述文本特征信息和所述结构特征信息计算文档之间的相似度。
3.—种如权利要求2所述的方法,其中所述基于所述文本特征信息和所述结构特征信息对文档进行聚类还包括 基于各个文档之间的相似度,利用聚类算法对各个文档进行聚类。
4.一种如权利要求I所述的方法,其中所述结构特征信息包括结构子类成员个数、结构子类成员归属和结构子类紧密程度中至少之一。
5.一种如权利要求I所述的方法,其中所述社会关系网络的节点为文档的作者,节点之间的边为文档的作者之间的交互关系。
6.一种如权利要求I所述的方法,其中所述社会关系网络的节点为文档,节点之间的边为文档的作者之间的交互关系。
7.—种如权利要求I所述的方法,其中所述文档相关的信息包括文档的作者、文档作者之间的交互关系。
8.—种如权利要求I所述的方法,其中所述结构子类是指基于社会关系网络通过图聚类算法,得到的属于同一类节点的集合。
9.一种用于文档聚类的系统,包括 文本特征信息提取装置,被配置为提取文档的文本特征信息; 社会关系网络建立装置,被配置为基于与文档相关的信息建立社会关系网络; 图聚类装置,被配置为基于所述社会关系网络进行图聚类,以获得结构子类; 结构特征信息提取装置,被配置为提取所述结构子类的结构特征信息;以及 聚类装置,被配置为基于所述文本特征信息和所述结构特征信息对文档进行聚类。
10.一种如权利要求9所述的系统,其中所述聚类装置包括 相似度计算装置,被配置为基于所述文本特征信息和所述结构特征信息计算文档之间的相似度。
11.一种如权利要求9所述的系统,其中所述聚类装置还包括 文档聚类装置,被配置为基于各个文档之间的相似度,利用聚类算法对各个文档进行聚类。
12.—种如权利要求9所述的系统,其中所述结构特征信息包括结构子类成员个数、结构子类成员归属和结构子类紧密程度中至少之一。
13.—种如权利要求9所述的系统,其中所述社会关系网络的节点为文档的作者,节点之间的边为文档的作者之间的交互关系。
14.一种如权利要求9所述的系统,其中所述社会关系网络的节点为文档,节点之间的边为文档的作者之间的交互关系。
15.一种如权利要求9所述的系统,其中所述文档相关的信息包括文档的作者、文档作者之间的交互关系。
16.一种如权利要求9所述的系统,其中所述结构子类是指基于社会关系网络通过图聚类算法,得到的属于同一类节点的集合。
全文摘要
本发明提供一种用于文档聚类的方法和系统。其中所述方法包括提取文档的文本特征信息;基于与文档相关的信息建立社会关系网络;基于所述社会关系网络进行图聚类,以获得结构子类;提取所述结构子类的结构特征信息;以及基于所述文本特征信息和所述结构特征信息对文档进行聚类。采用本发明的用于文档聚类方法和系统有利于提高文档聚类的准确度。
文档编号G06F17/30GK102831116SQ20111016010
公开日2012年12月19日 申请日期2011年6月14日 优先权日2011年6月14日
发明者史巨伟, 薛伟, 杨博, 王文杰 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1