基于交互式文档聚类的信息检索方法及系统的制作方法

文档序号:6486408阅读:630来源:国知局
基于交互式文档聚类的信息检索方法及系统的制作方法
【专利摘要】本发明提供一种基于交互式文档聚类的信息检索方法和系统,其步骤包括:对文档集进行水平划分和预处理;进行词频统计,并将高频词组成特证词集合;生成文档的向量空间表示,计算文档间的距离并生成相似度矩阵;生成拉普拉斯矩阵,根据拉普拉斯矩阵的特征值间隔确定聚类数及表示矩阵,并进行二次聚类,得到初始距离结果;用户对初始聚类结果进行交互操作,使用卡方统计量挖掘新的特证词并重构向量空间,然后重复进行上述聚类过程;最后将聚类结果展示给用户,供用户获得不同类别的检索结果。本发明采用有用户介入的半监督学习方式,对文档进行聚类分析,供用户获得不同类别的检索结果。
【专利说明】基于交互式文档聚类的信息检索方法及系统
【技术领域】
[0001]本发明属于信息【技术领域】,涉及利用计算机辅助挖掘和整理文本信息的技术,具体涉及一种基于交互式文档聚类的信息检索方法及系统,采用有用户介入的半监督学习方式,对文档进行聚类分析,供用户获得不同类别的检索结果。
【背景技术】
[0002]在社交网络发展日新月异,信息涌入以海量计算的大环境下,现代人被过量信息疲劳轰炸,多数人仅是接收“新信息”就应接不暇,遑论对每个信息有充裕的时间消化、吸收。文本信息就是海量信息中典型的一种。借助计算机对文本信息进行挖掘和整理就显得富有实际意义。
[0003]文档聚类系统能够提供一种对指定文档集进行分类的无监督学习方法,它的分类准则是使得类内文档相似度尽可能高,类间文本相似度尽可能低。作为一种数据分析的重要工具,文档聚类使得针对规模巨大的文档集的分类管理、浏览和摘要成为一种可能。其典型的应用场景包括:信息检索、话题检测与追踪、网站新闻分类展现。
[0004]传统文档聚类并不要求用户提供训练样本,其输入是没有任何标签的文档的集合以及用户预先指定的参数K,用以指明文档集需要划分成多少个类,输出是文档的标签集合,用以标明文档所属的类别。聚类任务会定义损失函数,无监督的聚类在求解损失函数最小化的过程中获得最终结果,例如K-Means算法。无监督聚类的算法主要包括:基于划分的聚类(如Κ-Means)算法、层次聚类算法(如凝聚算法)、基于密度的聚类算法(如DBSCAN)、基于网格的聚类算法、基于神经网络的聚类算法。
[0005]在实际应用中,对于文档集用户会有若干先验知识,这些知识包括但不限于:文档相似性上的联结关系(must-link),文档相似性上的互斥关系(cannot_link),以及最终分析所得的聚类簇数目。这些已有的知识和外在规律可以有效的帮助聚类分析,使得聚类尽可能的挖掘出文档之间潜在的语义关系,以及尽可能的与用户的先验知识吻合。利用使用者先验知识的聚类任务就称作是半监督的或带有约束的聚类任务,它的分析和计算过程主要是修改损失函数,对损失函数进行最优化求解。半监督聚类算法主要有三类:对层次聚类的改进、在K-Means算法的基础上进行改进和对谱聚类算法进行调整。
[0006]半监督的层次聚类的方法由于是在层次聚类的基础上做的改进,复杂度较高,为
O(N2),即与输入规模成平方量级关系。所以,层次聚类同谱聚类和K-Means的复杂度O(KN)相比在计算速度上不具有优势,其中K为聚类数,N为输入规模。
[0007]半监督的Κ-Means 方法如[Constrained K-Means clustering with backgroundknowledge,Kiri Wagstaff etc.,Proceedings of the Eighteenth InternationalConference on Machine Learning,2001,page 577 - 584.][Sem1-superivsed Clusteringby Seeding,S Basu etc., Proceedings of the Nineteenth International Conferenceon Machine Learning, 2002, page 19-26.],K-Means 算法的主要缺点是预先指定 K 值(聚类数),要获得良好的聚类效果需要用户反复调整参数K,并且调整的过程不能同时利用两类先验知识一聚类数和样本之间的相似关系。
[0008]半监督的谱聚类从两个方面调整:一方面是,将约束加在相似度矩阵上再运用无监督的谱聚类方法,如[Constrained Spectral Clustering under a LocalProximity Structure Assumption, Qianjun Xu etc., Proceedings of the 18thInternational Conference of the Florida Artificial Intelligence ResearchSociety, 2005,page 866-867],其缺点是不能判断约束的可信程度及重要程度,约束的数量需要足够多,才能让先验知识对聚类结果产生影响;另一方面是,在目标函数中增加约束矩阵用以惩罚违反约束的聚类方案,如[Document Clustering withPrior Knowledge, Xiang Ji etc., Proceedings of the 29th annual internationalACM SIGIR conference, 2006, page 405-412]和[Flexible Constrained SpectralClustering, Xiang Wang etc., Proceedings of the 16th ACM SIGKDD internationalconference on Knowledge discovery and data mining, 2010, page 563-572],这类算法的缺点是,额外引进了更多的需要微调的参数,而且参数较小的变化也会对聚类效果有比较大的影响,也就是说需要用户提供除了文档之间相似度这一信息外,还需要与系统做很多的后续交互才能达到比较好的效果。这影响了系统的可用性。
[0009]以上半监督的聚类算法没有利用到文档的特征集,文档的一个特点就是使用的词汇量大,如果将每个词都纳入到聚类分析中,会造成维灾难。使用特征选取方法使得文本聚类变得简单易行的一种典型做法在[Text Clustering With Feature Selection byUsing Statistical Data, Yanjun Li etc., IEEE Transactions on Knowledge and DataEngineering, 2008, page 641-652]中有详细的描述。将特征选取与半监督聚类相结合的做法在[Sem1-supervised Feature Selection via Spectral Analysis, Zheng Zhaoetc., Proceedings of the 7th SIAM International Conference on Data Mining, 2007]中有表达,但它的主要目的是用谱聚类算法进行特征抽取,没有用于迭代改进谱聚类算法。
[0010]目前已知的,直接的将文档聚类和用户交互式操作结合在一起的是[A Sem1-SupervisedDocument Clustering Technique for InformationOrganization,Han-joon Kim etc., Proceedings of the ninth internationalconference on Information and knowledge management, 2000, page 30-37],它将多个文档预先聚成小的类别,也就是说这个小的类别非常依赖于预处理阶段的距离阈值。并且,用户与系统的交互操作限于两种:指定两个小类别是否属于或不属于同一个大的类别。一旦预处理阶段出了问题,一个小类别下面的几篇文档实际应属于两个大类别的,那么没有对应的操作来处理这样的异常。
[0011]除了上面描述的聚类方法,还有其他的方法,如话题模型[Latent DirichletAllocation, Journal ofMachine Learning Research, David M.Blei etc.,2003, page993-1022]来挖掘文档集中潜在的语义规律,但它的缺点也是明显的:需要指定话题数目,文档不显式的归属于某个话题,直接可读性比较弱。
[0012]从前面的介绍来看,提出一个对用户友好的基于交互式文档聚类的信息检索方法,是非常有必要,也是很有实际应用价值的。

【发明内容】
[0013]本发明的目的在于针对上述问题,提出一种基于交互式文档聚类的信息检索方法及系统,基于谱聚类算法,采用有用户介入的半监督学习方式,对文档进行聚类分析,进而供用户获得不同分类的检索结果。本发明涉及到的技术包括利用已有的谱聚类、聚类数自动发现、利用卡方统计量的特征抽取,以及本发明提出的将用户标注信息转化为向量空间重构的方法。
[0014]为实现上述目的,本发明采用如下技术方案:
[0015]一种基于交互式文档聚类的信息检索方法,其步骤包括:
[0016]I)按时间段对存储的文档集进行水平划分和预处理;
[0017]2)对预处理后的文档进行词频统计,并将高频词组成特证词集合;
[0018]3)根据所述特证词集合生成文档的向量空间表示,进而计算文档间的距离并生成相似度矩阵;
[0019]4)根据所述相似度矩阵生成拉普拉斯矩阵,并计算其特征值和特征向量;
[0020]5)根据特征值间隔确定聚类数及表示矩阵,并对所述聚类数及表示矩阵进行二次聚类;
[0021]6)用户对所述二次聚类的结果进行交互操作,使用卡方统计量挖掘新的特证词并添加至所述特证词集合,然后重复所述步骤3)至所述步骤5);
[0022]7)将聚类结果展示给用户,供用户进行选择并获得不同类别的检索结果。
[0023]—种基于交互式文档聚类的信息检索系统,其包括:
[0024]文档存储模块,负责存储文档集并保存运算结果;
[0025]文档集水平划分模块,负责按时间段对所述文档集进行水平划分;
[0026]文档预处理模块,负责对文档进行预处理;
[0027]词频统计模块,负责对水平划分和预处理后的文档进行词频统计;
[0028]文档向量空间表示模块,连接所述词频统计模块,负责将文档向量化并生成文档的向量空间表示;
[0029]文档间距计算模块,连接所述文档向量空间表示模块,负责计算文档间的距离并判断文档间的相似度;
[0030]聚类计算模块,连接所述文档间距计算模块,负责根据谱聚类计算方法对文档进行聚类;
[0031]用户交互模块,供用户进行交互操作,对聚类结果进行标注;
[0032]用户标注信息提取模块,连接所述用户交互模块,用于通过计算卡方统计量从用户标注信息中挖掘新的特征词,并将新的特征词输入至所述文档向量空间表示模块;
[0033]信息检索模块,连接所述聚类计算模块和所述用户交互模块,用于根据聚类结果进行信息检索并将检索结果展现给用户。
[0034]本发明采用有用户介入的半监督学习方式,以及特征抽取与谱聚类等机器学习与数据挖掘手段,对文档进行聚类分析,供用户获得不同类别的检索结果。本发明可支持海量文本数据自动聚类、整理和归纳相似文本,用户可参与挖掘过程的数据挖掘与知识发现。相比于K均值聚类模型及LDA等话题模型,具有不需要指定聚类簇数K,可随用户迭代改进聚类结果的优点。【专利附图】

【附图说明】
[0035]图1是本发明实施例的基于交互式文档聚类的信息检索系统的组成结构示意图。
[0036]图2是本发明实施例的基于交互式文档聚类的信息检索方法的步骤流程图。
[0037]图3是本发明实施例的基于特征值间隔的聚类数自动发现的示例图。
[0038]图4是本发明实施例的信息检索的按类别展示的示例图。
【具体实施方式】
[0039]下面通过具体实施例并配合附图,对本发明做详细的说明。
[0040]图1是本实施例的基于交互式文档聚类的信息检索系统的组成结构示意图,对其中所示各模块的功能分别说明如下:
[0041]文档存储模块:用于存储文档集,为专利的核心算法模块提供存储文档、保存运算结果的服务,可采用但不限于数据库、XML文件、普通文件夹等存储方式。
[0042]文档集水平划分模块:连接文档存储模块,提供将文档集按日期水平划分的服务,将文档按日期分类,起到降低系统计算规模,保证信息检索质量的作用。
[0043]文档预处理模块:连接文档集水平划分模块,对文档进行预处理,中文部分包括分词、词性标注、去停用词、标签提取,英文部分包括词性标注、去停用词、标签提取。
[0044]词频统计模块:经水平划分和预处理之后,本模块进行词频统计,并依照词频从高到低对词进行排序。
[0045]文档向量空间表示模块:本模块是本系统的核心模块,词频统计模块获得的高频词以及用户标注信息提取模块挖掘的特征词构成了文档向量空间的特征维度,本模块将文档映射到上述特征维度构成的向量空间,生成文档的向量空间表示。
[0046]文档间距计算模块:本模块用于计算文档间的距离,用于判断文档之间的相似或相异程度。可采用精确计算方法,也可采用近似计算方法,并将计算之后的文档相似度矩阵输入至聚类计算模块。
[0047]聚类计算模块:连接文档间距计算模块,本模块针对文档相似度矩阵生成拉普拉斯矩阵,在拉普拉斯矩阵上使用已有的谱聚类计算方法,根据特征值间隔自动发现聚类数,确定文档的聚类标号。
[0048]用户交互模块:本模块是人机交互模块,通过标注,将用户的先验知识用于指导系统改善聚类结果,从而达到改善信息检索结果的目的。
[0049]用户标注信息提取模块:本模块是本系统的核心模块,通过计算卡方统计量,挖掘新的特征词,并输入至文档向量空间表示模块。
[0050]信息检索模块:连接聚类计算模块和用户交互模块,根据聚类结果进行信息检索并将信息检索结果展现给最终用户。
[0051]上述系统中,文档集水平划分模块连接文档存储模块,文档预处理模块连接文档集水平划分模块,即先进行水平划分,再进行预处理。但在其它实施例中,也可以先进行预处理,在进行水平划分,即文档预处理模块连接文档存储模块,文档集水平划分模块连接文档预处理模块。
[0052]图2是本实施例的基于交互式文档聚类的信息检索方法的步骤流程图。对其中各步骤具体说明如下:[0053]1.准备,文档存储
[0054]选取适当的存储方式,可采用但不限于数据库、XML文件、普通文件夹等存储方式。
[0055]2.文档集按时间段的水平划分
[0056]水平划分是传统数据库性能优化的技术,本发明将这一技术应用到文档集,不仅可提升计算性能,同时还能提高计算结果的可读性。对于文档集,特别是网页文档集,数量动辄以千万来计算,对这样大的文档集合做聚类分析之后,聚类结果的可读性非常差。本发明按照时间段对文档集做水平划分,即同一个时间段内的文档划分到同一个集合,根据产生文档的频度(如学术界会议论文与微博的产生频度不同)确定时间间隔,具体到本实施例,以天为单位划分文档集。
[0057]以上处理方式基于这样一个事实:若以和话题相关的文档数来度量话题的活跃程度,那么话题的发生、发展、演变、消退是以时间为自变量的连续函数,同一时间段内相似的文档在讨论同一话题的概率较大。故本发明聚类分析所得的结果可读性较好。
[0058]3.预处理:主要包括分词及词性标注、去停用词、标签提取等。预处理可在步骤2所述的水平划分之后进行,也可以先进行预处理,再进行水平划分。
[0059]3.1分词及词性标注
[0060]本方法可处理多语种文档。词是最小的语义单元,西文如英文因其存在形式上以空格作分界符,故针对英文只需做词性标注处理。词在中文里不存在形式上的分界符,因此分词是必做的步骤,本实施例利用中科院ICTCLAS分词器进行分词。一般地,分词器除了做分词处理,还会做词性标注。如“张华平欢迎您”切分为“张华平/nr欢迎/V您/r”。
[0061]3.2去停用词
[0062]因介词、量词等词对文本描述的对象没有影响,因此系统保留名词、动词、形容词和副词,其余词作为停用词去除。
[0063]3.3标签提取
[0064]部分文档如博客包含标签信息和学术论文的关键词。博客标签是由作者为分类管理之需对文档所做的若干词的描述,功能同论文作者为学术论文添加的关键词。标签是用于识别文档所属类别的重要信息,本实施例也将标签加入到文档的向量空间。
[0065]4.词频统计
[0066]统计词频,将步骤3处理之后的词和标签按照出现频率从高到低的顺序排列,供后续步骤选取闻频词时使用。
[0067]5.聚类
[0068]5.1生成文档的向量空间表示
[0069]此步骤的意义在于抽取文档特征,降低文档的表示维度。
[0070]谱聚类算法需要计算两个文档之间的距离以判断文档间的相似程度。一般地,文档距离的计算需要将文档向量化,通常向量化采用的方法是对每一个词都使用TFIDF(TermFrequency-1nverse Document Frequency)度量,这样会造成向量空间的维度急剧升高,维灾难将造成文档之间的距离差异不大。本发明为克服这一困难,采用降维的方式,合理的降维能够帮助系统后续的步骤自动发现聚类簇的数目,并减小计算代价,提高计算精度。
[0071]如果是初次聚类,采用已有的高频词选取的方法:选取步骤4提供的高频词T个。这也意味着每个文档在向量空间的向量表示降低到了 T维。需要说明的是T的取值方法:根据文献[Probability density estimation in higher dimensions.Scott D W etc.Proceedings of the Fifteenth Symposium on the Interface, 1983, page 173-179]的描述,在指定的所需精度下,样本数量将随着维数的增加呈现指数增长,按照这一规律,本方法在统计出文档集中词的总数之后,取对数获得高频词的个数T。并将特证词集合记作S。
[0072]如果不是初次聚类,使用后文步骤9.2所述的特证词集合S’,更新维度信息T,详见后文描述。
[0073]向量空间表示的每一个维度都用平滑TFIDF计算,计算公式如下:
【权利要求】
1.一种基于交互式文档聚类的信息检索方法,其步骤包括: 1)按时间段对存储的文档集进行水平划分和预处理; 2)对预处理后的文档进行词频统计,并将高频词组成特证词集合; 3)根据所述特证词集合生成文档的向量空间表示,进而计算文档间的距离并生成相似度矩阵; 4)根据所述相似度矩阵生成拉普拉斯矩阵,并计算其特征值和特征向量; 5)根据特征值间隔确定聚类数及表示矩阵,并对所述聚类数及表示矩阵进行二次聚类; 6)用户对所述二次聚类的结果进行交互操作,使用卡方统计量挖掘新的特证词并添加至所述特证词集合,然后重复所述步骤3)至所述步骤5); 7)将聚类结果展示给用户,供用户进行选择并获得不同类别的检索结果。
2.如权利要求1所述的方法,其特征在于,所述文档的存储方式包括:数据库、XML文件、普通文件夹。
3.如权利要求1所述的方法,其特征在于,根据产生文档的频度确定所述水平划分的时间间隔。
4.如权利要求1所述的方法,其特征在于,所述预处理包括:分词、词性标注、去停用词、标签提取。
5.如权利要求1所述的方 法,其特征在于,采用精确方法或近似方法计算所述相似度。
6.如权利要求1所述的方法,其特征在于,采用K-Means方法进行所述二次聚类。
7.如权利要求1所述的方法,其特征在于,所述交互操作包括合并聚类簇操作和分裂聚类簇操作。
8.如权利要求1所述的方法,其特征在于,将聚类结果展示给用户时,将水平分割的文档集在时间维度上进行有条件的合并。
9.一种基于交互式文档聚类的信息检索系统,其特征在于,包括: 文档存储模块,用于存储文档集并保存运算结果; 文档集水平划分模块,负责按时间段对所述文档集进行水平划分; 文档预处理模块,负责对文档进行预处理; 词频统计模块,负责对水平划分和预处理后的文档进行词频统计; 文档向量空间表示模块,连接所述词频统计模块,负责将文档向量化并生成文档的向量空间表示; 文档间距计算模块,连接所述文档向量空间表示模块,用于计算文档间的距离并判断文档间的相似度; 聚类计算模块,连接所述文档间距计算模块,用于根据谱聚类计算方法对文档进行聚类; 用户交互模块,供用户进行交互操作,对聚类结果进行标注; 用户标注信息提取模块,连接所述用户交互模块,用于通过计算卡方统计量从用户标注信息中挖掘新的特征词,并将新的特征词输入至所述文档向量空间表示模块; 信息检索模块,连接所述聚类计算模块和所述用户交互模块,用于根据聚类结果进行信息检索并将检索结果展现给用户。
10.如权利要求9所述的系统,其特征在于:所述文档存储模块连接所述文档集水平划分模块,所述文档集水平划分模块连接所述文档预处理模块;或者所述文档存储模块连接所述文档预处理模块连接,所述文档预处理模块连接所述文档集水平划 分模块。
【文档编号】G06F17/30GK103514183SQ201210209911
【公开日】2014年1月15日 申请日期:2012年6月19日 优先权日:2012年6月19日
【发明者】黄威靖, 于倩, 陈薇, 王腾蛟, 杨冬青 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1