一种面向跨领域知识发现的主题挖掘方法

文档序号:9417371阅读:335来源:国知局
一种面向跨领域知识发现的主题挖掘方法
【技术领域】
[0001]本发明属于计算机文本挖掘技术领域,涉及主题模型技术,具体涉及一种面向跨领域知识发现的主题挖掘方法。
【背景技术】
[0002]随着互联网的发展,越来越多的网络平台的出现使文本资源成爆炸式的增长,而庞大的数据量和复杂的分析过程往往使用户获取所需要知识的过程变得很困难。例如,当人们想要在社交网络中寻找当地有价值的新闻事件或者热门话题,人们只能通过关键词的搜索来帮助自己找到想要获得的信息,但是,往往这样的检索方式是效率非常低下的,人们常常会尝试大量的搜索关键词,或者,浏览大量的搜索结果才有可能找到自己想要的信息。为了有效地提升用户获取信息的效率,出现了文本挖掘技术,来帮助人们组织和管理文本信息。目前主要的文本挖掘技术有传统的主题模型技术,有监督的主题模型技术和跨领域的主题模型技术等。
[0003]这些技术各自存在优缺点,现总结如下:
[0004]1.传统的主题挖掘技术基于概率统计的混合模型,对文本信息进行建模,使得模型能够自动挖掘出文本中潜在的语义信息,使用户能够快速的了解文本中所涉及的内容。通过主题模型,不仅能够获得文本集合中主要涉及的信息,而且能够获得每篇文档中的内容信息。常见的主题模型有概率潜在语义分析(Probabilistic Latent SemanticAnalysis, PLSA)模型[I]和潜在狄利克雷分配(Latent Dirichlet Allocat1n, LDA)模型
[2]。但该类技术仅考虑文本集合中的文本信息,其他有用的信息,如文本的类别信息等,无法被利用起来。
[0005]2.有监督的主题挖掘技术在传统的主题挖掘技术上,将文本的类别信息融合到主题挖掘的过程中,使具有相同特征的文本尽量涵盖相同的主题,进而提高主题挖掘的能力。这些具有先验知识的主题模型将先验知识通过不同的方法融合到无监督的主题挖掘中。在文档层面的先验知识融入到主题模型中的工作有Blei提出的有监督的潜在狄利克雷分配(supervised Latent Dirichlet Allocat1n, sLDA)模型[3],该模型利用文本的类标,作为相应变量融入到主题模型中,并通过一般线性模型进行建模。其引入的文本类标信息提升了文本的主题特征表示,进而更好地服务于分类和回归问题。Ramage提出了有标签的潜在狄利克雷分配(labeled Latent Dirichlet Allocat1n, 1LDA)模型[4],该模型在潜在主题与文档类标之间直接建立--对应的映射关系,有效地解决了多标签文本集合中存在的归属问题。但这类主题挖掘方法对文本数据有较高的要求,有时甚至需要更多的人力资源来提供所需的有监督的信息。
[0006]3.跨领域的文本挖掘技术主要解决自动抽取不同领域的文本潜在语义信息中相似性与差异性的问题。主要工作有Zhai提出的跨领域混合模型(Cross-Collect1nMixture Model, CCMix) [5],该模型能够挖掘出在不同领域下,所共同出现的主题信息,同时,针对这些共同出现的主题信息,找出这些信息中的公共部分和每个领域所特殊的部分。Paul在这个工作的基础上,提出了跨领域潜在狄利克雷分配(cross-collect1n LatentDirichlet Allocat1n, ccLDA)模型[6],将ccMix从PLSA的框架下转换到LDA的框架下,这使得模型具有了 LDA的优越性,即能够对新到来的文本进行推断。另外,该模型还减少了ccMix中的参数数量,使得,模型参数不会随着文本数据的增加而增加,模型能够更好地根据文本固有的特征进行文本挖掘。但是跨领域主题模型无法利用不同领域的信息帮助用户筛选出所需要的信息。
[0007]参考文献
[0008][I]Hofmann T.Probabilistic latent semantic indexing.Proceedings of the22nd annual internat1nal ACM SIGIR conference on Research and development ininformat1n retrieval.ACM, 1999:50_57o
[0009][2]Blei D Mj Ng A Yj Jordan M 1.Latent dirichlet allocat1n.The Journalof machine Learning research,2003,3:993_1022o
[0010][3]Mcauliffe J Dj Blei D M.Supervised topic models.Advances in neuralinformat1n processing systems.2008:121-1280
[0011][4]Ramage Dj Hall D,Nallapati R,et al.Labeled LDA:A supervised topicmodel for credit attribut1n in mult1-labeled corpora.Proceedings of the2009Conference on Empirical Methods in Natural Language Processing:Volume1-Volume 1.Associat1n for Computat1nal Linguistics,2009:248_2560
[0012][5]Zhai C Xj Velivelli A,Yu B.A cross-collect1n mixture model forcomparative text mining.Proceedings of the tenth ACM SIGKDD internat1nalconference on Knowledge discovery and data mining.ACM, 2004:743-7480
[0013][6]Paul M.Cross-collect1n topic models:AutomaticalIy comparing andcontrasting text.Urbanaj2009,51:618010

【发明内容】

[0014]本发明旨在至少解决上述技术问题之一。
[0015]为此,本发明的目的在于提出一种面向跨领域知识发现的主题挖掘方法。
[0016]为了实现上述目的,本发明一方面的实施例公开了一种面向跨领域知识发现的主题挖掘方法,包括以下步骤:A:对于给定的有类标的文本数据集,构建源领域文本集合;对于给定的没有类标的文本数据集,构建目标领域集合:从所述源领域文本集合抽取每个类别下文本的潜在类别特征信息,将所述潜在类别特征信息建模在风格潜在组件中;从所述源领域文本集合抽取文本中潜在语义信息,建模在主题潜在组件中;C:从所述目标领域集合抽取出所有文本的潜在特征信息和潜在语义信息;D:根据所述风格潜在组件和从所述目标领域集合抽取的潜在特征信息,将所述目标领域集合中的所述文本自动聚合在所述风格潜在组件中;根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息,将所述目标领域集合的语义信息建模在所述主题潜在组件中;以及E:建模所述目标领域集合的语义信息的主题潜在组件。
[0017]根据本发明实施例的一种面向跨领域知识发现的主题挖掘方法,自动挖掘源领域文本特征,这些特征可以用于目标领域中文本的识别和分类;将源领域的文本特征信息有效地迀移到目标领域的文本聚类之中,使得聚类的过程更准确;自动过滤掉目标文本中的与源文本相似的内容,能够对源领域文本和目标领域文本的内容进行建模,并对内容的相似性和不同性进行判别,从而找出目标领域中与源领域不同文本内容。
[0018]另外,根据本发明上述实施例的一种面向跨领域知识发现的主题挖掘方法,还可以具有如下附加的技术特征:
[0019]进一步地,在步骤A和步骤B之间还包括:AB:对所述源领域文本集合和所述目标领域集合中的文本数据进行预处理。
[0020]进一步地,所述预处理包括停用词处理和文本去词根化处理。
[0021]进一步地,在步骤D中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1