基于自信息的跨学科领域共现主题发现方法

文档序号:9417370阅读:362来源:国知局
基于自信息的跨学科领域共现主题发现方法
【技术领域】
[0001] 本发明涉及一种基于自信息的跨学科领域共现主题发现方法,属于文本挖掘 (Text Mining)领域。
【背景技术】
[0002] 近年来,主题发现作为文本挖掘领域的热门研究方向,受到越来越多的研究者的 重视。主题发现可以从海量的非结构化文本中挖掘到关键的主题信息,可以更加高效的理 解文本的主要内容,获取文本的深层语义信息。同时,主题发现还可以对主题进行更深层次 的分析,发现文本中更多的潜在知识。
[0003] 现有的主题发现方法主要有主题模型以及词频统计的两种。主题模型是一种概率 生成模型,在主题模型中主题作为隐变量,文档以及词项作为观测值。通过对模型的训练可 以得到词项概率分布、以及主题概率分布。经过训练后的模型就可以将词项空间中的文档 变换到主题空间,从而实现文档处理的降维,最终得到具有语义信息的主题集合。常用的 主题模型主要有LSI [1,2]、PLSI [3, 4]、LDA[5]等。词频统计的方法则是通过对词在文档 中以及文档集中的频率的计算来进行主题抽取,常用的方法有TF_IDF (term frequency -inverse document frequency)、互信息(Mutual Information)、信息增益、x2 统计量等。
[0004] 上述的主题发现方法具有很强的理论基础,在众多主题发现任务中均取得较好的 效果。然而这些方法对于跨学科领域中的共现主题信息无法很好的抽取,因为对于评价类 跨学科领域的文本,有时主题可能是由低频主题词而非高频词体现。现有的主题发现方法 大多倾向于获取高频词,因而无法用来抽取具有低频特征的共现主题词,即低频主题词。此 外,跨学科领域的共现主题发现研究具有重要的研究意义,因为通过这些共现主题可以从 更宏观的角度来分析文本集,并且获得更多有意义的主题信息的规律。

【发明内容】

[0005] 本发明的目的是针对现有技术存在的不足,提供一种基于自信息的跨学科领域共 现主题发现方法,为主题发现的相关研究提供新思路,可应用到评价类文档集的主题发现, 从而实现不同学科领域文档集中得共现主题提取。
[0006] 为达到上述目的,本发明采用下述技术方案:一种基于自信息的跨学科领域共现 主题发现方法,其特征在于操作步骤包括:
[0007] (1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;
[0008] (2)、数据处理:提取和数字化自评中的正文部分;
[0009] (3)、抽取候选低频主题词;
[0010] (4)、计算低频主题评价系数;
[0011] (5)、设定低频主题词评价系数的阈值;
[0012] (6)、过滤低频主题词。
[0013] 上述步骤(1)所述为数据收集。从引文数据库SCI (Science Citation Index)的 创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收 集到3790篇高引经典文献的作者自评文档集。
[0014] 上述步骤(2)所述为数据处理。对文档集中自评的正文部分进行了提取和数字 化。此外,还提取了 3类信息,自评的正文内容、自评的相关信息以及原高引文献的相关信 息。
[0015] 本发明定义了低频主题词是能够充分体现主题信息,均匀出现且词频较低的非专 业词。低频主题词的词频应当符合如下公式:
[0016]
[0017] 文档集D(D= W1Hi = [l,m]))中,文档Cl1中的词Wlj在D中出现的次数c' ^与 它在文档Cl1中出现的次数c u之比应当等于与文档集D中的文档数目m相关的数值。当w ^ 不出现在文档di中,则值为零。
[0018] 上述步骤(3)所述为抽取候选低频主题词。通过定义的标记模式进行候选低频主 题词。具体步骤是首先利用"自然语言工具集" NLTK (Natural Language Toolkit)作为工 具处理自评的征文部分,然后结合1^^116731';[11;03;[11,(:;[11(17]^.对高引经典文献作者自评 的研究的结果定义标记模式,最后通过定义的标记模式进行抽取候选低频主题词。
[0019] 本发明定义低频主题词评价系数,是用于评估一个词均匀出现的程度的统计指 标。在信息论中,信息被认为是可以量化的。在抽象含义上,认为发生概率低的事件所包含 的信息量大。如果词W lj的信息量大,则它更加确定,对于文档或文档集而言确定性越高的 词则越重要。
[0020] 上诉步骤(4)所诉为计算所有候选低频主题词的低频主题评价系数。具体步骤如 下:
[0021] (41)、计算低频词对文档的信息量:~表示词Wl]对文档di的信息量。词在文档 中出现的词频 Cl]与文档中总词数C i的比值近似的被看作为词在文档中出现的概率。
[0022]
[0023] (42)、计算低频词对文档集的信息量表示每个词对应的文档集信息量,词在 文档集中出现的词频c'、,与文档中总词数
的比值近似的被看作为词在文档集中出现 的概率。
[0024]
[0025] (43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量的差值 来计算低频主题词评价系数%,, ° 越接近〇时所对应的',越可能是低频主题词。 LlN 丄Λ rVJ Ij ?/? }J\
[0026]
[0027] 上述步骤(5)所述为设定低频主题词评价系数阈值。设定的阈值要确保低频主题 词的提取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过多的非低频主题 1·^] 〇
[0028] 上述步骤(6)所述为过滤低频主题词。自评篇幅较小,高频词是专业词的可能性 较大,所以去除大部分专业词,从而提高查准率。再通过人工标记的方式去除未明显指向主 题的词组,从而对结果进行优化。
[0029] 本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进 步:(1)该方法可以用来分析跨多个学科领域的文本中的共现主题,不需要对任何领域的 测试集进行特殊的预处理。(2)该方法通过对词以及词组关于自信息的计算分析来发现主 题。算法的复杂度低,能够更加直接的获取跨学科领域文本集中的共现主题信息。(3)该方 法可用来处理任何语言的文本,具有极强的可移植性、以及可扩展性。(4)与以往的文本信 息抽取中以高频信息为主不同,该方法主要用来抽取词频相对偏低但是均匀出现,有重要 研究价值的信息。
【附图说明】
[0030] 图1为本发明的基于自信息的跨学科领域共现主题发现方法的操作程序框图
【具体实施方式】
[0031] 下面结合说明书附图和优选实施例对本发明作进一步详细的说明。
[0032] 实施例一:
[0033] 参考图1,本基于自信息的跨学科领域共现主题发现,其特征在于:操作步骤包 括:
[0034] (1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;
[0035] (2)、数据处理:提取和数字化自评中的正文部分;
[0036] (3)、抽取候选低频主题词;
[0037] (4)、计算低频主题评价系数;
[0038] (5)、设定低频主题词评价系数的阈值;
[0039] (6)、过滤低频主题词。
[0040] 实施例二:本实施例与实施例一基本相同,特别之处如下:
[0041] 所述步骤(1)数据收集的具体操作是:从引文数据库SCI的创始人加菲尔德所征 集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典 文献的作者自评文档集。
[0042] 所述步骤(2)数据处理的具体操作是:对文档集中文本进行了数字化和提取;此 外,还提取了 3类信息:自评的正文内容、自评的相关信息以及原高引文献的相关信息。
[0043] 所述步骤(3)抽取候选低频主题词的具体操作是:首先利用"自然语言工具 集" NLTK文献作为工具处理自评的正文部分,然后结合Leahey, Erin ;Cain, Cindy L.对高 引经典文献作者自评的研究的结果定义标记模式,最后通过定义的标记模式进行抽取候选 低频主题词。
[0044] 所述步骤(4)计算低频主题评价系数的具体操作如下:
[0045] (41)首先计算低频词对文档的信息量:表示词Wu对文档di的信息量,c ^表 示词在文档中出现的词频
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1