基于自信息的跨学科领域共现主题发现方法

文档序号：9417370阅读：362来源：国知局

基于自信息的跨学科领域共现主题发现方法
【技术领域】
[0001] 本发明涉及一种基于自信息的跨学科领域共现主题发现方法，属于文本挖掘 (Text Mining)领域。
【背景技术】
[0002] 近年来，主题发现作为文本挖掘领域的热门研究方向，受到越来越多的研究者的重视。主题发现可以从海量的非结构化文本中挖掘到关键的主题信息，可以更加高效的理解文本的主要内容，获取文本的深层语义信息。同时，主题发现还可以对主题进行更深层次的分析，发现文本中更多的潜在知识。
[0003] 现有的主题发现方法主要有主题模型以及词频统计的两种。主题模型是一种概率生成模型，在主题模型中主题作为隐变量，文档以及词项作为观测值。通过对模型的训练可以得到词项概率分布、以及主题概率分布。经过训练后的模型就可以将词项空间中的文档变换到主题空间，从而实现文档处理的降维，最终得到具有语义信息的主题集合。常用的主题模型主要有LSI [1，2]、PLSI [3, 4]、LDA[5]等。词频统计的方法则是通过对词在文档中以及文档集中的频率的计算来进行主题抽取，常用的方法有TF_IDF (term frequency -inverse document frequency)、互信息（Mutual Information)、信息增益、x2 统计量等。
[0004] 上述的主题发现方法具有很强的理论基础，在众多主题发现任务中均取得较好的效果。然而这些方法对于跨学科领域中的共现主题信息无法很好的抽取，因为对于评价类跨学科领域的文本，有时主题可能是由低频主题词而非高频词体现。现有的主题发现方法大多倾向于获取高频词，因而无法用来抽取具有低频特征的共现主题词，即低频主题词。此外，跨学科领域的共现主题发现研究具有重要的研究意义，因为通过这些共现主题可以从更宏观的角度来分析文本集，并且获得更多有意义的主题信息的规律。

【发明内容】

[0005] 本发明的目的是针对现有技术存在的不足，提供一种基于自信息的跨学科领域共现主题发现方法，为主题发现的相关研究提供新思路，可应用到评价类文档集的主题发现，从而实现不同学科领域文档集中得共现主题提取。
[0006] 为达到上述目的，本发明采用下述技术方案：一种基于自信息的跨学科领域共现主题发现方法，其特征在于操作步骤包括：
[0007] (1)、数据收集：收集高引文献作者关于其科研成功的自评文档集；
[0008] (2)、数据处理：提取和数字化自评中的正文部分；
[0009] (3)、抽取候选低频主题词；
[0010] (4)、计算低频主题评价系数；
[0011] (5)、设定低频主题词评价系数的阈值；
[0012] (6)、过滤低频主题词。
[0013] 上述步骤（1)所述为数据收集。从引文数据库SCI (Science Citation Index)的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。
[0014] 上述步骤（2)所述为数据处理。对文档集中自评的正文部分进行了提取和数字化。此外，还提取了 3类信息，自评的正文内容、自评的相关信息以及原高引文献的相关信息。
[0015] 本发明定义了低频主题词是能够充分体现主题信息，均匀出现且词频较低的非专业词。低频主题词的词频应当符合如下公式：
[0016]
[0017] 文档集D(D= W1Hi = [l，m]))中，文档Cl1中的词Wlj在D中出现的次数c' ^与它在文档Cl1中出现的次数c u之比应当等于与文档集D中的文档数目m相关的数值。当w ^ 不出现在文档di中，则值为零。
[0018] 上述步骤（3)所述为抽取候选低频主题词。通过定义的标记模式进行候选低频主题词。具体步骤是首先利用"自然语言工具集" NLTK (Natural Language Toolkit)作为工具处理自评的征文部分，然后结合1^^116731'；[11;03；[11，(：；[11(17]^.对高引经典文献作者自评的研究的结果定义标记模式，最后通过定义的标记模式进行抽取候选低频主题词。
[0019] 本发明定义低频主题词评价系数，是用于评估一个词均匀出现的程度的统计指标。在信息论中，信息被认为是可以量化的。在抽象含义上，认为发生概率低的事件所包含的信息量大。如果词W lj的信息量大，则它更加确定，对于文档或文档集而言确定性越高的词则越重要。
[0020] 上诉步骤（4)所诉为计算所有候选低频主题词的低频主题评价系数。具体步骤如下：
[0021] (41)、计算低频词对文档的信息量：~表示词Wl]对文档di的信息量。词在文档中出现的词频 Cl]与文档中总词数C i的比值近似的被看作为词在文档中出现的概率。
[0022]
[0023] (42)、计算低频词对文档集的信息量表示每个词对应的文档集信息量，词在文档集中出现的词频c'、,与文档中总词数
的比值近似的被看作为词在文档集中出现的概率。
[0024]
[0025] (43)、计算低频主题词评价系数：直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数％,, ° 越接近〇时所对应的',越可能是低频主题词。 LlN 丄Λ rVJ Ij ?/? }J\
[0026]
[0027] 上述步骤（5)所述为设定低频主题词评价系数阈值。设定的阈值要确保低频主题词的提取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过多的非低频主题 1·^] 〇
[0028] 上述步骤（6)所述为过滤低频主题词。自评篇幅较小，高频词是专业词的可能性较大，所以去除大部分专业词，从而提高查准率。再通过人工标记的方式去除未明显指向主题的词组，从而对结果进行优化。
[0029] 本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：（1)该方法可以用来分析跨多个学科领域的文本中的共现主题，不需要对任何领域的测试集进行特殊的预处理。（2)该方法通过对词以及词组关于自信息的计算分析来发现主题。算法的复杂度低，能够更加直接的获取跨学科领域文本集中的共现主题信息。（3)该方法可用来处理任何语言的文本，具有极强的可移植性、以及可扩展性。（4)与以往的文本信息抽取中以高频信息为主不同，该方法主要用来抽取词频相对偏低但是均匀出现，有重要研究价值的信息。
【附图说明】
[0030] 图1为本发明的基于自信息的跨学科领域共现主题发现方法的操作程序框图
【具体实施方式】
[0031] 下面结合说明书附图和优选实施例对本发明作进一步详细的说明。
[0032] 实施例一：
[0033] 参考图1，本基于自信息的跨学科领域共现主题发现，其特征在于：操作步骤包括：
[0034] (1)、数据收集：收集高引文献作者关于其科研成功的自评文档集；
[0035] (2)、数据处理：提取和数字化自评中的正文部分；
[0036] (3)、抽取候选低频主题词；
[0037] (4)、计算低频主题评价系数；
[0038] (5)、设定低频主题词评价系数的阈值；
[0039] (6)、过滤低频主题词。
[0040] 实施例二：本实施例与实施例一基本相同，特别之处如下：
[0041] 所述步骤（1)数据收集的具体操作是：从引文数据库SCI的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。
[0042] 所述步骤（2)数据处理的具体操作是：对文档集中文本进行了数字化和提取；此外，还提取了 3类信息：自评的正文内容、自评的相关信息以及原高引文献的相关信息。
[0043] 所述步骤（3)抽取候选低频主题词的具体操作是：首先利用"自然语言工具集" NLTK文献作为工具处理自评的正文部分，然后结合Leahey, Erin ;Cain, Cindy L.对高引经典文献作者自评的研究的结果定义标记模式，最后通过定义的标记模式进行抽取候选低频主题词。
[0044] 所述步骤（4)计算低频主题评价系数的具体操作如下：
[0045] (41)首先计算低频词对文档的信息量：表示词Wu对文档di的信息量，c ^表示词在文档中出现的词频

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏晴;周文;张亚军;刘孟;
技术所有人：上海大学;
我是此专利的发明人

上一篇：一种面向跨领域知识发现的主题挖掘方法
上一篇：基于有向超图的移动社交网络数据分片方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。