一种自动挖掘对应施引片段和被引文献原文内容片段的方法与流程

文档序号:11864653阅读:580来源:国知局

本发明属于自然语言处理中的信息抽取和文献计量学中的引用内容提取分析领域,尤其涉及一种自动挖掘对应施引片段和被引文献原文内容片段的方法。



背景技术:

现有目前文献计量学领域研究引用关系只利用论文的引用次数,文献题录等信息,没有对论文中具体引用内容信息进行深层次的分析利用。基于以上不足,本发明利用自然语言处理技术,分析科技论文,提出并实现了一种对科技论文施引片段和被引文献原文进行内容分析,挖掘发现其对应关系的方法系统..本发明填补了目前引用关系研究在内容分析层面的空白,同时挖掘对应出的内容片段还可以作为后续研究论文热点被引所在,论文价值分析的基础。

论文之间的引用关系反映了科学技术发展传承的过程,论文中的施引内容也是后来研究者对于之前研究所做出的天然的同行评议,能够客观而全面的反映论文具体的价值点所在和价值几何。例如Anderson分析了组织学习领域中Walsh和Ungson的一篇经典文章被引的情况,分析结果包括后续的研究具体引用了这篇文章中的哪些知识,在这些知识中哪些对以后研究具有重大影响以及哪些知识被人们所批判,所有的这些对于施引内容的分析构成了对这篇经典文献的综合评价,而这些评价结果是不能简单通过引用频次来揭示的,必须对施引的具体内容进行分析.在其工作中,非常重要的一个基础就是需要发现后续论文具体引用了原文献的哪些内容,也就是需要挖掘对应出论文施引片段和被引文献相应的原文内容片段。很明显,这样的工作如果通过人工来完成,必然是费时费力,不具备大规模应用的现实可行性.针对该问题,我们研究了目前现有的相关技术及其不足。

最直接也是最天然的对应方法是采用人工阅读文献,进行施引片段和原文内容的对应,该方法准确率可以得到保证,然而如上所述,由于耗费人工过多和一致性的问题,并不适合大规模使用。目前该方法一般用作形成标准测评集,用以评价判断自动抽取结果的性能。

目前国内对于自动对应施引片段和被引文献原文内容片段研究较少,已知的方法有基于连续字符串的n-gram方法,通过比对施引片段和被引文献的句子,如果其中存在连续n个字符相同,则判断它们为对应内容,并将被引文献中相应的句子抽出。该方法的特点在于简便易行,然而只考虑了n个连续字符,判断标准过于简单,如果相关内容被诸如‘的’等无意义连词分开,就无法实现对应。在实践中,该方法也是表现出了较高的准确率然而召回率表现不佳。

国外现有的处理方法主要是bag-of-words方法,即所谓词袋模型。首先通过大规模语料得到一定数量词语作为特征向量,然后通过这些特征向量来表现施引片段和被引文献的句子,接下来计算施引片段和句子的相似度,即可得到相似度最高的句子作为对应内容。该方法使用了较为成熟的技术,其不足在于事先需要较大规模语料训练得出词语特征向量,同时特征向量的选择对于结果有较大影响,造成性能波动较大。



技术实现要素:

为解决上述技术问题,本发明的目的是提供一种自动挖掘对应施引片段和被引文献原文内容片段的方法,该方法无需预先准备语料训练,计算复杂度较低,能灵活实现多种相似度计算方法,实现了较高的准确率和召回率。

本发明的目的通过以下的技术方案来实现:

一种自动挖掘对应施引片段和被引文献原文内容片段的方法,包括:

A从论文中抽取引用了参考文献的句子作为施引片段;

B对施引片断所引用的参考文献进行分句并编号;

C对施引片断中和参考文献中的每个句子进行分词,形成施引片断词组和参考文献句子词组,并计算施引片断和参考文献句子的相似度;

D根据计算的句子的相似度,对句子进行排序,并抽取出和施引片断相似度排在第一位的参考文献中的句子,将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

使用三组规则对论文句子进行切分,有效解决了英文句号的歧义问题,为后续抽取工作打下良好基础。

基于分词的句子相似度计算方法,通过对句子分词,形成词组串,计算词组串中的相同词语来计算句子的相似度,该方法计算复杂度较低,一方面避免了词袋法需要预先大规模语料训练的缺点,另一方面也克服了基于连续字符串方法过于机械,无法处理一些简单变化的情况。

基于句子相似度计算的施引片段和被引文献原文内容片段对应方法,本方法简单易行,对应挖掘效果良好。

附图说明

图1是自动挖掘对应施引片段和被引文献原文内容片段的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。

相关概念描述:

施引片段:论文正文中以明确方式引用了参考文献的句子,句子的分隔符号为中英文句号.

参考文献:论文正文后以顺序编码方式列出的被引用文献及相关信息,不包括尾注,脚注等其他形式.

被引文献原文内容片段:参考文献正文中的句子,句子的分隔符号为中英文句号.

如图1所示,为自动挖掘对应施引片段和被引文献原文内容片段的方法流程,所述方法包括:

步骤10从论文中抽取引用了参考文献的句子作为施引片段;

从论文中抽取出以明确方式引用了参考文献的句子作为施引片段,句子的分隔符号为中英文句号。

步骤20对施引片断所引用的参考文献进行分句并编号;

根据中英文句号将参考文献切分为句子,并将将句子编号为A{S1…Sj}。由于英文句号与数学小数点,e.g等特殊符号相同,故设计如下分步处理方法:依次通过三个正则表达式来判断是否应当分句.

‘(?!\D\.\))(?!\D\.\])(?!l\.,)(?!e\.g)(?![A-Z]\.\D)(\D\.(?!@)\D)’

‘(?!e\.\d)(?!g\.\d)(\D\.(?!@)\d)’

‘。’

步骤30对施引片断中和参考文献中的每个句子进行分词,形成施引片断词组和参考文献句子词组,并计算施引片断和参考文献句子的相似度;

对施引片段和参考文献中的每个句子进行分词,形成施引片段词组Cn{w1…wm}和参考文献句子词组Sj{w1…wk},逐个计算施引片断和参考文献句子的相似度,具体计算方法如下:

Sim=len(Sj{w1…wk}∩Cn{w1…wm})*2/(len(Sj{w1…wk})+len(Cn{w1…wm}))

在上述公式中

len(Sj{w1…wk}∩Cn{w1…wm})为参考文献的一个句子Sj和施引片断Cn相同的词语数目

len(Sj{w1…wk})为参考文献中某个句子Sj的词语数目

len(Cn{w1…wm})为引文片断Cn的词语数目。

步骤40根据计算的句子的相似度,对句子进行排序,并抽取出和施引片断相似度排在第一位的参考文献中的句子,将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。

相似度计算实例说明

(1)施引片段:

王新安等[16]研究发现大菱鲆的体重主要由体长、体高和体厚3个长度性状决定。

(2)参考文献句子:

S1.S2…说明所保留的大菱鲆表型性状全长、体高、体厚是影响体重的重点性状,其它尚未测度的性状和已剔除的性状对体重的影响相对较小。…Sn-1.Sn

(3)施引片段分词

王/n新安/n等/u[/w 16/m]/w研究/v发现/v大/a菱/n鲆/x的/u体重/n主要/d由/p体/n长/a、/w体/n高/a和/c体/n厚/a 3/n个/q长度/n性状/n决定/v./w len=29

(4)参考文献句子分词:

说明/v所/u保留/v的/u大/a菱/g鲆/x表型/n性状/n全长/n、/w体/g高/a、/w体/g厚/a是/v影响/v体重/n的/u重点/n性状/n,/w其它/r尚未/d测度/v的/u性状/n和/c已/d剔除/v的/u性状/n对/p体重/n的/u影响/v相对/d较/d小/a。/w len=41。

(5)相同词语:

大/a菱/n鲆/x的/u体重/n体/n体/n高/a体/n厚/a性状/n len=11

(6)句子相似度

Sim=11*2/(29+41)=0.3142

上述实施例提供的方法无需预先准备语料训练,计算复杂度较低,能灵活实现多种相似度计算方法,实现了较高的准确率和召回率,其准确率和召回率分别达到27.3%、77.8%。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1