一种基于句法特征的学术定义自动抽取系统及方法

文档序号：8258502阅读：326来源：国知局

一种基于句法特征的学术定义自动抽取系统及方法
【技术领域】
[0001] 本发明属于信息技术领域，尤其涉及一种基于句法特征的学术定义自动抽取系统及方法。
【背景技术】
[0002] 对于学术文献，用户希望能够快速、准确地检索出自己所要查找的内容并迅速理解。但由于学术文献自身的特点，专业术语和新词术语的大量出现，导致用户需要随检索出的文献进行研究分析，找出该关键词所出现的句子进行认真研究、理解。而这个过程是十分低效的。
[0003] 现有对句子定义自动抽取的研究工作，最近几年才开始活跃起来。其中，多采用基于规则的方法。即通过总结出定义常用的几种模式构造模板进行句子匹配的方法。但由于模板覆盖度问题，导致召回率很低。另外，也有采用基于统计的方法，即利用统计学中的模型、算法进行计算，找出符合统计规律的定义句子。但这种方法没有从句法层面进行分析，导致准确率较低。

【发明内容】

[0004] 为解决上述技术问题，本发明的目的是提供一种基于句法特征的学术定义自动抽取系统及方法。
[0005] 本发明的目的通过以下的技术方案来实现：
[0006] -种基于句法特征的学术定义自动抽取系统，该系统包括：
[0007] 预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，所述
[0008] 预处理模块，用于对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；
[0009] 定义句抽取模块，采用规则和统计法判断所述单句是否为定义句；
[0010] 定义术语抽取模块，将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；
[0011] 输出模块，用于输出定义术语。
[0012] 一种基于句法特征的学术定义自动抽取方法，该方法包括：
[0013] 对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；
[0014] 采用规则和统计法判断所述单句是否为定义句；
[0015] 将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；
[0016] 输出定义术语。
[0017] 与现有技术相比，本发明的一个或多个实施例可以具有如下优点：
[0018] 本发明将文献中表示定义的句子和对应的术语词抽取出来，并呈现给用户，方便用户快速、准确的理解检索出的内容。且本申请文件提出了在规则模板的基础上，基于句法特征的学术定义自动抽取方法。该方法综合了基于规则和统计方法的优点，并从句法结构的层面上对学术文献句子进行研究。
【附图说明】
[0019] 图1是基于句法特征的学术定义自动抽取系统结构图；
[0020] 图2是基于规则的定义句抽取方法流程图；
[0021] 图3是基于统计法的定义句抽取流程图；
[0022] 图4是定义术语抽取流程图。
【具体实施方式】
[0023] 为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。
[0024] 如图1所示，为基于句法特征的学术定义自动抽取系统结构，包括：所述系统包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，所述
[0025] 预处理模块，用于对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；利用分词工具和句法分析工具进行分词、词性标注、句法分析等工作。
[0026] 定义句抽取模块，采用规则和统计法判断所述单句是否为定义句；
[0027] 定义术语抽取模块，将判断为定义的单句进行预处理，将其中有分割作用的字符串进行标记，比如"所谓"、"称为"、"定义为"、"称之为"等，其次，根据术语词抽取模板，将特定位置上的词串抽取出来作为候选定义术语，最后，利用通过统计高频术语得到的前邻词和后邻词表，将候选定义术语中不是术语词的组成部分去除，得到定义术语（如图4所示）；上述对判断为定义的单句进行预处理包括：对输入的学术文献进行摘要和全文的抽取，并对获取的整段语料进行分句；上述特定位置的词串是指表3模板中第一个（.* ?)和表4 模板中第二个（.*?)匹配的词串抽取出来作为术语词；
[0028] 输出模块，用于输出定义术语。
[0029] 上述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配，如表1为定义句子肯定模板；表2为定义句子否定模板。
[0030] 表 1
[0031]
【主权项】
1. 一种基于句法特征的学术定义自动抽取系统，其特征在于，所述系统包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，所述预处理模块，用于对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；定义句抽取模块，采用规则和统计法判断所述单句是否为定义句；定义术语抽取模块，将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；输出模块，用于输出定义术语。
2. 如权利要求1所述的基于句法特征的学术定义自动抽取系统，其特征在于，所述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配。
3. 如权利要求1所述的基于句法特征的学术定义自动抽取系统，其特征在于，所述统计法是对每个单句进行N元句子特征抽取和句法特征抽取，并计算N元句子特征和句法特征的概率，根据所述概率定义判断函数。
4. 如权利要求3所述的基于句法特征的学术定义自动抽取系统，其特征在于，所述N元句子特征包括一元特征和二元特征；所述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词后词性和联项词距离句首的位置；所述二元特征为所述一元特征与联项词特征的组合。
5. 如权利要求3所述的基于句法特征的学术定义自动抽取系统，其特征在于，所述句法特征包括一元句法特征和二元句法特征；所述一元句法特征包括；句子中第一个动词、第一个动词前的短语类型、第一个动词后的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语；所述二元句法特征包括；句子中第一个动词和第一个动词前短语类型的组合、句子中第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合 W及最后一个动词和最后一个动词后短语的组合。
6. 如权利要求3所述的基于句法特征的学术定义自动抽取系统，其特征在于，所述定义判断函数是将N元特征和句法特征分为两类统计，得到句子特征是定义的概率和不是定义的概率W及句法特征是定义的概率和不是定义的概率；及确定定义判断函数中N元特征权重。
7. -种基于句法特征的学术定义自动抽取方法，其特征在于，所述方法包括：对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；采用规则和统计法判断所述单句是否为定义句；将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；输出定义术语。
8. 如权利要求7所述的基于句法特征的学术定义自动抽取方法，其特征在于，所述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配；若肯定模板匹配不成功，则认为不是定义句；若肯定模板匹配成功，则进行否定规则模板匹配；若否定规则模板匹配失败，则认为是定义句，并输出。
9. 如权利要求7所述的基于句法特征的学术定义自动抽取方法，其特征在于，对所述预处理后的单句进行N元句子特征抽取和句法特征抽取，并计算N元句子特征概率和句法特征概率，根据所述概率定义判断函数，函数是否判断成功，若成功，则输出定义句，否则，不输出定义句。
10. 如权利要求9所述的基于句法特征的学术定义自动抽取方法，其特征在于，所述所述N元句子特征包括一元特征和二元特征；所述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词后词性和联项词距离句首的位置；所述二元特征为所述一元特征与联项词特征的组合；所述句法特征包括一元句法特征和二元句法特征；所述一元句法特征包括；句子中第一个动词、第一个动词前的短语类型、第一个动词后的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语；所述二元句法特征包括；句子中第一个动词和第一个动词前短语类型的组合、句子中第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合 W及最后一个动词和最后一个动词后短语的组合。
【专利摘要】本发明公开了一种基于句法特征的学术定义自动抽取系统及方法，所述系统包括：所述系统包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块，所述预处理模块，用于对输入的学术文献抽取摘要和全文部分，并将抽取的摘要和全文分成单句；定义句抽取模块，采用规则和统计法判断所述单句是否为定义句；定义术语抽取模块，将判断为定义的单句进行预处理，并根据术语词抽取模板，抽取词串作为术语词，并通过前后邻的词串修正，得到定义术语；输出模块，用于输出定义术语。发明将文献中表示定义的句子和对应的术语词抽取出来，并呈现给用户，方便用户快速、准确的理解检索出的内容。
【IPC分类】G06F17-27
【公开号】CN104572628
【申请号】CN201510059166
【发明人】赵纪元, 罗霄, 杜玉锋
【申请人】《中国学术期刊（光盘版）》电子杂志社有限公司, 同方知网(北京)技术有限公司, 山西同方知网数字出版技术有限公司
【公开日】2015年4月29日
【申请日】2015年2月5日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵纪元;罗霄;杜玉锋;
技术所有人：《中国学术期刊（光盘版）》电子杂志社有限公司;同方知网（北京）技术有限公司;山西同方知网数字出版技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。