一种基于句法特征的学术定义自动抽取系统及方法

文档序号:8258502阅读:326来源:国知局
一种基于句法特征的学术定义自动抽取系统及方法
【技术领域】
[0001] 本发明属于信息技术领域,尤其涉及一种基于句法特征的学术定义自动抽取系统 及方法。
【背景技术】
[0002] 对于学术文献,用户希望能够快速、准确地检索出自己所要查找的内容并迅速理 解。但由于学术文献自身的特点,专业术语和新词术语的大量出现,导致用户需要随检索出 的文献进行研究分析,找出该关键词所出现的句子进行认真研究、理解。而这个过程是十分 低效的。
[0003] 现有对句子定义自动抽取的研究工作,最近几年才开始活跃起来。其中,多采用基 于规则的方法。即通过总结出定义常用的几种模式构造模板进行句子匹配的方法。但由于 模板覆盖度问题,导致召回率很低。另外,也有采用基于统计的方法,即利用统计学中的模 型、算法进行计算,找出符合统计规律的定义句子。但这种方法没有从句法层面进行分析, 导致准确率较低。

【发明内容】

[0004] 为解决上述技术问题,本发明的目的是提供一种基于句法特征的学术定义自动抽 取系统及方法。
[0005] 本发明的目的通过以下的技术方案来实现:
[0006] -种基于句法特征的学术定义自动抽取系统,该系统包括:
[0007] 预处理模块、定义句抽取模块、定义术语抽取模块和输出模块,所述
[0008] 预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全 文分成单句;
[0009] 定义句抽取模块,采用规则和统计法判断所述单句是否为定义句;
[0010] 定义术语抽取模块,将判断为定义的单句进行预处理,并根据术语词抽取模板,抽 取词串作为术语词,并通过前后邻的词串修正,得到定义术语;
[0011] 输出模块,用于输出定义术语。
[0012] 一种基于句法特征的学术定义自动抽取方法,该方法包括:
[0013] 对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;
[0014] 采用规则和统计法判断所述单句是否为定义句;
[0015] 将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词, 并通过前后邻的词串修正,得到定义术语;
[0016] 输出定义术语。
[0017] 与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
[0018] 本发明将文献中表示定义的句子和对应的术语词抽取出来,并呈现给用户,方便 用户快速、准确的理解检索出的内容。且本申请文件提出了在规则模板的基础上,基于句法 特征的学术定义自动抽取方法。该方法综合了基于规则和统计方法的优点,并从句法结构 的层面上对学术文献句子进行研究。
【附图说明】
[0019] 图1是基于句法特征的学术定义自动抽取系统结构图;
[0020] 图2是基于规则的定义句抽取方法流程图;
[0021] 图3是基于统计法的定义句抽取流程图;
[0022] 图4是定义术语抽取流程图。
【具体实施方式】
[0023] 为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发 明作进一步详细的描述。
[0024] 如图1所示,为基于句法特征的学术定义自动抽取系统结构,包括:所述系统包括 预处理模块、定义句抽取模块、定义术语抽取模块和输出模块,所述
[0025] 预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全 文分成单句;利用分词工具和句法分析工具进行分词、词性标注、句法分析等工作。
[0026] 定义句抽取模块,采用规则和统计法判断所述单句是否为定义句;
[0027] 定义术语抽取模块,将判断为定义的单句进行预处理,将其中有分割作用的字符 串进行标记,比如"所谓"、"称为"、"定义为"、"称之为"等,其次,根据术语词抽取模板,将特 定位置上的词串抽取出来作为候选定义术语,最后,利用通过统计高频术语得到的前邻词 和后邻词表,将候选定义术语中不是术语词的组成部分去除,得到定义术语(如图4所示); 上述对判断为定义的单句进行预处理包括:对输入的学术文献进行摘要和全文的抽取,并 对获取的整段语料进行分句;上述特定位置的词串是指表3模板中第一个(.* ?)和表4 模板中第二个(.*?)匹配的词串抽取出来作为术语词;
[0028] 输出模块,用于输出定义术语。
[0029] 上述规则法是对每个单句进行肯定模板匹配或/和否定模板匹配,如表1为定义 句子肯定模板;表2为定义句子否定模板。
[0030] 表 1
[0031]
【主权项】
1. 一种基于句法特征的学术定义自动抽取系统,其特征在于,所述系统包括预处理模 块、定义句抽取模块、定义术语抽取模块和输出模块,所述 预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分 成单句; 定义句抽取模块,采用规则和统计法判断所述单句是否为定义句; 定义术语抽取模块,将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词 串作为术语词,并通过前后邻的词串修正,得到定义术语; 输出模块,用于输出定义术语。
2. 如权利要求1所述的基于句法特征的学术定义自动抽取系统,其特征在于,所述规 则法是对每个单句进行肯定模板匹配或/和否定模板匹配。
3. 如权利要求1所述的基于句法特征的学术定义自动抽取系统,其特征在于,所述统 计法是对每个单句进行N元句子特征抽取和句法特征抽取,并计算N元句子特征和句法特 征的概率,根据所述概率定义判断函数。
4. 如权利要求3所述的基于句法特征的学术定义自动抽取系统,其特征在于,所述N元 句子特征包括一元特征和二元特征; 所述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词 后词性和联项词距离句首的位置; 所述二元特征为所述一元特征与联项词特征的组合。
5. 如权利要求3所述的基于句法特征的学术定义自动抽取系统,其特征在于,所述句 法特征包括一元句法特征和二元句法特征; 所述一元句法特征包括;句子中第一个动词、第一个动词前的短语类型、第一个动词后 的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语; 所述二元句法特征包括;句子中第一个动词和第一个动词前短语类型的组合、句子中 第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合 W及最后一个动词和最后一个动词后短语的组合。
6. 如权利要求3所述的基于句法特征的学术定义自动抽取系统,其特征在于,所述定 义判断函数是将N元特征和句法特征分为两类统计,得到句子特征是定义的概率和不是定 义的概率W及句法特征是定义的概率和不是定义的概率;及 确定定义判断函数中N元特征权重。
7. -种基于句法特征的学术定义自动抽取方法,其特征在于,所述方法包括: 对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句; 采用规则和统计法判断所述单句是否为定义句; 将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词,并通 过前后邻的词串修正,得到定义术语; 输出定义术语。
8. 如权利要求7所述的基于句法特征的学术定义自动抽取方法,其特征在于,所述规 则法是对每个单句进行肯定模板匹配或/和否定模板匹配; 若肯定模板匹配不成功,则认为不是定义句; 若肯定模板匹配成功,则进行否定规则模板匹配; 若否定规则模板匹配失败,则认为是定义句,并输出。
9. 如权利要求7所述的基于句法特征的学术定义自动抽取方法,其特征在于,对所述 预处理后的单句进行N元句子特征抽取和句法特征抽取,并计算N元句子特征概率和句法 特征概率,根据所述概率定义判断函数,函数是否判断成功,若成功,则输出定义句,否则, 不输出定义句。
10. 如权利要求9所述的基于句法特征的学术定义自动抽取方法,其特征在于,所述 所述N元句子特征包括一元特征和二元特征; 所述一元特征包括常用词分词结果、专业词分词结果、联项词、联项词前词性、联项词 后词性和联项词距离句首的位置; 所述二元特征为所述一元特征与联项词特征的组合; 所述句法特征包括一元句法特征和二元句法特征; 所述一元句法特征包括;句子中第一个动词、第一个动词前的短语类型、第一个动词后 的短语类型、最后一个动词、最后一个动词前的短语和最后一个动词后的短语; 所述二元句法特征包括;句子中第一个动词和第一个动词前短语类型的组合、句子中 第一个动词和第一个动词后短语类型的组合、最后一个动词和最后一个动词前短语的组合 W及最后一个动词和最后一个动词后短语的组合。
【专利摘要】本发明公开了一种基于句法特征的学术定义自动抽取系统及方法,所述系统包括:所述系统包括预处理模块、定义句抽取模块、定义术语抽取模块和输出模块,所述预处理模块,用于对输入的学术文献抽取摘要和全文部分,并将抽取的摘要和全文分成单句;定义句抽取模块,采用规则和统计法判断所述单句是否为定义句;定义术语抽取模块,将判断为定义的单句进行预处理,并根据术语词抽取模板,抽取词串作为术语词,并通过前后邻的词串修正,得到定义术语;输出模块,用于输出定义术语。发明将文献中表示定义的句子和对应的术语词抽取出来,并呈现给用户,方便用户快速、准确的理解检索出的内容。
【IPC分类】G06F17-27
【公开号】CN104572628
【申请号】CN201510059166
【发明人】赵纪元, 罗霄, 杜玉锋
【申请人】《中国学术期刊(光盘版)》电子杂志社有限公司, 同方知网(北京)技术有限公司, 山西同方知网数字出版技术有限公司
【公开日】2015年4月29日
【申请日】2015年2月5日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1