一种论元抽取方法和系统的制作方法

文档序号:6515497阅读:238来源:国知局
一种论元抽取方法和系统的制作方法
【专利摘要】本发明公开一种论元抽取方法和系统,所述方法基于标注信息对训练语料中标注事件实例进行处理,得到训练语料论元模式集合;基于测试语料中事件实例的角色集合对事件实例进行处理,得到测试语料候选论元模式集合;根据论元、触发词语义相似性及依存路径相似性,计算每一候选论元模式和训练语料论元模式集合中各论元模式的模式语义相似度,并基于此获取包含候选论元匹配事件实例中可匹配角色的匹配度信息的论元模式相似度集合;基于论元模式相似度集合,选取与事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为角色的论元。可见本发明基于语义特征对中文事件的论元进行提取,提高了中文事件论元提取的准确率和性能。
【专利说明】一种论元抽取方法和系统
【技术领域】
[0001]本发明属于文本信息抽取领域,尤其涉及一种论元抽取方法和系统。
【背景技术】
[0002]事件的论元抽取是理解自然语言的重要基础,可以为人们快速获取知识提供便利的途径,是计算机理解自然语言的必要条件,对自动文摘、机器翻译、问答系统等具有积极的促进作用。
[0003]目前,主流的事件论元抽取方法为机器学习法,该方法利用句法特征来识别事件的论元及其角色。但中文是一种话题驱动的语言,是一种意合语言,以能够表达清楚语义为准,区别于英文句子较为严谨的句法结构,中文句子结构较为松散,句子成分搭配也较为灵活,且为了表述的连贯性和简洁性,部分句法成分缺省是一种常态,从而很多中文句子存在句法特征不够明显的特点。因而上述基于句法特征的事件论元抽取方法在抽取中文事件的论元时,准确率较低、性能较低。

【发明内容】

[0004]有鉴于此,本发明的目的在于提供一种论元抽取方法和系统,实现基于语义特征对中文事件的论元进行提取,从而提高中文事件论元提取的准确率和性能。
[0005]为此,本发明公开如下技术方案:
[0006]一种论元抽取方法,包括:
[0007]从训练语料中抽取包含标注信息的标注事件实例,基于所述标注信息对所述标注事件实例进行分析、处理,得到训练语料论元模式集合,其中,所述训练语料论元模式集合包括至少一个训练语料论元模式,所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组;
[0008]从测试语料中抽取事件实例,获取所述事件实例的角色集合,基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合,其中,所述测试语料候选论元模式集合包括至少一个候选论元模式,所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组;
[0009]根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合;
[0010]基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合,所述论元模式相似度集合包括论元模式相似度元素,所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息;
[0011]基于所述论元模式相似度集合,选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。[0012]优选的,所述基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合具体包括:
[0013]对所述事件实例进行实体识别和依存关系分析,得到测试语料实体集合和测试语料依存关系集合;
[0014]依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理,得到测试语料候选论元集合;
[0015]根据所述测试语料依存关系集合,获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径;
[0016]将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合,得到测试语料候选论元模式,各测试语料候选论元模式构成测试语料候选论元模式集合;
[0017]依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式,得到测试语料筛选论元模式,将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。
[0018]优选的,所述根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合具体包括:
[0019]基于优化的夹角余弦法,利用公式(I)计算所述候选论元模式Pn^P所述训练语料论元模式集合TP中的每个论元模式tPj的依存路径相似度SimD (pm, tp」):
[0020]
【权利要求】
1.一种论元抽取方法,其特征在于,包括: 从训练语料中抽取包含标注信息的标注事件实例,基于所述标注信息对所述标注事件实例进行分析、处理,得到训练语料论元模式集合,其中,所述训练语料论元模式集合包括至少一个训练语料论元模式,所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组; 从测试语料中抽取事件实例,获取所述事件实例的角色集合,基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合,其中,所述测试语料候选论元模式集合包括至少一个候选论元模式,所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组; 根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合; 基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合,所述论元模式相似度集合包括论 元模式相似度元素,所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息; 基于所述论元模式相似度集合,选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。
2.根据权利要求1所述的论元抽取方法,其特征在于,所述基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合具体包括: 对所述事件实例进行实体识别和依存关系分析,得到测试语料实体集合和测试语料依存关系集合; 依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理,得到测试语料候选论元集合; 根据所述测试语料依存关系集合,获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径; 将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合,得到测试语料候选论元模式,各测试语料候选论元模式构成测试语料候选论元模式集合; 依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式,得到测试语料筛选论元模式,将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。
3.根据权利要求2所述的论元抽取方法,其特征在于,所述根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合具体包括: 基于优化的夹角余弦法,利用公式(I)计算所述候选论元模式Pm和所述训练语料论元模式集合TP中的每个论元模式tPj的依存路径相似度SimD (pm, tp」):
4.根据权利要求3所述的论元抽取方法,其特征在于,所述基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合具体包括: 从所述事件实例的角色集合中获取每个候选论元模式中的候选论元可与之匹配的各个可匹配角色,各个可匹配角色构成可匹配角色集合; 针对所述可匹配角色集合中的每个可匹配角色,从所述候选论元模式的模式语义相似度集合中选取论元模式中论元对应的角色和所述可匹配角色一致的各个模式语义相似度,并选取所述各个模式语义相似度中值最大的模式语义相似度作为所述候选论元模式中的候选论元匹配所述可匹配角色的匹配度; 将所述匹配度和所述可匹配角色进行组合,得到格式为(匹配度,角色)的匹配度角色对; 将所述候选论元模式的各匹配度角色对添加到所述候选论元模式,得到与所述候选论元模式相对应的论元模式相似度元素,各候选论元模式相对应的论元模式相似度集合元素构成论元模式相似度集合。
5.根据权利要求1~4任意一项所述的论元抽取方法,其特征在于,还包括: 若所述事件实例中存在未匹配论元的角色,则依据预设的相关事件语义推理规则,从与所述事件实例相关的事件实例的论元中为所述未匹配论元的角色匹配论元。
6.根据权利要求5所述的论元抽取方法,其特征在于,所述预设的相关事件语义推理规则具体包括并列触发词实例推理规则、多角色论元推理规则、多论元角色推理规则、同指事件推理规则以及相关事件推理规则。
7.一种论元抽取系统,其特征在于,包括训练语料分析模块、测试语料分析模块、计算模块、获取模块和论元抽取模块,其中: 所述训练语料分析模块,用于从训练语料中抽取包含标注信息的标注事件实例,基于所述标注信息对所述标注事件实例进行分析、处理,得到训练语料论元模式集合,其中,所述训练语料论元模式集合包括至少一个训练语料论元模式,所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组; 所述测试语料分析模块,用于从测试语料中抽取事件实例,获取所述事件实例的角色集合,基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合,其中,所述测试语料候选论元模式集合包括至少一个候选论元模式,所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组; 所述计算模块,用 于根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合; 所述获取模块,用于基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合,所述论元模式相似度集合包括论元模式相似度元素,所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息; 所述论元抽取模块,用于基于所述论元模式相似度集合,选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。
8.根据权利要求7所述的论元抽取系统,其特征在于,所述测试语料分析模块包括: 第二分析模块,用于对所述事件实例进行实体识别和依存关系分析,得到测试语料实体集合和测试语料依存关系集合; 候选论元获取模块,用于依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理,得到测试语料候选论元集合; 第二路径获取模块,用于根据所述测试语料依存关系集合为,获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径; 第二组合模块,用于将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合,得到测试语料候选论元模式,各测试语料候选论元模式构成测试语料候选论元模式集合; 筛选模块,用于依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式,得到测试语料筛选论元模式,将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。
9.根据权利要求8所述的论元抽取系统,其特征在于,所述计算模块包括: 第一计算模块,用于基于优化的夹角余弦法,利用如下公式(I)计算所述候选论元模式Pm和所述训练语料论元模式集合TP中的每个论元模式tp]的依存路径相似度SimD (pm, tpj):
10.根据权利要求9所述的论元抽取系统,其特征在于,所述获取模块包括: 可匹配角色获取模块,用于从所述事件实例的角色集合中获取每个候选论元模式的候选论元可与之匹配的各个可匹配角色,各个可匹配角色构成可匹配角色集合; 匹配度获取模块,用于针对所述可匹配角色集合中的每个可匹配角色,从所述候选论元模式的模式语义相似度集合中选取论元模式中论元对应的角色和所述可匹配角色一致的各个模式语义相似度,并选取所述各个模式语义相似度中值最大的模式语义相似度作为所述候选论元模式中的候选论元匹配所述可匹配角色的匹配度; 组对模块,用于将所述匹配度和所述可匹配角色进行组合,得到格式为(匹配度,角色)的匹配度角色对;添加模块,用于将所述候选论元模式的各匹配度角色对添加到所述候选论元模式,得到与所述候选论元模式相对应的论元模式相似度元素,各候选论元模式相对应的论元模式相似度集合元素构成论元模式相似度集合。
11.根据权利要求7~10任意一项所述的论元抽取系统,其特征在于,还包括关联匹配模块,所述关联匹配模块用于在所述事件实例中存在未匹配论元的角色时,依据预设的相关事件语义推理规则,从与所述事件实例相关的事件实例的论元中为所述未匹配论元的角色匹配论元。
【文档编号】G06F17/27GK103530281SQ201310482550
【公开日】2014年1月22日 申请日期:2013年10月15日 优先权日:2013年10月15日
【发明者】李培峰, 朱巧明, 周国栋, 张玉华, 孔芳 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1