基于事件本体的动词语义信息提取方法

文档序号:6332617阅读:270来源:国知局
专利名称:基于事件本体的动词语义信息提取方法
技术领域
本发明属于自然语言信息抽取领域,具体地说是一种基于事件本体的动词语义信 息提取方法。
背景技术
人类发展到今天,大量的信息用电子文档的方式进行存储,且近一二十年来这些 电子文档的数量呈现出爆炸式的增长。信息提取技术就是利用计算机技术从这些海量的电 子文档中找到符合用户兴趣要求的信息。传统的信息提取方法一般分为两种(1)基于规则方法。这种方法事先通过人类制定的规则,通过计算机技术对信息进 行匹配,把匹配成功的信息块提取出来。该方法比较直观容易被人们理解,规则数量较小时 计算机执行速度较快。但是当规则数量较大,规则之间的管理,规则间的一致性检测,规则 的计算时间成本都会变得困难和复杂。(2)基于统计的方法。这种方法有很好的数学理论支撑,是近年来在自然语言处理 方面的一个研究热点。它从统计学的角度通过分析已有信息特征来预测未知信息的特征。 从目前研究的实验效果来看,用该方法进行信息提取也是可行的。但是该方法需要大量的 训练语料和复杂的参数设置才能得到比较理想的结果。由于基于统计的方法使用的训练语 料不可能包含自然语言的整个领域,造成训练语料的不完备影响了基于统计方法的信息提 取精度。以上基于规则和基于统计的传统方法对信息进行提取,是从文本中词形、词的位 置和词性等方面进行考虑。但是对于语义信息的提取却是无能为力的。近年来,自然语言处理领域出现了另一个研究的热点——利用本体知识进行信息 提取。该方法利用本体构建领域知识指导信息的提取过程。例如有文章报道,其题目为 一种改进的基于本体的Web信息抽取(该文作者是柳佳刚,陈山,黄樱,发表于2010年出 版的其月干 1J 计算机工禾呈)禾口文章 A Design of Temporal Event Extraction from Chinese Financial News (该文作者 Wenjie Li, Kam-Fai Wong, Chunfa Yuan,发表于 2003 年出版 WSif1J international Journal of Computer Processing of Oriental Languages) S 两篇文章公开了通过本体中概念、关系和规则作为信息抽取的依据,取得了一定的效果。然 而目前此种方法也存在着不足(1)缺乏本体中的先验知识和提取信息之间的关系描述; (2)对句子中动词的识别准确率还有待提高;(3)缺乏对动词语义的丰富表示。因此,已有 方法对句子中动词识别的准确率和动词语义的表达都有所不足。

发明内容
鉴于以上所述现有技术存在的问题和不足,本发明的目的在于要解决现有技术存 在的问题,提供了一种基于事件本体的动词语义信息提取方法,该方法不仅通过匹配动词 和动词角色的方法提高了识别动词的准确率,而且通过动词词义信息、时间时态信息以及动词与动词角色之间的关系信息生成丰富的动词语义信息。为了达到以上目的,本发明采用下述技术方案一种基于事件本体的动词语义信息提取方法,其特征在于首先根据输入的句子得 到句子要素数组A ;其次利用角色提取规则对句子要素数组A中动词角色进行提取;接着通 过动词和动词角色匹配动词概念的方法确定动词词义;再接着根据时间时态提取规则识别 动词的时间和时态信息;最后根据动词角色、动词词义和动词时间时态信息生成动词语义 信息,其具体步骤包括A、得到句子要素数组A 输入句子,从句子中取得符合句子要素的词,由这些词组 成句子要素数组A ;
B、动词角色提取利用动词角色提取规则提取句子要素数组A中的动词角色;C、动词词义识别通过动词和动词角色匹配事件本体中动词概念的方法确定动词 词义;D、动词时间时态识别根据时间时态提取规则识别动词的时间和时态信息;E、生成动词语义信息根据上述步骤B中提取的动词角色、上述步骤C中识别的动 词词义和上述步骤D中识别的动词时间时态信息生成动词语义信息。上述步骤A中所述的得到句子要素数组A,其操作步骤如下Al、对输入的句子使用分词工具进行分词并对切分出来的单词标注词性;A2、如果句子中没有动名词或者动词忽略该句,即该句不做动词语义信息提取的 处理;A3、根据步骤Al中的分词和词性标注结果,把句子中符合句子要素要求的“把”字 句或“被”字句的结构词、名词、动名词和动词的词抽取出来,并以词为单位按在原句中词的 先后顺序存放在句子要素数组A中;上述步骤B中所述的动词角色提取,是利用动词角色提取规则对句子要素数组A 中动词角色进行提取,其操作过程如下根据句子要素数组A中名词成份、名词成份在动词前后的位置以及“被”字句和 “把”字句的结构特征,利用动词角色提取规则对句子要素数组A中的动词角色进行提取;上述步骤C中所述动词词义识别,是通过动词和动词角色匹配事件本体中动词概 念的方法确定动词词义,其操作过程如下Cl、遍历句子要素数组A中的动词与动词角色进行匹配,其操作过程如下遍历句子要素数组A中的动词,在事件本体中查询并判断该动词的性质,如果该 动词是不及物动词,该动词只匹配动词前最近的动词角色,如果该动词是体宾动词,该动词 匹配动词前最近的动词角色和动词后最近的动词角色,如果该动词是谓宾动词,该动词匹 配动词前最近的动词角色,得到动词与动词角色匹配集合M ;C2、判断动词与动词角色匹配集合M是否为空,如果为空,则放弃对该句提取动词 语义信息的处理,否则利用事件本体判断动词和动词角色是否匹配,如果不匹配则将该动 词的词性改为动名词,并重新对上一个动词的匹配对进行重新识别,否则保留这个匹配对; 最终如果动词与动词角色匹配集合M中没有一个匹配对保留下来,则放弃对该句提取动词 语义信息的处理,否则遍历动词与动词角色匹配集合M的元素,由每对动词与动词角色的 匹配对映射事件本体中动词概念,得到动词词义信息;
上述步骤D中所述动词时间时态特征识别,其操作过程如下根据时间时态提取规则提取句子的时间信息和时态副词(如已经、了、后等词), 识别动词的时间信息和时态信息;上述步骤E中所述生成动词语义信息,其操作过程如下 根据步骤B提取出动词角色、步骤C获取动词词义信息和步骤D得到时间时态信 息生成句子的动词语义信息。本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著进步本发明基于事件本体,通过匹配动词和动词角色的方法,提高了识别动词的准确 率;通过动词词义信息、时间时态信息及动词与动词角色间关系信息,生成丰富的动词语义 信息。解决了已有技术存在的动词识别准确率低和动词语义表达不足的问题。


图1是本发明所提的基于事件本体的动词语义信息提取方法的模块架构图;图2是本发明所提的基于事件本体的动词语义信息提取方法的总体流程图;图3是本发明所提及的动词角色提取步骤中动词角色提取规则结构示意图;图4是本发明所提及的动词词义识别步骤中识别动词词义的流程图;图5是本发明所提及的判断动词性质的动词性质判断流程图;图6是本发明所提及的事件本体构建时采用的本体元的示意图。
具体实施例方式下文根据图1至6给出本发明的基于事件本体的动词语义信息提取方法的一个优 选实施例要指出的是,所给出的实施例是用来说明本发明方法的技术特点和功能特点,使 能更易于理解本发明,而不是用来限制本发明的范围。参照图1,本基于事件本体的动词语义信息提取方法包括的模块架构如下(1)得到句子要素数组A201 对输入的句子使用分词工具进行分词并对切分出来 的单词标注词性,如果句子中没有动名词或动词,则忽略该句,否则把句子中的“把”字句或 “被”字句的结构词,名词、动名词和动词的词抽取出来,并以词为单位按在原句中词的先后 顺序存放在句子要素数组A中;(2)动词角色提取202 根据句子要素数组A中的名词成份、名词成份在动词前后 的位置以及“被”字句和“把”字句的结构特征,利用角色提取规则205提取候选事件句数 组A中的动词角色;(3)动词语义识别203 遍历句子要素组成数组A中的动词,在事件本体206中查 询并判断该动词的性质,如果该动词是不及物动词,该动词只匹配动词前最近的动词角色, 如果该动词是体宾动词,该动词匹配动词前最近的动词角色和动词后最近的动词角色,如 果该动词是谓宾动词,该动词匹配动词前最近的动词角色,得到动词与动词角色匹配集合 M ;判断动词与动词角色匹配集合M是否为空,如果为空,则放弃对该句提取动词语义信息 的处理,否则利用事件本体判断动词和动词角色是否匹配,如果不匹配则将该动词的词性 改为动名词,并重新对上一个动词的匹配对进行重新识别,否则保留这个匹配对;最终如果 动词与动词角色匹配集合M中没有一个匹配对保留下来,则放弃对该句提取动词语义信息的处理,否则遍历动词与动词角色匹配集合M的元素,由每对动词与动词角色的匹配对映 射事件本体中动词概念,得到动词词义信息;(4)动词时态特征识别204 根据时间时态提取规则207提取时间信息和时态副词 (如已经、了、后等词),识别动词的时间和时态信息;(5)生成动词语义信息301 根据动词角色提取202提取出动词角色、动词语义识 别203获取动词词义信息和动词时态识别204得到时间时态信息生成句子中动词语义信
肩、ο参照图2,本基于事件本体的动词语义信息提取方法的总体流程图包括如下步 骤A、得到句子要素数组A,输入句子,从句子中取得符合句子要素的词,由这些词组 成句子要素数组A ;B、动词角色提取,利用动词角色提取规则提取句子要素数组A中的动词角色;C、动词词义识别,通过动词和动词角色匹配事件本体中动词概念的方法确定动词 词义;D、动词时间时态识别,根据时间时态提取规则识别动词的时间和时态信息;E、生成动词语义信息,根据上述步骤B中提取的动词角色、上述步骤C中识别的动 词词义和上述步骤D中识别的动词时间时态信息生成动词语义信息。上述步骤A中所述的得到句子要素数组A,其操作步骤如下Al、对输入的句子使用分词工具进行分词并对切分出来的单词标注词性;A2、如果句子中没有动名词或者动词忽略该句,即该句不做动词语义信息提取的 处理;A3、根据步骤Al中的分词和词性标注结果,把句子中符合句子要素要求的“把”字 句或“被”字句的结构词、名词、动名词和动词的词抽取出来,并以词为单位按在原句中词的 先后顺序存放在句子要素数组A中;上述步骤B中所述的动词角色提取,是利用动词角色提取规则对句子要素数组A 中动词角色进行提取,其操作过程如下根据句子要素数组A中名词成份、名词成份在动词前后的位置以及“被”字句和 “把”字句的结构特征,利用动词角色提取规则对句子要素数组A中的动词角色进行提取;上述步骤C中所述动词词义识别,是通过动词和动词角色匹配事件本体中动词概 念的方法确定动词词义,其操作过程如下Cl、遍历句子要素数组A中的动词与动词角色进行匹配,其操作过程如下遍历句子要素数组A中的动词,在事件本体中查询并判断该动词的性质,如果该 动词是不及物动词,该动词只匹配动词前最近的动词角色,如果该动词是体宾动词,该动词 匹配动词前最近的动词角色和动词后最近的动词角色,如果该动词是谓宾动词,该动词匹 配动词前最近的动词角色,得到动词与动词角色匹配集合M ;C2、判断动词与动 词角色匹配集合M是否为空,如果为空,则放弃对该句提取动词 语义信息的处理,否则利用事件本体判断动词和动词角色是否匹配,如果不匹配则将该动 词的词性改为动名词,并重新对上一个动词的匹配对进行重新识别,否则保留这个匹配对; 最终如果动词与动词角色匹配集合M中没有一个匹配对保留下来,则放弃对该句提取动词语义信息的处理,否则遍历动词与动词角色匹配集合M的元素,由每对动词与动词角色的 匹配对映射事件本体中动词概念,得到动词词义信息;上述步骤D中所述动词时间时态特征识别,其操作过程如下根据时间时态提取规则提取句子的时间信息和时态副词(如已经、了、后等词), 识别动词的时间信息和时态信息;上述步骤E中所述生成动词语义信息,其操作过程如下根据步骤B提取出动词角色、步骤C获取动词词义信息和步骤D得到时间时态信 息生成句子的动词语义信息。图3所示,动词角色提取规则最佳实施例是以句子要素数组A为单位,从句子要素 数组A中提取动词角色的一种供计算机自动抽取的模板,它是由动词的角色词、动词、“被” 字句和“把”字句特征以及其他语句成份构成的序列。比如[{*} {Actor} # {act_word} {*} ] + 在动词角色提取规则中,[]中的部分是匹配的模式,{}中的部分是句子成份,*表 示句子中除动词角色、动词和“被”字句与“把”字句等句子成份外的句子成份,Actor表示 动词的角色词,act_WOrd表示动词,{}#表示{}中内容可以出现0次或1次,[]+表示[] 中的内容至少出现1次。参照图4,对本基于事件本体的动词语义信息提取方法中动词词义识别的流程步 骤如下(1)设置在句子要素数组A中提取第i个动词的初始值为1 ;(2)在数组A中取得第i个动词;(3)判断数组A中的动词是否已经全部遍历,如果遍历完,则转步骤(15),否则转 步骤⑷;(4)分析该动词的性质,如果该动词是不及物动词性质,则转步骤(5),如果该动 词是体宾动词性质,则转步骤(6),如果该动词是谓宾动词性质则转步骤(7);(5)把动词前最近的角色作为该动词的前件角色,并把该前件角色与动词进行匹 配,转步骤⑶;(6)把动词前后的最近角色分别作为该动词的前件角色和后件角色,并把该前件 角色和后件角色与动词进行匹配,转步骤(8);(7)把动词前最近的角色作为该动词的前件角色,并把该前件角色与动词进行匹 配;(8)根据事件本体中定义的动词与动词角色匹配的限制关系对该动词与动词角色 匹配对进行判断,如果匹配正确转步骤(13),否则转步骤(9);(9)将i的值减1 ;(10)判断i的值情况如果i等于0,则转步骤(11),否则转步骤(12);(11)设置i的值为1;(12)将该动词词性改为动名词,转步骤(2);(13)将 i 的值加 1;(14)将识别出正确的匹配对加入动词与动词角色匹配集合M,转步骤(2);(15)判断集合M是否为空,如果为空,转步骤(17),如果不为空,转步骤(16);
(16)遍历集合M中的动词与动词角色匹配对,由每对动词与动词角色的匹配对映射事件本体中动词概念,得到动词词义信息。(17)结束。参照图5,对本基于事件本体的动词语义信息提取方法中动词性质判断流程步骤 如下步骤501、取得预分析动词性质的动词;步骤502、根据事件本体中定义的该动词性质类型,并把该动词所有动词性质类型 存放在动词性质类型集合C中;步骤503、判断动词性质类型集合C中是否包含不及物动词的类型,如果包含不及 物动词的类型,转步骤504,如果不包含不及物动词,转步骤505 ;步骤504、判断该动词后有无动词角色,如果有,转步骤507,如果没有转步骤505 ;步骤505、判断动词性质类型集合C中是否包含谓宾动词的类型,如果包含谓宾动 词的类型,转步骤506,如果不包含谓宾动词的类型,转步骤510 ;步骤506、判断动词后是否只有动词或动名词,如果只有名词或动名词,转步骤 508,否则转步骤509 ;步骤507、设置该动词性质为不及物动词,判断动词性质结束;步骤508、设置该动词性质为体宾动词,判断动词性质结束;步骤509、设置该动词性质为谓宾动词,判断动词词性结束;步骤510、设置该动词性质为体宾动词,判断动词词性结束;图6所示是本实施例所提及的事件本体构建时采用的本体元的示意图。本实施例 通过OWL (Web Ontology Language)语言描述事件本体,事件本体建模中涉及的本体元有(l)actConcept类6Ol表示动词的概念;(2) eventClass类602表示事件的分类,如交通事故类、海啸类等;(3) ActoeProperty数据属性603表示动词概念601的动词性质类型,该动词性质 类型分为三类不及物动词、体宾动词和谓宾动词;(4)MatchRole数据属性604表示与动词概念601匹配的动词角色;(5) Language数据属性605表示动词概念601的语法关系;(6)Time数据属性606表示动词概念601的时间属性,即动词所代表动作的发生时 间;(7)Environment数据属性607表示动词概念601的环境属性,即动作发生的场所 极其特征;(8) hasPartOf 对象属性 608 表示 eventClass 类 602 由 actConc印t 类组成, hasPartOf 对象属性的 domain 是 eventClass 类, range i actConcept 类;(9) hasSubClassOf 对象属性 609 表示 actConcept 类与 actConcept 类之间是父子 关系,hasSubClassOf 对象属性的 domain 禾口 range 者β是 actConcept 类。
权利要求
一种基于事件本体的动词语义信息提取方法,其特征在于首先根据输入的句子得到句子要素数组A;其次利用角色提取规则对句子要素数组A中动词角色进行提取;接着通过动词和动词角色匹配动词概念的方法确定动词词义;再接着根据时间时态提取规则识别动词的时间和时态信息;最后根据动词角色、动词词义和动词时间时态信息生成动词语义信息,其具体步骤如下A、得到句子要素数组A输入句子,从句子中取得符合句子要素的词,由这些词组成句子要素数组A;B、动词角色提取利用动词角色提取规则提取句子要素数组A中的动词角色;C、动词词义通过动词和动词角色匹配事件本体中动词概念的方法确定动词词义;D、动词时间时态识别根据时间时态提取规则识别动词的时间和时态信息;E、生成动词语义信息根据上述步骤B中提取的动词角色、上述步骤C中识别的动词词义和上述步骤D中识别的动词时间时态信息生成动词语义信息。
2.根据权利要求1所述的基于事件本体的动词语义信息提取方法,其特征在于,所述 步骤A中得到句子要素数组A,其操作步骤如下Al、对输入的句子使用分词工具进行分词并对切分出来的单词标注词性;A2、如果句子中没有动名词或者动词忽略该句,即该句不做动词语义信息提取的处理;A3、根据步骤Al中的分词和词性标注结果,把句子中符合句子要素要求的“把”字句或 “被”字句的结构词、名词、动名词和动词的词抽取出来,并以词为单位按在原句中词的先后 顺序存放在句子要素数组A中。
3.根据权利要求1所述的基于事件本体的动词语义信息提取方法,其特征在于,所述 步骤B中所述的动词角色提取,是利用动词角色提取规则对句子要素数组A中动词角色进 行提取,其操作过程如下根据句子要素数组A中名词成份、名词成份在动词前后的位置以 及“被”字句和“把”字句的结构特征,利用动词角色提取规则对句子要素数组A中的动词 角色进行提取。
4.根据权利要求1所述的基于事件本体的动词语义信息提取方法,其特征在于,所述 步骤C中所述动词词义识别,是通过动词和动词角色匹配事件本体中动词概念的方法确定 动词词义,其操作过程如下Cl、遍历句子要素数组A中的动词与动词角色进行匹配,其操作过程如下遍历句子要素数组A中的动词,在事件本体中查询并判断该动词的性质,如果该动词 是不及物动词,该动词只匹配动词前最近的动词角色;如果该动词是体宾动词,该动词匹配 动词前最近的动词角色和动词后最近的动词角色;如果该动词是谓宾动词,该动词匹配动 词前最近的动词角色;得到动词与动词角色匹配集合M ;C2、判断动词与动词角色匹配集合M是否为空,如果为空,则放弃对该句提取动词语义 信息的处理,否则利用事件本体判断动词和动词角色是否匹配,如果不匹配则将该动词的 词性改为动名词,并重新对上一个动词的匹配对进行重新识别,否则保留这个匹配对;最终 如果动词与动词角色匹配集合M中没有一个匹配对保留下来,则放弃对该句提取动词语义 信息的处理,否则遍历动词与动词角色匹配集合M的元素,由每对动词与动词角色的匹配 对映射事件本体中动词概念,得到动词词义信息。
5.根据权利要求1所述的基于事件本体的动词语义信息提取方法,其特征在于,所述 步骤D中所述动词时间时态识别,其操作过程如下根据时间时态提取规则提取时间信息 和时态副词,识别动词的时间和时态信息。
全文摘要
本发明涉及一种基于事件本体的动词语义信息提取方法。它是首先根据输入的句子得到句子要素数组A;其次利用角色提取规则对句子要素数组A中的动词角色进行提取;接着通过动词和动词角色匹配动词概念的方法确定动词词义;再接着根据时间时态提取规则识别动词的时间和时态信息;最后根据动词角色、动词词义和动词时间时态信息生成动词语义信息。由于本发明基于事件本体,通过匹配动词和动词角色的方法,提高了识别动词的准确率,由于通过动词词义信息、时间时态信息及动词与动词角色间关系信息,生成了丰富的动词语义信息,从而解决了已有技术存在的动词识别准确率低和动词语义表达不足的问题。
文档编号G06F17/27GK101957812SQ201010290860
公开日2011年1月26日 申请日期2010年9月21日 优先权日2010年9月21日
发明者刘宗田, 孙荣, 王先传 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1