一种中文事件触发词的抽取系统及方法

文档序号:6633496阅读:430来源:国知局
一种中文事件触发词的抽取系统及方法
【专利摘要】本发明提供一种中文事件触发词的抽取系统及方法。所述系统包括句法和依存分析模块、核心和辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训练集模板抽取模块、候选模板抽取模块、实体特征抽取模块及触发词识别模块。本发明根据角色语义是事件语义的表示形式之一,提供了利用核心角色和辅助角色来表示角色语义的方法,并用于中文事件触发词的抽取。与现有最好的中文事件抽取方法和系统相比,本发明提供的方法对于中文事件触发词的抽取性能有了明显提升。
【专利说明】-种中文事件触发词的抽取系统及方法

【技术领域】
[0001] 本发明属于自然语言处理领域,特别是涉及一种抽取某个事件触发词的抽取系统 及方法。

【背景技术】
[0002] 事件巧vent)是信息表示的一种主要形式,它是一种特定人、物、事在特定时间和 特定地点相互作用的客观事实(也称"自然事件"),如人的受伤、死亡事件和食品的添加剂 事件等。作为信息抽取的一个子任务,事件抽取是信息抽取的研究热点,它的研究内容是自 动地从自然文本中发现特定类型的事件及其事件元素。事件作为理解自然语言的基本要素 之一,是自动文摘、机器翻译、问答系统和决策系统等主要自然语言理解应用的基础。如从 互联网抽取恐怖袭击有关的事件(包括攻击事件、死亡事件等),可W用于分析各个国家、 地区的安全状况;从海量文本中抽取药品副作用事件,可W为药品使用、监管和研发服务。 所W,对事件抽取方法的研究,特别是对中文事件抽取的研究有着重要的应用价值。
[0003] 由于事件抽取严重依赖于实体识别、句法和依存关系分析等前续环节,而且事件 在文本中的表达方式更多依赖于语义关系而非语法关系,导致了事件抽取性能在各个信息 抽取任务中最低。目前,事件抽取的2个子任务触发词抽取和论元抽取的Fl值一般分别在 50 %?60 %和40 %?50 %左右,性能较低。由于事件抽取的核也是抽取其中的触发词并判 断其事件类型,因此目前业界讨论的重点是事件触发词抽取。
[0004] 在事件中,触发词和角色对应的实体,W及它们之间的内在关系是事件抽取的主 要依据。所W,如何捕获触发词、实体和两者之间关系的语义信息将很重要。但是,由于语义 信息难于获取,在英文中绝大多数句子级别的事件抽取系统主要还是沿用了语义角色标注 的方法,充分利用句法信息来识别事件实例及其角色。然而,事件的角色不同于语义角色标 注的角色。语义角色标注中的角色表达了和谓词之间在语法层面上的关系,只有笼统的几 种(如;ArgO-ArgS, ArgM)。而事件中的角色和触发词之间的关系则基于语义层面。而且, 由于表述的多样性,它们之间并不一定存在明确的语法关系。另外,事件的角色类别较多, 每个角色都体现了它在不同事件中的语义(如攻击事件中的角色攻击者和攻击对象)。由 于英文句子相对而言具有比较严谨的句法结构,多数事件的论元和触发词之间也有相对明 确的句法结构,所W句法信息在英文事件抽取中被证明有效。但是,中文是一种意合语言, 其句子结构较为松散,句子成分搭配也较为灵活。而且,作为一种话题驱动的语言,中文为 了表述的连贯性和简洁性,部分句法成分缺省是一种常态。该些中文固有特点造成了句法 特征在中文事件抽取中的效果不像在英文中那么明显。所W,如何针对中文的行文特点,从 事件中获取更为有效、适合中文事件抽取的语义信息,特别是角色语义信息是需要解决的 一个关键问题。
[0005] 当前,绝大多数的中文触发词抽取方法沿用了语义角色标注方法,利用句法信息 来识别事件实例及其角色。由于中文是一种意合语言,其句子结构较为松散,句子成分搭配 也较为灵活。而且,作为一种话题驱动的语言,中文为了表述的连贯性和简洁性,部分句法 成分缺省是一种常态。该些中文固有特点造成了句法信息在中文事件抽取中的效果不像在 英文中那么明显,相对性能较差。
[0006] 针对W上问题,本发明提出面向中文固有特点的中文事件触发词抽取系统和方 法,根据角色语义是事件语义的表示形式之一,利用核也角色和辅助角色来表示论元语义, 并利用机器学习的方法来进行中文事件触发词抽取。本发明的方法和系统,与现有最好的 中文事件抽取方法和系统相比,抽取性能得到了明显提升。
[0007] 为更好地理解本发明,下面对一些专用名词作出介绍。
[0008] 实体巧ntity):-个语义类别中的对象或对象的集合,如人名、交通工具和地名 等。
[0009] 事件巧vent);在真实世界中已经/可能/将要发生的事情,一般包括时间、地点 和人物等角色,如出生、死亡、地震和车祸等事件。
[0010] 角色(Role);事件的参与者和属性,一般用实体来填充。如死亡者、死亡时间和事 件地点就是死亡事件的角色。
[0011] 触发词(Trigger);用于识别事件的核也词(一般为动词和名词居多)。如"生于"、 "出生"等就是出生事件触发词。
[0012] 依存关系值巧endency Tree);依存句法是由法国语言学家L Tesniere提出,通 过分析语言各成分之间的依存关系掲示其句法结构,主张句子中谓语动词是支配其它成分 的中也成分,而它本身却不受其他任何成分的支配,所有受支配成分都W某种依存关系从 属于支配者。依存关系由支配成分(Government)、受支配成分值巧endent)和它们之间的 语法关系巧elation)组成的H元组,如"nsubj (攻击,机器人军队)",表示支配成分"机 器人军队"是受支配成分"攻击"的nsub j (形式主语)。
[0013] 依存路径值巧endency化th);在依存树上任意2个结点之间不包含结点、只包含 边(依存关系)的路径。
[0014] Pro地ank ;-个W动词词典为标注基础,W动词的论元角色为标注对象,集语义词 典和标注语料库于一身的论元角色语义知识库。
[0015] 知网化owNet);-个由董振东等建立的,W汉语和英语的词语所代表的概念为描 述对象,W掲示概念与概念之间W及概念所具有的属性之间的关系为基本内容的常识知识 库。
[0016] 召回率巧ecall):系统正确抽取的事件个数占所有正确事件的比例。衡量事件抽 取性能的指标之一。
[0017] 准确率化icision);系统正确抽取的事件个数占所有抽取出的事件的比例。衡 量事件抽取性能的指标之一。
[001引 Fl指数化-Measure);衡量事件抽取性能的综合指标之一,准确率(巧和召回率 (R)的加权几何平均值,即; 0


【发明内容】

[0019] 本发明提供一种中文事件触发词的抽取系统,包括句法和依存分析模块、核也和 辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训 练集模板抽取模块、候选模板抽取模块、实体特征抽取模块、触发词识别模块,所述句法和 依存分析模块连接核也和辅助角色定义模块,所述核也和辅助角色定义模块连接训练语料 特征抽取模块,所述训练语料特征抽取模块连接候选触发词抽取模块,所述候选触发词抽 取模块连接基本特征抽取模块,所述基本特征抽取模块连接训练集模板抽取模块,所述训 练集模板抽取模块连接候选模板抽取模块,所述候选模板抽取模块连接实体特征抽取模 块,所述实体特征抽取模块连接触发词识别模块。所述分句单元连接实体识别单元,所述实 体识别单元连接句法分析单元,所述句法分析单元连接依存分析单元。所述训练语料特征 抽取模块,包括训练语料触发词抽取单元、训练语料句法和依存分析单元、训练语料特征抽 取单元,所述训练语料触发词抽取单元连接训练语料句法和依存分析单元,所述训练语料 句法和依存分析单元连接训练语料特征抽取单元。所述候选触发词抽取模块,包括候选触 发词选择单元及相似候选触发词选择单元,所述候选触发词选择单元连接相似候选触发词 选择单元。所述训练集模板抽取模块,包括核也实体抽取单元、核也模板抽取单元、辅助实 体抽取单元及辅助模板抽取单元,所述核也实体抽取单元连接核也模板抽取单元,所述核 也模板抽取单元连接辅助实体抽取单元,所述辅助实体抽取单元连接辅助模板抽取单元。 所述候选模板抽取模块,包括事件类型初判单元、实体类型生成单元、候选实体选择单元及 候选模板抽取单元,所述事件类型初判单元连接实体类型生成单元,所述实体类型生成单 元连接候选实体选择单元,所述候选实体选择单元连接候选模板抽取单元。所述实体特征 抽取模块,包括核也模板相似度计算单元、辅助模板相似度计算单元、核也实体特征抽取单 元及辅助实体特征抽取单元,所述核也模板相似度计算单元连接辅助模板相似度计算单 元,所述辅助模板相似度计算单元连接核也实体特征抽取单元,所述核也实体特征抽取单 元连接辅助实体特征抽取单元。所述触发词识别模块,包括触发词抽取训练单元及触发词 抽取单元,所述触发词抽取训练单元连接触发词抽取单元。
[0020] 本发明还提供一种中文事件触发词的抽取方法,包括W下步骤:
[0021] S1、对原始文本每个文档中的句子分别进行词语切分,实体识别、句法分析和依存 关系分析,得到依存和句法文档集合;
[0022] S2、根据需要抽取事件的定义,人工定义每类事件的核也角色和辅助角色,得到核 也辅助角色集合;
[0023] S3、根据训练语料标注的事件信息,抽取所有的事件实例及其特征,得到训练集触 发词集合和训练集特征集合;
[0024] S4、根据训练集触发词集合中标注的触发词,从依存和句法文档集合中抽取候选 触发词,构成候选触发词集合;
[0025] S5、对候选触发词集合中的每个候选触发词,从依存和句法文档集合中得到基本 特征集合;
[0026] S6、对训练集触发词集合中每个触发词,根据所述触发词的事件类型,分别获取核 也或辅助实体及其各自对应的实体类型,和所述触发词、所述触发词事件类型、所述触发词 和所述核也或辅助实体间的依存路径构成核也或辅助模板五元组,得到训练集核也模板集 合和训练集辅助模板集合;
[0027] S7、对基本特征集合中的每个候选触发词,判断所述候选触发词的初步事件类型; 再根据所述初步事件类型抽取所述初步事件类型的核也和辅助角色对应的所有核也和辅 助实体及其实体类型,和所述候选触发词、所述触发词事件类型、所述候选触发词与所述核 也和辅助实体间的依存路径,分别构成核也和辅助论元模板五元组,得到候选核也模板集 合和候选辅助模板集合;
[0028] S8、对基本特征集合中的每个候选触发词,分别从候选核也模板集合和候选辅助 模板集合中为所述触发词的初步事件类型对应的核也角色和辅助角色选择核也实体和辅 助实体,把所述核也实体和辅助实体及其实体类型作为新特征加入基本特征集合,得到完 整特征集合;
[0029] S9、根据训练集特征集合中的特征,训练一个最大赌事件触发词抽取模型;再利用 所述最大赌事件触发词抽取模型对的每个候选触发词根据完整特征集合进行识别,得到识 别触发词集合。
[0030] 优选的,步骤Sl还包括W下步骤:
[0031] S101、对原始文本每个文档中的句子进行分句,并对每个分句后句子调用分词工 具切分词语,得到用空格分隔词语的第一文档集合;
[0032] S102、调用实体识别工具从第一文档集合的每个文档中识别实体并进行标注,得 到第二文档集合;
[0033] S103、对第二文档集合中每个文档调用句法分析工具进行句法分析,得到第H文 档集合;
[0034] S104、对第H文档集合中每个文档调用依存关系分析工具进行依存分析,得到依 存和句法文档集合。
[0035] 优选的,步骤S3还包括W下步骤:
[0036] S301、从训练语料中抽取标注的事件触发词,得到训练集触发词集合;
[0037] S302、对训练语料中包含事件触发词的每个句子,调用Sl对所述句子进行词语切 分,句法分析和依存关系分析,得到依存和句法训练集合;
[0038] S303、根据预先选择的触发词特征,从依存和句法训练集合中抽取训练集触发词 集合中每个触发词的特征,构成训练集特征集合。
[0039] 优选的,步骤S4还包括W下步骤:
[0040] S401、从依存和句法文档集合中选择词性标注为名词或动词且在训练集触发词集 合中出现的词作为候选触发词,加入候选触发词第一集合;
[0041] S402、对依存和句法文档集合中每个词性标注为名词或动词且与训练集触发词集 合中的任意一个触发词具有至少一个相同汉字的词,计算所述词和所述训练集触发词集合 中的任意一个触发词的语义相似度的最大值;如果所述语义相似度的最大值等于1,则把 所述词加入候选触发词第一集合,得到候选触发词集合。
[0042] 优选的,步骤S5的具体过程为;根据预先选择的触发词特征,从依存和句法集合 中抽取候选触发词集合中每个候选触发词的基本特征,构成基本特征集合。
[0043] 优选的,步骤S6还包括W下步骤:
[0044] S601、对训练集触发词集合中每个触发词,根据所述触发词在训练语料中标注的 事件类型获取所述事件类型的所有核也角色对应的核也实体及其实体类型;每个所述核也 实体及其实体类型和所述触发词及其事件类型构成一个四元组,所有的四元组构成了核也 实体触发词集合;
[0045] S602、对核也实体触发词集合中的每个四元组,从依存和句法训练集合中得到所 述四元组中的核也实体和触发词之间的依存路径,构成核也模板五元组,得到训练集核也 模板集合;
[0046] S603、对训练集触发词集合中每个触发词,根据所述触发词在训练语料中标注的 事件类型获取所述事件类型的所有辅助角色对应的辅助实体及其实体类型;每个所述辅助 实体及其实体类型和所述触发词及其事件类型构成一个四元组,所有的四元组构成了辅助 实体触发词集合;
[0047] S604、对辅助实体触发词集合中的每个四元组,从依存和句法训练集合中得到所 述四元组中的辅助实体和触发词之间的依存路径,构成辅助模板五元组,得到训练集辅助 模板集合。
[004引优选的,在步骤S7中,对基本特征集合中的每个候选触发词化,执行W下步骤:
[0049] S701、根据触发词集合中的触发词和语义相似度,初步判断所述候选触发词tri的 初步事件类型tti ;
[0050] S702、从所述核也辅助角色集合中分别获取所述事件类型tti的所有核也角色和 辅助角色;把所述核也角色对应的所有核也实体类型加入候选核也实体类型集合;把所述 辅助角色对应的所有辅助实体类型加入候选辅助实体类型集合;
[0051] S703、从依存和句法集合中抽取和所述候选触发词tr;在同一个句子的所有实体, 得到候选实体第一集合;从所述候选实体第一集合中过滤掉实体类型不在候选核也实体类 型集合中的实体,得到候选核也实体集合;从所述候选实体第一集合中过滤掉实体类型不 在候选辅助实体类型集合中的实体,得到候选辅助实体集合;
[0052] S704、候选核也实体集合中的每个核也实体日1及其实体类型eti和所述触发词tri 及其初步事件类型tti、所述核也实体Gi和候选触发词tr;的依存路径Pi,构成核也模板五 元组,得到候选触发词tri的候选核也模板集合;候选辅助实体集合中的每个辅助实体曰1及 其实体类型eti和所述触发词tri及其事件类型tti、所述辅助实体Gi和候选触发词tri之 间的依存路径Pi,构成辅助模板五元组,得到候选触发词tri的候选辅助模板集合。
[0053] 优选的,在步骤S8中,对基本特征集合中的每个候选触发词付1,执行W下步骤:
[0054] S801、计算候选触发词付1的候选核也模板集合中每个核也模板五元组CandPi 和训练集核也模板集合中事件类型为tti,核也实体类型为eti的每个核也模板五元组 化tterrij的模板相似度SimP (CandP。Patterrij)的最大值MCPi ;把所述最大值MCPi加入核 也模板五元组CandPi,得到带相似度核也模板六元组,加入带相似度候选核也模板集合。
[00巧]S802、计算候选触发词tr;的候选辅助模板集合中每个辅助模板五元组CandPi 和训练集辅助模板集合中事件类型为tti,辅助实体类型为eti的每个辅助模板五元组 化tterrij的模板相似度SimP (CandP。Patterrij)的最大值MCPi ;把所述最大值MCPi加入辅 助模板五元组CandPi,得到带相似度辅助模板六元组,加入带相似度候选辅助模板集合。 [0056] S803、从核也辅助角色集合中分别获取所述事件类型tti的所有核也角色;对每个 核也角色,根据所述核也角色对应的核也实体类型集合选择一个核也实体类型属于所述核 也实体类型集合且相似度最大的带相似度核也模板六元组;把所述带相似度核也模板六元 组中的核也实体e;和核也实体类型eti作为候选触发词化1的新特征加入基本特征集合中 候选触发词tri的基本特征中,并把所述带相似度核也模板六元组从带相似度候选核也模 板集合中删除。
[0057] S804、从核也辅助角色集合中分别获取所述事件类型tti的所有辅助角色;对每个 辅助角色,根据所述辅助角色对应的辅助实体类型集合选择一个辅助实体类型属于所述辅 助实体类型集合且相似度最大的带相似度辅助模板六元组;把所述带相似度辅助模板六元 组中的辅助实体Gi和辅助实体类型eti作为候选触发词的新特征加入基本特征集合中 候选触发词tr,的基本特征中,并把所述带相似度辅助模板六元组从带相似度候选辅助模 板集合中删除;最终得到的基本特征集合就是完整特征集合。
[005引优选的,步骤S9还包括W下步骤:
[0059] S901、把训练集特征集合中的特征作为输入,调用最大赌分类工具训练得到一个 最大赌事件触发词抽取模型;
[0060] S902、把完整特征集合中每个候选触发词的特征作为输入,调用所述最大赌事件 触发词抽取模型对候选触发词进行识别,获得每个候选触发词的事件类型(或被识别为非 事件),得到识别触发词集合。
[0061] 通过本发明提供的中文事件触发词的抽取方法及系统,通过利用角色的语义信 息,并利用核也角色和辅助角色来表示论元语义、利用机器学习的方法来进行中文事件触 发词抽取。与现有最好的中文事件抽取方法和系统相比,大大提升了事件抽取的性能。

【专利附图】

【附图说明】
[0062] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据该些附图获得其他的附图。
[0063] 图1是本发明较佳实施例提供的中文事件触发词的抽取系统的结构示意图。
[0064] 图2是本发明较佳实施例提供的句法和依存分析模块的结构示意图。
[0065] 图3是本发明较佳实施例提供的训练语料特征抽取模块的结构示意图。
[0066] 图4是本发明较佳实施例提供的候选触发词抽取模块的结构示意图。
[0067] 图5是本发明较佳实施例提供的训练集模板抽取模块的结构示意图。
[0068] 图6是本发明较佳实施例提供的候选模板抽取模块的结构示意图。
[0069] 图7是本发明较佳实施例提供的实体特征抽取模块的结构示意图。
[0070] 图8是本发明较佳实施例提供的触发词识别模块的结构示意图。
[0071] 图9是本发明较佳实施例提供的中文事件触发词的抽取方法的流程图。
[0072] 图10是本发明较佳实施例提供的句法和依存分析模块工作流程图。
[0073] 图11是本发明较佳实施例提供的训练语料特征抽取模块工作流程图。
[0074] 图12是本发明较佳实施例提供的训练语料特征抽取方法中的示例句法树图。
[00巧]图13是本发明较佳实施例提供的候选触发词抽取模块工作流程图。
[0076] 图14是本发明较佳实施例提供的训练集模板抽取模块工作流程图。
[0077] 图15是本发明较佳实施例提供的候选模板抽取模块工作流程图。
[0078] 图16是本发明较佳实施例提供的实体特征抽取模块工作流程图。
[0079] 图17是本发明较佳实施例提供的触发词识别模块工作流程图。

【具体实施方式】
[0080] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可W相互组合。
[0081] 本实施例W从自然文本中ACE (Automatic Context Extraction)定义的33类事 件为例,详细说明本发明的实施过程。
[0082] 图1是本发明较佳实施例提供的中文事件触发词的抽取系统的结构示意图。如图 1所示,本发明较佳实施例提供的中文事件触发词的抽取系统包括句法和依存分析模块1、 核也和辅助角色定义模块2、训练语料特征抽取模块3、候选触发词抽取模块4、基本特征抽 取模块5、训练集模板抽取模块6、候选模板抽取模块7、实体特征抽取模块8、触发词识别模 块9,所述句法和依存分析模块1连接核也和辅助角色定义模块2,所述核也和辅助角色定 义模块2连接训练语料特征抽取模块3,所述训练语料特征抽取模块3连接候选触发词抽取 模块4,所述候选触发词抽取模块4连接基本特征抽取模块5,所述基本特征抽取模块5连 接训练集模板抽取模块6,所述训练集模板抽取模块6连接候选模板抽取模块7,所述候选 模板抽取模块7连接实体特征抽取模块8,所述实体特征抽取模块8连接触发词识别模块 9。
[0083] 图2是本发明较佳实施例提供的句法和依存分析模块的结构示意图。如图2所示, 本发明较佳实施例提供的句法和依存分析模块包括分句单元101、实体识别单元102、句法 分析单元103及依存分析单元104,所述分句单元101连接实体识别单元102,所述实体识 别单元102连接句法分析单元103,所述句法分析单元103连接依存分析单元104。
[0084] 图3是本发明较佳实施例提供的训练语料特征抽取模块的结构示意图。如图3所 示,本发明较佳实施例提供的训练语料特征抽取模块包括训练语料触发词抽取单元301、训 练语料句法和依存分析单元302、训练语料特征抽取单元303,所述训练语料触发词抽取单 元301连接训练语料句法和依存分析单元302,所述训练语料句法和依存分析单元302连接 训练语料特征抽取单元303。
[0085] 图4是本发明较佳实施例提供的候选触发词抽取模块的结构示意图。如图4所 示,本发明较佳实施例提供的候选触发词抽取模块包括候选触发词选择单元401及相似候 选触发词选择单元402,所述候选触发词选择单元401连接相似候选触发词选择单元402。
[0086] 图5是本发明较佳实施例提供的训练集模板抽取模块的结构示意图。如图5所示, 本发明较佳实施例提供的训练集模板抽取模块包括核也实体抽取单元601、核也模板抽取 单元602、辅助实体抽取单元603及辅助模板抽取单元604,所述核也实体抽取单元601连 接核也模板抽取单元602,所述核也模板抽取单元602连接辅助实体抽取单元603,所述辅 助实体抽取单元603连接辅助模板抽取单元604。
[0087] 图6是本发明较佳实施例提供的候选模板抽取模块的结构示意图。如图6所示, 本发明较佳实施例提供的候选模板抽取模块包括事件类型初判单元701、实体类型生成单 元702、候选实体选择单元703及候选模板抽取单元704,所述事件类型初判单元701连接 实体类型生成单元702,所述实体类型生成单元702连接候选实体选择单元703,所述候选 实体选择单元703连接候选模板抽取单元704。
[0088] 图7是本发明较佳实施例提供的实体特征抽取模块的结构示意图。如图7所示, 本发明较佳实施例提供的实体特征抽取模块包括核也模板相似度计算单元801、辅助模板 相似度计算单元802、核也实体特征抽取单元803及辅助实体特征抽取单元804,所述核也 模板相似度计算单元801连接辅助模板相似度计算单元802,所述辅助模板相似度计算单 元802连接核也实体特征抽取单元803,所述核也实体特征抽取单元803连接辅助实体特征 抽取单元804。
[0089] 图8是本发明较佳实施例提供的触发词识别模块的结构示意图。如图8所示,本 发明较佳实施例提供的触发词识别模块包括触发词抽取训练单元901及触发词抽取单元 902,所述触发词抽取训练单元901连接触发词抽取单元902。
[0090] 图9是本发明较佳实施例提供的中文事件触发词的抽取方法的流程图。如图9所 示,本发明较佳实施例提供的中文事件触发词的抽取方法包括步骤Sl?S9。
[0091] 步骤Sl ;对原始文本每个文档中的句子分别进行词语切分,实体识别、句法分析 和依存关系分析,得到依存和句法文档集合。
[0092] 具体而言,对原始文本每个文档中的句子分别调用分词工具、实体识别工具、句法 分析工具和依存关系分析工具进行词语切分、实体识别、句法分析和依存关系分析。
[0093] 图10是本发明较佳实施例提供的句法和依存分析模块工作流程图。如图10所示, 本发明较佳实施例提供的句法和依存分析模块工作流程包括步骤SlOl?S104。
[0094] S101、对原始文本每个文档中的句子进行分句,并对每个分句后句子调用分词工 具切分词语,得到用空格分隔词语的第一文档集合。本步骤中,对原始文本每个文档中的句 子W "。"和"?"为分隔符进行分句。
[0095] 举例而言,句子"机器人军队用导弹攻击银河系共和国纳布星球,并且造成了 3名 银河系共和国平民受伤。"经过词语切分后为例1 ;机器人军队用导弹攻击银河系共和国纳 布星球,并且造成了 3名银河系共和国平民受伤。
[0096] S102、调用实体识别工具从第一文档集合的每个文档中识别实体并进行标注,得 到第二文档集合。本步骤中,所述第二文档集合中每个实体标注格式为"实体/实体类型"。
[0097] 比如,例2 ;机器人军队/ORG用导弹/WEA攻击银河系共和国/GPE纳布星球/L0C, 并且造成了 3名/NUM银河系共和国/GPE平民/P邸受伤。其中,"0RG"、"WEA"、"GPE"、 "L0C"、"NUM"和"阳R"分别表示的实体类别是组织机构、武器装备、政治性实体、位置、数量 和人。除此之外,常用的实体类别还有"TIME "、" JOB "、"FAC"和"VEH"等,分别表示时间、工 作岗位、场所和交通工具等。
[0098] S103、对第二文档集合中每个文档调用句法分析工具进行句法分析,得到第H文 档集合。
[009引具体地,例2经过句法分析后得到的句法结构如例3所示,例3 ;((IP (NP (NR机器 人军队))(VP (VP (PP (P用)(NP (順导弹)))(VP (VV攻击)(NP (NR银河系共和国)(NR纳布星 球))))(PU,) (CC并且)(VP (W造成)(AS 了)(NP (CD3名)(NR银河系共和国)(順平民)) (IP(VP(W受伤)))))(PU。)))。其中,句法分析是指对句子中的词语语法功能进行分析。 "NR"、"P"、"順"、"W"、"PU"、"CC"、"AS"和"CD"分别是句法分析后的标签,分别表示专用名 词、介词、普通名词、普通动词、标点符号、连词、时态词和数量词;"NP"、"VP"、"PP"和"IP" 分别表示名词性短语、动词性短语、介词性短语和子句。
[0100] S104、对第H文档集合中每个文档调用依存关系分析工具进行依存分析,得到依 存和句法文档集合。本步骤中,所述依存和句法文档集合为标注了实体、句法结构和依存关 系的依存和句法文档集合。
[0101] 如前所述,例3经过自动依存分析后,得到的结果部分如例4所示,例4 ;nsubj (攻 击-4,机器人军队-1) ;prep (攻击-4,用-2) ;pobj (用-2,导弹-3) ;nn(纳布星球-6, 银河系共和国-5) ;dobj (攻击-4,纳布星球-6) ;cc (攻击-4,并且-8) ;dep (攻击-4, 造成-9) ;asp (造成-9,了-10) ;nummod(平民-13, 3名-11) ;nn (平民-13,银河系共和 国-。);nsubj (受伤-14,平民-蝴;ccomp (造成-9,受伤-14)。
[010引 其中,"nn,V'nsub j,,、'' dob j,,、'' CC,,、'' con j,,、'' asp,V'numod,,、'' ccomp,,、'' Cbp,,、 "pobj "和"prep"是Stan壯ord依存分析工具输出的关系标签,分别表示并列名词、主谓关 系、直接宾语、连接关系、联合关系、数量修饰、时态标词、从句补语、介词宾语、其它关系和 介词关系。依存关系由支配成分(Government)、受支配成分值ependent)和它们之间的语 法关系巧elation)组成的H元组,如"nsubj (攻击-3,机器人军队-1)",表示支配成分"机 器人军队"是受支配成分"攻击"的形式主语。词语后面的数字表示该词语在句子中的序 号。
[0103] 步骤S2 ;根据需要抽取事件的定义,人工定义每类事件的核也角色和辅助角色, 得到核也辅助角色集合。
[0104] 具体而言,所述核也辅助角色集合中的每一项结构为,
[0105] <事件类型〉
[0106] <核也角色IX核也实体类型集合1〉
[0107] ......
[010引 < 核也角色n〉<核也实体类型集合n>
[0109] <辅助角色IX辅助实体类型集合1〉
[0110] ......
[0111] <辅助角色n〉<辅助实体类型集合n〉。
[0112] 举例而言,攻击事件(Attack)的核也和辅助角色定义如例5所示,例5 ;<7〉//7是 攻击事件的事件类型编号
[0113] <K :AttackerXPER/0RG/GPE>
[0114] <K :TargetXPER/0RG/GPE/VEH/FAC/L0C>
[01 巧]<A ; InstrumentX肥A〉
[0116] 其中,K和A分别表示核也角色和辅助角色。攻击事件有2个核也角色,分别是攻 击者(Attacker)和被攻击者(Target);有一个辅助角色(Instrument ;攻击设备)。每类 事件具有多个核也角色和辅助角色,每个核也角色/辅助角色均具有对应的可填充的实体 类型集合。
[0117] 一个完整事件可W表达成为"5化H"形式(Who (施事者谁),What (什么),Whom (受 事者谁),When(什么时候),Where (什么地方),How(怎么样)),其中"What"的语义一般由 事件触发词体现,其余"4W"则对应事件中扮演不同角色的实体。其中,"When"和"Where" 对应的角色绝大多数情况下为时间和地点,它们对应的实体一般不具有明显的事件类型区 分度。所队只有"Who"和"Whom"对应的角色所填充的实体才具有区分度,才能用于识别 事件。为此,本发明定义了用于触发词抽取的核也角色,回答了事件中核也的"2W" (Who, Whom)问题,一般是事件的施事者和受事者(如攻击事件的角色攻击者和被攻击者)。填充 核也角色的实体称为核也实体。"1H"用于辅助说明事件的一些细节信息(如宣判事件中的 判决结果、攻击事件中的武器等),主要包括交通工具、职位、具体罪行、武器等,对应的角色 称为辅助角色(如离职事件的角色职位)。填充辅助角色的实体称为辅助实体。辅助角色 同样可为事件触发词抽取提供有力依据,其作用不亚于核也角色,是体现事件语义的主要 指标之一。
[0118] 步骤S3 ;根据训练语料标注的事件信息,抽取所有的事件实例及其特征,得到训 练集触发词集合和训练集特征集合。
[0119] 图11是本发明较佳实施例提供的训练语料特征抽取模块工作流程图。如图11所 示,本发明较佳实施例提供的训练语料特征抽取模块工作流程包括步骤S301?S303。
[0120] S301、从训练语料中抽取标注的事件触发词,得到训练集触发词集合。
[0121] 具体地,一个标注事件例如例6所示;<9日早上,Time:TIME> -个穿白色 衣服的〈少年,Attacker:阳R〉在〈大街,Place:L0C〉上用〈棒,Instrument:WEAX 打,Anchor:Attack〉了一个 < 中年妇女,Target:阳R〉。
[0122] 其中,"Anchor:Attack"表示事件的触发词,其类型是"Attack"(攻击); "Time:TIME"表示其角色是"Time"(攻击时间),实体类型是"TIME",其它角色的标注类似。
[0123] 从该事件中可抽取一个事件触发词"打"。可从训练语料所有标注的事件中抽取所 有的触发词,构成训练集触发词集合。
[0124] S302、对训练语料中包含事件触发词的每个句子,调用Sl对所述句子进行词语切 分,句法分析和依存关系分析,得到依存和句法训练集合。
[01巧]具体地,例6的句子经过词语切分,句法分析和依存关系分析得到的句法结构和 依存关系如例7所示,例7 :
[0126] 句法;((IP (NP (CP (IP (NP (NT9 日早上))(NP (順一个))(VP (W 穿)(NP (ADJP (JJ 白色))(NP (順衣服)))))值EC 的))(NP (順少年)))(VP (PP (P 在)(LCP (NP (順大街))(LC 上)))(PP(P用)(化P(M棒)))(VP(VV打)(AS 了)(NP(順一个)(順中年妇女))))(PU。)))。
[0127] 部分依存关系;nsubj (打-13,少年-7),prep (打-13,用-11),dep (用-11, 棒-12),dobj (打-13,中年妇女-16)。
[012引 S303、根据预先选择的触发词特征,从依存和句法训练集合中抽取训练集触发词 集合中每个触发词的特征,构成训练集特征集合。
[0129] 在S303中,每个触发词付1的特征集合为:
[0130] <类别;n> (第n(n〉0)类事件的触发词;0-非事件触发词)
[0131] <1 =付1〉<2 =化1的词性〉<3 =化1前面的词+化1〉<4 =化1前面词的词性+化1 的词性〉<5 =付1+化1后面的词〉<6 = tr;的词性+化1后面词的词性〉<7 =在句法树中tr; 到第一个IP标记的路径长度〉<8 =在句法树中付1到顶层IP标记的路径〉<9 =包含付1 的短语结构XlO = tr,在同义词词林中的语义类别Xll = tr,是否在PropBank中作为谓 词X12 = tr;在依存关系中的支配者X13 = tr;在依存关系中的被支配者X14 = tr;的 依存关系X15 =付1的核也角色对应的实体X16 =付1的核也角色对应的实体的实体类 型X17 = tr;的辅助角色对应的实体X18 = tr;的辅助角色对应的实体的实体类型〉。其 中,1《n《N,N为需要抽取的总的事件类别数目,每个类别赋予一个不同的数字来表示事 件类别编号。
[0132] 举例而言,例6中的触发词"打"的特征集合如例8 :
[013引 7 1 =打 2 = W 3=棒打 4 = M+VV 5=打了 6 = W+AS 7 = 4 8 = W-VP-VP-IP 9 = VP 10 = FaOl 11 = I 12 =少年 12 =用 12 =中年妇女 14 = nsubj 14 = prep 14 =dob j 15 =少年 16 =阳R 15 =中年妇女 16 =阳R 17 =棒 18 = WEA。
[0134] 其中,事件类型Attack的编号是7,特征1-6和9可W从例7的句法结构中得到;7 和8可W根据例7的句法结构对应的句法树得到(如图12所示),其中路径长度是指在该路 径中句法标记的数量(在例图4中为4);特征10从"同义词词林"检索得到"打"的语义编 号是"化01";特征11从Pro地ank中检索得到"打"是一个谓词(1 ;是;0-不是);特征12-14 从例7的依存关系中得到,在该例中,没有"打"的被支配者,只有支配者(nsubj (打-13,少 年-7),pr巧(打-13,用-11),dobj (打-13,中年妇女-16))说明"少年"、"用"和"中年妇 女"是"打"的支配者),依存关系有"nsubjV'prep"和"dobj";另外,从标注语料(例6) 和攻击事件的核也和辅助角色定义(例5)可知攻击者(Attacker)和被攻击者(Target) 是核也角色,对应的核也实体为"少年"和"中年妇女",实体类型都是"PER";对应的辅助角 色是攻击设备(Instrument),辅助实体是"棒",类型"WEA"。
[0135] 步骤S4 ;根据训练集触发词集合中标注的触发词,从依存和句法文档集合中抽取 候选触发词,构成候选触发词集合。
[0136] 图13是本发明较佳实施例提供的候选触发词抽取模块工作流程图。如图13所示, 本发明较佳实施例提供的候选触发词抽取模块工作流程包括步骤S401?S402。
[0137] S401、从依存和句法文档集合中选择词性标注为名词或动词且在训练集触发词集 合中出现的词作为候选触发词,加入候选触发词第一集合。
[0138] 具体而言,从依存和句法文档集合中选择词性标注为"順"(名词)或"W"(动 词)且在训练集触发词集合中出现的词作为候选触发词,加入候选触发词第一集合,所述 触发词集合中的每一个候选触发词项包括;< 候选触发词X标注了实体、句法结构和依存 关系的候选触发词所在句子〉。由于在中文中绝大多数事件触发词是动词或名词,所W本发 明选择动词和名词作为候选触发词。
[0139] 例如,例1所示句子"机器人军队用导弹攻击银河系共和国纳布星球,并且造成了 3名银河系共和国平民受伤。"根据它的句法结构例3可W得到5个词性为"W/順"的词, 为"导弹"、"攻击"、"造成"、"平民"和"受伤"。由于只有"受伤"在训练集触发词集合中出 现过,所W把该词加入候选触发词第一集合。
[0140] S402、对依存和句法文档集合中每个词性标注为名词或动词且与训练集触发词集 合中的任意一个触发词具有至少一个相同汉字的词,计算所述词和所述训练集触发词集合 中的任意一个触发词的语义相似度的最大值;如果所述语义相似度的最大值等于1,则把 所述词加入候选触发词第一集合,得到候选触发词集合。
[01川于此,所述名词标注为"順"动词标注为"W"。本实施例中,词t和触发词a的语 义相似度SimT(t,a)定义为SimT(t,a) = a/(a+d)。此外,本发明采用化wNet的语义距 离来计算词汇的相似度,返回值为0-1之间的一个浮点数,值越大说明两个词越相似。d为 候选触发词t和种子触发词a在化WNet中的路径距离,通过调用化WNet提供的函数获得。 a是一个可调节的参数,本发明设置为1.6。
[0142] 例如,例I所示句子中的动词"攻击"和训练集触发词集合中的触发词"突击"具 有相同的字"击",并且它们的语义相似度为1(同义词),所W把"攻击"作为候选触发词。
[0143] 步骤S5 ;对候选触发词集合中的每个候选触发词,从依存和句法文档集合中得到 基本特征集合。
[0144] 步骤S5的具体过程为;根据预先选择的触发词特征,从依存和句法集合中抽取候 选触发词集合中每个候选触发词的基本特征,构成基本特征集合。
[0145] 其中,每个触发词tri的基本特征集合为;<1 =付1〉<2 = tr;的词性〉<3 = tr;前 面的词+化1〉<4 =化i前面词的词性+化1的词性〉<5 =付1+化1后面的词〉<6 = tr;的词性 +仕1后面词的词性〉<7 =在句法树中到第一个IP标记的路径长度〉<8 =在句法树中 化1到顶层IP标记的路径〉<9 =包含付1的短语结构XlO =付1在同义词词林中的语义类 别Xll = tr;是否在PropBank中作为谓词〉<12 = tr;在依存关系中的支配者〉<13 = tr; 在依存关系中的被支配者X14 = tr;的依存关系〉。
[0146] 于此,由于没有事件的标注信息,和训练集特征集合相比,缺少4个特征(即 15-18)。例如,可W根据例3和例4为候选触发词"攻击"和"受伤"抽取特征1-14。该些 特征可作为识别候选触发词"攻击"和"受伤"是那类事件触发词的依据。
[0147] 步骤S6 ;对训练集触发词集合中每个触发词,根据所述触发词的事件类型,分别 获取核也或辅助实体及其各自对应的实体类型,和所述触发词、所述触发词事件类型、所述 触发词和所述核也或辅助实体间的依存路径构成核也或辅助模板五元组,得到训练集核也 模板集合和训练集辅助模板集合。
[014引图14是本发明较佳实施例提供的训练集模板抽取模块工作流程图。如图14所示, 本发明较佳实施例提供的训练集模板抽取模块工作流程包括步骤S601?S604。
[0149] S601、对训练集触发词集合中每个触发词,根据所述触发词在训练语料中标注的 事件类型获取所述事件类型的所有核也角色对应的核也实体及其实体类型;每个所述核也 实体及其实体类型和所述触发词及其事件类型构成一个四元组,所有的四元组构成了核也 实体触发词集合。其中,所述四元组表述为,<核也实体,核也实体类型,触发词,触发词事 件类型〉。
[0150] 例如,根据攻击事件的核也角色定义(例5)可知攻击者(Attacker)和被攻击者 (Target)是核也角色。则例6中攻击事件的触发词"打"的核也实体为"少年"和"中年妇 女",实体类型都是叩邸"。则该两个实体和触发词"打"构成了 2个如例9所述的四元组:
[0151] 例9;
[015引 < 少年,P邸,打,7〉
[015引 < 中年妇女,P邸,打,7〉
[0154] S602、对核也实体触发词集合中的每个四元组,从依存和句法训练集合中得到所 述四元组中的核也实体和触发词之间的依存路径,构成核也模板五元组,得到训练集核也 模板集合。其中,所述核也模板五元组表述为,<核也实体,核也实体类型,触发词,触发词 事件类型,依存路径〉。
[0155] 具体地,例9中的2个四元组中"少年"和"打"的依存路径是"nsubj",而"中年妇 女"和"打"的依存路径是"dobj",则得到的核也模板五元组如例10 :
[0156] < 少年,P邸,打,7, nsubj〉
[0157] <中年妇女,P邸,打,7, dob j>
[0158] S603、对训练集触发词集合中每个触发词,根据所述触发词在训练语料中标注的 事件类型获取所述事件类型的所有辅助角色对应的辅助实体及其实体类型;每个所述辅助 实体及其实体类型和所述触发词及其事件类型构成一个四元组,所有的四元组构成了辅助 实体触发词集合。其中,所述四元组表述为,<辅助实体,辅助实体类型,触发词,触发词事 件类型〉。
[0159] 例如,根据攻击事件的辅助角色定义(例5)可知攻击设备(Instrument)是辅助 角色。则例6中攻击事件的触发词"打"的辅助实体为"棒",实体类型都是"WEA"。则该个 实体和触发词"打"构成了 1个如例11所述的四元组:
[0160] 例 11 ;< 棒,WEA,打,7〉
[0161] S604、对辅助实体触发词集合中的每个四元组,从依存和句法训练集合中得到所 述四元组中的辅助实体和触发词之间的依存路径,构成辅助模板五元组,得到训练集辅助 模板集合。其中,所述辅助模板五元组表述为,<辅助实体,辅助实体类型,触发词,触发词 事件类型,依存路径〉。
[016引例11中的四元组中"棒"和"打"的依存路径是"pr巧-Cbp"(从"prep (打-13, 用-11)"和"dep (用-11,棒-12)"得到),则得到的辅助模板五元组如例12 :
[0163] 例 12 ;< 棒,P邸,打,7, prep-dep〉
[0164] 步骤S7 ;对基本特征集合中的每个候选触发词,判断所述候选触发词的初步事件 类型;再根据所述初步事件类型抽取所述初步事件类型的核也和辅助角色对应的所有核也 和辅助实体及其实体类型,和所述候选触发词、所述触发词事件类型、所述候选触发词与所 述核也和辅助实体间的依存路径,分别构成核也和辅助论元模板五元组,得到候选核也模 板集合和候选辅助模板集合。
[0165] 图15是本发明较佳实施例提供的候选模板抽取模块工作流程图。如图15所示, 本发明较佳实施例提供的候选模板抽取模块工作流程包括步骤S701?S704。
[0166] S701、根据触发词集合中的触发词和语义相似度,初步判断所述候选触发词付1的 初步事件类型tti。
[0167] 具体而言,所述判断候选触发词tr,的初步事件类型的具体方法如下;如果所述候 选触发词tri在触发词集合中出现,则从所述触发词集合中抽取所有触发词为tri的事件, 并统计所有的所述事件中出现次数最多的事件类型作为候选触发词tr,的初步事件类型 tti ;否则,计算所述候选触发词tr,和训练集触发词集合中的任意一个触发词的语义相 似度SimT (tr。ap ;统计训练集触发词集合中和候选触发词付1的语义相似度值等于1的所 有触发词的事件类型及其出现次数,把出现次数最多的事件类型作为候选触发词tr;的初 步事件类型tti ;所述语义相似度SimT(tr。ap计算方法同步骤S402中的语义相似度计算 方法。
[016引例如,例1所示句子"机器人军队用导弹攻击银河系共和国纳布星球,并且造成了 3名银河系共和国平民受伤。"中的候选触发词"受伤"在触发词集合中出现次数最多的事 件类型是受伤事件(Injure),所W候选触发词"受伤"的初步事件类型为6 (受伤事件的事 件类型编号是6)。另外一个候选触发词"攻击"在触发词集合中没有出现,则计算它和触 发词集合中的每个触发词的语义相似度,得到语义相似度值为1的触发词有H个;"突击"、 "击"和"进攻",它们都作为攻击事件的触发词,所W候选触发词"攻击"的初步事件类型为 7。需要说明的是,有的触发词(如;"射"既可W触发攻击事件(发射子弹),又可W触发移 动事件(如:发射飞船))可W触发不止一类事件,所W本发明把该类触发词最常出现的事 件类型作为它们的初步事件类型。
[0169] S702、从所述核也辅助角色集合中分别获取所述事件类型tti的所有核也角色和 辅助角色;把所述核也角色对应的所有核也实体类型加入候选核也实体类型集合;把所述 辅助角色对应的所有辅助实体类型加入候选辅助实体类型集合。
[0170] 例如,候选触发词"攻击"的初步事件类型为攻击事件,那么它的核也角色是攻击 者(Attacker)和被攻击者(Target),核也实体类型集合是"阳R/0RG/GPE/VEH/FAC/L0C"。 辅助角色是攻击设备(Instrument),辅助实体类型集合是"WEA"。
[0171] S703、从依存和句法集合中抽取和所述候选触发词在同一个句子的所有实体, 得到候选实体第一集合;从所述候选实体第一集合中过滤掉实体类型不在候选核也实体类 型集合中的实体,得到候选核也实体集合;从所述候选实体第一集合中过滤掉实体类型不 在候选辅助实体类型集合中的实体,得到候选辅助实体集合。
[0172] 例如,例1所示句子"机器人军队用导弹攻击银河系共和国纳布星球,并且造成了 3名银河系共和国平民受伤。"中有7个实体(机器人军队/0RG、导弹/WEA、银河系共和国 /GPE、纳布星球/L0C、3名/NUM、银河系共和国/GPE、平民/PER),加入候选实体第一集合; 由于攻击事件的核也实体类型集合是"PER/0RG/GPE/VEH/FAC/L0C",则过滤掉候选实体"导 弹/WEA"、"3名/NUM",把其余5个实体加入候选核也实体集合;由于攻击事件的辅助实体 类型集合是"WEA",则过滤掉6个候选实体,只有"导弹/WEA"加入候选辅助实体集合。
[0173] S704、候选核也实体集合中的每个核也实体e;及其实体类型eti和所述触发词tri 及其初步事件类型tti、所述核也实体Gi和候选触发词tr;的依存路径Pi,构成核也模板五 元组,得到候选触发词tri的候选核也模板集合;候选辅助实体集合中的每个辅助实体曰1及 其实体类型eti和所述触发词tri及其事件类型tti、所述辅助实体Gi和候选触发词tri之 间的依存路径Pi,构成辅助模板五元组,得到候选触发词tri的候选辅助模板集合。
[0174] 具体地,候选核也实体集合中的每个核也实体Gi及其实体类型eti和所述触发词 付1及其初步事件类型tti构成 < 核也实体日1,核也实体类型eti,候选触发词tr;,初步事件 类型tti〉四元组,得到候选核也实体触发词集合;对所述候选核也实体触发词集合中的每 个四元组,从依存和句法训练集合中得到所述四元组中的核也实体e;和候选触发词tr;之 间的依存路径Pi,构成核也模板五元组 < 核也实体日1,核也实体类型eti,候选触发词付1,初 步事件类型tti,依存路径Pi〉,得到候选触发词tri的候选核也模板集合;候选辅助实体集 合中的每个辅助实体Gi及其实体类型eti和所述触发词tri及其事件类型tti构成 < 辅助 实体61,辅助实体类型eti,候选触发词化,初步事件类型tti〉四元组,得到候选辅助实体 触发词集合;对所述候选辅助实体触发词集合中的每个四元组,从依存和句法训练集合中 得到所述四元组中的辅助实体曰1和候选触发词tri之间的依存路径Pi,构成辅助模板五元 组 < 辅助实体日1,辅助实体类型eti,候选触发词付1,初步事件类型tti,依存路径Pi〉,得到 候选触发词tri的候选辅助模板集合。
[0175] 例如,候选触发词"攻击"的候选核也实体集合中有5个候选核也实体,则得到5个 核也模板五元组。如例13所示:
[0176] <机器人军队,ORG,攻击,7, nsubj〉
[0177] <银河系共和国(第一个),GPE,攻击,7, dobj-nn〉
[0178] < 纳布星球,L0C,攻击,7, dobj〉
[0179] < 银河系共和国(第二个),GPE,攻击,7, dep-ccomp-nsubj-nn〉
[0180] < 平民,P邸,攻击,7, cbp-ccomp-nsub j〉。
[018。 在候选辅助实体集合中有一个候选辅助实体,则得到I个辅助模板五元组。如例 14 所示;< 导弹,WEA,攻击,7, prep-pobj〉。
[0182] 步骤S8 ;对基本特征集合中的每个候选触发词,分别从候选核也模板集合和候选 辅助模板集合中为所述触发词的初步事件类型对应的核也角色和辅助角色选择核也实体 和辅助实体,把所述核也实体和辅助实体及其实体类型作为新特征加入基本特征集合,得 到完整特征集合。
[0183] 图16是本发明较佳实施例提供的实体特征抽取模块工作流程图。如图16所示, 本发明较佳实施例提供的实体特征抽取模块工作流程,即对基本特征集合中的每个候选触 发词付1执行步骤S801?S804。
[0184] S801、计算候选触发词付1的候选核也模板集合中每个核也模板五元组CandPi 和训练集核也模板集合中事件类型为tti,核也实体类型为eti的每个核也模板五元组 化tterrij的模板相似度SimP (CandP。Patterrij)的最大值MCPi ;把所述最大值MCPi加入核 也模板五元组CandPi,得到带相似度核也模板六元组,加入带相似度候选核也模板集合。
[0185] 具体地,所述核也模板五元组CandPi为 < 核也实体日1,核也实体类型eti,候选触 发词tr;,初步事件类型tti,依存路径Pi〉,所述核也模板五元组化tterrij为 < 核也实体Gj, 核也实体类型etj.,触发词触发词事件类型ttj.,依存路径Pj.〉,所述带相似度核也模板六 元组为 < 核也实体日1,核也实体类型eti,候选触发词付1,初步事件类型tti,依存路径Pi,相 似度MCPi〉。其中,MCPi的计算方法为,
[0186]

【权利要求】
1. 中文事件触发词的抽取方法,其特征在于,包括以下步骤: 51、 对原始文本每个文档中的句子分别进行词语切分,实体识别、句法分析和依存关系 分析,得到依存和句法文档集合; 52、 根据需要抽取事件的定义,人工定义每类事件的核心角色和辅助角色,得到核心辅 助角色集合; 53、 根据训练语料标注的事件信息,抽取所有的事件实例及其特征,得到训练集触发词 集合和训练集特征集合; 54、 根据训练集触发词集合中标注的触发词,从依存和句法文档集合中抽取候选触发 词,构成候选触发词集合; 55、 对候选触发词集合中的每个候选触发词,从依存和句法文档集合中得到基本特征 集合; 56、 对训练集触发词集合中每个触发词,根据所述触发词的事件类型,分别获取核心或 辅助实体及其各自对应的实体类型,和所述触发词、所述触发词事件类型、所述触发词和所 述核心或辅助实体间的依存路径构成核心或辅助模板五元组,得到训练集核心模板集合和 训练集辅助模板集合; 57、 对基本特征集合中的每个候选触发词,判断所述候选触发词的初步事件类型;再根 据所述初步事件类型抽取所述初步事件类型的核心和辅助角色对应的所有核心和辅助实 体及其实体类型,和所述候选触发词、所述触发词事件类型、所述候选触发词与所述核心和 辅助实体间的依存路径,分别构成核心和辅助论元模板五元组,得到候选核心模板集合和 候选辅助模板集合; 58、 对基本特征集合中的每个候选触发词,分别从候选核心模板集合和候选辅助模板 集合中为所述触发词的初步事件类型对应的核心角色和辅助角色选择核心实体和辅助实 体,把所述核心实体和辅助实体及其实体类型作为新特征加入基本特征集合,得到完整特 征集合; 59、 根据训练集特征集合中的特征,训练一个最大熵事件触发词抽取模型;再利用所述 最大熵事件触发词抽取模型对的每个候选触发词根据完整特征集合进行识别,得到识别触 发词集合。
2. 根据权利要求1所述的方法,其特征在于,所述步骤S1包括: 5101、 对原始文本每个文档中的句子进行分句,并对每个分句后句子调用分词工具切 分词语,得到用空格分隔词语的第一文档集合; 5102、 调用实体识别工具从第一文档集合的每个文档中识别实体并进行标注,得到第 二文档集合; 5103、 对第二文档集合中每个文档调用句法分析工具进行句法分析,得到第三文档集 合; 5104、 对第三文档集合中每个文档调用依存关系分析工具进行依存分析,得到依存和 句法文档集合。
3. 根据权利要求1所述的方法,其特征在于,所述步骤S3包括: 5301、 从训练语料中抽取标注的事件触发词,得到训练集触发词集合; 5302、 对训练语料中包含事件触发词的每个句子,调用S1对所述句子进行词语切分, 句法分析和依存关系分析,得到依存和句法训练集合; S303、根据预先选择的触发词特征,从依存和句法训练集合中抽取训练集触发词集合 中每个触发词的特征,构成训练集特征集合。
4. 根据权利要求1所述的方法,其特征在于,所述步骤S4包括: 5401、 从依存和句法文档集合中选择词性标注为名词或动词且在训练集触发词集合中 出现的词作为候选触发词,加入候选触发词第一集合; 5402、 对依存和句法文档集合中每个词性标注为名词或动词且与训练集触发词集合中 的任意一个触发词具有至少一个相同汉字的词,计算所述词和所述训练集触发词集合中的 任意一个触发词的语义相似度的最大值;如果所述语义相似度的最大值等于1,则把所述 词加入候选触发词第一集合,得到候选触发词集合。
5. 根据权利要求1所述的方法,其特征在于,所述步骤S5的具体过程为: 根据预先选择的触发词特征,从依存和句法集合中抽取候选触发词集合中每个候选触 发词的基本特征,构成基本特征集合。
6. 根据权利要求1所述的方法,其特征在于,所述步骤S6还包括: 5601、 对训练集触发词集合中每个触发词,根据所述触发词在训练语料中标注的事件 类型获取所述事件类型的所有核心角色对应的核心实体及其实体类型;每个所述核心实体 及其实体类型和所述触发词及其事件类型构成一个四元组,所有的四元组构成了核心实体 触发词集合; 5602、 对核心实体触发词集合中的每个四元组,从依存和句法训练集合中得到所述四 元组中的核心实体和触发词之间的依存路径,构成核心模板五元组,得到训练集核心模板 集合; 5603、 对训练集触发词集合中每个触发词,根据所述触发词在训练语料中标注的事件 类型获取所述事件类型的所有辅助角色对应的辅助实体及其实体类型;每个所述辅助实体 及其实体类型和所述触发词及其事件类型构成一个四元组,所有的四元组构成了辅助实体 触发词集合; 5604、 对辅助实体触发词集合中的每个四元组,从依存和句法训练集合中得到所述四 元组中的辅助实体和触发词之间的依存路径,构成辅助模板五元组,得到训练集辅助模板 集合。
7. 根据权利要求1所述的方法,其特征在于,在步骤S7中,对基本特征集合中的每个候 选触发词tri,执行以下步骤: 5701、 根据触发词集合中的触发词和语义相似度,初步判断所述候选触发词tri的初步 事件类型; 5702、 从所述核心辅助角色集合中分别获取所述事件类型的所有核心角色和辅助 角色;把所述核心角色对应的所有核心实体类型加入候选核心实体类型集合;把所述辅助 角色对应的所有辅助实体类型加入候选辅助实体类型集合; 5703、 从依存和句法集合中抽取和所述候选触发词tri在同一个句子的所有实体,得到 候选实体第一集合;从所述候选实体第一集合中过滤掉实体类型不在候选核心实体类型集 合中的实体,得到候选核心实体集合;从所述候选实体第一集合中过滤掉实体类型不在候 选辅助实体类型集合中的实体,得到候选辅助实体集合; S704、候选核心实体集合中的每个核心实体ei及其实体类型eti和所述触发词tri及 其初步事件类型ttp所述核心实体ei和候选触发词tn的依存路径Pi,构成核心模板五元 组,得到候选触发词tri的候选核心模板集合;候选辅助实体集合中的每个辅助实体ei及其 实体类型eti和所述触发词tri及其事件类型tti、所述辅助实体 ei和候选触发词tri之间 的依存路径Pi,构成辅助模板五元组,得到候选触发词tri的候选辅助模板集合。
8. 根据权利要求1所述的方法,其特征在于,在步骤S8中,对基本特征集合中的每个候 选触发词tri,执行以下步骤: 5801、 计算候选触发词tn的候选核心模板集合中每个核心模板五元组CandPi和训练 集核心模板集合中事件类型为ttp核心实体类型为eh的每个核心模板五元组Pattern』的 模板相似度SimP (CandPi,Patten^)的最大值MCPi ;把所述最大值MCPi加入核心模板五元 组CandPi,得到带相似度核心模板六元组,加入带相似度候选核心模板集合。 5802、 计算候选触发词tri的候选辅助模板集合中每个辅助模板五元组CandPi和训练 集辅助模板集合中事件类型为ttp辅助实体类型为eh的每个辅助模板五元组Pattern」的 模板相似度SimP (CandPi,Patten^)的最大值MCPi ;把所述最大值MCPi加入辅助模板五元 组CandPi,得到带相似度辅助模板六元组,加入带相似度候选辅助模板集合。 5803、 从核心辅助角色集合中分别获取所述事件类型的所有核心角色;对每个核心 角色,根据所述核心角色对应的核心实体类型集合选择一个核心实体类型属于所述核心实 体类型集合且相似度最大的带相似度核心模板六元组;把所述带相似度核心模板六元组中 的核心实体ei和核心实体类型el^作为候选触发词tA的新特征加入基本特征集合中候选 触发词tn的基本特征中,并把所述带相似度核心模板六元组从带相似度候选核心模板集 合中删除。 5804、 从核心辅助角色集合中分别获取所述事件类型的所有辅助角色;对每个辅助 角色,根据所述辅助角色对应的辅助实体类型集合选择一个辅助实体类型属于所述辅助实 体类型集合且相似度最大的带相似度辅助模板六元组;把所述带相似度辅助模板六元组中 的辅助实体ei和辅助实体类型eh作为候选触发词tri的新特征加入基本特征集合中候选 触发词tri的基本特征中,并把所述带相似度辅助模板六元组从带相似度候选辅助模板集 合中删除;最终得到的基本特征集合就是完整特征集合。
9. 根据权利要求1所述的方法,其特征在于,所述步骤S9包括: 5901、 把训练集特征集合中的特征作为输入,调用最大熵分类工具训练得到一个最大 熵事件触发词抽取模型; 5902、 把完整特征集合中每个候选触发词的特征作为输入,调用所述最大熵事件触发 词抽取模型对候选触发词进行识别,获得每个候选触发词的事件类型(或被识别为非事 件),得到识别触发词集合。
10. -种中文事件触发词的抽取系统,其特征在于,包括句法和依存分析模块、核心和 辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训 练集模板抽取模块、候选模板抽取模块、实体特征抽取模块、触发词识别模块,所述句法和 依存分析模块连接核心和辅助角色定义模块,所述核心和辅助角色定义模块连接训练语料 特征抽取模块,所述训练语料特征抽取模块连接候选触发词抽取模块,所述候选触发词抽 取模块连接基本特征抽取模块,所述基本特征抽取模块连接训练集模板抽取模块,所述训 练集模板抽取模块连接候选模板抽取模块,所述候选模板抽取模块连接实体特征抽取模 块,所述实体特征抽取模块连接触发词识别模块, 其中,所述句法和依存分析模块,包括分句单元、实体识别单元、句法分析单元及依存 分析单元,所述分句单元连接实体识别单元,所述实体识别单元连接句法分析单元,所述句 法分析单元连接依存分析单元, 所述训练语料特征抽取模块,包括训练语料触发词抽取单元、训练语料句法和依存分 析单元、训练语料特征抽取单元,所述训练语料触发词抽取单元连接训练语料句法和依存 分析单元,所述训练语料句法和依存分析单元连接训练语料特征抽取单元, 所述候选触发词抽取模块,包括候选触发词选择单元及相似候选触发词选择单元,所 述候选触发词选择单元连接相似候选触发词选择单元, 所述训练集模板抽取模块,包括核心实体抽取单元、核心模板抽取单元、辅助实体抽取 单元及辅助模板抽取单元,所述核心实体抽取单元连接核心模板抽取单元,所述核心模板 抽取单元连接辅助实体抽取单元,所述辅助实体抽取单元连接辅助模板抽取单元, 所述候选模板抽取模块,包括事件类型初判单元、实体类型生成单元、候选实体选择单 元及候选模板抽取单元,所述事件类型初判单元连接实体类型生成单元,所述实体类型生 成单元连接候选实体选择单元,所述候选实体选择单元连接候选模板抽取单元, 所述实体特征抽取模块,包括核心模板相似度计算单元、辅助模板相似度计算单元、核 心实体特征抽取单元及辅助实体特征抽取单元,所述核心模板相似度计算单元连接辅助模 板相似度计算单元,所述辅助模板相似度计算单元连接核心实体特征抽取单元,所述核心 实体特征抽取单元连接辅助实体特征抽取单元, 所述触发词识别模块,包括触发词抽取训练单元及触发词抽取单元,所述触发词抽取 训练单元连接触发词抽取单元。
【文档编号】G06F17/27GK104331480SQ201410626003
【公开日】2015年2月4日 申请日期:2014年11月7日 优先权日:2014年11月7日
【发明者】李培峰, 周国栋, 朱巧明, 孔芳, 朱晓旭 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1