一种事件识别方法及系统的制作方法

文档序号:10655214阅读:330来源:国知局
一种事件识别方法及系统的制作方法
【专利摘要】一种事件识别方法及系统,将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射,并对映射过程中生成的所述结构化短语进行后处理;获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语;将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语,并根据所述事件短语对文本进行事件识别。本申请通过将初始短语在两种语言之间以结构化短语的形式相互映射,可以解决单一语言的语料资源匮乏的问题,并且能够通过挖掘两种语言之间在语言学上的差异或者通过语义上的一些约束来挖掘多样化的句法结构信息,从而可以获得更为完备的用于进行事件识别的事件短语,提高事件识别的准确率和召回率。
【专利说明】
-种事件识别方法及系统
技术领域
[0001] 本申请设及自然语言处理技术领域,特别是设及一种事件识别方法及系统。
【背景技术】
[0002] 事件识别化vent Reco即ition)是信息抽取(Information Extraction, IE)领域 中一个非常重要的研究方向,也是自然语言处理(natural language processing,化P)任 务的一项基础工作,主要是为了确定文档是否与某一特定类型的事件相关。
[0003] 目前,事件识别方法通常是在单一语言的基础上开展的,而单一语言的语料数据 的数量和质量有限,导致事件识别的准确率和召回率的提升空间有限。

【发明内容】

[0004] 有鉴于此,本申请实施例提供一种事件识别方法及系统,W提高事件识别的准确 率和召回率。
[0005] 为了实现上述目的,本申请实施例提供的技术方案如下:
[0006] -种事件识别方法,包括:
[0007] 将第一语言端的初始短语在第一语言和第二语言之间W结构化短语的形式进行 相互映射,并对映射过程中生成的所述结构化短语进行后处理;
[0008] 获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语;
[0009] 将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语, 并根据所述事件短语对文本进行事件识别。
[0010] 优选地,所述将第一语言端的初始短语在第一语言和第二语言之间W结构化短语 的形式进行相互映射,包括:
[0011] 在所述第一语言和所述第二语言所在的双语平行语料中的所述第一语言端查找 包括所述初始短语的第一语句;
[0012] 对所述第一语句进行依存分析,得到所述第一语句的句法特征,并从所述第一语 句的句法特征中获取与所述初始短语相对应的第一结构化短语;所述第一结构化短语中包 括所述初始短语的语义学信息W及所述初始短语的句法结构信息;
[0013] 将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句,并根据所 述第一语句和所述第二语句之间的词对齐信息,在所述第二语句中确定与所述第一结构化 短语相对应的第二短语;
[0014] 对所述第二语句进行依存分析,得到所述第二语句的句法特征,并从所述第二语 句的句法特征中获取与所述第二短语相对应的第二结构化短语;所述第二结构化短语中包 括所述第二短语的语义学信息W及所述第二短语的句法结构信息;
[0015] 在所述双语平行语料中的所述第二语言端查找包括所述第二结构化短语的第= 语句;
[0016] 将所述第=语句映射到所述双语平行语料中的所述第一语言端的第四语句,并根 据所述第=语句和所述第四语句之间的词对齐信息,在所述第四语句中确定与所述第二结 构化短语相对应的第=短语;
[0017] 对所述第四语句进行依存分析,得到所述第四语句的句法特征,并从所述第四语 句的句法特征中获取与所述第=短语相对应的第=结构化短语;所述第=结构化短语中包 括所述第=短语的语义学信息W及所述第=短语的句法结构信息。
[0018] 优选地,所述对映射过程中生成的所述结构化短语进行后处理,包括:
[0019] 获取所述第二结构化短语和所述第=结构化短语;
[0020] 判断所述第二结构化短语和所述第=结构化短语的句法结构信息中是否包含并 列结构;
[0021] 如果所述第二结构化短语和所述第=结构化短语的句法结构信息中包含并列结 构,则将包含并列结构的所述第二结构化短语和所述第=结构化短语拆分成多个不具有并 列结构的短语,并同时保留拆分前后的短语W及不包含并列结构的所述第二结构化短语和 所述第=结构化短语。
[0022] 优选地,所述对映射过程中生成的所述结构化短语进行后处理,包括:
[0023] 获取所述第二结构化短语和所述第=结构化短语;
[0024] 判断所述第二结构化短语和所述第=结构化短语的句法结构信息中是否包含修 饰成分;
[0025] 如果所述第二结构化短语和所述第=结构化短语的句法结构信息中包含修饰成 分,则将包含修饰成分的所述第二结构化短语和所述第=结构化短语中的修饰成分删除, 并保留删除修饰成分后的所述第二结构化短语和所述第=结构化短语。
[0026] 优选地,所述对映射过程中生成的所述结构化短语进行后处理,包括:
[0027] 获取所述第二结构化短语与所述第=结构化短语;
[0028] 根据预先设置的过滤规则,对所述第二结构化短语和所述第=结构化短语进行过 滤,并保留过滤后剩余的所述第二结构化短语和所述第=结构化短语;所述过滤规则包括: 词频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几种的组合。
[0029] -种事件识别系统,包括:
[0030] 映射模块,用于将第一语言端的初始短语在第一语言和第二语言之间W结构化短 语的形式进行相互映射,并对映射过程中生成的所述结构化短语进行后处理;
[0031] 处理模块,用于获取相互映射并经过后处理后得到的所述第一语言端的所述结构 化短语;
[0032] 识别模块,用于将获取的所述第一语言端的所述结构化短语转化为所述第一语言 端的事件短语,并根据所述事件短语对文本进行事件识别。
[0033] 优选地,所述映射模块,包括:
[0034] 第一查找单元,用于在所述第一语言和所述第二语言所在的双语平行语料中的所 述第一语言端查找包括所述初始短语的第一语句;
[0035] 第一分析单元,用于对所述第一语句进行依存分析,得到所述第一语句的句法特 征,并从所述第一语句的句法特征中获取与所述初始短语相对应的第一结构化短语;所述 第一结构化短语中包括所述初始短语的语义学信息W及所述初始短语的句法结构信息;第 一确定单元,用于将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句, 并根据所述第一语句和所述第二语句之间的词对齐信息,在所述第二语句中确定与所述第 一结构化短语相对应的第二短语;
[0036] 第二分析单元,用于对所述第二语句进行依存分析,得到所述第二语句的句法特 征,并从所述第二语句的句法特征中获取与所述第二短语相对应的第二结构化短语;所述 第二结构化短语中包括所述第二短语的语义学信息W及所述第二短语的句法结构信息;
[0037] 第二查找单元,用于在所述双语平行语料中的所述第二语言端查找包括所述第二 结构化短语的第=语句;
[0038] 第二确定单元,用于将所述第=语句映射到所述双语平行语料中的所述第一语言 端的第四语句,并根据所述第=语句和所述第四语句之间的词对齐信息,在所述第四语句 中确定与所述第二结构化短语相对应的第=短语;
[0039] 第=分析单元,用于对所述第四语句进行依存分析,得到所述第四语句的句法特 征,并从所述第四语句的句法特征中获取与所述第=短语相对应的第=结构化短语;所述 第=结构化短语中包括所述第=短语的语义学信息W及所述第=短语的句法结构信息。
[0040] 优选地,所述映射模块,还包括:
[0041 ]第一获取单元,用于获取所述第二结构化短语和所述第=结构化短语;
[0042] 第一判断单元,用于判断所述第二结构化短语和所述第=结构化短语的句法结构 信息中是否包含并列结构;
[0043] 拆分单元,用于如果所述第二结构化短语和所述第=结构化短语的句法结构信息 中包含并列结构,则将包含并列结构的所述第二结构化短语和所述第=结构化短语拆分成 多个不具有并列结构的短语,并同时保留拆分前后的短语W及不包含并列结构的所述第二 结构化短语和所述第=结构化短语。
[0044] 优选地,所述映射模块,还包括:
[0045] 第二获取单元,用于获取所述第二结构化短语和所述第=结构化短语;
[0046] 第二判断单元,用于判断所述第二结构化短语和所述第=结构化短语的句法结构 信息中是否包含修饰成分;
[0047] 删除单元,用于如果所述第二结构化短语和所述第=结构化短语的句法结构信息 中包含修饰成分,则将包含修饰成分的所述第二结构化短语和所述第=结构化短语中的修 饰成分删除,并保留删除修饰成分后的所述第二结构化短语和所述第=结构化短语。
[004引优选地,所述映射模块,还包括:
[0049] 第=获取单元,用于获取所述第二结构化短语和所述第=结构化短语;
[0050] 过滤单元,用于根据预先设置的过滤规则,对所述第二结构化短语和所述第=结 构化短语进行过滤,并保留过滤后剩余的所述第二结构化短语和所述第=结构化短语;所 述过滤规则包括:词频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几 种的组合。
[0051] 由W上本申请实施例提供的技术方案可见,相对于现有技术,本申请具有如下有 益效果:
[0052] 应用本申请提供的事件识别方法及系统,将第一语言端的初始短语在第一语言和 第二语言之间W结构化短语的形式进行相互映射,并对映射过程中生成的所述结构化短语 进行后处理;获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语;将 获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语,并根据所述 事件短语对文本进行事件识别。可见,本申请实施例通过将初始短语在两种语言之间W结 构化短语的形式相互映射,可W解决单一语言的语料资源匿乏的问题,并且能够通过挖掘 两种语言之间在语言学上的差异或者通过语义上的一些约束来挖掘多样化的句法结构信 息,从而可W获得更为完备的用于进行事件识别的事件短语,提高事件识别的准确率和召 回率。
【附图说明】
[0053] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可W根据运些附图获得其他的附图。
[0054] 图1为本申请一个实施例提供的事件识别方法的流程图;
[0055] 图2为本申请提供的从初始短语生成事件短语及其句法结构信息的示意图;
[0056] 图3为本申请提供的英文端与中文端平行句子依存分析示意图;
[0057] 图4为本申请实施例提供的从英文端到中文端的一次完整的映射过程的示意图; [005引图5为本申请提供的第二语言端的句子句法分析结果示意图;
[0059] 图6为本申请一个实施例提供的事件识别系统的结构图。
【具体实施方式】
[0060] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0061] 图1为本申请一个实施例提供的事件识别方法的流程图。
[0062] 参照图1所示,本申请提供的一种事件识别方法,包括:
[0063] SlOl:将第一语言端的初始短语在第一语言和第二语言之间W结构化短语的形式 进行相互映射,并对映射过程中生成的所述结构化短语进行后处理;
[0064] 在本申请实施例中,第一语言可W为英文,第二语言可W为中文,当然,第一语言 和第二语言均可W选取其它语言,本申请实施例并不对语言范围进行限定。
[0065] 在第一语言和第二语言之间W结构化短语的形式进行相互映射,是指在第一语言 和第二语言之间进行相互翻译的基础上,将初始短语W-种结构化短语的形式在第一语言 和第二语言之间进行映射结构化短语既包含短语的单词内容成分,也包含短语的单词内容 成分之间的结构信息即句法结构信息,而且结构化短语在去掉句法结构信息后,可W转化 成一般的正常短语。
[0066] 再举例说明什么是结构化的短语:3化旨日(1<(1〇13。(1日111〇]13化日1:;[0]13运个短语包含单 词结点staged、demonstrations,还有它们之间的关系,dobj即direct object表示它们是 主语和谓语之间的直接宾语关系。本申请实施例定义运种单词与单词间关系共存的短语为 结构化短语,每个单词就是一个结点,两个结点之间的便是它们的关系。还可W将运个结构 化短语还原成一般的正常短语:s1:aged demonshations,再例如:call<prep_fo;r〉boycott 运个短语,还原成一般的正常短语就是cal I for boycott,其间的关系prep即preposition 表介词,prep_f or表示介词中的for关系,因此,需要将运个for还原到正常短语当中去。
[0067] 在本申请实施例中,当第一语言是英文,第二语言是中文时,所述将第一语言端的 初始短语在第一语言和第二语言之间W结构化短语的形式进行相互映射,包括:
[0068] 在所述第一语言和所述第二语言所在的双语平行语料中的所述第一语言端查找 包括所述初始短语的第一语句;对所述第一语句进行依存分析,得到所述第一语句的句法 特征,并从所述第一语句的句法特征中获取与所述初始短语相对应的第一结构化短语;所 述第一结构化短语中包括所述初始短语的语义学信息W及所述初始短语的句法结构信息; 将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句,并根据所述第一语 句和所述第二语句之间的词对齐信息,在所述第二语句中确定与所述第一结构化短语相对 应的第二短语;对所述第二语句进行依存分析,得到所述第二语句的句法特征,并从所述第 二语句的句法特征中获取与所述第二短语相对应的第二结构化短语;所述第二结构化短语 中包括所述第二短语的语义学信息W及所述第二短语的句法结构信息;在所述双语平行语 料中的所述第二语言端查找包括所述第二结构化短语的第=语句;将所述第=语句映射到 所述双语平行语料中的所述第一语言端的第四语句,并根据所述第=语句和所述第四语句 之间的词对齐信息,在所述第四语句中确定与所述第二结构化短语相对应的第=短语;对 所述第四语句进行依存分析,得到所述第四语句的句法特征,并从所述第四语句的句法特 征中获取与所述第=短语相对应的第=结构化短语;所述第=结构化短语中包括所述第= 短语的语义学信息W及所述第=短语的句法结构信息。
[0069] 在本申请实施例中,所述第一语言端的结构化短语包括所述第一结构化短语和所 述第=结构化短语;所述第二语言端的结构化短语包括所述第二结构化短语;
[0070] W图2为例,示出了本申请从初始短语生成事件短语及其句法结构信息的过程。当 英文的初始短语"staged demonstrations"映射到中文端的时候,可能有多种映射结果,短 语的结构也可能会发生变换。例如有结构保持不变,依旧是谓语和它的宾语形式的:"进行 示威"、"举行游行",也可W是两个并列的动词:"示威游行",更可W只用一个单个的动词或 者单个的名词"示威"、"游行"就表示出一个英文短语的含义。等到映射回英文端时,句法结 构信息又进一步丰富,如图2(c)所示。本申请方法的思路就是按照图2所示进行的。
[0071] 在具体实施时,本申请的方法又与传统的方法不同,有很多前人的工作仅仅是采 用通过词对齐信息,进行两种语言的短语相互映射,保存整个短语,而本申请不仅通过词对 齐进行短语的映射,更关键的是利用整个句子的依存分析结果,将短语的句法结构信息保 存下来,从而可W过滤掉短语中间很多无关紧要的修饰成分。比如"hold a gigantic and vigorous demonstration"(举行一场声势浩大的游行示威),本申请关屯、的主体事件是 "hold demonstration",至于运场游行示威的规模场面如何,并不重要,而一旦保存了结构 "hold<dobj〉demonstration",无论是小规模的游行还是大规模的游行或者是工人游行还 是无业人±游行的短语都可W捕捉到。
[0072] 本申请举图3-个具体的例子来详细说明本申请进行依存分析的方法。首先通过 斯坦福句法分析工具(Stanford parser工具)对英文和中文平行句子做依存分析,分析出 句子的句法结构(图3中(b )和(C )),并用GIZA + +工具获得它们之间的词对齐(word alignment)信息,如图3所示。通过词对齐信息本申请可W实现从英文到中文或者从中文到 英文的短语映射映射。本申请的方法与传统的短语映射方法最大的不同就在于结合了句子 依存分析的结果作为一个重要的信息,映射过程也不再是简单的短语映射,而是一个包含 句法结构信息的短语的映射。
[0073] 图4是本申请实施例提供的从英文到中文的一个完整的学习过程的示意图。
[0074] 首先,本申请有两个初始的英文短语列表,即描述事件不同方面的短语列表event phrases list和pu;rpose地rases list, W下简称EP和PP。每个列表约600个短语,短语列 表中的短语都是正常的英文短语,而非结构化的短语,但所有的短语仅包含两种结构,一种 是及物动词衔接其直接宾语的核屯、词的结构(用dobj表示),另一种是不及物动词衔接介词 再衔接宾语的核屯、词结构(用表示,其中X为介词)。
[0075] 然后本申请将运些短语分别到语料中找匹配,运个匹配就是语料的某一句话中, 出现过运个短语的每一个单词(语料是W句子为单位的),W图4中organized a demonstration运个短语举例说明,要求运个短语中的S个单词在语料的某一句话中都出 现过,那么运个句子就是一个候选可能出现该短语的句子。
[0076] 本申请要进一步对运句话进行句法分析,在图3中,source端(英文端)句子的依存 分析结果图3(b)中,匹配到了一个dobj(o;rganized-4,demons1:ration-6)的结构,本申请可 W找到运个短语内部的结构:"dobj"即direct object表示它们是主语和谓语之间的直接 宾语关系,表示单词demonstration是organized的直接宾语,本申请用"OTganized<dobj> demons化ation"来表示运个结构,运种单词与单词间关系共存的短语即为结构化短语。然 后,在source端(第一语言端,在本申请实施例中是指英文端)句子中确定W上短语所在的 跨度,在图4例子中为[3,5],之所W和匹配到的[4,6]不同,是因为依存分析结果中0表示根 节点ROOT,并非真实存在的单词结点,但是句法分析内部的机制,要考虑根结点ROOT是0位 置的问题,因此第一个单词从1开始,每个单词后面的位置都是多1的,而词对齐信息真正匹 配的时候,第一个单词是0开始,所W有跨度的首尾都需要减1。
[0077] 完成上述步骤W后,也找到了该句子中具有运样一个结构的短语,那么根据运个 短语的跨度[3,5],再通过词对齐信息获取对应的target端(第二语言端,在本申请实施例 中是指中文端)的短语跨度,在图4例子中为[3,7],跨度最左最右的结点分别认为是3*曰的_ node和end_node。到运里,完成了短语的映射。
[0078] 下面根据依存分析的结果对target端句子进行依存分析,如图3(c),再根据依存 分析的结果构造出化rget端句子的依存句法树,从句法树中找从sta;rt_node到end_node的 一条最短路径,若运样的路径存在,则抽取出来,作为本申请学习到的一个新的结构化的短 语,图4例子中为"组织<dobj>示威"。
[0079] 到运里,本申请已经学习到了中文端的结构化的短语,后续映射回英文端的过程 所采用的就是运里学习到的结构化的短语。
[0080] 为了对所学习到的短语所具有的结构进行进一步的分析,可W利用化S化gs信息 将短语泛化为最一般的结构。PoS tags表示:part-of-speech tags,含义为:词性标注,是 在句法分析过程中得到的关于各个单词的词性信息,比如图5中所示的一个第二语言端的 句子句法分析的结果,后半部分是依存分析结果,前半部分是句法结构信息树,句法结构信 息树包含每个单词结点的词性标注信息,例如,本申请通过词性标注信息可获取"民间"运 个单词对应的词性是NN,其表示为一个名词。接着结合单词对应的词性标注信息可将结构 化短语中的每一个单词结点替换成该单词对应的词性,即可将该短语泛化成一般的结构 "VV<dobj>NN"O
[0081] 按照如上的过程,就可W完成所有的从英文的初始短语到中文的第二短语的映 射,得到第二结构化短语W后,经过并列结构拆分、修饰成分删除、短语过滤等后处理,再将 它们按照类似W上步骤再映射回英文端,得到第=结构化短语,再将其经过并列结构拆分、 修饰成分删除、短语过滤等后处理,再将第=结构化短语转化为一般普通短语,即可W得到 扩展后的新的英文短语了。从中文的第二短语映射回英文的第=短语的过程类似,运里就 不再寶述。
[0082] 对于上述的从英文映射到中文,再从中文映射到英文的过程,本申请实施例称之 为一轮迭代,即每一轮的迭代包含两个映射过程,即从初始的英文短语映射到中文端,再从 中文端映射回英文端,完成一个完整的学习的过程。本申请实施例是W进行一轮迭代进行 举例的,在实际应用中,还可W通过多轮迭代的学习过程,不断地扩展事件短语,学习新的 短语结构。当新一轮迭代增加的短语数量不超过前一轮短语数量的10%时,本申请认为新 学习到的短语不足W进行新一轮的迭代,则可W停止自动迭代过程。
[0083] 在本申请实施例中,当第一语言是英文,第二语言是中文时,所述对映射过程中生 成的所述结构化短语进行后处理,包括:获取所述第二结构化短语和所述第=结构化短语; 判断所述第二结构化短语和所述第=结构化短语的句法结构信息中是否包含并列结构;如 果所述第二结构化短语和所述第S结构化短语的句法结构信息中包含并列结构,则将包含 并列结构的所述第二结构化短语和所述第=结构化短语拆分成多个不具有并列结构的短 语,并同时保留拆分前后的短语W及不包含并列结构的所述第二结构化短语和所述第=结 构化短语。
[0084] 在短语的学习过程中,本申请会针对学习到的短语做一个拆分的工作,原因有二:
[0085] -是因为,现有的事件识别是基于单一语言的语料进行学习的,但运个语料不是 双语平行语料,而本申请实施例采用的是一个双语语料,两个语料存在一定的差异性,导致 现有的事件识别的事件短语很多并没有在本申请语料中出现,那么本申请可用的事件识别 短语就非常有限了,为了尽可能充分地利用上现有的短语,所W要做一些合理地扩展。
[0086] 二是因为在本申请学习的过程中,发现了一个非常有意思的语言学现象 (linguistic地enomenon),当描述同一个事件的时候,汉语中有时候会采用两个具有相似 含义的并列结构来起到一种加强语气的作用,比如"挥卫<dobj>人权<con j>民主"(具有VV< dobj〉^<conj>順的结构),运里人权和民主由一个连词连接,是并列的关系,而在英文中, 则会视为是重复,通常用"defend human rights"来表示同一个含义的事件。为了充分的利 用上运种语言学上的差异,本申请方案中将短语中包含<(3〇1^'〉的关系("con j"是 con化nction的含义,表连接关系)的,从<con j>处进行拆分,经过拆分重组的两个新短语即 为:"挥卫<dobj>人权"和"挥卫<dobj>民主",在方案中,本申请将拆分重组前后的短语都保 留。
[0087] 在本申请实施例中,当第一语言是英文,第二语言是中文时,所述对映射过程中生 成的所述结构化短语进行后处理,包括:获取所述第二结构化短语和所述第=结构化短语; 判断所述第二结构化短语和所述第=结构化短语的句法结构信息中是否包含修饰成分;如 果所述第二结构化短语和所述第=结构化短语的句法结构信息中包含修饰成分,则将包含 修饰成分的所述第二结构化短语和所述第=结构化短语中的修饰成分删除,并保留删除修 饰成分后的所述第二结构化短语和所述第=结构化短语。
[0088] 为了提炼短语,尽可能的去掉短语中的修饰词,保留核屯、词,本申请还需要对短语 进行压缩提炼,例如'晋<(1〇13於順<。1〇]/[<]1111]皿0(1乂0'结构的一个短语"发射<(1〇13。炮弹< Clf〉枚<11111111110(1〉六"运样的结构中,后面的"六"是一个修饰词,"枚"起到衔接作用的量词, 都是修饰成分,本申请关注的核屯、还是"发射<d〇bj>炮弹"运个短语,因此,对于诸如此类的 短语本申请要进行短语的压缩,去掉后面的半截,只保留"发射<d〇bj>炮弹"的部分。通过压 缩短语,最后只保留节点数不超过3个的短语。
[0089] 在本申请实施例中,当第一语言是英文,第二语言是中文时,所述对映射过程中生 成的所述结构化短语进行后处理,包括:获取所述第二结构化短语和所述第=结构化短语; 根据预先设置的过滤规则,对所述第二结构化短语和所述第=结构化短语进行过滤,并保 留过滤后剩余的所述第二结构化短语和所述第=结构化短语;所述过滤规则包括:词频过 滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几种的组合。
[0090] 事件抽取之所W是一个很困难的任务,就是因为前驱的一些处理过程中会引入大 量的噪声带到后面的方案之中。本申请的方案也一样,由于词对齐的错误,本申请经常会遇 到源端包含的信息映射到目标端时损失了部分,或者source端、target端的信息并不是对 齐的等情况。而且依存句法分析的准确率也并不是很高,虽然本申请已经采用了当前效果 比较好的Stanford的依存分析工具(斯坦福句法分析工具),但是其在中文上的表现也并不 是很好。因此,本申请方案采用了一些启发性的规则来排除掉一些不正确或者不完整的短 语,从而控制短语质量。
[0091] 词频过滤规则:本申请保留至少出现过2次的短语,防止该短语出现了一次仅仅是 因为一个词对齐错误或者语料中并不常见的短语搭配。
[0092] 结构过滤规则:在短语的分解和提炼部分中,本申请也说明了短语在句子中的句 法结构可W提供很多有价值的信息。本申请过滤掉了 W "AS","P","呢C',"LC","PU","C护, "MSP" (AS:中文的"了',P:对,在,向一类的介词,呢C:中文的"的",LC:上下前后一类的方位 词,PU:中文的标点符号,CD:-二立运样的数词,MSP:"所,而,来"运样起衔接作用的虚词) 结尾的所有的短语,因为运些结构结尾的短语往往都是不完整的,例如:短语"进行<asp〉 了 "具有VV<asp〉AS的结构,但是运明显是一个信息不完整的短语,很有可能是因为词对齐 错误造成的宾语的缺失,因此本申请要过滤掉它们。超过4个结点的句法结构信息太复杂, 往往其中包含修饰成分的结点,因此本申请全部过滤掉,部分4个结点的结构也通过短语压 缩的方法处理成不超过3个结点的短语。
[0093] 特异性过滤规则:在学习过程中,有一些短语可能会出现多次,运有两个可能:一 个是因为运个短语确实是紧密与事件相关,二是运个短语是语料中一个高频词汇,因此多 次被学到。本申请要确保短语是与本申请的事件相近的短语,而描述事件的短语通常不会 是在语料中频繁出现的,所W本申请定义一个指标叫做短语特异性(phrase_specificity) 来避免学习过程中引用一些高频的但是无关的事件短语:
[0094]
(1)
[0095] 其中NI表示短语P在本申请一轮映射过程中学习到的次数,Ne表示该短语在语料 出现的总次数。若Nl没有出现几次,而化很大,说明运个短语很可能是一个因为词对齐错误 等学习到的与事件无关的高频短语词汇。运个指标描述了一个短语与本申请主题的关联性 接近的程度。例如"take place"运是一个出现频率很高的短语,既可W是"protest"或 "demonshation"的举行,又可W是%Iympic Games"、"elections"的举办,前者描述的是 与主题相关的内容,但是后者则和事件没有任何关系了,因此,运个短语很大概率描述的是 和本申请主题无关的事件,运类短语要过滤掉。在短语学习规模上,本申请设置一个调整集 (tuning set)来进行控制,每轮通过调整集(tuning set)动态的来确定phrase_ specif icity 值。
[0096] S102:获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语;
[0097] 在本申请实施例中,获取相互映射并经过后处理后得到的所述第一语言端的所述 结构化短语,即获取经过后处理的所述第一结构化短语和所述第=结构化短语;
[0098] S103:将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件 短语,并根据所述事件短语对文本进行事件识别。
[0099] 在本申请实施例中,将上文所述的第一结构化短语和第=结构化短语及每轮迭代 生成的第一语言端的全部结构化短语进行各种后处理之后,再将最终保留的短语去掉其中 的句法结构信息后,即可转化为所述第一语言端的事件短语。运些事件短语即可用于文本 进行事件识别。
[0100] 本文的工作主要是对前人工作化Uang and化Ioff,2013)的扩展和丰富。化ang在 她的工作中针对事件识别运一任务提出了一种基于匹配事件短语(event phrase)W及事 件多方面描述的短语(event facet phrases)的思路,并且进一步提出了一种自举 (bootstrapped)的方法来自动迭代的从完全没有标注的文本中学习运些短语。事件多方面 短语是指某一事件的不同方面的信息,例如做运个事件的人群(agent),做运个事件的目的 (PU巧ose)等。在化ang&RiIoff的工作中,通过运种自举算法获得很高的准确率P(87.80 % ) 和不错的召回率R(71.29%),最终获得了 78.69%的。-3(3〇'6。然而运种方法需要严格的限 定短语的句法结构,即所学的短语必须满足两种特定的结构:一种是及物动词衔接其直接 宾语的核屯、词的结构(用dobj表示),另一种是不及物动词衔接介词再衔接宾语的核屯、词结 构(用prep_x表示,其中X为介词)。在此严格的限制之下,导致很多有价值的短语并不能学 习到。针对化ang工作的局限性,本申请提出了一种在双语之间进行结构映射的方法来挖掘 一些在原本严格语言学限制下丢失的短语并且发掘一些新的句法结构信息来扩展原有 化ang的工作。
[0101] 本申请实施例与传统的短语映射方法最大的不同就在于结合了句子句法结构的 信息,传统的方法只是映射短语本身,只是简单地进行短语的映射,而本申请映射是一个具 有句法结构的短语,运样的最大的好处同时也是方法的创新点在于:
[0102] 结合了句法结构信息,使得学习到的短语在语义学上更有意义,传统的短语映射 的方法由于未结合句法信息,可能会因为词对齐错误导致学习到的短语,并没有什么实际 的意义,只是不完整的错误短语。
[0103] 映射结构结构化的短语,可W过滤掉短语之间的一些修饰成分,比如:"举行一场 声势浩大的游行"。通过句法分析得出的结果如,可W找到举行和游行之间的关系,就是谓 语和直接宾语的关系,而中间的修饰成分,比如到底是一场游行,还是很多场游行,运个游 行的规模怎么样,到底是浩大,还是小规模的,本申请并不关屯、,本申请真正抽取的是最核 屯、的"举行<dobj>游行"运个短语,而去除中间的修饰成分。
[0104] 由于本申请映射的是类似于"举行<dobj>游行"运样的结构化的短语,而不是整个 短语"举行一场声势浩大的游行",所W在语料中可W得到更多的匹配,就是只要出现了举 行游行,不管中间是什么修饰成分都可W匹配到。
[0105] 因此,应用本申请提供的事件识别方法,将第一语言端的初始短语在第一语言和 第二语言之间W结构化短语的形式进行相互映射,并对映射过程中生成的所述结构化短语 进行后处理;获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语;将 获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语,并根据所述 事件短语对文本进行事件识别。可见,本申请实施例通过将初始短语在两种语言之间W结 构化短语的形式相互映射,可W解决单一语言的语料资源匿乏的问题,并且能够通过挖掘 两种语言之间在语言学上的差异或者通过语义上的一些约束来挖掘多样化的句法结构信 息,从而可W获得更为完备的用于进行事件识别的事件短语,提高事件识别的准确率和召 回率。
[0106] 图6为本申请一个实施例提供的事件识别系统的结构图。
[0107] 参照图6所示,本申请提供的一种事件识别系统,包括:
[0108] 映射模块1,用于将第一语言端的初始短语在第一语言和第二语言之间W结构化 短语的形式进行相互映射,并对映射过程中生成的所述结构化短语进行后处理;
[0109] 处理模块2,用于获取相互映射并经过后处理后得到的所述第一语言端的所述结 构化短语;
[0110] 识别模块3,用于将获取的所述第一语言端的所述结构化短语转化为所述第一语 言端的事件短语,并根据所述事件短语对文本进行事件识别。
[0111] 优选地,所述映射模块1,可W包括:
[0112] 第一查找单元,用于在所述第一语言和所述第二语言所在的双语平行语料中的所 述第一语言端查找包括所述初始短语的第一语句;
[0113] 第一分析单元,用于对所述第一语句进行依存分析,得到所述第一语句的句法特 征,并从所述第一语句的句法特征中获取与所述初始短语相对应的第一结构化短语;所述 第一结构化短语中包括所述初始短语的语义学信息W及所述初始短语的句法结构信息;第 一确定单元,用于将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句, 并根据所述第一语句和所述第二语句之间的词对齐信息,在所述第二语句中确定与所述第 一结构化短语相对应的第二短语;
[0114] 第二分析单元,用于对所述第二语句进行依存分析,得到所述第二语句的句法特 征,并从所述第二语句的句法特征中获取与所述第二短语相对应的第二结构化短语;所述 第二结构化短语中包括所述第二短语的语义学信息W及所述第二短语的句法结构信息;
[0115] 第二查找单元,用于在所述双语平行语料中的所述第二语言端查找包括所述第二 结构化短语的第=语句;
[0116] 第二确定单元,用于将所述第=语句映射到所述双语平行语料中的所述第一语言 端的第四语句,并根据所述第=语句和所述第四语句之间的词对齐信息,在所述第四语句 中确定与所述第二结构化短语相对应的第=短语;
[0117]第=分析单元,用于对所述第四语句进行依存分析,得到所述第四语句的句法特 征,并从所述第四语句的句法特征中获取与所述第=短语相对应的第=结构化短语;所述 第=结构化短语中包括所述第=短语的语义学信息W及所述第=短语的句法结构信息。
[011引优选地,所述映射模块1,还可W包括:
[0119] 第一获取单元,用于获取所述第二结构化短语和所述第=结构化短语;
[0120] 第一判断单元,用于判断所述第二结构化短语和所述第=结构化短语的句法结构 信息中是否包含并列结构;
[0121] 拆分单元,用于如果所述第二结构化短语和所述第=结构化短语的句法结构信息 中包含并列结构,则将包含并列结构的所述第二结构化短语和所述第=结构化短语拆分成 多个不具有并列结构的短语,并同时保留拆分前后的短语W及不包含并列结构的所述第二 结构化短语和所述第=结构化短语。
[012^ 优选地,所述映射模块1,还可W包括:
[0123] 第二获取单元,用于获取所述第二结构化短语和所述第=结构化短语;
[0124] 第二判断单元,用于判断所述第二结构化短语和所述第=结构化短语的句法结构 信息中是否包含修饰成分;
[0125] 删除单元,用于如果所述第二结构化短语和所述第=结构化短语的句法结构信息 中包含修饰成分,则将包含修饰成分的所述第二结构化短语和所述第=结构化短语中的修 饰成分删除,并保留删除修饰成分后的所述第二结构化短语和所述第=结构化短语。
[0126] 优选地,所述映射模块1,还可W包括:
[0127] 第=获取单元,用于获取所述第二结构化短语和所述第=结构化短语;
[0128] 过滤单元,用于根据预先设置的过滤规则,对所述第二结构化短语和所述第=结 构化短语进行过滤,并保留过滤后剩余的所述第二结构化短语和所述第=结构化短语;所 述过滤规则包括:词频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几 种的组合。
[0129] 本申请实施例提供的事件识别系统,可W采用上述方法实施例中的事件识别方 法,具体功能可W参照上述任一方法实施例中的步骤描述,此处不再寶述。
[0130] 在具体应用中,本方案采用化Uang and Riloff ,2013)自举学习算法学习得到的 描述事件不同方面的短语列表event phrases list和pu;rpose地rases list,(简称EP和 PP)作为系统的原始输入。在双语平行语料la巧e2(LDC CO巧US LDC2004E12,LDC2004T08, LDC2005T10,LDC2003E14,LDC2002E18,LDC2005T06,LDC2003E07,LDC2004T07,约 357 万行句 子)上进行方案。通过GIZA++工具跑词对齐和运用斯坦福的句法分析工具对句子进行依存 分析。
[0131 ] 本申请采用的调整集(tuning set)和测试集(test set)均与huang工作中的相 同,由于原始化ang的任务是在英语上开展的,因此采用的都是英文的Keywords,社会动乱 的事件包括:Si: ;r;Lkes ,protests ,occupations, rallies和一些相似的造成一些骚乱和阻碍 社会正常秩序的行为。Huang工作中,选取了6个关键词(protest ,Shike ,march ,rally, riot, OC州py) W及它们的不同形态的词作为种子,从英文Gigaword语料中抽取至少包含W 上1个关键词(或其变形)的文档出来,大概抽了约100万篇文档,然后从运里随机抽取400篇 文章来进行语料标注,采用了一系列标注规则来标注运篇文章是否与社会动乱相关。最后 将运400篇文档分为两份,一份为tuning setQOO篇),另一份为test set(300篇),Uming set是作为测试之前的调整,把方案中的参数在化ning set上调整到最佳,然后再放到test set上测评,最终得到测评结果。
[0132]第一行是化ang工作中的结果,作为本申请的baseline,进行两轮迭代得到了最好 的结果,结果显示,本申请的方法W损失不到2%的准确率下,较大的提升了 Recall值,F值 获得了81.87的好结果。
[0134] 表1:方案测评结果
[0135] 除了极大的扩展了原有短语的数量,本申请还进一步分析通过双语结构映射的方 法学习到的新的短语结构,由于英语和汉语之间的语言差异性Uingui Stic divergences ),本申请学习到很多新的英文短语结构、中文短语结构。
[0136] 例如中文可W用一个动词"泄愤"就表示一个英文S个单词的短语"went their anger",中文可W用一个名词"静坐"表示"stage a sit-in",或者用两个动词"进行绝食" 来表示一个复杂的英文短语"go on hunger S化ike"等。还有中文喜欢用两个并列的相似 含义的词汇描述一个事件,比如"进行游行示威"。
[0137]
[0138] 表2新的中文短语结构示例
[0139] 通过中文的扩展,英文的短语结构也丰富了很多,如下表所示。丰富了原有的动词 开头的事件短语结构,同时也学习到很多有趣的名词开头的短语结构(因为在传统的研究 者眼中,通常表示事件的都是动词的短语,而不考虑名词结构的短语)
[0140]
[0141 ]表3新的英文短语结构示例
[0142] 为了描述的方便,描述W上装置时W功能分为各种单元分别描述。当然,在实施本 申请时可W把各单元的功能在同一个或多个软件和/或硬件中实现。
[0143] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或 系统实施例而言,由于其基本相似于方法实施例,所W描述得比较简单,相关之处参见方法 实施例的部分说明即可。W上所描述的装置及系统实施例仅仅是示意性的,其中所述作为 分离部件说明的单元可W是或者也可W不是物理上分开的,作为单元显示的部件可W是或 者也可W不是物理单元,即可W位于一个地方,或者也可W分布到多个网络单元上。可W根 据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术 人员在不付出创造性劳动的情况下,即可W理解并实施。
[0144] 专业人员还可W进一步意识到,结合本文中所公开的实施例描述的各示例的单元 及算法步骤,能够W电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和 软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。运些 功能究竟W硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业 技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能,但是运种实现不应 认为超出本发明的范围。
[0145] 结合本文中所公开的实施例描述的方法或算法的步骤可W直接用硬件、处理器执 行的软件模块,或者二者的结合来实施。软件模块可W置于随机存储器(RAM)、内存、只读存 储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术 领域内所公知的任意其它形式的存储介质中。
[0146] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。 对运些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的 一般原理可W在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的运些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。
【主权项】
1. 一种事件识别方法,其特征在于,包括: 将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互 映射,并对映射过程中生成的所述结构化短语进行后处理; 获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语; 将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语,并根 据所述事件短语对文本进行事件识别。2. 根据权利要求1所述的方法,其特征在于,所述将第一语言端的初始短语在第一语言 和第二语言之间以结构化短语的形式进行相互映射,包括: 在所述第一语言和所述第二语言所在的双语平行语料中的所述第一语言端查找包括 所述初始短语的第一语句; 对所述第一语句进行依存分析,得到所述第一语句的句法特征,并从所述第一语句的 句法特征中获取与所述初始短语相对应的第一结构化短语;所述第一结构化短语中包括所 述初始短语的语义学信息以及所述初始短语的句法结构信息; 将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句,并根据所述第 一语句和所述第二语句之间的词对齐信息,在所述第二语句中确定与所述第一结构化短语 相对应的第二短语; 对所述第二语句进行依存分析,得到所述第二语句的句法特征,并从所述第二语句的 句法特征中获取与所述第二短语相对应的第二结构化短语;所述第二结构化短语中包括所 述第二短语的语义学信息以及所述第二短语的句法结构信息; 在所述双语平行语料中的所述第二语言端查找包括所述第二结构化短语的第三语句; 将所述第三语句映射到所述双语平行语料中的所述第一语言端的第四语句,并根据所 述第三语句和所述第四语句之间的词对齐信息,在所述第四语句中确定与所述第二结构化 短语相对应的第三短语; 对所述第四语句进行依存分析,得到所述第四语句的句法特征,并从所述第四语句的 句法特征中获取与所述第三短语相对应的第三结构化短语;所述第三结构化短语中包括所 述第三短语的语义学信息以及所述第三短语的句法结构信息。3. 根据权利要求2所述的方法,其特征在于,所述对映射过程中生成的所述结构化短语 进行后处理,包括: 获取所述第二结构化短语和所述第三结构化短语; 判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含并列结 构; 如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含并列结构,则 将包含并列结构的所述第二结构化短语和所述第三结构化短语拆分成多个不具有并列结 构的短语,并同时保留拆分前后的短语以及不包含并列结构的所述第二结构化短语和所述 第三结构化短语。4. 根据权利要求2所述的方法,其特征在于,所述对映射过程中生成的所述结构化短语 进行后处理,包括: 获取所述第二结构化短语和所述第三结构化短语; 判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含修饰成 分; 如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含修饰成分,则 将包含修饰成分的所述第二结构化短语和所述第三结构化短语中的修饰成分删除,并保留 删除修饰成分后的所述第二结构化短语和所述第三结构化短语。5. 根据权利要求2所述的方法,其特征在于,所述对映射过程中生成的所述结构化短语 进行后处理,包括: 获取所述第二结构化短语与所述第三结构化短语; 根据预先设置的过滤规则,对所述第二结构化短语和所述第三结构化短语进行过滤, 并保留过滤后剩余的所述第二结构化短语和所述第三结构化短语;所述过滤规则包括:词 频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几种的组合。6. -种事件识别系统,其特征在于,包括: 映射模块,用于将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的 形式进行相互映射,并对映射过程中生成的所述结构化短语进行后处理; 处理模块,用于获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短 语; 识别模块,用于将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的 事件短语,并根据所述事件短语对文本进行事件识别。7. 根据权利要求6所述的系统,其特征在于,所述映射模块,包括: 第一查找单元,用于在所述第一语言和所述第二语言所在的双语平行语料中的所述第 一语言端查找包括所述初始短语的第一语句; 第一分析单元,用于对所述第一语句进行依存分析,得到所述第一语句的句法特征,并 从所述第一语句的句法特征中获取与所述初始短语相对应的第一结构化短语;所述第一结 构化短语中包括所述初始短语的语义学信息以及所述初始短语的句法结构信息;第一确定 单元,用于将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句,并根据 所述第一语句和所述第二语句之间的词对齐信息,在所述第二语句中确定与所述第一结构 化短语相对应的第二短语; 第二分析单元,用于对所述第二语句进行依存分析,得到所述第二语句的句法特征,并 从所述第二语句的句法特征中获取与所述第二短语相对应的第二结构化短语;所述第二结 构化短语中包括所述第二短语的语义学信息以及所述第二短语的句法结构信息; 第二查找单元,用于在所述双语平行语料中的所述第二语言端查找包括所述第二结构 化短语的第二语句; 第二确定单元,用于将所述第三语句映射到所述双语平行语料中的所述第一语言端的 第四语句,并根据所述第三语句和所述第四语句之间的词对齐信息,在所述第四语句中确 定与所述第二结构化短语相对应的第三短语; 第三分析单元,用于对所述第四语句进行依存分析,得到所述第四语句的句法特征,并 从所述第四语句的句法特征中获取与所述第三短语相对应的第三结构化短语;所述第三结 构化短语中包括所述第三短语的语义学信息以及所述第三短语的句法结构信息。8. 根据权利要求7所述的系统,其特征在于,所述映射模块,还包括: 第一获取单元,用于获取所述第二结构化短语和所述第三结构化短语; 第一判断单元,用于判断所述第二结构化短语和所述第三结构化短语的句法结构信息 中是否包含并列结构; 拆分单元,用于如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包 含并列结构,则将包含并列结构的所述第二结构化短语和所述第三结构化短语拆分成多个 不具有并列结构的短语,并同时保留拆分前后的短语以及不包含并列结构的所述第二结构 化短语和所述第三结构化短语。9. 根据权利要求7所述的系统,其特征在于,所述映射模块,还包括: 第二获取单元,用于获取所述第二结构化短语和所述第三结构化短语; 第二判断单元,用于判断所述第二结构化短语和所述第三结构化短语的句法结构信息 中是否包含修饰成分; 删除单元,用于如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包 含修饰成分,则将包含修饰成分的所述第二结构化短语和所述第三结构化短语中的修饰成 分删除,并保留删除修饰成分后的所述第二结构化短语和所述第三结构化短语。10. 根据权利要求7所述的系统,其特征在于,所述映射模块,还包括: 第三获取单元,用于获取所述第二结构化短语和所述第三结构化短语; 过滤单元,用于根据预先设置的过滤规则,对所述第二结构化短语和所述第三结构化 短语进行过滤,并保留过滤后剩余的所述第二结构化短语和所述第三结构化短语;所述过 滤规则包括:词频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几种的 组合。
【文档编号】G06F17/27GK106021371SQ201610308712
【公开日】2016年10月12日
【申请日】2016年5月11日
【发明人】熊德意, 李方圆, 黄瑞红
【申请人】苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1