中文事件触发词的扩展方法及系统的制作方法

文档序号:6376277阅读:549来源:国知局
专利名称:中文事件触发词的扩展方法及系统的制作方法
技术领域
本发明涉及一种中文事件触发词的扩展方法及系统。
背景技术
事件是指在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物。由于表达方式不同,每一特定的事件可能不止有一个事件实例。事件是信息表示的一种形式,可以从文本中抽取人们感兴趣的事件实例。从文本中抽取出相应的事件实例通常是通过识别事件的触发词来实现,所以触发词是识别事件实例的关键。由于语言表达的多样性,不可能找出某一事件的所有触发词,只能预先知道待抽取事件的一部分触发词,称这部分触发词为已知触发词,这样如果发现某一句子包含已知的触发词,那么可以将该句子作为待抽取事件的一候选事件实例,而那些 未知触发词对应的事件实例就无法抽取。综上,现有技术中的事件实例抽取方法只能抽取与已知触发词对应的事件实例。

发明内容
有鉴于此,本发明提供了一种中文事件触发词的扩展方法及系统,以克服现有技术中事件实例抽取方法只能抽取与已知触发词对应的事件实例的问题。为实现上述目的,本发明提供如下技术方案一种中文事件触发词的扩展方法,包括A、从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包括已知触发词以及与所述已知触发词对应的事件类型;B、将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合;C、将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合;D、获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原;E、确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原;F、在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;G、根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合;H、根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合;J、确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;K、将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词口 O其中,所述每一义原为SI,所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原为S2,所述计算每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度具体包括通过相似度计算函数Sim(SI, S2) = a/(a+d)计算每一义原SI与唯一义原S2的相似度,其中,a为预设可调参数,d为每一义原SI与唯一义原S2的路径距离。其中,所述触发词的形态结构包括单语素结构、同位结构、谓宾结构、修饰结构以及谓辅结构,其中所述单语素结构是指已知触发词是名词或动词的语素,所述同位结构是指已知触发词的第一语素与第二语素均为动词,所述修饰结构是指已知触发词第一语素修饰第二语素,所述谓宾结构是指已知触发词的第一语素与第二语素是谓语和宾语的关系,已知触发词由所述第一语素与所述第二语素组成,且所述第一语素位于所述第二语素之前。其中,步骤H具体包括H1、当所述已知触发词形态结构是单语素结构时,确定所述已知触发词为所述已知触发词的基本语素;H2、当所述已知触发词形态结构是谓辅结构时,确定所述已知触发词的第一语素为所述已知触发词的基本语素;H3、当所述已知触发词形态结构是谓宾结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素;H4、当所述已知触发词形态结构是修饰结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素;H5、当所述已知触发词形态结构是同位结构时,将同位结构的所述已知触发词以语素为单位进行切分,并获取每个语素的所有义原,分别计算每一义原和所述已知触发词唯一义原集合中与所述同位结构的已知触发词具有相同事件类型的每一已知触发词对应的唯一义原的相似度,将所述所有义原中对应的相似度最高一义原对应的语素作为所述已知触发词的基本语素。其中,步骤J具体包括J1、将所述待抽取事件的文本进行分词,得到至少两个词组;J2、筛选出包含所述基本语素集合中任一基本语素的词组,形成第一未知触发词
隹A
口 O
其中,步骤K具体包括K1、将所述第一未知触发词集合与所述已知触发词集合相同的词组删除,形成第二未知触发词集合;K2、删除所述第二未知触发词集合中的非动词和非名词的词组,形成第三未知触发词集合;K3、删除所述第三未知触发词集合中至少包括三个语素的词组,形成第四未知触发词集合;K4、筛选出所述第四未知触发词集合中与所述已知触发词形态结构集合中的一已知触发词具有相同或相似形态结构以及相同基本语素的已知触发词,形成第五未知触发词集合;其中,单语素结构和谓辅结构相互定义对方为相似形态结构;
K5、根据所述第五未知触发词集合中未知触发词的形态结构,获得所述扩展未知触发词集合。其中,步骤K5具体包括K51、当所述第五未知触发词集合中未知触发词的形态结构是单语素结构时,获取所述未知触发词的所有义原,并分别计算所述未知触发词的所述所有义原中每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度,若其中任意一个相似度为1,则具有单语素结构的未知触发词属于所述扩展未知触发词集合;K52、当所述第五未知触发词集合中未知触发词的形态结构是谓辅结构,该谓辅结构的未知触发词的第一语素属于所述基本语素集合,以及未知触发词的第一语素和所述已知触发词形态结构集合中形态结构为单语素结构或谓辅结构的任意一个已知触发词的第一语素相同,则所述谓辅结构的未知触发词属于所述扩展未知触发词集合;K53、当所述第五未知触发词集合中未知触发词的形态结构是谓宾结构,且该谓宾结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词的第一语素与所述已知触发词形态结构集合中一谓宾结构的已知触发词的第一语素的义原相似度大于第一阈值时,所述谓宾结构的未知触发词属于所述扩展未知触发词集合;K54、当所述第五未知触发词集合中未知触发词的形态结构是修饰结构,且修饰结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I时,所述修饰结构的未知触发词属于所述扩展未知触发词集合;K55、当所述第五未知触发词集合中未知触发词的形态结构是同位结构,且计算所得的所述未知触发词对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I时,所述同位结构的未知触发词属于所述扩展未知触发词集合。其中,在步骤H之后,步骤J之前还包括步骤I :将所述基本语素集合中的各个基本语素按照所述已知触发词集合中的事件类型进行归类。一种中文事件触发词的扩展系统,包括已知触发词获取模块,用于从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包含有已知触发词以及所述已知触发词对应的事件类型;
切分已知触发词模块,用于将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合;词性标注模块,用于将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合;获取义原模块,用于获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原;获取唯一义原模块,用于确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原;计算相似度模块,用于在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已 知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;获取形态结构模块,用于根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合;获取基本语素模块,用于根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合; 筛选未知触发词模块,用于确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;筛选扩展未知触发词模块,用于将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集合。经由上述的技术方案可知,采用本发明实施例提供的一种中文事件触发词的扩展方法,利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图I为本发明实施例公开的一种中文事件触发词的扩展方法的流程图;图2为本发明实施例中公开的一种确定基本语素的方法的流程图3为本发明实施例提供的一种形成第一未知触发词集合的方法的流程;图4为本发明实施例公开的一种形成扩展未知触发词集合的方法的流程图;图5为本发明实施例公开的一种根据未知触发词的形态结构,获得所述扩展未知触发词集合的方法流程图;图6为本发明实施例公开的一种中文事件触发词的扩展系统的结构示意图。
具体实施例方式为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和 人物等角色,如出生、死亡、地震和车祸等事件,由于表达方式的不同,每个特定的事件可能有不止一个的事件实例。事件实例(Event Mention, EM):描述一个事件的句子或子句,如“张三出生于上海。”就是一个类别为出生事件的事件实例。触发词(Trigger,简称触发词)用于识别事件的核心词(一般为动词和名词居多),又称为锚。如“生于”、“出生”等就是出生事件的触发词。每个触发词存在不止一个实例。事件触发词实例(Trigger Mention,简称触发词实例)触发词在句子中的出现就是触发词的实例,如在句子“张三出生于上海。”和“李四出生于2012年。”中的2个“出生”就是触发词“出生”的两个实例。义原(Sememe):用于描述词汇语义的最小意义单位。如“129die死”就是词汇“死”的一个义原,其中数字是义原的编号。语素(Morpheme):具有语义的构词最小单位。在本发明的说明中,由于构成触发词的语素一般是字,文中语素和字是同一概念的不同表述。基本语素(Basic Morpheme): —个词的语义一般可以由构成该词的语素的语义组合而来,其中表示最主要语义的那个语素称为该词的基本语素。如“击”、“伤”分别是“重击”和“烧伤”的基本语素。另外,对于一个二字词,一般分别用第一语素和第二语素表示该二字词的第一个汉字和第二个汉字。如“烧伤”的第一语素和第二语素分别是“烧”和“伤”。形态结构(Morphological Structure):一个词中语素之间的构成方法就是词的形态结构。如前面的语素修饰后面的语素,就是修饰结构(如“重击”、“新婚”等就是修饰结构)。词性结构(Syntactic Structure)一个词中单字之间的词性组合就是词的词性结构,如“成”和“立”在构成“成立”时的词性都是动词,那么它的词性结构为“动词+动词”,而“离职”的词性结构则为“动词+名词”。触发词扩展(Trigger Expanding):根据已知的触发词,扩展出新的未知触发词的方法。如已知“枪击”是攻击事件的已知触发词,可以扩展出“炮击”也是攻击事件的未知触发词。ACE 2005 (Automatic Content Extraction 2005,自动内容抽取)语料库一个中文实体、实体关系和事件的标注语料库,标记了大约4000个事件实例。该语料库包括33小类事件,如出生、死亡、伤害、公司成立、公司合并、起诉、审判等。
召回率(Recall):系统正确抽取的事件个数占所有正确事件个数的比例。衡量事件抽取性能的指标之一。准确率(Precision):系统正确抽取的事件个数占所有抽取出的事件个数的比例。衡量事件抽取性能的指标之一。Fl :综合考虑召回率和准确率的指标,衡量事件抽取性能的指标之一。知网(HowNet):以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。现有的事件抽取方法一般情况下不考虑触发词扩展问题,几乎所有的事件抽取系统仅考虑抽取包含已知触发词的事件实例。如果不考虑触发词的扩展,那么会造成很多事件实例无法识别并抽取,从而使得系统的召回率低下。仅有少数的系统采用同义词扩展的方法来扩展事件的触发词。由于意义相同的词在具体用法上存在差异,所有这种方法会带来很多噪音(非触发词),从而造成准确率的下降,同样无法明显提高系统的性能。如“担任”是一个“任新职”事件的触发词,但是它的同义词“从事”、“承担”却不能作为该类事件的触发词。为了提高事件抽取系统的性能,特别是为了能够识别出更多的事件,提高事件抽取系统的召回率,可以利用构词形态结构的不同,结合义原相似度计算来扩展新的触发词。实施例一请参阅附图1,为本发明实施例公开的一种中文事件触发词的扩展方法的流程图,该方法包括步骤SlOl :从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合。语料库包含有已知触发词以及与所述已知触发词对应的事件类型。上述语料库可以为ACE 2005语料库。此时步骤SlOl如下依次打开ACE 2005语料库中的事件信息标记文件,抽取该文件内的XML标记〈anchor〉下层的〈charseq〉标记的内容,并将此内容作为已知触发词,把已知触发词及其对应的事件类型(〈event〉标记的属性SUBTYPE的值就是事件类型)加入已知触发词集合。上述事件信息标记文件的部分格式如下〈event ID=”XIN20001231.0200.0010-EVln SUBTYPE="Start-Orgr* >
〈event—mention ID=”X1N20001231.0200.0010-EVI -1 ">
〈extent〉
〈charseq START="316" END=”337”>中国科技大学成立了绿色科技中心 </charseq>
〈/extent〉
〈anchor〉
〈charseq START="328” 1^13=”329”>成立</£1131兄9> 〈/anchor〉
</e v e n t—m e n L i o n >
〈/event〉其中,〈event〉、<event_mention>>〈extent〉和〈anchor〉分别是事件、事件实例、表示事件实例的句子和触发词的标记。〈charseq〉用于标记其内容及其位置。〈event〉的属性SUBTYPE标记了此事件的类型(该实例中已知触发词为“成立”,事件类型为“Start-Org”,即公司等的成立事件)。上述的“……”表示省略的内容。上述是以语料库为ACE 2005语料库对步骤SlOl进行说明的,但是步骤SlOl中的语料库并不限制于ACE 2005语料库。步骤S102 :将已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合。下面举例说明“以语素为单位进行切分”的结果,“成立,离职,枪击”转或为“成立,离职,枪击”。上述是以空格表示各个语素之间已经被切分,当然也可以用其他方式表示,例如“/”等等。步骤S103 :将切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合。可以利用词性标注工具对切已知分触发词集合中每一语素进行词性标注,例如成/V立/V (词性结构为动词+动词);离/V职/N (词性结构为动词+名词);枪/N击/V (词性结构为名词+动词);其中N和V分别表示词性为名词和动词。步骤S104 :获取已知触发词集合中每一已知触发词的所有义原,形成已知触发词
义原集合。已知触发词义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原。已知触发词义原集合的格式可以如下
<已知触发词X事件类型X义原I ;义原2 ;……>如下例子所示〈成立XStart-OrgXV be 是,descriptive=correct | 正确;V establish 建立
>〈出生XBirthXV ComeTofforld 问世〉〈创建XStart-OrgXV establish 建立〉步骤S105 :确定出已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合。 已知触发词唯一义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原。如上例中“出生”和“创建”就是义原唯一的已知触发词,这些词被抽取出来形成已知触发词唯一义原集合。而“成立”由于义原不唯一,不属于已知触发词唯一义原集合。步骤S106 :在已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词每一义原与已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中。需要说明的是,汉语的词汇往往存在多义性,一个词有多种义原。当一个词作为事件触发词时,它一般只有一种义原。所以,需要通过步骤S106删除一个该词作为已知触发词时不符的义原,保留其唯一义原。由于所有的义原在HowNet中根据上下位关系构成了一个树状的义原层次体系,本发明实施例采用简单的通过路径距离来计算义原的相似度。假设两个义原Si和s2在这个层次体系中的路径距离为d,义原Si和s2的相似度计算函数Sim(sl,s2)定义如下Sim(sl, s2) = a / (a +d),其中,d是si和s2在义原层次体系中的路径距离,是一个正整数,可以通过调用HowNet提供的函数获得。a是一个可调节的参数,本发明实施例可以设置为1.6。Sim的返回值在0-1之间。从上述例子中,可知“成立”就是一个多义原已知触发词,计算它的每个义原和同类型(即成立事件)并且具有唯一义原的已知触发词的唯一义原的相似度,得到如下结果(假设和它同类型的触发词只有一个“创建”)〈成立XV be I 是,descriptive=correct I 正确〉〈创建XV establish 建立〉< 成立,创建 XO. 117647〉〈成立XV establish 建立〉〈创建XV establish 建立〉〈成立,创建>〈1>所以,选择“V establish建立”作为“成立”的唯一义原。步骤S107 :根据触发词的形态结构和带词性切分已知触发词集合中每一语素的词性,确定已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合。 触发词的形态结构包括
单语素结构、同位结构、谓宾结构、修饰结构以及谓辅结构。根据以下规则,把所述带词性切分触发词集合中的已知触发词的词性结构转换为本发明定义的触发词形态结构,生成已知触发词形态结构集合。具体规则如下单语素词(词性为动词或名词)转换为单语素结构;动词(第一语素)+动词(第二语素)转换为同位结构;动词(第一语素)+名词(第二语素)转换为谓宾结构;动词(第一语素)+介词/助词(第二语素)转换为谓辅结构;形容词/名词(第一语素)+动词(第二语素)转换为修饰结构;形容词/名词(第一语素)+名词(第二语素)转换为修饰结构。如“成立V+V”、“离职V+N”和“枪击N+V”分别转换为同位结构、谓宾结构和修饰结构。其中,V表示动词,N表示名词。需要说明的是,由于绝大多数的触发词的长度都是小于等于2,所以优选的本发明 实施例只扩展1-2个语素构成的触发词(在ACE 2005语料库上的统计表明95%的触发词是由一个语素或者两个语素组成)。本发明定义了 5种不同类别的触发词形态结构单语素结构是名词或动词的单语素词,如“死”、“去”、“信”等;同位结构两个语素扮演同样的角色,一般情况下,这两个语素是动词。如“合并”、“审问”等;修饰结构 第一语素修饰第二语素,如“新婚”、“大会”等;谓宾结构第一语素一般是动词,第二语素一般为名词,两者是谓语和宾语的关系,如“开业”、“离职”等;谓辅结构第一语素一般是动词,第二语素一般为介词或助词,仅仅是第一语素的补充,如“杀了”,“进入”等。步骤S108 :根据触发词的形态结构以及已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合。请参阅图2,为本发明实施例中公开的一种确定基本语素的方法的流程图,该方法具体包括S201、当所述已知触发词形态结构是单语素结构时,确定所述已知触发词为所述已知触发词的基本语素。如已知触发词“死”和“信”的基本语素就是“死”和“信”。S202、当所述已知触发词形态结构是谓辅结构时,确定所述已知触发词的第一语素为所述已知触发词的基本语素。如已知触发词“杀了”和“飞到”的基本语素就是“杀”和“飞”。S203、当所述已知触发词形态结构是谓宾结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素。如已知触发词“离职”和“失业”等的基本语素就是“职”和“业”。S204、当所述已知触发词形态结构是修饰结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素。如已知触发词“新婚”和“枪击”的基本语素就是“婚”和“击”。S205、当所述已知触发词形态结构是同位结构时,将同位结构的所述已知触发词以语素为单位进行切分,并获取每个语素的所有义原,分别计算每个义原和所述已知触发词唯一义原集合中与所述同位结构的已知触发词具有相同事件类型的每一已知触发词对应的唯一义原的相似度,将上述所有义原中对应的相似度最高的一义原对应的语素作为所述已知触发词的基本语素。具体的,若已知触发词由2个语素组成,那么就将已知触发词切分成2个语素,对每个语素调用义原获取工具从HowNet获取每个语素的所有义原,并采用计算相似度分别函数Sim计算获得的每个语素对应的每一义原和已知触发词唯一义原集合中与所述同位结构的已知触发词具有相同事件类型的每一已知触发词对应的唯一义原的相似度,上述所有义原中对应的相似度最高的一义原对应的语素就是该已知触发词的基本语素。如上述例子中“成立”的两个语素“成”和“立”中,“立”的一个义原和“成立”的唯一义原相似度最高,所以选中“立”作为“成立”的基本语素。优选的,在步骤S108之后,步骤S109之前还包括将基本语素集合中的各个基本语素按照已知触发词集合中的事件类型进行归类。把所有基本语素按照它对应的已知触发词的事件类型进行分类存放,每类事件的触发词对应的基本语素存放在一起,此时,基本语素集合的结构如下攻击事件绑爆打搏斗攻炸毁击奸剿抗乱殴扔杀烧射......结婚事件婚婚姻嫁娶...... 离婚事件婚休……受伤事件残创断焚瘫痪伤疼痛病……步骤S109 :确定待抽取事件的文本中包括基本语素集合中任一基本语素的词,形成第一未知触发词集合。请参阅图3,为本发明实施例提供的一种形成第一未知触发词集合的方法的流程图,该方法包括S301、将待抽取事件的文本进行分词,得到至少两个词组。调用分词和词性标注工具对待抽取事件的文本进行分词和标注词性,生成词性标注文本。词性标注文本可以利用空格来分割文中的词组,在词组后加“/”和词性。例如南斯拉夫/N反对党/N发起/V的/U大规模/N非暴力/N抗争/V活动/V5号/N演变/V暴力/N抗争/V,/W多/A达/V30万/M民众/N强行/A闯入/V贝尔格勒
/N国会大厦/N。/W警察/N射/V死/V —名/M歹徒/N,/W现场/N围/W上/U 了 /U警示/V线/N。/W公司/N董事长/N由于/P渎职/N已经/D离职/V。他/PN痛打/V 了 /U 小偷/N。/W其中,词性标记N、V、U、P、A、M、D、PN和W分别表示名词、动词、助词、介词、形容词、数量词、副词、代词和标点符号。S302、筛选出包含所述基本语素集合中任一基本语素的词组,形成第一未知触发词集合。从词性标注文本中抽取每一个词组,假设“起、暴、抗、争、动、强、行、闯、入、会、射、死、围、警、职、打”是基本语素集合中基本语素,则包含以上语素的词组构成了第一未知触发词集合,为{ “发起”、“非暴力”、“抗争”、“活动”、“暴力”、“强行”、“闯入”、“国会大厦”、“射”、“死”、“围”、“警示”、“渎职”、“离职”、“痛打” }。步骤SllO :将第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集合。
请参阅图4,为本发明实施例公开的一种形成扩展未知触发词集合的方法的流程图,该方法包括步骤S401、将第一未知触发词集合与所述已知触发词集合相同的词组删除,形成第二未知触发词集合。假设已知触发词集合存在已知触发词“死”,那么第二未知触发词集合为{“发起”、“非暴力”、“抗争”、“活动”、“暴力”、“强行”、“闯人”、“国会大厦”、“射”、“围”、“警示”、“渎职”、“离职”、“痛打”}。步骤S402、删除第二未知触发词集合中的非动词和非名词的词组,形成第三未知触发词集合。此时删除形容词“强行”,第三未知触发词集合为{ “发起”、“非暴力”、“抗争”、“活动”、“暴力”、“闯入”、“国会大厦”、“射”、“围”、“警示”、“渎职”、“离职”、“痛打” }。
步骤S403、删除第三未知触发词集合中至少包括三个语素的词组,形成第四未知触发词集合。这主要是由于95%以上的触发词是单语素词和由两个语素组成的词。如上例中的“非暴力”和“国会大厦”被过滤掉,第四未知触发词集合为{ “发起”、“抗争”、“活动”、“暴力”、“闯入”、“射”、“围”、“警示”、“渎职”、“离职”、“痛打” }。步骤S404、筛选出第四未知触发词集合中与已知触发词形态结构集合中的一已知触发词具有相同或相似形态结构以及相同基本语素的已知触发词,形成第五未知触发词集
口 o其中,单语素结构和谓辅结构定义为相似形态结构。如上例中,“发起”(“起”是基本语素)和暴力(“暴”是基本语素)在已知触发词形态结构集合中没有和它相同形态结构且以“起”或“暴”为基本语素的已知触发词,所以删除这两个词。其它词均能找到,所以第五未知触发词集合为:{ “抗争”,“活动”,“闯入”,“射”,“围”,“警示”、“渎职”,“离职”、“痛打” }。步骤S405、根据第五未知触发词集合中未知触发词的形态结构,获得所述扩展未知触发词集合。请参阅图5,为本发明实施例公开的一种根据未知触发词的形态结构,获得所述扩展未知触发词集合的方法流程图,该方法包括S501、当第五未知触发词集合中未知触发词的形态结构是单语素结构时,获取所述未知触发词的所有义原,并分别计算所述未知触发词的所述所有义原中每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度,若其中任意一个相似度为1,则具有单语素结构的未知触发词属于所述扩展未知触发词集合。调用义原获取工具从HowNet获取所述未知触发词的所有义原,再利用计算相似度函数Sim分别计算所述未知触发词的每一义原和已知触发词形态结构集合中每个所述已知触发词的唯一义原的相似度,如果其中任意一个相似度等于1,则所述未知触发词是扩展得到的未知触发词,加入所述扩展的未知触发词集合;否则不加入。如上例中“射”的义原和已知触发词“发射”的义原的相似度等于1,所以该词加入所述扩展的未知触发词集合;“围”的义原和所有已知触发词的义原之间的相似度的最大值是0. 677,所以该词不是未知触发词。
S502、当第五未知触发词集合中未知触发词的形态结构是谓辅结构,如果该谓辅结构的未知触发词的第一语素属于所述基本语素集合,以及未知触发词的第一语素和所述已知触发词形态结构集合中形态结构为单语素结构或谓辅结构的任意一个已知触发词的第一语素相同,则谓辅结构的未知触发词属于所述扩展未知触发词集合。如上例中未知触发词“闯入”的基本语素是“闯”并且存在已知触发词“闯进”和它具有相同的形态结构和基本语素,所以添加“闯入”到所述扩展的未知触发词集合。S503、当所述第五未知触发词集合中未知触发词的形态结构是谓宾结构,且谓辅宾结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词的第一语素与所述已知触发词形态结构集合中一谓宾结构的已知触发词的第一语素的义原相似度大于第一阈值时,所述谓宾结构的未知触发词属于所述扩展未知触发词集合。如上例中“渎职”和“离职”均是谓宾结构,基本语素都是“职”。“离”的义原和已 知触发词形态结构集合中一个谓宾结构的已知触发词“休职”的第一语素“休”的义原相似度大于第一阈值P,则加入扩展的未知触发词集合;若“渎”的任意义原和已知触发词形态结构集合中任意一个谓宾结构的已知触发词的第一语素的相似度均小于第一阈值P,则该词不加入扩展的未知触发词集合。S504、当所述第五未知触发词集合中未知触发词的形态结构是修饰结构,且修饰结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I时,所述修饰结构的未知触发词属于所述扩展未知触发词集合。如上例中“痛打”的第二语素“打”属于基本语素集合并且“痛打”的一个义原和已知触发词“狠打”的唯一义原的相似度为1,所以“痛打”加入扩展的未知触发词集合。S505、当所述第五未知触发词集合中未知触发词的形态结构是同位结构,且计算所得的所述未知触发词的对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I时,所述同位结构的未知触发词属于所述扩展未知触发词集
口 o如上例中“抗争”的一个义原和已知触发词“斗争”的唯一义原的相似度等于1,该词加入所述扩展的未知触发词集合;而“活动”不满足这个条件,不加入扩展未知触发词
口 O在上面的例子中,最终扩展得到的扩展的未知触发词集合为{ “抗争”,“闯入”,“射”,“离职”、“痛打”}。另外,上述方法实施例中的分词工具、词性标注工具、义原获取工具等均为自然语言处理技术中的通用工具,可以免费获得并使用。以上技术方案可以看出,本发明实施例结合了汉语的构词形态结构以及词汇的语义,从汉字词汇构成和组合语言学的本质出发,根据已知的触发词的基本语素扩展得到未知的触发词,从而提高事件抽取的召回率,最终提高其整体性能。和现有的不扩展方法相t匕,本发明可以获取更多的未知触发词,大大提高召回率;和同义词扩展方法相比,可以提高扩展的未知触发词的质量,从而提高准确率。采用本发明实施例,利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。实施例二上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。请参阅图6,为本发明实施例公开的一种中文事件触发词的扩展系统的结构示意图,该系统包括已知触发词获取模块601、切分已知触发词模块602、词性标注模块603、获取义原模块604、获取唯一义原模块605、计算相似度模块606、获取形态结构模块607、获取基本语素模块608、筛选未知触发词模块609以及筛选扩展未知触发词模块610 ;其中已知触发词获取模块601,用于从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包含有已知 触发词以及所述已知触发词对应的事件类型;切分已知触发词模块602,用于将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合;词性标注模块603,用于将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合;获取义原模块604,用于获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原;获取唯一义原模块605,用于确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原;计算相似度模块606,用于在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;获取形态结构模块607,用于根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合;获取基本语素模块608,用于根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合;筛选未知触发词模块609,用于确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;筛选扩展未知触发词模块610,用于将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集合。
采用本发明实施例,利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。为了本领域技术人员更加理解本发明实施例的有益效果,下面用以具体例子进行说明。表I和表2是本发明在中文ACE 2005语料库上的测试结果。ACE 2005语料库是信息抽取常用的训练语料,包括633个文档。实验数据表明,本发明的方法比现有的最好不扩展触发词方法(Chen, Z. and Ji, H. Language specific issue and feature explorationin Chinese event extraction. In Proceedings of Human Language Technologies: The2009 Annual Conference of the North American Chapter of the Associationfor Computational Linguistics (NAACL2009), pages 209-212.)和目前最好的扩展方法(Li, P. F.,Zhou G. D. , Zhu Q. M. and Hou L. B. (2012). Employing compositional semantics and discourse consistency in Chinese event extraction. In Proceedingsof the 2012 Joint Conference on Empirical Methods in Natural LanguageProcessing and Computational Natural Language Learning(EMNLP-CoNLL 2012), pages1006-1016.)相比,性能更好。表I给出了抽取触发词的性能比较。和目前最好的不扩展方法相比,Fl值提高8.5%。和目前最好的扩展方法相比,Fl值提高4.8%。表2给出了本发明实施例对事件识别性能的影响,本发明实施例比目前最好的系统(与目前最好的扩展方法对应的系统)Fl值提高了 4. 1%。表I
系统准确率P I召回率R I Fl
目前最好的不扩展方法100121, 8471
目前最好的扩展方法94718238778
本发明实施例的方法96 788 992 6表2
系统准确率P I召回率R I Fl
目前性能最好的系统73 562~167 4
本发明实施例的系统73 469 8Th5本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
权利要求
1.一种中文事件触发词的扩展方法,其特征在于,包括 A、从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包括已知触发词以及与所述已知触发词对应的事件类型; B、将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合; C、将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合; D、获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原; E、确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原; F、在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中; G、根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合; H、根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合; J、确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合; K、将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集口 ο
2.根据权利要求I所述方法,其特征在于,所述每一义原为SI,所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原为S2,所述计算每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度具体包括 通过相似度计算函数Sim(SI, S2) = a / (a +d)计算每一义原SI与唯一义原S2的相似度,其中,a为预设可调参数,d为每一义原SI与唯一义原S2的路径距离。
3.根据权利要求I所述方法,其特征在于,所述触发词的形态结构包括 单语素结构、同位结构、谓宾结构、修饰结构以及谓辅结构,其中所述单语素结构是指已知触发词是名词或动词的单语素词,所述同位结构是指已知触发词的第一语素与第二语素均为动词,所述修饰结构是指已知触发词第一语素修饰第二语素,所述谓宾结构是指已知触发词的第一语素与第二语素是谓语和宾语的关系,已知触发词由所述第一语素与所述第二语素组成,且所述第一语素位于所述第二语素之前。
4.根据权利要求3所述方法,其特征在于,步骤H具体包括 H1、当所述已知触发词形态结构是单语素结构时,确定所述已知触发词为所述已知触发词的基本语素; H2、当所述已知触发词形态结构是谓辅结构时,确定所述已知触发词的第一语素为所述已知触发词的基本语素; H3、当所述已知触发词形态结构是谓宾结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素; H4、当所述已知触发词形态结构是修饰结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素; H5、当所述已知触发词形态结构是同位结构时,将同位结构的所述已知触发词以语素为单位进行切分,并获取每个语素的所有义原,分别计算每一义原和所述已知触发词唯一义原集合中与所述同位结构的已知触发词具有相同事件类型的每一已知触发词对应的唯一义原的相似度,将所述所有义原中对应的相似度最高一义原对应的语素作为所述已知触发词的基本语素。
5.根据权利要求3所述方法,其特征在于,步骤J具体包括 J1、将所述待抽取事件的文本进行分词,得到至少两个词组; J2、筛选出包含所述基本语素集合中任一基本语素的词组,形成第一未知触发词集合。
6.根据权利要求5所述方法,其特征在于,步骤K具体包括 K1、将所述第一未知触发词集合与所述已知触发词集合相同的词组删除,形成第二未知触发词集合; K2、删除所述第二未知触发词集合中的非动词和非名词的词组,形成第三未知触发词集合; K3、删除所述第三未知触发词集合中至少包括三个语素的词组,形成第四未知触发词集合; K4、筛选出所述第四未知触发词集合中与所述已知触发词形态结构集合中的一已知触发词具有相同或相似形态结构以及相同基本语素的已知触发词,形成第五未知触发词集合,其中,单语素结构和谓辅结构为相似形态结构; K5、根据所述第五未知触发词集合中未知触发词的形态结构,获得所述扩展未知触发词集合。
7.根据权利要求6所述方法,其特征在于,步骤K5具体包括 K51、当所述第五未知触发词集合中未知触发词的形态结构是单语素结构时,获取所述未知触发词的所有义原,并分别计算所述未知触发词的所述所有义原中每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度,若其中任意一个相似度为1,则具有单语素结构的未知触发词属于所述扩展未知触发词集合; K52、当所述第五未知触发词集合中未知触发词的形态结构是谓辅结构,该谓辅结构的未知触发词的第一语素属于所述基本语素集合,以及未知触发词的第一语素和所述已知触发词形态结构集合中形态结构为单语素结构或谓辅结构的任意一个已知触发词的第一语素相同,则所述谓辅结构的未知触发词属于所述扩展未知触发词集合; K53、当所述第五未知触发词集合中未知触发词的形态结构是谓宾结构,且该谓宾结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词的第一语素与所述已知触发词形态结构集合中一谓宾结构的已知触发词的第一语素的义原相似度大于第一阈值时,所述谓宾结构的未知触发词属于所述扩展未知触发词集合; K54、当所述第五未知触发词集合中未知触发词的形态结构是修饰结构,且修饰结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I时,所述修饰结构的未知触发词属于所述扩展未知触发词集合; K55、当所述第五未知触发词集合中未知触发词的形态结构是同位结构,且计算所得的所述未知触发词对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I时,所述同位结构的未知触发词属于所述扩展未知触发词集合。
8.根据权利要求I所述方法,其特征在于,在步骤H之后,步骤J之前还包括步骤I: 将所述基本语素集合中的各个基本语素按照所述已知触发词集合中的事件类型进行归类。
9.一种中文事件触发词的扩展系统,其特征在于,包括 已知触发词获取模块,用于从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包含有已知触发词以及所述已知触发词对应的事件类型; 切分已知触发词模块,用于将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合; 词性标注模块,用于将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合; 获取义原模块,用于获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原; 获取唯一义原模块,用于确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原; 计算相似度模块,用于在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;获取形态结构模块,用于根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合; 获取基本语素模块,用于根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合;筛选未知触发词模块,用于确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;筛选扩展未知触发词模块,用于将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集合 。
全文摘要
本发明实施例公开了一种中文事件触发词的扩展方法及系统,本方法利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。
文档编号G06F17/27GK102831236SQ20121032119
公开日2012年12月19日 申请日期2012年9月3日 优先权日2012年9月3日
发明者李培峰, 朱巧明, 朱晓旭 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1