基于事件的中文指代语料库构建方法与流程

文档序号:12733895阅读:1042来源:国知局

本发明属于自然语言处理领域(Natural Language Processing),涉及一种基于事件的中文指代语料库构建方法。



背景技术:

指代是一种常见的语言现象,在日常对话以及文本中大量出现。指代可以使语言表达简洁连贯,有利于语言交流以及文本书写。但大量地使用指代会增加计算机理解语言以及文本的难度。指代消解的主要任务就是识别篇章中不同表达方式描述的相同实体。以往大量的研究工作都是集中在非事件的文本中,并取得了一定的成果。随着“事件”这一概念的兴起,越来越多的学者开始着手面向事件的研究。事件关系到多方面的要素,是比静态概念粒度更大的知识表示单元,以事件作为人类知识的基本单元,更接近于人类的认知过程,更符合客观实际,受到了越来越多领域的关注,逐渐被计算机语言学、人工智能、信息检索、信息抽取、自动文摘等知识处理领域所采用。

从上个世纪80年代末,一些信息抽取的国际测评会议开始兴起,如信息理解会议(MUC),自动内容抽取(ACE)等,这些会议对信息抽取以及指代消解等自然语言处理技术提供了统一的测试语料和测评方法,它们的召开在很大程度上推动了指代消解的发展,特别是这些会议提供的测试语料,使得指代消解系统从基于启发性规则的消解方法转向了基于数据驱动的消解方法。例如,MUC语料采用的是SGML标注方法,采用<COREF ID = ”x”>、<COREF ID= ”x” REF=”y”>分别表示实体、参照表达式的左边边界,用</COREF>表示实体、参照表达式的右边边界,x从1开始严格单调递增,表示实体在文本中的顺序标号,REF表示该实体的先行语的信息,如果y等于某一个x的值,则这个参照表达式的先行语就是ID号为x的实体,若无REF值,则这个实体不存在先行语;而ACE语料与MUC语料不同,以ACE2005为例,它是通过指代链描述文本中的指代关系,将指向同一实体的表达都放在一条具有相同编号的指代链中,值得一提的是,ACE语料从ACE2003开始加入中文语料,目前已达到了30万字的训练语料、5万字的测试语料,而且加入了对事件提及的评测,这是最早针对中文指代消解的国际测评语料资源,对于中文指代消解的发展起到了很大的推动作用。2011年CoNLL提供了针对英文的OntoNotes4.0语料库,而且对事件名词与动词的共指关系进行了标注,并在2012年推出OntoNotes5.0,提供英文、中文以及阿拉伯文的语料进行多语言的共指消解评测。近些年,国内对指代消解的研究也逐渐增多,相关语料库的构建也有很多。例如,赵知纬等在ACE2005中文语料库的基础上构建的一个面向信息抽取的中文跨文本指代语料库,舒佳根等在ACE2005中文语料和中文维基百科基础上构建的一个实体链接语料库。

然而,这些语料库大多不是基于事件的标注,虽然ACE语料库定义了8类事件,并对事件提及进行了评测,但其对事件的理解还停留在篇章层次,没有细化到具体的句子,而且并不能覆盖所有事件,而且它对事件提及的评测并没有涉及共指消解的问题。OntoNotes语料库提供的关于事件的共指关系,但仅仅涉及到英文,不适合中文的语句分析。国内大多数的语料库也是建立在像ACE中文语料的基础上,并没有以事件作为知识表示单元进行标注。事件中涉及多方面的实体,称之为要素,与传统文本中的静态概念一样,同样存在着大量的指代现象,同时,事件本身也存在着不少的指代,对于面向事件的应用来说,它们带来了许多的不确定性,需要对他们进行处理和研究,这就需要语料库的帮助,然而,到目前为止,还没有面向事件的中文指代语料库。



技术实现要素:

本发明就是为了弥补现有的指代消解语料库的缺陷,提供一种基于事件的中文指代语料库构建方法,在CEC2.0语料库的基础上,构建了一个面向事件的中文指代语料库,其中包括了对已存在要素、缺省要素和事件的指代标注。该方法不但可以覆盖语料库中的所有事件,而且是建立在中文句法分析和语义分析基础之上的,符合中文的特点,该方法还能够对标注后的语料进行一致性检查,以保证语料标注的质量。

下面三个定义为本发明中涉及到的概念:

定义1.先行要素和照应要素:面向事件的中文文本中如果存在要素间指代关系,表达较为具体的要素称为先行要素,表达较为抽象的要素称为照应要素。

定义2.先行事件和照应事件:面向事件的中文文本中如果存在事件间的指代关系,表达较为具体的事件称为先行事件,表达较为抽象的事件称为照应事件。事件的具体和抽象的判别与事件所包含的要素是否齐全有关,即事件的对象、环境和时间要素是否缺省。

定义3.面向事件的指代消解:在面向事件的文本中寻找先行要素(或先行事件)和照应要素(或照应事件)之间的关系,并明确给出照应要素(或照应事件)所指向的先行要素(或先行事件)的过程。

为达到上述目的,本发明采用下述技术方案:一种基于事件的中文指代语料库构建方法,其特征在于操作步骤如下:

(1) 选择CEC2.0语料库作为构建基础。

A. 选择CEC2.0作为构建的基础语料库。

B. 对照CEC2.0语料标注规范,检验事件以及事件要素标注的准确性。

C. 对于标注不完整的语料补充相关标注,标注错误的语料进行更正。

(2) 确定指代标注的目标以及标注方式。

A. 指代标注的目标分为两大类:事件要素(对象、环境和时间)的指代标注和事件的指代标注,其中事件要素的指代标注又分为已存在要素的指代标注和缺省要素的指代标注两种。

B. 为便于计算机做相关处理,所有类型的指代标注都采用XML格式。事件要素分为已存在要素和缺省要素,所以相应的指代标注有两种形式:第一种形式为属性(Attribute)标注,这种标注只针对要素的指代,与事件的标注无关,目的是进行事件中缺省要素的标注;第二种形式为标识(Tag)标注,即单独用一个标识进行指代标注,目的是对已存在要素和事件进行标注。

(3) 根据具体的指代目标制定相应的标注规范。

A. 缺省要素的标注规范:A.对象要素是在标识Participant或Object的属性sid(主体编号)或oid(客体编号)中进行标注;B.环境要素是在标识Location的属性lid中进行标注;C.时间要素是在标识Time的属性tid中进行标注。

B. 已存在要素标注规范:1.对象要素有两种语义类型,在语料库中分别以Participant和Object这两个标识进行标注,前者与人有关,后者是与物有关,所以它们不属于一个语义类型,所以是不能相互指代的。2.环境要素的标注,除了标注指向同一地理位置的要素,还要进行基准类型的标注,即通过先行环境要素,我们可以将照应环境要素的地理位置进行具体化。3.时间要素与环境要素类似,除了标注指向同一时间的要素,也要进行基准类型的标注。

C. 事件标注规范:首先比较两个事件的触发词是否相同或同义,若是,则进行下一步,否则两事件无指代关系。然后比较两个事件各要素,因为每个事件必须包含触发词,而其他要素可能缺省,不会出现,所以要根据上下文,补全缺省要素,然后判断两事件是否具有指代关系,具有指代关系的两事件的各要素必须一致,即指向现实中的同一实体。

(4) CEC2.0语料文本预处理。

A. CEC2.0语料库中没有对ReportTime(报道时间)进行编号,它可以作为时间要素指代标注中的基准时间。因此,预处理中需要加入标识属性tid,属性值为t0。

B. CEC语料中对象要素为粗粒度标注,所以需要将对象要素的修饰成分在进一步细化标注,这样可以具体化较为抽象的对象要素。

(5) 自动标注事件要素以及事件指代。

A. 由于缺省要素复杂性高,自动标注时难度大、准确度低,因此不对其进行自动标注。

B. 对于已存在要素,通过简单的字符串匹配规则,采用标识标注形式进行标注。

C. 对于事件,通过对触发词进行同义词的检测方法,采用标识标注形式进行标注。

(6) 通过人工标注进一步优化标注结果。

A. 安排两位标注者对自动标注阶段生成的指代链进行校正,同时对无法自动识别的指代进行人工补全,且两位标注者必须各自独立完成上述工作。

B. 对于两位独立标注者的标注差异,将由第三人进行仲裁。仲裁者可以根据标注规范或引入外部知识来解决分歧,确定最终的标注结果。

(7)设定一致性检验步骤,确保语料标注的质量:

A. 为了保证语料标注的质量,需要对两位独立标注者的标注结果进行一致性检测。

B. 采用Passoneau提出的指代标注可靠性计算方法。该方法通过一个距离度量来表示指代链之间的相似度,距离度量原则主要包括:

1.两条指代链完全吻合时,距离为0;

2.一条指代链是另一条指代链的子集时,距离为0.33;

3.两条指代链不互相包含且有公共的非空子集时,距离为0.67;

4.两条指代链交集为空集时,距离值设为1。

C. 根据Krippendorff的alpha系数计算指代链之间的相似度距离来检验不同标注者之间的一致性。如果alpha系数低于67%,表明标注结果不可靠,则转入(5)自动标注步骤,重新进行标注,直到一致性高于该阈值。

本发明的基于事件的中文指代语料库构建方法与传统中文指代语料库构建方法相比较具有以下显而易见的突出实质性特点和显著的技术进步:(1)基于事件的中文指代语料库是建立在事件的基础上,是以事件作为知识表示单元,反映了事物的动态性,更符合客观实际,便于计算机模拟大脑工作;(2)传统的指代标注进行了过多实体类别的划分,而基于事件的指代标注是依托于事件和事件要素进行的标注,分类少,而且结构清晰;(3)基于事件的指代标注不仅对指向同一实体的要素进行标注,而且对基准类型的指代进行了标注,通过这种指代关系,可以将抽象要素具体化(4)基于事件的标注,使得传统指代中的零指代消解转变为缺省要素的指代消解,使实体要素化,结合事件的语言表现规则,更利于缺省要素的识别和消解;(5)传统的指代消解因缺少必要的篇章知识用于消解,容易受到限制,而基于事件的指代标注可以通过与事件关系的结合,能让我们挖掘出更多的篇章知识,提高指代消解系统的性能。

附图说明

图1为本发明的基于事件的中文指代语料库构建方法的流程图。

具体实施方式

本发明的优选实施例结合附图详述如下:

实施例一:

参见图1,本基于事件的中文指代语料库构建方法主要包括以下几个步骤:

(1) 选择CEC2.0语料库作为构建基础,

(2) 确定指代标注的目标以及标注方式,

(3) 根据具体的指代目标制定相应的标注规范,

(4) CEC2.0语料文本预处理,

(5) 自动标注事件要素以及事件指代,

(6) 通过人工标注进一步优化标注结果,

(7) 设定一致性检验步骤,确保语料标注的质量。

实施例二:

本实施例与实施例一基本相同,特别之处如下:

所述步骤(1) 选择CEC2.0语料库作为构建基础:

(1-1).选择CEC2.0作为构建的基础语料库;

(1-2).对照CEC2.0语料标注规范,检验事件以及事件要素标注的准确性;

(1-3).对于标注不完整的语料补充相关标注,标注错误的语料进行更正。

所述步骤(2) 确定指代标注的目标以及标注方式:

(2-1).指代标注的目标分为两大类:事件要素(对象、环境和时间)的指代标注和事件的指代标注,其中事件要素的指代标注又分为已存在要素的指代标注和缺省要素的指代标注两种;

(2-2).为便于计算机做相关处理,所有类型的指代标注都采用XML格式。事件要素分为已存在要素和缺省要素,所以相应的指代标注有两种形式:第一种形式为属性(Attribute)标注,这种标注只针对要素的指代,与事件的标注无关,目的是进行事件中缺省要素的标注;第二种形式为标识(Tag)标注,即单独用一个标识进行指代标注,目的是对已存在要素和事件进行标注;

例1:对象要素属性标注

<Event eid="e2" type="thoughtevent">

<Participant sid="s2,s3">上海市政府新闻办</Participant>

<Time type="relTime" tid="t2">12日15时45分</Time>发布

<Denoter type="statement" did="d2">消息</Denoter>

</Event>

<Event type="thoughtevent" eid="e3">

<Denoter type="statement" did="d3">称</Denoter>

</Event>

例2:地点要素标识(Tag)标注

<eAnaph anaType="Loc" aid="l3" antecedent="四川汶川" rid="l7" anaphor="四川省汶川县"/>

<eAnaph anaType="Loc" aid="l7" antecedent="四川省汶川县" rid="l13" anaphor="灾区"/>

所述步骤(3) 根据具体的指代目标制定相应的标注规范:

(3-1).缺省要素的标注规范:A.对象要素是在标识Participant或Object的属性sid(主体编号)或oid(客体编号)中进行标注;B.环境要素是在标识Location的属性lid中进行标注;C.时间要素是在标识Time的属性tid中进行标注。

(3-2).已存在要素标注规范:A.对象要素有两种语义类型,在语料库中分别以Participant和Object这两个标识进行标注,前者与人有关,后者是与物有关,所以它们不属于一个语义类型,所以是不能相互指代的。B.环境要素的标注,除了标注指向同一地理位置的要素,还要进行基准类型的标注,即通过先行环境要素,我们可以将照应环境要素的地理位置进行具体化。C.时间要素与环境要素类似,除了标注指向同一时间的要素,也要进行基准类型的标注。

(3-3).事件标注规范:首先比较两个事件的触发词是否相同或同义,若是,则进行下一步,否则两事件无指代关系。然后比较两个事件各要素,因为每个事件必须包含触发词,而其他要素可能缺省,不会出现,所以要根据上下文,补全缺省要素,然后判断两事件是否具有指代关系,具有指代关系的两事件的各要素必须一致,即指向现实中的同一实体。:

所述步骤(4) CEC2.0语料文本预处理:

(4-1).CEC2.0语料库中没有对ReportTime(报道时间)进行编号,它可以作为时间要素指代标注中的基准时间。因此,预处理中需要加入标识属性tid,属性值为t0;

例3:ReportTime重新编号

<ReportTime type="absTime" tid="t0">2008年05月12日16:25</ReportTime>

(4-2).CEC语料中对象要素为粗粒度标注,所以需要将对象要素的修饰成分在进一步细化标注,这样可以具体化较为抽象的对象要素。

所述步骤(5) 自动标注事件要素以及事件指代:

(5-1).由于缺省要素复杂性高,自动标注时难度大、准确度低,因此不对其进行自动标注;

(5-2).对于已存在要素,通过简单的字符串匹配规则,采用标识标注形式进行标注;

(5-3).对于事件,通过对触发词进行同义词的检测方法,采用标识标注形式进行标注。

所述步骤(6) 通过人工标注进一步优化标注结果:

(6-1).安排两位标注者对自动标注阶段生成的指代链进行校正,同时对无法自动识别的指代进行人工补全,且两位标注者必须各自独立完成上述工作。

(6-2).对于两位独立标注者的标注差异,将由第三人进行仲裁。仲裁者可以根据标注规范或引入外部知识来解决分歧,确定最终的标注结果。

所述步骤(7) 设定一致性检验步骤,确保语料标注的质量:

(7-1).为了保证语料标注的质量,需要对两位独立标注者的标注结果进行一致性检测。

(7-2).采用Passoneau提出的指代标注可靠性计算方法。该方法通过一个距离度量来表示指代链之间的相似度,距离度量原则主要包括:

A.两条指代链完全吻合时,距离为0;

B.一条指代链是另一条指代链的子集时,距离为0.33;

C.两条指代链不互相包含且有公共的非空子集时,距离为0.67;

D.两条指代链交集为空集时,距离值设为1。

(7-3). 根据Krippendorff的alpha系数计算指代链之间的相似度距离来检验不同标注者之间的一致性。如果alpha系数低于67%,表明标注结果不可靠,则转入(5)自动标注步骤,重新进行标注,直到一致性高于该阈值。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1