一种中文同指事件识别方法及系统的制作方法

文档序号:9547176阅读:495来源:国知局
一种中文同指事件识别方法及系统的制作方法
【技术领域】
[0001] 本发明属于自然语言处理领域,具体涉及一种识别事件间的中文同指事件识别方 法及系统。
【背景技术】
[0002] 事件(Event)是信息表示的一种主要形式,它是一种特定人、物、事在特定时间和 特定地点相互作用的客观事实(也称"自然事件"),如人的受伤、死亡事件和食品的添加剂 事件等。一篇文章中经常会包含许多事件,这些事件之间存在各种关系。当两个事件指向 同一个事件本体时,认为这两个事件具有同指(或共指)关系。例如:
[0003] 例1 :两国首脑今天在巴黎举行会谈。……双方在会谈中讨论了中东和平问题。
[0004] 例2 :2007年美国爆发了金融危机。……这一事件对美国乃至全世界产生了深远 的影响。
[0005] 例1中触发词"会谈"在两个语句中都指向同一个事件本体,它们具有同指关系。 例2中"这一事件"与"金融危机"都指向了同一事件,它们也互为同指事件。
[0006] 同指事件识别(也称消解)是信息抽取的一个子任务,用于识别一个文档中指向 同一个事件本体的事件集合。正确识别同指事件,将更加准确地概括文章大意,有利于篇章 理解、文本摘要、机器翻译等应用。与实体指代大多数情况存在于相邻句子之间有所不同, 同指事件往往跨越句子、跨越段落,甚至跨文本,这是同指事件识别的难点之一。此外,中文 和英文同指事件也有所不同。英文的语法更加严谨,词语多义性相对较少。而中文常常省 略主语,没有明显的时态、单复数等,导致中文语法较为复杂、随意。而且,中文词汇量庞大, 一词多义性普遍存在,使得中文同指事件识别的研究具有很大困难,识别率偏低。
[0007] 目前,对事件同指问题研究相对较少,绝大多数面向英文。Ahn在研究英文事件抽 取时提到了事件同指识别问题,依据实体同指的思想把事件同指问题转化成事件对相似度 计算问题。Adrian则更加具体化事件对的特征属性,认为事件的结构包含该事件与其他事 件之间的关系状态,使用结构化特征进行同指事件的研究,并提供了标注规则以及英文语 料库。Chen基于英文ACE语料库建立了特征压缩的事件对同指识别系统。此外,Chen利用 聚类算法,将英文同指事件聚集生成图模型。Fatemeh在AQUAINT TimeML语料库上手工标 注了同指链,利用语义类型识别和相似度匹配方法识别英文同指事件。
[0008] 相对于英文事件同指问题,中文事件的同指识别研究更少。针对中文语料库上的 指代消解问题,胡乃全基于最大熵模型建立中文指代消解系统,在ACE05bnews中文语料库 上有一定提高。张牧宇等使用中心词匹配约束,对共指消解效果有很大提高。庞宁等针对 突发事件新闻,使用了多种语义特征进行共指消解,增加了维基百科的语义相关特征,使得 共指消解t旲型有所提尚。
[0009] 目前,在中文同指事件识别领域,多数方法采用基于分类器的机器学习方法和规 则方法,这些方法存在以下问题:1)多数采用机器学习的中文同指事件识别方法还是沿用 英文同指事件识别的方法,语言针对性不够。和英文不同,中文是一种意合语言,具有语法 较为复杂、表达较为随意、常常省略主语、没有明显的时态、单复数等特点。这些特点使得沿 用英文同指事件识别的方法在性能上欠缺;2)机器学习方法假设事件对之间相互独立,容 易造成分类结果矛盾,同指事件链不一致等问题;3)规则方法的缺点在于规则的构建成本 高,而且通用性不够,无法跨领域使用。
[0010] 为此,本发明首先按照事件对识别思想,将同指事件识别转化成事件对的语义相 似度问题,以具有中文特色的词语相似度特征、词语匹配特征,转化组合项特征为核心利用 分类模型来识别同指事件。其次,本发明利用全局优化方法进一步对分类模型识别出的同 指事件链进行文档级的全局推理,消除部分识别错误的同指事件,并能根据同指事件的传 递性等推理出分类模型未识别的同指事件。和现有方法相比,本发明的方法大大提高了同 指事件识别的性能。
[0011] 为更好地理解本发明,下面首先对相关名词作相应介绍。
[0012] 实体(Entity):-个语义类别中的对象或对象的集合,如人名、机构名和地名等。
[0013] 事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点 和人物等角色,如出生、死亡、地震和车祸等事件。
[0014] 论元(Argument):参与事件的实体,每个论元在事件中都有对应的角色。
[0015] 角色(Role):事件的参与者和属性,一般用论元来填充。如死亡者、死亡时间和事 件地点就是死亡事件的角色。
[0016] 触发词(Trigger):用于识别事件的核心词(一般为动词和名词居多)。如"生于"、 "出生"等就是出生事件触发词。
[0017] 句法树(Syntax Tree):对句子中的词语语法功能进行分析就是句法分析。句子 经过句法分析后产生的树形结构为句法树。
[0018] 同指事件(Co-reference Events):当两个事件指向同一个事件本体时,这两个事 件具有同指(或共指)关系。如爆炸事件"天津爆炸发生于2015年。"和"2015年8月晚 11时30分左右,天津滨海新区瑞海公司危险品仓库发生爆炸。"属于同指事件。
[0019] 召回率(Recall):系统正确识别的同指事件个数占所有同指事件个数的比例。衡 量同指事件识别性能的指标之一。
[0020] 准确率(Pricision):系统正确识别的同指事件个数占所有识别为同指事件个数 的比例。衡量同指事件识别性能的指标之一。
[0021] Fl指数(Fl-Measure):衡量同指事件识别性能的综合指标之一,准确率(P)和召 回率(R)的加权几何平均值,SP :


【发明内容】

[0022] 本发明提供一种中文同指事件识别方法,包括以下步骤:
[0023] S1、对同指标注文本和测试文本中每个包含事件的句子分别调用分词工具、实体 识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合 和预处理测试文本集合;
[0024] S2、分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件 类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合;
[0025] S3、根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再 利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同 指关系,得到事件同指第一集合;
[0026] S4、对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优 化,得到事件同指集合。
[0027] 优选的,在步骤Sl中,所述同指标注文本和所述测试文本是已经标注了事件各类 信息的文本,由各种事件抽取工具或人工生成,且所述同指标注文本是进行同指事件识别 的训练语料,标注了所有的同指事件关系;所述测试文本是进行同指事件识别的文本。
[0028] 优选的,步骤S1还包括:
[0029] S101、分别对同指标注文本和测试文本中的每个事件句调用分词工具切分词语, 得到用空格分隔词语的分词标注集合和分词测试集合;
[0030] S102、分别对分词标注集合和分词测试集合中的每个事件句调用实体识别工具识 别实体并标注实体类型,得到实体识别标注集合和实体识别测试集合,所述实体识别标注 集合和实体识别测试集合中每个实体标注格式为"实体/实体类型";
[0031] S103、分别对实体识别标注集合和实体识别测试集合中的每个事件句调用句法分 析工具进行句法分析,得到预处理标注文本集合和预处理测试文本集合。
[0032] 优选的,步骤S2还包括:
[0033] S201、从预处理测试文本集合中以文档为单位抽取事件类型相同的事件,每种事 件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的 同类型事件表的每个表项,若所述表项中事件的数量大于1,则所述表项中的任意2个事件 构成1个事件对,加入测试文本事件对集合;
[0034] S202、从预处理标注文本集合中以文档为单位抽取事件类型相同的事件,每种事 件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的 所述同类型事件表的每个表项,如果所述表项中事件的数量大于1,则所述表项中的任意2 个事件构成1个事件对,加入标注文本事件对集合;
[0035] S203、为标注文本事件对集合和测试文本事件对集合中的每个事件对分别从预处 理标注文本集合和预处理测试文本集合中抽取所述事件对的事件属性特征,得到标注文本 第一特征集合和测试文本第一特征集合;
[0036] 其中,每个事件对(El,E2)的事件属性特征集合如下:
[0037] 〈1 = El的触发词>〈2 = El的触发词的词性>〈3 = El的触发词在句法树中的层 数深度>〈4 = El的核心论元的实体类型>〈5 = E2的触发词>〈6 = E2的触发词的词性>〈7 =E2的触发词在句法树中的层数深度>〈8 = E2的核心论元的实体类型〉;
[0038] S204、为标注文本事件对集合和测试文本事件对集合中的每个事件对从预处理标 注文本集合和预处理测试文本集合中抽取所述事件对的事件对特征,分别和标注文本第一 特征集合和测试文本第一特征集合中所述事件对的事件属性特征合并,添加到标注文本特 征集合和测试文本特征集合;
[0039] 其中,每个事件对(El,E2)的事件对特征集合如下:
[0040] 〈9 =事件El和E2的事件类型(Type)是否相同(0-不相同;1-相同)XlO =事 件El和E2的极性(Polarity)是否相同(0-不相同;1-相同)>〈11 =事件El和E2的时 态(Tense)是否相同(0-不相同;1-相同)>〈12 =事件El和E2的触发词是否相同(0-不 相同;1_相同)>〈13 =事件El和Ε2触发词是否为同义词(〇-不是;1-是)>〈14 =事件El 和Ε2相同论元个数>〈15 =事件El和Ε2不相同论元个数>〈16 =事件El和Ε2间隔句子 数>〈17 =事件E1和Ε2的触发词是否匹配(〇-不是;1-是)>〈18 =事件El和Ε2的转化 组合项特征〉;
[0041] S205、为标注文本特征集合中的每个特征根据所述特征对应的事件对从同指标注 文本中检索所述事件对是否存在于标注同指事件表中:如果存在,把类别"1"加入所述特 征前;如果不存在,把类别"0"加入所述特征前,最后,把加了所述类别的特征更新到标注 文本特征集合。
[0042] 优选的,特征17的设置方法如下:如果两个事件的触发词满足以下任意一个条 件,则认为触发词匹配,否则为不匹配:1)两个触发词
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1