字符数据中实体消解的方法和装置的制作方法

文档序号:6585322阅读:164来源:国知局
专利名称:字符数据中实体消解的方法和装置的制作方法
技术领域
本发明涉及计算机数据关系处理,具体而言,涉及一种字符数据中实体消解的方 法和装置。
背景技术
指代消解任务就是将现实世界中同一实体的不同描述合并到一起的过程,主要包 括人称代词消解和名词短语消解。在共指消解任务中,将当前考察的用于指向的表述对象 称为照应语,将被指向的表述对象称为先行词。例如,在下面的句子中,“[中国矿业集团有 限公司]的领导大胆创新,有效遏制住了经济滑坡,[公司]产值以平均每年33%的幅度递 增”,考察其中“公司,,一词所指代的实体时,“公司,,这个表述对象被称为照应语,而句中的 “中国矿业集团有限公司”则是该照应语所对应的先行词。共指消解就是确定照应语所指向 的先行词的过程。下面举一个简单例子说明中文新闻评论中共指消解的过程。在新闻正文中出现如 下一段话”...广东宏远队86-84击败八一双鹿电池队,以2 0的总比分领先对手...”, 下面几条是该对该新闻的评论“81代表过去,宏远代表未来”,“回到主场,八一队一定赢”, “广东队只是一时的风光”;评论中的“81”,“八一队”都是指向正文中的“八一双鹿电池队”, 而“宏远”,“广东队”都是指向正文中的“广东宏远队”。中文新闻评论中实体消解目的是对 评论中的每个实体,判断他是不是指向正文中的某个实体,如果是,从正文中选择一个最有 代表性的实体作为该实体的先行词。目前的共指消解算法主要以二元分类算法为主,通过定义照应语和先行词之间的 一系列特征,使用机器学习的方法判断照应语和先行词之间的是否具有共指关系,然后通 过一定的链接策略将所有具有共指关系的实体表述合并成一个实体。现有的共指消解系统 处理的都是规范性比较强的语料,例如新闻正文,广播报道等等。新闻评论是一种人们用来 对新近事件发表看法的文体。随着人们在互网上扮演的角色逐渐从信息的获取者转变为信 息的提供者,新闻评论中包含的大量信息成为研究者关注的热点。与传统文本语料相比,中 文新闻评论语料具有以下特点1、文本规范性差。由于新闻评论是由互联网网民书写,可能包含大量不规范的内 容,常见的有错别字,多余的空格,无意义的符号,非正式的别名等等。例如,“汇源”可能被 错误地写成“汇圆”,而“抵制可口可乐”中包含了大量无意义的空格。2、多样的评论风格。由于评论编写者的背景各异,导致不同的评论之间使用不同 的词语,句式,语气等等。3、简明扼要。新闻评论用于发表自己的看法,一般不需要很详细的解释说明,一条 新闻评论常常只由一两句话组成。4、主题相关性。新闻评论是对新近发生的某个新闻事件发表评论,因此绝大多数 的新闻评论都是紧密围绕新闻正文中提到的人物或事件发表看法。由于上述字符存在不规范、口语化等特点,向用户呈现词语之间的共指关系错误,如,在字符数据“北图”上显示标签“地名”,而没有显示“机构名北京国家图书馆”,造成用 户阅读、检索、翻译时,出现错误理解。

发明内容
本发明旨在提供字符数据中实体消解的方法和装置,其能够解决由于字符存在不 规范、口语化等特点,向用户呈现词语之间的共指关系错误的问题。根据本发明的一个方面,提供了一种字符数据中实体消解的方法,包括获取字符数据中的基准语料和待处理语料;从所述基准语料内获得第一实体集合,将第一实体集合内实体建立共指关系,得 到第二实体集合;从所述待处理语料内获得第三实体集合,并通过所述第三实体集合和第一实体集 合构造出训练集、测试集;采用分类方法对所述训练集和测试集进行运算;按照运算后的结果识别出第三实体集合与第二实体集合之间的共指关系。优选的,所述第二实体集合中的具有共指关系的实体之间以链式连接,构成共指 链。优选的,所述构造出训练集的过程包括对第三实体集合中的任一个实体A,如果 识别出实体A和第一实体集合中实体B具有共指关系,且实体B存在于第二实体集合中的 共指链C中,则实体A和共指链C中的每个实体都构造成正例,和第二实体集合中除共指链 C以外的其它共指链内的实体构造成反例;如果实体B不存在于第二实体集合的任一条共指链中,则那么实体A和实体B构 造成正例,和第二实体集合中共指链内的所有实体构造成反例;所述构造出测试集的过程包括第三实体集合中的任一个实体与第一实体集合中 的所有实体构成各个测试用例。优选的,所述分类方法为决策树、贝叶斯算法、支持向量机或最大熵模型。优选的,所述对训练集、测试集进行运算的过程包括构造特征函数对训练集内的各个正例、反例运算,获得训练集的特征函数值,对测 试集内的各个测试用例运算,获得测试集的特征函数值;将训练集的特征函数值通过分类方法运算,获得相应的运算模型,使用所述运算 模型对测试集的特征函数值运算,获得运算结果。优选的,所述按照运算后的结果识别的过程包括所述运算结果为当前测试用例中第三实体集合内的实体D与第一实体集合内的 实体E之间的相似度值;如果相似度值大于相似度阈值,则判断实体E是否在第二实体集合中的共指链 中,如果不在,则将实体E作为实体D指向的实体;如果在,则从共指链中选择出一个实体作 为实体D指向的实体。根据本发明的另一个方面,还提供了一种字符数据中实体消解的装置,包括选择单元,用于从字符数据中获取基准语料和待处理语料;第一消解单元,用于从所述基准语料内识别出第一实体集合,将第一实体集合内实体建立共指关系,得到第二实体集合;或从待处理语料内识别出第三实体集合;构造单元,用于通过所述第三实体集合和第一实体集合构造出训练集、测试集;分类单元,用于对所述训练集和测试集进行分类运算,得出运算结果;第二消解单元,用于按照所述运算结果识别出第三实体集合与第二实体集合之间 的共指关系。优选的,包括所述第一消解单元得到的第二实体集合为实体之间以链式连接,构 成共指链的实体集合。优选的,所述构造单元内包括训练集构造模块,用于对第三实体集合中的任一个实体A,如果识别出实体A和第 一实体集合中实体B具有共指关系,且实体B存在于第二实体集合中的共指链C中,则实体 A和共指链C中的每个实体都构造成正例,和第二实体集合中除共指链C以外的其它共指链 内的实体构造成反例;如果实体B不存在于第二实体集合的任一条共指链中,则那么实体A和实体B构 造成正例,和第二实体集合中共指链内的所有实体构造成反例;测试集构造模块,用于将第三实体集合中的任一个实体与第一实体集合中内的所 有实体构造成各个测试用例。优选的,所述分类单元内包括特征值模块,用于构造特征函数对训练集内的各个正例、反例运算,获得训练集的 特征函数值,对测试集内的各个测试用例运算,获得测试集的特征函数值;分类运算模块,将训练集的特征函数值通过分类方法运算,获得相应的运算模型, 使用所述运算模型对测试集的特征函数值运算,获得运算结果。优选的,第二消解单元包括判别模块,用于当所述运算结果为当前测试用例中第三实体集合内的实体D与第 一实体集合内的实体之间的相似度值时,判别出最大相似度值所对应第一实体集合中的实 体E,判别最大相似度的值是否大于相似度阈值,如果大于,则判断实体E是否在第二实体 集合中的共指链中;指向模块,用于当判别模块判别出实体E在所述第二实体集合中的共指链中,则 从共指链中选择出一个实体作为实体D指向的实体;如果实体E不在所述第二实体集合中 的共指链中,则将实体E作为实体D指向的实体。因为本发明的方法和装置采用了基准语料、待处理语料构造训练集、测试集,并作 为分类方法的输入参数,对待处理语料内的实体,给出更为准确的实体指向,克服了字符存 在不规范、口语化等特点,向用户呈现词语之间的共指关系错误的问题,进而达到了指向准 确、便于用户识别的效果。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1示出了本发明的实施例一的流程图;图2示出了本发明的建立共指链的示意图3示出了为基准语料内的实体建立共指关系的流程图;图4示出了本发明方法实施例的原理图;图5示出了本发明装置实施例的结构图。
具体实施例方式为更好的对字符数据中的实体之间实现实体消解过程,本发明分别从字符数据中 的基准语料、待处理语料内的实体进行构造,并进行运算识别,以获得更好的实体消解。下 面结合附图详细说明本发明的实施例,本发明的实施例包括方法的实施例和装置的实施 例。参见图1,图1是方法实施例一的流程图,该字符数据中实体消解的方法的流程包 括Sll 获取字符数据中的基准语料和待处理语料;S12:从所述基准语料内获得第一实体集合,识别第一实体集合内的共指关系获得 第二实体集合;S13 从所述待处理语料内获得第三实体集合,并通过第三实体集合和第一实体集 合构造出训练集、测试集;S14 采用分类方法对训练集和测试集进行运算;S15:按照运算后的结果识别出第三实体集合与第二实体集合之间的共指关系。为便于区别,本发明所称的第一实体集合为基准语料中识别出的实体,第二实体 集合为第一实体集合建立了共指关系的实体,第三实体集合为待处理语料中识别出的实 体。实施例一阐述了本发明方法的流程,下面通过实施例二中对选定的新闻字符数据 为例说明本发明的实体消解过程,在新闻字符数据中,通常需要对新闻评论内的实体指代 关系进行消解,但由于评论的字符存在不规范、口语化等特点,向用户呈现词语之间的共指 关系时,容易出现错误、或遗漏,因此,需要先构造训练集、测试集,可先对新闻数据进行区 分,按照标签等类似标识分别获得新闻正文和新闻评论,将新闻正文作为基准语料,将新闻 评论作为待处理语料。先获得新闻正文、新闻评论内的第一实体集合、第三实体集合,并对新闻正文的第 一实体集合进行实体消解,获得具有共指关系的第二实体集合。对新闻正文的第一实体集合进行实体消解的过程包括1)获得新闻正文中实体之间的相关信息;主要包括实体内容,实体类型,实体长 度,出现位置等信息。2)计算实体之间的相似度;相似度的度量方式可以采用多种形式,可以是有指导 的或者是无指导的。3)将相似度值大于某一特定阈值的实体判定为具有共指关系,具体主要考虑实体 间特征包括词汇特征,语法特征,距离特征等方面。实体之间的相似度计算采用每个特征函 数的简单求和。当实体之间的相似度大于某一设定的阈值时,认为这两个实体具有共指关 系。新闻正文实体消解中用到特征如下表1所示
权利要求
1.一种字符数据中实体消解的方法,其特征在于,包括 获取字符数据中的基准语料和待处理语料;从所述基准语料内获得第一实体集合,将第一实体集合内实体建立共指关系,得到第 二实体集合;从所述待处理语料内获得第三实体集合,并通过所述第三实体集合和第一实体集合构 造出训练集、测试集;采用分类方法对所述训练集和测试集进行运算;按照运算后的结果识别出第三实体集合与第二实体集合之间的共指关系。
2.根据权利要求1所述的方法,其特征在于,所述第二实体集合中的具有共指关系的 实体之间以链式连接,构成共指链。
3.根据权利要求2所述的方法,其特征在于, 所述构造出训练集的过程包括对第三实体集合中的任一个实体A,如果识别出实体A和第一实体集合中实体B具有共 指关系,且实体B存在于第二实体集合中的共指链C中,则实体A和共指链C中的每个实体 都构造成正例,和第二实体集合中除共指链C以外的其它共指链内的实体构造成反例;如果实体B不存在于第二实体集合的任一条共指链中,则那么实体A和实体B构造成 正例,和第二实体集合中共指链内的所有实体构造成反例; 所述构造出测试集的过程包括第三实体集合中的任一个实体与第一实体集合中的所有实体构成各个测试用例。
4.根据权利要求1所述的方法,其特征在于,所述分类方法为决策树、贝叶斯算法、支 持向量机或最大熵模型。
5.根据权利要求3或4所述的方法,其特征在于,所述对训练集、测试集进行运算的过 程包括构造特征函数对训练集内的各个正例、反例运算,获得训练集的特征函数值,对测试集 内的各个测试用例运算,获得测试集的特征函数值;将训练集的特征函数值通过分类方法运算,获得相应的运算模型,使用所述运算模型 对测试集的特征函数值运算,获得运算结果。
6.根据权利要求5所述的方法,其特征在于,所述按照运算后的结果识别的过程包括 所述运算结果为当前测试用例中第三实体集合内的实体D与第一实体集合内的实体E之间的相似度值;如果相似度值大于相似度阈值,则判断实体E是否在第二实体集合中的共指链中,如 果不在,则将实体E作为实体D指向的实体;如果在,则从共指链中选择出一个实体作为实 体D指向的实体。
7.一种字符数据中实体消解的装置,其特征在于,包括 选择单元,用于从字符数据中获取基准语料和待处理语料;第一消解单元,用于从所述基准语料内识别出第一实体集合,将第一实体集合内实体 建立共指关系,得到第二实体集合;或从待处理语料内识别出第三实体集合;构造单元,用于通过所述第三实体集合和第一实体集合构造出训练集、测试集; 分类单元,用于对所述训练集和测试集进行分类运算,得出运算结果;第二消解单元,用于按照所述运算结果识别出第三实体集合与第二实体集合之间的共 指关系。
8.根据权利要求7所述的装置,其特征在于,所述第一消解单元得到的第二实体集合 为实体之间以链式连接、且构成共指链的实体集合。
9.根据权利要求8所述的装置,其特征在于,所述构造单元内包括训练集构造模块,用于对第三实体集合中的任一个实体A,如果识别出实体A和第一实 体集合中实体B具有共指关系,且实体B存在于第二实体集合中的共指链C中,则实体A和 共指链C中的每个实体都构造成正例,和第二实体集合中除共指链C以外的其它共指链内 的实体构造成反例;如果实体B不存在于第二实体集合的任一条共指链中,则那么实体A和 实体B构造成正例,和第二实体集合中共指链内的所有实体构造成反例;测试集构造模块,用于将第三实体集合中的任一个实体与第一实体集合中内的所有实 体构造成各个测试用例。
10.根据权利要求9所述的装置,其特征在于,所述分类单元内包括特征值模块,用于构造特征函数对训练集内的各个正例、反例运算,获得训练集的特征 函数值,对测试集内的各个测试用例运算,获得测试集的特征函数值;分类运算模块,将训练集的特征函数值通过分类方法运算,获得相应的运算模型,使用 所述运算模型对测试集的特征函数值运算,获得运算结果。
11.根据权利要求10所述的装置,其特征在于,所述第二消解单元包括判别模块,用于当所述运算结果为当前测试用例中第三实体集合内的实体D与第一实 体集合内的实体之间的相似度值时,判别出最大相似度值所对应第一实体集合中的实体E, 判别最大相似度的值是否大于相似度阈值,如果大于,则判断实体E是否在第二实体集合 中的共指链中;指向模块,用于当判别模块判别出实体E在所述第二实体集合中的共指链中,则从共 指链中选择出一个实体作为实体D指向的实体;如果实体E不在所述第二实体集合中的共 指链中,则将实体E作为实体D指向的实体。
全文摘要
本发明提供了一种字符数据中实体消解的方法和装置,其中,该方法包括获取字符数据中的基准语料和待处理语料;从基准语料内获得第一实体集合,将第一实体集合内实体建立共指关系,得到第二实体集合;从待处理语料内获得第三实体集合,并通过第三实体集合和第一实体集合构造出训练集、测试集;采用分类方法对训练集和测试集进行运算;按照运算后的结果识别出第三实体集合与第二实体集合之间的共指关系。本发明克服了字符中由于存在不规范、口语化等特点,向用户呈现词语之间的共指关系错误的问题,进而达到了指向准确、便于用户识别的效果。
文档编号G06F17/27GK102110087SQ20091024347
公开日2011年6月29日 申请日期2009年12月24日 优先权日2009年12月24日
发明者万小军, 吴於茜, 宗良, 杨建武, 肖建国 申请人:北京北大方正电子有限公司, 北京大学, 北京方正电子政务信息科技有限公司, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1