一种中文命名实体识别歧义消解方法

文档序号:6565001阅读:508来源:国知局
专利名称:一种中文命名实体识别歧义消解方法
技术领域
本发明属于命名实体抽取领域,特别涉及一种中文命名实体识别歧义消解方法。
背景技术
针对WEB海量的信息,如何快速有效地找到用户解决问题所需要的知识。随着互联网技术的不断发展,互联网已经成为重要的信息源。面对海量的WEB信息,人们仍然面临着知识匮乏的困境。目前绝大多数网页是用HTML编写的,而HTML中的标签仅仅刻画了数据的表达方式,并没有刻画数据的语义信息,这使得计算机很难理解Web上的信息。面对着海量的信息,人们只能通过搜索引擎等工具执行基于关键字的查找,而搜索引擎以网页地址的超链接和网页内容摘要的形式返回各种查询结果。人们通过阅读大量的WEB文档来获取想要的信息,而其中一些网页地址链接根本就不是用户需要的。虽然信息检索技术的出现对解决WEB海量信息获取问题起到了很大的作用,但是仅仅对文本进行关键词检索已经不能满足人们很多的应用需求。因此作为信息检索的一个分支,信息抽取技术得到了学术界的重视。信息抽取的目的是通过自然语言处理等方法将人们可读的非结构化文本转变为机器可读的结构化文本,特别是从各种信息源中抽取到用户感兴趣的实体、事件以及实体之间的关系等。而从信息源中抽取出各种实体的技术称为命名实体识别技术,命名实体识别技术是信息抽取研究的重要内容之一。命名实体是信息的主要载体,所以命名实体识别技术的好坏对信息抽取结果有着重要的影响。从广义上理解,命名实体可以是某个特定领域中的专有知识,电影名称,书名,人名,地名,组织机构名称等专有名词,可以概括为用户想要获取的各种关键信息;从狭义上理解命名实体是指人名,地名,组织机构名称等专有名称。命名实体的识别方法主要包括两大类基于规则的方法和基于统计的方法。基于规则的方法是命名实体识别中最早使用的技术,命名实体识别依赖于知识库和词库。知识库是通过人工而建立的抽取规则库,而词库通常包括常用姓氏、常用组织机构名称的后缀, 常用地名的后缀等。采用这种方法的系统比较多,一般都是针对不同类型的命名实体识别使用不同的规则,但是随着时间的发展,新的实体名称大量涌现,需要人工不断添加规则库。此外,有些规则本身就是有一定的局限的,对于那些比较生僻的地名和人名还是无法进行正确识别的。相对基于规则的抽取技术,基于统计的方法利用完全或部分标注的语料进行训练,语料的标注可以通过半自动的方法完成。因此较小规模的训练可以在短时间以及接受人力代价的情况完成。同时,基于统计方法事先的系统只经过较少的改动就可以移植到新的领域中去,只需要利用新领域的语料重新训练即可。目前广泛应用于命名实体识别的统计方法主要有隐马尔科夫模型(HMM),条件概率模型,最大熵模型(MEMM),条件随机场模型(CRF)等。基于规则的方法需要人工参与,并且具有领域性,难于移植;而基于统计的方法适应性较好,只要少量的人工参与,但是需要大量的训练数据时,需要花费大量的时间和存储空间。所以比较理想的解决方法是结合两种方法的优点,用于命名实体识别,这种方法是基于混合的命名实体识别方法,目前也得到了广泛的应用。

发明内容
本发明提供了一种中文命名实体识别歧义消解方法。本发明采用的技术方案包括以下步骤。(1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数。(2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择 N-BEST最佳标记序列,也就是选出观测序列χ的N个概率最大的标记序列。(3)通过对这N个标记序列的比对,找出其中标记不一致的部分,并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同,导致标记结果出现不一致,转步骤4。如果一致,则不用进行歧义消解,直接得到最终的标记序列。(4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列^,采用基于改进的贪婪算法进行歧义消解。得到最终的标记序列。对于步骤1,其实现过程为(1)考虑一组最新提供的特征,包括原子特征和组合特征。(2)只选择那些将会大大提高似然概率的候选特征,提高似然概率值不低于设定的阈值(threshold)。(3)训练特征的权重。(4)重复执行步骤(1)-03)直到选完所有的特征。步骤( 在进行Viterbi算法选择最佳标记序列之前,考虑了新加入特征的效果, 从而定义新的概率模型,新的模型中加入了新的特征函数g和新的权重μ,这样概率模型就变为
权利要求
1.一种中文命名实体识别歧义消解方法,其特征是该方法包括以下步骤(1)通过特征归纳的CRF算法选取有意义的特征来减少特征个数;(2)采用修正的Viterbi算法来从基于特征归纳的CRF算法学习结果中选择N-BEST最佳标记序列,也就是选出观测序列χ的N个概率最大的标记序列;(3)通过对这N个标记序列的比对,找出其中标记不一致的部分,并认为这部分之所以出现歧义切分是因为对实体边界及其类型界定的不同,导致标记结果出现不一致,转步骤 4 ;如果一致,则不用进行歧义消解,直接得到最终的标记序列;(4)从N个最佳候选序列中找出不一致部分并找出其对应的观测子序列^cs,采用基于改进的贪婪算法进行歧义消解,得到最终的标记序列。
2.按照权利要求书1所述的中文命名实体识别歧义消解方法,其特征在于步骤(1)实现过程为(1)考虑一组最新提供的特征,包括原子特征和组合特征;(2)只选择那些将会大大提高似然概率的候选特征,提高似然概率值不低于设定的阈值(threshold);(3)训练特征的权重;(4)重复执行步骤(1)-(3)直到选完所有的特征。
3.按照权利要求书1所述的中文命名实体识别歧义消解方法,其特征在于步骤(2)在进行Viterbi算法选择最佳标记序列之前,考虑了新加入特征的效果,从而定义新的概率模型,新的模型中加入了新的特征函数g和新的权重μ,这样概率模型就变为
4.按照权利要求书1所述的中文命名实体识别歧义消解方法,其特征在于步骤(4)基本原理是通过构建赋权无环有向图G,然后求解权重最大的路径,其具体实现具体步骤如下(1)将不一致观测子序列Xs中字的个数记为Ls,则G的顶点的个数为Ls+1,一个个单字Ci的有序组合成构成G的边{Eu},其中1彡i彡Ls,2彡j彡Ls+1,边Eij表示字序列Ci. . . Cjm 组成的词,也就是Eu实际上是一个词,词长为Lw = j-i,若i = j-Ι则表示字Ci单独成词,由G的定义可知,G中有向边的个数为(4+ 4 ;(2)为每个词构成的边Eij赋权值Wij,其中Wij和词Eij的出现频率相关,显然可知词Eu 的词长越长,其在文本中出现的频率就会不大于比它词长更短的词,也就是短词出现的频率一定会大于等于包含该词的长词的词频,所以我们认为词长影响着词的权重Wu,设词Eij 在测试数据中出现的频率为Fu,那么词的权重Eu为Wlj =FijLmw其中m表示词长的扩大级数;(3)采用贪婪算法求出G中最长的权重路径P*,路径Pk中词边所组成的字序列必须和 Xs完全一样,建立的模型为P" = max Pk(4)组成路径P*中的边是Xs的最终切分结果,把这个切分结果和标注一致的部分进行整合,就得到观测序列χ最终的切分结果。
全文摘要
一种中文命名实体识别歧义消解方法,属于命名实体抽取领域,该方法包括以下步骤(1)首先本发明采用特征归纳法来减少特征个数,即通过训练学习让其分类器自动去选择有意义的特征。(2)在选取特征后,通过Viterbi算法从CRF模型学习中选择N-BEST最佳标记序列,也就是选出观测序列的N个概率最大的标记序列。(3)考虑中文命名实体出现的频率及其词长,该方法采用改进的贪婪算法进行歧义消解,从而得到实体标记序列。
文档编号G06F17/30GK102314507SQ20111026545
公开日2012年1月11日 申请日期2011年9月8日 优先权日2011年9月8日
发明者于珊, 施慧斌, 潘守慧, 王思远, 王理, 邓卫国 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1