一种基于协同训练的双语命名实体识别方法

文档序号:6520106阅读:389来源:国知局
一种基于协同训练的双语命名实体识别方法
【专利摘要】本发明公开了一种基于双语协同训练的命名实体的识别方法,属于计算机科学中的自然语言处理【技术领域】。把平行的汉语句子和英语句子这两个数据集看作为一个数据集的两个不同的视图进行双语协同训练。在投射过程中使用一个对数线性模型修正投射标记,在利用模型对未见示例进行预测时引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标。本方法对比现有技术,降低了命名实体识别的领域依赖性,融合了双语识别的优势,解决了单语识别中的部分识别歧义问题,尤其适合用于大规模语料的双语命名实体同步识别。
【专利说明】—种基于协同训练的双语命名实体识别方法
【技术领域】
[0001]本发明涉及一种双语命名实体的识别方法,尤其适用于作为机器翻译的前期处理,对大规模跨领域的双语语料进行命名实体的识别,属于计算机科学中的自然语言处理(NLP)【技术领域】。
【背景技术】
[0002]命名实体是唯一个体的专有名称。命名实体识别是自然语言处理领域中的一个重要基础技术难题,已经成为跨语言信息检索以及机器翻译等多语言信息处理领域的技术瓶颈之一。
[0003]目前,研究人员已经开发了很多模型用于命名实体识别。其中,由于基于规则的方法不利于在不同种类语言之间推广,近些年来,基于统计的方法受到了广泛关注。在统计方法中,有监督学习方法在命名实体识别任务中有良好的表现,但是它有两个不足之处:其一,该方法需要大量的已标注数据保证学习的准确性,因此不适于那些资源相对贫乏的语言;其二,当已有的标注数据与待判定的数据不属于同一个领域时,有监督学习方法的性能会明显下降。而无监督的方法性能则不尽人意。改进这些不足的方法就是结合少量标注语料和大量的未标注语料,采用基于半监督学习的协同训练方法。

【发明内容】

[0004]本发明的目的是为了克服现有技术在解决大规模跨领域语料中双语命名实体识别中的不足,提出一种基于协同训练的双语命名实体识别方法。
[0005]本发明所采用的技术方案是:将平行的汉英双语句子这两个数据集,看作一个数据集的两个不同的视图进行双语协同训练。在汉英两端,分别在少量的标注数据上进行初始标注模型训练,产生两个初始序列标注模型。利用训练好的初始序列标注模型对跨领域的小部分未标注语料进行命名实体标注,然后把标注结果投射到对应的另一语言端。在投射过程中使用一个对数线性模型,融合单语句法特征和双语对齐特征对投射标记进行修正,从而降低标记示例错误标注的可能性,减少另外一个序列标注模型的噪音引入,进而提高协同训练的质量。在利用序列标注模型对未见示例进行预测时,引入命名实体双语对齐标注一致率作为标记置信度估计的衡量指标,隐式估计标记置信度,把在未标注样本中双语对齐标注一致率最高的标注集合作为另一端的增量标注,由此摆脱了对小样本标记数据的依赖,提高了算法的泛化能力,从而提高命名实体的跨领域识别能力。
[0006]为使命名实体双语协同识别任务顺利进行,本方法将采用三个步骤,分别是:标注模型初始化、双语协同训练、双语命名实体标注。如图1所示,具体实现过程如下:
[0007]步骤一、初始化序列标注模型,在汉英句子级别对齐的若干已标注语料集合上分别训练初始序列标注模型。其中,序列标注模型可以选用条件随机场(CRF)、最大熵等。
[0008]步骤二、如图2所示,从汉英句子级别对齐的未标注语料集合中抽取若干对齐的
句子,利用序列标注模型对双语句子分别标注,形成(&,&);计算双语标注一致率,初始化标注语料增量集合为空。
[0009]所述双语标注一致率是指在少量的双语未标注语料上,用序列标注模型标注后的对齐字词的标注一致比例。
[0010]所述标注语料增量集合是指在完成一次协同训练时,作为标注语料添加到另一个模型的自动标注语料。
[0011]具体的,随机从中抽取10%的句对,形成(心,厶),依据词对齐从^到it
进行标注投射。首先对从源语言到目标语言的命名实体投射区域进行扩展,使之容纳更多的目标语言命名实体假设。然后融合目标语言命名实体的单语特征和双语命名实体的对齐特征,建立一个对数线性模型对投射结果进行修正。修正后的结果作为标注语料增量,重新进行模型训练。训练后的模型再次对(仄,(7/)进行标注,重新计算双语标注一致率,如此循环10次,最后把双语标注一致率最高时对应的标注语料增量作为本次协同训练的源语言端标注语料增量。同样的方法寻找目标语言端的增量标注语料。
[0012]所述命名实体的单语特征是指单语端命名实体的边界组合特征,主要用于保障协同训练中增量标记语料符合命名实体的特征。
[0013]所述双语命名实体的对齐特征是指双语命名实体的一致性,充分利用了双语的识别互补性。
[0014]步骤三、循环执行步骤二,通过在开发集上实验,直至算法收敛。循环结束后,最终产生两个双语序列标注模型,即训练好的双语命名实体识别模型。然后对大规模的跨领域的双语语料进行命名实体的识别,进一步构建命名实体词典;也可以直接对待翻译的单语句子进行命名实体的识别,提高机器翻译的质量。
[0015]有益效果
[0016]本发明通过在命名实体的序列标注模型的训练过程中引入了协同训练的思想,利用双语命名实体识别的互补性和命名实体的可互译性,进行识别模型的协同训练。本方法对比现有技术,能够实现双语命名实体的识别互补,提高在大规模跨领域语料中命名实体的识别正确率和召回率;有效减少命名实体识别对标注语料的领域依赖,使模型具有更强的泛化能力;本发明同时产生双语命名实体识别模型,协同训练的引入使命名实体双语识别一致性提高,有助于进一步命名实体词典的构建。综合上述,本发明尤其适合用于大规模跨领域的语料中双语命名实体的一致识别。
【专利附图】

【附图说明】
[0017]图1为本发明方法的流程示意图;
[0018]图2为本发明方法中协同训练过程的流程示意图。
【具体实施方式】
[0019]下面结合附图对本发明的【具体实施方式】做进一步详细说明。
[0020]一种基于协同训练的双语命名实体识别方法,包括以下步骤:
[0021]步骤一、初始化双语序列标注模型,在汉英句子级别对齐的已标注语料集合Ls、Lt上分别训练汉英序列标注模型:Cmodel (s)和Cmodel (t)。标注语料中共标注了三种命名实体,分别是PER (人名)、LOC (地名)和ORG (组织机构名)。选用了 BIO标注集合,所有字词共有7种标注:B-PER、1-PER、B-L0C、1-L0C、B-0RG、1-ORG和O。汉语选用了单一字特征、单一词特征、2-3个位置的字或者词组合特征;英语选用了词、词性、词首字母大小写特征组合模版。
[0022]步骤二、从汉英句子级别对齐的未标注语料集合Us和Ut中抽取1000个对齐的句子,分别利用序列标注模型Cmodel (s)和Cmodel (t)进行标注,形成仏和?τ汁算双语标
注一致率 conformity_ration,初始化
【权利要求】
1.一种基于协同训练的双语命名实体识别方法,其特征在于包括以下步骤: 步骤一、初始化标注模型;在2000句已标注命名实体的双语语料上,分别训练汉英命名实体初始标注模型; 步骤二、在汉英句子级别对齐的未标注命名实体语料上,利用10倍交叉选择增量标注,进行双语协同训练;具体过程如下: 首先,从汉英句子级别对齐的未标注命名实体语料集合中随机抽取1000个对齐的句子,表示为(GO),利用步骤一得到的标注模型,对双语句子分别进行命名实体标注;计算(L:.s.X./)双语标注一致率,初始化标注语料增量集合为空; 然后,随机从(仏,疥)中抽取10%的句对,形成(厶,--),依据词对齐从到进行标注投射,并对投射命名实体标注区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设;之后,融合目标语言命名实体的单语特征和双语命名实体的对齐特征,对投射结果进行修正,将修正后的结果作为目标语言端标注语料增量石;在
2.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于,计算(仏,历)双语标注一致率的方法如下: 设(?Ζν,?Μ双语标注一致率为,conformity_ration
3.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于所述步骤二中,对投射命名实体标注区域进行扩展的方法如下: 首先对从源语言到目标语言的命名实体投射区域进行扩展,使之容纳更多的目标语言命名实体假设,每个命名实体投射假设与源语言命名实体组成一个双语命名实体假设;Ls中任意一个命名实体表示为ΕΛΤ--,通过词投射得到目标语言端连续的且包含投射中心词的中心词块作为最小候选区域DVTej,把包含所有投射词的投射区域^两端分别向外扩展4个词作为最大候选区域; 在目标语言端,建立一个滑动窗,从最小候选区域出发,不断向句子任意一侧扩充词,直至达到最大候选区域边界为止,从而扩展产生一系列的目标语言端候选命名实体假设;每个目标语言端命名实体假设与组合,形成一个双语命名实体假设,表示为Hk ={ΕΝΤν.ΕΝΤ^)。
4.如权利要求1所述的一种基于协同训练的双语命名实体识别方法,其特征在于所述步骤二中,融合目标语言命名实体的单语特征和双语命名实体的对齐特征,并对投射结果进行修正的方法如下: 通过构造一个对数线性模型,融合目标语言命名实体的句法置信度和双语命名实体的对齐置信度,对所有的双语命名实体假设综合打分; 为确保目标语言端命名实体投射满足命名实体的句法特征,选用左右边界分布概率作为目标语言的命名实体句法置信度;边界分布概率包含左边界二元词性共现频率和右边界二元词性共现频率;左边界二元词性共现频率定义如公式⑵所示:
5.如权利要求4所述的一种基于协同训练的双语命名实体识别方法,其特征在于,所述贪心搜索过程为: 首先,初始化该最优双语命名实体假设集合为空; 然后,根据
【文档编号】G06F17/28GK103853710SQ201310593746
【公开日】2014年6月11日 申请日期:2013年11月21日 优先权日:2013年11月21日
【发明者】黄河燕, 史树敏, 李业刚 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1