一种双语段落对齐算法的制作方法

文档序号：6608195阅读：215来源：国知局

专利名称：一种双语段落对齐算法的制作方法
技术领域：
本发明专利涉及自然语言理解中的英汉双语理解技术。尤其是语段对齐技术
背景技术：
近年来，随着语料库语言学的发展，基于实例的机器翻译(Example-based MT)方法成为机器翻译的新思路之一。EBMT系统事先存储大量语段级对齐的双语句子对，即双语语料库。翻译时，系统仅对被翻译句进行浅层分析，把它切分成语段，然后根据上下文从双语语料库中找出各语段的最佳翻译，再把它们按一定的顺序排列起来，最后生成译句。这种方法避开了传统翻译方法中的诸多难题(如句法分析、词义辨识等)，具有一定的实用性，尤其适用于专业领域文本的翻译。对双语语料库进行语段对齐是基于实例的机器翻译的需求，同时，对齐的双语语段本身也可以作为一种翻译知识独立使用。
双语语段对齐的方法有两类基于评分的方法和基于翻译模型的方法。前者是基于评分函数的，参数需耍人工设定，不能根据真实语料进行训练。1993年IBM公司的提出了基于词的(word-based)统计机器翻译模型。在该模型中提出了隐藏对齐(Hidden-alignment)的思想，认为翻译的过程中隐含了对齐的过程。 Ye-Yi Wang提出了基于结构的(Structure-based)统计翻译模型，把语段看成是翻译的基本单位，并给出了基于统计的解码(decoding)翻译算法。
在专业领域(如本文中的汽车领域)的EBMT应用中，系统可利用的专业领域双语语料库一般是中、小规模的。这使得模型中的概率数据(如任一英语单词翻译为任一汉语词的概率)存有严重的数据稀疏问题。为此，本专利提出了基于锚词对的双语语段对齐模型，使用锚词对增加了语段对齐的准确度，提出并使用"词性语段"概念来平滑概率参数，这样很好地克服了数据稀疏问题。由于系统采用EBMT翻译方法而不是统计解码翻译方法进行翻译，才使得模型可以利用后验的锚词对信息，来提高对齐的准确度。本模型可以用于参数估计和对齐，但由于对齐时使用了锚词对而不能进行统计解码翻译，故不称"翻译模型" 而称"对齐模型"。系统没有把语段的切分和对齐分开进行，而是在语段对齐的同时排除语段切分时产生的歧义，提髙了模型的精确性。

发明内容
在专业领域(如本文中的汽车领域)的EBMT应用中，系统可利用的专业领域双语语料库一般是中、小规模的。这使得模型中的概率数据(如任一英语单词翻译为任一汉语词的概率)存有严重的数据稀疏问题。为此，本专利提出了基于锚词对的双语语段对齐模型，使用锚词对增加了语段对齐的准确度，提出并使用"词性语段"概念来平滑概率参数，这样很好地克服了数据稀疏问题。由于系统采用EBMT翻译方法而不是统计解码翻译方法进行翻译，才使得模型可以利用后验的锚词对信息，来提高对齐的准确度。本模型可以用于参数估计和对齐，但由于对齐时使用了锚词对而不能进行统计解码翻译，故不称"翻译模型" 而称"对齐模型"。系统没有把语段的切分和对齐分开进行，而是在语段对齐的同时排除语段切分时产生的歧义，提高了模型的精确性。
设待翻译的英语句为e =￡^2'''6/，翻译生成的汉语句为e = ^￡2"^"'。基于语段的噪声信道模型由汉语句i输出英语句^随机过程如下
(1)把汉语句切分成语段，并称切分的结果为"汉语语段串"。
设其长度为"，则切分后的汉语语段串可表示为^ = C"'("，其中G = e'i'q2""C"' (1 2 / ^ ")是汉语语段，而q〃是e中的某个词。并设汉语句子5切分为语段串e的概率为Pr(^1^。
(2)根据汉语句e和语段串C，选择英语语段串^的长度(即它所含语段数)。
￡ =五,五,...五,
9 ，其中
(3) 对每个英语语段，选择和它对齐的汉语语段的位置。
设第7'个英语语段和第个汉语语段对齐。本文中，记汉语语段串^为，记英语语段串^的子串 AA…&为￡，，记a一2…^为af 。并设第_/个英语语段和第个汉语语段对齐的概率为
(4) 对每个汉语语段C，选择一个翻译E。设其概率为"Eie)，其中^对于每个C满足归一条件
上面的随机过程基于一个隐藏语段、隐藏对齐(hidden-Alignment)的模型。翻译和对齐的关系包括: 1.翻译隐含对齐；2.最佳翻译对应一个最佳对齐。噪声信道由输入f输出g的概率等于它在所有可能的语段切分和所有可能的对齐的情况下输出？的概率之和，艮口
其中，Pr( ，^，( ，5l5)为汉语句f在切分为语段串匸，语段串(5通过对齐5翻译为E，生成英语句的概率。
假设^的产生只与C、 5有关，而与f无关；？的产生只与^有关，而与其他参数无关。则
Pr(S, S， < ， 5 I f) = Pr( I幻Pr(S， 51 。 Pr(( | f)
由此可得
》(￡|C) = 1
(5)把英语语段串S合并为英语句S ，设其概率为pr(S I，则有:
以下'
都是对所有合法的语段切分路径而言，则有:
Pr(S I = 1
Pr(￡,5|C)
Pr(引Qf][Pr(", I"/—',五广,g力)<formula>formula see original document page 5</formula>上式中"n "右的第一项表示生成新对齐的概率，第二项生成新语段的概率。
假设
(l)Pr(《|e)E￡
为了求满足约束Z"五I C) = 1的Pr( I f)的最大值，建立如下辅助函数
wa)三i *Zn"A i c。,)々]}
五 c
它取得极值的条件为~^~ = 0
其中5是Kronecker delta函数，则有"五| C)=义￡—!艺Z{Pr(。 | f)
x Z Pr(艮5 I亡)J^(五，& W(C, C )}
户i
定义语段￡^1C在翻译5)中的有效共现次数为:
c(￡ I C; , f) = Z Z (Pr(e I f) Pr(51S， OS 。
产i
由Pr(3 I艮< ) = Pr(艮5 I C) / Pr(S | ( )和Pr(f | O也可表示为Z ["^ | C )《],可得:
户l ,=0 ;
其中4 = 4 /P^ , C) ^ i C;e，c) = ;|>(C , c) x 隨!。《}
为了估计^，我们引入了锚词(anchor)对。目前，锚词对尚无统一的定义，因为它往往跟具体的应用密切相关。通常，锚词对是指源语言和目标语言中的一对有较高对译可能的源语言、目标语言词对。锚词对的精确定义因系统而异。在本系统中，词对Oi^，MV >是锚词对当且仅当它们不是冠词或介词、在双语词典中出现而且在对译句中只有一词与之对译。可以借助对齐好的锚词对来确定同一句子中其他词(或语段)之间的对齐。本文中令第乂个英语语段和第A:个汉语语段对齐的概率为
《=Pr(a; = A: |《1,五/-1 ,仏。)=士e 2''"'2
〃 =y。 + (ce /^(/) _ x。)(；^ _ y。) /(Xj — x0) = min(| ce"/er(/) _ x。 |,| t'e她r(/) 一 x， |) ce"妙(j') = (Seg/wP(w(/) +五"i/尸cw(j.)) / 2
其中<x。，y。 >是语段j'左侧离语段y最近(根据(ce"ter(力—x。))的锚词对，而〈jc,，a >是语段/右侧离语段_/最近的锚词对；Seg/"尸cw(力是指语段)中第一个词的位置，而五m/A^C/)则指语段/中最后一个词的位置。
一般地，语言中语段的数目是很大的，远远大丁-语言中词汇的数目。相对于词汇，语段有更低的使用频率，如果直接按(1)式进行训练会因为数据稀疏而导致训练数据不准确。为克服这个问题，本文用构成语段的单词的词性串之间的翻译概率估计语段之间的翻译概率，即对语段￡ = ^A…^和C1 = e。q…c""
设语段中各个单词的词性标记构成的串分别为7 …L和T …f"，并称它们为"词性语段"。
本文认为Pr(EIO^Pr("l,)'
对齐方案的算法
1. 对待对齐的句子进行分词(对汉语)和词性标注；
2. 对双语句子按语段词性串进行"全切分"；
3. 选取概率最大的前20个切分结果；
4. 对双语句子进行锚词对齐；
5. 对每对切分结果，为每个英语语段选择概率最大的对齐；
6. 选出概率最大的对齐。
具体实施例方式
可将对齐方案在计算机上实现，构成最终系统
权利要求
1. 本专利申请中提出的为平滑参数而提出的“词形语段”的概念。
全文摘要
本发明申请以堆双语语料库进行语段级对齐是基于实例的机器翻译(EBMT)的基础，提出了基于锚词对的英汉双语语段对齐模型并给出了相应的对齐算法，解决了中、小规模语料库的数据稀疏问题。系统把语段切分的歧义推迟到语段对齐时排除，提高了语段切分的正确率。
文档编号G06F17/28GK101520776SQ20081003396
公开日2009年9月2日申请日期2008年2月28日优先权日2008年2月28日
发明者建刘申请人:建刘

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘建
技术所有人：刘建
我是此专利的发明人

上一篇：基于模型简化和多分辨率表示的虚拟商务场景优化方法
上一篇：用于动态二进制翻译的调试方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。