基于存储器的统计翻译系统的制作方法

文档序号:6423353阅读:232来源:国知局
专利名称:基于存储器的统计翻译系统的制作方法
相关申请参照本申请要求于2001年5月17日提交的美国临时专利申请第60/291,853号以及于2001年5月11日提交的美国专利申请第09/854,327号的优先权并将其内容纳入本申请。
发明起因本申请中描述的研究和开发工作得到DARPA-ITO的支持,代码N66001-00-1-9814。美国政府享有本发明所要求的部分权利。
背景技术
机器翻译(MT)涉及将自然语言句子从第一语言(例如,法语)自动翻译成另一种语言(例如,英语)。实施MT技术的系统称为将源语言“译码”成目标语言。
将法语句子翻译成英语的统计MT系统包括3个部分将概率P(e)分配给每个英语串的语言模型(LM);将概率P(f|e)分配给每对英语和法语串的翻译模型(TM);以及译码器。该译码器可以获得之前未见过的句子f并尝试找到使P(e|f)最大化或等效地使P(e).P(f|e)最大化的e。
发明概述统计机器翻译(MT)系统可以包括翻译存储器(TMEM)和译码器。TMEM可以是从人们制造的语料库(corpus)或TMEM产生的统计TMEM。译码器可以使用如贪心译码算法之类的统计MT译码算法翻译输入的文本片段。
该系统可以从TMEM中的文本片段生成输入的文本片段的覆盖(cover)。译码器可以将该覆盖用作译码操作中的初始翻译。
附图概述

图1是统计机器翻译系统的框图。
图2示出随机单词对准操作的结果。
图3是描述揭示如何将源串映射到目标串的随机过程的流程图。
图4是描述使用TMEM和统计翻译模型两者的贪心译码过程的流程图。
具体实施例方式
图1示出根据一实施例的使用翻译存储器(TMEM)的统计机器翻译(MT)系统。MT系统100可以用来从源语言(例如,法语)翻译成目标语言(例如,英语)。MT系统100可以包括语言模型102、翻译模型105、TMEM110和译码器115。
MT系统100可以以源-通道模型为基础。语言模型(源)提供先验(priori)的概率分布P(e),示出哪个英语文本串更合适,例如哪个是语法上正确的而哪个不是。语言模型102可以是由大量的自然生成的整体语料库(例如,英语)所训练的n-gram模型来确定单词顺序的概率。
可以用翻译模型105来确定翻译正确性的概率。例如,翻译模型可以是美国专利No.5,477,451中描述的IBM翻译模型4。IBM翻译模型4的中心概念是一对句子的单词对准,如图2所示的那样。单词对准给每个法语单词分配单个原位(home)(英语串位置)。如果两个法语单词对准同一英语单词,那么就认为该英语单词丰富度(fertility)为2。同样地,如果一个英语单词没有对准,则其丰富度为0。如果一单词具有超过1的丰富度,则将它称作很丰富。
图2所示的单词对准是用于假想随机过程的简略表示,由此英语串200转换成法语串205。图3是流程图,在高层次上描述了这种随机过程300。首先给串中的每个英语单词分配一丰富度(框305)。这种分配可以根据表n(φ|ei)随机进行。将丰富度为0的所有单词从串中删除,将丰富度为2的所有单词复制,等等。在新的串中每个英语单词之后,增加具有概率p1(通常约0.02)的无形英语NULL元素的丰富度(框310)。该NULL元素可能最终产生“虚(spurious)”法语单词。根据表t(fj|ei),由法语单词进行英语单词(包括NULL)的词对词的替换(框315)。最后,将法语单词变序(框320)。在变序时,IBM翻译模型4对法语的首字(从特定英语单词所生成的最左边的法语单词)、非首字(非最左边,仅由很丰富的英语单词生成)以及NULL生成的法语单词加以区别。
根据分配给其前面的英语单词的位置给一个英语单词的首字分配一法语串的位置。如果某英语单词Ee-1翻译成法语位置j处的某词,则ei的法语首字单词首字以失真(distortion)概率d1(k-j|class(ei-1),class(fk))被随机地置于法语位置k,其中“class”称作法语和英语词汇表条目的自动确定单词的类。该相对偏差k-j促使相邻的英语单词翻译成相邻的法语单词。如果ei-1是不丰富的,则从ei-2得到j,等等。如果ei-1很丰富,则j是其法语翻译的位置的平均。
根据另一个表d>1(k-j|class(fk)),如果英语单词ei的首字置于法语位置j,则其第一个非首字置于法语位置k(>j)。下一个非首字置于位置q处,其中概率是d>1(q-k|class(fq)),等等。
在放置了首字和非首字之后,将NULL产生的单词随机变序进入剩余的空隙中。如果有φ0个NULL产生的单词,则以概率1/φ0!选择任一放置方案。
这些随机决定,以e开始,产生不同的f选择和f与e的对准。值e以一定概率映射(map)到特定的<a,f>对P(a,f|e)=]]>Πi=1ln(φi|ei)xΠi=1lΠk=1φit(τik|ei)x]]>Πi=1,φi>0ld1(πi1-cp1|class(ep1),class(τi1))x]]>Πi=1lΠk=2φid>1(πik-πi(k-1)|class(τik))x]]>(m-φ0φ0)p1φ0(1-p1)m-2φ0x]]>Πk=1φ0t(τ0k|NULL)]]>其中,由“x”符号隔开的系数分别表示丰富度,翻译,首字排列,非首字排列,null-丰富度和null-翻译概率。该公式中的符号是l(e的长度),m(f的长度),ei(e中的第i个英语单词),e0(NULL单词),φi(ei的丰富度),φ0(NULL单词的丰富度,τik(由a中的ei产生的第k个法语单词),πik(f中τik的位置),ρi(a中ei左边的第一个丰富的单词的位置),Cρi(对于ρi的所有πρik的平均值上限,或如果ρi未定义则是0)。
TMEM110可以是含人造翻译对的预编译TMEM。例如,对于法语/英语MT,可以使用诸如议会议事录文集(Hansard Corpus)的TMEM或它的一部分。议会议事录文集包括从加拿大议会记录的官方记录获取的英语和加拿大法语的平行文本。议会议事录文集表现为IBM制作的版本中的句子序列。IBM文集中包括将近2870000个平行的句子对。
可供选择地,TMEM可以是统计TMEM。可以用训练文集,例如议会议事录文集或其一部分训练翻译模型来生成统计TMEM,然后提取每个句子的维特比(Viterbi)(最可能单词等级)对准,即概率最高的对准,来提取<ei,ei+1,...,ei+k;fj,fj+1,...,fj+1;aj,aj+1,...,aj+1>形式的元组,其中ei,ei+1,...,ei+k表示邻近的英语短语,fj,fj+1,...,fj+1表示邻近的法语短语,aj,aj+1,...,aj+1表示这两个短语之间的维特比对准。在使用不同的翻译模型时,TMEM可以包含除相邻的法语/英语短语之外而为所使用的翻译模型特有的相邻信息。
可以根据特定的标准选择元组。该元组可以限制为“相邻的”对准,即其中英语短语中的单词仅产生法语短语中的单词而法语短语中的每个单词可以由NULL单词或英语短语的单词产生。元组可以限于那些含至少两个单词的英语和法语短语中的。元组可以限于那些在数据中最常出现的。
在法语短语和多个英语翻译成对的情况中,可以为每个法语短语选择一个可能的同等英语翻译。可以通过将每个法语短语和所摘录的短语集中最常出现的英语对应词相关联来创建基于词频的翻译存储器(FTMEM)。可以通过将每个法语短语和对应于最高概率的对准的英语对应词相关联来创建基于概率的翻译存储器(PTMEM)。
译码器115可以使用贪心译码操作400(如图4所示的流程图所描述)来产生输出的句子。贪心译码方法可以以随机、近似的解决方案开始,随后尝试将其渐近改善直到获得满意的解决结果。
译码器115可以接收要翻译的输入句子(框405)。虽然在该实例中,被翻译的文本片段是句子,但实际上可以使用任何其它的文本片段,例如子句、段落或整篇文章。
译码器115可以使用来自TMEM的短语产生输入句子的“覆盖(cover)”(框410)。该导出过程尝试用TMEM110的翻译对来尽可能多地覆盖输入句子,利用最长的TMEM短语。输入中那些不属于TMEM110所摘录的任何短语中一部分的单词可以被“注释(glossed)”,即用基本上词对词翻译代替。例如,在翻译法语句子“Bienentendu,il parle de une belle victoire.”时,该方法可以从短语“well,heis talking a beautiful victory”开始翻译进程,如果TMEM包含<well,;bienentendu,>和<he is talking;il parle>的对但没有配对的法语短语″bellvictoire″。
如果发现输入句子“原封不动地”在TMEM110中,则简单地返回其翻译且不再进一步处理(框415)。否则处理继续,且译码器115根据由语言模型和翻译模型分配的概率来估计当前翻译的正确性概率,P(c)(框420)。在产生初始对准之后,译码器115尝试改善该对准(框425)。即,译码器尝试通过应用一个或多个句子修改操作符找到更高概率的对准(隐含的翻译),如下所述。使用以下描述的单词级对准和特殊操作符是特为本实施例选定的。但是,使用不同统计模型的可供选择的实施例可以从不同的或额外的操作中受益。
以下的操作符集体组成了译码器的翻译引擎,且包括以下
translateOneOrTwoWords(j1,e1,j2,e2)该操作改变一个或两个法语单词的翻译,它们处于位置j1和j2,从efj1和efj2变成e1和e2。如果efj是丰富度为1的单词而ek是NULL,则将efj从翻译中删除。如果efj是NULL单词,将单词ek插入翻译的某一位置处使之产生最高概率的对准。如果efj1=e1或efj2=e2,则该操作等于改变了单个单词的翻译。
translateAndInsert(j,e1,e2)该操作把处于位置j的法语单词的翻译从efj变成e1同时将单词e2插入该位置产生最高概率的对准。从自动导出的1024个单词列表中选择单词e2,其中的1024个单词具有丰富度为0的高概率。当efi=e1时,该操作等同于将丰富度为0的单词插入对准中。
removeWordOfFertiltiyO(i)该操作在当前对准中删除位置i处丰富度0的单词。
swapSegments(i1,i2,j1,j2)该操作通过交换非重叠的英语单词片段[i1,i2]和[j1,j2]从旧的对准产生新的对准。在交换操作期间,保留英语和法语单词之间所有现有的链接。该片段可以是小到一个单词或长至|e|-1个单词,其中|e|是英语句子的长度。
joinWords(i1,i2)该操作从对准中消除位置i1(或i2)处的英语单词并将由ei1(或ei2)产生的法语单词链接到ei2(或ei1)。
译码器115可以对句子修改操作的每个结果估计正确性概率,P(M1)...P(Mn),即确定对每个新结果的翻译的概率(框430)。通过比较其各自正确性概率,译码器115可以确定新的翻译是否比当前的翻译更好(框435)。如果任一新的翻译代表了比当前翻译更好的结果,则可以将最好的新翻译(即具有最高正确性概率的翻译结果)设定为当前翻译(框440)且译码过程回到框425以便对新的当前翻译结果进行一个或多个句子修改操作。
可以重复该过程直到句子修改操作不再(图框435中所确定的)产生具有更高正确性概率的翻译结果,在这一点上,译码过程停止且将当前翻译输出为最终的译码结果(框445)。可供选择地,在由例如终端用户人为设定或由使用译码器115作为翻译引擎的应用程序选择的预定次数的迭代之后译码器115可以停止。
因此,以逐步的方式,从初始覆盖句子开始,译码器115可以使用过程循环(框425-440)来穷渴迭代所有对准,这些对准距离考虑中的对准差一个操作。译码器选择最高概率的对准,直到当前对准的概率不能再改善了。
在进行句子修改(框425)时,根据系统设计者和/或终端用户的偏好,可以使用所有5种句子修改操作中的任一个或可以使用其子集而排除其它的。例如,译码器中最耗时的操作可能是swapSegments、translateOneOrTwoWords和translateAndInsert。SwapSegments在可能在长度|e|的顺序上构建的所有可能的非重叠跨距的对上进行迭代。translateOneOrTwoWords在|f|2×|t|2对准上进行迭代,其中|f|是法语句子的长度而|t|是和每个单词相关的翻译的数量(在该实施中,该数量限于头10个翻译)。translateAndInsert在|f|×|t|×|z|对准上进行迭代,其中|z|是丰富度为0的概率高的单词列表的长度(在该实施中是1024个单词)。因此,可以指定译码器省去一个或多个这种较慢的操作以加速译码过程,但其可能的代价是精确度。可供选择地,或除此以外,根据系统设计者和/或终端用户的目的,可以设计译码器使用不同或额外的句子修改操作。
使用覆盖句子可能会比输入句子的一个单词一个单词的注释产生的结果好些,因为覆盖句子可以偏置该译码器来在可能产生高概率翻译的子空间(subspace)中查找,否则就会不去探查这些子空间。TMEM的强势之一是其编码语境(contextual)的、长距离的依赖属性,该属性与使用语境弱、简化法通道模式的统计MT系统通过训练得到的参数不协调。
译码器115使用来自TMEM110的短语有可能产生极佳的翻译,但是,也可能由于从注释(或TMEM110)得到的更高概率的不正确翻译而舍弃该极佳翻译。译码器115可以使用可供选择的排列技术,使得译码器在某些情况中优选基于TMEM的翻译,尽管根据概率通道模式该翻译不是最佳翻译。
已经描述了大量实施例。然而,可以理解,可以不背离本发明的精神和范围进行各种修改。例如,流程图中的框可以跳过或不按次序地进行但仍产生所需的结果。因此,其它的实施例也在所附权利要求书的范围之内。
权利要求
1.一种方法,其特征在于,包括接收以源语言输入的文本片段;以及利用统计译码算法和翻译存储器中的文本串将所述输入文本片段翻译成目标语言的译后文本片段。
2.如权利要求1所述的方法,其特征在于,还包括从所述翻译存储器的一个或多个文本片段中生成所述输入文本片段的覆盖短语。
3.如权利要求1所述的方法,其特征在于,还包括使用所述覆盖作为用于所述统计译码算法的初始翻译。
4.如权利要求1所述的方法,其特征在于,所述翻译包括使翻译存储器中的第一文本片段和至少部分所述输入文本片段匹配;用对应于所述第一文本片段的所述翻译存储器中目标语言的文本片段代替所述至少部分输入文本片段;生成所述输入文本片段的初始目标语言翻译;以及通过对所述初始翻译进行统计机器翻译译码操作来生成目标语言翻译。
5.如权利要求4所述的方法,其特征在于,所述生成所述目标语言翻译包括用词对词的翻译代替所述至少部分输入文本片段之外的一个或多个单词。
6.如权利要求1所述的方法,其特征在于,所述翻译存储器包括统计翻译存储器。
7.如权利要求1所述的方法,其特征在于,当整个输入文本句子和所述翻译存储器中的文本片段匹配时,进一步返回最终的目标语言翻译。
8.如权利要求4所述的方法,其特征在于,所述进行所述统计机器翻译译码操作包括对所述当前的目标语言翻译执行一次或多次句子修改操作以便生成一个或多个被修改的目标语言翻译,所述当前的目标语言翻译包括第一个阶段中的所述初始目标语言翻译;确定与所述当前目标语言翻译相比,一个或多个所述被修改的目标语言翻译是否表示已改进的翻译;将被修改的目标语言翻译设定为当前目标语言翻译;以及重复所述执行、所述确定和所述设定直到终止条件出现。
9.如权利要求8所述的方法,其特征在于,所述执行一个或多个句子修改操作包括在所述当前目标语言翻译中改变一个或两个单词的翻译。
10.如权利要求8所述的方法,其特征在于,所述执行一个或多个句子修改操作包括所述当前目标语言翻译中改变一个单词的翻译并同时将另一个单词插入在所述源语言文本片段和所述当前目标语言翻译之间生成最高概率的对准的位置,所述被插入的另一个单词具有0值丰富度的高概率。
11.如权利要求8所述的方法,其特征在于,所述执行一个或多个句子修改操作包括从所述当前目标语言翻译中删除具有0值丰富度的单词。
12.如权利要求8所述的方法,其特征在于,所述执行一个或多个句子修改操作包括通过在所述当前目标语言翻译中交换非重叠的目标语言单词片段来修改所述源语言文本片段与所述当前目标语言翻译之间的对准。
13.如权利要求8所述的方法,其特征在于,所述执行一个或多个句子修改操作包括通过从所述当前目标语言翻译中去除目标语言单词并链接所述源语言文本片段中的单词来修改所述源语言文本片段和所述当前目标语言翻译之间的对准。
14.如权利要求8所述的方法,其特征在于,所述终止条件包括确定被修改的目标语言翻译的正确概率不超过当前目标语言翻译的正确概率。
15.如权利要求8所述的方法,其特征在于,所述终止条件包括完成预定数量的迭代。
16.如权利要求8所述的方法,其特征在于,所述终止条件包括预定量的时间推移。
17.一种装置,其特征在于,包括翻译存储器,它包括多个翻译对,每个翻译对包括源语言的文本片段和对应的目标语言的文本片段;以及译码器,它从所述翻译存储器中的一个或多个文本片段生成所述源语言的输入文本片段的覆盖,并用统计译码算法从所述覆盖生成所述目标语言的翻译。
18.如权利要求17所述的装置,其特征在于,所述翻译存储器包括统计翻译存储器。
19.如权利要求17所述的装置,其特征在于所述统计译码算法包括贪心译码算法。
20.如权利要求17所述的装置,其特征在于,所述生成覆盖包括用对应于所述第一文本片段的所述翻译存储器内目标语言的文本片段代替至少部分所述输入文本片段,以及用注释代替所述至少部分输入文本片段之外的一个或多个单词。
21.如权利要求17所述的装置,其特征在于,所述统计译码算法包括对所述当前目标语言翻译执行一个或多个句子修改操作来生成一个或多个被修改的目标语言翻译,所述当前的目标语言翻译包括第一阶段中的所述初始目标语言翻译;确定与所述当前的目标语言翻译相比,该一个或多个所述被修改的目标语言翻译是否表示已改进的翻译;将修改的目标语言翻译设定为当前目标语言翻译;以及重复所述执行、所述确定和所述设定直到终止条件出现。
22.如权利要求21所述的装置,其特征在于,所述终止条件包括确定被修改的目标语言翻译的正确概率不超过所述当前目标语言翻译的正确概率。
23.如权利要求21所述的装置,其特征在于,所述终止条件包括完成预定数量的迭代。
24.如权利要求21所述的装置,其特征在于,所述终止条件包括预定量的时间推移。
25.一种制品包括机器可读的介质,它包含机器可执行指令,所述指令可使机器接收以源语言输入的文本片段;以及用统计译码算法及翻译存储器中的文本串将所述输入文本片段翻译成目标语言的译后文本片段。
26.如权利要求25所述的制品,其特征在于,还包括指令,它可使所述机器从所述翻译存储器中的一个或多个文本片段生成用于所述输入文本片段的覆盖短语。
27.如权利要求26所述的制品,其特征在于,还包括指令,它可使所述机器将所述覆盖短语作为初始翻译用于所述统计译码算法。
28.如权利要求25所述的制品,其特征在于,可使所述机器进行翻译的所述指令包括某些指令,这些指令可使所述机器用翻译存储器中的第一文本片段匹配至少部分所述输入句子;用对应于所述第一文本片段的所述翻译存储器中目标语言的文本片段代替所述至少部分输入文本片段;生成所述输入文本片段的初始目标语言翻译;以及通过对所述初始翻译进行统计机器翻译译码操作来生成目标语言翻译。
29.如权利要求28所述的制品,其特征在于,用于生成所述初始目标语言翻译的所述指令包括可使所述机器用词对词的翻译替代所述至少部分输入文本片段之外的一个或多个单词的指令。
30.如权利要求25所述的制品,其特征在于,所述翻译存储器包括统计翻译存储器。
31.如权利要求25所述的制品,其特征在于,还包括指令,它可使所述机器在所述整个输入文本句子与所述翻译存储器中的文本片段匹配时,返回最终的目标语言翻译。
32.如权利要求25所述的制品,其特征在于,用于进行所述统计机器翻译译码操作的所述指令包括这样一些指令,它们可使所述机器对所述当前的目标语言翻译执行一个或多个句子修改操作以便生成一个或多个被修改的目标语言翻译,所述当前的目标语言翻译包括第一阶段中的所述初始目标语言翻译;确定与所述当前的目标语言翻译相比,该一个或多个所述被修改的目标语言翻译是否表示已改进的翻译;将被修改的目标语言翻译设定成当前的目标语言翻译;以及重复所述执行、所述确定和所述设定直到终止条件出现。
33.如权利要求32所述的制品,其特征在于,用于执行一个或多个句子修改操作的所述指令包括使所述机器在所述当前的目标语言翻译中改变一个或两个单词的翻译的指令。
34.如权利要求32所述的制品,其特征在于,用于执行一个或多个句子修改操作的所述指令包括这样的指令,该指令可使所述机器改变所述当前目标语言翻译中一单词的翻译并同时在产生所述源语言文本片段和所述当前目标语言翻译之间最高概率的对准的位置处插入另一单词,所述被插入的其它单词具有0值丰富度的高概率。
35.如权利要求32所述的制品,其特征在于,用于执行一个或多个句子修改操作的所述指令包括这样的指令,该指令可使所述机器从所述当前目标语言翻译中删除具有0值丰富度的单词。
36.如权利要求32所述的制品,其特征在于,用于执行一个或多个句子修改操作的所述指令包括这样的指令,该指令可使所述机器通过在所述当前的目标语言翻译中交换非重叠的目标语言单词片段来调整所述源语言文本片段和所述当前的目标语言翻译之间的对准。
37.如权利要求32所述的制品,其特征在于,用于执行一个或多个句子修改操作的所述指令包括这样的指令,该指令使所述机器通过从所述当前的目标语言翻译中除去目标语言单词并链接所述源语言文本片段中的单词来调整所述源语言文本片段和所述当前目标语言翻译之间的对准。
38.如权利要求32所述的制品,其特征在于,所述终止条件包括确定修改后的目标语言翻译的正确概率不超过当前的目标语言翻译的正确概率。
39.如权利要求32所述的制品,其特征在于,所述终止条件包括完成预定次数的迭代。
40.如权利要求32所述的制品,其特征在于,所述终止条件包括预定量的时间推移。
全文摘要
一种统计机器翻译(MT)(100)系统包括翻译存储器(TMEM)(110)和译码器(115)。译码器(115)可以使用例如贪心译码算法的统计MT译码算法翻译输入的文本片段(102)。该系统可以从TMEM(110)的文本片段中生成输入的文本片段的覆盖。译码器(115)可以将该覆盖用作译码操作中的初始翻译。
文档编号G06F17/28GK1518707SQ02812545
公开日2004年8月4日 申请日期2002年5月13日 优先权日2001年5月11日
发明者D·马蔟, D 马蔟 申请人:南加利福尼亚大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1