用于训练机器翻译机的系统和方法

文档序号:6578629阅读:196来源:国知局
专利名称:用于训练机器翻译机的系统和方法
技术领域
本发明涉及学习单词间的关系。更明确地,本发明涉及使用双语文本训练机器翻译机的方法。
背景技术
机器翻译是利用计算机软件和组件将文本从一种语言诸如德语、法语或曰语,翻译成第二语言,诸如英语、西班牙语或阿拉伯语的过程。机器翻译决不是直接的过程。机器翻译不只是简单地将一个单词替换另一个,而是基于了解组成给定文本的所有单词以及文本中的一个单词如何影响文本中的其它单词。但是,人类语言是复杂的,并包括若干特征,诸如词法、语法或句子结构、语义学、歧义性或不规则性。为了在两种语言之间翻译,机器翻译机必须考虑每种语言的语法结构。而且,必须使用规则和假设来将第一语言的语法结构(源)转换成第二语言(目标)。
然而,己知语言中所涉及的复杂性,机器翻译机趋向只有30%到65%之间的准确度。许多短语和口语用词不容易翻译。在不应翻译时作了翻译地名、人名和科学用语等的尝试。可始终应用为某些语法特性进行硬编码(hard-code)的
规则,即使存在这些规则的许多例外,因为为所有例外编写代码将是长期的任务,会导致缓慢的翻译过程。因此由当前机器翻译技术翻译的文档对于用户可能是可理解的,或者甚至可能是不可理解的;更糟的是,文档的一些重要元素可能被错误翻译。
机器翻译机只是和用于训练系统的训练数据一样好。机器翻译机通常通过使用人类创作的翻译来训练。通过识别各种相关词对的训练结构供给这些翻译。这些词对常常是文本中一些词的翻译,但有时这些词不是相关单词的准确翻译。其它机器翻译机使用来自双语字典的数据来训练。但是,从这些类型的翻译来训练不总是训练机器翻译机的最佳方式,因为这些翻译可能导致翻译机在给定环境中选择错误的单词。
使用人类创作的翻译来训练机器翻译机的一个问题是翻译常常不是单词真正意义上的翻译,而更象文本的解释。例如,在加拿大,议会辩论记录文件提供了人类创作翻译数据的现成原始资料,可用来训练机器翻译机。但是,这些翻译常常不是真正的翻译。因此它们不为机器翻译机提供生成达到准确翻译所必需的水平的训练数据。
机器翻译的准确性问题可由一个简单例子说明。使用目前可用的机器翻译,如果用户要把一个句子从英语翻译到法语,就将涉及某种程度的不准确性。在用机器翻译将这个句子翻译回英语时,放大了原来的翻译不准确性,并且句子在大多数例子中将不同于原来的英语句子。以下列来自加拿大辨论的语句作为例子。
Mr.Hermanson: On a point of order, Mr.Speaker, I think you will findunanimous consent to allow the leader of the Reform Party, the hon. member forCalgary Southwest, to lead off this debate, and the hon. member for Red Deerwould then speak in his normal turn in the rotation.(赫曼生先生在7欠序这—点、上,议长先生,我想你将发现一致同意改革党的领导者,卡尔加里西南的荣誉议员,来开始这次辩论,并且红鹿的荣誉议员将接着按着他的正常轮转次序演讲。)
它由人类翻译者翻成法语为
M. Hermanson: J'invoque le Reglement, monsieur le President. Je pense quevous trouverez qu'il y a consentement unanime pour que le chef du Parti reformiste,le depute d e Calgary-Sud-Quest, engage ce debat et que le depute de Red Deerpre皿e ensuite la parole quand ce sera son tour.
它再翻回英语为
I call upon the requirement, Mr. President. I think that you will find that thereis a unamimous consent to the proposition that the head of the reformist party, themember from Calgary-Southwest start this debate, and that the meber from Red Deer makes his statement when it is his turn.(我提个i青求,主席先生。我^K尔4每 发现一致同意这个建议,即由改革党的领袖,来自卡尔加里-西南的议员开始这 个辩论,以及来自红鹿的议员在轮到他的时候进行他的陈述。)
然而,当使用机器翻译机翻回英语时它变成I call叩on the Payment, Mr. President President. I think that you will find that there is unamimous assent so that the chief of the Party reformist, the deputy of Calgary-South-West, engages this debate and that the deputy of Red Deer speaks then when it is its turn.(我请求付 款,主席主席先生。我想你将发现,有一致赞成,因此改革者党的首领,卡尔 加里-西-南的代表,着手这个辩论,并且红鹿的代表在轮到它时接着演讲。)
正如可从以上例子中看出的,机器翻译的质量距离所期望的尚远。在学习 单词间关系时,依靠人类创作的翻译倾向于使机器翻译机更依赖于解释而与翻 译相反。而且只有有限数量的材料,可用于用作为训练数据。(例如,圣经, 在双语或多语组织处的辩论,以及以双语格式特别创建的其它文档。)此外, 生成更多的用来训练机器翻译机的翻译文档是个昂贵的过程,它仍不提供足够 的准确性来有效地训练机器翻译机。因此,期望以最小成本用大量的翻译数据 来训练机器翻译机,同时保持或提高机器翻译机的准确性。

发明内容
本发明针对机器翻译机,它是由其它机器翻译机生成的文本输入来训练 的。第一语言的文本输入由用户或其它来源提供。这个文本输入随后由机器翻 译机翻译,以第二语言生成该文本输入的翻译版本。用于这种翻译的机器翻译 机是一种现有技术类型的机器翻译机,它使用人类创作的对齐的双语文集训 练,使用双语字典训练,或者使用两者训练。
文本输入和文本的翻译版本两者都提供给对齐组件(aligning component)。
这个对齐组件可以是训练结构的一部分或者可以是单独的组件。对齐组件使文 本输入中的单词或短语与文本输入的翻译版本中的单词和短语配对。这些配对 随后被转换成逻辑形式。跟在文本输入配对的生成之后,由训练结构处理配对。 来自机器翻译机的文本输入可与来自人类著作源或双语字典的数据一起补充。训练结构配置成通过使用对即使有缺陷的输入给出合理逻辑形式的强化 的分析程序,向由机器翻译机生成的不完美翻译学习。训练结构构造了一个转 换映射数据库,包含将源语言中的逻辑形式或其部分链接到第二语言的逻辑形 式或其部分的转换映射。 一旦创建了转换映射数据库,就将结果提供给第二机 器翻译机。
第二机器翻译机配置成使用由训练结构开发的转换映射将文本输入从第 一语言翻译为第二语言。在翻译过程中,文本输入以源语言提供给第二机器翻 译机。第二机器翻译机接收该文本输入并使用分析组件为文本输入中每个单词 生成源逻辑形式。
在源逻辑形式的生成之后,第二机器翻译机中的匹配组件匹配源逻辑形式 与转换映射数据库中的逻辑形式。随后在源逻辑形式的节点到相应目标逻辑形 式段的拷贝上创建链接。目标逻辑形式随后通过执行链接的逻辑形式的自顶向 下的遍历而创建。将源逻辑形式节点上的链接所指向的目标逻辑形式段组合起 来。在映射过程之后,目标逻辑形式被映射到目标句子,且文本输入的翻译以 目标语言生成并从第二机器翻译机输出。


图l是一方框图,示出本发明可实现的环境。
图2A是一方框图,示出本发明的训练结构。
图2B是一流程图,示出训练过程中执行的步骤。
图3是一方框图,示出按照本发明的一个实施例的训练结构。
图4是一方框图,更详细地示出图2A中示出的机器翻译机。
图5是一流程图,示出当提供文本输入进行翻译时由机器翻译机执行的步骤。
具体实施例方式
图1示出了在其上可实现本发明的合适计算系统环境100的例子。计算系 统环境100只是合适的计算环境的一个例子,并且不打算提出对任何关于本发 明使用或功能的范围作限制。计算环境100也不应解释为对在示例操作环境100
9中所示的任何一种组件或其组合有任何依赖性或者要求。
本发明可操作于大量其它通用或专用计算系统环境或者配置。可适合用于 本发明的众所周知的计算系统、环境和/或配置的例子包括,但不限于,个人计 算机、服务器、手持或膝上型设备、多处理器系统、基于微处理器的系统、机
顶盒、可变程日用电子装置、网络PC、小型机、主机、包括任何上述系统或设
备的分布式计算环境等等。
本发明可在由计算机执行的计算机可执行指令诸如程序模块的通用环境 中描述。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、 程序、对象、组件、数据结构等。本发明还可在其中任务由通过通信网络连接 的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模 块可位于本地和远程计算机存储介质中,包括存储器设备。
参考图1,实现本发明的示例系统包括以计算机uo形式的通用计算设备。
计算机110的组件可包括,但不限于,处理单元120、系统存储器130及连接 包括系统存储器到处理单元120的各种组件的系统总线121。系统总线121可 以是几种类型的总线结构的任何一种,包括存储总线或存储控制器、外围设备 总线以及使用各种总线结构任意一种的本地总线。作为例子,而非限制,这样 的结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强ISA (EISA)总线、视频电子标准协会(VESA)本地总线以及也称为夹层总线的 外设组件互连(PCI)总线。
计算机110—般包括多种多样的计算机可读介质。计算机可读介质可以是 任何可由计算机110访问的可用介质,并包括易失性和非易失性介质、可拆卸 和不可拆卸介质两者。作为例子,而非限制,计算机可读介质可包括计算机存 储介质和通信介质。计算机存储介质包括易失性和非易失性、可拆卸和不可拆 卸介质两者,它们是以任何存储诸如计算机可读指令、数据结构、程序模块或 其它数据的信息的方法或技术的实现的。计算机存储介质包括,但不限于, RAM、 ROM、 EEPROM、闪存或其它存储技术、CD-ROM、数字通用盘(DVD) 或其它光盘存储器、磁盒、磁带、磁盘存储器或其它磁存储设备,或者能用于 存储想要的信息和能由计算机110存取的任何其它介质。通信介质一般包含在 调制的数据信号诸如载波或其它传输机制中的计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传输设备。术语"调制的数据信号"指具 有以这样一种对信号中信息编码的方式设置或改变的一或多个特征的信号。作 为例子,而非限制,通信介质包括有线的介质,诸如有线的网络或直接线连接、
以及无线的介质,诸如声音的、RF(射频)、红外线和其它无线介质。上述各项
的任意组合也包括在计算机可读介质的范围之内。
系统存储器130包括以易失性和/或非易失性的存储器形式的计算机存储 介质,诸如只读存储器(ROM) 131和随机存取存储器(RAM) 132。基本输 入/输出系统133 (BIOS),包含帮助计算机110内组件之间诸如在起动期间传 送信息的基本例程,它一般被存储在ROM131中。RAM132—般包含由处理单 元120可直接存取和/或目前操作的数据和/或程序模块。作为例子,而非限制, 图1示出操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110还可包括其它可拆卸的/不可拆卸的、易失性/非易失性计算机 存储介质。只是作为例子,图1示出了读写不可拆卸的、非易失性的磁介质的 硬盘驱动器141,读写可拆卸的、非易失性的磁盘152的磁盘驱动器151,和 读写可拆卸的、非易失性的光盘156诸如CD ROM或其它光介质的光盘驱动器 155。能用于所示例操作环境的其它可拆卸的/不可拆卸的、易失性/非易失性的 计算机存储介质包括,但不限于,磁带盒、闪存卡、数字通用盘、数字视频带、 固态RAM、固态ROM等等。硬盘驱动器141 一般通过不可拆卸的存储器接口 诸如接口 140连接至系统总线121,以及磁盘驱动器151和光盘驱动器155 — 般由可拆卸的存储器接口诸如接口 150连接至系统总线121。
上面所讨论的并示于图1中的驱动器及其关联的计算机存储介质,为计算 机110提供计算机可读指令、数据结构、程序模块和其它数据的存储。在图1 中,例如,硬盘驱动器141被示为存储操作系统144、应用程序145、其它程 序模块146和程序数据147。注意这些组件可以与操作系统134、应用程序135、 其它程序模块136和程序数据137或者相同,或者不同。操作系统144、应用 程序145、其它程序模块146和程序数据147在这里给出不同的数字,以说明 在最低程度上它们是不同的复制品。
用户可通过输入设备,诸如键盘162、话筒163、以及诸如鼠标、轨迹球 或触摸垫的定点设备161,将命令和信息输入到计算机110中。其它输入设备(未示出)可包括操纵杆、游戏垫、卫星天线、扫描仪等等。这些和其它输入 设备常常通过耦合到系统总线的用户输入接口 160连接至处理单元120,但是 也可以通过其它接口和总线结构连接,诸如并行端口、游戏端口或通用串行总 线(USB)。监视器191或其它类型的显示设备也通过一个接口诸如视频接口 190连接至系统总线121。除监视器之外,计算机还可包括其它外部输出设备 诸如扬声器197和打印机196,它们可通过输出外部接口 195连接。
计算机110可在一个使用逻辑连接至一或多个远程计算机诸如远程计算机 180的网络化环境中运行。远程计算机180可以是个人计算机、手持设备、服 务器、路由器、网络PC、对等设备或其它普通网络节点,并且一般包括上面相 对于计算机IIO所述的组件的许多或全部。图1中所示的逻辑连接包括局域网 (LAN) 171和广域网(WAN) 173,但也可包括其它网络。这样的网络环境 在办公室、企业级计算机网络、内联网和因特网中是很普通的。
当在LAN网络环境中使用时,计算机IIO通过网络接口或适配器170连 接至LAN171。当在WAN网络环境中使用时,计算机110—般包括调制解调 器172或用于在WAN173诸如因特网上建立通信的其它工具。调制解调器172, 可以是内置的或外置的,可通过用户输入接口 160或其它适当的机制连接至系 统总线121。在网络化环境中,相对于计算机IIO所述的程序模块,或其部分, 可存储在远程存储器设备中。作为例子,而非限制,图l示出了远程应用程序 185为驻留在远程计算机180上。将意识到所示的网络连接是示例性的,并且 可使用在计算机之间建立通信链路的其它方法。
尽管逻辑形式对于本发明不是必需,但参考图2所示的机器翻译结构讨论 它们。因此,在更详细地讨论那个结构之前,逻辑形式的简要讨论是有帮助的。 逻辑形式以及生成它们的系统和方法的全面而详细的讨论可在1999年10月12 日发布的、题为"从语法树计算语义逻辑形式的方法与系统"(METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES)的Heidorn等人的美国专利No.5,966,686中找到。不过,简而言之, 通过执行输入文本上的词法分析产生用语法关系增强的传统短语结构分析来 生成逻辑形式。语法分析经历进一步的处理,以便导出逻辑形式,它们是描述 文本输入中实义词之间标注的相关性的图形结构。逻辑形式标准化了某些语法变换(例如主动语态/被动语态)并同时解决了句内重复和长距离的相关性。
具体地说,逻辑关系由定向关系类型连接的两个单词组成(例如,部分 (Part)、时间(Time)、超义词(Hypernym)、逻辑主题(LogicalSubject)、从句 (Clause)、域(Domain)、位置(Location)、方式(Manner)、材料(Material)、 手段 (Means)、修饰语(Modifier)、所有人(Possessor)、目的(Purpose)、准超义词 (Quasihypernym)、同义字(Synonym)、逻辑对象(LogicalObject)和用户(User))。 逻辑形式是表示单一文本输入诸如一个句子的连接逻辑关系图。它最低限度由 一个逻辑关系组成。逻辑形式描绘结构化关系(即,语法和语义关系),特别 是输入串中重要的单词之间的宗词(argument)和/或附加语(adjunct)关系。
在机器翻译结构的一个说明性实施例中,跨机器翻译系统操作的各种源和 目标语言,共享从语法分析构造逻辑形式的特定编码。共享的结构大大简化了 对齐来自不同语言的逻辑形式段的任务,因为两种语言中表面的不同结构常常 叠并到类似或同样的逻辑形式表示法上。
图2A示出了按照本发明的一个实施例的训练机器翻译机的示例性结构。 图2B是示出在训练过程中执行的步骤的流程图。图2A和图2B将一起讨论。 训练系统200包括输入文本210、第一机器翻译机220、翻译对230、训练结构 240及第二机器翻译机250。可选地,训练系统200能够包括附加的机器翻译 机222和224,人类创作的双语文集270和双语字典260。机器翻译机250类 似于第一机器翻译机220,只不过机器翻译机250是使用来自其它机器翻译机 的训练数据训练的,而第一机器翻译机220是使用传统的背景技术的训练方法 训练的。机器翻译机250的运行将参考图4和5更详细地讨论。
一个实施例中的第一机器翻译机220可以是任何当前存在的机器翻译机。 但其它机器翻译机也可用作第一机器翻译机220。第一机器翻译机220以第一 语言(或源语言)接收文本输入210。这在步骤290示出。这个文本输入210 按照机器翻译机220的内部编程结构从源语言翻译为目标语言(例如德语到英 语或西班牙语到英语)。这在方框291示出。在方框292,文本输入210的翻 译版本从机器翻译机220作为译出文本输出。在文本输入210由第一机器翻译 机220翻译之后,将文本输入210和输出221彼此结合以生成文本输入的翻译 对230。这在方框293示出。方框293处生成翻译对230的方法的说明性例子
13在下面描述。但也可使用生成翻译对230的其它方法。而且,在一个实施例中, 翻译对230的生成是训练结构240的一个组件。但是,取决于训练结构的安排 和编程,翻译对230的生成可通过独立于训练结构240的组件完成。
例示性地,翻译对230在一个实施例中从对齐的双语文集中生成。双语文 集包括来自文本210和221的对齐译出句子(例如,源或目标语言诸如英语的 句子,对齐它们在其它源或目标语言诸如德语中的翻译)。在配对期间,从对 齐的双语文集将句子供给到训练结构240中,象来自文本输入210的源句子一 样(要翻译的句子),并象来自译出文本221的目标句子一样(源句子的翻译)。
将对齐的文集分析成它的组成单词(例如,如上讨论的词条,但它可能还 是维持在表面形式中)。将对齐的文集分析成源和目标逻辑形式。但是,不是 将本发明限制于对解析成逻辑形式的文本输入的操作,而是代之以仅仅需要将 对齐的文集分析成它的实义词。另外,可以识别某些复合词,好象它们是单一 的个体。如果将这样的多词表达放进了词典,因为它们有特定的意思或用途, 或者因为它们是许多通用类别之一个,诸如固有名称、地名、时间表达、日期、 度量表达等,所以将它们识别为多词。
接下来为在对齐的、分析过的双语文集中的各个词对计算单词关联分数。 可使用任何单词关联度量,它提供表示训练文集中词对之间统计单词关联的分 数。例如,可使用"计算语言学"(Computational Linguistics)杂志,19巻第(l)期: 第61-74页(1993))中由登宁在其所著的"用于统计意外和巧合的准确方法" (Accurate Methods for the Statistics of Surprise and Coincidence)文章中所讨论 的对数似然率(log-likelihood-ratio)统计。
用于计算关联分数的词对列表也可删改。换句话说,计算单词关联分数的 过程为大的训练文集生成大量词对(或词条对)的关联分数。因此,在一个说 明性实施例中,删改词对集以限制对那些词对的进一步处理,所述词对至少具 有某些被看作为翻译词对230的可能性。 一个说明性试探法设置这个阈限为词 对或词条对的关联程度,它们具有一个同时出现(co-occurrence),加上一个各自 另外出现。
接下来假设在训练数据中复合词的出现,并用单权标(single token)替代它 们。为重写过的输入文本(即,复合词及任何剩余的单个单词)重新计算并重写关联分数。
然后再重新计算关联分数。但是,这次,在对齐的句子中没有相同强或更 强的其它关联时,只考虑同时出现。换句话说,假设需要翻译的所有复合词都 己正确识别,并在训练数据中被重新表述为单个项,训练数据可视为好象所有 的翻译都是l对l。因此,选择分等级的翻译对的最终集合是基于这个假设, 即真正的翻译对将是在给定对齐的句子对中最强地相互关联的。最终的关联集 随后按照关联的强度以降序排序。
最后,在最终列表中具有超过阈限的关联分数的词对和/或复合词对被识别 为彼此的翻译。可以以经验为主地选择阈限,或可以根据在最后的配对列表中 所提供结果的语言分析来选择,或者可用另一种所希望的技术来选择。
回过来参考图2A和2B,在文本输入210的翻译对230的生成之后,由训 练结构240处理配对。这在方框294示出。在一个实施例中,通过使用从甚至 是错漏的输入给出合理的逻辑形式的加强化的分析程序,训练结构240能够从 由机器翻译机220生成的不完美的翻译中学习。训练结构240构造包含转换映 射的转换映射数据库,所述转换映射本质上将一种语言的逻辑形式或其部分链 接到第二语言的逻辑形式或其部分。
一旦创建了转换映射数据库,在方框295将结果提供给机器翻译机250。 下面提供并参考图3描述一种示例性训练结构240的简述,它能用来训练机器 翻译机250。但是,也可使用其它训练机器翻译机250的方法。
图3是按照本发明的一个示例性实施例的训练结构240的方框图。训练结 构240包括分析组件304和306、统计的单词关联学习组件308、逻辑形式对 齐组件310、词法知识库建立组件312、双语字典314、字典合并部件316、转 换映射数据库318和更新后的双语字典320。
如上所讨论的,双语文集用来训练系统。双语文集包括对齐翻译句(例如 源或目标语言的句子,诸如英语,对齐其在另一个源或目标语言中的翻译,诸 如西班牙语或法语等)。在训练期间,句子从对齐的双语文集作为源句330 (要 翻译的句子)并作为目标句332 (源句的翻译)供给到训练结构240中。分析 组件304和306分析来自对齐的双语文集的句子以产生源逻辑形式334和目标 逻辑形式336。在分析期间,句子中的单词转换成标准化的单词形式(词条)。这里所用的术语"词条(lemma)"指实义词的词干或根单词。例如,"sleep"是用于 表面形式"sleep"、 "sleeping"和"slept"的词条。应该注意,可以将训练结构应用 于表面形式代替实义词词条,但性能会有所影响。无论如何,然后将词条供给 到统计的单词关联学习组件308中。由学习组件308反复地假设并评分单个单 词或多个单词关联两者,直到获得每个关联的可靠集合。统计的单词关联学习 组件308输出学到的单个单词翻译对338以及多个单词对340。
将多个单词对340提供给字典合并部件316,使用字典合并部件316来将 附加条目加进双语字典314以形成更新后的双语字典320。新条目表示多个单 词对340。
单个单词对338,连同源逻辑形式334和目标逻辑形式336 —起,被提供 给逻辑形式对齐组件310。组件310首先分别建立源和目标逻辑形式330和336 中节点间的试探性词法对应关系。这是使用来自从统计的单词关联学习组件 308增加了单词翻译对338的双语词典(或双语字典)314的翻译对来完成的。 在建立可能的对应关系后,对齐组件310按照词法和结构的特征对齐逻辑形式 节点,并创建逻辑形式转换映射342。
基本上,对齐组件310使用双语字典信息314和单个词对338描绘了逻辑 形式间的链接。转换映射根据在源和目标逻辑形式334和336中找到它们的频 度筛选,并提供给词法知识库建立组件312。
在一个例子中,如果转换映射未在训练数据中看到至少两次,它就不用来 构造转换映射数据库318,尽管任何其它期望的频度也能用作筛选器。还应该 注意,其它筛选技术也可以使用,除了出现的频度之外。例如,转换映射可根 据它们是否组成输入句的完整短语及根据用来创建转换映射的逻辑形式是否 完全对齐来筛选。
组件312构造转换映射数据库318,它包含本质上将一种语言中的逻辑形 式或其部分链接到第二语言中的逻辑形式或其部分的转换映射。
在可供选择的实施例中,附加的翻译对230可通过使用附加的机器翻译机 来创建。回过来参考图2A,机器翻译机222和224代表这些附加的机器翻译机。 机器翻译机222和224是不同于第一机器翻译机220的机器翻译机。文本输入 212和214分别提供给机器翻译机222和224。文本输入212和214可相同于文本输入210,或者它们可以不同于文本输入210。使用同一文本输入用于每 个机器翻译机220、 222和224,允许训练结构240学习单词的正确翻译。
机器翻译机222和224生成文本输入212和214的翻译。这些翻译在方框 223和225处表示。由于机器翻译机222和224不同于机器翻译机220,对相 同的文本输入会得到不同的翻译结果。翻译中的这种不同常常归因于每个机器 翻译机所接收的训练。通常生成一机器翻译机来处理一特定主题的文本,所述 主题是另外的机器翻译机未设计处理的。
还有当训练结构240用来训练可选的机器翻译机250时,附加的翻译数据 资源可提供给训练结构。这些附加的数据块可包括人类创作的双语文集260和 双语字典270。人类创作的双语文集是用来训练机器翻译机的常用方法。文集 通常是诸如议会辩论记录文件或者合同这样的事务的翻译版本,但也可是任何 翻译文本。双语字典270通常是列出源和目标语言中同义单词(例如,德语中 的"Fenster"是英语中的"Window")的字典。当这些附加的数据块存在时,训练 结构评定由双语文集260和双语字典270所提供的信息,并使用用于为文本输 入210生成翻译对230的相同过程来训练机器翻译机。
在通过训练结构240的机器翻译机250的训练之后,翻译映射可由可选的 后训练编辑组件275来编辑。后训练编辑组件275可通过删除词法知识库中的 无效词法信息或链接来编辑映射。
图4示出了组成图2中所示的机器翻译机250的组件。机器翻译机250包 括分析组件410、匹配组件420、转换组件430和生成组件440。当机器翻译正 在翻译文本输入时要调用这些组件。
分析组件410配置成接收源句406并根据源句输入创建源逻辑形式412。 这个源逻辑形式412提供给匹配组件420。
匹配组件420配置成将源逻辑形式412匹配到图3的转换映射数据库318 中的逻辑形式。有了转换映射数据库318中匹配的信息,匹配组件420获得对 源逻辑形式412的链接的逻辑形式422。多个转换映射可匹配源逻辑形式412 的各部分。匹配组件420查找数据库318中具有匹配词条、语音部分及其它特 征信息的匹配转换映射的最佳集。与较小的(更通用的)转换 射相比,较大 的(更特定的)转换映射可能例示性地是较佳的。在相同大小的映射中,匹配组件420可能例示性地更倾向于较高频率映射。映射还可匹配所提供源逻辑形 式412的重叠部分,它们不以任何方式冲突。
匹配组件420还配置成,在源逻辑形式412中的节点上创建到由转换映射 接收的相应的目标逻辑形式段的拷贝的链接,以生成链接的逻辑形式422。
转换组件430配置成从匹配组件420接收链接的逻辑形式422。转换组件 430还配置成创建构成目标翻译基础的目标逻辑形式432。这是通过执行链接 逻辑形式422的自顶而下的遍历完成的,其中将源逻辑形式412节点上的链接 所指向的目标逻辑形式段组合起来。当将逻辑形式段结合在一起用于可能复杂 的多个单词映射时,由匹配组件420设置的各个节点间的子链接用来确定修饰 词的正确附着点等。如果需要,使用默认的附着点。
在没有找到可应用的转换映射的情况下,将源逻辑形式412中的节点及其 关系简单地拷贝到目标逻辑形式432。对于这些节点,默认的单个单词翻译仍 可在转换映射数据库318中找到,并插入在目标逻辑形式432中。但是,如果 没有找到,翻译可例示性地从在对齐期间使用的更新后的双语字典320获取。
生成组件440例示性地是一基于规则的、应用无关的生成组件,它从目标 逻辑形式432映射到目标串(或输出目标句)。生成组件440例示性地可能没 有关于输入逻辑形式的源语言的信息,并且专有地对由转换组件430传递给它 的信息操作。生成组件440还例示性地结合单语(例如,用于目标语言的)字 典使用这个信息来产生目标句446。 一个普通的生成组件440因而对每种语言 都是足够的。
图5是一流程图,示出当为翻译提供文本输入时由机器翻译机250执行的 步骤。图5将参考图4中的组件讨论。
将文本输入406提供给系统250。文本输入406是用户期望从源语言翻译 到目标语言的文档或其它文本的书面版本。例如,文本输入406可以是"Para obtener mas information acerca de WSH, consulte Windows Script Host"。对机器 翻译系统250的文本输入的这种提供在方框510示出。
在方框520,机器翻译机250接收文本输入406并准备将文本输入406从 西班牙语翻译到英语。但是其它语言也可用于翻译。接下来由分析组件410对 文本输入406中每个单词生成源逻辑形式。这在方框530示出。在源逻辑形式的生成之后,匹配组件将源逻辑形式与转换映射数据库中的 逻辑形式匹配。这在方框540示出。在源逻辑形式的节点上创建到相应目标逻 辑形式段的拷贝的链接。这在方框550示出。目标逻辑形式通过执行链接的逻 辑形式的自顶向下的遍历来创建。将源逻辑形式节点上的链接所指向的目标逻 辑形式段组合起来。这在方框560示出。如果没有找到转换映射,机器翻译机 从双语字典得到翻译。这在方框570示出。
例如,在上例文本输入的处理期间,单词"para obtener"链接为"to obtain"。 然而在现有技术机器翻译机中,单词"para"链接为"in order"而"obtener"链接为 "toobtain"。而且,单词"informacion"在本发明中链接至U"information",而在现 有技术中链接到"data"。在两种机器翻译机之间单词链接和映射的这种不同归 因于每种机器翻译机的训练方法不同。
在映射过程之后,目标逻辑形式映射到目标句446。因此,我们的例句将 由机器翻译机250翻译成"To obtain more information about WSH, consult Windows Script Host",而不是从现有技术机器翻译机获得的翻译"In order to obtain more data about WSH, it consults Windows Script Host"。这个翻译示于方 框580。翻译在步骤590输出给用户。
尽管已参考特定实施例描述本发明,本领域熟练技术人员将认识到,可在 不脱离本发明精神和范围的情况下,在形式和细节中作出修改。
19
权利要求
1.一种训练机器翻译机的方法,其特征在于,所述方法包括下列步骤以第一语言提供第一文本输入;使用第一输入机器翻译机将所述第一文本输入翻译为第二语言,所述第一语言的第一文本输入和所述第二语言的第一文本输入的翻译组成第一翻译集;以及使用所述第一翻译集训练机器翻译机。
2. 如权利要求1所述的方法,其特征在于,所述方法还包括在所述训练步骤之前,提供所述第一翻译集给训练组件。
3. 如权利要求1所述的方法,其特征在于,所述方法还包括使用配对组件对齐所述第一翻译集中的单词或短语。
4. 如权利要求1所述的方法,其特征在于,所述方法还包括在所述机器翻译机上执行后训练编辑。
5. 如权利要求4所述的方法,其特征在于,所述执行后训练编辑包括,从所述训练中删除无效词法信息。
6. 如权利要求1所述的方法,其特征在于,所述方法还包括输出所述训练结果作为所述机器翻译机的组件。
7. 如权利要求6所述的方法,其特征在于,输出结果输出双语字典。
8. 如权利要求6所述的方法,其特征在于,输出结果输出转换映射组件。
9. 如权利要求1所述的方法,其特征在于,所述训练机器翻译机还包括提供人类创作的双语文集;使用所述第一翻译集和所述人类创作的双语文集训练所述机器翻译机。
10. 如权利要求1所述的方法,其特征在于,所述训练机器翻译机还包括提供双语字典;使用所述第一翻译集和所述双语字典训练所述机器翻译机。
11. 如权利要求l所述的方法,其特征在于,所述方法还包括以第一语言提供第二文本输入;使用第二输入机器翻译机将所述第二文本输入翻译为第二语言,所述第一语言的第二文本输入和所述第二语言的第二文本输入的翻译组成第二翻译集;以及使用所述第一和第二翻译集训练所述机器翻译机。
12. 如权利要求1所述的方法,其特征在于,所述训练机器翻译机还包括-按词法分析所述第一文本输入以获得表示数据结构的从属结构。
13. —个将文本输入从第一语言翻译到第二语言的系统,其特征在于,所述系统包括训练组件,配置成接收第一语言的训练文本输入及第二语言的训练文本输入的翻译版本,所述训练组件还配置成根据训练文本输入创建双语字典组件和转换映射组件;以及机器翻译组件,配置成接收所述第一语言的文本输入并根据由所述双语字典组件和转换映射组件提供的信息输出所述第二语言的文本输入的翻译;其中,所述第二语言的训练文本输入的翻译版本由外部机器翻译机生成。
14. 如权利要求13所述的系统,其特征在于,所述系统还包括双语字典,包括与所述第二语言的单词相关联的第一语言的单词,双语字典配置成与所述训练组件通信。
15. 如权利要求13所述的系统,其特征在于,所述系统还包括对齐组件,配置成将所述训练文本输入中的单词或短语与所述译出的训练文本输入中的单词或短语配对。
16. 如权利要求15所述的系统,其特征在于,所述对齐组件通过使用逻辑形式配对单词。
17. 如权利要求13所述的系统,其特征在于,所述系统还包括后训练编辑组件,配置成使由所述训练组件创建的词法信息无效。
18. 如权利要求13所述的系统,其特征在于,所述系统还包括人类创作的双语文本,具有所述第二语言的文本的人类翻译版本,配置成与所述训练组件通信。
19. 如权利要求13所述的系统,其特征在于,所述训练组件配置成从多个外部机器翻译机接收所述训练文本输入的翻译版本。
20. 如权利要求13所述的系统,其特征在于,所述机器翻译机组件还配置成为所述文本输入的单词和短语生成逻辑形式。
21. —种训练机器翻译机的系统,其特征在于,所述系统包括第一机器翻译机,配置成翻译训练输入;训练结构,配置成接收所述训练输入的翻译版本和训练输入,并且配置成生成可由机器翻译机使用的组件;以及其中,所述训练输入及训练输入的翻译版本组成第一翻译集。
22. 如权利要求21所述的系统,其特征在于,所述系统还包括对齐组件,配置成对齐所述第一翻译集中的单词和短语,所述对齐组件配置成为所述训练结构提供所述对齐的单词或短语。
23.如权利要求21所述的系统,其特征在于,所述系统还包括双语字典组件;人类创作的双语文集;以及其中,所述训练结构还配置成根据所述第一翻译集、所述双语字典和所述人类创作的双语文集生成所述组件。
24.如权利要求21所述的系统,其特征在于,所述第一机器翻译机包括多个机器翻译机,所述多个机器翻译机的每一个都为所述训练结构提供所述训练输入的独立的翻译版本。
全文摘要
揭示了用其它机器翻译机生成的文本输入来训练的机器翻译机。第一语言的文本输入是由用户或其它来源提供的。这个文本输入随后由第一机器翻译机翻译,生成第二语言的所述文本输入的翻译版本。文本输入和翻译版本被分析并经过训练结构来开发转换映射和双语字典。这些组件随后由第二机器翻译机在翻译其它文本输入时使用。
文档编号G06F17/28GK101673260SQ200910146158
公开日2010年3月17日 申请日期2004年5月27日 优先权日2003年5月27日
发明者J·平克哈姆 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1