基于例子的机器翻译系统的制作方法

文档序号:6369877阅读:154来源:国知局
专利名称:基于例子的机器翻译系统的制作方法
技术领域
本发明涉及机器翻译。更具体而言,本发明涉及基于例子的机器翻译系统或翻译存储系统。
EBMT系统通常在执行翻译的过程中执行两项基本操作。那些操作包括匹配和传送。匹配操作为来自例子数据库的源语言输入串检索“最接近的匹配”。传送操作根据匹配的例子来生成翻译。尤其是,传送操作实际上是通过在匹配的双语例子之间执行对准来获得输入串的翻译的过程。这里所用的“对准”的意思是决定目标语言句(或例子)中的哪个片段对应于正在被翻译的源语言句中的片段。
一些EBMT系统根据句法结构(例如,剖析树或逻辑形式)来执行类似匹配。当然,这些系统要求对输入进行语法分析,以获得句法结构。这种类型的匹配方法能够适当地使用例子,并增加例库的范围。但是,这些类型的系统在某些领域(例如,软件本地化)中会遇到困难。在软件本地化中,软件文件和代码被本地化或翻译成不同的语言。软件手册中所使用的术语使传统EBMT系统的语法分析精确性变得很低,因为甚至浅短的句法信息(例如,文字分段和语音部分标记)也经常会发生错误。
此外,这类系统的例库维护费用很高。这是因为只要例库需要被更新,人们就应该对例库中所保存的所有例子进行分析和纠正。
其他的EBMT系统和翻译存储系统使用字符串匹配。在这些类型的系统中,通常通过使用类似度规(metric)(一般是输入片段与例子之间的编辑距离)来执行例子匹配。但是,当完整的句子或完整的句段已被匹配时,编辑距离度规只提供匹配精确性的良好指示。
过去,(尤其)为语法分析对准采用了各种不同的对准技术。大多数以前的对准技术可以被分门别类到两种不同种类之一。借助语法分析器,结构方法在源语言句或片段与目标语言句或片段之间找到对应。此外,分析源语言片段和目标语言片段,以获得成对的分析。然后,根据成对的剖析树的结构限制,来寻找结构对应。如上所述,语法分析器在某些领域(例如,技术领域)中呈现出难题。
在无语法的对准系统中,对应的寻找不是通过使用语法分析器,而是通过利用同时发生信息和几何学信息。通过检查一个主体中是否同时存在源语言片段和目标语言片段,来获得同时发生信息。几何学信息被用来限制对准空间。被定位的对应是无语法规则的。一旦提取文字对应,就将其存储在例库中。这意味着具有源语言句,并且,对应的目标语言句和文字对应信息将被保存在例库中。在翻译期间,如果一个例子的源语言方中的片段与输入串相匹配,则将只激活例库中的这个例子。
在一个实施例中,根据位置记号项频率/倒置文件频率索引得分,来执行例子匹配。为源语言输入中的块计算TF/IDF加权,这些块由例子包括在内,以找到最佳的块组合。通过计算TF/IDF加权,也可以找到块组合中的每个块的最佳例子。
在一个实施例中,有关的例子一旦被识别,就被提供给对准部件。对准部件首先执行文字对准,以获得正在被考虑的例对中的源语言句与目标语言句之间的对准锚点。然后,如同所有不连续的对准那样,建立源语言句与目标语言句之间所有连续的对准。为每个对准计算得分,并将最佳的选为翻译。
根据本发明的另一个实施例,为翻译输出计算信任度规。该信任度规被用来强调需要用户注意的翻译输出的各个部分。这样,用户的注意力被吸引到可能的修改这类区域。


图1是其中可以使用本发明的一个实施例的方框图。
图2是根据本发明的一个实施例的翻译引擎的方框图。
图3是流程图,展示了图2中所示的系统的全部操作。
图4是流程图,展示了根据本发明的一个实施例的例子匹配。
图5展示了根据本发明的一个实施例的、对应于一个输入句的多个不同的例子。
图6是数据流程图,展示了根据本发明的一个实施例的文字对准。
图7是流程图,展示了根据本发明的一个实施例的短语对准。
图8和图9展示了连续的和不连续的对准。
图10是流程图,展示了根据本发明的一个实施例的连续对准的建立。
图11是流程图,展示了根据本发明的一个实施例的不连续的对准的建立。
图1展示了其上可以实施本发明的合适的计算系统环境100的一个例子。计算系统环境100只是合适的计算环境的一个例子,并非意在对本发明的使用或功能性的范围进行任何限制。也不应该将计算环境100解释为具有涉及示范操作环境100中所展示的任何一个部件或部件组合的任何从属性或要求。
本发明可用于许多其他通用的或特殊用途的计算系统环境或配置。可能适用于本发明的众所周知的计算系统、环境和/或配置的例子包括(但不局限于)个人计算机、服务器计算机、手持或便携式设备、多处理器系统、基于微处理器的系统、置顶盒、可编程消费电子设备、网络PCs、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境以及类似环境。
本发明可以在正由计算机执行的计算机可执行指令的一般上下文(例如,程序模块)中来加以描述。通常,程序模块包括执行特殊任务或实施特殊的抽象数据类型的例行程序、程序、对象、部件、数据结构等。本发明也可以在分布式计算环境中得到实践,在这些环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以被定位在包括记忆存储设备的本地计算机存储介质和远程计算机存储介质中。
参考图1,用于实施本发明的示范系统包括采用计算机110形式的通用计算设备。计算机110的部件可以包括(但不局限于)处理部件120、系统存储器130,以及将各种系统部件(包括系统存储器)耦合到处理部件120的系统总线121。系统总线121可以是几种类型的总线结构(包括存储总线或存储控制器、外围总线,以及使用各种总线构造中的任何总线构造的本地总线)中的任何总线结构。举例来讲(不作限制),这类构造包括“工业标准结构”(ISA)总线、“微通道结构”(MCA)总线、“增强ISA”(EISA)总线、“视频电子标准协会”(VESA)本地总线,以及被称作“中层楼”(Mezzanine)总线的“外围部件互连”(PCI)总线。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110进行存取的任何可用的介质,并且包括易失和非易失介质、可移动和不可移动介质。举例来讲(不作限制),计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括在用于存储信息(例如,计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中被加以执行的易失和非易失的可移动和不可移动介质。计算机存储介质包括(但不局限于)RAM、ROM、EEPROM、快闪存储器或其他存储技术、CD-ROM、数字通用磁盘(DVD)或其他光盘贮藏器、盒式磁带、磁带、磁盘贮藏器或其他磁性存储设备,或可以被用于存储所需信息并可以由计算机100进行存取的任何其他介质。通信介质通常具体表现计算机可读指令、数据结构、程序模块或调制数据信号(例如,载波WAV或其他传输机制)中的其他数据,并且包括任何信息传递介质。术语“调制数据信号”意味着一种信号,该信号的一个或多个特征用一种方式来加以设置或更改,以便对该信号中的信息进行编码。举例来讲(不作限制),通信介质包括有线介质(例如,有线网络或直线连接)和无线介质(例如,声音、FR、红外线和其他无线介质)。以上任何内容的组合也应该被包括在计算机可读介质的范围内。
系统存储器130包括采用易失和/或非易失存储器(例如,只读存储器(ROM)131和随机存取存储器(RAM)132)形式的计算机存储介质。基本输入/输出系统133(BIOS)(包含有助于在计算机110内的各个元件之间传送信息的基本例行程序)通常被存储在ROM131中。RAM132通常包含可以立即由处理部件120进行存取并/或目前正由处理部件120进行操作的数据和/或程序模块。举例来讲(不作限制),图1展示了操作系统134、应用程序135、其他程序模块136和程序数据137。
计算机110也可以包括其他可移动/不可移动的易失/非易失计算机存储介质。只通过举例,图1展示了从不可移动的非易失磁性介质读取或对其写入的硬盘驱动器141、从可移动的非易失磁盘152读取或对其写入的磁盘驱动器151,以及从可移动的非易失光盘156(例如,CD ROM或其他光学介质)读取或对其写入的光盘驱动器155。可以在示范操作环境中使用的其他可移动/不可移动的易失/非易失计算机存储介质包括(但不局限于)磁带卡、快闪存储卡、数字通用磁盘、数字视频磁带、固态RAM、固态ROM和类似介质。硬盘驱动器141通常通过不可移动的存储接口(例如,接口140)被连接到系统总线121,磁盘驱动器151和光盘驱动器155通常由可移动的存储接口(例如,接口150)连接到系统总线121。
以上所讨论的和图1中所展示的驱动器及其有关的计算机存储介质为计算机110提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图1中,例如,硬盘驱动器141被展示为存储操作系统144、应用程序145、其他程序模块146和程序数据147。注意,这些部分可以等同于或不同于操作系统134、应用程序135、其他程序模块136和程序数据137。这里为操作系统144、应用程序145、其他程序模块146和程序数据147提供不同的号码,以展示它们至少是不同的副本。
用户可以通过输入设备(例如,键盘162、话筒163)和定点设备161(例如,鼠标、跟踪球或触摸垫)将命令和信息输入计算机110。其他的输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪或类似设备。这些和其他的输入设备经常通过被耦合到系统总线的用户输入接口160而被连接到处理部件120,但也可以由其他接口和总线结构(例如,并行端口、游戏端口或通用串行总线(USB))来连接。监视器191或其他类型的显示设备也经由接口(例如,视频接口190)被连接到系统总线121。除监视器以外,计算机也可以包括其他的外围输出设备(例如,扬声器197和打印机196),这些设备可以通过输出外围接口190而被加以连接。
计算机110可以在使用与一台或多台远程计算机(例如,远程计算机180)的逻辑连接的联网环境中进行操作。远程计算机180可能是个人计算机、手持设备、服务器、路由器、网络PC、同位体设备或其他共同的网络节点,并且通常包括与计算机110有关的以上所描述的许多或全部元件。图1中所描绘的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其他网络。这类联网环境在办公室、企业范围的计算机网络、内联网和互联网中很普遍。
当被用于LAN联网环境中时,计算机110通过网络接口或适配器170被连接到LAN171。当被用于WAN联网环境中时,计算机110通常包括调制解调器172或用于在WAN173(例如,互联网)上建立通信的其他装置。调制解调器172(可能是内置的,也可能是外置的)可以经由用户输入接口160或其他合适的机制被连接到系统总线121。在联网环境中,与计算机110有关的所描绘的程序模块或其各个部分可以被存储在远程记忆存储设备中。举例来讲(不作限制),图1将远程应用程序185展示为驻留在远程计算机180上。将会理解,所示的网络连接是起示范作用,也可以使用在各台计算机之间建立通信连接的其他装置。
应该注意,可以在计算机系统(例如,根据图1所描述的计算机系统)上执行本发明。但是,也可以在服务器、专用于消息处理的计算机或分布式系统(其中,可以在该分布式计算系统的不同的部分上执行本发明的不同的部分)上执行本发明。
图2是根据本发明的一个实施例的翻译引擎200的方框图。翻译引擎200接收使用源语言的输入句(或句子片段),作为源语言输入202。然后,引擎200访问例库204和项库206,并生成目标语言输出208。作为例证,目标语言输出208是将源语言输入202翻译成目标语言。
例库204是根据例子的句子对准双语主体212而从例库发生器210生成的文字对准目标语言和源语言例子的数据库。例子的对准双语主体212说明性地包含成对的句子(与使用目标语言的那些句子的翻译对准或组成对的使用源语言的句子)。例库发生器210建立被编入索引的例库204,这被称作“位置记号项频率/倒置文件频率(P-TF/IDF)索引”。
TF/IDF是成熟信息检索技术,并且是被用来启用有效率的文件检索的一种文字索引。为索引文件中的每个项(例如,词目或具有语音部分(POS)标记的项)计算TF/IDF加权(或得分)。TF/IDF加权越高,项就越重要。TF/IDF加权由以下公式确定TFij=log(nij+1)(1)IDEi=log(Nni)+1..........(2)]]>TFIDFij=TFij*IDFiΣnj(TFij*IDFi)2.....(3)]]>其中,N=例库(EB)中的例子的数目;ni=EB中的项i出现的总数;nj=例子j的总项数;nij=例子j中的项i出现的总数;TFij=项i在例子j中的规格化频率;以及,TFIDFij=项i在例子j中的TFIDF加权。
在本发明中使用这种系统,因为文字索引能够启用有效率的例子检索,也因为它被认为反映了应该在句子类似计算中加以考虑的因素。这类因素包括每个例子中的匹配的单词的数目(匹配的单词越多,例子加权就越高)、例子中的不同单词的不同重要性(项频率越高,项加权就越低)、给出的例子的长度(例子长度越长,例子加权就越低),以及例子中额外的或错配的单词的数目(额外的或错配的单词越多,例子加权就越小)。
为了保持输入句中所包含的每个项与它的匹配的例子之间的匹配信息,传统的TF/IDF技术被扩展到有位置记号的TF/IDF格式。这不仅反映了项加权,而且反映了每个例子中的项位置。表格1表现了项“抗病毒工具”和“的类型”的示范P-TF/IDF索引文件。

表格1.P-TFIDF索引的例子如表格1中所见,为了提高检索速度,本发明的一个实施例使用双项索引,而不是单项索引。在表格1中,第一列表现了被编入索引的双项单元。第二列表现了例库中的双项的平均TF/IDF加权,第三列表现了相关例子的索引号、那个例子中的双项的加权和例句中的双项的位置。例如,双项“抗病毒工具”所具有的平均TF/IDF加权是0.33。可以在由索引号102454等识别的例子中找到它。例句(它在那里被找到)中的特殊双项的加权是0.45,例句中的双项的位置是位置号2。可以两次在位置2和12处的例子号码100044中发现双项“的类型”。也可以在位置7等处的例子100074中发现它。这样,例库发生器210可以是生成如表格1中所示被编入索引的例子的任何已知例库发生器。作为例证,发生器210计算TF/IDF加权(或者,如果它们已被计算,则只将它们编入索引),并且,它也识别例句中的双项的位置。
项库206由项库发生器214建立,项库发生器214也访问双语例子主体212。项库发生器214只建立使用源语言和目标语言的个别项之间的对应。
现在,将根据图2和图3(是引擎200的全部操作的流程图)来描述引擎200的全部操作。引擎200说明性地包括预处理部件216、例子匹配部件218、短语对准部件220、翻译部件222和后处理部件224。
引擎200首先接收将要被翻译的源语言输入句202。图3中的方框226指出这一点。接下来,预处理部件216对源语言输入202执行预处理。预处理部件216说明性地识别源语言输入202中的有源形式的单词。当然,也可以执行其他预处理(例如,使用语音部分标记或其他预处理技术)。但是,也应该注意,也可以在表面形式上使用本发明,因而可能不需要预处理。无论如何,图3中的方框228都指出预处理。
在已执行预处理之后,例子匹配部件218将被预处理的源语言输入与例库204中的例子进行匹配。部件218也寻找所有的候选单词序列(或块)。然后,如同每个块的最佳例子那样,最佳的块组合被定位。图3中的方框230、232和234指出这一点,下文将根据图4和图5来更加详细地对此加以描述。
获得每个块的有关的例子236,并将其提供给短语对准部件220。然后,对应的目标语言块被定位,并用被定位的目标语言对应来取代使用源语言的匹配的短语。图3中的方框235和238指出这一点。采用这种方法的目标语言对应的定位由短语对准部件220来执行,并在下文根据图6-10被更加详细地加以展示。
源语言输入仍然具有无法通过双项匹配和短语对准阶段而被翻译的许多项。这样,翻译部件222访问项库206,以获得还没有被翻译的项的译文。部件222也用目标语言例子的有关部分来取代被调准的源语言短语。图3中的方框240指出这一点。然后,为后处理部件224提供结果。
如图3中的方框242所指出的,后处理部件224为翻译结果计算信任测度;并且,如块244所指出的,该部件可以随意地强调要求用户注意的翻译结果的相关部分。这将用户的注意力引导到相关例子(已被计算,但具有与它们有关的低信任度规)中的翻译输出。因此,目标语言输出208说明性地包括被强调以指出相关区域的翻译结果。
图4是流程图,更好地展示了例子匹配部件218的操作。首先,通过访问以上所描述的P-TF/IDF索引,从例库中获得所有有关的例子。图4中的方框250展示了这一点。为了实现这一点,例子匹配部件218只对包含双项序列(也可在输入句中找到)的例子进行定位。当然,通过访问P-TF/IDF索引,可以容易地(例如,在表格1的第三列中)找到包含双项序列的例子的标识符。然后,关于在块250中被识别的每个有关的例子,识别所选择的有关的例子与输入句之间的所有匹配块。块252指出这一点。
图5更好地展示了“匹配块”的含义。假设输入句由7个项(项1-项7)组成,其中的每个项是这个例子中的一个单词。也假设输入句包含4个被编入索引的双项,这些双项被识别为双项3-4(包含输入句中的项3和项4)、双项4-5(包含输入句中的项4和项5)、双项5-6(包含输入句中的项5和项6)和双项6-7(包含输入句中的项6和项7)。现在,假设在一个例子(例如,图5中的例1)中发生相同的连续序列的双项。也假设双项序列在例1中看起来是连续的。然后,源语言输入句中的双项可以被结合到单一块(块3-7)中。
但是,输入句中的各个匹配块可以彼此重叠。例如,可见,例2包含一个连续的双项序列,该双项序列在输入句中可以作为块3-5。例3包含一个连续的双项序列,该双项序列在输入句中可以作为块5-7。例4包含一个连续的双项序列,该双项序列在输入句中可以作为块4-5;例5包含一个双项序列,该双项序列在输入句中可以作为块6-7。
所以,可以导出许多不同的块组合。这类块组合可以是块3-7、块3-5+块6-7、块4-5+块6-7或只是块5-7等。输入句可以用这些不同的方法中的任何方法来成块,并且,还可以为输入句的各个部分的翻译找到例子。这样,例子匹配部件218通过为每个块组合计算TF/IDF加权,来寻找输入句中的项的最佳块组合。图4中的方框254指出这一点。
根据本发明的一个实施例,可以将最佳的块组合问题视作最短路径定位问题。这样,可以利用动态编程算法。根据本发明的一个实施例,与每个块组合有关的“边缘长度”(或路径长度)可以由以下方程式来加以计算 其中,i=输入句中的“边缘”(块)索引号;m=“边缘”i的起点的单词索引号;n=“边缘”i的终点的单词索引号;k=“边缘”i的每个项的单词索引号;TFIDFk=EB中的项k的平均TF/IDF加权;以及,EgeLeni=块i的加权。
所以,被识别的每个块组合的加权按以上方程式所指出的那样加以计算。这样,输入句的每个块组合将具有与之有关的加权或路径长度。
接下来,识别与每个块有关的例子,每个被识别的例子与输入句之间的类似性的计算如下similarityj=Σk=1KTFIDFkj........(5)]]>其中,K=例子j和输入句中所包括的共同项的总数;TFIDFkj=例子j中的项k的TFIDF加权;以及,Similarityj=例子j与输入句之间的匹配加权。
图4中的方框256指出寻找与每个例子有关的TFIDF加权。
这样,例子匹配部件218现在已计算了与每个不同的块组合有关的得分,输入句可以被分成这些不同的块组合。部件218也已计算了与不同的块组合中的被识别的每个块有关的每个例子的得分。然后,部件218可以将例子清单削减到具有足够的类似得分或与块组合得分相结合的足够的类似得分的例子,并将图2中的有关的例子236提供给短语对准部件220。
可见,短语对准部件220因而将例子接受作为输入,实际上,该例子是包括一个源句(或片段)和一个目标句(或片段)的句子(或文本片段)对,此外,边界信息指定与将要被翻译的输入句相匹配的那个例子中的源句的部分。这样,短语对准部件220的工作是将所给出的例子的目标句中可能的翻译与同一个例子的源句中的匹配的短语或单词序列进行对准,并且,将最佳的目标片段选为源句的那个匹配部分的翻译,因此也作为输入句的匹配部分(在将要被翻译的输入句与例子中的源句之间匹配)的翻译。为了实现这一点,短语对准部件220首先建立一系列单词对准,作为短语对准过程中的锚。然后,根据这些锚,部件220尝试为例子中的源句的匹配部分寻找同一个例子内的目标句中的对应的短语。
图6是流程图,更好得展示了根据本发明的一个实施例的、用于获得锚的单词对准过程。图6示出在单词对准过程中,正在考虑中的一个例子(包括源语言输入句301和目标语言句300)被输入到作为双语词典调准器302而进行操作的第一个对准部件。调准器302描述使用不同语言的两个单词如何能够被彼此翻译。有众多不同的方法已实现了这一点。评估这种翻译信任的一些度规包括翻译概率(例如,见Brown等人的《统计机器翻译的数学参数估计》,“计算语言学”,19(2),263-311页(1993年))、骰子系数(例如,见Ker等人的《用于单词对准的基于类别的方法》,“计算语言学”,第23卷,第2号,313-343页(1997年))、共有信息(例如,见Broun、P.F.的《用于语言翻译的统计方法》,COLING-88,第1卷,71-76卷(1998年))和t得分(例如,见Pascale的《用于从过分渲染的平行主体中寻找名词和适当的名词翻译的一种样式匹配方法》,“计算语言学”,21(4),226-233页(1995年))。
这样,双语词典调准器302建立了高信任单一单词锚点,这些锚点是从例子300的源句到目标句的直接的单词翻译。这些以后在短语对准期间加以使用。
接下来,在例子300的目标句使用不分段的语言(例如,汉语)的情况下,将执行单词分段。可以用众多不同的已知方法中的任何方法来实现这一点,本发明不局限于任何特殊的单词分段技术。图6中的方框304指出例子300的目标句的单词分段。
然后,使用基于被增强的双语词典的调准器306,这不仅利用根据双语词典而加以计算的单词类似性,而且使用失真模型来描述源句中的一个位置能够被调准到目标句中的另一个位置的可能性是多少。关于双语词典调准器302,可以使用众多不同的失真模型。一些这类的模型包括绝对失真(例如,在以上所引用的Brown的文章中)、相对偏移(例如,在Brown的文章中),以及基于隐藏markoov模型(HMM)的系统和结构限制系统(也见Brown的文章)。
甚至在单词对准和失真建模之后,也将会存在一些局部的对准。所以,访问单语词典,以便将字符合并成单词并将单词合并成短语。图6中的方框308指出这一点。换言之,即使双语词典很大,它的范围由于基本的语言复杂性也仍然很受限制。通过使用单语词典,可以将一些分开的单词(不应该分开,因为它们是短语的一部分)识别为短语。这样,可执行短语合并。
同样,可以使用任何已知的统计对准部件,以便调准未被调准的单词。块310指出这一点。这类统计对准技术是已知的,并且,只为这些技术提供一个门限,以限制统计对准空间。
通过将所有这些项目考虑在内,单词对准结果312由单词对准系统输出。
在图6所示的实施例中,单词对准机制包括来自双语词典调准备器302的翻译信息、失真调准器模型306、短语合并部件308和统计对准部件310,也可以使用其他的信息源。例如,以上所述的t得分可以被用作上下文信息。无论如何,单词对准结果312都提供锚点,这些锚点反映了源语言句301与目标语言句300之间的高信任对准。这些锚点在短语对准期间加以使用。
图7是流程图,表示根据本发明的短语对准的一个实施例。短语对准部件接收例子的单词对准结果312以及从例子匹配部件218中生成的边界信息(识别例子的源句中的匹配的块的边界),作为输入。
根据这些输入,短语对准部件寻找对应于源语言句中的匹配的块的所有可能的目标语言候选片段。图7中的方框350指出这一点。接下来,短语对准部件为被识别的每个候选片段计算得分。块352指出这一点。短语对准部件从所计算的得分中选择最佳候选者或预定数量的候选者,作为翻译输出。图7中的方框354指出这一点。
现在,更加详细地描述这些步骤。在如步骤350中寻找所有可能的目标语言候选片段的过程中,本发明将此任务分成两个部分。本发明寻找所有可能的连续的候选片段,以及所有可能的不连续的候选片段。图8和图9展示了连续的和不连续的片段。
如果连续的源语言句片段始终对应于连续的目标语言片段,则短语对准的任务会很容易。但是,情况并不总是如此。例如,在诸如英语和汉语的语言中,经常会出现图8中所示的情况。图8表现了包括单词(或单词序列)A、B、C和D的一个源语言句。图8也表现了包括目标语言单词(或单词序列)E、F、G和H的一个对应的目标语言例句(或其一个部分)。出于本讨论的目的,连续的片段被定义如下假设SFRAG是源语言句中的片段,TFRAG是目标语言句中的片段。如果SFRAG中所有被调准的单词与TFRAG中的单词对准,并且只与TFRAG中的单词对准,那么,SFRAG到TFRAG是连续的,反之亦然。否则,它是不连续的。
在图8中,例如,目标语言片段EFGH不是片段ABC的连续片段。这是因为ABC在源语言句中是连续的,而对应于ABC的EFH在目标语言句中不是连续的。相反,目标语言句中的单词(或单词序列)G对应于源语言句中的单词(或单词序列)D。
如图9所示,为了配合这些困难,本发明的一个实施例将不同的情况分成两个不同的种类。图9表现了包含单词(或单词序列)A-F的源语言句和包含单词(或单词序列)G-N的目标语言句的两个实例。在第一个实例中,可见,正在为其寻找翻译的英语语言片段(CD)对应于所展示的目标例子中的一个连续的目标语言片段(片段HIJ)。这被称作“连续”。
在第二个实例中,连续的源语言片段AB对应于不连续的目标语言片段(GHLM)。但是,越界的目标语言单词(或单词序列)IJK也对应于连续的源语言片段DE。这被称作“不连续”。这样,本发明建立所有可能的连续片段,然后建立所有可能的不连续的片段。
图10是流程图,展示了本发明的一个实施例,其中,为源语言句中的一个片段识别目标语言句中所有可能的连续片段。首先,源语言句和目标语言句(或被预处理的句子)跟单词对准结果312一起被接收。图10中的方框370指出这一点。
也接收为其寻求对准的源语言片段的边界信息。(a,b)指出本例中的边界信息,其中,a和b是源语言句中的单词位置。这样,如果在图9中,为其寻求对准的源语言句中的片段是CD,并且,每个字母代表一个单词,那么,边界信息将会是(3,4),因为单词C处于单词位置3,单词D处于源语言句中的单词位置4。图10中的方框372指出接收边界信息。
然后,对准部件在目标语言句中找到一个单词组(SET),它根据单词对准结果,与源语言句中具有边界a、b的片段进行对准。图10中的方框374指出这一点。
然后,短语对准部件找到目标句中的(SET)中的单词的最左边的单词位置(c)和最右边的单词位置(d),所以,目标语言句子片段(c,d)是可与源语言片段对准的目标语言句中的可能性最小的对准(MinPA)。块376指出这一点。接下来,MinPA的目标语言片段边界向左、右扩展,直到在每个方向上遇到不一致的对准锚点(示出与a、b以外的SL输入中的单词对准的锚点)为止。左边界和右边界分别由目标语言句内的一个单词来移动,直到左边界或右边界(正在被移动)遇到不一致的锚点为止。那时,终止片段边界在那个方向上的扩展。这样,新的目标语言边界将会是(e,f),并且将会定义可能性最大的对准(MaxPA)。块378指出这一点。
接下来,获得一套单词AP。AP是MinPA与MaxPA之间所有可能的连续子串,它们都必须包含MinPA。“连续”意味着连续的子串内不存在单词间隙。块380指出这一点。然后,为源语言句中的给出的片段返回与MaxPA(与AP联合)联合的那套MinPA,作为目标语言句中所有可能的连续对准。块382指出这一点。
然后,为所有的连续对准评分(下文更加详细地对其加以讨论)。块384指出为对准评分。为源语言输入中的每个片段执行获得所有可能的连续对准这个步骤。
图11是流程图,展示了如何寻找所有可能的不连续的对准。“不连续的对准”又意味着诸如图8中所示的对准和图9中的第二个实例(其中,连续的源片段对应于不连续的目标片段)。
为了获得所有可能的连续片段,短语对准部件首先接收如根据图10中的方框370和372所描述的输入和边界。接下来,系统在例(或目标)句中找到单词组(SET1),它根据单词对准结果与源语言句中所选择的片段(a,b)进行对准。这与图10中的方框374所指出的相同。
接下来,短语对准部件在源句中找到单词组(SET2),它与SET1的一个部分对准,但在源语言句中的(a,b)的范围以外。图11中的方框386指出这一点。
接下来,确定SET2在源语言句中是否是连续的。如果不是连续的,则不计算短语对准。块388和390指出这一点。但是,如果SET2在源语言句中是连续的(意味着SET2中没有单词间隙),那么,继续在块392处进行处理。
在块392中,短语对准部件获得连续的单词组(SET3),该单词组包含源语言句中的SET2。接下来,获得SET3的所有可能的对准。使用根据图10所描述的算法,来说明性地实现这一点。图11中的方框394指出寻找SET3的所有可能的对准。
然后,为所有对准评分,并选择SET3的最佳的对准SET4。块396指出这一点。
然后,对SET中的最左边的位置(i)和最右边的位置(j)进行定位。块398指出这一点。然后,从序列(i,j)中除去SET4。块400指出这一点。
然后,将单词序列(i,j)减去SET4识别为(a,b)的MinPA。块402指出这一点。
然后,扩展MinPA,以获得如根据图10中的方框378所讨论的MaxPA。图11中的方框404指出这一点。
再次获得AP,作为MinPA与MaxPA之间所有可能的连续子串,它们都包含MinPA。图11中的方框406指出这一点。然后,如块408所指出的那样,返回MinPA、MaxPA和AP的联合。然后,如块410所指出的那样,为每个可能的不连续的对准评分。
根据本发明的一个实施例,以下方程式指出与每个可能的对准有关的得分Wdeight=P(m|l)P(Δk|ml)P(Δj|ml)(6)其中,m=SL片段的长度;l=TL片段的长度;k=SL句子中的内容单词的数目;j=SL句子中的功能单词的数目;Δj=|SL的TL-j的j|;以及,Δk=|SL的TL-k的k|。
但是,也可以使用其他的评分技术。
最后,在用被调准的目标语言单词和短语来取代源语言单词和短语之后,计算每个翻译输出的信任等级。可以由系统200中的翻译部件222或后处理部件224来实现这一点。无论如何,在一个实施例中,翻译信任等级被确定如下ConL=c1×log(AlignCon×10)+c2×log(TransPercent×10)+c3×log(10/Example_num)+c4×log(10/Valid_block_num)(7) 其中,ConL翻译信任等级;c1,c2…,c4常数,AlignCon对准信任等级;TransPercent被加权的翻译百分比;Example_num所使用的例子号码;Valid_block_num输入串翻译中的片段号码;PhrSL与所给出的输入串有关的例子中的SL短语;PhrTL例子的翻译中的TL对应;|PhrTL|PhrTL的单词数目;Ci…jSL单词i与TL单词j之间的连接;以及,Conf(Ci…j)单词对准的信任等级。
这样,翻译信任等级建立在对准信任等级、被调准的单词的信任度以及目标语言对应中的被调准和未被调准的单词的数目的基础上。系统用信任等级为输出部分做标记,该信任等级允许用户识别用于特殊推敲的低信任翻译输出以及要求用户注意的各个区域。
这样,可见,本发明使用一种例子匹配方法,与原先的系统相比,该方法在质量和速度方面增强了例子匹配和检索性能。同样,本发明使用一种单词/短语对准技术和一种得分功能,用于在短语对准(与原先的系统相比,也提高了精确性和速度)中选择最佳的候选者。最后,本发明使用一种翻译信任预测方法,该方法指出机器所生成的翻译的质量,并且还强调供用户推敲的一些翻译部分。
虽然已参考特殊的实施例描述了本发明,但是,精通该技术领域的工作人员将会认识到在不脱离本发明的精神和范围的前提下,可以在形式和细节上进行更改。
权利要求
1.将源语言(SL)输入机器翻译成使用目标语言(TL)的翻译输出的一种方法,其特征在于,包括将SL输入的片段与例库中的例子的SL片段进行匹配;将SL输入中所有匹配的块识别为SL输入中的一组项,这组项由例子中的一个或多个SL片段匹配;选择匹配的块的块组合,以包含SL输入的一个或多个片段;关于所选择的块组合中的每个块,识别与该块有关的例子;将所识别的例子的TL部分与所识别的例子的SL部分进行对准,所识别的例子的SL部分与SL输入的一个或多个片段相匹配;以及,根据被调准的部分来提供翻译输出。
2.如权利要求1所述的方法,其特征在于,提供翻译输出包括输出多个可能的翻译输出。
3.如权利要求2所述的方法,其特征在于,还包括为每个翻译输出计算信任测度。
4.如权利要求3所述的方法,其特征在于,计算包括作为翻译信任等级的信任测度的计算如下ConL=c1×log(AlignCon×10)+c2×log(TransPercent×10)+c3×log(10/Example_num)+c4×log(10/Valid_block_num)(7) 其中,ConL是翻译信任等级;c1,c2...,c4是常数,AlignCon是对准信任等级;TransPercent是被加权的翻译百分比;Example_num是识别被识别的例子的所用例子号码;Valid_block_num是正在被考虑的可能的TL翻译中的片段号码;PhrSL是与所给出的输入串有关的SL短语;PhrTL是SL输入的可能的翻译中的TL对应;|PhrTL|是PhrTL的单词数目;Ci...j是SL单词i与TL单词j之间的连接;以及,Conf(Ci...j)是单词对准的翻译信任等级。
5.如权利要求3所述的方法,其特征在于,还包括识别要求用户注意的翻译输出的各个部分。
6.如权利要求1所述的方法,其特征在于,将SL输入的匹配片段与例子的片段进行匹配包括识别SL输入中的双项;以及,访问例库的双项索引,它包括例子标识符,这些标识符用于识别包含被编入索引的双项的例子。
7.如权利要求6所述的方法,其特征在于,访问双项索引包括访问例库的双项索引,它包括单词位置信息,该信息指出双项所驻留的例子中的单词位置。
8.如权利要求7所述的方法,其特征在于,访问双项索引包括访问例库的双项索引,它包括一个得分,该得分指出例子中的双项的项频率/倒置文件频率(TF/IDF)得分。
9.如权利要求8所述的方法,其特征在于,访问双项索引包括访问例库的双项索引,它包括一个主体得分,该主体得分指出例库范围的双项的代表性TF/IDF得分。
10.如权利要求1所述的方法,其特征在于,识别与一个块有关的例子包括计算对应于包含该块的每个例子的块得分;以及,根据块得分来识别与该块有关的例子。
11.如权利要求10所述的方法,其特征在于,计算块得分包括块得分的计算如下similarityj=Σk=1KTFIDFkj........(5)]]>其中,K=例子j和SL输入中所包括的共同项的总数;TFIDFkj=例子j中的项k的TF/IDF加权;以及,Similarityj=例子j与SL输入之间的匹配加权。
12.如权利要求1所述的方法,其特征在于,选择块组合包括为被识别的块的不同的组合计算块组合得分;以及,根据块组合得分来识别N个最佳的块组合。
13.如权利要求12所述的方法,其特征在于,计算块组合得分包括 其中,i=SL输入中的“边缘”(块)索引号;m=“边缘”i的起点的单词索引号;n=“边缘”i的终点的单词索引号;k=“边缘”i的每个项的单词索引号;TFIDFk=例库中的项k的平均TF/IDF加权;以及,EdgeLeni=块i的加权。
14.将源语言(SL)输入机器翻译成使用目标语言(TL)的翻译输出的一种方法,其特征在于包括从例库中选择对应于SL输入的片段的例子;将所选择的例子的TL部分与SL部分进行对准,这些SL部分对应于SL输入的片段,关于每个例子,该对准的方式是执行单词对准,以识别SL部分与TL部分之间的锚对准点;根据锚对准点来寻找TL部分与SL部分之间连续的对准;寻找TL部分与SL部分之间不连续的对准;以及,将SL输入翻译成来自连续的和不连续的对准的翻译输出。
15.如权利要求14所述的方法,其特征在于,包括根据连续的和不连续的对准来生成多个翻译输出;为每个翻译输出计算得分;以及,至少选择一个翻译输出。
16.如权利要求15所述的方法,其特征在于,还包括为所选择的翻译输出计算信任测度;以及,识别具有低于门限等级的信任测度的翻译输出的一个或多个部分。
17.如权利要求14所述的方法,其特征在于,寻找连续的对准包括获得指出SL输入中的单词位置的SL边界信息,这些单词位置为将要被调准的SL部分的片段定义边界。
18.如权利要求17所述的方法,其特征在于,寻找连续的对准还包括根据锚对准点来获得TL边界信息,该信息可识别与SL部分对准的例子的TL部分中的单词的边界位置,以获得可能性最小的对准(MinPA)。
19.如权利要求18所述的方法,其特征在于,寻找连续的对准还包括通过扩展由TL边界信息识别的边界,来识别可能性最大的对准(MaxPA),直到达到不一致的对准锚点为止。
20.如权利要求19所述的方法,其特征在于,寻找连续的对准还包括生成MinPA与MaxPA之间所有的对准,它们都包括MinPA。
21.如权利要求17所述的方法,其特征在于,寻找所有不连续的对准包括根据锚对准点,来识别对应于将要被调准的SL部分的例子的TL部分中的单词组。
22.如权利要求21所述的方法,其特征在于,寻找所有不连续的对准还包括识别例子的SL部分中的单词组,它与TL部分中的单词组的一个部分对准,但不在SL边界信息的范围内。
23.如权利要求22所述的方法,其特征在于,寻找所有不连续的对准还包括如果SL部分中的单词组是连续的,则为例子的SL部分和TL部分中的单词组寻找所有可能的连续对准。
24.如权利要求22所述的方法,其特征在于,寻找所有不连续的对准还包括从TL部分中的单词组中除去与SL部分中的单词对准的单词,以获得可能性最小的对准(MinPA),SL部分中的单词不在SL边界信息的范围内。
25.如权利要求24所述的方法,其特征在于,寻找所有不连续的对准还包括扩展MinPA的边界,直到达到不一致的对准锚点为止,以获得可能性最大的对准(MaxPA)。
26.如权利要求25所述的方法,其特征在于,寻找所有不连续的对准还包括从MinPA与MaxPA之间的TL部分中生成连续的子串,它们都包括MinPA。
27.如权利要求14所述的方法,其特征在于,执行单词对准包括访问双语词典,以获得词典信息,该信息指出例子的SL部分与TL部分之间的单词翻译。
28.如权利要求27所述的方法,其特征在于,单词对准还包括如果例子的TL部分使用不分段的语言,则对例子执行单词分段。
29.如权利要求27所述的方法,其特征在于,单词对准还包括应用失真模型调准器,以便根据单词位置将SL部分中的单词与TL部分中的单词进行对准。
30.如权利要求29所述的方法,其特征在于,单词对准还包括访问单语词典,以便将TL部分中的字符合并成单词,并将TL部分中的单词合并成短语。
31.如权利要求30所述的方法,其特征在于,单词对准还包括在SL部分和TL部分中的还未被调准的单词之间执行统计对准。
32.基于例子的机器翻译系统中的一种单词对准系统,该基于例子的机器翻译系统根据例库中的例子将源语言(SL)输入翻译成使用目标语言(TL)的翻译输出,其特征在于,包括双语词典调准器,它访问双语言词典,以获得词典信息,该信息指出所选择的例子的SL部分与TL部分之间的单词翻译;失真模型调准器,它被耦合到双语词典,并被配置成根据单词位置将SL部分中的单词与所选择的例子的TL部分中的单词进行对准;单语词典调准器,它被耦合到失真模型调准器,并且被配置成将TL部分中的字符合并成单词,并将TL部分中的单词合并成短语;以及,统计调准器,它被耦合到单语词典调准器,并被配置成在例子的SL部分和TL部分中的还未被调准的单词之间执行统计对准。
33.如权利要求32的单词对准系统,其特征在于,还包括单词分段器,它被耦合到双语词典调准器,并被配置成对例子执行单词分段。
全文摘要
本发明通过使将要被翻译的源语言句的片段与例库中的例子的源语言部分进行匹配,来执行机器翻译。当在例库中的所有有关的例子已被识别时,这些例子经历短语对准,其中,每个例子中的目标语言句的片段与同一例子中的源语言句的匹配片段进行对准。然后,翻译部件用来自匹配例子的被调准的目标语言短语来代替源语言句中的匹配的片段。
文档编号G06F17/28GK1475907SQ0314572
公开日2004年2月18日 申请日期2003年6月30日 优先权日2002年6月28日
发明者周明, 黄金霞, 黄昌宁, 王伟, 周 明 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1