机器翻译系统、机器翻译方法和与其一起使用的解码器的制造方法

文档序号:6491175阅读:3489来源:国知局
机器翻译系统、机器翻译方法和与其一起使用的解码器的制造方法
【专利摘要】本公开内容提供了机器翻译系统、机器翻译方法和与其一起使用的解码器。该机器翻译方法包括以下步骤:接收第一语言的文本;创建反映所述第一语言的文本中的每个短语组合的短语组合概率的短语组合模型;通过使用所述短语组合模型、翻译模型和语言模型将所述第一语言的文本翻译为第二语言的文本;将所述第二语言的文本作为翻译结果输出,其中,所述翻译结果包含被翻译短语。
【专利说明】机器翻译系统、机器翻译方法和与其一起使用的解码器
【技术领域】
[0001]本发明大体上涉及自然语言处理,并且更特别地,涉及机器翻译系统、机器翻译方法和与其一起使用的解码器。
【背景技术】
[0002]统计机器翻译是对于大词汇量文本翻译的有前途的方法。已提出了许多统计机器翻译系统,诸如美国专利7340388、美国专利5477451或美国专利7295962中的那些统计机器翻译系统。这些系统的基本原理是:使用翻译模型来捕捉源语言与目标语言之间的对应关系,使用翻译模型和语言模型来驱动解码器得到翻译结果。然而,这些系统没有考虑短语组合问题。
[0003]还提出了如以下文献中的一些基于语法的机器翻译系统:[Yamada 2001JKenjiYamada 和 Kevin Knight, “A syntax-basedstatistical translation model (基于语法的统计翻译模型)”,Proceedingsof the ACL, 2001 ; [Yamada 2002]K.Yamada 和 K.Knight,“ADecoder for Syntax-Based Statistical MT(用于基于语法的统计MT 的解码器)”,Proc.0f the Conference of the Association forComputational Linguistics(ACL),2002 ;或者[Graehl 2004] JonathanGraehl 和 Kevin Knight, “Training Tree Transducers (训练树变换器),,, Proceedings of the 2004 Meeting of the North American chapterof theAssociation for Computational Linguistics (NAACL-04),2004。这些系统在源语言或目标语言侧进行解析,并基于解析树来翻译句子。但是,这些系统仅根据遵守语法解析的节点单元来运行翻译处理,并且它们并不研究不是语法结构的短语组合问题。而且,这些系统没有展现用于短语组合概率的特殊模型。
[0004]美国专利6996518公开了用于自动衡量机器翻译质量的方法。该方法使用从源语言翻译到目标语言再翻译到源语言的“来回”翻译处理,以识别整个翻译结果的质量。如果所得的源语言文本中的“来回”翻译结果并不合理地等同于原始的源语言文本,则该翻译被识别为低质量。该“来回”翻译重复多次(其中每次重复具有解码处理),直到所得的源语言文本合理地等同于原始的源语言文本、或者直到所述处理重复预定次数,这导致大量的计算量并且是耗时的。该方法也没有考虑短语组合问题。

【发明内容】

[0005]可以看出,没有一种现有技术系统考虑了短语组合问题,短语组合没有被明确地建模,不同的短语组合被假定为相同的短语组合概率或者根本就不被考虑。这是不合理的,因为不同的短语组合具有不同的短语组合概率。
[0006]而且,一旦现有技术系统的翻译模型被训练,该翻译模型就保持静止。这些系统中的许多系统是开环的,如何评估输出中的短语翻译的质量以及如何使用该评估来指导下一次翻译处理仍然是个问题。
[0007]鉴于以上问题,需要一种新颖的用于将文本从第一语言(B卩,源语言)翻译到第二语言(即,目标语言)的系统和方法。
[0008]根据本发明的一方面,一种机器翻译方法包括以下步骤:
[0009]接收第一语言的文本;
[0010]创建反映第一语言的文本中的每个短语组合的短语组合概率的短语组合模型;
[0011]通过使用短语组合模型、翻译模型和语言模型将第一语言的文本翻译为第二语言的文本;
[0012]将第二语言的文本作为翻译结果输出,其中,所述翻译结果包含被翻译短语。
[0013]另外,本发明的机器翻译方法还包括以下步骤:基于翻译结果中的被翻译短语来评估翻译结果的翻译质量;调整翻译模型中与被翻译短语对应的翻译候选的翻译概率以用于下一次翻译处理。
[0014]根据本发明的另一方面,一种机器翻译系统包括:
[0015]输入单元,被配置为接收第一语言的文本;
[0016]创建单元,被配置为创建反映第一语言的文本中的每个短语组合的短语组合概率的短语组合模型;
[0017]翻译单元,被配置为通过使用短语组合模型、翻译模型和语言模型将第一语言的文本翻译为第二语言的文本;
[0018]输出单元,被配置为将第二语言的文本作为翻译结果输出,其中,所述翻译结果包含被翻译短语。
[0019]另外,本发明的机器翻译系统还包括:评估单元,被配置为基于翻译结果中的被翻译短语来评估翻译结果的翻译质量;调整单元,被配置为调整翻译模型中与被翻译短语对应的翻译候选的翻译概率以用于下一次翻译处理。
[0020]根据本发明的另一方面,一种用于将第一语言的文本翻译为第二语言的文本的机器翻译系统中的解码器设备,其中,机器翻译系统包括输入单元和输出单元,输入单元被配置为接收第一语言的文本,输出单元被配置为输出被翻译为第二语言的文本,解码器设备包括:
[0021]创建单元,被配置为创建反映第一语言的文本中的每个短语组合的短语组合概率的短语组合模型;
[0022]翻译单元,被配置为通过使用短语组合模型、翻译模型和语言模型将第一语言的文本翻译为第二语言的文本。
[0023]根据本发明,短语组合模型被提出,以反映不同短语组合(其中每个短语组合被作为一个单位进行翻译),并反映短语组合是否符合语法结构。通过本发明,能够在翻译期间考虑短语组合,这导致更精确的翻译。
[0024]另外,还能够评估输出中的短语翻译的质量,并调整与短语对应的翻译候选的翻译概率以更新翻译模型而不是存储低质量翻译候选,这使得能够用当前翻译的结果来指导下一次翻译,并且系统变为闭环反馈系统。
[0025]从以下参照附图的描述,本发明的其他特有特征和优点将会清楚。
【专利附图】

【附图说明】
[0026]合并在本说明书中并构成本说明书的一部分的附图图示了本发明的实施例,并与描述一起用于解释本发明的原理。
[0027]图1A图示了示出常规的机器翻译系统1000的结构的框图。
[0028]图1B图示了示出根据本发明的实施例的解码器单元200’的结构的框图。
[0029]图1C示出了根据本发明的实施例的机器翻译系统1000’。
[0030]图2图示了示出可实现本发明的实施例的计算机系统2000的硬件配置的框图。
[0031]图3图示了用于实现本发明的实施例的方法的流程图。
[0032]图4图示了根据本发明的实施例的用于创建短语组合模型的流程图。
[0033]图5图示了由解码器单元200’执行的操作的流程图。
[0034]图6图示了图4的步骤S230中的操作的流程图。
[0035]图7图示了根据本发明的实施例的翻译方法的流程图。
[0036]图8图示了图7的步骤S500的操作的流程图。
【具体实施方式】
[0037]在开始详细描述本发明之前,为了易于理解,下面介绍本文所使用的一些术语的含义。
[0038]短语(phrase):文本中的可能不具有语法或语义含义的相邻单词,单个单词也可被视为短语。
[0039]短语组合模型(phrase combination model):该模型反映将文本中的一些短语进行组合以将这些短语作为整体翻译的概率。
[0040]短语组合概率(phrase combination probability):用于将文本中的一些短语进行组合以将这些短语作为整体翻译的概率。
[0041]翻译模型(translation model):该模型反映关于源-目标短语翻译的一些信息。它存储源语言短语、对应的目标语言翻译候选以及翻译概率。
[0042]语言模型(language model):该模型是单语的,并用于优化翻译,以使得翻译可以通顺和相关。
[0043]翻译候选(translation candidate):对于每一个源语言短语,可能存在针对它的许多目标语言翻译,每一个目标语言翻译项是一个翻译候选。
[0044]原始短语组合(originalphrase combination)和子短语组合(sub-phrasecombination):当一些短语被组合为将被翻译的实体C时,如果可在翻译模型中找到C,也就是说,它在翻译模型中具有对应的翻译候选,则该短语组合是原始短语组合。如果C在翻译模型中不具有翻译候选,则将只有通过组合两个小的短语来得到它,该短语组合被称为子短语组合。
[0045]语法短语组合处理(syntax phrase combination process):这是根据短语组合是否符合语法结构来对待该短语组合的处理。
[0046]语法短语标签(syntax phrase tag):用于短语的根据该短语是否符合语法的标签,例如,动词短语被记为“VP”。
[0047]分隔点(partition point):单词的位置,在该位置上短语被划分为左部分和右部分。
[0048]术语短语组合处理(term phrase combination process):这是根据短语组合是否包括术语来对待该短语组合的处理。
[0049]可能情况(hypothesis):可能情况是具有关于翻译的一些信息的翻译状态,所述信息诸如:
[0050]I)与已被翻译的对应源单词有关的信息;
[0051]2)与目标语言的对应翻译候选有关的信息;
[0052]3)与短语组合模型的短语组合概率有关的信息;
[0053]4)与翻译模型的翻译概率有关的信息;
[0054]5)与语言模型的语言概率有关的信息;
[0055]6)与其它模型的概率有关的信息;和
[0056]7)与总概率有关的信息。
[0057]接下来,将参照附图来详细描述本发明的实施例。请注意,类似的附图标记和文字表示图中类似的项目,因此,一旦在一个图中定义了某项目,对于后面的图就无需对其进行讨论。
[0058]虽然将以英文作为第一语言、中文作为第二语言来描述本发明的特定实施例,但是这些仅仅是作为例子,本发明不限于此。从以下描述可容易认识到,用作源语言或目标语言的语言不影响本发明的实现,只要在源语言中可产生短语组合即可。
[0059]图1A图示了示出常规的机器翻译系统100的结构的框图。
[0060]机器翻译系统1000包括输入单元100、解码器单元200、输出单元300以及翻译模型420和语言模型430。
[0061]输入单元100用作用户输入第一语言(比如,英文)的文本以由机器翻译系统1000翻译为第二语言(比如,中文)的文本的输入部件。输入部件可包括但不限于可用于输入用于翻译的文本的键盘、触摸面板、记录笔、麦克风、用户界面等。
[0062]解码器单元200用于将文本从第一语言翻译为第二语言以获得翻译输出。为了实现翻译,解码器单元200将直接或者经由数据访问单元(未示出)访问翻译模型420和语言模型430。
[0063]输出单元300用作用于将翻译结果输出给用户的输出部件。输出部件可包括但不限于可用于将翻译结果输出给用户的显示面板、扬声器、用户界面等。
[0064]常规的机器翻译系统1000在其翻译期间没有考虑短语组合模型,不同的短语组合被假定为相同的短语组合概率或者根本就不被考虑。这是不合理的并会导致质量不好的翻译,因为不同的组合具有不同的短语组合概率。
[0065]为此,图1B图示了示出根据本发明的实施例的可用于创建短语组合模型的解码器单元200’的结构的框图。
[0066]如图1B所示,解码器单元200’包括创建单元210和翻译单元220。创建单元210用于创建捕捉不同短语组合中的不同短语组合概率的短语组合模型410。翻译单元220用于参照所创建的短语组合模型410、翻译模型420和语言模型430将文本从第一语言翻译为
第二语目。
[0067]另外,在常规的机器翻译系统1000中,来自解码器单元200的翻译输出仅被传送给用户而不作用于下一次翻译,致使常规的机器翻译系统1000成为开环系统,并使得翻译模型420固定而不改变。[0068]为此,图1C示出了根据本发明的实施例的机器翻译系统1000’,除了图1A和图1B中所示的组件(例如,输出单元300、短语组合模型410和语言模型430,出于简洁性原因而将其省略)之外,机器翻译系统1000’还具有评估单元500、调整单元600和更新单元700。
[0069]评估单元500用于评估由解码器单元200’输出的翻译的翻译质量。
[0070]调整单元600用于基于评估单元500的评估结果来调整翻译概率。
[0071 ] 更新单元700用于改进或更新翻译模型420,更新后的翻译模型420用于下一次翻译处理。改进或更新翻译模型可包括用新调整的翻译模型代替对应的旧翻译模型、或者将调整后的翻译概率与原始翻译概率组合以得到新的模型。用于改进或更新翻译模型的具体技术在相关领域中是已知的,将省略其详细描述。
[0072]通过使用本发明的实施例的机器翻译系统1000’,不仅可在翻译处理期间考虑短语组合概率,而且可更新翻译模型420,并且,机器翻译系统变为闭环反馈系统,使得翻译效率以及翻译质量可得以改进。
[0073]在下文中将详细描述解码器单元200’(包括创建单元210和翻译单元220)和评估单元500的详细操作。
[0074]根据本发明的可替代实施例,机器翻译系统1000’还可包括耦接在输入单元100与解码器单元200’之间的预处理单元(未示出),该预处理单元用于对输入文本进行预处理,作为解码器单元200’对后续翻译的准备处理。所述准备处理可包括但不限于分割输入文本中的单词、根据标点符号将输入文本分割为分开的句子、以及使输入文本的编码(例如,十进制到二进制转换器(Decimal to Binary Converter, DBC)情况和六十进制到二进制转换器(Sexagesimal to BinaryConverter, SBC)情况的转换、标点符号编码等)一致。
[0075]根据本发明的另一可替代实施例,机器翻译系统1000’还可包括耦接在输入单元100与解码器单元200’之间的术语识别单元(未示出),该术语识别单元用于识别输入文本中的术语。术语是在上下文中重要且相对稳定的构造,并通常被翻译为其它语言中的稳定形式。机器翻译系统1000’可具有术语存储器,每次文本被输入时,将搜索术语存储器来查找在输入文本中是否存在术语。如果在输入文本中存在术语,则将在文本中标记术语的位置。一些术语例子如下:DialogBox (对话框)、Print head (打印头)、PC Printing Guide(PC打印向导)、Control Panel (控制面板)、Hard disk (硬盘)或ALARMLamp (警告灯)。用于标记文本中的术语的技术在相关技术中是已知的,为了说明书的简洁,将省略其详细描述。如果在实际翻译之前进行术语识别,则可减小翻译处理中的计算量和翻译结果的偏差,这导致更高效率且更精确的翻译。
[0076]根据本发明的另一可替代实施例,机器翻译系统1000’可包括预处理单元和术语识别单元这二者,这两个单元按指定的顺序耦接在输入单元100与解码器单元200’之间。
[0077]本领域技术人员可容易意识到,在上面描述的单元和将在下面描述的单元是用于实现将在下面描述的处理的示例性和/或优选模块。所述模块可以是硬件单元(例如,现场可编程门阵列、数字信号处理器、专用集成电路等)和/或软件模块(例如,计算机可读程序)。以上没有穷尽描述用于实现各个步骤的模块。然而,在存在执行某一处理的步骤的情况下,可以存在用于实现相同处理的对应功能模块或单元(用硬件和/或软件实现)。由以下描述的步骤的所有组合和与这些步骤对应的单元限定的技术方案被包括在本申请的公开内容中,只要它们所构成的技术方案是完整且可应用的。[0078]此外,由各种单元构成的上述装置可作为功能模块被合并到诸如计算机的硬件设备中。当然,除了这些功能模块之外,计算机还可具有其它硬件或软件组件。
[0079]图2图示了示出可实现本发明的实施例的计算机系统2000的硬件配置的框图。
[0080]如图2所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、非可移除非易失性存储器接口 1140、可移除非易失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外设接口1195。
[0081]系统存储器1130包括ROM (只读存储器)1131和RAM (随机存取存储器)1132。BIOS (基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和一些程序数据1137驻留在RAM 1132中。
[0082]非可移除非易失性存储器1141 (例如硬盘)与非可移除非易失性存储器接口 1140连接。非可移除非易失性存储器1141可存储例如操作系统1144、应用程序1145、其它程序模块1146和一些程序数据1147。
[0083]可移除非易失性存储器(例如软盘驱动器1151和⑶-ROM驱动器1155)与可移除非易失性存储器接口 1150连接。例如,软盘1152可被插入到软盘驱动器1151中,⑶(紧致盘)1156可被插入到⑶-ROM驱动器1155中。
[0084]输入设备(例如麦克风1161和键盘1162)与用户输入接口 1160连接。
[0085]计算机1110可通过网络接口 1170与远程计算机1180连接。例如,网络接口 1170可经由局域网1171与远程计算机1180连接。可替代地,网络接口 1170可与调制解调器(调制器-解调器)1172连接,并且调制解调器1172经由广域网1173与远程计算机1180连接。
[0086]远程计算机1180可包括存储远程应用程序1185的存储器1181 (例如硬盘)。
[0087]视频接口 1190与监视器1191连接。
[0088]输出外设接口 1195与打印机1196和扬声器1197连接。
[0089]图2所示的计算机系统仅仅是说明性的,绝非意图限制本发明、其应用或用途。
[0090]图2所示的计算机系统对于任一实施例可被实现为独立计算机或者被实现为装置中的处理系统,其中可能移除一个或多个不必要的组件或者添加一个或多个附加的组件。
[0091]图3图示了用于实现本发明的实施例的方法的流程图。
[0092]在步骤SlOO中,经由输入单元100输入第一语言(比如,英文)的文本。可一次将一个或多个文本输入到机器翻译系统中。在存在多于一个文本的情况下,将以一次一个的方式对它们进行翻译。
[0093]接着,在步骤S200中,由创建单元210创建短语组合模型,以反映输入文本中的短语组合的短语组合概率。
[0094]然后,在步骤S300中,由翻译单元220参照翻译模型、短语组合模型、语言模型和其它可能的模型(比如,重排序模型)将第一语言(比如,英文)的文本翻译为第二语言(t匕如,中文)的文本。
[0095]最后,在步骤S400中,由输出单元300输出翻译结果。
[0096]根据本发明的可替代实施例,在第一语言的文本被输入之后,可首先对它进行预处理(例如,分割输入文本中的单词、根据标点符号将输入文本分割为分开的句子、以及使输入文本的编码一致),作为对于后续处理的准备处理。
[0097]根据本发明的另一可替代实施例,在第一语言的文本被输入之后,还可存在用于识别输入文本中的术语的步骤,以减小翻译处理中的计算量和后续处理中的翻译结果的偏差。
[0098]根据本发明的另一可替代实施例,可按指定的顺序执行上述预处理步骤和术语识别步骤这二者。
[0099]图4图示了由本发明的实施例的创建单元210创建短语组合模型的流程图。
[0100]假定在图3的步骤SlOO中具有K个单词的第一语言的文本被输入到输入单元100,并且取“clean the inside of the printer”作为输入文本的具体例子,其中,K为6。
[0101]输入文本可被划分为不同范围(或长度)值的子文本。例如,每个单词本身是范围值(range value)R_N=l 的子文本,“clean the,,、“the inside,,、“inside of,,、“of the”和“the printer”是范围值R_N=2的子文本。
[0102]在步骤S210中,从最小范围(R_N=1)开始,枚举子文本中的可能情况。
[0103]可能情况可通过范围值以及输入文本中的起始单词位置和结束单词位置来定义,并以hypothesisstack[nLeft] [nRight]的堆栈形式被存储,其中,[nLeft]表示可能情况的左位置或起始位置,[nRight]表示可能情况的右位置或结束位置。
[0104]例如,对于输入文本“clean the inside of the printer”,其中的单词位置是:
[0105]clean[0]the[I]inside[2]of[3]the[4]printer[5]
[0106]于是,覆盖“clean the inside”的翻译可能情况可被存储为hypothesisstack[0]
[2]。
[0107]然而,本领域技术人员容易意识到,当本发明用于从右到左阅读的语言时,可能情况的右位置将是起始位置,可能情况的左位置将是结束位置。
[0108]以下,将通过使用从左到右阅读的语言作为例子来描述本发明。
[0109]接着,在步骤S220中,在对输入文本的当前范围枚举所有可能情况之后,对每个枚举的可能情况产生短语组合,如将在下面更详细描述的。
[0110]然后,在步骤S230中,对每个短语组合计算短语组合概率,如将在下面更详细描述的。
[0111]对输入文本中的单词的每个范围执行步骤S210-230中的操作,以创建短语组合模型。
[0112]图4的步骤S210、S220和S230可分别由未在本文示出的枚举单元、产生单元和计算单元执行。
[0113]图5图示了由解码器单元200’执行的操作的流程图,其中,步骤S230’ -S250’与图4中的步骤S210-S230相同,为了简洁起见,将省略其描述。
[0114]在步骤S210’中,将第一语言的输入文本划分为不同范围值的子文本。
[0115]然后,在步骤S220’中,将范围值(R_N)初始化为1,并如参照图4所述的那样创建该范围的短语组合模型。
[0116]在对当前范围中的所有可能情况创建短语组合模型之后,在步骤S260’中,组合所使用的所有模型(短语组合模型、翻译模型、语言模型等)来驱动翻译处理以得到翻译结果,稍后将详细描述步骤S260’的具体操作。[0117]接着,在步骤S270’中,确定当前可能情况是否是范围(R_N)中的最后一个。如果是,则所述操作前进到步骤S280’,在步骤S280’中将范围值R_N加I。否则,所述操作循环回到步骤S230’,并重复步骤S230’ -S260’的操作。
[0118]在步骤S280’中将范围值R_N加I之后,在步骤S290’中确定范围值R_N是否大于K。如果是,贝U可输出对于当前输入文本(即,hypothesisstack[0] [K-1])以目标语言的翻译结果。否则,所述操作循环回到步骤S230’,并重复步骤S230’-S280’的操作。
[0119]本发明的实施例的解码器单元200’应用自下而上的动态编程机制。也就是说,解码器单元200’首先对输入文本中的小范围的源单词运行翻译处理,将对应的翻译可能情况存储在对应的堆栈中。然后,解码器单元200’扩展可能情况以覆盖更大的范围,直到整个输入文本被翻译。
[0120]为了创建短语组合模型,在每一个单词范围中,解码器单元200’的创建单元210枚举具有该范围值的所有可能情况。对于具有索引hypothesisstack[nLeft] [nRight]的每一个可能情况堆栈,创建单元210将运行用于产生所有短语组合的短语组合处理(其中每一个短语组合是对应的翻译可能情况)以及用于对每一个可能情况计算短语组合概率的处理,解码器单元200’的翻译单元220运行用于组合所有所使用的模型来产生每一个可能情况的最终翻译状态并得到可能情况堆栈的最终可能情况(或翻译结果)的处理。范围扩大,直到产生范围(R_N=K)中的所有可能情况,并输出翻译结果。
[0121]以下,将更详细地描述在图4的步骤S220中或者在图5的步骤S240’中对于某一范围的可能情况产生所有短语组合的操作。
[0122]对于从左位置到右位置覆盖输入文本的当前范围的源单词的翻译可能情况堆栈,所述方法可具有两种形式 来产生短语组合。
[0123]第一种形式是将该范围内的所有相邻单词组合为可能情况的整个短语,该形式通常对于在翻译模型中具有对应翻译项或候选的源单词进行。
[0124]然而,对于在翻译模型中不具有对应翻译项或候选的源单词,第二种形式是可在中间点(middle point)(即,分隔点(partition point))上将其当前范围分割为左短语组合和右短语组合,然后将这两个部分组合以生成可能情况的短语组合。
[0125]例如,对于输入文本“clean the inside of the printer”,可生成以下短语组合:
[0126]输入文本:clean[O] the [I] inside [2] of [3] the [4] printer [5] PhraseCom: ([0]
[0])([1][1])([2] [2])..................[0127]([0][1])([2] [3])......[0128]([I][2])......[0129]([0] [2])............[0130]PhraseCom[0] [2]可通过将相邻单词“clean the inside”组合为一个短语而生成(上述第一种形式)。
[0131]可替代地,PhraseCom[0] [2]可通过将具有覆盖源单词“clean the”的可能情况的PhraseCom[0] [I]与具有覆盖源单词“inside”的可能情况的PhraseCom[2] [2]合并来生成,或者通过将PhraseCom[0] [0]和PhraseCom[l] [2]合并来生成,其中分割点在不同的位置(上述第二种形式)。因为 PhraseCom[0] [I]、PhraseCom[2] [2]、PhraseCom[0] [0]和PhraseCom[I] [2]的范围值小于PhraseCom[0] [2]的范围值,所以它们在之前已被翻译。
[0132]可以看出,对于第二种形式,首先,从左到右枚举hyphothesisstack[nLeft][nRight]的当前范围中的分隔点;其次,通过在左侧的第一分隔点上分隔当前范围获得的左短语组合和右短语组合被合并以生成当前可能情况的短语组合;然后,通过将分隔点移到下一分隔点以处理下一短语组合来重复该处理,直到所有的分隔点被处理。
[0133]对于所产生的每一个短语组合,将产生对于hypothesisstack[nLeft] [nRight]的可能情况。可考虑第一种形式和第二种形式这两种形式的短语组合。
[0134]接下来,将参照图6来更详细地描述在图4的步骤S230中或者在图5的步骤S250’中对于与短语组合对应的可能情况计算短语组合概率的操作。
[0135]如图6所示,对于从图4的步骤S220 (或者图5的步骤S240’)产生的每个短语组合C (比如,具有R个单词),在步骤S231中,确定当前短语组合C是否是原始短语组合。
[0136]如上所述,具有某一范围的相邻单词的短语可被看作大的短语(B卩,上述第一种形式),或者可由两个小的子短语生成(即,上述第二种形式)。如果可在翻译模型中找到当前短语组合C,也就是说,它具有对应的翻译项或候选,则该短语组合被称为原始短语组合。在这种情况下,当前短语组合C中的子短语的数量为1,所述方法设置:
[0137]Ncoffl (C) =NCOffl_o (C)=I (I)
[0138]其中,Ncom是将用于计算短语组合概率的折算值(di scount ingvalue ), Ν_—。是当前短语组合中的短语的原始数量。
[0139]如果当前 短语组合C在翻译模型中不具有翻译项或候选,则将只有通过组合两个小的子短语来得到它,该短语组合被称为子短语组合。
[0140]如果在步骤S231中确定当前短语组合C是原始短语组合,则在步骤S232至S236中对它进行原始短语组合处理。否则,它将在步骤S237和S238中经过子短语组合处理。
[0141]原始短语组合处理可包括两个处理,即,被示为步骤S232-S233的术语短语组合处理和被示为步骤S234-S236的语法短语组合处理。术语短语组合处理不是本发明的必要处理,并且可被省略。另外,虽然在下文中示出术语短语组合处理在语法短语组合处理之前执行,但是本发明不限于此。例如,术语短语组合处理也可与语法短语组合处理同时执行。
[0142]返回参照图6,具体地讲,如果在步骤S231中确定当前短语组合C是原始短语组合,则在步骤S232中进一步确定它是否包含整个术语或者术语的分解片段(brokenfragment)。如前面所述的,所述方法通过任意地组合相邻单词来生成短语组合。作为这样做的结果,当前短语组合C可能具有术语的分解片段。例如,对于输入文本“cleantheinside of the printer”,短语组合“ inside of the” 具有术语“the printer” 的分解片段。
[0143]然后,在步骤S233中,基于来自步骤S232的确定结果,执行术语短语组合处理如下。
[0144]I)如果当前短语组合C具有术语的分解片段,则所述方法设置:
【权利要求】
1.一种机器翻译方法,包括以下步骤: 接收第一语言的文本; 创建反映所述第一语言的文本中的每个短语组合的短语组合概率的短语组合模型;通过使用所述短语组合模型、翻译模型和语言模型将所述第一语言的文本翻译为第二语目的文本; 将所述第二语言的文本作为翻译结果输出,其中,所述翻译结果包含被翻译短语。
2.根据权利要求1所述的机器翻译方法,还包括: 将所述第一语言的文本划分为不同范围值的子文本,以及 其中,创建短语组合模型的步骤进一步包括: 对于每个范围值, 枚举所述第一语言的子文本中的可能情况; 对于每个枚举的可能情况产生短语组合;以及 对于每个短语组合计算短语组合概率。
3.根据权利要求2所述的机器翻译方法,其中,对于每个短语组合计算短语组合概率的步骤进一步包括: 判断当前短语组合是否是原始短语组合;· 如果当前短语组合是原始短语组合,则通过原始短语组合处理来计算短语组合概率; 否则,通过子短语组合处理来计算短语组合概率。
4.根据权利要求3所述的机器翻译方法,其中,所述原始短语组合处理包括: 执行语法短语组合处理;以及 计算原始短语组合的短语组合概率。
5.根据权利要求4所述的机器翻译方法,其中,所述原始短语组合处理还包括: 执行术语短语组合处理。
6.根据权利要求4所述的机器翻译方法,其中,所述语法短语组合处理包括: 确定当前短语组合是否符合第一语言中的语法结构; 响应于当前短语组合符合语法结构的确定,基于该短语组合中的子短语的原始数量来调整该短语组合中的子短语的折算值。
7.根据权利要求3所述的机器翻译方法,其中,所述子短语组合处理包括: 在分隔点上将当前短语组合划分为左短语组合和右短语组合; 基于以下条件来计算当前短语组合的短语组合概率, 1)是否存在与所述左短语组合对应的可能情况; 2)是否存在与所述右短语组合对应的可能情况;以及 3)所述左短语组合、所述右短语组合和所述当前短语组合是否符合第一语言中的语法结构。
8.根据权利要求2所述的机器翻译方法,其中,翻译的步骤进一步包括: a)基于所述短语组合模型来计算当前可能情况的所述短语组合概率; b)基于所述翻译模型来计算当前可能情况的翻译概率; c)基于所述语言模型来计算当前可能情况的语言概率; d)组合所述短语组合概率、所述翻译概率和所述语言概率以得到当前可能情况的总累积统计概率;以及 重复步骤a)-d),直到整个文本被翻译以得到翻译结果。
9.根据权利要求1、2或8所述的机器翻译方法,还包括以下步骤: 基于所述翻译结果中的被翻译短语来评估所述翻译结果的翻译质量; 调整所述翻译模型中与被翻译短语对应的翻译候选的翻译概率以用于下一次翻译处理。
10.根据权利要求9所述的机器翻译方法,其中,评估所述翻译结果的翻译质量的步骤进一步包括: 得到所述翻译结果中的每个被翻译短语的总累积统计概率; 根据所述翻译结果中的每个被翻译短语的总累积统计概率来决定质量阈值; 通过总累积统计概率与所述质量阈值的比较来评估每个被翻译短语的翻译质量。
11.根据权利要求10所述的机器翻译方法,其中,评估每个被翻译短语的翻译质量的步骤进一步包括: 在总累积统计概率大于或等于所述质量阈值的情况下,将与被翻译短语对应的翻译候选评估为良好质量;以及 否则,将与被翻译短语对应的翻译候选评估为非良好质量。
12.根据权利要求9所述的机`器翻译方法,其中,调整所述翻译模型中与被翻译短语对应的翻译候选的翻译概率的步骤进一步包括: 对于每个被翻译短语, 调整被评估为良好质量的翻译候选的翻译概率; 调整与被评估为良好质量的翻译候选对应的其它翻译候选的翻译概率。
13.一种机器翻译系统,包括: 输入单元,被配置为接收第一语言的文本; 创建单元,被配置为创建反映所述第一语言的文本中的每个短语组合的短语组合概率的短语组合模型; 翻译单元,被配置为通过使用所述短语组合模型、翻译模型和语言模型将所述第一语言的文本翻译为第二语言的文本; 输出单元,被配置为将所述第二语言的文本作为翻译结果输出,其中,所述翻译结果包含被翻译短语。
14.根据权利要求13所述的机器翻译系统,还包括: 划分单元,被配置为将所述第一语言的文本划分为不同范围值的子文本,以及 其中,所述创建单元进一步包括: 枚举单元,被配置为对于每个范围值,枚举所述第一语言的子文本中的可能情况; 产生单元,被配置为对于每个枚举的可能情况产生短语组合;以及 计算单元,被配置为对于每个短语组合计算短语组合概率。
15.根据权利要求14所述的机器翻译系统,其中,所述计算单元进一步包括: 判断单元,被配置为判断当前短语组合是否是原始短语组合; 原始短语组合单元,被配置为响应于当前短语组合是原始短语组合的判断,通过原始短语组合处理来计算短语组合概率;子短语组合单元,被配置为响应于当前短语组合不是原始短语组合的判断,通过子短语组合处理来计算短语组合概率。
16.根据权利要求15所述的机器翻译系统,其中,所述原始短语组合单元进一步包括: 语法短语组合单元,被配置为执行语法短语组合处理;以及 被配置为计算原始短语组合的短语组合概率的单元。
17.根据权利要求16所述的机器翻译系统,其中,所述原始短语组合单元还包括: 术语短语组合单元,被配置为执行术语短语组合处理。
18.根据权利要求16所述的机器翻译系统,其中,所述语法短语组合单元进一步包括: 被配置为确定当前短语组合是否符合第一语言中的语法结构的单元; 被配置为响应于当前短语组合符合语法结构的确定,基于该短语组合中的子短语的原始数量来调整该短语组合中的子短语的折算值的单元。
19.根据权利要求15所述的机器翻译系统,其中,所述子短语组合单元包括: 被配置为在分隔点上将当前短语组合划分为左短语组合和右短语组合的单元; 被配置为基于以下条件来计算当前短语组合的短语组合概率的单元, 1)是否存在与所述左短语组合对应的可能情况; 2)是否存在与所述 右短语组合对应的可能情况;以及 3)所述左短语组合、所述右短语组合和所述当前短语组合是否符合第一语言中的语法结构。
20.根据权利要求14所述的机器翻译系统,其中,所述翻译单元进一步包括: 被配置为基于所述短语组合模型来计算当前可能情况的所述短语组合概率的单元; 被配置为基于所述翻译模型来计算当前可能情况的翻译概率的单元; 被配置为基于所述语言模型来计算当前可能情况的语言概率的单元; 被配置为组合所述短语组合概率、所述翻译概率和所述语言概率以得到当前可能情况的总累积统计概率的单元。
21.根据权利要求13、14或20所述的机器翻译系统,还包括: 评估单元,被配置为基于所述翻译结果中的被翻译短语来评估所述翻译结果的翻译质量; 调整单元,被配置为调整所述翻译模型中与被翻译短语对应的翻译候选的翻译概率以用于下一次翻译处理。
22.根据权利要求21所述的机器翻译系统,其中,所述评估单元进一步包括: 被配置为得到所述翻译结果中的每个被翻译短语的总累积统计概率的单元; 被配置为根据所述翻译结果中的每个被翻译短语的总累积统计概率来决定质量阈值的单元; 被配置为通过总累积统计概率与所述质量阈值的比较来评估每个被翻译短语的翻译质量的单元。
23.根据权利要求22所述的机器翻译系统,其中,所述评估单元进一步包括: 被配置为在总累积统计概率大于或等于所述质量阈值的情况下,将与被翻译短语对应的翻译候选评估为良好质量的单元;以及 被配置为在总累积统计概率小于所述质量阈值的情况下,将与被翻译短语对应的翻译候选评估为非良好质量的单元。
24.根据权利要求21所述的机器翻译系统,其中,所述调整单元进一步包括: 被配置为对于每个被翻译短语,调整被评估为良好质量的翻译候选的翻译概率的单元; 被配置为调整与被评估为良好质量的翻译候选对应的其它翻译候选的翻译概率的单元ο
25.一种用于将第一语言的文本翻译为第二语言的文本的机器翻译系统中的解码器设备,其中,所述机器翻译系统包括输入单元和输出单元,所述输入单元被配置为接收第一语言的文本,所述输出单元被配置为输出被翻译为第二语言的文本,所述解码器设备包括: 创建单元,被配置为创建反映第一语言的文本中的每个短语组合的短语组合概率的短语组合模型; 翻译单元,被配置为通过使用所述短语组合模型、翻译模型和语言模型将第一语言的文本翻译为第二语言的文本。
26.根据权利要求25所述的解码器设备,还包括: 划分单元,被配置为将所述第一语言的文本划分为不同范围值的子文本,以及 其中,所述创建单元进一步包括: 枚举单元,被配置为对于每个范围值,枚举所述第一语言的子文本中的可能情况; 产生单元,被配置为对于每个枚举的可能情况产生短语组合;以及 计算单元,被配置为对于每个短语组合计算短语组合概率。
27.根据权利要求26所述的解码器设备,其中,所述计算单元进一步包括: 判断单元,被配置为判断当前短语组合是否是原始短语组合; 原始短语组合单元,被配置为响应于当前短语组合是原始短语组合的判断,执行原始短语组合处理; 子短语组合单元,被配置为响应于当前短语组合不是原始短语组合的判断,执行子短语组合处理。
28.根据权利要求26所述的解码器设备,其中,所述产生单元用于通过如下至少一个来对每个枚举的可能情况产生短语组合:组合每个范围值的子文本中的所有相邻单词来产生短语组合;以及将每个范围值的子文本划分为左短语组合和右短语组合,并组合该两个子短语组合来产生所述短语组合。
【文档编号】G06F17/27GK103823795SQ201210464448
【公开日】2014年5月28日 申请日期:2012年11月16日 优先权日:2012年11月16日
【发明者】那森, 杨振东 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1