语言内统计机器翻译的制作方法

文档序号:6593259阅读:198来源:国知局
专利名称:语言内统计机器翻译的制作方法
语言内统计机器翻译背景基于网络的搜索服务、因特网搜索引擎、语音搜索、本地搜索、以及用于搜索和检 索信息的各种其他技术已变得对于帮助人们找到信息越来越重要。语音搜索涉及语音识别 与信息检索的耦合。说出的短语被自动识别为文本,并且该文本作为查询提交给搜索服务。 例如,一个人可使用配备语音搜索应用程序的移动电话,通过将餐馆名称说到移动设备中 来找到餐馆,并且该移动设备可识别说出的餐馆名称(即,将其转换成文本)并将餐馆名称 的文本传送到诸如商家目录等远程搜索服务。本地搜索是一种特殊搜索情况,其中已经使 用了商家设施、企业、组织或其他实体的列表以使移动设备能够搜索它们。考虑以下示例用户可能对找到关于作为“Kung Ho Cuisine of China (更好小馆)”列在目录 中的商家的信息感兴趣。然而,该用户将查询制定为“Kung Ho Restaurant (更好餐厅)”。 当前,对该列表的搜索将不利用查询和列表形式的各部分之间的统计并行。此外,错误的列 表,例如“Kung Ho Grocery (更好杂货店)”可作为相关匹配而返回。以下讨论涉及用于语音识别、搜索和其他技术的统计语言内机器翻译及其应用的 技术。概述以下概述仅是为了介绍在以下详细描述中讨论的某些概念而包括的。本概述并不 是全面的,并且不旨在描绘所要求保护的主题的范围,该范围由所附的权利要求书来阐明。可以提供训练数据。该训练数据可包括源短语和目标短语对。这些对可用于训练 语言内统计机器翻译模型,其中该语言内统计机器学习模型在被给予人类语言的文本输入 短语时可计算输入短语与人类语言的输入短语的可能翻译在语义上等价的概率。该统计机 器翻译模型可用于在查询和列表之间进行翻译。查询可以是提交给搜索引擎的人类语言的 文本串。列表串可以是将要由搜索引擎搜索以找出对查询串的匹配的真实世界实体的正式 名称的文本串。许多附带特征将参考以下的详细描述并结合附图考虑以在下文解释。附图简述根据附图阅读以下详细描述,将更好地理解本发明,其中在所附描述中使用相同 的附图标记来指代相同的部分。

图1示出了用于语言内统计机器翻译的一般过程。图2示出了用于构建基于n元语法的模型的过程。图3示出了用于使用统计翻译模型来改进搜索系统和/或语音识别系统的语言模 型的安排。详细描述概览以下描述涵盖涉及使用统计机器翻译模型来在相同的人来语言的句子或短语之 间进行翻译的实施例。本说明书从对如何使用相对较小的训练句子或短语集来训练统计翻 译模型的讨论开始。然后描述语言内机器翻译模型的应用,包括搜索、自动语音识别(ASR)以及语音识别结果显示的应用。语言内统计机器翻译模型统计模型已经用于将句子从一种语言翻译成另一种语言。然而,未训练这些模型 或未使用这些模型来在相同语言的短语或句子之间进行翻译。即,统计建模先前未用于将 例如英语短语翻译成也是英语的在语义上类似的短语。统计翻译模型是某一文本样本的一般化,该文本样本可以是诸如查询串和对应的 目录列表等并行短语。某些类型的统计翻译模型给出目标句子或短语是源句子或短语的翻 译的概率,并且这些概率反映从训练文本导出的统计模式。实际上,该模型是从训练句子的 统计度量反映出的特性或趋势的概率性一般化。注意,贯穿本说明书,术语“句子”和“短语” 将可互换地用来指相对较短的单词排列。商家的正式和非正式名称、用户输入的查询串、语 法句子、从句等是句子或短语的示例。还注意,虽然本说明书讨论如适用于基于短语的搜索 (尤其是语音和/或地理位置搜索)的语言内统计机器翻译,但概念不限于这些搜索应用。 此外,较短短语的搜索列表也适用于除本地搜索之外的其他类型的搜索,包括产品搜索、职 位搜索等。图1示出了用于语言内统计机器翻译的一般过程。最初,训练100统计机器翻译 模型。训练100将在稍后详细描述。训练100使用可来自各种源的训练数据样本来执行。 该训练数据将包括相同人类语言的并行(成对)短语。训练100将可用于计算短语的候选 翻译的概率或可能性的统计数据(例如,n元语法)通知给翻译模型。对基于n元语法的 模型的特定训练100将在下文中描述。在训练100模型后,使用该模型来将源短语翻译102成目标短语。翻译102涉及 从源短语开始并获取语义上类似或等价的目标短语。例如,源短语“Kimg Ho Cuisine of China”可能被翻译成目标短语“Kung Ho ChineseRestaurant (更好中国餐馆)”或“Kung Ho Restaurant”。获取不同形式的候选目标短语。该统计翻译模型用于找出一个或多个最 有可能的候选目标短语。考虑以下对基于语音的搜索以及该搜索如何与语言内机器翻译相 关的概览。语音搜索系统可涉及两个组件语音识别组件和信息检索(搜索)组件。说出的 话语o使用自动语音识别(ASR)来转换成文本查询q,即qx = argmax p(o\q)p(q)(1)其中p (o | q)和p (q)分别表示声学模型和语言模型(LM)。统计LM(例如,n元语 法模型)经常用于允许用户能说什么方面的灵活性。即,这些模型允许ASR组件识别各种 言语。接着,最佳(或n个最佳)q被传递至搜索引擎以检索最相关的文档d,即d" = argmaxd p(dtq)(2)在本地搜索的上下文中,文档d可具有商家列表的形式(商家、组织或其他实体的 名称),该列表通常较短,例如“Kung Ho Cuisine of China”。给定该用于基于语音的搜索的框架,因为列表和查询都相对较短,所以它们被视 作类似于在双语翻译训练中找到的“句子对”的对。可使用适于语言内翻译的双语统计翻 译模型来自动将原始形式的列表自动转换成其查询形式(即,用户可能期望在搜索列表时 输入的形式),进而可使用该查询形式来构建更稳健的LM以便进行语音搜索、语法检查或 其他应用。方便地,统计翻译模型可使用少量转录或人工产生的查询来训练,而不必获取匹配列表。虽然各种类型的统计模型可用于机器翻译,但接下来将描述基于n元语法的模型。尽管查询短语及其预期列表短语在形式上可以不同,但在这两个短语之间通常存 在单词级语义对应性。换言之,查询中的单词可以映射到列表中的单词或空单词,反之亦 然。机器翻译方法可用于预测列表的查询形式,并且然后利用所预测的查询形式来改进语 言建模。具体而言,如下文中所讨论的,可对单词对使用n元语法来对列表和查询的联合 (条件)概率建模。图2示出了用于构建基于n元的模型的过程。接收120相同人类语言的源句子和 目标句子对。通过计算这两个句子之间的编辑距离来获取122源句子和目标句子之间的对 齐。然后将对齐的句子的单词和/或短语配对124并将其视作语义单元。配对可通过找出 在语义/字面上相似/等价的单词或短语来形成。然后使用这些配对来训练126n元语法 模型。可针对不同的源句子和目标句子重复该过程的各个步骤。虽然较小的训练句子集对 于某些应用可能足够,但使用更多训练数据将创建更稳健的模型。还注意,对齐和n元语法 模型可以在最大似然的意义上迭代地更新和细化。现在将描述生成基于n元语法的模型的细节。为了训练100基于n元语法的模型, 提供初始训练数据。这些数据可以是并行文本(d,q)的主体,其中列表d和查询q分别用 作源句子和目标句子。句子d和q可以单调对齐,其中在必要时添加空单词以解决出现在 对齐中的插入或删除。该单调对齐将被表示为a。注意,在另一实施例中,可使用非单调对 齐。一旦对齐,就生成来自d和q的单词对序列,其被表示为(d,q,a) = ((d^ Ql) , (d2, q2),. . .,(dL, ,其中(屯,Qi)被视作单个语义单元。可以在必要时合并连续单词对以形 成短语对。然后可使用单词对序列来训练n元语法模型。因此,如下计算对齐句子对的概率nPM(d'9'Q)=、(3)
P{(d.p qi)l(di-n+l'%-n+l).(力-1.^-1))其中M表示单调条件。注意,初始对齐a可使用d和q之间的Levenshtein距离 来计算。该对齐和n元语法模型的参数可以在最大似然的意义上更新。重新对齐可基于例 如配对频率。给定经训练的n元语法模型,可执行列表到查询翻译。给定列表形式d并且给定查 询形式q(来自稍后讨论的解码器),搜索查询形式以找出具有最高条件概率的查询形式q“ max, raaxa pM (d, q, a)(4)其中p(d,q, a)使用等式(3)来求值。该翻译不仅充分利用如由单一语法建模的单词级语义对应性,而且还通过使用更 高阶的n元语法来考虑单词上下文。对最佳或n个最佳查询形式的搜索可通过应用最佳 优先搜索算法来高效地实现,该算法由Russell和Norvig在Artificial Intelligence :A Modern Approach (人工智能一种现代方法)(PrenticeHall,2003年第二版)中描述。使 用这种类型的搜索,可应用修剪技术以降低计算复杂性。返回到用于语音识别的语言模型 (LM),一旦对于列表获取n个最佳查询形式,就可将这些查询形式用作训练句子以便进行 LM估算。要考虑两个实现细节。第一,允许在d中使用空单词在解码时引起潜在问题-搜
6索空间显著地扩展,因为可以在源句子的任何位置存在或缺少空单词。为了避免该问题,对 于1的各个值优选消除将(屯=空单词,qi)用作语义单元。具体而言,在训练时,(屯=空 单词,可以与其前导或后继语义单元合并,这取决于哪一个短语,化-凡还是qiqi+1,在训 练数据中具有更多出现次数。然后,(di+1,1_冲)或(di+1,qiQi+1)可被视作单个语义单元。 在解码时,空单词并非显式地被插入在d中,因为使用语义单元(di+qHqi)或(di+1,qiqi+1) 等价于在源句子中添加空单词。第二个实现细节关于d中的词汇表外(00V)单词。当出现00V时,产生任何查询 形式可能不可行,因为对于1的任何值,pWi = 00V, Qi) = 0。为了处理这些情况,只要di =00V,就可将正概率分配给单一语法(dyCii = di)。这暗示如果从未在训练数据中看见列 表单词,则将该列表单词翻译成其本身。应当注意,具有非单调对齐的实施例也是可能的。此外,可使用重排序策略。这可 以在单调对齐之前通过在保持q的次序的同时对d进行重新排序来实现。在训练翻译模型 时,对源形式中的单词进行重新排序的最佳方式通过计算所得联合n元语法模型可能性来 确定。只考虑作为原始次序的移位的次序,并且构建对应于这些次序的最大熵分类器,其中 该分类器的输入是源形式,而次序是输出。在翻译之前,应用该分类器来对源形式进行重新 排序。语言内统计翻译模型的应用图3示出了用于使用统计翻译模型来改进搜索系统和/或语音识别系统的语言模 型的安排。搜索引擎152被配置成搜索列表154,例如商家列表。搜索引擎152接收由用户 生成并提交给搜索引擎152的文本查询或转录的口头查询156。对应的相关列表158由搜 索引擎152来检索。注意,训练对还可通过TF-IDF(项频率-逆文档频率)来用算法获取。文本或转录查询156和对应的搜索引擎检索到的列表158被传递至训练统计翻译 模型162的训练组件160,该训练模型162可以是基于n元语法的模型或另一种类型的模 型。如上所述,训练组件160迭代通过转录查询156和列表158的源-目标对。在基于n 元语法的模型的情况下,给定(源、目标)对,通过计算编辑距离来在源形式和目标形式之 间获取初始单调对齐。给定该对齐,训练组件160发现单词级对并基于这些单词级对来构 建n元语法翻译模型162。可迭代地细化该对齐以及翻译模型162的n元语法模型参数以 改进翻译模型162。此外,训练可实现补偿策略,该策略假设单词可被翻译成其本身,如对于 语言内翻译是可能的。换言之,其中WORD(单词)可以是单词或短语的对齐单元WORD-WORD 将具有正概率。翻译模块164使用翻译模型162来测试已解码优选(可能的翻译)。给定经训练 的翻译模型162和源形式,可使用最佳优先搜索算法来获取前n个最佳目标形式(根据翻 译模型162具有最高概率的n个已解码目标形式)。每一个目标形式的权重通过翻译模型 所产生的P(目标|源)来确定。不太可能可修剪单词级对以加速翻译。给定翻译模型162和翻译模块164,可如下改进后续搜索。给定用户查询q和搜索 引擎152找到的列表d,在测量列表d与用户查询的相关度时考虑列表d的经翻译的查询 形式X。令s(,)成为相关度(或相似度)的函数或度量,相关度的度量可以是s(q,d)= SUm_X{p(X|d)S(q,X)}。或者,相关度可以直接从翻译列表中测得,在这一情况下s(q,d)= p(q,d)。在一个实施例中,如果可能翻译的相关度度量低于指定阈值,则可以过滤掉这些可能翻译。此外,不仅可以如上所述的那样改进搜索,而且还可使用语言内翻译来构建或扩 充语言模型168。语言模型在诸如ASR、机器翻译和语法分析等许多自然语言处理应用中使 用。翻译模型162和翻译模块164所提供的语言内翻译可通过将列表翻译成查询形式并在 估算语言模型168时使用相同语言的经翻译的查询形式来在语言建模时使用。在估算语言 模型168时,可将经翻译的查询形式的计数设为其后验概率乘以其原始列表计数。在一个实施例中,基于服务器或客户机的语音识别器可设置有语言模型168,该语 言模型168将允许语音识别器对涉及列表154的话语或列表执行更准确且更全面的语音识 别。翻译模型162还可以在服务器或移动客户机处用于将在移动设备处输入(无论是通过 ASR还是其他方式)的串翻译成显示形式。结论以上讨论的实施例和特征都可用储存在易失性或非易失性计算机或设备可读介 质中的信息的形式来实现。这被认为至少包括诸如光学存储(例如,⑶-ROM)、磁介质、闪速 ROM、或存储数字信息的任何现有或未来装置等介质。所存储的信息可采用机器可执行指令 (例如,经编译的可执行二进制代码)、源代码、字节代码、或任何其它可用于允许或配置计 算机设备来执行上述各实施例的信息的形式。这还被认为至少包括诸如RAM和/或在程序 的执行期间存储诸如CPU指令等信息以实现一实施例的虚拟存储器等易失性存储器,以及 存储允许程序或可执行代码被加载和执行的信息的非易失性介质。实施例和特征可在任何 类型的计算设备上执行,这些计算设备包括便携设备、工作站、服务器、移动无线设备等。以 上讨论的模块、组件、过程和搜索引擎152可以在一个计算设备或多个协作计算设备上实 现。
权利要求
一种用于人类语言的短语的语言内机器翻译的计算机实现的方法,所述方法包括接收训练数据,所述训练数据包括源短语和目标短语对(120、156、158);使用训练数据对来训练(100)语言内统计机器翻译模型(160、162),其中所述语言内统计机器翻译模型在被给予所述人类语言的文本输入短语时能够计算所述输入短语与所述人类语言的输入短语的可能翻译在语义上等价的概率(102);以及使用所述统计机器翻译模型来在查询和列表之间进行翻译(164),其中所述查询包括提交给搜索引擎(156)的所述人类语言的文本串,其中列表串包括将由所述搜索引擎搜索以找出对所述查询串的匹配(158)的真实世界实体的正式名称的文本串。
2.如权利要求1所述的方法,其特征在于,所述使用所述语言内统计翻译模型包括 从所述搜索引擎接收所述搜索引擎将其与用户查询相匹配的列表(158);通过使用所述翻译模型来将所述列表中的一个翻译成查询形式来生成所述列表中的 一个的查询形式(164、166);使用所述翻译模型来计算所述查询形式与所述用户查询的相关度,并且基于计算出的 相似度来确定所述列表不匹配所述用户查询。
3.如权利要求1所述的方法,其特征在于,所述使用所述语言内统计翻译模型包括 从所述搜索引擎接收所述搜索引擎将其与所述用户查询相匹配的列表(158); 使用所述模型(162)来找出所述列表是所述用户查询的翻译的概率;以及 基于所述概率来确定所述列表是否匹配所述用户查询。
4.如权利要求1所述的方法,其特征在于,所述语言内统计翻译模型包括基于n元语法 的翻译模型(126)。
5.如权利要求4所述的方法,其特征在于,所述训练包括重新排列训练对中的所述源 短语和/或目标短语以使得所述源短语和目标短语的在语义上等价的单词被对齐(122); 以及迭代地更新所述对齐和所述基于n元语法的翻译模型的参数。
6.如权利要求1所述的方法,其特征在于,还包括使用所述语言内统计翻译模型来生 成所述人类语言的语言模型(168),所述语言模型能够确定所述人类语言的串的可能性。
7.如权利要求6所述的方法,其特征在于,所述使用所述语言内统计翻译模型来生成 所述语言模型包括与来自所述语言内统计翻译模型的语言模型翻译包括在一起。
8.如权利要求6所述的方法,其特征在于,还包括用所述语言模型来执行自动语音识别。
9.一种或多种存储使计算设备能够执行一种过程的信息的计算机可读介质,所述过程 用于将人类语言的短语翻译成所述语言的其他短语,所述过程包括访问包括所述人类语言的短语对的训练对(120、156、158);用所述训练对来训练统计机器翻译模型(160),所述统计机器翻译模型能够计算所述 人类语言的目标串是所述人类语言的给定源串的有效翻译的概率;接收所述人类语言的文本短语,将所述文本短语解码成所述文本短语的不同候选翻译 (102),并使用所述统计机器翻译模型来计算所述候选翻译是所述文本短语的翻译的概率; 以及基于所述概率,由计算机来存储和/或显示所述候选翻译中的一个或多个。
10.如权利要求9所述的一种或多种计算机可读介质,其特征在于,所述训练对包括用 户提交的与列表配对的查询串,搜索引擎将所述列表与所述查询串进行匹配。
11.如权利要求9所述的一种或多种计算机可读介质,其特征在于,所接收到的文本短 语包括用户输入的查询串,所述查询串包括所述人类语言的文本,并且所述过程还包括使 用所述统计机器翻译模型来标识所述查询串的多个可能的翻译,所述可能的翻译包括所述 人类语言的文本。
12.如权利要求9所述的一种或多种计算机可读介质,其特征在于,所接收到的文本短 语包括从用于搜索商家/组织名称的列表的搜索引擎获取的组织或商家实体的名称,所述 名称已根据用户输入的查询来从所述搜索引擎获取,并且其中所述过程还包括使用所述统 计机器翻译模型来确定所述名称是所述查询串的有效翻译并基于所述概率来确定所述列 表与所述查询的相关度。
13.如权利要求9所述的一种或多种计算机可读介质,其特征在于,还包括使用所述统 计机器翻译模型来构建所述人类语言的统计语言模型,其中所述统计语言模型提供所述人 类语言中的短语的概率。
14.如权利要求9所述的一种或多种计算机可读介质,其特征在于,所述过程还包括使 用所述统计机器翻译模型来将由语音识别器识别的文本查询翻译成显示形式。
15.一种由一个或多个计算机执行的方法,所述方法包括提供被配置成计算相同人类语言的短语的翻译的概率的统计机器翻译模型(162);以及使用所述统计机器翻译模型来在组织和/或商家的查询形式和列表形式之间进行翻 译,其中所述查询形式包括提交给搜索引擎(152)的所述人类语言的短语,并且其中所述 列表形式包括可由所述搜索引擎搜索的组织和/或商家的所述人类语言的正式名称。
16.如权利要求15所述的方法,其特征在于,所述使用所述统计机器翻译模型包括计 算查询形式和列表形式之间的相关度。
17.如权利要求15所述的方法,其特征在于,给定用户输入的所述人类语言的用户查 询(156),给定由所述搜索引擎(152)找到的所述人类语言的对应的列表,并且给定所述列 表的一组候选翻译,所述候选翻译也是所述人类语言的,所述使用所述统计机器翻译模型 包括计算所述候选翻译的概率。
18.如权利要求17所述的方法,其特征在于,还包括基于计算出的概率来为所述给定 用户查询生成搜索结果。
19.如权利要求15所述的方法,其特征在于,还包括基于由所述统计机器翻译模型计 算出的概率来生成或修改所述搜索引擎的搜索结果,所述搜索结果对应于用户输入的查询 形式。
20.如权利要求19所述的方法,其特征在于,还包括使用所述概率来排列或消除搜索结果。
全文摘要
可提供训练数据,该训练数据包括源短语和目标短语对。这些对可用于训练语言内统计机器翻译模型,其中该语言内统计机器学习模型在被给予人类语言的文本输入短语时可计算输入短语与人类语言的输入短语的可能翻译在语义上等价的概率。该统计机器翻译模型可用于在查询和列表之间进行翻译。查询可以是提交给搜索引擎的人类语言的文本串。列表串可以是将要由搜索引擎搜索以找出对查询串的匹配的真实世界实体的正式名称的文本串。
文档编号G06F17/20GK101981566SQ200980112180
公开日2011年2月23日 申请日期2009年2月27日 优先权日2008年3月28日
发明者A·埃西罗, G·茨威格, X·李, Y·菊 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1