从双语词语对齐高效提取短语对的制作方法

文档序号:6455352阅读:229来源:国知局
专利名称:从双语词语对齐高效提取短语对的制作方法
从双语词语对齐高效提取短语对
背景
使用翻译模型将源语言的句子翻译成目标语言的句子。例如,可使用翻译 模型将英语句子翻译成其法语的等价物。
开发了依赖于一对多翻译(被称为词语翻译)和多对多翻译(被称为短语 翻译)两者的翻译模型。在一对多翻译中,源语言中的一个词语被翻译成目标 语言中的一个或多个词语。在多对多翻译中,源语言中的多个相邻词语被翻译 成目标语言中的多个相邻词语。
为了构造翻译模型,使用由与第二语言的目标句子对齐的第一语言的源句 子组成的双语语料库来标识可能的词语翻译和短语翻译。通常使用基于包括双 语语料库中对齐的句子中源词语和目标词语的共同出现率在内的多种因素标 识源句子中的词语与目标句子中的词语之间的对齐的统计词语对齐器来标识 词语翻译。
使用类似的统计技术从句子对齐的双语语料库中直接提取短语对齐。在以 往的其他系统中,通过首先提取词语对齐然后使用词语对齐标识短语来提取短 语对齐。在这样的系统中,当源短语中的词语没有一个与目标句子中目标短语 外的词语对齐且目标短语中的词语没有一个与源句子中源短语之外的词语对 齐,且源短语中至少有一个词语与目标短语中的词语对齐时,将源短语和目标 短语称为对齐。
将每一可能的源短语与每一可能的目标短语独立比较的朴素算法将具有
至少0(Pm"的复杂度,其中l和m分别是源和目标句子的长度。
提供以上讨论仅用作一般的背景信息,并不旨在帮助确定所要求保护的主
题的范围。 概述
提供用于标识源句子和目标句子之间的短语对齐对的方法。通过要求源词 语与目标句子中的至少一个目标词语对齐以形成源短语的边界来标识短语在源句子中的边界。基于源短语中的词语与目标句子中的词语之间的对齐标识短 语在目标句子中的边界。检查目标短语中的词语以确定是否有任何词语与源短 语外的源词语对齐。如果它们不与源短语外的源词语对齐,则确定源短语和目 标短语形成对齐对,且被存储为短语对齐对。
提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一 些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨 在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背 景中提及的任何或所有缺点的实现。.
附图简述


图1是用于训练翻译模型的系统的框图。
图2是源句子与对齐的目标句子之间的词语对齐的示例。
图3是提取对齐的短语对的方法的流程图。
图4是用于基于源短语边界结尾的改变扩展目标短语边界的流程图。
图5是用于标识可通过向目标和源短语添加未链接的词语来形成的附加
短语对的流程图。
图6是用于标识对齐的短语对的替换方法的流程图。 图7是翻译系统的框图。
图8是可在其中实现各实施例的一般计算环境的框图。 详细描述
图1是用于利用从双语语料库中提取的短语对齐来构造翻译模型的系统 的大体框图。在图1中,向词语对齐模型102提供双语语料库100。双语语料 库100由与第二语言的目标句子对齐的第一语言的源句子组成。这样的双语语 料库的示例有加拿大议会议事录(Canadian Hansards Parliamentary Proceedings),它使用诸如美国专利公幵2004-0044530A1中所述的技术等已 知的句子级对齐技术来对齐以提供英法双语词语对。
词语对齐模型102使用双语语料库100来标识词语对齐104。词语对齐模 型102可釆用标识源句子中词语与目标句子中词语之间的一对多对齐的任何统 计词语对齐模型的形式。统计词语对齐模型的示例包括IBM模型1-5,这在本领域中是已知的。
在词语对齐104中,每一源词语被标识为或者不链接到目标句子中的词 语、链接到目标句子中的一个词语或目标句子中的多个相邻词语。类似地,目 标句子中的每一目标词语被表示为不与源句子中的词语对齐、与源句子中的一 个词语对齐或与源句子中的多个相邻词语对齐。与至少一个词语对齐的源词语 和目标词语被称为链接的。不与词语对齐的源词语和目标词语被称为未链接 的。
图2提供在双语语料库中对齐的源句子200和目标句子202的词语对齐的 图形示例。源句子200由源词语SW1、 SW2、 SW3、 SW4、 SW5、 SW6、 SW7 和SW8组成。目标句子202由目标词语TW1、 TW2、 TW3、 TW4、 TW5和 TW6组成。词语之间的对齐被示为将源词语连接到目标词语的线。在图2的 词语对齐中,目标词语TW2与三个源词语SW2、 SW3和SW4对齐,源词语 SW4与两个目标词语TW2和TW3对齐,目标词语TW3与两个源词语SW4 和SW6对齐,而目标词语TW6与源词语SW8对齐。源词语SW1、 SW5和 SW7以及目标词语TW1、 TW4和TW5不与任何词语对齐,且被认为是未链 接的。
短语提取106使用词语对齐104来标识双语语料库100中的短语对齐对 108。短语对齐对108中的每一短语对齐对由源短语和目标短语组成,源短语 由源句子中的词语的相邻序列形成,目标短语由目标句子中词语的相邻序列形 成。短语对表示其中源短语中没有词语与目标句子中目标短语外的词语对齐且 目标短语中没有词语与源句子中源短语外的词语对齐且源短语中至少有一个 词语与目标短语中的词语对齐的多对多关系。源短语和目标短语由短语边界限 定,起始边界为短语中的第一个词语,而结束边界为短语中的最后一个词语。
使用词语对齐104和短语对齐对108,翻译模型训练器110开发了对齐的 词语和对齐的短语的出现的统计。然后使用这些统计来构造翻译模型112,该 模型提供了给定源词语和源短语时目标词语和目标短语的概率以及给定目标 词语和目标短语时源词语和源短语的概率。
图3提供了一个实施例中短语提取的一种方法的流程图。在图3的步骤 300中,从词语对齐104检索目标句子和源句子的词语对齐边界。在一个实施例中,源词语的词语对齐提供与该源词语对齐的目标短语的最小词语位置和最 大词语位置。类似地,目标词语的词语对齐提供与该目标词语对齐的源短语的 最小词语位置和最大词语位置。不检索关于目标词语与最小源词语和最大源词 语之间的词语的对齐的信息或源词语与最小目标词语和最大目标词语之间的 词语的对齐的信息。例如,对图2的对齐,目标词语TW3的对齐信息可包括
作为最小源词语的SW4以及作为最大源词语的SW6,而不引用源词语SW5。 这简化了在图3的过程期间存储词语对齐所需的数据结构。在其他实施例中, 在步骤300检索关于源词语和目标词语之间的每一对齐的信息。
在步骤302,使用源句子中源词语的词语对齐,并在源句子起始处开始, 该方法找到与至少一个目标词语对齐的下一源词语,并对该词语设置可能的源 短语的开头和结尾。注意,在步骤302不与目标词语对齐的源词语不被认为是 源短语的开头。例如,在图2的词语对齐中,源词语SW5将在步骤302期间 跳过。
使用与步骤302所选的源词语相关联的最小目标词语位置和最大目标词 语位置,短语提取过程在步骤304设置目标短语的边界。具体地,目标短语的 开始被设置为源词语的最小目标词语位置,而目标短语的结尾被设置为源词语 的最大目标词语位置。例如,在图2中,如果源短语的开头和结尾位于源词语 SW4,则目标短语的开始将被设置为TW2,而目标短语的结尾将被设置为 丁W3。
在步骤306,选择目标短语边界中未检查其词语对齐的词语。^步骤308, 检查所选目标词语的词语对齐,以确定目标词语是否与源句子中当前源短语之 前的词语对齐。如果目标词语与源短语之前的词语对齐,则过程返回到步骤302 以通过从当前源词语朝源句子结尾移动来找到与目标词语对齐的下一源词语。 新的源短语的开头和结尾然后被设置为该下一源词语。然后对新的源短语执行 步骤304、 306和308。
如果在步骤308目标词语不与源短语之前的词语对齐,则过程继续至步骤 310,在那里作出目标词语是否与源短语之后的源词语对齐的判断。如果目标 词语与源短语之后的词语对齐,则在步骤312源短语的结尾移至与目标词语对 齐的最大源词语位置。步骤308和302的组合以及步骤310和312的组合允许将源词语的跨度排 除在形成翻译对的部分的考虑之外而不必标识该跨度的相应目标短语。这是通 过在到达步骤308和310之前首先标识可能的源短语和相应的可能目标短语的 边界来完成的。在步骤308和310,作出可能的目标短语是否包括链接至源短 语外的源词语的目标词语的判断。在步骤308,这涉及确定该外部源词语是否 在源短语之前,而在步骤310,这涉及确定该外部词语是否在源短语之后。
步骤308和302的组合通过排除与当前源短语共享边界(当前源短语的开 头)、不包括外部源词语、且包括源短语的所有词语的源词语的跨度,排除了 源词语的跨度,而不必标识相应的目标短语。例如,如果当前源短语被设置为 SW4-SW6且相应的目标短语被设置为TW2-TW3,则步骤308和302将源词语 SW2标识为外部源词语,且将排除以开头边界SW4开始且不包括源词语SW2 且包括当前源短语SW4-SW6的所有词语的源词语的跨度。因此,步骤308和 302排除了跨度SW4-SW7以及SW4-SW8而不必标识这些跨度相应的目标短 语。这可根据在步骤302,当前短语的开头直接移至SW6而没有对跨度 SW4-SW7和SW4-SW8执行任何处理来看出。
步骤310和312的组合通过排除与当前源短语共享边界(当前源短语的开 头)、不包括外部源词语、且包括源短语的所有词语的源词语的跨度,排除了 源词语的跨度,而不必标识相应的目标短语。例如,如果当前源短语被设置为 SW2-SW4且相应的目标短语被设置为TW2-TW3,则步骤310和312将源词语 SW6标识为外部源词语,且将排除以开头边界SW2开始且不包括源词语SW6 且包括当前源短语SW2-SW4的所有词语的源词语的跨度。因此,步骤310和 312排除跨度SW2-SW5而不必标识该跨度的相应目标短语。这可根据在步骤 312,当前短语的结尾直接移至SW6而没有对跨度SW2-SW5执行任何处理来 看出。
在步骤312移动源短语的结尾之后,在步骤314基于源短语的结尾的移动 改变目标短语的边界。
图4提供了在图3的步骤314执行的步骤的流程图。在步骤400,选择前 一源短语结尾之后下一链接的源词语。例如,在图2中,如果前一源短语在词 语SW2开始并结束,则步骤400将选择源词语SW3。在步骤402,如果源词
11语链接至当前目标短语开头之前的目标词语,则目标短语的开头被改为该源词 语的最小链接目标词语位置。在步骤404,如果源词语链接至目标短语结尾之 后的目标词语,则目标短语的结尾被改为该源词语的最大链接目标词语位置。
例如,如果在步骤400,当目标短语在目标词语TW2开始并结束时选择源词 语SW4,步骤404将使得目标短语的结尾被移动至目标词语TW3,因为这是 源词语SW4的最大链接目标词语位置。
在步骤406,图4的过程确定源短语中是否还有其他未被检查的链接源词 语。如果还有链接源词语,则在步骤407选择下一链接源词语,并重复步骤402、 404和406。当在步骤406在源短语中不再有其他链接源词语时,该过程在步 骤408结束。
回到图3,在其中基于源短语边界结尾的改变而改变目标短语边界的步骤 314之后,该过程返回至步骤306以选择目标短语边界中未检查的下一词语。 然后为新选择的目标词语执行步骤308和310。
当如步骤308和310所确定的,所选目标词语不与源短语之前或源短语之 后的词语对齐时,该过程在步骤316确定在目标短语中是否还有其他未检查的 词语。如果还有未检查的目标词语,则在步骤305选择目标短语中下一未检査 的目标词语,并为新选择的目标词语执行步骤308和310。
当在步骤316中在目标短语中不再有其他未检查的目标词语时,该过程继 续至步骤318,在那里可从当前源短语和当前目标短语通过添加O个或多个相 邻未链接词语形成的所有源短语和目标短语被存储为短语对齐对。在图5的流 程图中更详细示出存储这样的短语对齐对的过程。
以下参考图2的对齐双语句子来描述图5的流程图。具体地,以上使用为 SW2-SW6的当前源短语和为TW2-TW3的当前目标短语进入图5的过程的示 例讨论该流程图。
在图5的步骤500中,在进入图3的步骤318之前标识的当前源短语和当 前目标短语被存储为短语对齐对108中的短语对齐对。作为来自图2的示例, 在步骤500将源短语SW2-SW6和目标短语TW2-TW3存储为短语对齐对。注 意到,源短语中没有一个源词语与目标短语外的目标词语对齐,且目标短语中 没有一个目标词语与源短语外的目标词语对齐。
12在步骤502,该过程确定在目标短语之前是否紧接有未链接词语。如果在
目标短语之前紧接有未链接词语,则在步骤504将该未链接词语添加到目标短 语以形成新的目标短语。对图2的示例,这可涉及将目标词语TW1添加到目 标短语以形成由词语TW1-TW3组成的新目标短语。该过程然后返回至步骤 500以将新的目标短语和源短语存储为短语对齐对。对图.2的示例,这涉^:存 储由词语TW1-TW3组成的目标短语以及由源词语SW2-SW6组成的源短语。
该过程然后返回至步骤502以确定在目标短语之前是否紧接有其他未链 接词语。当在目标短语之前没有紧接有其他未链接词语时,过程继续至步骤 506,在那里将目标短语的开头复位到目标短语的原始开头。在图2的示例中, 这涉及将目标短语的开头复位到目标词语TW2。
在复位目标短语的开头之后,该过程继续至步骤508,在那里确定在目标 短语之后是否紧接有未链接词语。如果在目标短语之后紧接有未链接词语,则 在步骤504将该未链接词语添加到目标短语,且新的目标短语和源短语被存储 为短语对齐对。在图2的示例中,这涉及将目标词语TW4添加到目标短语以 形成由词语TW2-TW4组成的新目标短语。该目标短语然后在步骤500与由词 语SW2-SW6组成的源短语一起存储。
该过程然后返回至步骤502以确定在目标短语之前是否紧接有其他未链 接词语。在图2的示例中,TW1是紧接在目标短语之前的未链接词语。因此, 在步骤504,将该未链接词语添加到目标短语以形成由目标词语TW1-TW4组 成的新目标短语。该新目标短语然后在步骤500与源短语SW2-SW6 —起存储, 作为短语对齐对。
该过程返回至步骤502,并确定在目标短语开头之前没有紧接有其他未链 接词语。因此,在步骤506目标短语的开头被复位到目标短语的原始开头,且 该过程在步骤508确定在目标短语之后是否有任何未链接词语。在图2的示例 中,在当前目标短语之后紧接有未链接词语TW5。因此,该过程返回到步骤 504以将TW5添加到目标短语,且将目标短语TW2-TW5和源短语SW2-SW6 存储为短语对齐对。
该过程然后返回至步骤502以确定在目标短语之前是否紧接有其他未链 接词语。在图2的示例中,TW1是紧接在目标短语之前的未链接词语。因此,在步骤504,将该未链接词语添加到目标短语以形成由目标词语TW1-TW5组 成的新目标短语。该新目标短语然后在步骤500与源短语SW2-SW6 —起存储, 作为短语对齐对。
该过程返回至步骤502,并确定在目标短语开头之前没有紧接有其他未链 接词语。因此,在步骤506目标短语的开头被复位到目标短语的原始开头,且 该过程在步骤508确定在目标短语之后是否紧接有任何未链接词语。由于当前 目标短语之后的下一词语为TW6,它链接至源词语SW8,因此在步骤508, 在目标短语之后不再有紧接有其他未链接词语。.因此,过程继续至步骤510, 在那里目标短语的结尾被复位到其在目标词语TW3的原始位置。
在步骤512,该过程确定在源短语之前是否紧接有未链接词语。在图2的 示例中,源词语SW1未链接,且因此在步骤514添加到源短语以形成新源短 语SW1-SW6。该过程然后返回至步骤500以将新的源短语SW1-SW6和原始 目标短语TW2-TW3存储为短语对齐对。
然后执行步骤502和504以向目标短语添加紧接在目标短语之前的未链接 词语,得到由目标词语TW1-TW3组成的新目标短语。该新目标短语TW1-TW3 然后与源短语SW1-SW6—起存储为短语对齐对。注意到,尽管向源短语和目 标短语两者添加了未链接词语,但源短语中没有一个词语与目标短语外的目标 词语对齐,且目标短语中没有一个词语与源短语外的源词语对齐。
然后执行步骤506、 508、 504和500以添加目标短语TW2-TW4和源短语 SW1-SW6作为短语对齐对。然后执行步骤502、 504和500以添加目标短语 TW1-TW4和源短语SW1-SW6作为短语对齐对。然后执行步骤506、 508、 504 和500以添加目标短语TW2-TW5和源短语SW1-SW6作为短语对齐对。然后 执行步骤502、504和500以添加目标短语TW1-TW5和源短语SW1-SW6作为 短语对齐对。
然后在步骤510复位目标短语的结尾,且该过程继续至步骤512以确定在 当前源短语之前是否紧接有未链接词语。由于在源短语之前没有紧接有未链接 词语,因此源短语的开头在步骤516被复位到原始源短语的开头。因此,在图 2的示例中,源短语的开头被复位到SW2。
在步骤518,该过程确定在源短语之后是否紧接有未链接词语。如果有任
14何未链接词语,则该过程返回到步骤514以添加未链接词语,诸如未链接源词
语SW7以形成新的源短语SW2-SW7。然后在步骤500,存储该新的源短语与 原始目标短语以形成由源短语SW2-SW7和目标短语TW2-TW3组成的短语对 齐对。然后使用上述步骤500、 502、 504、 506和508形成可通过添加邻近未 链接目标词语形成的所有可能的目标短语。所形成的每一目标短语与源短语的 当前形式一起存储,作为短语对齐对。
此外,使用步骤512和514形成可用源短语的当前结尾通过向源短语的开 头添加邻近未链接源词语形成的所有源短语。对这些源短语中的每一个,形成 可通过添加邻近未链接词语形成的每个可能的目标短语,且添加目标短语和源 短语作为对齐对。
当在步骤518中在源短语之后没有其他链接源词语时,该过程在步骤520 结束。通过图5的过程,可标识以下源短语和目标短语对齐对 SW2陽SW6 / TW2-TW3 SW2-SW6/TW1-TW3 SW2-SW6 / TW2-TW4 SW2-SW6/TW1-TW4 SW2-SW6 / TW2-TW5 ,SW2陽SW6/TW1-TW5
SW1-SW6/TW2-TW3 SW1陽SW6/TW1-TW3 SW1-SW6/TW2-TW4 SW1-SW6/TW1-TW4 SW1-SW6/TW2-TW5 SW1-SW6/TW1-TW5
SW2-SW7 / TW2-TW3 SW2-SW7/TW1-TW3 SW2-SW7 / TW2-TW4SW2-SW7/TW1-TW4 SW2-SW7 / TW2-TW5 SW2-SW7/TW1陽TW5
SW1-SW7/TW2-TW3 SW1-SW7/TW1-TW3 SW1-SW7/TW2-TW4 SW1-SW7/TW1-TW4 'SW1-SW7/TW2-TW5 SW1-SW7/TW1-TW5
回到图3,在步骤318通过添加邻接未链接词语从目标和源短语形成短语 对之后,该过程继续至步骤320,在那里该方法确定在当前源短语的结尾之后 是否还有链接的源词语。如果在当前源短语之后还有链接的源词语,则在步骤 322将源短语的结尾移至当前源短语之后的下一链接源词语。例如,如果当前 源短语的结尾是图2中的源词语SW6,则步骤322将涉及将源短语的结尾移动 至源词语SW8。
在步骤322之后,该过程返回至步骤314,并基于源短语的新的结尾改变 目标短语边界。例如,在图2中,目标短语边界的结尾将由于源短语的结尾从 源词语SW6改为SW8而从TW4改为TW6。该过程然后继续至步骤306,在 那里选择目标短语边界中尚未检查的目标词语。在以上给出的示例中,这将是 目标词语TW5。然后对新的源和目标短语边界执行步骤308、 310、 316、 312 和318。
如果在步骤320中在当前源短语之后不再有链接的源词语,则该过程返回 至步骤302,在那里将源短语的开头和结尾复位到当前源短语的开头之后的下 一链接源词语。如果在当前源短语开头之后没有其他链接的源词语,则该过程 在步骤302结束,并形成了所有源短语。例如,在图2中,如果当前源短语为 SW4-SW8,则步骤302涉及将源短语的开头和结尾设为源词语SW6。而且, 如果当前源短语为SW8.,则该过程当返回至步骤302时将结束,因为在源词语 SW8之后没有其他链接的源词语。图3的过程提供了基于词语对齐从双语语料库中提取短语对的高效手段。 具体地,通过一开始仅考虑以链接词语开始和结束的源和目标短语来实现效 率。 一旦标识了这样的短语,即可向核心源和目标短语添加邻近未链接词语以
容易地形成其他源和目标短语。此外,如上所述,步骤308、 302、 310和312 允许源词语的跨度被排除在形成对齐对的一部分的考虑之外而无需标识该跨 度可能的目标短语。
在某些实施例中,对通过图3的过程提取的短语对施加附加限制。具体地, 在某些实施例中,限制目标和/或源短语中词语的数目。而且,在某些实施例中, 添加到核心源或目标短语的邻近未链接词语的数目受到限制。
图6提供了用于在短语提取106中标识短语对的替换方法。在图6的步骤 600,选择以链接词语开始和结束的源词语的跨度。确定链接至源词语的跨度 中一词语的每一目标词语,以确定链接至源跨度中任何词语的目标词语的最大 和最小位置。在步骤602对源跨度存储这些最大和最小目标位置。在步骤604, 该方法确定是否还有以链接源词语开始和结束的源跨度。如果还有其他源跨 度,则该过程返回至步骤600,并选择下一源词语跨度。重复步骤600、 602 和604,直到不再有其他以链接词语开始和结束的源词语跨度。
当不再有其他源跨度时,该过程继续至步骤606,在那里选择以链接词语 开始和结束的目标词语的跨度。在步骤608检查目标词语跨度中每一目标词语 之间的对齐以标识源句子中链接至目标跨度中任何目标词语的最大和最小位 置。
在步骤610,将在步骤606确定的目标跨度边界同与由步骤608中确定的 源最大和最小所定义的跨度相关联的目标最大和最小位置进行比较。使用图2 的示例,如果步骤606中所选的当前目标跨度为TW3-TW6,则与目标跨度相 关联的源最大和最小跨度为SW4-SW8。该源跨度因而具有目标最大和最小 TW2-TW6。因此,在步骤610中,将目标跨度边界TW3-TW6与目标最大和 最小值TW2-TW6进行比较,并确定跨度不匹配。作为第二个示例,如果步骤 606中所选的目标跨度边界为TW2-TW3,步骤608中相应的源最大和最小将 为SW2-SW6。与该源跨度相关联的目标最大和最小将为TW2-TW3,这匹配在 步骤606所选的目标跨度的目标跨度边界。因此,在步骤610,目标最大和最小将匹配目标跨度边界。
如果在步骤610目标最大和最小匹配目标跨度边界,则在步骤612将可通 过添加邻近未链接词语从目标跨度和源最大和最小上的跨度形成的所有短语
对存储为短语对齐对。生成这样的短语对齐对的过程如上结合图3的步骤318 所述在图5中示出。
当存储了短语对齐对之后,或如果在步骤610目标最大和最小不匹配目标 跨度边界,则该过程在步骤614确定是否还有其他目标跨度。如果还有其他目 标跨度,则该过程返回至步骤606以选择以链接词语开始和结束的下一目标词 语跨度。如果在步骤614不再有以链接词语开始和结束的其他目标跨度,则该 过程在步骤616结束。
图7提供了其中可使用图1的翻译模型112的翻译系统的框图。在图7 中,向翻译器702提供源句子700,翻译器702使用翻译模型112来确定源句 子700中各个词语和短语可能的翻译以产生目标句子704。
图8示出了可在其上实现各实施例的合适的计算系统环境800的示例。计 算系统800仅为合适的计算环境的一个示例,并非旨在对所要求保护的主题的 使用范围或功能提出任何局限。也不应该把计算环境800解释为对示例性操作 环境800中示出的任一组件或其组合有任何依赖性或要求。
各实施例可用于各种其它通用或专用计算系统环境或配置。适合在各实施 例中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算 机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、 机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、电话系统、包 含上述系统或设备中的任一个的分布式计算环境等。
各实施例可在诸如程序模块等由计算机执行的计算机可执行指令的通用 上下文中描述。 一般而言,程序模块包括执行特定任务或实现特定抽象数据类 型的例程、程序、对象、组件、数据结构等。 一些实施例被设计为在分布式计 算环境中实施,在分布式计算环境中任务是由通过通信网络链接的远程处理设 备来执行的。在分布式计算环境中,程序模块位于包括存储器存储设备的本地 和远程计算机存储介质中。
参考图8,用于实现一些实施例的示例性系统包括计算机810形式的通用计算设备。计算机810的组件可以包括,但不限于,处理单元820、系统存储 器830和将包括系统存储器在内的各种系统组件耦合至处理单元820的系统总 线821。系统总线821可以是若干类型的总线结构中的任一种。
计算机810通常包括各种计算机可读介质。计算机可读介质可以是能由计 算机810访问的任何可用介质,而且包含易失性、非易失性介质以及可移动和 不可移动介质。作为示例而非局限,计算机可读介质可以包括计算机存储介质 和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、 程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移 动和不可移动介质。计算机存储介质包括,但不限于,RAM、 ROM、 EEPROM、 闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、 磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以 由计算机810访问的任何其它介质。通信介质通常以诸如载波或其它传输机制 等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据, 并包括任意信息传送介质。术语"已调制数据信号"指的是其一个或多个特征以 在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质 包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、 红外线和其它无线介质。以上的任何组合也应包括在计算机可读介质的范围 内。
系统存储器830包括易失性和/或非易失性存储器形式的计算机存储介质, 如只读存储器(ROM) 831和随机存取存储器(RAM) 832。基本输入/输出系 统833 (BIOS)包括如在启动时帮助在计算机810内的元件之间传输信息的基 本例程,它通常储存在ROM831中。RAM 832通常包含处理单元820可以立 即访问和/或目前正在其上操作'的数据和/或程序模块。作为示例而非局限,图 8示出了操作系统834、应用程序835、其它程序模块836和程序数据837。
计算机810还可以包括其它可移动/不可移动、易失性/非易失性计算机存 储介质。仅作为示例,图8示出了从不可移动、非易失性磁介质中读取或向其 写入的硬盘驱动器841,从可移动、非易失性磁盘852中读取或向其写入的磁 盘驱动器851,以及从诸如CDROM或其它光学介质等可移动、非易失性光盘 856中读取或向其写入的光盘驱动器855。硬盘驱动器841通常由不可移动存储器接口,诸如接口 840连接至系统总线821,磁盘驱动器851和光盘驱动器 855通常由可移动存储器接口,诸如接口 850连接至系统总线821。
上文讨论并在图8中示出的驱动器及其相关联的计算机存储介质为计算 机810提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图 8中,例如,硬盘驱动器841被示为存储操作系统844、应用程序845、其它程 序模块846和程序数据847。注意,这些组件可以与操作系统834、应用程序 835、其它程序模块836和程序数据837相同,也可以与它们不同。操作系统 844、应用程序845、其它程序模块846和程序数据847在这里被标注了不同的 标号是为了说明至少它们是不同的副本。
用户可以通过诸如键盘862、话筒863和定点设备861等输入设备将命令 和信息输入至计算机810中,定点设备161诸如是鼠标、轨迹球或触摸垫。这 些和其它输入设备通常由耦合至系统总线的用户输入接口 860连接至处理单元 820,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行 总线(USB)连接。监视器891或其它类型的显示设备也经由接口,诸如视频 接口 890连接至系统总线821。除监视器以外,计算机也可以包括其它外围输 出设备,诸如扬声器897和打印机896,它们可以通过输出外围接口 895连接。
计算机810使用到诸如远程计算机880的一个或多个远程计算机的逻辑连 接在网络化环境中操作。远程计算机880可以是个人计算机、手持设备、服务 器、路由器、网络PC、对等设备或其它常见的网络节点,且一般包括以上关 于计算机810描述的许多或所有的元件。图8中所示的逻辑连接包括局域网 (LAN) 871和广域网(WAN) 873,但也可以包括其它网络。
当在LAN联网环境中使用时,计算机810通过网络接口或适配器871连 接至LAN 870。当在WAN联网环境中使用时,计算机810通常包括调制解调 器872或用于通过诸如因特网等WAN 873建立通信的其它装置。调制解调器 872可以是内置或外置的,它可以通过用户输入接口 860或其它适当的机制连 接至系统总线821。在网络化环境中,相对于计算机810所描述的程序模块或 其部分可被储存在远程存储器存储设备中。作为示例,而非限制,图8示出了 远程应用程序885驻留在远程计算机880上。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,
20所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体 特征和动作是作为实现权利要求的示例形式公开的。
权利要求
1. 一种方法,包括通过要求源词语与目标句子中的至少一个目标词语对齐以形成源短语的边界来标识(302、312、322)一短语在源句子中的边界;基于所述源短语中的词语与所述目标句子中的词语之间的对齐来标识(304、314)一短语在所述目标句子中的边界;通过确定所述目标短语中是否有任何词语与所述源短语外的源词语对齐来确定(308、310)所述源短语和目标短语是否形成短语对齐对;以及如果所述源短语和所述目标短语形成短语对齐对,则存储(318、500)所述源短语和所述目标短语。
2. 如权利要求1所述的方法,其特征在于,还包括移动(514)所述源短语的至少一个边界以包括不与所述目标句子的任 何词语对齐的附加源词语以形成扩展的源短语;以及存储(500)所述扩展的源短语和所述目标短语作为第二短语对齐对。
3. 如权利要求2所述的方法,其特征在于,还包括移动(504)所述目标短语的至少一个边界以包括不与所述源句子的任 何词语对齐的附加目标词语以形成扩展的目标短语;以及存储(500)所述扩展的源短语和所述扩展的目标短语作为第三短语对齐对。
4. 如权利要求1所述的方法,其特征在于,所述词语对齐的集合包括 对每一源词语,仅最小目标词语位置和最大目标词语位置与所述源词语对齐;以及对每一 目标词语,仅最小源词语位置和最大源词语位置与所述目标词语对齐。
5. 如权利要求1所述的方法,其特征在于,还包括如果目标词语与所述源 短语外的源词语对齐,贝U-如果源词语的连续跨度与所述源短语共享共同的边界,不包括所述源短语外的源词语,且包括所述源短语的所有词语,则排除(302、 312)所述连续跨度作为短语对齐对可能的源短语,而无需标识对应于所述连续跨度的目标短 语的边界。
6. 如权利要求5所述的方法,其特征在于,排除源词语的连续跨度包括将所述源短语的结束边界直接移至(312)所述源短语外的源词语以形成新的源短语。
7. 如权利要求5所述的方法,其特征在于,排除源词语的连续跨度包括将所述源短语的开始边界朝所述源短语的结束边界移至(302)与至少 一个目标词语对齐的源词语,以形成新的源短语。
8. —种方法,包括设置(302、 312、 322)源句子可能的源短语的边界;使用(304、 314)可能的源短语中的词语与目标句子中的词语之间的词 语对齐来设置所述目标句子中可能的目标短语的边界;确定(308、 310)所述可能的目标短语中的目标词语与所述源句子中不 在所述可能的源短语中的外部源词语对齐;以及将所述源句子中与所述可能的源短语共享边界、不包括所述外部源词语 且包括所述可能的源短语的所有词语的连续源词语跨度排除(302、 312)在作 为短语对齐对的可能的源短语的考虑之外,而无需标识相应的可能的目标短 语。 -
9. 如权利要求8所述的方法,其特征在于,将连续源词语的跨度排除在作 为可能的源短语的考虑之外包括(312)将所述源短语的结束边界直接移至所 述外部源词语以形成新的可能的源短语。
10. 如权利要求9所述的方法,其特征在于,还包括 仅对位于所述可能的源短语的结束边界之后直达和包括所述外部源词语的那些源词语使用(400、 402、 404)源词语和所述目标句子中的词语之间 旳对齐,以便为所述目标句子中新的可能的目标短语设置边界。
11. 如权利要求10所述的方法,其特征在于,还包括确定(308、 310)所述新的可能的目标短语中没有一个目标词语与所述 新的可能的源短语外的源词语对齐;以及将所述新的可能的源短语和所述新的可能的目标短语存储(318、 500) 为短语对齐对。
12. 如权利要求8所述的方法,其特征在于,将连续源词语的跨度排除 在作为可能的源短语的考虑之外包括(302)将所述可能的源短语的开始边界 朝所述源短语的结束边界移动。
13. 如权利要求8所述的方法,其特征在于,为句子中可能的源短语设 置边界包括使用(302)所述边界处的源词语与所述目标句子中的至少一个目 标词语对齐的要求。
14. 如权利要求13所述的方法,、其特征在于,还包括 设置(302、 312、 322)源句子中新的可能的源短语的边界;使用(304、 314)新的可能的源短语中的词语与目标句子中的词语之间 的词语对齐来设置所述目标句子中新的可能的目标短语的边界;确定(308、 310)所述新的可能的目标短语中没有一个目标词语与所述 新的可能的源短语外的源词语对齐;以及将所述新的可能的源短语和所述新的可能的目标短语存储(318、 500) 为短语对齐对。
15. 如权利要求14所述的方法,其特征在于,还包括 将所述新的可能的源短语的边界移至(514)不与所述目标句子的任何词语对齐的源词语以形成扩展的源短语;以及存储(500)所述扩展的源短语和所述新的可能的目标短语作为短语对齐对。
16. 如权利要求15所述的方法,其特征在于,还包括 将所述新的可能的目标短语的边界移至(504)不与所述源句子的任何词语对齐的目标词语以形成扩展的目标短语;以及存储(500)所述扩展的源短语和所述扩展的目标短语作为短语对齐对。
17. —种方法,包括 对源句子中连续词语的跨度的集合中的每一跨度,对与所述源句子跨度中的源词语对齐的目标词语确定(600)在目标句子中的最小词语位置和最大 词语位置;对所述目标句子中连续词语的跨度的集合中的每一跨度,对与所述目标 句子跨度中的目标词语对齐的源词语确定(608)在源句子中的最小词语位置 和最大词语位置; "如果所述目标句子中的最小词语位置和最大词语位置分别匹配一目标 句子跨度的开头和结尾,且如果所述源句子中的最小词语位置和最大词语位置 分别匹配一源句子跨度的开头和结尾,则将所述源句子跨度和所述目标句子跨 度指定(612、 500)为短语对齐对。
18. 如权利要求17所述的方法,其特.征在于,还包括通过以下步骤确 定所述目标句子中的最小词语位置和最大词语位置是否分别匹配所述目标句 子跨度的开头和结尾,以及所述源句子中的最小词语位置和最大词语位置是否 分别匹配所述源句子跨度的开头和结尾,这些步骤包括将由所述源句子中的最小词语位置和最大词语位置定义的所述跨度在 所述目标句子中的最小词语位置与所述目标句子跨度的开头进行比较(610);以及将由所述源句子中的最小词语位置和最大词语位置定义的所述跨度在 所述目标句子中的最大词语位置与所述目标句子跨度的结尾进行比较(610)。
19. 如权利要求17所述的方法,其特征在于,还包括通过要求(600)所述源句子中连续词语的跨度的集合中的每一跨度以与至少一个目标词语对 齐的源词语开始并以与至少一个目标词语对齐的源词语结束来定义所述集合。
20. 如权利要求19所述的方法,其特征在于,还包括,在将所述源句 子跨度和所述目标句子跨度指定为短语对齐对之后,移动(514)所述源句子 跨度的开头使得所述跨度覆盖更多词语且以不与所述目标句子中的词语对齐 的词语开始以形成扩展的源句子跨度,以及指定(500)所述扩展的源句子跨 度和所述目标句子跨度作为短语对齐对。
全文摘要
提供用于标识源句子和目标句子之间的短语对齐对的方法。通过要求源词语与目标句子中的至少一个目标词语对齐以形成源短语的边界来标识短语在源句子中的边界。基于源短语中的词语与目标句子中的词语之间的对齐而标识短语在目标句子中的边界。检查目标短语中的词语以确定是否有任何词语与源短语外的源词语对齐。如果它们不与源短语外的源词语对齐,则确定源短语和目标短语形成对齐对,且被存储为短语对齐对。
文档编号G06F17/28GK101479724SQ200780024394
公开日2009年7月8日 申请日期2007年4月30日 优先权日2006年6月28日
发明者C·B·夸克, R·C·摩尔 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1