平行口语语料的对齐方法和装置的制作方法

文档序号:6615008阅读:168来源:国知局
专利名称:平行口语语料的对齐方法和装置的制作方法
平行口语语料的对齐方法和装置对于口语来说,句子的结构非常灵活,语流不如书面语流畅,往
往会出现重复、犹豫、省略等不流利现象。这在结构完整的书面语中则是不存在的。相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
具体实施例方式如前所述,犹豫也是口语中经常存在的一种现象,并且其也会导致口语语句的不流畅。并且,根据口语的特点,通常表示犹豫的词语都包含较少的实际含义或者其所包含的含义对于整个口语句子所要表达的意思来说并不很关键。以上,就是

图1的步骤105中对口语语料库中的平行口语语料进行预处理的过程的详细流程。需要指出的是,虽然在图2中为了表明步骤205和步骤210之间没有依赖关系而将其示为并行执行的关系,但是,本发明并不限于此,在其他实施例中,这两个步骤也可以是先后执行的,并且其执行的先后顺序可以是任意的,这对于预处理的结果没有任何影响。返回到图1,在步骤IIO,根据被预处理后的平行口语语料,获得基于统计方法和词典的高准确率词对齐集合(基于统计方法和词典的词对齐集合)。如图3所示,首先,在步骤305,根据预处理后所得到的正规化的平行口语语料B,获得从源语言到目标语言的统计词对齐集合C。也就是说,在本步骤中,采用统计的方法,根据平行口语语料B中的源语言口语语句和与其对应的目标语言口语语句,获得基于语料的从源语言到目标语言的统计词对齐集合C。需要指出的是,利用统计的方法从平行口语语料获得词对齐集合是本领域中的常用技术,本发明对此并没有特别的限制。在步骤320,针对被正规化的平行口语语料b,查找源语言到目标语言词典和目标语言到源语言词典,以获得基于词典的词对齐集合f。其中,该集合f中的每一个对齐项都是上述源语言到目标语言词典中的一个词条并且是上述目标语言到源语言词典中的一个词条。接着,在步骤325,求取上述基于语料的统计词对齐集合e与上述基于词典的词对齐集合f的并集,作为基于统计方法和词典的高准确率词对齐集合g。也就是说,在本步骤中,利用根据源语言到目标语言词典和目标语言到源语言词典所获得的词对齐集合f,对仅根据口语语料所获得的词对齐集合e进行扩展,以得到更加完善、适用性更强的词对齐集合,作为基于统计方法和词典的高准确率词对齐集合g。以上,就是图1的步骤110中根据被进行了预处理后的平行口语语料获得基于统计方法和词典的高准确率词对齐集合的过程的详细流程。需要指出的是,图3中所示出的各步骤的执行顺序仅是示意性的。在其他实施例中,只要能够获得这样的基于统计方法和词典的高准确率词对齐集合,步骤305-325的执行顺序可以是任意的,本发明对此并没有特别的限制。如图4所示,首先,在可选步骤405,对预处理后所得到的正规化的平行口语语料B进行短语分析,以识别出其中的各个短语,从而形成被进行了短语划分的平行口语语料H。由于图4的过程是要对平行口语语料B进行短语对齐,而由于短语识别是短语对齐的基础,所以在对齐短语之前需要该步骤对要进行短语对齐的平行口语语料B进行短语分析,以识别出其中的各个短语。在步骤510,利用上述并集S,在根据图4的过程获得的短语对齐集合L内进行词对齐,以获得基于短语对齐的词对齐集合M。其中该词对齐集合M中的每一个对齐项都是上述并集S中的一个对齐项。
00064接着,在步骤515,在词对齐集合M中恢复在图2的预处理步骤205中删除的重复的片段。具体地,在本步骤中,对于在图2的预处理步骤205中删除的重复的片段,在词对齐集合M中,添加被保留在平行口语语料B中的、与^M目同的片段所对应的词对齐项,作为该净皮删除的重复片段所对应的词对齐项。也就是说,在本步骤中,使平行口语语料中重复出现的片段在词对齐集合M中所对应的词对齐项是相同的,即重复片段的对齐相同。如图5所示,在对短语对齐集合L进行了上述步骤505-525的处理之后,便得到了 N所表示的最终的词对齐集合。从而,该最终的词对齐集合N与上述短语对齐集合L相结合^更可作为训练基础直接应用于语音机器翻译中。此外,需要+兌明的是,本实施例的平行口语语料的对齐方法所获
得的短语对齐集合和词对齐集合,不仅可应用于语音机器翻译中,还可应用于文本机器翻译、信息检索等众多其他语言处理领域中。图6是根据本发明实施例的语音机器翻译方法的流程图。如图6所示,首先,在步骤605,利用结合图l-5所说明的实施例的平行口语语料的对齐方法,从预先构成的口语语料库中的平行口语语料获得短语对齐集合L和词对齐集合N。在步骤610,判断是否有用户输入幹泽口语句子。并且,在有用户输入待译口语句子时,该方法前进到步骤615。否则,继续等待用户的输入。
00075]在步骤615,利用在步骤605获得的短语对齐集合L和词对齐集合N,对所输入的待译口语句子进行语音机器翻译,以获得该#^口语句子的目标语言语音。
00076以上,就是对本实施例的语音机器翻译方法的详细描述。本实施例通过将利用上面实施例的对齐方法所获得的短语对齐集合和词对齐集合用于语音机器翻译中,能够得到准确性更高的语音机器翻译结果。本实施例的平行口语语料的对齐装置70还可以包括预处理单元71 ,用于对上述口语语料库中的平行口语语料A进行针对口语特点的预处理,以得到正规化的平行口语语料B。然后,语音翻译模块81利用该短语对齐集合L和词对齐集合N, 对用户输入的待译口语句子进行语音翻译,以得到该幹泽口语句子的目标 语言语音。
[00096
以上,就是对本实施例的语音机器翻译系统的详细描述。本实施 例的语音机器翻译系统,通过将平行口语语料的对齐装置70从预先构成的 口语语料库中的平行口语语料获得的短语对齐集合和词对齐集合用于语音 机器翻译中,能够得到准确性更高的语音翻译结果。
[00097以上虽然通过一些示例性的实施例对本发明的平行口语语料的对 齐方法和装置以及分别采用了这样的平行口语语料的对齐方法和装置的语 音机器翻译方法和系统进行了详细的描述,但是以上这些实施例并不是穷 举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。 因此,本发明并不限于这些实施例,本发明的范围仅以所附权利要求为准。
权利要求
1. 一种平行口语语料的对齐方法,包括从上述平行口语语料获得基于统计方法和词典的词对齐集合;利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以得到短语对齐集合;以及在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。
2. 根据权利要求l所述的平行口语语料的对齐方法,其中在从上述平 行口语语料获得基于统计方法和词典的词对齐集合的步骤之前还包括从上述平行口语语料中删除重复的片段;以及 对上述平行口语语料中表示犹豫的词语赋予特殊的标记。
3. 根据权利要求l所述的平行口语语料的对齐方法,其中从上述平行 口语语料获得基于统计方法和词典的词对齐集合的步骤进一步包括根据上述平行口语语料,获得从源语言到目标语言的统计词对齐集合; 根据上述平行口语语料,获得从目标语言到源语言的统计词对齐集合; 求取上述从源语言到目标语言的统计词对齐集合和上g目标语言到源语言的统计词对齐集合的交集;针对上述平行口语语料,查找源语言到目标语言词典和目标语言到源语言词典,以获得基于词典的词对齐集合;以及求取上述从源语言到目标语言的统计词对齐集合和上M目标语言到源语言的统计词对齐集合的交集与上述基于词典的词对齐集合的并集,作为上述基于统计方法和词典的词对齐集合。
4. 根据权利要求l所述的平行口语语料的对齐方法,其中在利用上述 基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐的 步骤之前还包括对上述平行口语语料进行短语分析,以识别出其中的各个短语。
5. 根据权利要求1或4所述的平行口语语料的对齐方法,其中利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐的步骤进一步包括从上述平行口语语料的经短语分析后的平行口语语料中,提取源语言 短语的中心词集合;从上述经短语分析后的平行口语语料中,提取目标语言短语的中心词集合;利用上述基于统计方法和词典的词对齐集合,将上述源语言短语的中心词集合和上述目标语言短语的中心词集合对齐,以得到中心词对齐集合; 以及根据上述中心词对齐集合,对上述经短语分析后的平行口语语料进行 短语对齐,以获得短语对齐集合。
6. 根据权利要求3所述的平行口语语料的对齐方法,其中在上述平行 口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合 的步骤进一步包括求取上述从源语言到目标语言的统计词对齐集合、上述从目标语言到 源语言的统计词对齐集合以及上述基于词典的词对齐集合的并集;以及 利用上述并集,在上述平行口语语料的对齐的短语内进行词对齐。
7. 根据权利要求2所述的平行口语语料的对齐方法,其中在上述平行 口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合 的步骤进一步包括在上述基于短语对齐的词对齐集合中恢复在上述删除重复的片段的步 骤中删除的重复的片段;根据在上述赋予特殊的标记的步骤中对表示犹豫的词语赋予的特殊标 记,从上述基于短语对齐的词对齐集合中删除与该标记对应的非空词对齐 项;以及从上述基于短语对齐的词对齐集合中删除与上述平行口语语料中的省 略部分对应的词对齐项。
8. —种语音机器翻译方法,其基于包含平行口语语料的口语语料库进行语音机器翻译,该方法包括利用权利要求1-7中任意一项所述的平行口语语料的对齐方法,从上 述口语语料库中的平行口语语料获得短语对齐集合和词对齐集合;以及利用上述短语对齐集合和词对齐集合,对输入的幹泽口语句子进行源-目标语言的语音机器翻译。
9. 一种平行口语语料的对齐装置,包括基于统计方法和词典的词对齐集合获取单元,用于从上述平行口语语 料获得基于统计方法和词典的词对齐集合;短语对齐单元,用于利用上述基于统计方法和词典的词对齐集合,对 上述平行口语语料进行短语对齐,以获得短语对齐集合;以及短语内词对齐单元,用于在上述平行口语语料的对齐的短语内进行词 对齐,以获得基于短语对齐的词对齐集合。
10. 根据权利要求9所述的平行口语语料的对齐装置,还包括 预处理单元,用于对上述平行口语语料进行针对口语特点的预处理; 该预处理单元进一步包括重复片段删除单元,用于从上述平行口语语料中删除重复的片段;以及特殊标记赋予单元,用于对上述平行口语语料中表示犹豫的词语赋予 特歹木的标i己。
11. 根据权利要求9所述的平行口语语料的对齐装置,其中上述基于 统计方法和词典的词对齐集合获取单元进一步包括源-目标语言统计词对齐单元,用于根据上述平行口语语料,获得从源 语言到目标语言的统计词对齐集合;以及目标-源语言统计词对齐单元,用于根据上述平行口语语料,获得从目 标语言到源语言的统计词对齐集合;交集求取单元,用于求取上g源语言到目标语言的统计词对齐集合 和上述从目标语言到源语言的统计词对齐集合的交集;基于词典的词对齐单元,用于针对上述平行口语语料,查找源语言到目标语言词典和目标语言到源语言词典,以获得基于词典的词对齐集合; 以及并集求取单元,用于求取上述从源语言到目标语言的统计词对齐集合 和上述从目标语言到源语言的统计词对齐集合的交集与上述基于词典的词 对齐集合的并集,作为上述基于统计方法和词典的词对齐集合。
12. 根据权利要求9所述的平行口语语料的对齐装置,其中上述短语 对齐单元进一步包括短语分析单元,用于对上述平行口语语料进行短语分析,以识别出其 中的各个短语。
13. 根据权利要求9或12所述的平行口语语料的对齐装置,其中上述 短语对齐单元进一步包括源语言中心词提取单元,用于从上述平行口语语料的经短语分析后的 平行口语语料中,提取源语言短语的中心词集合;以及目标语言中心词提取单元,用于从上述经短语分析后的平行口语语料 中,提取目标语言短语的中心词集合;中心词对齐单元,用于利用上述基于统计方法和词典的词对齐集合, 将上述源语言短语的中心词集合和上述目标语言短语的中心词集合对齐, 以得到中心词对齐集合;以及短语对齐集合获取单元,用于根据上述中心词对齐集合,对上述经短 语分析后的平行口语语料进行短语对齐,以获得短语对齐集合。
14. 根据权利要求ll所述的平行口语语料的对齐装置,其中上述短语 内词对齐单元求取上述源-目标语言统计词对齐单元所获得的从源语言到 目标语言的统计词对齐集合、上述目标-源语言统计词对齐单元所获得的从 目标语言到源语言的统计词对齐集合以及上述基于词典的词对齐单元所获 得的基于词典的词对齐集合的并集,并利用该并集,在上述平行口语语料 的对齐的短语内进^f亍词对齐。
15. 根据权利要求10所述的平行口语语料的对齐装置,还包括 词对齐校正单元,用于对上述短语内词对齐单元所获得的基于短语对齐的词对齐集合中由于口语的不流利造成的词对齐错误进行校正; 该词对齐校正单元进一步包括重复片段恢复单元,用于在上述基于短语对齐的词对齐集合中恢复被 上述重复片段删除单元删除的重复的片段;标记部分处理单元,用于才艮据上述特殊标记赋予单元对表示犹豫的词 语赋予的特殊标记,从上述基于短语对齐的词对齐集合中删除与该标记对 应的非空词对齐项;以及省略部分处理单元,用于从上述基于短语对齐的词对齐集合中删除与 上述平行口语语料中的省略部分对应的词对齐项。
16. —种语音机器翻译系统,其基于包含平行口语语料的口语语料库 进行语音翻译,该系统包括权利要求9-15中任意一项所述的平行口语语料的对齐装置,用于从上 述口语语料库的平行口语语料获得短语对齐集合和词对齐集合;以及语音翻译模块,用于利用上述短语对齐集合和词对齐集合,对输入的 待译口语句子进行源-目标语言的语音翻译。
全文摘要
本发明提供一种平行口语语料的对齐方法和装置以及分别采用了这样的平行口语语料的对齐方法和装置的语音机器翻译方法和系统。该平行口语语料的对齐方法包括从上述平行口语语料获得基于统计方法和词典的词对齐集合;利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以获得短语对齐集合;以及在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。本发明通过利用从语料库中的平行口语语料获得的基于统计方法和词典的高准确率词对齐集合对平行口语语料进行短语对齐、进而词对齐,来获得短语对齐集合和词对齐集合,并将其用于语音机器翻译中,从而利用短语的完整性来减少口语词对齐的歧义。
文档编号G06F17/28GK101464856SQ20071019919
公开日2009年6月24日 申请日期2007年12月20日 优先权日2007年12月20日
发明者任登君, 华 吴, 王海峰 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1