改进双语语料库的方法及装置、机器翻译方法及装置的制造方法

文档序号:8430718阅读:206来源:国知局
改进双语语料库的方法及装置、机器翻译方法及装置的制造方法
【技术领域】
[0001] 本实施方式涉及自然语言的处理技术,具体地,涉及用于改进双语语料库的方法、 用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。
【背景技术】
[0002] -直以来,长句子的翻译是统计机器翻译(Statistical Machine Translation (SMT))中的一个难点问题。当句子过长时,SMT系统通常很难给出正确的翻译 结果,甚至根本无法处理。
[0003] 为了避免长句子的翻译困难,人们通常先将长句子切分为较短的子句,然后再进 行处理。以往的研究结果表明,这是一种有效的处理方式,特别是对于句子结构相对简单的 口语句子,即便只是简单地将切分后的子句的翻译结果顺序拼接,也往往会有较好的效果。
[0004] 为了切分输入的长句子,首先需要解决的问题是确定合理的切分标准,即确定正 确的切分位置。基于语料的SMT系统中包含用于训练数据模型的大规模平行双语语料,可 以利用双语语料中的源语言端语料训练和学习切分位置。但是,语料中通常会存在一定数 量的较长的双语句对,这些长句对会产生如下问题:首先,源语言端过长的句子无法提供充 分的切分信息;其次,过长的双语句对容易引入更多的词对齐错误,而错误的词对齐会直接 导致翻译质量的下降。
[0005] 通常,标点符号可以提供有价值的切分信息,但直接利用标点符号或只是辅以简 单的人工制定的规则,通常很难取得满意的效果。并且,由于不同语言间的语法体系差异, 如果仅从单语的角度考虑断句可能会导致子句的翻译结果不再是相对独立的句子,或者语 序发生变化。为此,需要从双语的角度出发对平行语料进行切分。
[0006] 在获得合适的训练语料之后,另一个需要解决的问题是:如何将输入的长句子切 分为多个子句。长句子的切分可以看作是一个序列标注问题,
[0007]即,对长句子词序列中每一个词进行标注,其标注值为一个给定的标注集内的某 一个值,然后根据标注结果进行切分。
[0008] 综上,为了提高统计机器翻译系统中长句子的翻译质量,需要解决如下两个问 题:
[0009] (1)在训练阶段,如何切分平行的双语语料;
[0010] (2)在解码阶段,如何切分输入的长句子。
[0011] 对于第一个问题"训练阶段对平行双语语料的切分",以往的研究中曾利用"修正 的IBM-1翻译模型"寻找双语句对中最优的切分点并将其切分为两部分;然后,对切分后的 子句对递归使用该方法,直至每个新子句的长度小于预定的阈值。但是该切分方法较为复 杂。
[0012] 另外,在以往的研究中也曾利用自动词对齐结果进行双语句对的切分,其遵循一 定的经验规则在断句的标点符号处寻找双语句子的最优切分点,根据最优切分点,将双语 句对切分为两个短的子句对。然后,对上述得到的子句对递归地进行再次切分,直至没有切 分点为止。该切分方法粗略的考虑了对齐错误的影响,其目的主要在于缩短句长以削减与 句子对应的句法树结构的搜索空间,对于词对齐质量并无改进。
[0013] 对于第二个问题"解码阶段对输入的长句子的切分",常用的解决方法之一是利用 基于隐含马尔科夫模型(HMM)的N-gram语言模型。例如,利用SRILM工具中集成的命令 "hidden-ngram",即利用N-gram模型,用词之间的隐含事件对词序列进行标注(这里,隐含 事件指的是"边界"和"非边界")。具体到长句子切分问题,就是对长句子中的每一个词进 行句子边界标注,根据N-gram语言模型计算概率得分,找出最有可能的包含给定词序列和 标注序列的组合,根据标注结果进行切分。
[0014] 然而,HMM的一个最大的缺点是基于输出独立性的假设,导致其无法考虑到上下文 信息。

【发明内容】

[0015] 为了改善上述现有技术中在训练阶段存在的对双语语料切分方法复杂及对词对 齐质量没有改进的问题,本发明提出了一种新的切分算法。该算法首次提出了一种可度量 的切分置信度(SC)的概念,对每一个切分候选计算切分置信度,并与预定的阈值相比较,在 超过阈值的候选处进行切分,将较长的双语句对同时切分为多个较短的子句对。
[0016] 另外,为了改善上述现有技术中在解码阶段存在的在对长句子进行切分时没有考 虑上下文信息的问题,本发明提出了采用条件随机场(CRF)模型结合句子相似度共同将长 句子切分为较短的更易翻译和理解的相对独立的子句。CRF模型可以方便的引入更多的上 下文特征,在解决如分词、命名体识别等序列标注问题中,相对于HMM显示出明显的优势。 同时,可以利用句子相似度补充CRF模型的信息。
[0017] 概括地,本发明的实施方式提供了用于改进双语语料库的方法、用于改进双语语 料库的装置、机器翻译方法以及机器翻译装置。具体地,提供了以下技术方案。
[0018] [1]一种用于改进双语语料库的装置,其中,上述双语语料库包括多个第一语种和 第二语种的句对以及每个句对之间的词对齐信息,上述装置包括:
[0019] 提取单元,其在给定的句对的词对齐信息中提取切分候选;
[0020] 计算单元,其计算上述切分候选的切分置信度;
[0021] 比较单元,其对上述切分置信度和预定的阈值进行比较;以及
[0022] 切分单元,其在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处 对上述给定的句对进行切分。
[0023] 本实施方式的用于改进双语语料库的装置,在选择切分位置时考虑了对应的翻译 结果,切分后避免了部分长距离的词对齐错误,提高了词对齐质量,进而改进了翻译性能。 同时,切分后的源语言端语料提供了更加充分的切分位置信息,可以用作后续解码阶段输 入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的 双语平行语料上。
[0024] [2]根据上述[1]所述的用于改进双语语料库的装置,其中,与上述切分候选对应 的上述第一语种的词和上述第二语种的词为一一对齐。
[0025] [3]根据上述[1]或[2]所述的用于改进双语语料库的装置,其中,与上述切分候 选对应的上述第一语种的词和上述第二语种的词为具有断句功能的词和/或符号。
[0026] [4]根据上述[1]~[3]之一所述的用于改进双语语料库的装置,其中,上述计算 单元利用跨越上述切分候选的词对齐的数量和上述给定的句对的长度来计算上述切分置 信度。
[0027] [5]根据上述[4]所述的用于改进双语语料库的装置,其中,上述计算单元利用下 面的公式来计算上述切分置信度,
[0028]
【主权项】
1. 一种用于改进双语语料库的装置,其中,上述双语语料库包括多个第一语种和第二 语种的句对以及每个句对之间的词对齐信息,上述装置包括: 提取单元,其在给定的句对的词对齐信息中提取切分候选; 计算单元,其计算上述切分候选的切分置信度; 比较单元,其对上述切分置信度和预定的阈值进行比较;以及 切分单元,其在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上 述给定的句对进行切分。
2. 根据权利要求1所述的用于改进双语语料库的装置,其中,与上述切分候选对应的 上述第一语种的词和上述第二语种的词,为一一对齐且为具有断句功能的词和/或符号。
3. 根据权利要求1或2所述的用于改进双语语料库的装置,其中,上述计算单元利用下 面的公式来计算上述切分置信度,
其中,a」为上述切分候选,SCaj为上述切分置信度,Crossaj为跨越上述切分候选的词对 齐的数量,sent_len为上述给定的句对的长度,m为上述给定的句对中上述第一语种的句 子的长度,1为上述给定的句对中上述第二语种的句子的长度。
4. 根据权利要求1或2所述的用于改进双语语料库的装置,还包括: 对齐单元,其对上述切分单元切分后的子句对重新进行词对齐。
5. -种机器翻译装置,包括: 切分单元,其利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切 分候选具有一个切分概率; 相似度计算单元,其计算上述待翻译句子的与每个切分候选对应的句子相似度; 得分计算单元,其利用上述切分概率和上述句子相似度计算每个切分候选的得分,将 得分最高的切分候选作为上述待翻译句子的切分结果;以及 翻译单元,其利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。
6. 根据权利要求5所述的机器翻译装置,其中,上述双语语料库为利用权利要求1-4所 述的用于改进双语语料库的装置进行了改进的双语语料库。
7. 根据权利要求5或6所述的机器翻译装置,其中,上述得分计算单元,计算上述切分 概率与上述子句相似度的加权平均值,作为上述得分。
8. 根据权利要求5或6所述的机器翻译装置,其中,上述相似度计算单元: 计算上述待翻译句子的每个子句相对于上述双语语料库中第一语种的句子的子句相 似度;并且 以上述子句的长度与上述待翻译句子的长度的比值作为权重计算上述子句的子句相 似度的加权平均值,作为上述句子相似度。
9. 一种用于改进双语语料库的方法,其中,上述双语语料库包括多个第一语种和第二 语种的句对以及每个句对之间的词对齐信息,上述方法包括以下步骤: 在给定的句对的词对齐信息中提取切分候选; 计算上述切分候选的切分置信度; 对上述切分置信度和预定的阈值进行比较;以及 在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对 进行切分。
10. -种机器翻译方法,包括以下步骤: 利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切分候选具有 一个切分概率; 计算上述待翻译句子的与每个切分候选对应的句子相似度; 利用上述切分概率和上述句子相似度计算每个切分候选的得分,将得分最高的切分候 选作为上述待翻译句子的切分结果;以及 利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。
【专利摘要】本发明的实施方式提供了用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。根据本发明的一个方面,提供了一种用于改进双语语料库的装置,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息,上述装置包括:提取单元,其在给定的句对的词对齐信息中提取切分候选;计算单元,其计算上述切分候选的切分置信度;比较单元,其对上述切分置信度和预定的阈值进行比较;以及切分单元,其在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分。
【IPC分类】G06F17-30, G06F17-28
【公开号】CN104750687
【申请号】CN201310728270
【发明人】苏韬, 张大鲲, 郝杰
【申请人】株式会社 东芝
【公开日】2015年7月1日
【申请日】2013年12月25日
【公告号】US20150186361
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1