一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

文档序号：6633461阅读：827来源：国知局

一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
【专利摘要】一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法，本发明涉及可比语料平行短语对的抽取方法。本发明是要解决获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题。该方法是通过1源语言句子集合S和目标语言句子集合T；2得到平行语料的短语对集合；3得到平行语料的平行短语对；4得到平行语料的非平行短语对；5得到支持向量机二元分类器；6抽取候选平行短语对<s,t>；7获得可比语料中包含噪声的平行短语对；8得到可比语料的平行短语对；9得到扩展解码器等步骤实现的。本发明应用于可比语料平行短语对的抽取领域。
【专利说明】一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

【技术领域】
[0001] 本发明涉及短语翻译对抽取方法，特别涉及篇章级短语翻译对抽取方法。

【背景技术】
[0002] 随着广播、电视、互联网等高覆盖度传播媒介的出现，人与人之间的时空距离骤然缩短，国际交往日益频繁便利，整个地球就如同是茫茫宇宙中的一个小村落。为了让人们能够畅通无阻的交流，机器翻译作为从一种语言到另一种语言的自动翻译有着巨大的市场需求和广泛的应用前景。
[0003] 近年来，计算能力获得了突飞猛进，互联网的发展和普及，以及双语国家、联合国的多语存档，为我们提供了数以千万句的双语平行语料，这些为统计机器翻译方法奠定了必要的基础，并随之提出了很多新的模型和方法且取得了很好的效果。
[0004] 统计机器翻译系统的构建一般分为训练和翻译两个主要步骤。训练步骤是从语料中学习统计知识并进行参数训练。典型的基于短语的统计机器翻译系统的训练包含在大规模的双语语料库上的翻译模型训练、在目标语言的单语语料库上的语言模型训练、参数训练三个主要部分，用于训练的平行语料规模大小是影响其翻译性能的主要因素。对于一些语言对，如汉语和英语、阿拉伯语和英语拥有大量的平行数据可以被使用，但是对于大多数语言对并不是这种情况，他们的平行数据资源很稀少甚至不存在，像如印度语和英语、法语和日语，这严重降低了机器翻译系统的性能。若要获取平行语料需要花费相当高的代价，所以有必要利用其他资源来训练统计机器翻译系统。与平行语料相比，可比语料在各个语言对中都存在大量的资源，而且获取方便，网络、新闻、杂志等都可以获得丰富的资源。在这些可比语料中有很多包含相似信息的双语文档，如何将这些可比语料信息加入到统计机器翻译系统中已经受到越来越多人的关注，研究人员们正在通过各种方法从可比语料中抽取更丰富、准确的平行知识，并将其加入到翻译系统中，来提高翻译系统性能。
[0005] 从可比语料中抽取平行知识大多都以分布假设作为基础。该假设认为，跨语言间互为翻译的两个单词或片段，他们的上下文也是相似甚至相同的。基于这种假设，研究者将源语言和目标语言的未知单词的上下文通过双语词典映射到向量空间，然后计算向量之间的相似度，可以通过余弦距离、欧式距离、偏斜距离等等。认为具有最相近的上下文的两个单词或片段互为翻译。基于这个最原始方法还衍生出了很多新的方法，例如加入主题信息、语义信息、音译信息等等，这些方法能够取得一定的效果。但是从该假设本身而言，平行语料是对称的结构，能够很好地满足该假设，但是可比语料是一种非对称结构，有时无法满足该假设，所以将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在一定问题，而且该方法对于双语词典依赖很严重，种子词典规模直接影响平行知识抽取效果。

【发明内容】

[0006] 本发明的目的是为了解决统计机器翻译系统平行数据资源很稀少甚至不存在若要获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题而提出的一种篇章级可比语料短语翻译对抽取方法。
[0007] 上述的发明目的是通过以下技术方案实现的：
[0008] 步骤一、设语料库中源语言句子集合S和目标语言句子集合T ;其中，语料库包括平行语料和可比语料；
[0009] 步骤二、分别将S和T按规定长度进行依次划分成短语，短语的长度2-7个单词，划分成的短语进行两两组合，得到平行语料的短语对集合；其中，每个短语对中必须包含一个短语来自于S和一个短语来自于T ;
[0010] 步骤二、利用GIZA++工具从平行语料中抽取双向单词翻译表，利用平行语料在 Moses系统中建立基于短语的统计机器翻译系统得到短语翻译表；通过双向单词翻译表信息以及短语翻译表中的信息中抽取训练数据正例即得到平行语料的平行短语对；其中，双向单词翻译表中每组单词翻译对后面都有相应的翻译概率；短语翻译表包括短语之间的双向翻译概率、双向单词权重、词惩罚五项概率和短语内部的词对齐信息；
[0011] 步骤四、从步骤二得到的平行语料的短语对集合中去除步骤三得到的平行语料的平行短语对得到训练数据反例即平行语料的非平行短语对；
[0012] 步骤五、分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征；将分类特征输入到SVMlight系统中利用径向基这一核方法得到支持向量机二元分类器；
[0013] 步骤六、将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合，过滤得到伪平行句对<S，T>，从伪平行句对中抽取候选平行短语对<s，t>，其中，s是句子S中的长度为i的子串，最小源语短语长度< i <最大源语短语长度，t是句子T的长度为j的子串，最小目标语短语长度< j <最大目标语短语长度；
[0014] 步骤七、利用支持向量机二元分类器对候选平行短语对对<s，t>进行分类，获得可比语料中包含噪声的平行短语对；
[0015] 步骤八、将可比语料中包含噪声的平行短语对进行过滤处理，设置阈值0， 0 G (〇，1)将每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值低于 0的短语对去除得到可比语料的平行短语对；
[0016] 步骤九、将可比语料的平行短语对加入到基线解码器的短语表中得到扩展解码器；其中，基线解码器是通过基线BLEU值评价和扩展解码器扩展BLEU值评价；即完成了一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法。
[0017] 发明效果
[0018] 本发明的目的是从可比语料中挖掘平行短语，解决平行数据稀缺的问题。希望充分利用丰富的可比语料资源，从中获取平行短语，用来提升基于短语的统计机器翻译系统性能的目的。
[0019] 本发明将从可比语料中抽取平行短语的问题转化为一个二元分类的问题。从训练数据中抽取有用的特征信息，建立支持向量机二元分类器，并利用该分类器对平行短语及非平行短语进行划分，最终将该系统从可比语料中抽取的平行短语加入到翻译系统中，以提高机器翻译质量。这是一个全自动的生成与测试方法。
[0020] 二元分类器的建立过程为数据获取与训练两个部分：
[0021] 在获取训练数据阶段，已知平行的源和目标语言句子S和T，分别将S和T按规定长度进行划分，生成所有可能的短语，然后将短语进行配对，每个短语对中必须包含一个短语来自于S和一个短语来自于T，利用GIZA++工具从S和T中获得的平行数据信息来对训练短语进行正、反例的标注。
[0022] 在训练阶段，利用平行数据信息从训练数据中抽取十九个特征作为分类特征。由于该分类问题属于非线性分类问题，所以将径向基这一核方法应用于该支持向量机分类器。这样就可以利用从平行语料中获取的训练短语建立支持向量机分类器。
[0023] 该发明性能的评价方法从分类器性能与对翻译系统性能两个方面进行：
[0024] 对分类器的分类效果进行评价，利用标准评价方法，包括精确率、召回率及准确率。生成测试短语的方法与训练短语的生成方法一样，但是为了保证测试的公平性，对正、反例进行标注时利用的平行数据信息应与生成训练短语的一致。
[0025] 本发明的意义是从可比语料中获取平行短语来提高机器翻译系统性能，所以需要测试从可比语料中分类得到的平行短语是否能提高机器翻译系统性能，根据翻译质量评价标准进行评价。首先利用已有少量平行语料训练一个基线解码器，然后将分类器从可比语料中抽取的平行短语加入到基线系统短语表中，重新训练一个扩展解码器，对两个解码器翻译质量分别进行评价。
[0026] 实验结果表明，其基线BLEU值和扩展BLEU值具体如表3所示：
[0027]

【权利要求】
1. 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法，其特征在于：一种篇章级可比语料短语翻译对抽取方法具体是按照以下步骤进行的：步骤一、设语料库中源语言句子集合S和目标语言句子集合T ;其中，语料库包括平行语料和可比语料；步骤二、分别将S和T按规定长度进行依次划分成短语，短语的长度2-7个单词，划分成的短语进行两两组合，得到平行语料的短语对集合；其中，每个短语对中必须包含一个短语来自于S和一个短语来自于T ; 步骤二、利用GIZA++工具从平行语料中抽取双向单词翻译表，利用平行语料在Moses 系统中建立基于短语的统计机器翻译系统得到短语翻译表；通过双向单词翻译表信息以及短语翻译表中的信息中抽取训练数据正例即得到平行语料的平行短语对；其中，双向单词翻译表中每组单词翻译对后面都有相应的翻译概率；短语翻译表包括短语之间的双向翻译概率、双向单词权重、词惩罚五项概率和短语内部的词对齐信息；步骤四、从步骤二得到的平行语料的短语对集合中去除步骤三得到的平行语料的平行短语对得到训练数据反例即平行语料的非平行短语对；步骤五、分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征；将分类特征输入到SVMlight系统中利用径向基这一核方法得到支持向量机二元分类器；步骤六、将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合，过滤得到伪平行句对<S，T>，从伪平行句对中抽取候选平行短语对<s，t>，其中，s是句子S中的长度为i的子串，最小源语短语长度< i <最大源语短语长度，t是句子T的长度为j的子串，最小目标语短语长度< j <最大目标语短语长度；步骤七、利用支持向量机二元分类器对候选平行短语对对<s，t>进行分类，获得可比语料中包含噪声的平行短语对；步骤八、将可比语料中包含噪声的平行短语对进行过滤处理，设置阈值θ，Θ e (〇，1) 将每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值低于Θ的短语对去除得到可比语料的平行短语对；步骤九、将可比语料的平行短语对加入到基线解码器的短语表中得到扩展解码器；其中，基线解码器是通过基线BLEU值评价和扩展解码器扩展BLEU值评价；即完成了一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法。
2. 根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法，其特征在于：步骤三中抽取训练数据正例具体过程为： (1) 设Sk为源语言句子集合S中的第k'个位置上的单词，*S/是S中从位置i到位置 j的单词序列和Tk，为目标语言句子集合T中的第k'个位置上的单词，是T中从位置i' 到位置j'的单词序列；假设一个阈值ε，ε e (〇, 1); (2) 如果双向单词翻译表中两个单词的翻译概率大于阈值ε，则认为这两个单词Sk与 Tk，是互为翻译的； (3) 当且仅当Sk与Tk，互为翻译时，k e [i，j]且k' e [i'，j' ]; Sk与Tk，不互为翻译时，k e [i，j]且f ; Sk与Tk，不互为翻译时，Al [/,./]且k' e ;则认为S/与77'是互为翻译的，即为抽取的训练数据正例。
3. 根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法，其特征在于：步骤五中分别从平行语料的平行短语对和平行语料的非平行短语对中抽取分类特征如下： (1) 短语长度差：是源语短语和目标语短语长度的差的绝对值； (2) 相同起始：如果源语短语的开头与目标语短语的开头能够互为翻译，则值为1，否则值为〇 ; (3) 相同结尾：如果源语短语的结尾与目标语短语的结尾能够互为翻译，则值为1，否则值为〇 ; (4) 短语中单词数目：是源语短语和目标语短语中各自包含词的数量； (5) 短语长度比率：是源语短语长度与目标语短语长度的比值； (6) 翻译数目：是源语短语中单词在目标语短语中存在与之对应的翻译的个数，单词的翻译概率p (s |t)要大于一个阈值η ; (7) 无翻译数目：是源语短语中单词在目标语短语中不存在与之对应的翻译的个数； (8) 翻译比率：是源语短语中存在翻译的单词数量与短语中单词总数的比值； (9) 半数翻译：源语短语单词至少有一半数量在目标短语中存在翻译，则值为1，否则值为〇 ; (10) 最长翻译单元：是源语短语中最长连续单词序列在目标语短语中存在翻译的长度； (11) 最长无翻译单元：是源语短语中单词中最长连续单词序列在目标语短语中不存在翻译的长度。
4. 根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法，其特征在于：步骤六中将可比语料的源语言文章中的句子和可比语料的目标语言中的句子进行组合，过滤得到伪平行句对〈S，Τ>的过滤条件为： (1) 、两个句子中的单词个数比不超过2 ; (2) 、利用词典检查一个句子中至少有一半的单词在另外一个句子中存在翻译；满足这两个条件的句对被当做是伪平行句对。
5. 根据权利要求1所述一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法，其特征在于：步骤八中每组可比语料中包含噪声的平行短语对中单词翻译概率对数的平均值的公式如下：θ，Θ e (〇, 1)
其中，Si表示原语短语在目标语短语中存在翻译的第i个单词的翻译概率；n表示原语短语在目标语短语中存在翻译的单词个数。
【文档编号】G06F17/27GK104391885SQ201410624648
【公开日】2015年3月4日申请日期:2014年11月7日优先权日:2014年11月7日
【发明者】曹海龙, 张捷鑫, 赵铁军申请人:哈尔滨工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹海龙;张捷鑫;赵铁军;
技术所有人：哈尔滨工业大学;
我是此专利的发明人

上一篇：采用局部因果窗的高光谱图像实时探测方法
上一篇：数据获取方法、数据获取装置和终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。