平行句对的筛选方法和系统的制作方法

文档序号:9750793阅读:534来源:国知局
平行句对的筛选方法和系统的制作方法
【技术领域】
[0001] 本发明涉及机器翻译技术领域,尤其是涉及一种平行句对的筛选方法和系统。
【背景技术】
[0002] 随着国际交流的日益深入,人们对语言翻译的需求与日倶增。然而,世界上的语言 种类繁多,各有特征,形式灵活,使得语言的机器翻译成为尚待解决的难题。为了实现自动 的机器翻译,目前的翻译技术一般基于统计模型,而建立可靠的统计模型需要建立大规模 高质量的平行语料。然而,高质量的平行语料常常只存在于少量的几种语言中,而且往往受 限于特定的领域,例如政府文件、新闻等。随着互联网的兴起,国际信息的交流变得空前便 捷,人们对高质量机器翻译的需求也愈加迫切。与此同时,互联网也为机器翻译带来了新的 机遇。互联网上的大量语料,使得获得多种语言、多个领域的平行语料成为可能。然而,互联 网上语料的质量参差不齐,直接获取的双语语料中可能包含大量噪声,反而不适合机器翻 译系统。为此,需要对粗糙的双语语料进行处理,从中筛选出可靠的平行句对。
[0003] 目前的平行句对筛选方法依赖于词语对齐技术,词语对齐技术并非为平行句对的 筛选开发,而是假定输入语料是互译的,因此不适合充满噪声的输入语料。

【发明内容】

[0004] 本发明所要解决的技术问题是如何从大量的粗糙的双语语料中筛选出可靠的平 行句对。
[0005] 为解决上述技术问题,本发明提出了一种平行句对的筛选方法和系统。
[0006] 第一方面,该方法包括:
[0007] 将每一待筛句对中的源语言语句和目标语言语句均切分成词;
[0008] 利用双语词向量模型确定切分得到的每一个词的词向量;
[0009] 计算所述源语言语句中每一个词在该源语言语句中的权重值;
[0010] 计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
[0011] 建立一目标函数,其中:
[0012] 该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每 一个词之间的转移量;
[0013] 该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土 移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言 语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
[0014] 该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每 一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言 语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
[0015] 计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动 距离最小值;
[0016] 根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述 平行句对筛选标准进行平行句对的筛选。
[0017] 可选的,该方法还包括:
[0018] 将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
[0019] 可选的,所述利用双语词向量模型确定切分得到的每一个词的词向量,包括:
[0020] 建立数据集,该数据集中包括单语训练集和双语训练集;
[0021] 利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训 练,得到每一训练语料的词向量;
[0022] 从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
[0023]可选的,该方法还包括:
[0024]将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。
[0025]可选的,所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,包括: [0026]根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值,将 所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。
[0027] 可选的,采用下式计算目标语言语句或源语言语句中第i个词的权重值:
[0028] K-J.
[0029] 其中,U为目标语言语句中第i个词的权重值,Sl为源语言语句中第i个词的权重 值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述相应语句中第i个词的逆文档频率, vt为目标语言语句所切分得到的词的数量,Vs为源语言语句所切分得到的词的数量。
[0030] 可选的,所建立的目标函数为:
[0031] 该目标函数的约束条件包括:[0032] wij > 0
[0033]
[0034]
[0035] 其中,d为泥土移动距离的最小值,Clj为目标语言语句中第i个词的词向量与源语 言语句中第j个词的词向量之间的距离,为目标语言语句中第i个词的词向量与源语言语 句中第j个词的词向量之间的转移量,为目标语言语句所切分得到的词的数量,VS为源语 言语句所切分得到的词的数量,为目标语言语句中第i个词的权重值,为源语言语句中 第j个词的权重值。
[0036] 第二方面,该系统包括:
[0037] 切分模块,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;
[0038] 词向量确定模块,用于利用双语词向量模型确定切分得到的每一个词的词向量;
[0039] 第一计算模块,用于计算所述源语言语句中每一个词在该源语言语句中的权重 值;
[0040]第二计算模块,用于计算所述目标语言语句中每一个词在该目标语言语句中的权 重值;
[0041 ]函数建立模块,用于建立一目标函数,其中:
[0042]该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每 一个词之间的转移量;
[0043]该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土 移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言 语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
[0044] 该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每 一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语 句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
[0045] 第三计算模块,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛 句对的所述泥土移动距离;
[0046]标准确定模块,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标 准,并根据所述平行句对筛选标准进行平行句对的筛选。
[0047]可选的,该系统还包括:
[0048]预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为 统一的大小写。
[0049] 可选的,所述词向量确定模块包括:
[0050] 建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;
[0051] 训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训 练语料进行训练,得到每一训练语料的词向量;
[0052] 筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词 的词向量。
[0053] 本发明将待筛句对中的源语言语句和目标语言语句切分为词,然后根据每一个词 的词向量和权重值建立以源语言语句和目标语言语句之间的泥土移动距离最小为优化目 标的目标函数,通过求解目标函数计算出泥土移动距离最小值,便得知该待筛语句对中源 语言语句的真实意思和目标语言语句的真实意思之间的最小差距。根据该方法可以得到若 干个待筛语句对的泥土移动距离最小值。进而根据这些泥土移动距离最小值制定出平行句 对筛选标准,然后便可以利用平行句对筛选标准进行平行句对的筛选工作。可见,本发明提 供的筛选方法是针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对 互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。
【附图说明】
[0054]通过参考附图会更加清楚地理解本发明的特征信息和优点,附图是示意性的而不 应理解为对本发明进行任何限
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1