平行语料对齐的方法和装置的制造方法

文档序号:9887617阅读:945来源:国知局
平行语料对齐的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及翻译技术领域,具体涉及一种平行语料对齐的方法和装置。
【背景技术】
[0002] 平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础 性的作用。平行语料库的对齐是指,将原文和译文按不同的分割粒度进行对应,形成规范的 语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度,粒度越小的平行语 料,其提供的语言信息就越丰富,应用价值也越大。
[0003] -般而言,语料如果是按篇章或段落对齐,可以将原文和译文按照顺序进行对齐 即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理,由于源语 言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若 是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文 对齐工作往往需要人工来处理,既费时费力,效率也很低。

【发明内容】

[0004] 本发明实施例的目的在于克服现有技术的上述不足,提供一种平行语料对齐的方 法,该方法基于实义词的相似度,解决了原文和译文对齐的问题。
[0005] 本发明实施例的另一目的在于克服现有技术的上述不足,提供一种平行语料对齐 的装置,该装置基于实义词的相似度,解决了原文和译文对齐的问题。
[0006] 为了实现上述发明目的,本发明实施例的技术方案如下:
[0007] -种平行语料对齐的方法,包括:将原文中的所有原文语句和译文中的所有译文 语句转换为相同编码方式的字符;对转换后的所述原文中的所有所述原文语句分词,去除 其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文 语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配,获 得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所 有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得 每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语 句和所述原文语句匹配并对齐。
[0008] 进一步,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句 中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括: 根据8;[111(购1,11^歷 10 = 17((1丨8(购1,11^斷)+0获得原文语句01?的第」个实义词的第1个译 项n w j i与第i个译文语句T R i的第r个实义词T R i n w r的相似度;根据
获得所述原文语句0R的第j个实义词的第1个 译项nWjl与所述译文语句TRi的相似度;根据
获得 所述原文语句0R的第j个实义词η%和第i个所述译文语句TRi的相似度;其中,所述原文语句 OR具有m个实义词,所述译文中共有η个所述译文语句,所述译文语句TRi具有p个实义词,第 j个实义词具有k个译项,L表示调节参数,dis(nwji,TRmwr)表示所述原文语句OR的第j个实 义词的第1个译项nw^和第i个所述译文语句TRi的第r个实义词TRm Wr在词典中的代码的距 离,i = l,2,.",n,j = l,2,.",m,l = l,2,.",k,r = l,2,.",p0
[0009] 进一步,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将 每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相 似度的过程包括:根S
获得所述原文语句0R与所述译 文语句TRi的相似度。
[0010] 进一步,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配 并对齐的过程包括:根据'
K得与所 述原文语句0R的相似度最高的所述译文语句;将与所述原文语句0R的相似度最高的所述译 文语句和所述原文语句0R匹配,并对齐所述原文语句0R和所述译文语句。
[0011] 进一步,还包括:对转换后的所述原文中的所述原文语句按顺序进行编号;对转换 后的所述译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文 语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译 文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原 文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语 句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文 中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的 所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述 原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的 所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐; 重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
[0012] 进一步:所述词典为按树形结构编码的同义词分类词典,所述按树形结构编码的 同义词分类词典的每个节点具有唯一的所述代码。
[0013] 进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
[0014] 进一步,所述将原文中的所有原文语句和译文中的所有译文语句转换为相同编码 方式的字符的过程包括:根据所述原文中的所有所述原文语句的字符的编码方式读取所述 原文语句中的字符或者字符串,以及根据所述译文中的所有所述译文语句的字符的编码方 式读取所述译文语句中的字符或者字符串;根据相同目标编码方式分别将读取的所述原文 语句和所述译文语句中的字符或者字符串转换成目标编码字符或者字符串。
[0015] 进一步,所述实义词包括:名词、动词、形容词和副词。
[0016] 以及,一种平行语料对齐的装置,包括:第一单元,用于将原文中的所有原文语句 和译文中的所有译文语句转换为相同编码方式的字符;第二单元,用于对转换后的所述原 文中的所有所述原文语句分词,去除其中的停用词,获得实义词;第三单元,用于获取所述 原文语句的每个实义词的所有译项;第四单元,用于将每个所述原文语句的每个实义词的 所有译项在标记后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句 的每个实义词和所述译文语句的相似度;第五单元,用于根据每个所述原文语句的所有实 义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个 所述原文语句和所述译文语句的相似度;第六单元,用于将与所述原文语句相似度最高的 所述译文语句和所述原文语句匹配并对齐。
[0017] 本发明实施例的有益效果如下:
[0018] 1、本发明实施例的平行语料对齐的方法,基于实义词的相似度,解决了译后处理 的原译文对齐问题。
[0019] 2、本发明实施例的平行语料对齐的方法,不需要通过人工处理,节省了时间,提高 了效率。
[0020] 3、本发明实施例的平行语料对齐的方法,通过将原文语句和译文语句转换成相同 编码的字符,解决由于不同编码方式产生乱码的问题,以及通过统一原文和译文的字符的 编码方式,便于对齐原文和译文。
[0021] 4、本发明实施例的平行语料对齐的装置,基于实义词的相似度,解决了译后处理 的原译文对齐问题。
[0022] 5、本发明实施例的平行语料对齐的装置,实现了自动化,节省了时间,提高了效 率。
[0023] 6、本发明实施例的平行语料对齐的装置,通过将原文语句和译文语句转换成相同 编码的字符,解决由于不同编码方式产生乱码的问题,以及通过统一原文和译文的字符的 编码方式,便于对齐原文和译文。
【附图说明】
[0024] 图1是本发明实施例的平行语料对齐的方法的流程图;
[0025]图2是本发明实施例的平行语料对齐的装置的流程图。
【具体实施方式】
[0026] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0027] 本发明实施例提供了一种平行语料对齐的方法。如图1所示,为本发明实施例的平 行语料
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1