平行语料对齐的方法和装置的制造方法

文档序号：9887617阅读：945来源：国知局

平行语料对齐的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及翻译技术领域，具体涉及一种平行语料对齐的方法和装置。
【背景技术】
[0002] 平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指，将原文和译文按不同的分割粒度进行对应，形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度，粒度越小的平行语料，其提供的语言信息就越丰富，应用价值也越大。
[0003] -般而言，语料如果是按篇章或段落对齐，可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理，由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因，段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理，既费时费力，效率也很低。

【发明内容】

[0004] 本发明实施例的目的在于克服现有技术的上述不足，提供一种平行语料对齐的方法，该方法基于实义词的相似度，解决了原文和译文对齐的问题。
[0005] 本发明实施例的另一目的在于克服现有技术的上述不足，提供一种平行语料对齐的装置，该装置基于实义词的相似度，解决了原文和译文对齐的问题。
[0006] 为了实现上述发明目的，本发明实施例的技术方案如下：
[0007] -种平行语料对齐的方法，包括:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
[0008] 进一步，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：根据8；[111(购1，11^歷 10 = 17((1丨8(购1，11^斷)+0获得原文语句01?的第」个实义词的第1个译项n w j i与第i个译文语句T R i的第r个实义词T R i n w r的相似度；根据
获得所述原文语句0R的第j个实义词的第1个译项nWjl与所述译文语句TRi的相似度;根据
获得所述原文语句0R的第j个实义词η%和第i个所述译文语句TRi的相似度;其中，所述原文语句 OR具有m个实义词，所述译文中共有η个所述译文语句，所述译文语句TRi具有p个实义词，第 j个实义词具有k个译项，L表示调节参数，dis(nwji，TRmwr)表示所述原文语句OR的第j个实义词的第1个译项nw^和第i个所述译文语句TRi的第r个实义词TRm Wr在词典中的代码的距离，i = l，2，."，n，j = l，2，."，m，l = l，2，."，k，r = l，2，."，p0
[0009] 进一步，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括:根S
获得所述原文语句0R与所述译文语句TRi的相似度。
[0010] 进一步，所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:根据'
K得与所述原文语句0R的相似度最高的所述译文语句;将与所述原文语句0R的相似度最高的所述译文语句和所述原文语句0R匹配，并对齐所述原文语句0R和所述译文语句。
[0011] 进一步，还包括:对转换后的所述原文中的所述原文语句按顺序进行编号;对转换后的所述译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。
[0012] 进一步:所述词典为按树形结构编码的同义词分类词典，所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
[0013] 进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
[0014] 进一步，所述将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符的过程包括:根据所述原文中的所有所述原文语句的字符的编码方式读取所述原文语句中的字符或者字符串，以及根据所述译文中的所有所述译文语句的字符的编码方式读取所述译文语句中的字符或者字符串；根据相同目标编码方式分别将读取的所述原文语句和所述译文语句中的字符或者字符串转换成目标编码字符或者字符串。
[0015] 进一步，所述实义词包括:名词、动词、形容词和副词。
[0016] 以及，一种平行语料对齐的装置，包括:第一单元，用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;第二单元，用于对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获得实义词；第三单元，用于获取所述原文语句的每个实义词的所有译项；第四单元，用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度;第五单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度;第六单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
[0017] 本发明实施例的有益效果如下：
[0018] 1、本发明实施例的平行语料对齐的方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。
[0019] 2、本发明实施例的平行语料对齐的方法，不需要通过人工处理，节省了时间，提高了效率。
[0020] 3、本发明实施例的平行语料对齐的方法，通过将原文语句和译文语句转换成相同编码的字符，解决由于不同编码方式产生乱码的问题，以及通过统一原文和译文的字符的编码方式，便于对齐原文和译文。
[0021] 4、本发明实施例的平行语料对齐的装置，基于实义词的相似度，解决了译后处理的原译文对齐问题。
[0022] 5、本发明实施例的平行语料对齐的装置，实现了自动化，节省了时间，提高了效率。
[0023] 6、本发明实施例的平行语料对齐的装置，通过将原文语句和译文语句转换成相同编码的字符，解决由于不同编码方式产生乱码的问题，以及通过统一原文和译文的字符的编码方式，便于对齐原文和译文。
【附图说明】
[0024] 图1是本发明实施例的平行语料对齐的方法的流程图；
[0025]图2是本发明实施例的平行语料对齐的装置的流程图。
【具体实施方式】
[0026] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0027] 本发明实施例提供了一种平行语料对齐的方法。如图1所示，为本发明实施例的平行语料

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江潮;张芃;
技术所有人：武汉传神信息技术有限公司;
我是此专利的发明人

上一篇：一种识别率确定方法及装置的制造方法
上一篇：一种电力系统图形文件离线维护的方法