平行语料对齐的方法和装置的制造方法_2

文档序号：9887617阅读：来源：国知局

对齐的方法的流程图。该平行语料对齐的方法的具体过程如下：
[0028] 步骤S10:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符。
[0029] 步骤S10包括如下的步骤：
[0030]步骤S101:根据原文中的所有原文语句的字符的编码方式读取原文语句中的字符或者字符串，以及根据译文中的所有译文语句的字符的编码方式读取译文语句中的字符或者字符串。
[0031] 步骤S102:根据相同目标编码方式分别将读取的原文语句和译文语句中的字符或者字符串转换成目标编码字符或者字符串。
[0032] 具体的，上述步骤的具体过程可以通过下述的方式实现：
[0033] (1)获取原文中的所有原文语句的字符的编码方式得到原文语句的编码字符数据集，以及获取译文中的所有译文语句的字符的编码方式得到译文语句的编码字符数据集。 [0034] (2)根据原文语句的字符的编码方式流式读取原文语句的编码字符数据集中的字符或者字符串，以及根据译文语句的字符的编码方式流式读取译文语句的编码字符数据集中的字符或者字符串。
[0035] (3)根据相同目标编码方式将原文语句和译文语句的编码字符数据集中的字符或者字符串转换成原文语句的目标编码字符或者字符串以及译文语句的目标编码字符或者字符串。
[0036] (4)将原文语句的目标编码字符或者字符串加入到原文语句的动态目标字符集中，以及将译文语句的目标编码字符或者字符串加入到译文语句的动态目标字符集中。
[0037] (5)重复步骤（1)~(4)，直到原文语句的编码字符数据集和译文语句的编码字符数据集中的字符或者字符串读取完毕。
[0038] (6)将原文语句的动态目标字符集取出转换成原文语句的目标编码字符数据集，以及将译文语句的动态目标字符集取出转换成译文语句的目标编码字符数据集。
[0039] 经过步骤S10可以将原文语句和译文语句转换成相同编码方式的字符，解决由于不同编码方式产生乱码的问题，以及通过统一原文和译文的字符的编码方式，便于对齐原文和译文。
[0040] 步骤S20:对转换后的原文中的所有原文语句分词，去除其中的停用词，获得实义 1·^] 〇
[0041] 具体的，实义词包括：名词、动词、形容词和副词。优选的，将所有实义词建立一个实义词集合。
[0042]步骤S30:获取原文语句的每个实义词的所有译项。
[0043] -个实义词往往有多种表达含义，每个不同的含义称之为该实义词的一个译项。译项为同义词词典中的最小单位，在词典中有相应的代码与其对应。例如："骄傲"这个词可以有两种含义，"自豪"和"傲慢"，该两种含义就是骄傲这个词语的两个译项。因此，需要获取每个实义词的所有译项。例如，可建立如表1所示的实义词和译项的对应表。
[0044] 表1实义词和译项的对应表
[0045]
[0046] 步骤S40:将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度。
[0047]其中，步骤S40具体包括如下的过程：
[0048] 步骤 S401:
[0049] 根据sim(nwji，TRmwr) =1/((1丨8(歷」1，11^歷1〇+1)获得原文语句01?的第」个实义词的第1个译项nwji与第i个译文语句TRi的第r个实义词TRm Wr的相似度。
[0050]本实施例中的实义词和实义词之间的相似度是一个取值范围在[0，1]之间的数值。如果一个实义词是另一个实义词的本身的语义，则两个实义词之间的相似度为1;如果两个实义词在任何上下文中都不能替换，则两个实义词之间的相似度为〇。
[0051 ]其中，原文语句0R具有m个实义词。译文中共有η个译文语句。译文语句TRi具有p个实义词。i表示译文语句的计数，1 = 1，2，一，11。第」个实义词具有1^个译项。」表示一个原文语句中的实义词的计数，j = 1，2，…，m。1表示一个实义词的译项的计数，1 = 1，2，…，k。1·表示一个译文语句中的实义词的计数，r=l，2，··· ^disUwjiJRinwr)表示在词典中，原文语句 0R的第j个实义词的第1个译项nwji和第i个译文语句TRi的第r个实义词TRm Wr之间的距离。L 表示调节参数。原文语句OR的第j个实义词的第1个译项nWjl与第i个译文语句TRi的第r个实义词TRm Wr的相似度与两个词在词典中的距离呈反比关系。具体的，本发明中所述的词典指的是按树形结构编码的同义词分类的词典。例如，《同义词词林》和《WordNet》等同义词本体工具。该词典中，该按树形结构编码的同义词分类词典的每个节点具有唯一的代码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数，即树形结构的层数。(118(1^1，11^1^)具体为原文语句01?的第」_个实义词的第1个译项1^1和第;[个译文语句TRi的第r个实义词TRm Wr在词典中的代码的距离，即两个代码之间的差值。
[0052]步骤 S402:
[0053]根据下式 [0054]
[0055]获得原文语句0R的第j个实义词的第1个译项nWji与译文语句TRi的相似度。
[0056] 步骤 S403:
[0057] 根据下式
[0058]
[0059]获得原文语句0R的第j个实义词nwj和译文语句TRi的相似度。
[0060] 步骤S50:根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度。
[0061] 根据下式
[0062]
[0063]获得原文语句0R与译文语句TRi的相似度。
[0064] 步骤S60:将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
[0065] 具体的，根_
茯得与原文语句0R的相似度最高的译文语句。
[0066]将与原文语句0R的相似度最高的译文语句和原文语句0R匹配并对齐。
[0067]在步骤S60中，可能存在同一译文语句和多个原句的相似度相同且均为最高的情况，则步骤S60具体还包括如下的比对过程：
[0068] (1)对转换后的原文中的原文语句按顺序进行编号。
[0069] 例如，将原文中的第一句编号为1，第二句编号为2,依次类推。优选的，将所有编号后的原文语句建立一个原文语句的集合。
[0070] (2)对转换后的译文中的译文语句按顺序进行编号。
[0071]例如，将译文中的第一句编号为1，第二句编号为2,依次类推。优选的，将所有编号后的译文语句建立一个译文语句的集合。
[0072] (3)获取多个原文语句在原文中的编号，以及译文语句在译文中的编号。
[0073]具体的，该过程又包括如下的两种处理方式：
[0074] 1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的编号最接近，则将该一个原文语句与译文语句匹配并对齐。
[0075] 例如，4个原文语句在原文中的编号分别为1，2,3,4。译文语句在译文中的编号为 5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句的编号最接近，则将编号为4的原文语句和编号为5的译文语句匹配并对齐。
[0076] 2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的编号均为最接近，则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号较大的原文语句与剩余译文语句的相似度的高低，将剩余译文语句中与编号较大的原文语句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。
[0077] 例如，4个原文语句在原文中的编号分别为1，3,5,7。译文语句在译文中的编号为 4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小，则将编号为3的原文语句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中，如果一译文

完整全部详细技术资料下载

当前第2页1 2 3