翻译错误的定位方法和装置的制造方法_2

文档序号:9910988阅读:来源:国知局
错误的定位方法的具体过程如下:
[0028] 步骤S10:对原文和译文中的网页标签进行标记。
[0029]具体的,步骤S10包括如下的过程:
[0030] 步骤S101:使用网页标签识别规则检查所有原文语句和译文语句中是否包含网页 标签。
[0031] 该网页标签识别规则为正则表达式,该正则表达式具体如表所示。
[0032] 表1网页识别规则
[0035]
[0036] 读取所有原文语句和译文语句,输入所有原文语句和译文语句,根据上表的网页 识别规则,检查所有原文语句和译文语句中是否包含网页标签。只要有一种正则表达式应 用成功,均判定为该语句含网页标签。
[0037] 如果原文语句中包含网页标签,则进行步骤S102~103;以及如果译文语句中包含 网页标签,则进行步骤S104~105。
[0038]步骤S102:遍历原文,依次获得网页标签在原文中的起始索引和网页标签的长度。
[0039] 步骤S103:根据网页标签在原文中的起始索引和网页标签的长度,将原文中的网 页标签标记为不能修改。
[0040] 步骤S104:遍历译文,依次获得网页标签在译文中的起始索引和网页标签的长度。
[0041] 步骤S105:根据网页标签在译文中的起始索引和网页标签的长度,将译文中的网 页标签标记为不能修改。
[0042] 其中,步骤S103和步骤S105的具体做法如下:
[0043] 步骤S101获取的网页标签都是有效的标签范围,通过步骤S103和步骤S105的网页 标签在原文和译文中的起始索引可以获得的网页标签的位置。根据网页标签的位置信息和 长度信息,渲染网页标签的文本的背景色为淡蓝,示意该段文本已经被保护,使该段表示网 页标签的代码无法修改,即不能删除、不能改变代码的任一字符、不能移动、不能复制、不能 在受保护的连续的表示网页标签的文本的间隙增加任一字符、空格等等,从而实现了对网 页标签有效的保护,以便不对网页标签进行对齐处理。
[0044] 步骤S20:对标记后的原文中的所有原文语句分词,去除其中的停用词,获得实义 1·^] 〇
[0045] 具体的,实义词包括:名词、动词、形容词和副词。优选的,将所有实义词建立一个 实义词集合。
[0046] 步骤S30:获取原文语句的每个实义词的所有译项。
[0047] -个实义词往往有多种表达含义,每个不同的含义称之为该实义词的一个译项。 译项为同义词词典中的最小单位,在词典中有相应的代码与其对应。例如:"骄傲"这个词可 以有两种含义,"自豪"和"傲慢",该两种含义就是骄傲这个词语的两个译项。因此,需要获 取每个实义词的所有译项。例如,可建立如表2所示的实义词和译项的对应表。
[0048] 表2实义词和译项的对应表
[0049]
[0050] 步骤S40:将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译 文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
[0051 ]其中,步骤S40具体包括如下的过程:
[0052]步骤 S401:
[0053] 根据sim(nwji,TRmwr) =1/((1丨8(歷」1,11^11¥1〇+1)获得原文语句01?的第」个实义词 的第1个译项nwji与第i个译文语句TRi的第r个实义词TRmwr的相似度。
[0054]本实施例中的实义词和实义词之间的相似度是一个取值范围在[0,1]之间的数 值。如果一个实义词是另一个实义词的本身的语义,则两个实义词之间的相似度为1;如果 两个实义词在任何上下文中都不能替换,则两个实义词之间的相似度为〇。
[0055]其中,原文语句0R具有m个实义词。译文中共有η个译文语句。译文语句TRi具有p个 实义词。i表示译文语句的计数,1 = 1,2,一,11。第」个实义词具有1^个译项。」表示一个原文语 句中的实义词的计数,j = 1,2,…,m。1表示一个实义词的译项的计数,1 = 1,2,…,k。1·表示 一个译文语句中的实义词的计数,r=l,2,··· ^disUwjiJRinwr)表示在词典中,原文语句 0R的第j个实义词的第1个译项nwji和第i个译文语句TRi的第r个实义词TRm Wr之间的距离。L 表示调节参数。
[0056]原文语句〇R的第j个实义词的第1个译项nwjl与第i个译文语句TRi的第r个实义词 TRmWr的相似度与两个词在词典中的距离呈反比关系。具体的,本发明中所述的词典指的是 按树形结构编码的同义词分类的词典。例如,《同义词词林》和《WordNet》等同义词本体工 具。该词典中,该词典中,该按树形结构编码的同义词分类词典的每个节点具有唯一的代 码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数, 即树形结构的层数。(^(则1,11^歷1〇具体为原文语句01?的第]_个实义词的第1个译项歷」1和 第i个译文语句TRi的第r个实义词TRm Wr在词典中的代码的距离,即两个代码之间的差值。 [0057]步骤 S402:
[0058]根据下式
[0059]
[0060] 获得原文语句0R的第j个实义词的第1个译项nwji与译文语句TRi的相似度。
[0061 ]步骤 S403:
[0062]根据下式
[0063]
一 ?=1,Ζ.··\Λ: ' /-Ι,Ζ,···,/(: Γ-1,Ζ,···νρ "
[0064] 获得原文语句OR的第j个实义词nwj和译文语句TRi的相似度。
[0065]步骤S50:根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语 句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
[0066]根据下式 [0067]
[0068]获得原文语句0R与译文语句TRi的相似度。
[0069] 步骤S60:将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
[0070] 具体的,根据
获得与原文 语句0R的相似度最高的译文语句。
[0071] 将与原文语句0R的相似度最高的译文语句和原文语句0R匹配并对齐。
[0072] 在步骤S60中,可能存在同一译文语句和多个原句的相似度相同且均为最高的情 况,则步骤S60具体还包括如下的比对过程:
[0073] (1)对原文中的原文语句按顺序进行编号。
[0074]例如,将原文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号 后的原文语句建立一个原文语句的集合。
[0075] (2)对译文中的译文语句按顺序进行编号。
[0076]例如,将译文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号 后的译文语句建立一个译文语句的集合。
[0077] (3)获取多个原文语句在原文中的编号,以及译文语句在译文中的编号。
[0078] 具体的,该过程又包括如下的两种处理方式:
[0079] 1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的 编号最接近,则将该一个原文语句与译文语句匹配并对齐。
[0080] 例如,4个原文语句在原文中的编号分别为1,2,3,4。译文语句在译文中的编号为 5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句 的编号最接近,则将编号为4的原文语句和编号为5的译文语句匹配并对齐。
[0081] 2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的 编号均为最接近,则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号 较大的原文语句与剩余译文语句的相似度的高低,将剩余译文语句中与编号较大的原文语 句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。
[0082] 例如,4个原文语句在原文中的编号分别为1,3,5,7。译文语句在译文中的编号为 4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原 文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小,则将编号为3的原文语 句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中,如果 一译文语句与编号为5的原文语句的相似度最高,则将该译文语句和编号为5的原文语句匹 配。
[0083] 3)重复上述过程1)和2),直到每个原文语句均与每个译文语句匹配并对齐。
[0084]本发明的
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1