翻译错误的定位方法和装置的制造方法

文档序号:9910988阅读:558来源:国知局
翻译错误的定位方法和装置的制造方法
【技术领域】
[0001] 本发明涉及翻译技术领域,具体涉及一种翻译错误的定位方法和装置。
【背景技术】
[0002] 文档翻译完成后即进入审校环节,审校人员会对译文中的错译、漏译等翻译错误 点出,如何将这些点出的错误所在的译句和其在原文中的语句相对应,是一项基础工作。译 句和原句对应后,即可通过原句在平行语料库中对包含错译、漏译等错误的译文语句进行 相似性比较,从而较为客观的判断译句的错误类型和错误程度。
[0003] 所以将原文和译文进行按句对齐是一项基础性的工作,一般按段落对齐,可以将 原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简 单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语 句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于 句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。

【发明内容】

[0004] 本发明实施例的目的在于克服现有技术的上述不足,提供一种翻译错误的定位方 法,该方法基于实义词的相似度,解决了原文和译文对齐的问题。
[0005] 本发明实施例的另一目的在于克服现有技术的上述不足,提供一种翻译错误的定 位装置,该装置基于实义词的相似度,解决了原文和译文对齐的问题。
[0006] 为了实现上述发明目的,本发明实施例的技术方案如下:
[0007] -种翻译错误的定位方法,包括:对原文和译文中的网页标签进行标记;对标记 后的所述原文中的所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句 的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在标记后的所述 译文中的所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句 的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原 文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与 所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
[0008] 进一步,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句 中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括: 根据8;[111(购1,11^歷 10 = 17((1丨8(购1,11^斷)+0获得原文语句01?的第」个实义词的第1个译 项n w j i与第i个译文语句T R i的第r个实义词T R i n w r的相似度;根据 咖心川·" R"%))获得所述原文语句0R的第j个实义词的第丨个译 项nWjl与所述译文语句TRi的相似度;根据胃/,77? = J7?,·))获 述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;其中,所述原文语句OR 具有m个实义词,所述译文中共有η个所述译文语句,所述译文语句TRi具有p个实义词,第j 个实义词具有k个译项,L表示调节参数,dis(nwji,TRmwr)表示所述原文语句OR的第j个实 义词的第1个译项nw^和第i个所述译文语句TRi的第r个实义词TRmWr在词典中的代码的距 离,i = l,2,.",n,j = l,2,.",m,l = l,2,.",k,r = l,2,.",p0
[0009] 进一步,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将 每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相 似度的过程包括:根据^^^卜.U 获得所述原文语句0瞒所述译 i-\."2. ··.tn 文语句TRi的相似度。
[0010] 进一步,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹 配并对齐的过程包括:根据,.1^"('_0^7< ))=,.1^.,,(11_(/711;.'_, 77?''))获得与 所述原文语句OR的相似度最高的所述译文语句;将与所述原文语句OR的相似度最高的所述 译文语句和所述原文语句0R匹配,并对齐所述原文语句0R和所述译文语句。
[0011]进一步,还包括:对标记后的所述原文中的所述原文语句按顺序进行编号;对标记 后的所述译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文 语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译 文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原 文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语 句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文 中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的 所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述 原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的 所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐; 重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
[0012] 进一步:所述词典为按树形结构编码的同义词分类词典,所述按树形结构编码的 同义词分类词典的每个节点具有唯一的所述代码。
[0013] 进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
[0014] 进一步,所述对原文和译文中的网页标签进行标记的过程包括:使用网页标签识 别规则检查所有所述原文语句和所述译文语句中是否包含所述网页标签;如果所述原文语 句中包含所述网页标签,则遍历所述原文,依次获得所述网页标签在所述原文中的起始索 引和所述网页标签的长度;根据所述网页标签在所述原文中的起始索引和所述网页标签的 长度,将所述原文中的所述网页标签标记为不能修改;如果所述译文语句中包含所述网页 标签,则遍历所述译文,依次获得所述网页标签在所述译文中的起始索引和所述网页标签 的长度;根据所述网页标签在所述译文中的起始索引和所述网页标签的长度,将所述译文 中的所述网页标签标记为不能修改。
[0015] 进一步,所述实义词包括:名词、动词、形容词和副词。
[0016] 以及,一种翻译错误的定位装置,包括:第一单元,用于对原文和译文中的网页标 签进行标记;第二单元,用于对标记后的所述原文中的所有原文语句分词,去除其中的停用 词,获得实义词;第三单元,用于获取所述原文语句的每个实义词的所有译项;第四单元,用 于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句 中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;第五单元,用 于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和 所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;第六单元,用于 将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
[0017] 本发明实施例的有益效果如下:
[0018] 1、本发明实施例的翻译错误的定位方法,基于实义词的相似度,解决了译后处理 的原译文对齐问题。
[0019] 2、本发明实施例的翻译错误的定位方法,不需要通过人工处理,节省了时间,提高 了效率。
[0020] 3、本发明实施例的翻译错误的定位方法,通过对原文和译文中的网页标签进行预 先标记,将网页标签保护起来,使网页标签的代码无法修改,不对网页标签进行对齐处理。
[0021] 4、本发明实施例的翻译错误的定位装置,基于实义词的相似度,解决了译后处理 的原译文对齐问题。
[0022] 5、本发明实施例的翻译错误的定位装置,实现了自动化,节省了时间,提高了效 率。
[0023] 6、本发明实施例的翻译错误的定位装置,通过对原文和译文中的网页标签进行预 先标记,将网页标签保护起来,使网页标签的代码无法修改,不对网页标签进行对齐处理。
【附图说明】
[0024] 图1是本发明实施例的翻译错误的定位方法的流程图;
[0025]图2是本发明实施例的翻译错误的定位装置的流程图。
【具体实施方式】
[0026] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0027] 本发明实施例提供了一种翻译错误的定位方法。如图1所示,为本发明实施例的翻 译错误的定位方法的流程图。该翻译
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1