翻译错误的定位方法和装置的制造方法

文档序号：9910988阅读：558来源：国知局

翻译错误的定位方法和装置的制造方法
【技术领域】
[0001] 本发明涉及翻译技术领域，具体涉及一种翻译错误的定位方法和装置。
【背景技术】
[0002] 文档翻译完成后即进入审校环节，审校人员会对译文中的错译、漏译等翻译错误点出，如何将这些点出的错误所在的译句和其在原文中的语句相对应，是一项基础工作。译句和原句对应后，即可通过原句在平行语料库中对包含错译、漏译等错误的译文语句进行相似性比较，从而较为客观的判断译句的错误类型和错误程度。
[0003] 所以将原文和译文进行按句对齐是一项基础性的工作，一般按段落对齐，可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简单处理，由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因，段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于句子的原译文对齐工作往往需要人工来处理，既费时费力，效率也很低。

【发明内容】

[0004] 本发明实施例的目的在于克服现有技术的上述不足，提供一种翻译错误的定位方法，该方法基于实义词的相似度，解决了原文和译文对齐的问题。
[0005] 本发明实施例的另一目的在于克服现有技术的上述不足，提供一种翻译错误的定位装置，该装置基于实义词的相似度，解决了原文和译文对齐的问题。
[0006] 为了实现上述发明目的，本发明实施例的技术方案如下：
[0007] -种翻译错误的定位方法，包括:对原文和译文中的网页标签进行标记；对标记后的所述原文中的所有原文语句分词，去除其中的停用词，获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
[0008] 进一步，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：根据8；[111(购1，11^歷 10 = 17((1丨8(购1，11^斷)+0获得原文语句01?的第」个实义词的第1个译项n w j i与第i个译文语句T R i的第r个实义词T R i n w r的相似度；根据咖心川·" R"%))获得所述原文语句0R的第j个实义词的第丨个译项nWjl与所述译文语句TRi的相似度;根据胃/，77? = J7?,·))获述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;其中，所述原文语句OR 具有m个实义词，所述译文中共有η个所述译文语句，所述译文语句TRi具有p个实义词，第j 个实义词具有k个译项，L表示调节参数，dis(nwji，TRmwr)表示所述原文语句OR的第j个实义词的第1个译项nw^和第i个所述译文语句TRi的第r个实义词TRmWr在词典中的代码的距离，i = l，2，."，n，j = l，2，."，m，l = l，2，."，k，r = l，2，."，p0
[0009] 进一步，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括:根据^^^卜.U 获得所述原文语句0瞒所述译 i-\."2. ··.tn 文语句TRi的相似度。
[0010] 进一步，所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括：根据,.1^"('_0^7< ))=,.1^.,,(11_(/711;.'_， 77?''))获得与所述原文语句OR的相似度最高的所述译文语句;将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句0R匹配，并对齐所述原文语句0R和所述译文语句。
[0011]进一步，还包括:对标记后的所述原文中的所述原文语句按顺序进行编号;对标记后的所述译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。
[0012] 进一步:所述词典为按树形结构编码的同义词分类词典，所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
[0013] 进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
[0014] 进一步，所述对原文和译文中的网页标签进行标记的过程包括:使用网页标签识别规则检查所有所述原文语句和所述译文语句中是否包含所述网页标签;如果所述原文语句中包含所述网页标签，则遍历所述原文，依次获得所述网页标签在所述原文中的起始索引和所述网页标签的长度;根据所述网页标签在所述原文中的起始索引和所述网页标签的长度，将所述原文中的所述网页标签标记为不能修改;如果所述译文语句中包含所述网页标签，则遍历所述译文，依次获得所述网页标签在所述译文中的起始索引和所述网页标签的长度;根据所述网页标签在所述译文中的起始索引和所述网页标签的长度，将所述译文中的所述网页标签标记为不能修改。
[0015] 进一步，所述实义词包括:名词、动词、形容词和副词。
[0016] 以及，一种翻译错误的定位装置，包括:第一单元，用于对原文和译文中的网页标签进行标记;第二单元，用于对标记后的所述原文中的所有原文语句分词，去除其中的停用词，获得实义词;第三单元，用于获取所述原文语句的每个实义词的所有译项;第四单元，用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度;第五单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度;第六单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
[0017] 本发明实施例的有益效果如下：
[0018] 1、本发明实施例的翻译错误的定位方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。
[0019] 2、本发明实施例的翻译错误的定位方法，不需要通过人工处理，节省了时间，提高了效率。
[0020] 3、本发明实施例的翻译错误的定位方法，通过对原文和译文中的网页标签进行预先标记，将网页标签保护起来，使网页标签的代码无法修改，不对网页标签进行对齐处理。
[0021] 4、本发明实施例的翻译错误的定位装置，基于实义词的相似度，解决了译后处理的原译文对齐问题。
[0022] 5、本发明实施例的翻译错误的定位装置，实现了自动化，节省了时间，提高了效率。
[0023] 6、本发明实施例的翻译错误的定位装置，通过对原文和译文中的网页标签进行预先标记，将网页标签保护起来，使网页标签的代码无法修改，不对网页标签进行对齐处理。
【附图说明】
[0024] 图1是本发明实施例的翻译错误的定位方法的流程图；
[0025]图2是本发明实施例的翻译错误的定位装置的流程图。
【具体实施方式】
[0026] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0027] 本发明实施例提供了一种翻译错误的定位方法。如图1所示，为本发明实施例的翻译错误的定位方法的流程图。该翻译

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江潮;张芃;
技术所有人：武汉传神信息技术有限公司;
我是此专利的发明人

上一篇：大数据分析报告自动生成系统的制作方法
上一篇：项目管理文档生成方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。