机翻译文质量评估方法、译文后编辑方法及装置与流程

文档序号:29959829发布日期:2022-05-11 08:49阅读:238来源:国知局
机翻译文质量评估方法、译文后编辑方法及装置与流程

1.本发明涉及自然语言处理技术领域,尤其涉及一种机翻译文质量评估方法、译文后编辑方法及装置。


背景技术:

2.基于神经网络的机器翻译已经在工程上广泛应用,尤其是在通用句子上的翻译效果已可与人类译员相媲美。但是在专业领域,因为专业术语、特定表达等原因,机器翻译的结果还不能直接满足需求,往往需要进行人工后编辑。
3.现有技术中,通常需要后编辑人员花费时间和精力对机器翻译的译文进行逐级检查,以判定哪些译文句子需要进行人工后编辑,导致人工后编辑效率较低。


技术实现要素:

4.本发明提供一种机翻译文质量评估方法、译文后编辑方法及装置,用以解决现有技术中后编辑译员或审校人员在定位需要进行人工干预的译文效率低下的缺陷,实现通过翻译质量评估模型对后编辑译员或审校人员需要进行后编辑的译文进行翻译质量自动评估,将精力集中在评估质量较差的译文上,进而提高后编辑效率。
5.本发明提供一种机翻译文质量评估方法,包括:
6.接收来自目标用户的第一输入;
7.响应于所述第一输入,获取待评估的目标语料对;
8.将所述目标语料对输入至翻译质量评估模型,输出与所述目标语料对对应的翻译质量评估结果;
9.其中,所述翻译质量评估模型是样本语料对及其对应的质量标签训练得到的,所述样本语料对是对初始样本语料进行筛选后获得的,所述目标语料对包括原文和目标译文,所述目标译文包括第一译文、第二译文和第三译文中的一种或者多种,所述目标译文与所述目标用户匹配。
10.根据本发明提供的一种机翻译文质量评估方法,所述翻译质量评估模型的训练过程,包括:
11.基于翻译场景中的目标环节产生的翻译数据,生成初始样本语料;
12.在所述初始样本语料符合目标筛选条件的情况下,基于所述初始样本语料提取出所述样本语料对,并将所述样本语料对对应的所述质量标签设置为目标标签;
13.基于所述样本语料对和所述目标标签,对目标预训练模型进行微调,训练生成所述翻译质量评估模型;
14.其中,所述目标标签与所述目标筛选条件对应,所述目标筛选条件由所述目标环节产生的翻译数据设定,所述目标环节包括第一环节、第二环节和第三环节中的一种或者多种。
15.根据本发明提供的一种机翻译文质量评估方法,所述基于所述样本语料对和所述
质量标签,对目标预训练模型进行微调,训练生成所述翻译质量评估模型,包括:
16.基于所述样本语料对,生成分词序列;
17.将所述分词序列输入至所述目标预训练模型的嵌入层,输出嵌入向量;
18.将所述嵌入向量输入至所述目标预训练模型的全连接层,输出所述样本语料对的翻译质量预测结果;
19.基于所述翻译质量预测结果和所述目标标签,进行反向传播,更新所述翻译质量评估模型的参数。
20.本发明还提供一种译文后编辑方法,包括:
21.基于如上任一所述的机翻译文质量评估方法,获取各所述目标语料对对应的翻译质量评估结果;
22.在所述目标语料对对应的翻译质量评估结果与目标结果相同的情况下,接收来自所述目标用户的第二输入;
23.响应于所述第二输入,将所述目标语料对中的所述目标译文更新为目标后编辑译文;
24.其中,所述目标结果与所述目标用户匹配,所述目标后编辑译文与所述目标用户匹配。
25.根据本发明提供的一种译文后编辑方法,在所述将所述目标语料对中的所述目标译文更新为目标后编辑译文之后,还包括:将所述目标语料对中的所述原文和所述目标后编辑译文组合为新的样本语料,对所述翻译质量评估模型进行迭代训练更新。
26.本发明还提供一种机翻译文质量评估装置,包括:
27.第一接收模块,用于接收来自目标用户的第一输入;
28.第一响应模块,用于响应于所述第一输入,获取待评估的目标语料对;
29.评估模块,用于将所述目标语料对输入至翻译质量评估模型,输出与所述目标语料对对应的翻译质量评估结果;
30.其中,所述翻译质量评估模型是样本语料对及其对应的质量标签训练得到的,所述样本语料对是对初始样本语料进行筛选后获得的,所述目标语料对包括原文和目标译文,所述目标译文包括第一译文、第二译文和第三译文中的一种或者多种,所述目标译文与所述目标用户匹配。
31.本发明还提供一种译文后编辑装置,包括:
32.评估结果获取模块,用于基于如上任一所述的机翻译文质量评估方法,获取各所述目标语料对对应的翻译质量评估结果;
33.第二接收模块,用于在所述目标语料对对应的翻译质量评估结果与目标结果相同的情况下,接收来自所述目标用户的第二输入;
34.第二响应模块,用于响应于所述第二输入,将所述目标语料对中的所述目标译文更新为目标后编辑译文;
35.其中,所述目标结果与所述目标用户匹配,所述目标后编辑译文与所述目标用户匹配。
36.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述机翻译文质量
评估方法的步骤和如上述任一种所述译文后编辑方法的步骤。
37.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述机翻译文质量评估方法的步骤和如上述任一种所述译文后编辑方法的步骤。
38.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述机翻译文质量评估方法的步骤和如上述任一种所述译文后编辑方法的步骤。
39.本发明提供的机翻译文质量评估方法、译文后编辑方法及装置,基于目标用户的第一输入获取待评估的目标语料对,以目标语料对作为翻译质量评估模型的输入,输出结果为翻译质量评估结果。通过预先对初始样本语料进行筛选获取样本语料对,使训练好的翻译质量评估模型更具有针对性,能够提高模型性能,以及提高翻译质量评估的精细性和准确性。
附图说明
40.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明提供的机翻译文质量评估方法的流程示意图;
42.图2是本发明提供的译文后编辑方法的流程示意图;
43.图3是本发明提供的机翻译文质量评估装置的结构示意图;
44.图4是本发明提供的译文后编辑装置的结构示意图;
45.图5是本发明提供的电子设备的结构示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
48.应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
49.术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
50.图1是本发明提供的机翻译文质量评估方法的流程示意图。如图1所示,本发明实施例提供的机翻译文质量评估方法,包括:步骤101、接收来自目标用户的第一输入。
51.需要说明的是,本发明实施例提供的机翻译文质量评估方法的执行主体是机翻译文质量评估装置。
52.本发明实施例提供的机翻译文质量评估方法的应用场景为,某一机器翻译模型在实际的翻译场景中,对原文进行翻译,得到对应的译文后,对其翻译的准确度进行评估。
53.本技术实施例提供的机翻译文质量评估方法适用于目标用户通过电子设备对任一组原文和译文进行评估。
54.上述电子设备可以以各种形式来实施。例如,本技术实施例中描述的电子设备可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、导航装置、智能手环、智能手边、数码相机等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。下面,假设电子设备是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本技术实施例的构造也能够应用于固定类型的终端。
55.目标用户,是指机翻译文质量评估装置的操作人员。将翻译过程中各环节对应的不同用户角色作为目标用户,以使得目标用户应用机翻译文质量评估装置,可以获得与其用户角色对应的评估结果。本发明实施例对目标用户的类型不作具体限定。
56.示例性地,目标用户根据角色职能不同,其对应权限由低至高,可以依次包括后编辑译员、审校人员和专家译员。通过不同权限的目标用户,根据自身对应的角色职能,评估其所处的翻译环节中涉及的译文的翻译质量。
57.具体地,在步骤101中,目标用户可以基于创建与目标用户的角色对应的待评估任务的流程,向机翻译文质量评估装置输入第一输入。
58.第一输入,用于初始化待评估任务。目标用户可以通过第一输入,选择界面的若干个控件完成待评估原文,以及与目标用户的角色对应译文的输入,以初始化待评估任务。
59.可选地,第一输入可以为对上述界面中的若干个控件的触控输入、语音输入、手势输入或者按键输入。第一输入也可以是第一操作,包含用于确定创建与目标用户的角色对应的待评估任务的流程中的指令。
60.步骤102、响应于第一输入,获取待评估的目标语料对。
61.其中,目标语料对包括原文和目标译文,目标译文包括第一译文、第二译文和第三译文中的一种或者多种,目标译文与目标用户匹配。
62.具体地,在步骤102中,在接收到步骤101中的第一输入之后,机翻译文质量评估装置依次根据第一输入中包含的指令,执行对应的操作,完成与目标用户的角色对应的待评估任务的创建,获取待评估任务中的目标语料对。
63.目标语料对,是机翻译文质量评估装置的操作对象,由原文和与目标用户对应的目标译文构成。其中,本发明实施例对不同目标用户对应的目标译文不作具体限定。
64.可选地,当目标用户为后编辑译员的情况,其角色职能是检查和修正机器翻译的输出译文,所以与后编辑译员对应的目标译文则为第一译文,即机翻译文,记作mt。
65.可选地,当目标用户为审校人员的情况,其角色职能是检查和修正后编辑译员的输出译文,所以与审校人员对应的目标译文则为第二译文,即译员后编辑译文,记作pe。
66.可选地,当目标用户为专家译员的情况,其角色职能是检查和修正审校人员的输出译文,所以与专家译员对应的目标译文则为第三译文,即审校后编辑译文,记作pe2。
67.可以理解的是,可以根据受众对机器翻译的需求,确定目标用户的数量,以及与目标用户对应的目标译文的数量。
68.示例性地,对于句型简单、表述清晰、语法简单、专业词汇少或者文学性不强的稿件,可以将目标用户控制在后编辑译员和/或审校人员的组织架构中。
69.示例性地,对于专业领域的内容关联度较强的稿件,因为专业术语、特定表达等原因,需要本专业领域的专业人员对翻译成果进行最后的质量把控,故可以将目标用户控制在后编辑译员、审校人员和专家译员的组织架构中。
70.步骤103、将目标语料对输入至翻译质量评估模型,输出与目标语料对对应的翻译质量评估结果。
71.其中,翻译质量评估模型是样本语料对及其对应的质量标签训练得到的,样本语料对是对初始样本语料进行筛选后获得的。
72.需要说明的是,翻译质量评估模型可以是一种人工智能模型,本发明实施例对模型类型不作具体限定。
73.示例性地,翻译质量评估模型是一种用于进行分类的神经网络模型,神经网络的结构和参数包括但不限于神经网络的输入层,隐含层和输出层的层数,以及每一层的权重参数等。本发明实施例对神经网络的种类和结构不作具体限定。
74.示例性地,机翻译文质量评估装置基于翻译质量评估模型,对目标语料对进行翻译质量的评估,该模型由输入层、隐藏层和输出层构成。
75.输入层在整个网络的最前端部分,直接接收由目标用户输入的目标语料对。
76.隐含层内部包括但不限于嵌入层、循环神经网络层、注意力层和分类层。通过自身的神经元,对输入的目标语料对进行加权求和计算。
77.输出层是最后一层,用来输出翻译质量评估结果,这个值可以是一个分类向量值,也可以是一个类似线性回归那样产生的连续的值,还可以是别的复杂类型的值或者向量,本发明实施例对此不作具体限定。
78.可以理解的是,为了准确的进行机器翻译质量评估运算,事先需要初始化构建一个文本分类的神经网络模型,并利用一定量的训练样本对该基础模型进行训练。
79.而在进行训练样本集的组建时,对于任一样本语料对,其至少包含样本所对应的原文、目标译文和质量标签,即样本原文、样本目标译文(即样本第一译文、样本第二译文或者样本第三译文)和样本质量标签。其中,质量标签代表该语料对中译文的翻译质量。本发明实施例对样本语料对不作具体限定。
80.优选地,样本语料对是对初始样本语料,按照不同目标用户的角色职能所对应的数据类型,进行筛选,由样本原文分别与初始样本语料中的样本第一译文、样本第二译文和样本第三译文组成样本语料对,并根据不同的数据类型给每个样本语料对赋予一个质量标签,例如“优”、“中”、“差”三类标签。
81.具体地,在步骤103中,机翻译文质量评估装置对构建好的翻译质量评估模型各层间的权值系数初始化,根据基于样本语料对依次对模型进行训练和检验,可以获取精度最高的模型参数,即输入层与隐藏层的权值系数。
82.机翻译文质量评估装置根据训练好的模型参数,对翻译质量评估模型进行设置后,通过该模型对任一如步骤102中的目标语料对进行评估,可以得到与该目标语料对对应的翻译质量评估结果。
83.翻译质量评估结果可以是一个概率值或者标签结果,本发明实施例对翻译质量评估结果的形式不作具体限定。
84.可选地,翻译质量评估结果可以是一个概率值,则可以通过概率值说明目标语料对属于某一质量等级的概率。
85.可选地,翻译质量评估结果可以是一个标签结果,则可以通过模型预测目标语料对对应质量等级的类别标签。
86.本发明实施例对质量等级的划分不做具体限定。示例性地,翻译质量评估结果根据质量等级的划分,可以包括“优”、“中”、“差”三类标签。
87.翻译质量评估结果可以用于评估当前翻译环节的翻译质量。还可以进一步地用于为后编辑流程提供理论依据,实现辅助目标用户快速选择和定位需要进行人工干预的目标译文。
88.本发明实施例基于目标用户的第一输入获取待评估的目标语料对,以目标语料对作为翻译质量评估模型的输入,输出结果为翻译质量评估结果。通过预先对初始样本语料进行筛选获取样本语料对,使训练好的翻译质量评估模型更具有针对性,能够提高模型性能,以及提高翻译质量评估的精细性和准确性。
89.在上述任一实施例的基础上,翻译质量评估模型的训练过程,包括:基于翻译场景中的目标环节产生的翻译数据,生成初始样本语料。
90.其中,目标环节包括第一环节、第二环节和第三环节中的一种或者多种。
91.需要说明的是,实际翻译场景,是指利用机器翻译技术,把一种自然语言翻译成另一种自然语言的过程。但在一些专业领域,机器翻译的结果与现实场景存在差异,需要人工进行后编辑,对机器翻译直接输出的机翻译文进行进一步校准和编辑,从而使翻译出的译文的语义与原文更相符合。
92.目标环节,则为上述过程中的某一个或者某几个环节。本发明实施例对目标环节的设置不作具体限定。
93.示例性地,可以根据是否需要人工干预划分为两大环节,一个环节是机器翻译直接输出的机翻译文的过程,另一个环节是对机翻译文进行后编辑的过程。
94.优选地,在上述两大环节的基础上,根据不同目标用户的角色职能做进一步的细化。
95.可选地,当目标用户为后编辑译员的情况,与后编辑译员对应的目标环节则为第一环节,由后编译译员在下一环节中对该环节输出的机翻译文进行检查和修正。
96.可选地,当目标用户为审校人员的情况,与审校人员对应的目标环节则为第二环节,由审校人员在下一环节中对该环节输出的译员后编辑译文进行检查和修正。
97.可选地,当目标用户为专家译员的情况,与专家译员对应的目标环节则为第三环节,由专家译员对该环节输出的审校后编辑译文进行检查和修正,以形成最终译文。
98.具体地,在步骤103之前,记录实际翻译场景中各目标环节产生的翻译数据,与其原文组合成初始样本语料。
99.本发明实施例对初始样本语料的内容不做具体限定。
100.优选地,初始样本语料由将原文src,与第一环节、第二环节和第三环节分别输出的机翻译文mt、译员后编辑译文pe和审校后编辑译文pe2构成。
101.在初始样本语料符合目标筛选条件的情况下,基于初始样本语料提取出样本语料对,并将样本语料对对应的质量标签设置为目标标签。
102.其中,目标标签与目标筛选条件对应,目标筛选条件由目标环节产生的翻译数据设定。
103.需要说明的是,目标筛选条件,是指制约各目标环节输出的目标译文的数据类型的因素。目标筛选条件用于对原文在实际翻译场景中各环节的翻译情况进行分类。
104.可选地,当机翻译文、译员后编辑译文、审校后编辑译文三者都相同时,说明各环节的翻译结果一致,第一环节的机器翻译结果可以作为最终译文输出,故目标筛选条件可以设置为class_a(src,mt=pe=pe2)。
105.可选地,当译员后编辑译文与审校后编辑译文相同,但与机翻译文不同时,说明第一环节的机器翻译结果有误差,经后编译人员修正后可以作为最终译文输出,故目标筛选条件可以设置为class_b(src,mt≠pe=pe2)。
106.可选地,当机翻译文、译员后编辑译文、审校后编辑译文三者都不同时,说明第一环节和第二环节的输出均有误差,经审校人员修正后可以作为最终译文输出,故目标筛选条件可以设置为class_c(src,mt≠pe≠pe2)。
107.具体地,将初始样本语料与目标筛选条件进行匹配,匹配结果有两种:匹配成功和匹配失败。
108.其中,匹配成功是初始样本语料所包含的内容符合目标筛选条件的情况,即可确定初始样本语料的数据类型,并根据不同的数据类型,从初始样本语料提取出与该数据类型对应的样本目标译文,与样本原文形成样本语料对,同时,将每个样本语料的质量标签设置为与该数据类型对应的目标标签。
109.示例性地,本发明实施例给出一种生成样本语料对及质量标签的具体实施过程:
110.(1)对于初始样本语料属于class_a类型的情况,代表机翻译文被译员和审校接受。因此,选择原文和机翻译文生成语料对(src,mt),并将对应的质量标签设置为“优”。
111.(2)对于初始样本语料属于class_b类型的情况,代表机翻译文没有被译员接受,译员对机翻译文进行了后编辑,并且后编辑结果被审校接受。因此,选择原文和机翻译文生成语料对(src,mt),并将对应的质量标签设置为“差”,还选择原文和译员后编辑译文生成语料对(src,pe),并将对应的质量标签设置为“优”。
112.(3)对于初始样本语料属于class_c类型的情况,代表机翻译文没有被译员接受,并且译员后编辑译文没有被审校接受,因此分别选择原文和机翻译文生成语料对(src,mt),并将对应的质量标签设置为“差”,选择原文和译员后编辑译文生成语料对(src,pe),并将对应的质量标签设置为“中”,选择原文和审校后编辑译文生成语料对(src,pe2),并将对应的质量标签设置为“优”。
113.而匹配失败是初始样本语料所包含的内容不符合目标筛选条件的情况,则将该数据抛弃。
114.基于样本语料对和目标标签,对目标预训练模型进行微调,训练生成翻译质量评
估模型。
115.需要说明的是,目标预训练模型,是指前人为解决类似问题所创造出来的模型。在解决实际问题时,不用从零开始训练一个新模型,可以从在类似问题中训练过的模型入手。
116.目标预训练模型包括但不限于multibert模型、xlm-roberta模型等支持多语的预训练模型。本发明实施例对此不作具体限定。
117.具体地,机翻译文质量评估装置根据筛选出的三类样本语料对,及其在对应类型中设置的目标标签,对翻译质量评估模型进行训练。
118.优选地,在通用的目标预训练模型的基础上,通过上述三类样本语料对,及其在对应类型中设置的目标标签进行微调,基于文本分类的方法训练生成翻译质量评估模型。
119.本发明实施例基于预先对初始样本语料进行筛选,通过不同类型提取样本语料对,并设置对应的目标标签,在目标预训练模型的基础上进行微调,生成翻译质量评估模型。能够使模型更具有针对性,能够提高模型训练效率,进而,提高翻译质量评估的精细性和准确性。
120.在上述任一实施例的基础上,基于样本语料对和质量标签,对目标预训练模型进行微调,训练生成翻译质量评估模型,包括:基于样本语料对,生成分词序列。
121.具体地,机翻译文质量评估装置在目标预训练模型的基础上进行微调的过程中,将样本语料对中的样本原文和样本目标译文(mt或pe或pe2)进行分词,形成对应的分词序列。
122.将分词序列输入至目标预训练模型的嵌入层,输出嵌入向量。
123.具体地,机翻译文质量评估装置将分词序列输入至目标预训练模型的嵌入层,在上下文中进行词嵌入,生成嵌入向量。
124.将嵌入向量输入至目标预训练模型的全连接层,输出样本语料对的翻译质量预测结果。
125.具体地,机翻译文质量评估装置将嵌入向量输入至目标预训练模型的全连接层,经降维处理和特征提取后,映射到对翻译质量分类的类别数(即“优”、“中”、“差”三个类别),并将该类别作为样本语料对的翻译质量预测结果。
126.基于翻译质量预测结果和目标标签,进行反向传播,更新翻译质量评估模型的参数。
127.具体地,机翻译文质量评估装置将样本语料对的翻译质量预测结果,与样本语料对对应的目标标签进行比较,获取预测误差,并在该模型中反向传播反复修改各神经元的权值(即模型参数),直至预测误差在可接受范围内。
128.示例性地,本发明实施例给出一种采用目标预训练模型结合微调的方法,训练生成翻译质量评估模型的具体实施过程,以目标预训练模型xlm-roberta模型(简称xlm-r)为例进行说明:
129.将原文和译文(mt或pe或pe2)分词后,组合成分词序列“[cls]+原文分词+[sep]+译文分词”,输入至xlm-r模型。经模型上下文嵌入表示后输出嵌入向量,将[cls]位置的向量输入全连接层来做分类,全连接层输出的维度就是我们要分类的类别数(“优”、“中”、“差”三个类别),同时,采用softmax作为激活函数。
[0130]
本发明实施例基于在目标预训练模型的基础上进行微调,生成翻译质量评估模
型。能够使模型更具有针对性,能够提高模型训练效率,进而,提高翻译质量评估的精细性和准确性。
[0131]
图2是本发明提供的译文后编辑方法的流程示意图。基于上述任一实施例的内容,如图2所示,该译文后编辑方法,包括:步骤201、基于如上述实施例的任一的机翻译文质量评估方法,获取各目标语料对对应的翻译质量评估结果。
[0132]
需要说明的是,译文后编辑方法的执行主体是译文后编辑装置。
[0133]
具体地,在步骤201中,译文后编辑装置可以直接获取到各种不同目标语料对对应的翻译质量评估结果。
[0134]
可以理解的是,机翻译文质量评估和译文后编辑虽是两个独立的任务,但它们之间的相关度很大。故,也可以将两者通过一些策略进行组合。
[0135]
步骤202、在目标语料对对应的翻译质量评估结果与目标结果相同的情况下,接收来自目标用户的第二输入。
[0136]
其中,目标结果与目标用户匹配。
[0137]
需要说明的是,目标结果,是指根据不同的角色职能,目标用户所关心的翻译质量评估结果。
[0138]
示例性地,当目标用户为后编辑译员的情况,由于其角色职能是检查和修正机器翻译的输出译文,所以与后编辑译员对应的目标结果则为“差”。
[0139]
当目标用户为审校人员的情况,由于其角色职能是检查和修正后编辑译员的输出译文,所以与审校人员对应的目标结果则为“中”。
[0140]
当目标用户为专家译员的情况,由于其角色职能是检查和修正审校人员的输出译文,所以与专家译员对应的目标结果则为“中”或者“差”。
[0141]
具体地,在步骤202中,译文后编辑装置将步骤201中获取翻译质量评估结果,与不同目标用户对应的目标结果进行对比,对比结果有两种:对比成功和对比失败。
[0142]
其中,对比成功是目标语料对的翻译质量评估结果与该目标用户对应的目标结果一致的情况,即可确定该目标语料对为目标用户的后编辑对象,目标用户可以基于选取并修正后编辑对象的流程,向界面输入第二输入。
[0143]
第二输入,用于选取并修正后编辑对象。用户可以通过第二输入,选择界面中的若干个控件完成后编辑对象的选取和更改。
[0144]
可选地,第二输入可以为对上述界面中的若干个控件的触控输入、语音输入、手势输入或者按键输入。第二输入也可以是第二操作,包含用于确定选取并修正后编辑对象的流程中的指令。
[0145]
而对比失败是目标语料对的翻译质量评估结果与该目标用户对应的目标结果不一致的情况,即可确定该目标语料对不是目标用户的后编辑对象,目标用户不执行任何操作。
[0146]
步骤203、响应于第二输入,将目标语料对中的目标译文更新为目标后编辑译文。
[0147]
其中,目标后编辑译文与目标用户匹配。
[0148]
需要说明的是,目标后编辑译文,即为第二输入中包含的本文内容,是指目标用户在确定目标语料对为后编辑对象后,对其中的目标译文进行修正的文本内容。
[0149]
具体地,在步骤203中,在接收到步骤202中的第二输入之后,译文后编辑装置依次
根据第二输入中包含的指令,执行对应的操作,将对比成功的目标语料对作为后编辑对象,并将目标语料对中目标译文替换成第二输入中包含的目标后编辑译文,以实现翻译内容的修正。
[0150]
本发明实施例基于目标语料对的翻译质量评估结果,在该结果与目标结果一致的情况,确认该目标语料对需要人工编译,并对利用目标用户的第二输入对目标语料对进行修正。能够根据翻译质量评估结果辅助不同角色职能的用户,快速选择和定位需要进行人工干预的对象,提高后编辑的效率。
[0151]
基于上述任一实施例的内容,在将目标语料对中的目标译文更新为目标后编辑译文之后,还包括:将目标语料对中的原文和目标后编辑译文组合为新的样本语料,对翻译质量评估模型进行迭代训练更新。
[0152]
具体地,在步骤203之后,译文后编辑装置将由对目标语料对中的目标译文修正为目标后编辑译文的变化,同步至翻译质量评估模型的训练样本集中,重复该模型的训练过程,得到更新的翻译质量评估模型。
[0153]
优选地,将译文后编辑装置对目标语料对修正的目标后编辑译文,与该目标语料对中的原文进行组合形成新的样本语料对,并按照对应的数据类型设置目标标签,与原来的语料对样本合并,对翻译质量评估模型进行迭代训练。
[0154]
本发明实施例基于后编辑过程中,目标语料对的积累,以及目标后编辑译文的变化,可以对翻译质量评估模型进行闭环的迭代和优化,从而持续提升模型性能。
[0155]
图3是本发明提供的机翻译文质量评估装置的结构示意图。基于上述任一实施例的内容,如图3所示,该装置包括第一接收模块310、第一响应模块320和评估模块330,其中:
[0156]
第一接收模块310,用于接收来自目标用户的第一输入。
[0157]
第一响应模块320,用于响应于第一输入,获取待评估的目标语料对。
[0158]
评估模块330,用于将目标语料对输入至翻译质量评估模型,输出与目标语料对对应的翻译质量评估结果。
[0159]
其中,翻译质量评估模型是样本语料对及其对应的质量标签训练得到的,样本语料对是对初始样本语料进行筛选后获得的,目标语料对包括原文和目标译文,目标译文包括第一译文、第二译文和第三译文中的一种或者多种,目标译文与目标用户匹配。
[0160]
具体地,第一接收模块310、第一响应模块320和评估模块330顺次电连接。
[0161]
第一接收模块310接收来自目标用户可以基于创建与目标用户的角色对应的待评估任务的流程,向机翻译文质量评估装置输入第一输入。
[0162]
第一响应模块320在接收到第一接收模块310中的第一输入之后,机翻译文质量评估装置依次根据第一输入中包含的指令,执行对应的操作,完成与目标用户的角色对应的待评估任务的创建,获取待评估任务中的目标语料对。
[0163]
评估模块330对构建好的翻译质量评估模型各层间的权值系数初始化,根据基于样本语料对依次对模型进行训练和检验,可以获取精度最高的模型参数,即输入层与隐藏层的权值系数。
[0164]
根据训练好的模型参数,对翻译质量评估模型进行设置后,通过该模型对任一第一响应模块320中的目标语料对进行评估,可以得到与该目标语料对对应的翻译质量评估结果。
[0165]
可选地,翻译质量评估模型的训练过程,包括第一训练模块、第二训练模块、第三训练模块,其中:
[0166]
第一训练模块,用于基于翻译场景中的目标环节产生的翻译数据,生成初始样本语料。
[0167]
第二训练模块,用于在初始样本语料符合目标筛选条件的情况下,基于初始样本语料提取出样本语料对,并将样本语料对对应的质量标签设置为目标标签。
[0168]
第三训练模块,用于基于样本语料对和目标标签,对目标预训练模型进行微调,训练生成翻译质量评估模型。
[0169]
其中,目标标签与目标筛选条件对应,目标筛选条件由目标环节产生的翻译数据设定,目标环节包括第一环节、第二环节和第三环节中的一种或者多种。
[0170]
可选地,第三训练模块包括分词单元、嵌入单元、预测单元和模型迭代单元,其中:
[0171]
分词单元,用于基于样本语料对,生成分词序列。
[0172]
嵌入单元,用于将分词序列输入至目标预训练模型的嵌入层,输出嵌入向量。
[0173]
预测单元,用于将嵌入向量输入至目标预训练模型的全连接层,输出样本语料对的翻译质量预测结果。
[0174]
模型迭代单元,用于基于翻译质量预测结果和目标标签,进行反向传播,更新翻译质量评估模型的参数。
[0175]
本发明实施例提供的机翻译文质量评估装置,用于执行本发明上述机翻译文质量评估方法,其实施方式与本发明提供的机翻译文质量评估方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
[0176]
本发明实施例基于目标用户的第一输入获取待评估的目标语料对,以目标语料对作为翻译质量评估模型的输入,输出结果为翻译质量评估结果。通过预先对初始样本语料进行筛选获取样本语料对,使训练好的翻译质量评估模型更具有针对性,能够提高模型性能,以及提高翻译质量评估的精细性和准确性。
[0177]
图4是本发明提供的译文后编辑装置的结构示意图。基于上述任一实施例的内容,如图4所示,该装置包括评估结果获取模块410、第二接收模块420和第二响应模块430,其中:
[0178]
评估结果获取模块410,用于基于任一种机翻译文质量评估方法,获取各目标语料对对应的翻译质量评估结果。
[0179]
第二接收模块420,用于在目标语料对对应的翻译质量评估结果与目标结果相同的情况下,接收来自目标用户的第二输入。
[0180]
第二响应模块430,用于响应于第二输入,将目标语料对中的目标译文更新为目标后编辑译文。
[0181]
其中,目标结果与目标用户匹配,目标后编辑译文与目标用户匹配。
[0182]
具体地,评估结果获取模块410、第二接收模块420和第二响应模块430顺次电连接。
[0183]
评估结果获取模块410直接获取到各种不同目标语料对对应的翻译质量评估结果。
[0184]
第二接收模块420将评估结果获取模块410中获取翻译质量评估结果,与不同目标
用户对应的目标结果进行对比,对比结果有两种:对比成功和对比失败。
[0185]
其中,对比成功是目标语料对的翻译质量评估结果与该目标用户对应的目标结果一致的情况,即可确定该目标语料对为目标用户的后编辑对象,目标用户可以基于选取并修正后编辑对象的流程,向界面输入第二输入。
[0186]
第二响应模块430在接收到第二接收模块420中的第二输入之后,译文后编辑装置依次根据第二输入中包含的指令,执行对应的操作,将对比成功的目标语料对作为后编辑对象,并将目标语料对中目标译文替换成第二输入中包含的目标后编辑译文,以实现翻译内容的修正。
[0187]
可选地,该装置还包括更新模块,其中:
[0188]
更新模块,用于将目标语料对中的原文和目标后编辑译文组合为新的样本语料,对翻译质量评估模型进行迭代训练更新。
[0189]
本发明实施例提供的译文后编辑装置,用于执行本发明上述译文后编辑方法,其实施方式与本发明提供的译文后编辑方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
[0190]
本发明实施例基于目标语料对的翻译质量评估结果,在该结果与目标结果一致的情况,确认该目标语料对需要人工编译,并对利用目标用户的第二输入对目标语料对进行修正。能够根据翻译质量评估结果辅助不同角色职能的用户,快速选择和定位需要进行人工干预的对象,提高后编辑的效率。
[0191]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行机翻译文质量评估方法,该方法包括:接收来自目标用户的第一输入;响应于第一输入,获取待评估的目标语料对;将目标语料对输入至翻译质量评估模型,输出与目标语料对对应的翻译质量评估结果;其中,翻译质量评估模型是样本语料对及其对应的质量标签训练得到的,样本语料对是对初始样本语料进行筛选后获得的,目标语料对包括原文和目标译文,目标译文包括第一译文、第二译文和第三译文中的一种或者多种,目标译文与目标用户匹配。还可以执行译文后编辑方法,该方法包括:基于如上的任一机翻译文质量评估方法,获取各目标语料对对应的翻译质量评估结果;在目标语料对对应的翻译质量评估结果与目标结果相同的情况下,接收来自目标用户的第二输入;响应于第二输入,将目标语料对中的目标译文更新为目标后编辑译文;其中,目标结果与目标用户匹配,目标后编辑译文与目标用户匹配。
[0192]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0193]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的机翻译文质量评估方法,该方法包括:接收来自目标用户的第一输入;响应于第一输入,获取待评估的目标语料对;将目标语料对输入至翻译质量评估模型,输出与目标语料对对应的翻译质量评估结果;其中,翻译质量评估模型是样本语料对及其对应的质量标签训练得到的,样本语料对是对初始样本语料进行筛选后获得的,目标语料对包括原文和目标译文,目标译文包括第一译文、第二译文和第三译文中的一种或者多种,目标译文与目标用户匹配。还可以执行译文后编辑方法,该方法包括:基于如上的任一机翻译文质量评估方法,获取各目标语料对对应的翻译质量评估结果;在目标语料对对应的翻译质量评估结果与目标结果相同的情况下,接收来自目标用户的第二输入;响应于第二输入,将目标语料对中的目标译文更新为目标后编辑译文;其中,目标结果与目标用户匹配,目标后编辑译文与目标用户匹配。
[0194]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的机翻译文质量评估方法,该方法包括:接收来自目标用户的第一输入;响应于第一输入,获取待评估的目标语料对;将目标语料对输入至翻译质量评估模型,输出与目标语料对对应的翻译质量评估结果;其中,翻译质量评估模型是样本语料对及其对应的质量标签训练得到的,样本语料对是对初始样本语料进行筛选后获得的,目标语料对包括原文和目标译文,目标译文包括第一译文、第二译文和第三译文中的一种或者多种,目标译文与目标用户匹配。还可以执行译文后编辑方法,该方法包括:基于如上的任一机翻译文质量评估方法,获取各目标语料对对应的翻译质量评估结果;在目标语料对对应的翻译质量评估结果与目标结果相同的情况下,接收来自目标用户的第二输入;响应于第二输入,将目标语料对中的目标译文更新为目标后编辑译文;其中,目标结果与目标用户匹配,目标后编辑译文与目标用户匹配。
[0195]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0196]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0197]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1