翻译评测训练数据的生成方法及装置、设备和存储介质与流程

文档序号:29446209发布日期:2022-03-30 11:03阅读:105来源:国知局
翻译评测训练数据的生成方法及装置、设备和存储介质与流程

1.本发明实施例涉及机器翻译技术领域,尤其涉及一种翻译评测训练数据的生成方法及装置、设备和存储介质。


背景技术:

2.机器翻译(machine translation,mt)是指使用计算机将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。该翻译过程通过机器翻译系统完成,因此与人工翻译相比,具有更高的翻译效率。
3.在机器翻译过程中,在确保翻译效率的同时,还需确保翻译结果的准确性。因此,针对机器翻译的翻译质量进行评测变得尤为重要(例如,可以通过评测结果进行反馈,以优化机器翻译系统)。对翻译质量的评测通常人工评测或自动评测,其中,自动评测利用翻译评测模型对机器翻译输出的翻译结果的质量进行智能评估,具有迅速、反馈及时等优点,且能够确保评价结果的一致性,因此,通过机器进行自动评测逐渐成为主流的评测方式。
4.目前,对评测模型的训练仍存在一定的局限性。


技术实现要素:

5.本发明实施例解决的问题是提供一种翻译评测训练数据的生成方法及装置、设备和存储介质,在能够获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
6.为解决上述问题,本发明实施例提供一种翻译评测训练数据的生成方法,包括:获取待翻译的一个或多个样本原始语句;获取所述样本原始语句相对应的样本翻译语句,所述样本翻译语句通过对所述样本原始语句进行翻译获得;获取所述样本原始语句相对应的参考翻译集合,所述参考翻译集合包括多个参考翻译语句;从所述参考翻译集合中,选取与所述样本翻译语句相似度最高的所述参考翻译语句作为样本后编辑语句;利用所述样本后编辑语句和样本翻译语句,获取所述样本原始语句中各个词汇的样本翻译质量标签;根据所述样本翻译质量标签建立训练集,所述训练集包括所述样本原始语句、样本翻译语句和样本翻译质量标签,所述训练集用于训练翻译评测模型。
7.相应的,本发明实施例还提供一种翻译评测训练数据的生成装置,包括:第一语句获取模块,用于获取待翻译的一个或多个样本原始语句;样本翻译语句获取模块,用于获取所述样本原始语句相对应的样本翻译语句,所述样本翻译语句通过对所述样本原始语句进行翻译获得;参考翻译集合获取模块,用于获取所述样本原始语句相对应的参考翻译集合,所述参考翻译集合包括多个参考翻译语句;第二语句获取模块,用于从所述参考翻译集合中,选取与所述样本翻译语句相似度最高的所述参考翻译语句作为样本后编辑语句;标签获取模块,用于利用所述样本后编辑语句和样本翻译语句,获取所述样本原始语句中各个词汇的样本翻译质量标签;训练集建立模块,用于根据所述样本翻译质量标签建立训练集,所述训练集包括所述样本原始语句、样本翻译语句和样本翻译质量标签,所述训练集用于
训练翻译评测模型。
8.相应地,本发明实施例还提供一种设备,包括至少一个存储器和至少一个处理器,所述存储器存储有一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现本发明实施例所述的翻译评测训练数据的生成方法。
9.相应地,本发明实施例还提供一种存储介质,所述存储介质存储有一条或多条计算机指令,所述一条或多条计算机指令用于实现本发明实施例所述的翻译评测训练数据的生成方法。
10.与现有技术相比,本发明实施例的技术方案具有以下优点:
11.本发明实施例中,利用原始语句的多个参考翻译语句来生成样本后编辑语句,并利用所述样本后编辑语句来生成所述样本原始语句中各个词汇的样本翻译质量标签(label),以用于训练翻译评测模型,因此,本发明实施例可以在没有公开的后编辑数据的情况下,无需通过人工来进行后编辑或者标注标签,仍能够获取后编辑语句和样本翻译质量标签,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
附图说明
12.图1是本发明翻译评测训练数据的生成方法一实施例的流程图;
13.图2是本发明翻译评测训练数据的生成装置一实施例的功能框图;
14.图3为本发明一实施例所提供的设备的硬件结构图。
具体实施方式
15.由背景技术可知,对评测模型的训练仍存在一定的局限性。
16.具体地,针对机器翻译的翻译质量进行评测时,包括词汇、句子和文档三个级别的质量评估。其中,在词汇级别的翻译评测任务上,在建立训练集时,词汇的质量标签的获取,依赖于人工对机器翻译结果的后编辑(post-edit,pe)语句。
17.但是,在一些翻译评测任务(例如,将中文翻译成英文的翻译测评)上,存在没有公开后编辑数据的情况下,从而导致无法构造具体的质量标签,进而导致无法训练模型,也即必须依赖于公开的后编辑语句。如果通过人工来后编辑,或者通过人工直接标注具体词汇的质量标签,则需要耗费较多的精力,从而导致模型训练的效率低下。
18.为了解决所述技术问题,本发明实施例提供一种翻译评测训练数据的生成方法。参考图1,示出了本发明翻译评测训练数据的生成方法一实施例的流程图。
19.本发明实施例中,所述翻译评测训练数据的生成方法包括以下基本步骤:
20.步骤s1:获取待翻译的一个或多个样本原始语句;
21.步骤s2:获取所述样本原始语句相对应的样本翻译语句,所述样本翻译语句通过对所述样本原始语句进行翻译获得;
22.步骤s3:获取所述样本原始语句相对应的参考翻译集合,所述参考翻译集合包括多个参考翻译语句;
23.步骤s4:从所述参考翻译集合中,选取与所述样本翻译语句相似度最高的所述参考翻译语句作为样本后编辑语句;
24.步骤s5:利用所述样本后编辑语句和样本翻译语句,获取所述样本原始语句中各个词汇的样本翻译质量标签;
25.步骤s6:根据所述样本翻译质量标签建立训练集,所述训练集包括所述样本原始语句、样本翻译语句和样本翻译质量标签,所述训练集用于训练翻译评测模型。
26.本发明实施例中,利用原始语句的多个参考翻译语句来生成样本后编辑语句,并利用所述样本后编辑语句来生成所述样本原始语句中各个词汇的样本翻译质量标签,以用于训练翻译评测模型,因此,本发明实施例可以在没有公开的后编辑数据的情况下,无需通过人工来进行后编辑或者标注标签,仍能够获取后编辑语句和样本翻译质量标签,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
27.为使本发明实施例的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
28.参考图1,执行步骤s1,获取待翻译的一个或多个样本原始语句。
29.所述样本原始语句指的是需要被翻译的语句。其中,机器翻译需要将某一种源语言的语句翻译为另一种指定的目标语言的语句,例如,在中译英的翻译任务中,源语言为中文,目标语言为英文。在训练翻译评测模型的过程中,所述样本原始语句用于作为训练集的一部分。
30.本实施例中,所述样本原始语句为源语言语句。例如,所述样本原始语句为“我喜欢猫,因为猫很优雅。”。需要说明的是,此处的双引号仅用于限定举例的内容范围,并不是在表示样本原始语句的内容时必不可少的一部分,本领域技术人员可以采用其他不容易混淆的符号来限定样本原始语句的内容范围,后文采用的双引号均同上所述。还需要说明的是,词汇可视为一个特殊的词汇。
31.所述样本原始语句的数量可以是一个,也可以是多个。在一个实施例中,样本原始语句可以来自源语言语料,源语言语料包括一个或多个样本原始语句。在另一实施例中,所述样本原始语句也可以来自不同的源语言语料。在其他实施例中,所述样本原始语句也可以来自多个来源不同的独立语句。其中,语料一般指的是由多个语句构成的段落或者文章等。
32.继续参考图1,执行步骤s2,获取所述样本原始语句相对应的样本翻译语句,所述样本翻译语句通过对所述样本原始语句进行翻译获得。
33.所述样本翻译语句与所述样本原始语句相对应,在训练翻译评测模型的过程中,所述样本原始语句也用于作为训练集的一部分。
34.此外,后续获得样本后编辑语句后,还利用所述样本后编辑语句和所述样本翻译语句,获取所述样本原始语句中各个词汇的样本翻译质量标签。其中,后编辑通常是指针对机器翻译系统的输出结果进行人工矫正(例如,修改和润色),使输出结果变为可接受的翻译结果的过程,从而提升翻译质量。
35.需要说明的是,本实施例中,后编辑还包括对人工翻译结果进行矫正的过程(例如,在学生答题的应用场景下,对学生的翻译结果进行矫正)。因此,本实施例中,样本翻译语句通过对样本原始语句进行机器翻译或人工翻译获得。
36.作为一种示例,样本原始语句为“我喜欢猫,因为猫很优雅。”,相对应的样本翻译语句为“i lik cats because they are elegant.”。
37.继续参考图1,执行步骤s3,获取所述样本原始语句相对应的参考翻译集合,所述参考翻译集合包括多个参考翻译语句。
38.参考翻译语句指的是用于和样本翻译语句进行对比的句子,参考翻译语句一般是翻译质量较高的翻译译文,也即所述参考翻译语句符合置信度要求。
39.样本原始语句与参考翻译集合一一对应,参考翻译集合包括多个参考翻译语句,同一参考翻译集合中的多个参考翻译语句用于作为样本原始语句相对应的候选样本后编辑语句,从而后续能够从参考翻译集合中选取样本原始语句相对应的样本后编辑语句。
40.在词汇级别的翻译评测任务中,翻译评测模型的训练依赖于后编辑语句,但是,在一些翻译评测任务上,存在没有公开后编辑数据的情况,从而导致无法训练翻译评测模型,而本实施例中,利用原始语句的多个参考翻译语句来生成样本后编辑语句,即使在没有公开的后编辑数据的情况下,仍能够生成后编辑语句(也即无需依赖于公开的后编辑数据,实现自动后编辑),且无需通过人工来标注的方式来获得后编辑语句,从而可以在无公开后编辑数据的情况下,构造用于训练翻译评测模型的训练数据,进而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
41.需要说明的是,每一个参考翻译集合包括多个参考翻译语句,从而增加参考翻译语句的数量,以便后续获得更精确的样本后编辑语句,进而提高后续获得的训练翻译评测模型的评测精确度。
42.可以理解的是,某一种源语言的语句翻译为另一种指定的目标语言的语句时,源语言语句中的一个词汇在目标语言中通常会有多个翻译结果的存在,从而能够基于所述样本原始语句,获得多个参考翻译语句。例如,多个参考翻译语句分别为t1、t2、t3、t4和t5,多个参考翻译语句构成参考翻译集合s,该参考翻译集合s为{t1,t2,t3,t4,t5}。作为一种示例,样本原始语句为“我喜欢猫,因为它们很优雅。”时,则多个参考翻译语句包括“i like cats because they are very elegant.”、“i love cats because they are very graceful.”、“i love cats because they are very elegant.”、“i like cats because they are very graceful.”和“i love cats because of their elegance.”,多个参考翻译语句构成参考翻译集合s。
43.本实施例中,通过机器翻译和人工翻译中的一种或两种方式,获取与所述样本原始语句相对应的参考翻译集合。
44.以人工翻译获得参考翻译集合为例,对于一些翻译题的场景,通常存储有题目的元信息,也即预先存储有参考翻译语句,存储的多个参考翻译语句可以直接使用。可以理解的是,通过人工翻译获得参考翻译集合,不仅限于翻译题的场景。需要说明的是,通过人工翻译的方式获取参考翻译集合,有利于提高参考翻译语句的精确度。
45.当通过机器翻译的方式,获取与样本原始语句相对应的参考翻译集合时,获取参考翻译集合的步骤相应包括:获取来自不同机器翻译工具的多个候选机器翻译集合,每一个候选机器翻译集合包括一个或多个候选机器翻译语句;对多个候选机器翻译集合进行第一筛选处理,选取满足第一预设条件的多个候选机器翻译语句,第一预设条件包括置信度;从满足第一预设条件的多个候选机器翻译语句中获取参考翻译语句,参考翻译语句构成参考翻译集合。
46.通过机器翻译的方式,能够自动化地获取参考翻译集合,与人工翻译相比,有利于
提高获取参考翻译集合的效率。需要说明的是,当通过机器翻译的方式,获取与样本原始语句相对应的参考翻译集合时,需要机器翻译工具具有较高的准确率。
47.本实施例中,机器翻译工具与候选机器翻译集合一一对应,因此,当采用多个机器翻译工具的情况下,候选机器翻译集合的数量相应也为多个。
48.本实施例中,后续利用原始语句的多个参考翻译语句来生成样本后编辑语句,因此,为了提高样本后编辑语句的精确度,所述第一预设条件包括置信度,也就是说,需要选取置信度较高的候选机器翻译语句作为参考翻译语句,从而提高后续获得的训练翻译评测模型的评测精确度。其中,置信度越高,则表示翻译质量越高。
49.为此,采用预设方式中的一种或多种,对所述多个候选机器翻译集合进行第一筛选处理。本实施例中,预设方式包括:从多个候选机器翻译集合中选取公共的候选机器翻译语句;或者,选取来自满足准确率要求的机器翻译工具的候选机器翻译语句;或者,利用机器翻译工具输出的每个词汇的置信度分数,获得候选机器翻译语句中所有词汇的置信度分数的平均值,用于作为翻译结果分数;选取翻译结果分数大于或等于预设分数阈值的候选机器翻译语句。
50.当多个候选机器翻译集合中具有公共的候选机器翻译语句时,则表征该公共的候选机器翻译语句的准确率较高。
51.满足准确率要求的机器翻译工具也即可靠性较高的机器翻译工具,因此,选取来自满足准确率要求的机器翻译工具的所述候选机器翻译语句,也有利于确保候选机器翻译语句的准确率。例如,满足准确率要求的机器翻译工具包括谷歌翻译系统等。
52.通过机器翻译工具输出的每个词汇的置信度分数,易于更直接地对候选机器翻译语句的准确率进行评估。需要说明的是,在实际操作过程中,可以根据实际需求设置所述预设分数阈值。
53.本实施例中,从满足第一预设条件的多个候选机器翻译语句中获取参考翻译语句包括:判断满足第一预设条件的候选机器翻译语句的数量是否满足第一数量阈值条件,第一数量阈值条件包括:满足第一预设条件的候选机器翻译语句的数量大于或等于第一预设数量;在满足第一预设条件的候选机器翻译语句的数量未满足数量阈值条件的情况下,选取所有满足第一预设条件的候选机器翻译语句作为参考翻译语句;在满足第一预设条件的候选机器翻译语句的数量满足数量阈值条件的情况下,从满足第一预设条件的候选机器翻译语句中,选取置信度最高的前第一预设数量个候选机器翻译语句作为参考翻译语句。
54.通过以第一数量阈值条件对满足第一预设条件的候选机器翻译语句的数量进行判断,以确保获得足够数量的参考翻译语句,且被选取出来的参考翻译语句的置信度较高,以便从参考翻译集合中,选取与样本翻译语句相似度最高的参考翻译语句作为样本后编辑语句。因此,当满足第一预设条件的候选机器翻译语句的数量少于第一预设数量时,为了确保足够数量的参考翻译语句,选取所有满足第一预设条件的候选机器翻译语句作为参考翻译语句;当满足第一预设条件的候选机器翻译语句的数量大于或等于第一预设数量时,选取置信度最高的前第一预设数量个候选机器翻译语句作为参考翻译语句,从而同时满足对数量和置信度的要求。
55.需要说明的是,所述第一预设数量不宜过少,也不宜过多。如果第一预设数量过少,则无法提供足够多的参考翻译语句,不利于确保样本后编辑语句的精确度,从而容易导
致后续无法找到与样本翻译语句相似度最高的参考翻译语句;如果第一预设数量过多,一方面,容易导致数据运算量过大,从而导致模型训练的效率低下,另一方面,容易将准确率不高的候选机器翻译语句作为参考翻译语句。为此,本实施例中,所述第一预设数量为5个至20个。例如,第二预设数量为10个或15个。
56.需要说明的是,可以根据实际情况,还可以选取上述预设方式中的任意组合,从而在进行第一筛选处理后,满足第一预设条件的候选机器翻译语句的数量足够多,进而获得足够数量且置信度较高的参考翻译语句。
57.本实施例中,获取与样本原始语句相对应的参考翻译集合后,在参考翻译集合中,获取样本后编辑语句之前,还包括:对参考翻译语句进行同义扩充处理,获取参考翻译语句的同义语句;将同义语句作为新增参考翻译语句,并加入至参考翻译集合中。
58.此处,同义语句指的是:以其他表达方式来表达与参考翻译语句的意思相同的意思的语句,也就是说,在保持参考翻译语句的语义不变的前提下,将参考翻译语句转换为不同的表达方式。可以理解的是,同义语句和参考翻译语句的语言相通。通过获得更多的同义表达,从而增加参考翻译集合中的参考翻译语句的数量,以扩充参考翻译集合,后续易于获得与样本翻译语句相似度最高的参考翻译语句,进而有利于进一步提高样本后编辑语句的精确度。
59.具体地,同义扩充处理包括:获取每一个参考翻译语句的候选同义语句集合,每一个候选同义语句集合包括一个或多个候选同义语句;从多个候选同义语句集合中,去除与任一参考翻译语句相同的候选同义语句;去除与任一参考翻译语句相同的候选同义语句后,对候选同义语句集合中剩余的候选同义语句进行第二筛选处理,选取满足第二预设条件的多个候选同义语句,第二预设条件包括置信度;从满足第二预设条件的多个候选同义语句中获取同义语句。
60.任一参考翻译语句对应的候选同义语句集合中,可能存在与其他参考翻译语句相通的候选同义语句,而同义扩充处理用于将参考翻译语句转换为不同的表达方式,因此,需要先去除与任一参考翻译语句相同的候选同义语句。此外,通过对候选同义语句集合中剩余的候选同义语句进行第二筛选处理,以确保被选取出的同义语句具有较高的准确率。
61.具体地,对候选同义语句集合中剩余的候选同义语句进行第二筛选处理,选取满足第二预设条件的多个候选同义语句包括:在多个候选同义语句集合中,选取具有重复率的候选同义语句。也就是说,以重复率来表征置信度,在多个候选同义语句集合中,当存在有重复出现的候选同义语句,则可以表征所述重复出现的候选同义语句具有较高的置信度。
62.本实施例中,从满足第二预设条件的多个候选同义语句中获取同义语句包括:判断满足第二预设条件的候选同义语句的数量是否满足第二数量阈值条件,第二数量阈值条件包括:满足第二预设条件的候选同义语句的数量大于或等于第二预设数量;在满足第二预设条件的候选同义语句的数量未满足第二数量阈值条件的情况下,选取所有满足第二预设条件的候选同义语句作为同义语句;在满足第二预设条件的候选同义语句的数量满足第二数量阈值条件的情况下,从满足第二预设条件的候选同义语句中,选取重复率最高的前第二预设数量个候选同义语句作为同义语句。
63.通过第二数量阈值条件对满足第二预设条件的候选同义语句的数量进行判断,以
确保获得足够数量的同义语句,且被选取出来的同义语句的置信度较高,从而提高参考翻译语句的准确率,进而后续能够选取与所述样本翻译语句相似度最高的参考翻译语句作为样本后编辑语句。因此,当满足第二预设条件的候选同义语句的数量少于第二预设数量时,为了确保足够数量的同义语句,选取所有满足第二预设条件的候选同义语句作为同义语句;当满足第二预设条件的候选同义语句的数量大于或等于第二预设数量时,选取置信度最高的前第二预设数量个候选同义语句作为同义语句,从而同时满足对数量和置信度的要求。
64.需要说明的是,第二预设数量不宜过少,也不宜过多。如果第二预设数量过少,则无法提供足够多的同义语句,从而导致对参考翻译语句进行同义扩充处理的效果不佳;如果第二预设数量过多,一方面,容易导致数据运算量过大,从而导致模型训练的效率低下,另一方面,容易将准确率不高的候选同义语句作为同义语句。为此,本实施例中,第二预设数量为5个至20个。例如,第二预设数量为10个或15个。
65.本实施例中,通过同义转写系统,获取每一个参考翻译语句的同义翻译语句。同义转写系统具有转写模型,用于在获得输入语句后,输出相同含义或近似含义的语句。通过同义转写系统,提高了获取同义翻译语句的效率。
66.继续参考图1,执行步骤s4,从所述参考翻译集合中,选取与所述样本翻译语句相似度最高的所述参考翻译语句作为样本后编辑语句。
67.通过选取相似度最高的参考翻译语句作为样本后编辑语句,从而提高样本后编辑语句的精确度。
68.本实施例中,选取与样本翻译语句的编辑距离最小的参考翻译语句作为样本后编辑语句。其中,编辑距离越小,则表示两个句子的相似度越高。通过编辑距离,能够量化样本翻译语句和参考翻译语句的相似度,从而易于从多个参考翻译语句中选取相似度最高的参考翻译语句。
69.具体地,获取样本翻译语句和各个参考翻译语句的编辑距离;获取多个编辑距离后,从多个编辑距离中选取最小编辑距离所对应的参考翻译语句作为样本后编辑语句。编辑距离指的是:样本翻译语句经过多少次操作可以和参考翻译语句相同,其中,一次操作包括:插入一个词、删除一个词或替换一个词。
70.例如,所述样本翻译语句为“i lik cats because they are very elegant.”,则从上述多个参考翻译语句中筛选出的样本后编辑语句为“i like cats because they are very elegant.”。其中,只需要进行一次操作,将“lik”替换为“like”即可。
71.继续参考图1,执行步骤s5,利用所述样本后编辑语句和样本翻译语句,获取所述样本原始语句中各个词汇的样本翻译质量标签。
72.在训练翻译评测模型的过程中,翻译质量标签也用于作为训练集的一部分。
73.样本后编辑语句是利用原始语句的多个参考翻译语句获得的,因此,利用样本后编辑语句来生成样本原始语句中各个词汇的样本翻译质量标签,本实施例可以在没有公开的后编辑数据的情况下,无需通过人工来进行后编辑或者标注标签,仍能够获取后编辑语句和获取样本翻译质量标签,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
74.本实施例中,利用样本后编辑语句和样本翻译语句,获取样本原始语句中各个词
汇的样本翻译质量标签包括:对样本翻译语句和样本后编辑语句进行匹配度检测,且根据匹配度检测结果,对样本后编辑语句中的各个词汇添加置信标签,置信标签用于表示翻译质量合格或翻译质量不合格;使样本原始语句和样本后编辑语句中的词汇进行词对齐,将置信标签添加至样本原始语句中相对应的词汇上,且对样本原始语句中无对应关系的词汇添加用于表示翻译质量合格的置信标签,添加至样本原始语句中的置信标签作为样本翻译质量标签。
75.通过进行匹配度检测,对各个词汇添加置信标签,从而精确判断每一个词的翻译质量是否合格,进而实现在词汇级别的翻译评测。例如,采用置信标签“ok”表示翻译质量合格,采用置信标签“bad”表示翻译质量不合格。
76.具体地,对样本翻译语句和样本后编辑语句进行匹配度检测包括:获取样本翻译语句和样本后编辑语句中词汇的对应关系;对具有对应关系的词汇进行匹配度检测。
77.本实施例中,利用最小编辑距离原则,获取样本翻译语句和样本后编辑语句中词汇的对应关系。例如,样本翻译语句为“i lik cats because they are very elegant.”,从上述多个参考翻译语句中筛选出的样本后编辑语句为“i like cats because they are very elegant.”根据编辑距离最小原则,只需要进行一次操作,将“lik”替换为“like”即可,因此,“lik”与“like”具有对应关系。
78.相应的,对样本后编辑语句中的各个词汇添加置信标签的步骤中,样本后编辑语句中的各个词汇(包括标点)对应的置信标签为ok bad ok ok ok ok ok ok。需要说明的是,标点可视为特殊的词汇。
79.词对齐是一种自然语言处理技术,用于识别两种语言中的词之间的对应关系,也就是说,当输入一组相互翻译的句子后,自动生成词对齐,以获得词汇的对应关系。具体地,常见的一种表示方法为i

j,用于表示将位置为i的目标词汇对应到位置为j的源词汇。此处,目标词汇即为样本后编辑语句的词汇,源词汇即为样本原始语句的词汇。
80.需要说明的是,在样本原始语句中,存在特定词汇无需被直白地翻译出来的情况,在这种情况下,在进行词对齐时,样本原始语句中可能会出现无对应关系的词汇,无对应关系的情况并非由翻译质量不佳引起。因此,对样本原始语句中无对应关系的词汇添加用于表示翻译质量合格的置信标签。例如,对样本原始语句中无对应关系的词汇添加置信标签“ok”。
81.如果样本原始语句中的词汇和样本后编辑语句中的词汇具有对应关系,则对样本原始语句中的词汇添加与后编辑语句中相对应词汇相同的置信标签。例如,如果后编辑语句中的任一词汇的置信标签为“ok”,则样本原始语句中相对应的词汇也被添加置信标签“ok”,同理,如果后编辑语句中的任一词汇的置信标签为“bad”,则样本原始语句中相对应的词汇也被添加置信标签“bad”。
82.例如,样本原始语句为“我喜欢猫,因为它们很优雅。”,样本翻译语句为“i lik cats because they are very elegant.”,样本后编辑语句为“i like cats because they are very elegant.”,而前述获取所述样本原始语句中各个词汇的样本翻译质量标签后,样本后编辑语句中的各个词汇(包括标点)对应的置信标签为ok bad ok ok ok ok ok ok;相应的,样本原始语句和样本后编辑语句中的词汇对应关系为:我

i,喜欢

like,猫

cats,因为

because,它们

they,很

very,优雅

elegant,。

.,而且样本原始语
句中的“,”无对应关系,因此,样本原始语句中各个词汇(包括标点)的置信标签为:ok bad ok ok ok ok ok ok ok。
83.需要说明的是,置信标签的标记方式不仅限于采用“ok”和“bad”来区分。在其他实施例中,也可以采用其他标记形式,例如,采用数字“1”翻译质量合格,采用数字“0”表示翻译质量不合格。
84.继续参考图1,执行步骤s6,根据样本翻译质量标签建立训练集,训练集包括样本原始语句、样本翻译语句和样本翻译质量标签,训练集用于训练翻译评测模型。
85.基于前述的记载,即使在没有公开的后编辑数据的情况下,本实施例能够利用原始语句的多个参考翻译语句来生成样本后编辑语句,从而利用样本后编辑语句来生成样本原始语句中各个词汇的样本翻译质量标签,进而建立用于训练翻译评测模型的训练集,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
86.相应的,本发明实施例还提供一种翻译评测训练数据的生成装置。图2是本发明翻译评测训练数据的生成装置一实施例的功能框图
87.所述翻译评测训练数据的生成装置包括:第一语句获取模块10,用于获取待翻译的一个或多个样本原始语句;样本翻译语句获取模块20,用于获取样本原始语句相对应的样本翻译语句,样本翻译语句通过对样本原始语句进行翻译获得;参考翻译集合获取模块30,用于获取样本原始语句相对应的参考翻译集合,参考翻译集合包括多个参考翻译语句;第二语句获取模块40,用于从参考翻译集合中,选取与样本翻译语句相似度最高的参考翻译语句作为样本后编辑语句;标签获取模块50,用于利用样本后编辑语句和样本翻译语句,获取样本原始语句中各个词汇的样本翻译质量标签;训练集建立模块60,用于根据样本翻译质量标签建立训练集,训练集包括样本原始语句、样本翻译语句和样本翻译质量标签,训练集用于训练翻译评测模型。
88.翻译评测训练数据的生成装置包括第二语句获取模块40和标签获取模块50,从而利用原始语句的多个参考翻译语句来生成样本后编辑语句,并利用样本后编辑语句来生成样本原始语句中各个词汇的样本翻译质量标签,以用于训练翻译评测模型,因此,本实施例可以在没有公开的后编辑数据的情况下,无需通过人工来进行后编辑或者标注标签,仍能够获取后编辑语句和样本翻译质量标签,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
89.样本原始语句指的是需要被翻译的语句,也即样本原始语句为源语言语句。在训练翻译评测模型的过程中,样本原始语句用于作为训练集的一部分。对样本原始语句的具体描述,可参考前述实施例中的相应描述,在此不再赘述。
90.样本翻译语句通过对样本原始语句进行翻译获得。样本翻译语句与样本原始语句相对应,在训练翻译评测模型的过程中,样本翻译语句也用于作为训练集的一部分。此外,样本翻译语句还用于作为标签获取模块50的输入,从而通过标签获取模块50获取样本原始语句中各个词汇的样本翻译质量标签。
91.本实施例中,样本翻译语句通过机器翻译或人工翻译获得,也就是说,样本翻译语句可以是人工翻译的结果,也可以是机器翻译的结果。
92.参考翻译集合获取模块30用于获得样本原始语句相对应的多个参考翻译语句。参考翻译语句指的是用于和样本翻译语句进行对比的句子,参考翻译语句一般是翻译质量较
高的翻译译文,也即参考翻译语句符合置信度要求。
93.样本原始语句与参考翻译集合一一对应,参考翻译集合包括多个参考翻译语句,同一参考翻译集合中的多个参考翻译语句用于作为样本原始语句相对应的候选样本后编辑语句,从而从多个参考翻译语句选取合适的参考翻译语句作为样本后编辑语句。
94.在词汇级别的翻译评测任务中,翻译评测模型的训练依赖于后编辑语句,但是,在一些翻译评测任务上,存在没有公开后编辑数据的情况,从而导致无法训练翻译评测模型,而本实施例中,利用原始语句的多个参考翻译语句来生成样本后编辑语句,即使在没有公开的后编辑数据的情况下,仍能够自动生成后编辑语句,无需通过人工来实现,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
95.需要说明的是,每一个参考翻译集合包括多个参考翻译语句,从而增加参考翻译语句的数量,以便后续获得更精确的样本后编辑语句,进而提高后续获得的训练翻译评测模型的评测精确度。
96.可以理解的是,某一种源语言的语句翻译为另一种指定的目标语言的语句时,源语言语句中的一个词词汇在目标语言中通常会有多个翻译结果的存在,从而能够基于所述样本原始语句,获得多个参考翻译语句。
97.本实施例中,所述参考翻译集合中的参考翻译语句为机器翻译结果和人工翻译结果中的一种或两种。
98.以参考翻译语句为人工翻译结果为例,对于一些翻译题的场景,通常存储有题目的元信息,也即预先存储有参考翻译语句,存储的多个参考翻译语句可以直接使用。可以理解的是,参考翻译语句为人工翻译结果的情况,不仅限于翻译题的场景。需要说明的是,参考翻译语句为人工翻译结果,有利于提高参考翻译语句的精确度。
99.当参考翻译语句为机器翻译结果时,参考翻译集合获取模块30包括:候选机器翻译集合获取单元,用于获取来自不同机器翻译工具的多个候选机器翻译集合,每一个候选机器翻译集合包括一个或多个候选机器翻译语句;第一筛选单元,用于对多个候选机器翻译集合进行第一筛选处理,选取满足第一预设条件的多个候选机器翻译语句,第一预设条件包括置信度;参考翻译集合获取单元,用于从满足第一预设条件的多个候选机器翻译语句中获取参考翻译语句,参考翻译语句构成参考翻译集合。
100.参考翻译语句为机器翻译结果的情况下,参考翻译集合获取模块能够自动化地获取参考翻译集合,有利于提高获取参考翻译集合的效率。
101.本实施例中,机器翻译工具与候选机器翻译集合一一对应,因此,当采用多个机器翻译工具的情况下,候选机器翻译集合的数量相应也为多个。
102.本实施例中,为了提高样本后编辑语句的精确度,所述第一预设条件包括置信度,也就是说,需要选取置信度较高的候选机器翻译语句作为参考翻译语句,从而提高后续获得的训练翻译评测模型的评测精确度。其中,置信度越高,则表示翻译质量越高。
103.为此,所述第一筛选单元采用预设方式中的一种或多种,对多个候选机器翻译集合进行第一筛选处理。本实施例中,预设方式包括:从多个候选机器翻译集合中选取公共的候选机器翻译语句作为参考翻译语句;或者,选取来自满足准确率要求的机器翻译工具的候选机器翻译语句作为参考翻译语句;或者,利用机器翻译工具输出的每个词汇的置信度分数,获得候选机器翻译语句中所有词汇的置信度分数的平均值,用于作为翻译结果分数,
并选取翻译结果分数大于或等于预设分数阈值的候选机器翻译语句作为参考翻译语句。
104.当多个候选机器翻译集合中具有公共的候选机器翻译语句时,则表征该公共的候选机器翻译语句的准确率较高。
105.满足准确率要求的机器翻译工具也即可靠性较高的机器翻译工具,因此,选取来自满足准确率要求的机器翻译工具的候选机器翻译语句,也有利于确保被选取的候选机器翻译语句的准确率。例如,满足准确率要求的机器翻译工具包括谷歌翻译系统等。
106.通过机器翻译工具输出的每个词汇的置信度分数,易于更直接地对候选机器翻译语句的准确率进行评估。需要说明的是,在实际操作过程中,可以根据实际需求设置所述预设分数阈值。
107.本实施例中,参考翻译集合获取单元包括:第一判断子单元,用于判断满足第一预设条件的候选机器翻译语句的数量是否满足第一数量阈值条件,第一数量阈值条件包括:满足第一预设条件的候选机器翻译语句的数量大于或等于第一预设数量;第一选取子单元,用于在满足第一预设条件的候选机器翻译语句的数量未满足数量阈值条件的情况下,选取所有满足第一预设条件的候选机器翻译语句作为参考翻译语句,在满足第一预设条件的候选机器翻译语句的数量满足数量阈值条件的情况下,从满足第一预设条件的候选机器翻译语句中,选取置信度最高的前第一预设数量个候选机器翻译语句作为参考翻译语句。
108.本实施例中,所述第一预设数量为5个至20个。
109.需要说明的是,可以根据实际情况,所述第一筛选单元还可以选取上述预设方式中的任意组合,从而在进行第一筛选处理后,满足第一预设条件的候选机器翻译语句的数量足够多,进而获得足够数量且置信度较高的参考翻译语句。
110.所述翻译评测训练数据的生成装置还包括设置于参考翻译集合获取模块30和第二语句获取模块40之间的同义扩充模块35,用于对参考翻译语句进行同义扩充处理,获取参考翻译语句的同义语句,并将同义语句作为新增参考翻译语句,并加入至参考翻译集合中。
111.通过获得更多的同义表达,从而增加参考翻译集合中的参考翻译语句的数量,以扩充参考翻译集合,后续易于获得与样本翻译语句相似度最高的参考翻译语句,进而有利于进一步提高样本后编辑语句的精确度。
112.本实施例中,同义扩充模块35包括:候选同义语句集合获取单元,用于获取每一个参考翻译语句的候选同义语句集合,每一个候选同义语句集合包括一个或多个候选同义语句;第二筛选单元,用于从多个候选同义语句集合中,去除与任一参考翻译语句相同的候选同义语句;第三筛选单元,用于在去除与任一参考翻译语句相同的候选同义语句后,对候选同义语句集合中剩余的候选同义语句进行第二筛选处理,选取满足第二预设条件的多个候选同义语句,第二预设条件包括置信度;同义语句获取单元,用于从满足第二预设条件的多个候选同义语句中获取同义语句。
113.具体地,第三筛选单元用于在多个候选同义语句集合中,选取具有重复率的候选同义语句。也就是说,以重复率来表征置信度。
114.本实施例中,第三筛选单元包括:第一判断子单元,用于判断满足第二预设条件的候选同义语句的数量是否满足第二数量阈值条件,第二数量阈值条件包括:满足第二预设条件的候选同义语句的数量大于或等于第二预设数量;第一选取子单元,用于在满足第二
预设条件的候选同义语句的数量未满足第二数量阈值条件的情况下,选取所有满足第二预设条件的候选同义语句作为同义语句,在满足第二预设条件的候选同义语句的数量满足第二数量阈值条件的情况下,从满足第二预设条件的候选同义语句中,选取重复率最高的前第二预设数量个候选同义语句作为同义语句。
115.本实施例中,第二预设数量为5个至20个。
116.本实施例中,候选同义语句集合获取单元为同义转写系统。其中,同义转写系统具有转写模型,用于在获得输入语句后,输出相同含义或近似含义的语句。通过同义转写系统,提高了获取候选同义语句的效率。
117.通过第二语句获取模块40选取相似度最高的参考翻译语句作为样本后编辑语句,从而提高样本后编辑语句的精确度。
118.本实施例中,第二语句获取模块40用于选取与样本翻译语句的编辑距离最小的参考翻译语句作为样本后编辑语句。其中,编辑距离越小,则表示两个句子的相似度越高。通过编辑距离,能够量化所述样本翻译语句和参考翻译语句的相似度,从而易于从多个参考翻译语句中选取相似度最高的参考翻译语句。
119.具体地,第二语句获取模块40包括:编辑距离获取单元,用于获取样本翻译语句和各个参考翻译语句的编辑距离;第四筛选单元,用于从所述多个编辑距离中选取最小编辑距离所对应的参考翻译语句作为样本后编辑语句。此处,编辑距离指的是:样本翻译语句经过多少次操作可以和参考翻译语句相同,其中,一次操作包括:插入一个词、删除一个词或替换一个词。
120.所述标签获取模块50用于利用样本后编辑语句和样本翻译语句,获取样本原始语句中各个词汇的样本翻译质量标签,在训练翻译评测模型的过程中,翻译质量标签也用于作为训练集的一部分。
121.样本后编辑语句是利用原始语句的多个参考翻译语句获得的,因此,利用样本后编辑语句来生成样本原始语句中各个词汇的样本翻译质量标签,本实施例可以在没有公开的后编辑数据的情况下,无需通过人工来进行后编辑或者标注标签,仍能够获取后编辑语句和自动获取样本翻译质量标签,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
122.本实施例中,标签获取模块50包括:匹配度检测单元,用于对样本翻译语句和样本后编辑语句进行匹配度检测,且根据匹配度检测结果,对样本后编辑语句中的各个词汇添加置信标签,置信标签用于表示翻译质量合格或翻译质量不合格;标注单元,用于使样本原始语句和样本后编辑语句中的词汇进行词对齐,将置信标签添加至样本原始语句中相对应的词汇上,且对样本原始语句中无对应关系的词汇添加用于表示翻译质量合格的置信标签,添加至样本原始语句中的置信标签作为样本翻译质量标签。
123.通过进行匹配度检测,对各个词汇添加置信标签,从而精确判断每一个词的翻译质量是否合格,进而实现在词汇级别的翻译评测。例如,采用置信标签“ok”表示翻译质量合格,采用置信标签“bad”表示翻译质量不合格。
124.本实施例中,匹配度检测单元用于获取样本翻译语句和样本后编辑语句中词汇的对应关系,并对具有对应关系的词汇进行匹配度检测。具体地,匹配度检测单元利用最小编辑距离原则,获取样本翻译语句和样本后编辑语句中词汇的对应关系。也就是说,在样本翻
译语句和样本后编辑语句中,编辑距离最小的词汇具有对应关系。
125.词对齐是一种自然语言处理技术,用于识别两种语言中的词之间的对应关系,也就是说,当输入一组相互翻译的句子后,自动生成词对齐,以获得词汇的对应关系。具体地,常见的一种表示方法为i

j,用于表示将位置为i的目标词汇对应到位置为j的源词汇。此处,目标词汇即为样本后编辑语句的词汇,源词汇即为样本原始语句的词汇。
126.需要说明的是,在样本原始语句中,存在特定词汇无需被直白地翻译出来的情况,在这种情况下,在进行词对齐时,样本原始语句中可能会出现无对应关系的词汇,无对应关系的情况并非由翻译质量不佳引起,因此,对样本原始语句中无对应关系的词汇添加用于表示翻译质量合格的置信标签。例如,对样本原始语句中无对应关系的词汇添加置信标签“ok”。
127.如果样本原始语句中的词汇和样本后编辑语句中的词汇具有对应关系,则对样本原始语句中的词汇添加与后编辑语句中相对应词汇相同的置信标签。例如,如果后编辑语句中的任一词汇的置信标签为“ok”,则样本原始语句中相对应的词汇也被添加置信标签“ok”,同理,如果后编辑语句中的任一词汇的置信标签为“bad”,则样本原始语句中相对应的词汇也被添加置信标签“bad”。
128.需要说明的是,置信标签的标记方式不仅限于采用“ok”和“bad”来区分。在其他实施例中,也可以采用其他标记形式,例如,采用数字“1”翻译质量合格,采用数字“0”表示翻译质量不合格。
129.训练集建立模块60根据样本翻译质量标签建立训练集。基于前述的记载,即使在没有公开的后编辑数据的情况下,本实施例能够利用原始语句的多个参考翻译语句来生成样本后编辑语句,从而利用样本后编辑语句来生成样本原始语句中各个词汇的样本翻译质量标签,进而建立用于训练翻译评测模型的训练集,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
130.本发明实施例还提供一种设备,该设备可以通过装载程序形式的上述翻译评测训练数据的生成方法,以实现本发明实施例提供的翻译评测训练数据的生成方法。
131.参考图3,示出了本发明一实施例所提供的设备的硬件结构图。本实施例所述设备包括:至少一个处理器01、至少一个通信接口02、至少一个存储器03和至少一个通信总线04。
132.本实施例中,所述处理器01、通信接口02、存储器03和通信总线04的数量均为至少一个,且所述处理器01、通信接口02以及存储器03通过所述通信总线04完成相互间的通信。
133.所述通信接口02可以为用于进行网络通信的通信模块的接口,例如为gsm模块的接口。
134.所述处理器01可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本实施例所述检测方法的一个或多个集成电路。
135.所述存储器03可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
136.其中,存储器03存储有一条或多条计算机指令,所述一条或多条计算机指令被处理器01执行以实现前述实施例提供的翻译评测训练数据的生成方法。
137.需要说明的是,上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
138.本发明实施例还提供一种存储介质,所述存储介质存储有一条或多条计算机指令,所述一条或多条计算机指令用于实现前述实施例提供的翻译评测训练数据的生成方法。
139.本实施例提供的翻译评测训练数据的生成方法中,利用原始语句的多个参考翻译语句来生成样本后编辑语句,并利用样本后编辑语句来生成所述样本原始语句中各个词汇的样本翻译质量标签,以用于训练翻译评测模型,因此,本发明实施例可以在没有公开的后编辑数据的情况下,无需通过人工来进行后编辑或者标注标签,仍能够获取后编辑语句和样本翻译质量标签,从而在获得用于训练翻译评测模型的训练数据的同时,确保翻译评测模型的训练效率。
140.上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本技术之后的修改中作为新的权利要求包括。
141.本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理器件(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器等来实现。
142.在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
143.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
144.虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1