篇章级翻译方法、翻译模型训练方法及装置与流程

文档序号:28961386发布日期:2022-02-19 13:13阅读:131来源:国知局
篇章级翻译方法、翻译模型训练方法及装置与流程

1.本发明涉及神经机器翻译技术领域,尤其涉及一种篇章级翻译方法、翻译模型训练方法及装置。


背景技术:

2.最近几年,随着transformer框架的提出,nmt(neural machine translation,神经机器翻译)已经取得了跳跃式的发展,翻译质量也有着很大的提高。随着越来越多的企业走向全球化,nmt可能会对翻译行业产生巨大影响。与传统的统计机器翻译不同的,nmt使用基于神经网络的技术来实现更多上下文精确的翻译。
3.由于nmt能够一次翻译整个句子,使得nmt的输出可以类似于人工翻译。目前对于篇章级别翻译,通常是以单个句子作为翻译单位,再将每一句话的翻译结果进行拼接,得到最终的篇章翻译结果,由于缺乏上下文依赖关系,句子级别的翻译系统用于进行翻译篇章级文本的效果不佳,依然不能满足人们的需求。


技术实现要素:

4.本发明实施例提供一种篇章级翻译方法、翻译模型训练方法及装置,以解决现有技术中对篇章级文本翻译效果不佳的技术问题。
5.第一方面,本发明实施例提供一种篇章翻译方法,包括:
6.针对待翻译篇章中每句待翻译句子,通过目标篇章翻译模型得到该句待翻译句子包含上下文语义信息的句子表示,并基于所述句子表示对该句待翻译句子进行翻译;
7.根据所述待翻译篇章中每句待翻译句子的翻译结果,得到所述待翻译篇章对应的篇章翻译结果。
8.可选的,通过学习篇章级训练语料中包含上下文语义信息的句子表示,得到所述目标篇章翻译模型,其中,所述篇章级训练语料为篇章级平行语料和/或篇章级单语语料。
9.可选的,所述通过学习篇章级训练语料中包含上下文语义信息的句子表示得到所述目标篇章翻译模型,包括:
10.针对所述篇章级训练语料为篇章级平行语料,基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示;或者
11.针对所述篇章级训练语料为篇章级单语语料,基于所述篇章级单语语料对预训练模型进行预训练,并根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,其中,所述预训练模型用于从所述篇章级单语语料的源端句子中学习包含上下文语义信息的句子表示,所述目标组合模型包含神经机器翻译模型和源端上下文编码器。
12.可选的,所述基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译
模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,包括:
13.利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
14.从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
15.利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
16.可选的,所述神经机器翻译模型与所述上下文预测模型共享同一源端编码器,所述神经机器翻译模型还包含目标端解码器,所述上下文预测模型还包含源端上下文解码器。
17.可选的,所述利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,包括对所述神经机器翻译模型和所述上下文预测模型的多次联合迭代训练;其中,任意一次联合迭代训练包括:
18.通过所述源端编码器对所述第一篇章级平行语料中第一平行句对的当前源端句子进行编码;
19.通过所述目标端解码器和所述源端上下文解码器对所述同一源端编码器的编码结果分别进行解码,以预测出当前源端句子对应的目标端句子和源端上下文句子;
20.根据预测出的源端上下文句子、预测出的目标端预测句子以及所述第一平行句对共同确定出联合损失梯度;
21.基于所述联合损失梯度更新所述神经机器翻译模型的模型参数和所述上下文预测模型的模型参数。
22.可选的,在利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型之前,所述方法还包括:
23.利用所述篇章级单语语料对预训练模型进行预训练,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
24.基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
25.可选的,所述根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,包括:
26.基于所述预训练后的预训练模型对所述目标组合模型进行初始化;
27.依据所述篇章级单语语料对所述初始化后的目标组合模型进行训练,得到与所述目标组合模型对应的目标篇章翻译模型。
28.第二方面,本发明实施例提供一种翻译模型训练方法,包括:
29.基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示。
30.可选的,所述基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译
模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,包括:
31.利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
32.从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
33.利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
34.可选的,在利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型之前,还包括:
35.利用篇章级单语语料训练预训练模型,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
36.基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
37.第三方面,本发明实施例提供一种翻译模型训练方法,包括:
38.基于篇章级单语语料对预训练模型进行预训练;
39.根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,其中,所述预训练模型用于从所述篇章级单语语料的源端句子中学习包含上下文语义信息的句子表示,所述目标组合模型包含神经机器翻译模型和源端上下文编码器。
40.第四方面,本发明实施例提供一种篇章翻译装置,包括:
41.句子翻译单元,用于针对待翻译篇章中每句待翻译句子,通过目标篇章翻译模型得到该句待翻译句子包含上下文语义信息的句子表示,并基于所述句子表示对该句待翻译句子进行翻译;
42.翻译结果形成单元,用于根据所述待翻译篇章中每句待翻译句子的翻译结果,得到所述待翻译篇章对应的篇章翻译结果。
43.可选的,所述装置还包括:
44.模型训练单元,用于通过学习篇章级训练语料中包含上下文语义信息的句子表示,得到所述目标篇章翻译模型,其中,所述篇章级训练语料为篇章级平行语料和/或篇章级单语语料。
45.可选的,所述模型训练单元包括:
46.第一训练单元,用于针对所述篇章级训练语料为篇章级平行语料,基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示;
47.或者所述模型训练单元包括:
48.第二训练单元,用于针对所述篇章级训练语料为篇章级单语语料,基于所述篇章级单语语料对预训练模型进行预训练;
49.模型微调单元,用于根据预训练后的预训练模型对目标组合模型进行微调,得到
与所述目标组合模型对应的目标篇章翻译模型,其中,所述预训练模型用于从所述篇章级单语语料的源端句子中学习包含上下文语义信息的句子表示,所述目标组合模型包含神经机器翻译模型和源端上下文编码器。
50.可选的,所述第一训练单元,包括:
51.联合训练子单元,用于利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
52.模型提取子单元,用于从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
53.继续训练子单元,用于利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
54.可选的,所述神经机器翻译模型与所述上下文预测模型共享同一源端编码器,所述神经机器翻译模型还包含目标端解码器,所述上下文预测模型还包含源端上下文解码器。
55.可选的,所述联合训练子单元用于对所述神经机器翻译模型和所述上下文预测模型进行多次联合迭代训练;其中,针对任意一次联合迭代训练,所述联合训练子单元具体用于:
56.通过所述源端编码器对所述第一篇章级平行语料中第一平行句对的当前源端句子进行编码;
57.通过所述目标端解码器和所述源端上下文解码器对所述同一源端编码器的编码结果分别进行解码,以预测出当前源端句子对应的目标端句子和源端上下文句子;
58.根据预测出的源端上下文句子、预测出的目标端预测句子以及所述第一平行句对共同确定出联合损失梯度;
59.基于所述联合损失梯度更新所述神经机器翻译模型的模型参数和所述上下文预测模型的模型参数。
60.可选的,所述装置还包括:
61.第一预训练单元,用于利用所述篇章级单语语料训练预训练模型,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
62.初始化单元,用于基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
63.可选的,所述模型微调单元包括:
64.初始化子单元,用于基于所述预训练后的预训练模型对所述目标组合模型进行初始化;
65.微调训练单元,用于依据所述篇章级单语语料对所述目标组合模型进行训练,得到与所述目标组合模型对应的目标篇章翻译模型。
66.第五方面,本发明实施例提供一种翻译模型训练装置,包括:
67.第一训练单元,用于基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示。
68.可选的,所述第一训练单元,包括:
69.联合训练子单元,用于利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
70.模型提取子单元,用于从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
71.继续训练子单元,用于利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
72.可选的,所述装置还包括:
73.第一预训练单元,用于利用篇章级单语语料训练预训练模型,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
74.初始化单元,用于基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
75.第六方面,本发明实施例提供一种翻译模型训练装置,包括:
76.初始化子单元,用于基于所述预训练后的预训练模型对所述目标组合模型进行初始化;
77.微调训练单元,用于依据所述篇章级单语语料对所述目标组合模型进行训练,得到与所述目标组合模型对应的目标篇章翻译模型。
78.第七方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面任一所述方法。
79.第八方面,本发明实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行第一方面任一所述方法的操作指令。
80.本发明实施例提供的一个或者多个技术方案,至少实现了如下有益效果:
81.本发明实施例针对待翻译篇章中的待翻译句子,是通过目标篇章翻译模型得到待翻译句子包含上下文语义信息的句子表示,并基于该句子表示对待翻译句子进行翻译;由于目标篇章翻译模型捕获了待翻译句子在篇章中的上下文语义信息,从而能够消除翻译歧义、保持相同词语在篇章的不同句子中翻译结果更加一致,从而能够提高对于篇章级文本的翻译效果。
附图说明
82.为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
83.图1为本发明实施例中篇章翻译方法的流程图;
84.图2为本发明实施例中联合模型的结构示意图;
85.图3为本发明实施例中预训练模型的结构示意图;
86.图4为本发明实施例中联合训练方法的流程示意图;
87.图5为本发明实施例中目标组合模型的结构示意图;
88.图6为本发明实施例中预训练+微调方法的流程示意图;
89.图7为本发明实施例中篇章翻译装置的功能模块图;
90.图8为本发明实施例中电子设备的结构示意图。
具体实施方式
91.为解决上述技术问题,本发明实施例提供的技术方案总体思路如下:针对待翻译篇章中的待翻译句子,通过目标篇章翻译模型得到待翻译句子包含上下文语义信息的句子表示,并基于该句子表示对待翻译句子进行翻译;从而,目标篇章翻译模型捕获了待翻译句子在篇章级别的句子间依赖关系,以提高对于篇章级文本的翻译效果。
92.为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
93.第一方面,本发明实施例提供一种篇章翻译方法,参考图1所示,该篇章翻译方法包括如下步骤s10~s11:
94.s10、针对待翻译篇章中每句待翻译句子,通过目标篇章翻译模型得到该句待翻译句子包含上下文语义信息的句子表示,并基于所述句子表示对该句待翻译句子进行翻译;
95.s11、根据所述待翻译篇章中每句待翻译句子的翻译结果,得到所述待翻译篇章对应的篇章翻译结果。
96.在本发明实施例中的目标篇章翻译模型,在模型结构上至少是包含神经机器翻译模型的,且对目标篇章翻译模型的训练是学习篇章级训练语料包含上下文语义信息的句子表示,通过学习篇章级训练语料包含上下文语义信息的句子表示,使得训练得到的目标篇章翻译模型能够对源端句子进行“语境化”的句子表示,进而有助于提高篇章级神经机器进行篇章翻译的能力。
97.在本发明实施例中,目标篇章翻译模型中的神经机器翻译模型可以是基于transformer框架的翻译模型,其中,transformer架构是由编码器-解码器组成的一种基于attention(自注意力机制)的翻译架构。当然,根据实际需求,也可以选择其他类型的神经机器翻译模型,比如rnn(recurrent neural network,循环神经网络)架构的神经机器翻译
模型等编码器-解码器系列的翻译模型。
98.需要说明的是,本发明实施例中对目标篇章翻译模型的训练与和上述步骤s10~s11中描述的篇章翻译方法属于相互独立的执行过程,可以在不同电子设备上进行,即可以将在一个电子设备上训练得到的目标篇章翻译模型,应用在另一个电子设备中对篇章级文本的翻译。
99.在具体实施时,用于训练目标篇章翻译模型的篇章级训练语料可以是篇章级平行语料或者篇章级单语语料。根据所用篇章级训练语料的不同,对目标篇章翻译模型的训练过程相应不同。下面,就篇章级平行语料或者篇章级单语语料训练目标篇章翻译模型,分别给出一种训练方法:
100.训练方法一:联合训练方法
101.就篇章级训练语料是篇章级平行语料而言,可以采用联合训练方法得到目标篇章翻译模型,具体方式是:利用篇章级平行语料联合训练神经机器翻译模型和上下文预测模型,得到与神经机器翻译模型对应的目标篇章翻译模型。
102.具体来讲,最终得到的目标篇章翻译模型的模型结构与神经机器翻译模型的模型结构相同。其中,上下文预测模型用于从篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示。
103.具体的,通过联合训练方法得到与神经机器翻译模型对应的目标篇章翻译模型,具体包括如下步骤a1~a3:
104.步骤a1、利用获取的第一篇章级平行语料联合训练神经机器翻译模型和上下文预测模型,直至得到已训练的联合模型。
105.具体的,第一篇章级平行语料包含一定数量的第一平行句对,其中,第一平行句对是包含源端句子以及针对该源端句子的源端上下文句子和目标端句子。其中,源端上下文句子包含当前源端句子的上一个源端句子和下一个源端句子。比如:第一平行句对表示为(si,s
i-1
,s
i+1
,yi),其中,si是当前源端句子。s
i-1
是si的上一个源端句子,s
i+1
是si的下一个源端句子,yi是si的目标端句子。
106.联合模型是包括神经机器翻译模型与上下文预测模型。在联合训练过程,通过神经机器翻译模型预测当前源端句子的目标端句子,通过上下文预测模型预测当前源端句子的源端上下文句子。
107.其中,参考图2所示,图2为本发明实施例中联合模型的结构示意图,联合模型包含一个源端编码器以及共享该源端编码器的三个解码器,具体的,神经机器翻译模型与上下文预测模型共享同一源端编码器,神经机器翻译模型还包含目标端解码器,上下文预测模型还包含源端上下文解码器,其中,上下文预测模型的源端上下文解码器包括前解码器(pre-encoder)和后解码器(next-encoder)。对联合模型的训练就是对神经机器翻译模型与上下文预测模型进行联合训练的过程,具体包括对神经机器翻译模型和上下文预测模型的多次联合迭代训练;参考图4所示,图4为本发明实施例中联合训练方法的流程示意图,任意一次联合迭代训练包括如下步骤a11~a13:
108.步骤a11、通过源端编码器对第一篇章级平行语料中第一平行句对的当前源端句子进行编码,通过目标端解码器和源端上下文解码器对同一源端编码器的编码结果分别进行解码,以预测出当前源端句子对应的目标端句子和源端上下文句子。
109.更具体来讲,结合图2所示,基于本发明实施例中的上下文预测模型包含前解码器和后解码器,步骤a11具体包括:通过源端编码器对第一平行句对的当前源端句子进行编码,得到源端句子编码向量;通过前解码器对源端句子编码向量进行解码,以预测出上一个源端句子,通过后解码器对源端句子编码向量进行解码,以预测出下一个源端句子,以及通过目标端解码器对源端句子编码向量进行解码,以预测出目标端句子。
110.在具体实施过程中,上下文预测模型的前、后解码器以及源端编码器共享源端句子的词向量,即源端句子被表示为词向量之后会传入到如图2所示的源端编码器、前解码器和后解码器中。
111.步骤a12、根据预测出的源端上下文句子和预测出的目标端预测句子,以及第一平行句对共同确定出联合损失梯度。
112.需要说明的是,在一次联合迭代过程中会使用m个第一平行句对,m为正整数。联合损失函数的计算公式如下:
113.loss=loss_tgt+μ*loss_pre+λ*loss_next
114.其中,loss_tgt是目标端解码器预测m个目标端句子的损失;loss_pre是前解码器预测m个目标端句子对应的m个上一个源端句子的损失,根据loss_next是后解码器预测m个目标端句子对应的m个下一个源端句子的损失。根据联合损失函数确定出联合损失梯度。
115.步骤a13、基于联合损失梯度更新神经机器翻译模型和上下文预测模型的模型参数。即更新图2所示联合模型的模型参数。
116.通过重复上述步骤a11~a13对联合模型进行不断迭代训练,直至满足第一预设结束条件时结束训练,得到已训练的联合模型。具体的,可以是达到预设迭代次数阈值或者收敛时结束联合训练,得到已训练的联合模型。
117.在得到已训练的联合模型之后执行步骤a2:从已训练的联合模型中提取出已训练的神经机器翻译模型。具体的,如图2所示的,可以从联合模型中去掉前解码器和后解码器,留下的就是一个源端解码器和一个目标端解码器构成的编码器-解码器网络,从而得到了已训练的神经机器翻译模型。
118.在步骤a2之后执行步骤a3:利用获取的第二篇章平行语料对提取出的已训练的神经机器翻译模型继续进行训练,直至得到与神经机器翻译模型对应的目标篇章级翻译模型。
119.具体的,第二篇章平行语料包含一定数量的第二平行句对,其中,第二平行句对包括当前源端句子以及针对当前源端句子的目标端句子,比如,第二平行句对可以表示为{(si,yi)},其中,si是当前源端句子,而yi是si的目标端句子。
120.步骤a3具体包括:a31、需要通过源端编码器对第二平行句对中的当前源端句子进行编码;a32、通过目标端解码端对编码结果进行解码,以预测出当前源端句子的目标端句子;a33、根据预测出的目标端句子和第二平行句对中实际的目标端句子计算目标端解码器预测目标端句子的损失loss_tgt;a34、根据目标端解码器预测目标端句子的损失确定翻译损失梯度,并根据翻译损失梯度更新神经机器翻译模型的模型参数,完成对神经机器翻译模型的模型参数一次迭代。通过重复步骤a31~a34,实现对神经机器翻译模型的不断迭代训练,直至满足第二预设结束条件时,结束对神经机器翻译模型的迭代训练,得到目标篇章级翻译模型。
121.需要说明的是,上下文预测模型可以是基于transformer框架的skip-thought模型,而神经机器翻译模型可以是基于transformer框架的翻译模型。前文已经解释了神经机器翻译模型,在此不再赘述。
122.为了进一步提高目标篇章级翻译模型的整体翻译效果,在训练方法一的基础上进行改进,得到预训练+联合训练的训练方式,具体是:
123.在执行步骤a1之前,利用篇章级单语语料对预训练模型进行训练,得到预训练后的预训练模型,其中,预训练模型用于从篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;基于预训练后的预训练模型对神经机器翻译模型和上下文预测模型进行初始化。
124.预训练模型的模型结构以及对预训练模型进行训练的过程与训练方式二相同或者相似,可以参考下文训练方式二中相关描述,为了说明书的简洁,在此不再赘述。
125.训练方法二:预训练+微调方法
126.由于联合训练方法需要大量的篇章级平行语料作为训练数据。但是,在实施时具有文档边界的篇章级平行语料并不容易获得。相反,容易获取大量的篇章级单语语料作为训练数据。在不能获得篇章级平行语料的情况下,可以采用训练方式二:就篇章级训练语料是篇章级单语语料而言,可以采用预训练和微调的方法得到目标篇章级翻译模型,训练方式二的具体过程包括如下步骤b1~b2:
127.步骤b1、基于篇章级单语语料对预训练模型进行预训练;步骤b2:基于预训练后的预训练模型对目标组合模型进行微调,得到与目标组合模型对应的目标篇章翻译模型。
128.具体的,步骤b1是利用篇章级单语语料对预训练模型进行预训练,通过预训练模型来预测当前源端句子的上下文句子,从而通过对预训练模型的预训练得到可以捕获句子间依赖关系的源端上下文编码器。
129.具体的,篇章级单语语料包含一定数量的单语训练句对,单语训练句对可以表示为(si,s
i-1
,s
i+1
),其中,si为当前源端句子,s
i-1
为si的上一个源端句子,s
i+1
为si的上一个源端句子。
130.对预训练模型的预训练过程包括对预训练模型的多次迭代训练过程,其中,参考图6所示,图6为本发明实施例中预训练+微调方法的流程示意图,对预训练模型的任意一次迭代训练过程包含如下步骤b11~b13:
131.步骤b11、针对篇章级单语语料中单语训练句对的当前源端句子,通过预训练模型预测当前源端句子的源端上下文句子。
132.具体来讲,预训练模型的模型结构可以使用如下两种模型结构中的任意一种:
133.①
包含两个源端解码器(一个前解码器和一个后解码器)和被前解码器和后解码器共享的一个源端编码器构成。预训练模型基于同一源端编码器对当前源端句子si进行编码,预训练模型的两个源端解码器分别根据同一源端编码器的编码结果进行解码,得到上一个源端句子s
i-1
和下一个源端句子s
i+1

134.②
预训练模型由图3所示的两个编码器-解码器模型构成,包含:一个前解码器、一个后解码器、一个前编码器以及一个后编码器),将当前源端句子表示为词向量之后传入到两个编码器-解码器模型,预训练模型中使用两个独立的源端编码器(前编码器、后编码器)分别对当前源端句子进行编码,前解码器用于预测当前源端句子si的上一个源端句子s
i-1

后解码器用于预测当前源端句子si的下一个源端句子s
i+1
。需要说明的是,如图3所示的预训练模型中两个编码器-解码器模型共享源端句子的词向量,即:将当前源端句子表示为词向量之后传入到两个编码器-解码器模型。
135.步骤b12:根据预训练模型预测出的源端上下文句子以及单语训练句对中实际的源端上下文句子,共同确定上下文损失函数,并根据上下文损失函数确定本次迭代的上下文损失函数梯度;步骤b13:根据本次迭代的上下文损失函数梯度调整预训练模型的模型参数。
136.需要说明的是,在对预训练模型的一次迭代过程中可以使用一个或者多个单语训练句对。
137.通过重复上述b11~b13步骤以实现不断迭代训练预训练模型,直至收敛或者达到最大迭代次数时,得到预训练后的预训练模型。其中,上下文损失函数的计算公式如下:
138.loss=loss_pre+loss_next
139.其中,loss_pre是预训练模型中一个编码器-解码器模型预测上一个源端句子的损失,loss_next是预训练模型中另一个编码器-解码器模型预测下一个源端句子的损失。
140.步骤b2具体是根据预预训练后的预训练模型对目标组合模型进行初始化。具体来讲,参考图5所示,目标组合模型是通过整合神经机器翻译模型与预训练后的预训练模型中两个源端编码器(一个前编码器和一个后编码器)得到,其中,神经机器翻译模型是基于transformer框架的翻译模型,前文已经解释,在此不再赘述。
141.步骤b3、利用篇章级单语语料对初始化后的目标组合模型进行微调训练,得到目标组合模型对应的目标篇章级翻译模型。
142.具体的,参考图5所示,目标组合模型中前编码器(pre-encoder)的输出、后编码器(next-encoder)的输出,以及当前源端句子的词向量这三者的加和作为神经机器翻译模型中源端编码器的输入,进行对目标组合模型的微调。在微调过程中,能够对词向量、目标组合模型中前编码器、后编码器的参数会持续被优化。
143.通过上述技术方案,由于目标篇章翻译模型捕获了待翻译句子在篇章中的上下文语义信息,从而能够消除翻译歧义、保持相同词语在不同句子中翻译结果更加一致,从而能够提高对于篇章级文本的翻译效果。
144.下面,在汉语-英语和英语-德语两种翻译任务上,针对本发明实施例提供的各种实施方式训练得到的目标篇章翻译模型进行了实验,以验证目标篇章翻译模型进行篇章级文本的有效性,但是不作为对本发明的限制:
145.在汉语-英语的翻译任务中,使用ldc(linguistic data consortium,语言数据联盟)语料,其中包含ldc2003e14、ldc2005t06、ldc2005t10和一部分的ldc2004t08(会议记录/法律/新闻)语料,这些语料的规模是2.8m的平行句对。从2.8m的平行句对语料中挑选出94k个篇章(共包含900k个句对),使用nis数据库中的nist06数据集作为开发集,nist02/nist03/nist04/nist05/nist08作为测试集。开发集和测试集共包含588个篇章和5833个句对。每篇文档平均包含10个句子。收集篇章级单语语料用于实验,收集的篇章级单语语料总共有25m个句子,700k个文档,平均每个文档包含35个句子。
146.在英语-德语的翻译任务中,使用wmt19的篇章级双语数据作为训练集(总共有39k个文档和855k个句对)。此外,收集410k个文档(包含10m个句子)的篇章级单语语料。使用
newstest2019作为开发集,newstest2017和newstest2018作为测试集。开发集包含123个文档和2998个句子,测试集包含255个文档和6002个句子。
147.对于汉语端进行分词,再使用字节对编码(bpe)将词切分成更小粒度的子词。在英语和德语端,使用字节对编码(bpe)将词切分成更小粒度的子词。使用不区分大小写的nist bleu(在bleu基础上改进的一种评价机器翻译评价指标)分数作为评价尺度,并且使用“mteval-v11b.pl”脚本计算bleu分数。在词表外的词都用“unk”标记作为代替。
148.使用transformer架构的神经机器翻译模型作为基准模型。在训练过程中:设置隐藏层的大小为512,过滤大小为2048。解码器和编码器的层数都设置为6层,并设置8头的注意力数量。使用adam算法更新目标篇章翻译模型。学习率设置为1.0,并且学习率更新步数(warm-steps)设置为4000。在每一次迭代的时候,设置4096个词进行一次批处理。在编码过程中使用4张titan xp gpu进行编码,在解码过程中使用2张titan xp gpu解码;在解码的过程中设置集束搜索(beam-search)的宽度为4。对于测试集的翻译结果进行显著性检测。
149.联合训练方法的实验结果如表1所示。在表1所示,对于联合训练方法,“pre”/“next”表示只使用了前编码器或者后编码器。根据开发集上的实验结果,对前编码器或者后编码器分别设置了μ=0.5和λ=0.5(根据开发集,分别验证了μ=0.1、0.5、1.0,其中,μ设置为0.5效果最好)。只使用了前编码器或者后编码器的bleu得分相近,说明前后两个源端句子对当前源端句子翻译的影响几乎相同。当使用“pre+next”方法同时预测上一个源端句子和下一句源端句子(根据开发集的结果设置μ=0.5,λ=0.3)时,优于仅用“pre”和“next”的方法,比基准模型提高了+0.84个bleu点。表示显著性检测优于基准模型(p《0.01)
150.表1汉英翻译的bleu得分对照
[0151][0152]
25m数量级的篇章单语语料对预训练模型进行训练,然后在两个不同规模的平行语料上进行了微调:900k平行语料和2.8m平行语料。900k语料库中句子表现出很强的语境关联性。然而,在2.8m语料库中,并不是所有的篇章都有明确的文档边界。在用篇章单语训
练预训练模型时,不对文档中的句子进行随机打乱,保持了每个文档中句子的原始顺序。结果如表1和表2所示,类似于联合训练,通过单个编码器对预训练模型进行训练,既可以是pre-encoder,也可以是next-encoder,从而获得“pre”或“next”的结果。当然,可以同时训练这两个encoder,对应“pre+next”的结果。如表1和2所示,预训练和微调的方法的“pre”和“next”在两个基线上获得了较大的提高。在不使用任何上下文信息的情况下,对transformer基准模型的提高分别是+0.93和+1.28bleu点。在表2中,表示显著性检测优于基准模型(p《0.01)
[0153]
表2预训练+微调方法在汉英翻译上的bleu得分对照。
[0154][0155]
从上述实验数据可以看出,无论是联合训练还是预训练+微调的方法得到的目标篇章模型都能明显提高翻译效果。进一步的,在对联合模型进行训练之前,通过预训练模型中初始化联合模型。从表1可以看出,获得最高的bleu分数,比transformer基准基线高+1.14。
[0156]
如表3所示,在英德翻译上分别优于基线模型0.81和0.92的bleu点。
[0157]
表3英语-德语翻译上的bleu得分对照
[0158][0159]
通过上述实验数据可以看出,通过目标篇章翻译模型对篇章中当前源端句至的源端上下句进行预测,可以提高模型的翻译表现。
[0160]
通过实验证明,在预训练模型中使用两个独立的编码器对当前源端句子进行编码,分别用来预测上一个源端句子和下一句源端句子能够获得更好的翻译效果。实验得到的bleu数据参考下表4所示。
[0161]
表4预训练模型中两个编码器和单编码器的比较
[0162][0163]
比较了预训练模型使用两个独立的编码器对当前源端句子进行编码和共享一个
编码器对当前源端句子进行编码。结果如表4所示。显然,不共享编码器模型优于共享编码器模型。这表明两个独立的编码器比单个编码器更善于捕获当前句子和周围句子之间的依赖关系。这是因为当前句对前一句和后一句之间的依赖关系不同。
[0164]
从表5所示的结果可以看出,如果只使用预先训练好的词向量作为输入,可以在两个不同规模的平行语料上获得+0.34和+0.66的bleu点的提高。当使用预训练模型中的输入词向量、前编码器(pre-encoder)和后编码器(next-encoder)的输出之和作为神经机器翻译模型中编码器的输入,相比于仅用词向量作为输入,提高了+0.5和+0.62的bleu。
[0165]
表5目标组合模型在两种不同规模语料上的bleu分数。
[0166][0167]
在表5中:“pre+next+词向量”表示将上文编码器(pre-encoder)和下文编码器(next-encoder)的输出,以及预训练模型的词向量共同作为目标组合模型的输入。“词向量”是仅仅将预训练模型的词向量作为输入。
[0168]
本发明实施例提供的基于目标篇章翻译模型的翻译方法可以通过消除翻译的歧义(如表6中示例一)或者使翻译效果更加一致(如表6中示例二)等来提高翻译质量。在示例一中,“脆弱”带有“weak”或“fragile”两个意思,由于目标篇章翻译模型会了确切的上下文语义信息,可以正确翻译“脆弱”这个词语。在示例二中,目标篇章翻译模型将两句话中的“发现”翻译成相同的翻译“detected”,因为第二句中提到的“案件”可以从第一句中的“毒品”和“警察”的意思来预测。另外,从测试集中随机抽取了5篇文档,共48个句子,进行翻译分析。
[0169]
表6基准模型与目标篇章翻译模型的翻译结果比较
[0170][0171]
第二方面,基于同样的发明构思,本发明实施例提供一种翻译模型训练方法,包括如下步骤:基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示。
[0172]
在一具体的实施方式下,所述基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,包括:利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
[0173]
在一具体的实施方式下,利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
[0174]
在一具体的实施方式下,,在利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型之前,还包括:利用篇章级单语语料训练预训练模型,
得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
[0175]
第三方面,基于同样的发明构思,本发明实施例提供一种翻译模型训练方法,包括如下步骤:基于篇章级单语语料对预训练模型进行预训练;根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,其中,所述预训练模型用于从所述篇章级单语语料的源端句子中学习包含上下文语义信息的句子表示,所述目标组合模型包含神经机器翻译模型和源端上下文编码器。
[0176]
第四方面,基于同样的发明构思,本发明实施例提供一种篇章翻译装置,参考图7所示,包括:
[0177]
句子翻译单元701,用于针对待翻译篇章中每句待翻译句子,通过目标篇章翻译模型得到该句待翻译句子包含上下文语义信息的句子表示,并基于所述句子表示对该句待翻译句子进行翻译;
[0178]
翻译结果形成单元702,用于根据所述待翻译篇章中每句待翻译句子的翻译结果,得到所述待翻译篇章对应的篇章翻译结果。
[0179]
在一具体的实施方式下,所述装置还包括:
[0180]
模型训练单元,用于通过学习篇章级训练语料中包含上下文语义信息的句子表示,得到所述目标篇章翻译模型,其中,所述篇章级训练语料为篇章级平行语料和/或篇章级单语语料。
[0181]
在一具体的实施方式下,所述模型训练单元包括:
[0182]
第一训练单元,用于针对所述篇章级训练语料为篇章级平行语料,基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示;
[0183]
或者所述模型训练单元包括:
[0184]
第二训练单元,用于针对所述篇章级训练语料为篇章级单语语料,基于所述篇章级单语语料对预训练模型进行预训练;
[0185]
模型微调单元,用于根据预训练后的预训练模型对目标组合模型进行微调,得到与所述目标组合模型对应的目标篇章翻译模型,其中,所述预训练模型用于从所述篇章级单语语料的源端句子中学习包含上下文语义信息的句子表示,所述目标组合模型包含神经机器翻译模型和源端上下文编码器。
[0186]
在一具体的实施方式下,所述第一训练单元,包括:
[0187]
联合训练子单元,用于利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
[0188]
模型提取子单元,用于从所述已训练的联合模型中提取出已训练的神经机器翻译模型;
[0189]
继续训练子单元,用于利用获取的第二篇章级平行语料继续对所述已训练的神经
机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
[0190]
在一具体的实施方式下,所述神经机器翻译模型与所述上下文预测模型共享同一源端编码器,所述神经机器翻译模型还包含目标端解码器,所述上下文预测模型还包含源端上下文解码器。
[0191]
在一具体的实施方式下,所述联合训练子单元用于对所述神经机器翻译模型和所述上下文预测模型进行多次联合迭代训练;其中,任意一次联合迭代训练,所述联合训练子单元具体用于:
[0192]
通过所述源端编码器对所述第一篇章级平行语料中第一平行句对的当前源端句子进行编码;
[0193]
通过所述目标端解码器和所述源端上下文解码器对所述同一源端编码器的编码结果分别进行解码,以预测出当前源端句子对应的目标端句子和源端上下文句子;
[0194]
根据预测出的源端上下文句子、预测出的目标端预测句子以及所述第一平行句对共同确定出联合损失梯度;
[0195]
基于所述联合损失梯度更新所述神经机器翻译模型的模型参数和所述上下文预测模型的模型参数。
[0196]
在一具体的实施方式下,所述装置还包括:
[0197]
第一预训练单元,用于利用所述篇章级单语语料训练预训练模型,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
[0198]
初始化单元,用于基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
[0199]
在一具体的实施方式下,所述模型微调单元包括:
[0200]
初始化子单元,用于基于所述预训练后的预训练模型对所述目标组合模型进行初始化;
[0201]
微调训练单元,用于依据所述篇章级单语语料对所述目标组合模型进行训练,得到与所述目标组合模型对应的目标篇章翻译模型。
[0202]
第五方面,基于同样的发明构思,本发明实施例提供一种翻译模型训练装置,包括:
[0203]
第一训练单元,用于基于所述篇章级平行语料联合训练上下文预测模型和神经机器翻译模型,得到与所述神经机器翻译模型对应的目标篇章翻译模型,其中,所述上下文预测模型用于从所述篇章级平行语料的源端句子中学习包含上下文语义信息的句子表示。
[0204]
在一具体的实施方式下,所述第一训练单元,包括:
[0205]
联合训练子单元,用于利用获取的第一篇章级平行语料联合训练所述神经机器翻译模型和所述上下文预测模型,直至得到已训练的联合模型,所述第一篇章级平行语料中的第一平行句对包括当前源端句子以及针对所述当前源端句子的源端上下文句子和目标端句子;
[0206]
模型提取子单元,用于从所述已训练的联合模型中提取出已训练的神经机器翻译
模型;
[0207]
继续训练子单元,用于利用获取的第二篇章级平行语料继续对所述已训练的神经机器翻译模型进行训练,直至得到与所述神经机器翻译模型对应的目标篇章级翻译模型,其中,所述第二篇章级平行语料中的第二平行句对包括当前源端句子以及针对所述当前源端句子的目标端句子。
[0208]
在一具体的实施方式下,所述装置还包括:
[0209]
第一预训练单元,用于利用篇章级单语语料训练预训练模型,得到预训练后的预训练模型,其中,所述预训练模型用于从所述篇章级单语语料源端的句子中学习包含上下文语义信息的句子表示;
[0210]
初始化单元,用于基于所述预训练后的预训练模型对所述神经机器翻译模型和所述上下文预测模型进行初始化。
[0211]
第六方面,基于同样的发明构思,本发明实施例提供一种翻译模型训练装置,包括:
[0212]
初始化子单元,用于基于所述预训练后的预训练模型对所述目标组合模型进行初始化;
[0213]
微调训练单元,用于依据所述篇章级单语语料对所述目标组合模型进行训练,得到与所述目标组合模型对应的目标篇章翻译模型。
[0214]
关于上述装置,其中各个单元的具体功能已经在本发明一方面提供的篇章翻译方法实施例中进行了详细描述,此处将不做详细阐述,具体实施过程可以参照上述第一方面提供的篇章翻译方法实施例。
[0215]
第七方面,基于与前述篇章翻译方法实施例的同样发明构思,本说明书实施例还提供一种电子设备,基于与前述篇章翻译方法实施例的同样发明构思,本说明书实施例还提供一种电子设备。图8是根据一示例性实施例示出的一种电子设备800的框图。例如,设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0216]
参照图8,设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
[0217]
处理组件802通常控制设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
[0218]
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0219]
电力组件806为设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为设备800生成、管理和分配电力相关联的组件。
[0220]
多媒体组件808包括在设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0221]
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
[0222]
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0223]
传感器组件814包括一个或多个传感器,用于为设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为设备800的显示器和小键盘,传感器组件814还可以检测设备800或设备800一个组件的位置改变,用户与设备800接触的存在或不存在,设备800方位或加速/减速和设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0224]
通信组件816被配置为便于设备800和其他设备之间有线或无线方式的通信。设备800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0225]
在示例性实施例中,设备800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0226]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0227]
还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端
的处理器执行时,使得设备800能够执行一种翻译模型训练方法或者一种篇章翻译方法,所述方法包括前述翻译模型训练方法实施例中的任一种实施方式,所述方法包括前述篇章翻译方法实施例中的任一种实施方式。
[0228]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0229]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1