翻译模型训练方法、装置、设备及存储介质与流程

文档序号：30423345发布日期：2022-06-15 14:03阅读：80来源：国知局

1.本公开涉及信息技术领域，尤其涉及一种翻译模型训练方法、装置、设备及存储介质。

背景技术：

2.当前，针对翻译模型的训练过程，需要大量的平行语料，例如，源语言语句和目标语言语句之间的对应关系。
3.但是，本技术的发明人发现，如果源语言和/或目标语言是小语种时，从源语言语句到目标语言语句的平行语料将非常稀少，从而无法对翻译模型进行训练。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种翻译模型训练方法、装置、设备及存储介质，通过源语言语句和更新后的目标语言文本即可对翻译模型进行训练。从而实现了基于零资源或低资源的机器翻译模型或机器翻译系统的训练方法。
5.第一方面，本公开实施例提供一种翻译模型训练方法，包括：
6.根据源语言文本和翻译词典，生成目标语言文本，所述翻译词典包括源语言文本单元与目标语言文本单元之间的对应关系；
7.将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本；
8.根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。
9.第二方面，本公开实施例提供一种翻译模型训练装置，包括：
10.生成模块，用于根据源语言文本和翻译词典，生成目标语言文本，所述翻译词典包括源语言文本单元与目标语言文本单元之间的对应关系；
11.替换模块，用于将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本；
12.训练模块，用于根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。
13.第三方面，本公开实施例提供一种电子设备，包括：
14.存储器；
15.处理器；以及
16.计算机程序；
17.其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。
18.第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。
19.本公开实施例提供的翻译模型训练方法、装置、设备及存储介质，通过源语言文本和翻译词典，生成目标语言文本，当该目标语言文本中存在未出现于翻译词典中的预设文本单元时，可以将该目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本。进一步，根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。因此，当源语言语句到目标语言语句的平行语料非常稀少时，通过源语言文本和翻译词典可以构建目标语言文本、以及对目标语言文本进行更新，从而使得更新后的目标语言文本可以近似于真实的目标语言语句。通过源语言语句和更新后的目标语言文本即可对翻译模型进行训练。从而实现了基于零资源或低资源的机器翻译模型或机器翻译系统的训练方法。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
21.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
22.图1为本公开实施例提供的翻译模型训练方法流程图；
23.图2为本公开实施例提供的翻译模型训练方法流程图；
24.图3为本公开另一实施例提供的翻译模型训练方法流程图；
25.图4为本公开另一实施例提供的翻译模型训练方法流程图；
26.图5为本公开另一实施例提供的监督模型训练过程的示意图；
27.图6为本公开另一实施例提供的翻译模型训练方法流程图；
28.图7为本公开实施例提供的翻译模型训练装置的结构示意图；
29.图8为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
30.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
31.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
32.通常情况下，针对翻译模型的训练过程，需要大量的平行语料，例如，源语言语句和目标语言语句之间的对应关系。但是，如果源语言和/或目标语言是小语种时，从源语言语句到目标语言语句的平行语料将非常稀少，从而无法对翻译模型进行训练。例如，传统的翻译模型在训练阶段，需要依赖大量的平行语料(例如成对的源语言语句和目标语言语句)，使得对于训练一些零资源(zero-resource)或低资源场景(例如，小语种)的机器翻译系统代价巨大。针对该问题，本公开实施例提供了一种翻译模型训练方法，下面结合具体的实施例对该方法进行介绍。
33.图1为本公开实施例提供的翻译模型训练方法流程图。该方法可以由翻译模型训练装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括手机、电脑或平板电脑等。下面以服务器为例介绍该翻译模型训练方法。具体的，该翻译模型可以是一个从源语言到目标语言的翻译系统，本公开实施例并不限定源语言和目标语言的语种，具体的，源语言和/或目标语言可以是广泛度较高的语种，或者也可以是小语种。例如，源语言可以是德语，目标语言可以是俄语。如图1所示，该方法具体步骤如下：
34.s101、根据源语言文本和翻译词典，生成目标语言文本，所述翻译词典包括源语言文本单元与目标语言文本单元之间的对应关系。
35.如图2所示，服务器可以先利用源语言文本和翻译词典训练弱监督模型，具体的训练过程可以参照后续的实施例。其中，源语言文本可以记为源语言数据。源语言文本可以是源语言段落级别的文本或语句级别的文本，下面以语句级别的文本为例，进行示意性说明。具体的，将弱监督模型训练完成后，可以将源语言文本再次输入训练完成的弱监督模型中，使得训练完成的弱监督模型可以输出与该源语言文本对应的目标语言文本。可以理解的是，源语言文本可以有多个，将每个源语言文本输入到训练完成的弱监督模型后，可以得到每个源语言文本分别对应的目标语言文本。其中，目标语言文本可以记为目标语言数据，目标语言文本可以是目标语言段落级别的文本或语句级别的文本，下面以语句级别的文本为例，进行示意性说明。另外，翻译词典包括源语言文本单元与目标语言文本单元之间的对应关系，该源语言文本单元可以是构成源语言文本的单元，例如，源语言单词。同理，目标语言文本单元可以是构成目标语言文本的单元，例如，目标语言单词。其中，输入到弱监督模型的某个源语言文本中的单词可以部分出现在翻译词典中。
36.s102、将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本。
37.如图2所示，当训练完成的弱监督模型输出目标语言文本后，可以采用贪婪解码(greedy decoding)对该目标语言文本进行解码，得到目标语言的伪标签数据，该伪标签数据本质上还是目标语言文本，只是表现形式、名称略有不同，从而对解码前的内容和解码后得到的内容进行区别。其中，该伪标签数据可能包括《unk》，《unk》是指未知的单词，例如，未出现在翻译词典中的预设文本单元，即翻译词典之外的单词。例如，输入到训练完成的弱监督模型的某个源语言文本包括源语言单词a1、源语言单词a2、源语言单词a3和源语言单词a4。该弱监督模型可以从翻译词典中查询每个源语言单词所对应的目标语言单词。假设在该翻译词典中存在源语言单词a1和源语言单词a3分别对应的目标语言单词，并且源语言单词a1和源语言单词a3分别对应的目标语言单词依次记为目标语言单词b1、目标语言单词b3。源语言单词a2和源语言单词a4没有出现在该翻译词典中，则将源语言单词a2和源语言单词a4分别对应的目标语言单词记为《unk》，从而使得该伪标签数据依次包括目标语言单词b1、《unk》、目标语言单词b3、《unk》。
38.进一步，通过n-gram模型对该伪标签数据进行束搜索(beam-search)解码，从而将该伪标签数据中的每个《unk》分别替换为一个特定词，每个《unk》对应的特定词可以是最符合该《unk》上下文要求的词。该特定词可以记为目标文本单元，从而得到替换后的伪标签数据，该替换后的伪标签数据可以称为更新后的目标语言文本。
39.s103、根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。
40.例如，源语言文本可以有多个，每个源语言文本分别对应有替换后的伪标签数据，进一步，根据每个源语言文本分别、以及每个源语言文本分别对应有替换后的伪标签数据对翻译模型进行训练。其中，该翻译模型可以采用自回归模型，或者可以采用非自回归模型。
41.例如，在一次训练过程中，可以将源语言文本分割为多个单词(word)，以及将该源语言文本对应的替换后的伪标签数据分割为多个单词。然后，将该源语言文本包括的多个单词输入到该翻译模型，使得该该翻译模型输出目标语言的多个单词。进一步，根据该该翻译模型输出的目标语言的多个单词和该伪标签数据包括的多个单词计算损失函数，从而对该翻译模型的参数进行更新。具体的，一次训练过程可以视为一次迭代，通过多次迭代，可以不断的更新该翻译模型的参数，直到符合目标条件为止。在其他一些实施例中，还可以将源语言文本、以及该源语言文本对应的替换后的伪标签数据分别分割为子词(subword)或字符(例如字母)级别的令牌(token)。
42.本公开实施例通过源语言文本和翻译词典，生成目标语言文本，当该目标语言文本中存在未出现于翻译词典中的预设文本单元时，可以将该目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本。进一步，根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。因此，当源语言语句到目标语言语句的平行语料非常稀少时，通过源语言文本和翻译词典可以构建目标语言文本、以及对目标语言文本进行更新，从而使得更新后的目标语言文本可以近似于真实的目标语言语句。通过源语言语句和更新后的目标语言文本即可对翻译模型进行训练。从而实现了基于零资源或低资源的机器翻译模型或机器翻译系统的训练方法。
43.图3为本公开另一实施例提供的翻译模型训练方法流程图。该方法具体步骤如下：
44.s301、根据所述源语言文本和所述翻译词典对监督模型进行训练，得到训练后的监督模型。
45.该监督模型具体可以是如上所述的弱监督模型。如图2所示，服务器可以先利用源语言文本和翻译词典训练弱监督模型，得到训练后的弱监督模型。
46.s302、根据所述训练后的监督模型生成与所述源语言文本对应的目标语言文本。
47.例如，源语言文本可以有多个，将每个源语言文本输入到训练完成的弱监督模型后，可以得到每个源语言文本分别对应的目标语言文本。
48.s303、根据所述目标语言文本中未出现在所述翻译词典中的预设文本单元的上下文，确定所述预设文本单元对应的目标文本单元。
49.例如，每个《unk》对应的特定词可以是最符合该《unk》上下文要求的词。下面介绍一下beam-search解码的具体过程，例如，替换之前的该伪标签数据依次包括目标语言单词b1、《unk》、目标语言单词b3、《unk》，其中，第一个《unk》的上下文包括目标语言单词b1、目标语言单词b3和第二个《unk》。首先根据第一个《unk》的上下文预测第一个《unk》对应的特定词，例如，得到打分前5的5个特定词。第二个《unk》的上下文包括目标语言单词b1、该5个特定词中的任意一个、目标语言单词b3。因此，第二个《unk》的上下文包括5种情况，在每种情况下，分别预测第二个《unk》对应的特定词，同理可以统计出打分前5的5个特定词。进一步，根据第一个《unk》对应的打分前5的5个特定词、以及第二个《unk》对应的打分前5的5个特定
词，进行组合，从而确定出第一个《unk》对应的最终特定词和第二个《unk》对应的最终特定词，使得两者打分的和值最大。
50.s304、将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本。
51.具体的，s304和s102的实现方式和具体原理一致，此处不再赘述。
52.s305、根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。
53.具体的，s305和s103的实现方式和具体原理一致，此处不再赘述。
54.本实施例通过所述源语言文本和所述翻译词典对监督模型进行训练，得到训练后的监督模型，根据所述训练后的监督模型生成与所述源语言文本对应的目标语言文本。进一步，根据所述目标语言文本中未出现在所述翻译词典中的预设文本单元的上下文，确定所述预设文本单元对应的目标文本单元，将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本。从而根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。也就是说，只需要利用翻译词典，结合弱监督技术和自训练技术，就可以训练得到一个可用的机器翻译系统。该方法可适用于零资源或低资源的场景，能很好的提升基于零资源或低资源的机器翻译系统的准确率。
55.另外，现有技术通常会利用枢轴语言(pivot language)作为桥梁，从而得到从源语言语句到目标语言语句的平行语料。例如，在训练一个从德语到俄语的翻译模型时，由于没有从德语到俄语的平行语料，因此，现有技术可以利用英语作为pivot language，先利用已有的英语到德语的模型生成从英语到德语的平行语料，以及利用已有的英语到俄语的模型生成从英语到俄语的平行语料。进一步，根据从英语到德语的平行语料、以及从英语到俄语的平行语料，构造出从德语到俄语的平行语料，然后再利用从德语到俄语的平行语料对从德语到俄语的翻译模型进行训练。但是，这种方法由于依赖于从pivot language到源语言的模型、以及从pivot language到目标语言的模型，因此，容易受到误差累积影响，导致生成的从德语到俄语的平行语料质量不高。而本技术公开的翻译模型训练方法，只需要利用翻译词典就可以构造从源语言语句到目标语言语句的平行语料，摆脱了对pivot language的依赖。因此，不存在误差累积的问题，从而提高了从源语言语句到目标语言语句的平行语料的质量。
56.在上述实施例的基础上，根据所述源语言文本和所述翻译词典对监督模型进行训练，包括如图4所示的如下几个步骤：
57.s401、针对所述源语言文本中的每个源语言文本单元，从所述翻译词典中查询与所述源语言文本单元对应的目标语言文本单元，得到目标语言的无序样本。
58.例如，源语言文本包括多个源语言文本单元，源语言文本可以是源语言语句，源语言文本单元具体可以是源语言单词。例如，该源语言语句包括的多个源语言单词分别记为x_0、x_1、x_2、x_3。通过查询翻译词典，可以得到x_0、x_1、x_2、x_3分别对应的目标语言文本单元例如目标语言单词，例如，x_0、x_1、x_2、x_3分别对应的目标语言单词依次是w_0、w_1、w_2、w_1。进一步，w_0、w_1、w_2、w_1构成目标语言的无序样本。假设，w_0和w_1分别是翻译词典中的词，w_2不是翻译词典中的词，此时，w_2可以是如上所述的《unk》，即w_2是翻译词典之外(out-of-vocabulary，oov)的词，也就是说，在该翻译词典中，没有找到x_2所对应
的目标语言单词，另外，x_1和x_3分别与w_1对应。
59.可选的，所述无序样本包括从所述翻译词典中查询得到的目标语言文本单元、以及未出现在所述翻译词典中的预设文本单元。
60.例如，该目标语言的无序样本包括从翻译词典中查询得到的目标语言文本单元例如w_0和w_1、以及未出现在该翻译词典中的预设文本单元例如w_2。
61.s402、根据所述无序样本中每个文本单元在所述无序样本中出现的次数，得到所述无序样本中每个文本单元的第一概率分布。
62.例如，在该目标语言的无序样本中，w_0出现了1次，w_1出现了2次，w_2出现了1次，因此，根据w_0、w_1、w_2分别出现的次数，可以将该目标语言的无序样本转换为该无序样本中每个文本单元的第一概率分布。其中，如上所述的x_0、x_1、x_2、x_3构成的源语言文本还可以记为源语言样本，该第一概率分布可以记为该源语言样本的目标语言概率分布。具体的，该第一概率分布是p＝{w_0:0.25,w_1:0.5,《unk》:0.25}。
63.s403、针对所述源语言文本中的每个源语言文本单元，生成所述源语言文本单元对应的第二概率分布，所述第二概率分布包括所述源语言文本单元分别被翻译为所述翻译词典中每个目标语言文本单元的概率值。
64.例如，针对源语言文本中的每个源语言文本单元，即x_0、x_1、x_2、x_3，生成x_0、x_1、x_2、x_3中每个单词分别对应的第二概率分布。以x_0为例，假设翻译词典中一共包括60个目标语言单词，进一步，可以预测出x_0被翻译为该60个目标语言单词中每个目标语言单词的概率值，从而得到60个概率值，该60个概率值构成x_0对应的第二概率分布。同理，可以计算出x_1、x_2、x_3分别对应的第二概率分布，此处不再赘述。
65.可选的，针对所述源语言文本中的每个源语言文本单元，生成所述源语言文本单元对应的第二概率分布，包括：针对所述源语言文本中的每个源语言文本单元，生成所述源语言文本单元对应的表示向量；将所述源语言文本单元对应的表示向量通过非自回归模型，得到所述源语言文本单元对应的第二概率分布。
66.如图5所示，源语言文本包括x_0、x_1、x_2、x_3。x_0、x_1、x_2、x_3可以分别对应有一个表示向量，例如词向量。将x_0、x_1、x_2、x_3分别对应的词向量输入到非自回归模型中，使得非自回归模型针对每个词向量可以输出一个第二概率分布。
67.s404、对所述每个源语言文本单元分别对应的第二概率分布进行整合，得到第三概率分布。
68.例如图5所示，假设输入给非自回归模型4个词向量，非自回归模型可以输出4个第二概率分布。进一步，采用logsumexp对该4个第二概率分布进行整合，得到一个第三概率分布。
69.s405、根据所述第一概率分布和所述第三概率分布，对监督模型进行训练。
70.例如图5所示，根据上述步骤得到的第一概率分布和第三概率分布计算损失函数，从而对该弱监督模型进行训练。该损失函数具体可以是交叉熵(cross-entropy)损失(loss)函数。
71.在另一些实施例中，根据所述源语言文本和所述翻译词典对监督模型进行训练，包括如图6所示的如下几个步骤：
72.s601、针对所述源语言文本中的每个源语言文本单元，从所述翻译词典中查询与
所述源语言文本单元对应的目标语言文本单元，得到目标语言的无序样本。
73.具体的，s601和s401的实现方式和具体原理一致，此处不再赘述。
74.可选的，所述无序样本包括从所述翻译词典中查询得到的目标语言文本单元、以及未出现在所述翻译词典中的预设文本单元。
75.例如，该目标语言的无序样本包括从翻译词典中查询得到的目标语言文本单元例如w_0和w_1、以及未出现在该翻译词典中的预设文本单元例如w_2。
76.s602、根据所述无序样本中每个文本单元在所述无序样本中出现的次数，得到所述无序样本中每个文本单元的第一概率分布。
77.具体的，s602和s402的实现方式和具体原理一致，此处不再赘述。例如，该第一概率分布是p＝{w_0:0.25,w_1:0.5,《unk》:0.25}。
78.s603、根据预设值对所述第一概率分布进行归一化处理，得到归一化处理后的第一概率分布，所述预设值表示从源语言文本到目标语言文本的翻译过程中，所述源语言文本中不需要被翻译的文本单元的占比，所述归一化处理后的第一概率分布中包括所述预设值。
79.例如，本实施例还可以新增一个超参数alpha，该超参数可以是一个预设值。具体的，该预设值表示从源语言文本到目标语言文本的翻译过程中，所述源语言文本中不需要被翻译的文本单元的占比。具体的，在源语言、目标语言的语种固定的情况下，该超参数的初始值也是固定的，但是，该超参数是可以进一步被调整的。例如，该超参数的初始值可以是0.5，进一步，可以将该超参数调整为0.4、0.3等数值。具体的，根据每个超参数，可以分别训练出一个弱监督模型，进一步，根据每个弱监督模型的质量，选出一个质量最好的弱监督模型作为最终的弱监督模型。具体的，该超参数的初始值可以是经验值、统计值，该超参数所能反映的是从源语言文本到目标语言文本的翻译过程中，源语言文本中有多大比例的单词是不需要被翻译的。具体的，不需要被翻译的单词可以记为特殊词《blank》，也就是说，该超参数是特殊词《blank》的先验概率分布。进一步，根据该超参数对第一概率分布p＝{w_0:0.25,w_1:0.5,《unk》:0.25}进行归一化处理。例如，当alpha＝0.5时，归一化处理后的第一概率分布是p＝{w_0:0.125,w_1:0.25,《unk》:0.125，《blank》:0.5}。
80.s604、针对所述源语言文本中的每个源语言文本单元，生成所述源语言文本单元对应的第二概率分布，所述第二概率分布包括所述源语言文本单元分别被翻译为所述翻译词典中每个目标语言文本单元的概率值。
81.具体的，s604和s403的实现方式和具体原理一致，此处不再赘述。例如图5所示的非自回归模型输出的每个第二概率分布可以是词级别(token-level)概率分布。
82.可选的，所述每个源语言文本单元分别对应的第二概率分布还包括所述源语言文本单元不需要被翻译的概率值。
83.例如，以x_0为例，当x_0对应的词向量输入到非自回归模型时，非自回归模型输出的第二概率分布不仅包括x_0被翻译为该60个目标语言单词中每个目标语言单词的概率值，同时，该第二概率分布还可以包括x_0不需要被翻译的概率值。也就是说，每个第二概率分布可以是一个61维的数组。
84.s605、对所述每个源语言文本单元分别对应的第二概率分布进行整合，得到第三概率分布。
85.具体的，s605和s404的实现方式和具体原理一致，此处不再赘述。具体的，第三概率分布也可以是61维的数组。
86.s606、根据所述归一化处理后的第一概率分布和所述第三概率分布，对监督模型进行训练。
87.可以理解的是，上述归一化处理后的第一概率分布是p＝{w_0:0.125,w_1:0.25,《unk》:0.125，《blank》:0.5}，可见，当前归一化处理后的第一概率分布是4维的，进一步，可以在4维的基础上，填充0，使得归一化处理后的第一概率分布可以扩展为61维。具体填充的方式此处不限，但是，需要保证归一化处理后的第一概率分布中每个概率值所处的位置与第三概率分布中每个概率值所处的位置相互对应，例如，w_0对应的概率值在归一化处理后的第一概率分布中所处的位置与w_0对应的概率值在第三概率分布中所处的位置保持一致。
88.本实施例提供了一种基于零资源的机器翻译模型训练方法，只需要利用翻译词典，结合弱监督技术和自训练技术，就可以训练得到一个可用的机器翻译系统。克服了传统方法中依赖pivot language的问题，该方法可适用于零资源或低资源的场景，能很好的提升基于零资源或低资源的机器翻译系统的准确率。
89.图7为本公开实施例提供的翻译模型训练装置的结构示意图。本公开实施例提供的翻译模型训练装置可以执行翻译模型训练方法实施例提供的处理流程，如图7所示，翻译模型训练装置70包括：
90.生成模块71，用于根据源语言文本和翻译词典，生成目标语言文本，所述翻译词典包括源语言文本单元与目标语言文本单元之间的对应关系；
91.替换模块72，用于将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本；
92.训练模块73，用于根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。
93.可选的，翻译模型训练装置70还包括：确定模块74，用于替换模块72将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元之前，根据所述目标语言文本中未出现在所述翻译词典中的预设文本单元的上下文，确定所述预设文本单元对应的目标文本单元。
94.可选的，生成模块71包括训练单元711和生成单元712，训练单元711用于根据所述源语言文本和所述翻译词典对监督模型进行训练，得到训练后的监督模型；生成单元712用于根据所述训练后的监督模型生成与所述源语言文本对应的目标语言文本。
95.可选的，训练单元711包括：查询子单元7111、统计子单元7112、生成子单元7113、整合子单元7114、训练子单元7115。
96.查询子单元7111用于针对所述源语言文本中的每个源语言文本单元，从所述翻译词典中查询与所述源语言文本单元对应的目标语言文本单元，得到目标语言的无序样本；
97.统计子单元7112用于根据所述无序样本中每个文本单元在所述无序样本中出现的次数，得到所述无序样本中每个文本单元的第一概率分布；
98.生成子单元7113用于针对所述源语言文本中的每个源语言文本单元，生成所述源语言文本单元对应的第二概率分布，所述第二概率分布包括所述源语言文本单元分别被翻
译为所述翻译词典中每个目标语言文本单元的概率值；
99.整合子单元7114用于对所述每个源语言文本单元分别对应的第二概率分布进行整合，得到第三概率分布；
100.训练子单元7115用于根据所述第一概率分布和所述第三概率分布，对监督模型进行训练。
101.可选的，所述无序样本包括从所述翻译词典中查询得到的目标语言文本单元、以及未出现在所述翻译词典中的预设文本单元。
102.可选的，训练单元711还包括：归一化处理子单元7116，用于统计子单元7112根据所述无序样本中每个文本单元在所述无序样本中出现的次数，得到所述无序样本中每个文本单元的第一概率分布之后，根据预设值对所述第一概率分布进行归一化处理，得到归一化处理后的第一概率分布，所述预设值表示从源语言文本到目标语言文本的翻译过程中，所述源语言文本中不需要被翻译的文本单元的占比，所述归一化处理后的第一概率分布中包括所述预设值；相应的，所述每个源语言文本单元分别对应的第二概率分布还包括所述源语言文本单元不需要被翻译的概率值；训练子单元7115具体用于：根据所述归一化处理后的第一概率分布和所述第三概率分布，对监督模型进行训练。
103.可选的，生成子单元7113具体用于：针对所述源语言文本中的每个源语言文本单元，生成所述源语言文本单元对应的表示向量；将所述源语言文本单元对应的表示向量通过非自回归模型，得到所述源语言文本单元对应的第二概率分布。
104.图7所示实施例的翻译模型训练装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
105.以上描述了翻译模型训练装置的内部功能和结构，该装置可实现为一种电子设备。图8为本公开实施例提供的电子设备实施例的结构示意图。如图8所示，该电子设备包括存储器81和处理器82。
106.存储器81用于存储程序。除上述程序之外，存储器81还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。
107.存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
108.处理器82与存储器81耦合，执行存储器81所存储的程序，以用于：
109.根据源语言文本和翻译词典，生成目标语言文本，所述翻译词典包括源语言文本单元与目标语言文本单元之间的对应关系；
110.将所述目标语言文本中未出现在所述翻译词典中的预设文本单元替换为目标文本单元，得到更新后的目标语言文本；
111.根据所述源语言文本和所述更新后的目标语言文本，对翻译模型进行训练。
112.进一步，如图8所示，电子设备还可以包括：通信组件83、电源组件84、音频组件85、显示器86等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。
113.通信组件83被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件83经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件83还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
114.电源组件84，为电子设备的各种组件提供电力。电源组件84可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。
115.音频组件85被配置为输出和/或输入音频信号。例如，音频组件85包括一个麦克风(mic)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器81或经由通信组件83发送。在一些实施例中，音频组件85还包括一个扬声器，用于输出音频信号。
116.显示器86包括屏幕，其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。
117.另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的翻译模型训练方法。
118.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
119.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈谦王雯
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：一种新型畜牧业养殖食槽的制作方法
上一篇：一种多DAB模块ISOP连接方式下的故障冗余处理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。