模型训练方法、机器翻译方法以及相关装置和设备与流程

文档序号：18526095发布日期：2019-08-24 10:15阅读：273来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及计算机技术领域，尤其涉及一种神经网络模型训练方法、一种机器翻译方法、神经网络模型训练装置、机器翻译装置、设备以及以及计算机可读存储介质。

背景技术：

近年来，注意力机制(attentionmechanism)被广泛应用于基于深度学习的自然语言处理(neturallanguageprocessing，nlp)各个任务中，例如机器翻译、智能问答、语音识别等任务。

目前应用比较广泛的是多头注意力(multi-headedattention)机制，所谓多头注意力机制是指通过多个注意力网络学习不同特征，即通过计算多次来捕获不同子空间上的相关信息。

但目前基于多头注意力机制的模型在训练过程中，将各个子空间独立对待，其并不关注各个子空间之间的关联关系，因此目前基于多头注意力机制的模型的学习表征能力还比较弱。

技术实现要素：

本申请实施例提供了一种神经网络模型训练方法，保证训练得到的神经网络模型能够对其中多个注意力网络各自的输出向量进行充分地交互，学习到包含更多信息的特征，从而增强模型的学习表征能力。

第一方面，本申请实施例提供了一种神经网络模型训练方法，包括：

获取训练样本集，所述训练样本集包括训练样本及其对应的标准标签向量；

将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；

通过所述神经网络模型，对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；

获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；

根据训练样本对应的预测标签向量与标准标签向量的对比结果，对所述神经网络模型的模型参数进行迭代调整，直到满足收敛条件，得到目标神经网络模型。

第二方面，本申请实施例提供了一种机器翻译方法，包括：

获取待翻译内容；

通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型根据上述第一方面所述的模型训练方式训练得到的；

显示所述翻译结果。

第三方面，本申请实施例提供了一种神经网络模型训练装置，包括：

获取模块，用于获取训练样本集，所述训练样本集包括各个训练样本及其对应的标准标签向量；

输入模块，用于将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；

特征融合向量生成模块，用于对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；

预测标签向量获取模块，用于获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；

获得模块，用于根据训练样本对应的预测标签向量与标准标签向量的对比结果，对所述神经网络模型的模型参数进行迭代调整，直到满足收敛条件，得到目标神经网络模型。

第四方面，本申请实施例提供了一种机器翻译装置，包括：

获取模块，用于获取待翻译内容；

翻译模块，用于通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型根据上述第一方面所述的模型训练方式训练得到的；

显示模块，用于显示所述翻译结果。

第五方面，本申请实施例提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的神经网络模型训练方法。

第六方面，本申请实施例提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储机器翻译模型，所述机器翻译模型是根据上述第一方面所述的神经网络模型训练方法训练得到的；

所述处理器用于运行所述机器翻译模型，以获得与待翻译内容对应的翻译结果。

第七方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面所述的神经网络模型训练方法训练得到的。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种神经网络模型训练方法，在该方法中，先获取包括有训练样本以及其对应的标准标签向量的训练样本集；然后，将该训练样本集中的训练样本输入神经网络模型中，该神经网络模型包括多个注意力网络；接着，通过该神经网络模型，对多个注意力网络各自的输出向量进行非线性变换，得到多个注意力网络对应的特征融合向量；进而，获取神经网络模型根据特征融合向量输出的训练样本对应的预测标签向量，根据该预测标签向量与标准标签向量的对比结果，对神经网络模型的模型参数进行调整，直到满足收敛条件，得到目标神经网络模型。在上述训练方法中，对多个注意力网络各自的输出向量进行融合时，采用了非线性变换的方式将各个注意力网络各自的输出向量融合得到特征融合向量，相比现有技术中通过对各个注意力网络各自的输出向量进行拼接得到特征融合向量，这种非线性变换的方式考虑了各个注意力网络的输出向量之间的复杂关系，能够使得各个注意力网络各自的输出向量充分交互，从而生成更有信息量的特征融合特征向量，进而保证最终的输出表示效果更好，基于该训练方法使得训练得到的神经网络模型具有更强地学习能力。

附图说明

图1为本申请实施例提供的神经网络模型训练方法的应用场景示意图；

图2为本申请实施例提供的神经网络模型训练方法的流程示意图；

图3为本申请实施例提供的一种非线性变换方式的流程示意图；

图4为本申请实施例提供的一种非线性变换方式的原理示意图；

图5为本申请实施例提供的另一种非线性变换方式的流程示意图；

图6为本申请实施例提供的另一种非线性变换方式的原理示意图；

图7为本申请实施例提供的又一种非线性变换方式的流程示意图；

图8为本申请实施例提供的又一种非线性变换方式的原理示意图；

图9a为本申请实施例提供的一种机器翻译模型的结构示意图；

图9b为本申请实施例提供的一种机器翻译方法的流程示意图；

图10为本申请实施例提供的一种神经网络模型训练装置的结构示意图；

图11为本申请实施例提供的一种特征融合向量生成模型的结构示意图；

图12为本申请实施例提供的另一种特征融合向量生成模型的结构示意图；

图13为本申请实施例提供的又一种特征融合向量生成模型的结构示意图；

图14为本申请实施例提供的一种机器翻译装置的结构示意图；

图15为本申请实施例提供的一种服务器的结构示意图；

图16为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，在对基于多头注意力机制的模型进行训练的过程中，通常采用线性拼接的方式，将模型中多个注意力网络各自的输出向量直接拼接起来，获得多个注意力网络对应的特征融合向量。然而，这种线性拼接的方式不能有效地建模各个子空间之间的复杂关系，也不能提取各个特征之间的互补关系，是一种低效的特征融合机制。

为了解决上述现有技术存在的问题，本申请实施例提供了一种神经网络模型训练方法，保证训练得到的神经网络模型能够对其中多个注意力网络各自的输出向量进行充分地交互，从而产生更换的最终输出表示。

下面先对本申请实施例提供的神经网络模型训练方法的核心技术思路进行介绍：

在该神经网络模型训练方法中，先获取训练样本集，该训练样本集中包括训练样本及其对应的标准标签向量；然后，将该训练样本集中的训练样本输入至神经网络模型，该神经网络模型包括多个注意力网络；接着，通过该神经网络模型对多个注意力网络各自的输出向量进行非线性变换，得到多个注意力网络对应的特征融合向量；进而，获取神经网络模型根据特征融合向量输出的训练样本对应的预测标签向量，根据该训练样本对应的预测标签向量与标准标签向量的对比结果，对神经网络模型的模型参数进行迭代调整，直至满足收敛条件，得到目标神经网络模型。

在上述神经网络模型训练方法中，通过神经网络模型对多个注意力网络各自的输出向量进行融合时，采用了非线性变换的方式将各个注意力网络各自的输出向量融合起来得到特征融合向量，相比现有技术中通过对各个注意力网络各自的输出向量进行线性拼接得到特征融合向量，这种非线性变换的方式考虑了各个注意力网络的输出向量之间的复杂关系，使得各个注意力网络的输出向量能够充分交互，从而生成更有信息量的特征融合特征向量，进而保证最终的输出表示效果更好。

需要说明的是，基于注意力机制的神经网络模型目前已被广泛地应用于各种应用场景，如机器翻译、图像注释、智能问答、语音识别等，当需要针对某种应用场景开发能够实现特定功能的神经网络模型时，即可获取该应用场景下的相关数据作为训练样本集，采用本申请实施例提供的神经网络模型训练方法，利用上述训练样本集相应地训练适用于该应用场景的神经网络模型。

应理解，本申请实施例提供的神经网络模型训练方法可以应用于具备模型训练功能的设备，如终端设备、服务器等。其中，终端设备具体可以为智能手机、计算机、个人数字助理(personaldigitalassitant，pda)、平板电脑等；服务器具体可以为应用服务器，也可以为web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。

在实际应用中，终端设备和服务器可以单独训练神经网络模型，也可以彼此交互训练神经网络模型，二者交互训练神经网络模型时，终端设备可以从服务器处获取训练样本集，进而利用该训练样本集对神经网络模型进行训练，或者，服务器可以从终端处获取训练样本集，利用该训练样本集对神经网络模型进行训练。

应理解，终端设备或服务器执行本申请实施例提供的神经网络模型训练方法，训练得到目标神经网络模型后，可以将该目标神经网络模型发送至其他终端设备，以在这些终端设备上运行上述目标神经网络模型，实现相应的功能；也可以将该目标神经网络模型发送至其他服务器，以在其他服务器上运行上述目标神经网络模型，通过这些服务器实现相应的功能。

为了便于理解本申请实施例提供的技术方案，下面以服务器训练神经网络模型为例，结合实际应用场景对本申请实施例提供的神经网络模型训练方法进行介绍。

参见图1，图1为本申请实施例提供的神经网络模型训练方法的应用场景示意图。该场景中包括终端设备101和用于训练神经网络模型的服务器102，终端设备101和服务器102通过网络连接。其中，终端设备101能够为服务器提供训练样本以及训练样本对应的标准标签。

服务器102通过网络从终端设备101处获取到训练样本以及训练样本对应的标准标签后，将各个标准标签相应地转换为标准标签向量，服务器102将所获取的所有训练样本以及其对应的标准标签向量作为训练样本集；然后，将该训练样本集输入至神经网络模型中，该神经网络模型包括多个注意力网络；服务器102通过该神经网络模型，对多个注意力网络各自的输出向量进行非线性变换，得到多个注意力网络对应的特征融合向量；进而，获取神经网络模型根据该特征融合向量输出的训练样本对应的预测标签向量；最终，服务器102根据训练样本对应的标准标签向量和预测标签向量之间的对比结果，对神经网络模型的模型参数进行迭代调整，直到神经网络模型满足收敛条件，得到目标神经网络模型。

服务器102生成目标神经网络模型后，可以进一步将该目标神经网络模型发送至终端设备101，以在终端设备上运行该目标神经网络模型，利用这些目标神经网络模型实现相应的功能。

需要说明的是，服务器102在训练神经网络模型的过程中，采用了非线性变换的方式将各个注意力网络各自的输出向量融合起来，这种通过非线性变换融合输出向量的方式考虑了各个注意力网络的输出向量之间的复杂关系，使得各个注意力网络的输出向量能够充分交互，从而生成更有信息量的特征融合特征向量，进而保证最终的输出表示效果更好。

需要说明的是，上述图1所示的应用场景仅为一种示例，在实际应用中，本申请实施例提供的神经网络模型训练方法还可以应用于其他应用场景，在此不对该神经网络模型训练方法的应用场景做任何限定。

下面通过实施例对本申请提供的神经网络模型训练方法进行介绍。

参见图2，图2为本申请实施例提供的一种神经网络模型训练方法的流程示意图。为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该神经网络模型训练方法的执行主体并不仅限于服务器，还可以应用于终端设备等具备模型训练功能的设备。如图2所示，该神经网络模型训练方法包括以下步骤：

步骤201：获取训练样本集，该训练样本集包括训练样本及其对应的标准标签向量。

服务器获取训练样本集，以利用该训练样本集中的训练样本对神经网络模型进行训练；该训练样本集中通常包括多个训练样本以及这些训练样本各自对应的标准标签向量，该标准标签向量是根据训练样本对应的标准标签生成的。

具体实现时，服务器可以从相关数据库中获取若干历史数据，将所获取的若干历史数据作为训练样本集。应理解，当本申请实施例提供的神经网络模型训练方法的执行主体为终端设备时，终端设备可以向服务器发起获取历史数据的请求，从服务器处获取若干历史数据作为训练样本集。

可选的，上述训练样本包括但不限于待翻译的文本、视频、音频中的至少一种，该训练样本对应的标准标签为标准翻译文本。

当训练样本为待翻译的文本时，该训练样本对应的标准标签即为该待翻译的文本对应的标准翻译文本。若作为训练样本的待翻译的文本为中文，需要将该待翻译的文本翻译为对应的英文，则该训练样本对应的标准标签即为英文标准翻译文本，例如，作为训练样本的待翻译文本为中文“我爱你”，则该训练样本对应的标准标签为“iloveyou”；若作为训练样本的待翻译的文本为英文，需要将该待翻译的文本翻译为对应的中文，则该训练样本对应的标准标签为中文标准翻译文本，例如，作为训练样本的待翻译文本为英文“iloveyou”，则该训练样本对应的标准标签为“我爱你”。

当训练样本为待翻译的视频时，其通常应用于在图像注释的应用场景，该训练样本对应的标准标签为标准翻译文本，该标准翻译文本是与待翻译的视频呈现的场景对应的文本信息；例如，作为训练样本的待翻译的视频呈现的场景为一位老师正在教室里给学生上课，则该训练样本对应的标准标签为“老师在教室里上课”。应理解，此处的待翻译的视频可以为静态视频帧，也可以为动态视频帧。

当训练样本为待翻译的音频时，该训练样本对应的标准标签仍为标准翻译文本，该标准翻译文本是用于与待翻译的音频对应的文本信息；例如，作为训练样本的待翻译的音频是“我很好，谢谢”，相应地，该训练样本对应的标准标签可以为“我很好，谢谢”或“iamfine，thankyou”，该标准标签可以根据神经网络模型所要实现的具体功能来确定。

需要说明的是，上述训练样本以及其对应的标签仅为几种示例，在实际应用中，还可以采集其他数据作为训练样本，并获取该训练样本对应的标准标签，进而根据该标准标签确定该训练样本对应的标准标签向量。

需要说明的是，上述训练样本中通常由一组有序排列的元素组成，即该训练样本可以表现为元素序列，以包括i个元素的训练样本为例，训练样本可以表示为x＝{x1,x2,x3,……,xi}，该训练样本的长度为i；例如，若作为训练样本的待翻译的文本为“今天是星期一”，相应地，该训练样本可以表现为{今，天，是，星，期，一}；又例如，若作为训练样本的待翻译的文本为“todayismonday”，相应地，该训练样本可以表现为{today，is，monday}。

步骤202：将训练样本集中的训练样本输入神经网络模型中，该神经网络模型包括多个注意力网络。

服务器获取到训练样本集后，将训练样本集中的样本逐一输入神经网络模型，以利用训练样本集中的训练样本对神经网络模型进行训练，该神经网络模型为预先搭建好的网络模型，其中包括多个注意力网络，多个注意力网络是用来捕获不同特征信息的网络。

需要说明的是，上述神经网络模型可以为循环神经网络模型(recurrentneuralnetwork，rnn)、神经网络机器翻译模型(neuralmachinetranslation，nmt)、编码器-解码器(encoder-decoder)等神经网络模型，在此不对神经网络模型的结构做具体限定。

需要说明的是，各个注意力网络分别对应不同的子空间，即子空间与注意力网络呈一一对应的关系，各个子空间通过对输入的元素序列相应地进行注意力函数运算，输出对应的请求(query)向量序列、键(key)向量序列和值(value)向量序列；上述注意力函数具体可以为线性变换，线性变换可以将属于一个向量空间的向量映射至另一个向量空间，向量空间是由相同维度的多个向量构成的集合。

具体实现时，服务器将训练样本集中的训练样本输入神经网络模型后，神经网络模型可以利用其中的第一层网络结构，将训练样本对应的元素序列转换成对应的源端向量序列，即将离散的元素转换成连续的空间表示，该源端向量序列由训练样本对应的元素序列中的每个元素对应的源端向量构成，该源端向量序列可以表现为z＝{z1,z2,z3,……,zi}。例如，神经网络模型的第一层网络结构将训练样本对应的元素序列中的第i个元素xi转换为一个d维的列向量zi，进而，将元素序列中各个元素各自对应的列向量组合起来，得到对应于该训练样本的源端向量，其为由i个d维的列向量构成的向量序列。

在一种可能的实现方式中，神经网络模型将训练样本转换为其对应的源端向量序列后，神经网络模型中的各个注意力网络可以分别将源端向量序列映射至各个不同的子空间，通过各个子空间对源端向量序列进行注意力函数运算，得到其对应的请求向量序列、键向量序列和值向量序列。假设各个注意力网络包括i个子空间，各个子空间包括三个不同的可学习参数矩阵wi^q、wi^k和wi^v，利用这三个可学习参数矩阵对源端向量序列进行线性变换，得到请求向量序列qi、键向量序列ki和值向量序列vi，具体线性变换的过程如下所示：

qi＝zi*wi^q

ki＝zi*wi^k

vi＝zi*wi^v

其中，第i个子空间输出的请求向量序列q、键向量序列k和值向量序列v分别为qi、ki和vi；训练样本x＝{x1,x2,x3,……,xi}包括i个元素，源端向量序列z＝{z1,z2,z3,……,zi}中的各个元素为d维列向量，即z为i个d维向量构成的向量序列，可记为i*d的矩阵；可学习参数矩阵wi^q、wi^k和wi^v为d*d的矩阵，则请求向量序列q、键向量序列k和值向量序列v为i*d的矩阵。

在另一种可能的实现方式中，神经网络模型将训练样本转换为其对应的源端向量序列后，神经网络模型先利用三个不同的可学习参数矩阵w^q、w^k和w^v对源端向量序列z进行线性变换，得到请求向量基本序列q、键向量基本序列k和值向量基本序列v，具体线性变换的过程如下：

q＝z*w^q

k＝z*w^k

v＝z*w^v

其中，训练样本x＝{x1,x2,x3,……,xi}包括i个元素；源端向量序列z＝{z1,z2,z3,……,zi}中各个元素为d维列向量，即z为i个d维列向量构成的向量序列，可记为i*d的矩阵；可学习参数矩阵wi^q、wi^k和wi^v为d*d的矩阵，则请求向量基本序列q、键向量基本序列k和值向量基本序列v为i*d的矩阵。

再通过神经网络中的各个注意力网络分别将请求向量基本序列q、键向量基本序列k和值向量基本序列v分别映射至各个子空间，通过对各个子空间对请求向量基本序列q、键向量基本序列k和值向量基本序列v进行注意力函数运算，得到对应的请求向量序列q、键向量序列k和值向量序列v，具体计算过程如下：

qi＝q*wi^q

ki＝k*wi^k

vi＝v*wi^v

第i个子空间输出的请求向量序列q、键向量序列k和值向量序列v分别为qi、ki和vi；其中，各个子空间的可学习参数矩阵wi^q、wi^k和wi^v并不相同。

获得各个子空间各自对应的请求向量序列、键向量序列和值向量序列后，在各个子空间中，可以分别使用点积来建模请求与每个键-值对之间的逻辑相似度，具体计算逻辑相似度e的公式如下：

其中，ei为第i个子空间对应的逻辑相似度，为第i个子空间的键向量序列ki的转置，qi为第i个子空间的请求向量序列，d为神经网络模型隐藏状态向量的维度，该d为固定的参数。

然后，再利用对点积计算得到的逻辑相似度进行softmax非线性变换，将逻辑相似度转换为请求与每个键-值对之间的权重关系，具体将逻辑相似度转换为权重关系的公式如下：

αi＝softmax(ei)

其中，αi为第i个子空间对应的权重关系，ei为第i个子空间对应的逻辑相似度。

进而，利用经上述计算得到的权重关系，相应地对各个子空间对应的值向量序列进行加权处理，得到各个子空间各自对应的输出向量，该输出向量即为注意力网络的输出向量，具体加权处理的公式如下：

oi＝αi·vi

其中，oi为第i个子空间对应的输出向量，即为第i个注意力网络对应的输出向量，αi为第i个子空间对应的权重关系，vi为第i个子空间对应的值向量序列。

步骤203：通过上述神经网络模型，对多个注意力网络各自的输出向量进行非线性变换，得到多个注意力网络对应的特征融合向量。

神经网络模型获得各个注意力网络各自对应的输出向量后，进一步对各个注意力网络各自的输出向量进行非线性变换，以通过非线性变换使得各个注意力网络的输出向量进行充分地交互，从而得到更有信息量的特征融合向量。

本申请从结构简单易于建模，以及尽可能地减少额外的计算资源等角度出发，主要提供了三种非线性变换方式对多个注意力网络各自的输出向量进行融合，分别是：应用卷积对多个注意力网络各自的输出向量组成的特征图进行特征融合，应用双线性模型对多个注意力网络各自的输出向量进行特征融合，以及同时应用双线性模型和向量拼接对多个注意力网络各自的输出向量进行特征融合。下面将在后续的实施例中，对这三种非线性变换方式进行具体介绍。

应理解，在实际应用中，也可以采用其他非线性变换的方式对多个注意力网络各自的输出向量融合起来，得到特征融合向量，在此不对所能够采用的非线性变换方式做具体限定。

步骤204：获取神经网络模型根据特征融合向量输出的训练样本对应的预测标签向量。

服务器通过神经网络模型，得到多个注意力网络对应的特征融合向量后，进一步利用该神经网络模型，对特征融合向量做相应的处理，以根据该特征融合向量生成训练样本对应的预测标签向量，对该预测标签向量做进一步转换即可得到预测标签。

应理解，预测标签与上述标准标签属于同一类型的数据，例如，若标准标签为训练样本对应的标准翻译中文文本，则预测标签则为该神经网络模型经过对训练样本进行一系列处理而得到的中文文本。相应地，预测标签向量与标准标签向量的数据类型也属于同一类型，因此，二者之间可以进行对比。

步骤205：根据训练样本对应的预测标签向量与标准标签向量的对比结果，对神经网络模型的模型参数进行迭代调整，直到满足收敛条件，得到目标神经网络模型。

服务器获取到神经网络模型输出的预测标签向量后，进一步，将该训练样本对应的预测标签向量与该训练样本对应的标准标签向量进行对比，确定预测标签向量与标准标签向量之间的对比结果，进而，根据该对比结果对神经网络模型的模型参数进行迭代调整，通过对模型参数进行迭代调整，使得神经网络模型逐步趋于收敛，即逐步优化神经网络模型的性能，当神经网络模型满足收敛条件时，即当神经网络模型的性能达到预设标准时，即可根据当前神经网络模型的模型结构以及模型参数，确定目标神经网络模型。

具体对神经网络模型的模型参数进行调整时，服务器可以根据训练样本对应的预测标签向量与该训练样本对应的标准标签向量的对比结果，确定损失函数；以该损失函数最小化为目标，对该神经网络模型的模型参数进行迭代调整；当损失函数最小化时，则可确定当前神经网络模型已满足收敛条件，则将当前神经网络模型作为目标神经网络模型。

具体判断上述神经网络模型是否满足收敛条件时，可以利用测试样本对第一模型进行验证，该第一模型是利用训练样本集中的训练样本对神经网络模型进行第一轮训练优化得到的模型；具体的，服务器将测试样本输入该第一模型，利用该第一模型对测试样本进行相应地处理，在处理的过程中，第一模型对多个注意力网络各自的输出向量进行非线性变换，得到多个注意力网络对应的特征融合向量，根据该特征融合向量生成该测试样本对应的预测标签向量；进而，根据该预测标签向量与该测试样本对应的标准标签向量计算预测准确率，当该预测准确率大于第一预设阈值时，即可认为该第一模型满足收敛条件，此时的模型性能较好，已能够满足实际需求，相应地，可以根据该第一模型的模型参数和模型结构生成目标神经网络模型。

此外，判断神经网络模型是否满足收敛条件时，还可以根据经多轮训练得到的多个模型，确定是否继续对神经网络模型进行训练，以获得模型性能最优的神经网络模型。具体的，可以利用测试样本分别对经多轮训练得到多个神经网络模型进行验证，判断经各轮训练得到的神经网络模型的预测准确率之间的差距是否小于第二预设阈值，若小于，则认为神经网络模型的性能已没有提升空间，可以选取预测准确率最高的神经网络模型作为目标神经网络模型；反之，若大于，则认为神经网络模型的性能还有提升空间，可继续对该神经网络模型进行训练，直到获得模型性能最稳定且最优的神经网络模型。

需要说明的是，上述第一预设阈值和第二预设阈值均可以根据实际情况进行设定，在此不对该第一预设阈值和第二预设阈值做具体限定。

在上述神经网络模型训练方法中，通过神经网络模型对多个注意力网络各自的输出向量进行融合时，采用了非线性变换的方式将各个注意力网络各自的输出向量融合起来得到特征融合向量，相比现有技术中通过对各个注意力网络各自的输出向量进行线性拼接得到特征融合向量，这种非线性变换的方式考虑了各个注意力网络的输出向量之间的复杂关系，使得各个注意力网络的输出向量能够充分交互，从而生成更有信息量的特征融合向量，进而保证最终的输出表示效果更好。

在上述实施例中提到了，本申请实施例提供的神经网络训练方法将多个注意力网络各自的输出向量融合为对应的特征融合向量时，采用了非线性变换的方式，并且，本申请主要提供了三种非线性变换的方式：第一种是应用卷积对多个注意力网络各自的输出向量组成的特征图进行特征融合，第二种是应用双线性模型对多个注意力网络各自的输出向量进行特征融合，第三种是同时应用双线性模型和向量拼接对多个注意力网络各自的输出向量进行特征融合，下面将通过实施例对这三种非线性变换的方式分别做具体介绍。

首先，对上述第一种非线性变换的方式(即应用卷积对多个注意力网络各自的输出向量组成的特征图进行特征融合)做具体介绍。参见图3，图3为该种非线性变换方式对应的流程示意图。如图3所示，该方法包括：

步骤301：将多个注意力网络各自的输出向量并排堆叠成一张二维的特征图。

神经网络模型获取到多个注意力网络各自的输出向量后，将各个输出向量进行并排堆叠(stack)，得到一张二维的特征图。为了便于理解，下面结合图4对本实施例中各个步骤的实现过程进行介绍，图4为该种非线性变换方式对应的原理示意图，如图4所示，其中的401、402和403分别为各个注意力网络的输出向量，在步骤301中，神经网络模型采用并排堆叠的方式将输出向量401、输出向量402和输出向量403堆叠为一张二维的特征图404。

应理解，图4所示仅为一种示例，在实际应用中，神经网络模型所包括的注意力网络不仅限于3个，相应地，对应于注意力网络的输出向量也不仅限于3个；也就是说，在实际应用中，神经网络模型可以采用上述并排堆叠的方式将若干个输出向量堆叠为二维特征图，在此不对输出向量的数量做任何限定。

步骤302：通过卷积神经网络所该特征图提取特征得到三维张量。

进而，神经网络模型通过卷积网络，对上述并排堆叠各个输出向量得到的二维的特征图进行特征提取，得到与之对应的三维张量。如图4所示，神经网络模型通过对由输出向量并排堆叠组成的二维的特征图404进行卷积处理，提取该二维的特征图404的特征，得到三维张量405。

在一种可能的实现方式中，神经网络模型可以采用卷积神经网络对特征图进行卷积操作得到三维张量。卷积神经网络是一种前馈神经网络，其中的人工神经元可以相应周围单元，对特征图进行卷积处理，从而提取特征图的特征，得到三维张量。

在另一种可能的实现方式中，为了保证针对不同大小的特征图，最后输出的三维张量对应的维度均相同，神经网络模型还可以采用卷积神经网络对特征图进行卷积和池化操作得到三维张量。也就是说，相比于上一种实现方式，在卷积神经网络中增加了池化层，以利用该池化层对卷积层的输出做降采样处理，池化的过程实际上是对卷积层分区域求最大值或者对每个卷积层求最大值的处理过程。

需要说明的是，为了控制卷积神经网络引入的额外参数和训练开销，可以仅利用包括一层卷积层的卷积神经网络执行上述步骤302；当然，为了获得更好的特征提取效果，也可以采用包括多层卷积层的卷积神经网络执行上述步骤302，在此不对所采用的卷积神经网络中包括的卷积层的数目做任何限定。

步骤303：将三维张量序列化处理得到一个一维向量。

经卷积神经网络处理得到三维张量后，神经网络模型进一步对该三维张量做序列化处理，将该三维张量拉成为一个一维向量。如图4所示，神经网络模型对三维张量405进行序列化处理，将其拉成一个一维向量406。

步骤304：对一维向量作线性变换得到多个注意力网络对应的特征融合向量。

最终，对上述经步骤303获得的一维向量做线性变换，从而得到多个注意力网络对应的特征融合向量。

上述应用卷积对多个注意力网络各自的输出向量组成的特征图进行特征融合的方式，借鉴了卷积神经网络在抽取图像特征上的成功，将其应用于对多个注意力网络各自的输出向量进行特征融合，从而使得各个注意力网络各自的输出向量能够充分地交互，从而生成更有信息量的特征融合向量，进而保证最终的输出表示更好。

由于卷积属于一种局部操作，只有局部的特征元素能够通过卷积层中的卷积核进行直接交互，因此，为了使得多个注意力网络各自的输出向量中的所有元素均能直接交互，本申请实施例还提供了第二种非线性变换方式，即应用双线性模型对多个注意力网络各自的输出向量进行特征融合，双线性模型由一个外积操作和一个线性映射组成，其能够保证对各个注意力网络各自的输出向量中的所有元素均能有二阶的完全交互。

参见图5，图5为该种非线性变换方式对应的流程示意图。如图5所示，该方法包括：

步骤501：将多个注意力网络各自的输出向量进行拼接得到第一向量。

神经网络模型获取到各个注意力网络各自的输出向量后，将各个注意力网络的输出向量拼接起来得到第一向量，例如，若神经网络模型中包括3个注意力网络，且各个注意力网络的输出向量均为10*10的向量，则将各个注意力网络的输出向量拼接起来将获得一个10*30的第一向量。

假设各个注意力网络各自的输出向量分别为o1、o2、……、oh，则将这些输出向量拼接起来得到第一向量的实现公式如下：

其中，[]表示向量拼接。

为了便于理解，下面结合图6对本实施例中各个步骤的实现过程进行介绍，图6为该种非线性变换方式对应的原理示意图。如图6所示，其中的601、602和603分别为各个注意力网络的输出向量，在步骤501中，神经网络模型将输出向量601、输出向量602和输出向量603拼接起来，得到第一向量604。

应理解，图6所示仅为一种示例，在实际应用中，神经网络模型所包括的注意力网络不仅限于三个，相应地，对应于注意力网络的输出向量也不仅限于三个；也就是说，在实际应用中，神经网络模型不仅需要将三个输出向量拼接起来，在此不对输出向量的数量做任何限定。

步骤502：对该第一向量进行两次映射分别得到第二向量和第三向量。

进而，神经网络模型对第一向量分别进行两次映射得到第二向量和第三向量，即利用双线性模型对第一向量做两次映射，分别得到第二向量和第三向量。

需要说明的是，神经网络模型可以通过对第一向量进行两次线性映射分别得到第二向量和第三向量，即，对第一向量执行一次线性变换得到第二向量，并对第一向量执行另一次线性变换得到第三向量；当然，也可以通过对第一向量分别进行两次非线性映射得到第二向量和第三向量，即，对第一向量执行一次非线性变换得到第二向量，并对第一向量执行另一次非线性变换得到第三向量；在此不对具体映射方式做任何限定。

当对第一向量做线性映射时，对第一向量做两次线性映射的具体公式如下：

其中，为第二向量，u为第一次线性映射对应的映射参数；为第三向量，v为第二次线性映射对应的映射参数；为第一向量，为第一向量的转置。

如图6所示，利用不同的映射参数u和v分别对第一向量604做线性映射，进而得到第二向量605和第三向量606。

步骤503：将第二向量和第三向量按照元素对应相乘得到第四向量。

然后，神经网络模型将第二向量和第三向量按照元素对应相乘，得到第四向量，通过这种相乘的方式，使得第二向量和第三向量中的各个元素充分交互。

具体计算第四向量的公式如下：

其中，o′为第四向量，为第二向量，为第三向量。

如图6所示，神经网络模型将第二向量605和第三向量606按照元素对应相乘的方式，得到第四向量607。

步骤504：对第四向量进行线性映射得到多个注意力网络对应的特征融合向量。

最终，对第四向量进行线性映射，从而得到对应于神经网络模型中的多个注意力网络的特征融合向量。

具体对第四向量做线性映射的公式如下：

o＝o′*p

其中，o为特征融合向量，o′为第四向量，p为线性映射参数。

如图6所示，神经网络模型对第四向量607进行线性映射处理，最终得到特征融合向量608。

上述应用双线性模型对多个注意力网络各自的输出向量进行特征融合的方式，应用了低阶双线性模型近似原始双线性模型，保证各个注意力网络各自的输出向量中的所有元素彼此之间均能有二阶交互，从而使得各个注意力网络各自的输出向量能够充分地交互，从而生成更有信息量的特征融合向量，进而保证最终的输出表示更好。

发明人经实验研究发现，二阶交互与一阶交互之间具有互相补充促进的关系，相应地，同时考虑二阶交互和一阶交互可能带来更高效的特征融合机制，为此，本申请实施例提供了第三种非线性变换方式，即同时应用双线性模型和向量拼接对多个注意力网络各自的输出向量进行特征融合，从而同时建模多个注意力网络的输出向量所有元素的二阶关系和一阶关系。

参见图7，图7为该种非线性变换方式对应的流程示意图。如图7所示，该方法包括：

步骤701：将多个注意力网络各自的输出向量进行拼接，得到第一向量。

步骤702：对该第一向量进行两次映射分别得到第二向量和第三向量。

步骤703：将第二向量和第三向量按照元素对应相乘得到第四向量。

上述步骤701至步骤703的具体实现过程与图5所示步骤501至步骤503的具体实现过程相类似，详细参见上述步骤501至步骤503的相关描述，在此不再赘述。

为了便于理解图7所示的非线性变换方式，下面结合图8对该种变换方式中的各个步骤的实现过程进行介绍，图8为该种非线性变换方式对应的原理示意图。

如图8所示，其中的801、802和803分别为各个注意力网络的输出向量，神经网络模型经步骤701，将输出向量801、输出向量802和输出向量803拼接起来，得到第一向量804；然后，神经网络模型经步骤702，利用不同的映射参数u和v分别对第一向量804做线性映射，从而得到第二向量805和第三向量806；接着，神经网络模型经步骤703，将第二向量805和第三向量806按照元素对应相乘的方式，得到第四向量807。

步骤704：将第四向量和第一向量融合得到第五向量。

神经网络模型通过将第二向量和第三向量按元素相乘得到第四向量后，进一步将该第四向量与步骤701中拼接输出向量得到的第一向量融合起来，得到第五向量。

具体融合第四向量和第一向量时，神经网络模型可以将第四向量和第一向量进行顺序拼接得到第五向量，即按照步骤701中的拼接方式将第四向量和第一向量拼接起来；神经网络模型也可以将第四向量和第一向量按照元素位置对应得到第五向量，即按照步骤703中的相乘方式将第四向量和第一向量按照元素位置对应相乘得到第五向量；神经网络模型还可以将第四向量和第一向量按照元素位置对应相加的方式得到第五向量，即将第四向量与第一向量中位置对应的元素相加起来。

当采用顺序拼接的方式得到第五向量时，其具体计算公式如下：

其中，[]表示向量拼接，o″为第五向量，为第四向量，为第一向量。

如图8所示，神经网络模型将第四向量807和第一向量804顺序拼接起来，得到第五向量808。

步骤705：对第五向量进行线性映射得到多个注意力网络对应的特征融合向量。

最终，对第五向量进行线性映射，从而得到对应于神经网络模型中的多个注意力网络的特征融合向量。

具体对第五向量做线性映射的公式如下：

0＝o″*p

其中，o为特征融合向量，o″为第五向量，p为线性映射参数。

如图8所示，神经网络模型对第五向量808进行线性映射处理，最终得到特征融合向量809。

上述同时应用双线性模型和向量拼接对多个注意力网络各自的输出向量进行特征融合的方式，考虑了二阶交互和一阶交互之间互补促进的关系，同时考虑二阶交互和一阶交互能够带来更高效的特征融合机制，从而使得各个注意力网络各自的输出向量能够充分地交互，从而生成更有信息量的特征融合向量，进而保证最终的输出表示更好。

需要说明的是，上述神经网络模型在实际应用中可以为机器翻译模型，该机器翻译模型包括编码器和解码器；其中，编码器包括n个级联的第一类网络块，每个第一类网络块包括级联的一个多头注意力网络层和一个前馈神经网络层；解码器包括n个级联的第二类网络块，每个第二类网络块包括级联的两个多头注意力网络层和一个前馈神经网络，此处n为大于等于1的正整数。

其中，机器翻译模型是用于将待翻译的内容翻译成对应的翻译文本的模型，例如，用于将待翻译的中文文本翻译成对应的英文文本的模型，该机器翻译模型具体可以是机器翻译神经网络模型(neuralmachinetranslation，nmt)。

参见图9a，图9a为本申请实施例提供的机器翻译模型的结构示意图。如图9a所示，编码器9100中包括n个级联的第一类网络块9110，每个第一类网络块9110包括级联的一个多头注意力网络层9111和一个前馈神经网络层9112，其中，多头注意力网络层9111中包括多个注意力网络和输入输出相加层，前馈神经网络层9112中包括非线性变换层和输入输出相加层。解码器9200中包括n个级联的第二类网络块9210，每个第二类网络块9210包括级联的两个多头注意力网络层9211和9212，以及一个前馈神经网络层9213，解码器9200中的多头注意力网络层9211和9212中包括多个注意力网络和输入输出相加层，前馈神经网络层9213中包括非线性变换层和输入输出相加层。

编码器9100的输出可以作为解码器9200的输入，利用解码器9200对编码器9100输出的数据做解码处理。在对该机器翻译模型进行模型训练时，应当对编码器9100和解码器9200同时进行训练，当解码器9200输出的预测翻译文本对应的向量与训练样本对应的标准标签向量之间的相似度达到预设阈值时，则可以认为该机器翻译模型满足收敛条件，可以将该机器翻译模型作为目标神经网络模型。

需要说明的是，上述各个多头注意力网络层均是采用非线性变换的方式，对各个注意力网络各自的输出向量进行特征融合，得到该多头注意力网络层对应的特征融合向量。发明人利用本申请实施例提供的神经网络模型训练方法，对机器翻译模型进行训练，相应地获得机器翻译模型。采用双语质量互译评估辅助工具(bilingualevaluationunderstudy，bleu)对该机器翻译模型进行测试，如表1所示，为该机器翻译模型对应的性能测试结果。

表1

其中，论文[1]为测试样本，采用现有的机器翻译模型对该测试样本进行翻译，其评估结果为27.64点，该模型中涉及的参数数量有88m(百万)，对该机器翻译模型的训练速度为每秒迭代2.04次；模型1采用图3所示的非线性变换方式将多个注意力网络各自的输出向量融合为特征融合向量，利用该模型1对测试样本论文[1]进行翻译，其评估结果为28.19点，该评估结果相对于采用现有的机器翻译模型进行翻译的评估结果提高了0.55点，该模型中涉及的参数数量有98m，对该模型1的训练速度为每秒迭代1.45次；模型2采用图5所示的非线性变换方式将多个注意力网络各自的输出向量融合为特征融合向量，利用模型2对测试样本论文[1]进行翻译，其评估结果为28.35点，该评估结果相对于采用现有的机器翻译模型进行翻译的评估结果提高了0.71点，该模型中涉及的参数数量有97m，对该模型2的训练速度为每秒迭代1.85次；模型3采用图7所示的非线性变换方式将多个注意力网络各自的输出向量融合为特征融合向量，利用模型3对测试样本论文[1]进行翻译，其评估结果为28.59点，该评估结果相对于采用现有的机器翻译模型进行翻译的评估结果提高了0.95点，该模型中涉及的参数数量有102m，对该模型3的训练速度为每秒迭代1.78次。

通过对比可以发现，无论神经网络模型是采用图3所示的非线性变换方式，还是采用图5所示的非线性变换方式，或是采用图7所示的非线性变换方式，采用本申请实施例提供的训练方法训练得到的神经网络模型均能有效地提升翻译质量，并且极少地增加了参数数量，降低训练速度，保证了机器翻译模型的高效性。

针对上述图9a所示的机器翻译模型，本申请实施例还提供了一种机器翻译方法，以使该机器翻译模型在实际中得以应用。参见图9b，图9b为本申请实施例提供的机器翻译方法的流程示意图，为了便于描述下面以终端设备作为执行主体对该机器翻译方法进行介绍，应理解，该机器翻译方法在实际应用中，也可以应用于服务器。如图9b所示，该机器翻译方法包括：

步骤901：获取待翻译内容。

需要说明的是，上述待翻译内容具体可以为待翻译的文本、视频和音频中的至少一种，类型不同的待翻译内容可以应用于不同的应用场景。例如，当待翻译内容为待翻译的文本时，可以将该待翻译的文本翻译为对应的语言；又例如，当待翻译内容为待翻译的视频时，可以将该待翻译的视频翻译为与该视频呈现的场景对应的文本；再例如，当待翻译内容为待翻译的音频时，可以将该待翻译的音频翻译为与该音频对应的文本，或者翻译为指定语言对应的文本。

针对待翻译的文本，终端设备可以为用户提供文本输入框，用户可以在该文本输入框中输入待翻译的文本，相应地，终端设备获取用户在文本输入框中输入的文本，作为待翻译内容。针对待翻译的视频和/或音频，终端设备可以为用户提供文件上传区，用户可以将待翻译的视频和/或音频拖拽至该待翻译文件上传区，相应地，终端设备检测到文件上传区内存在文件时，将该文件作为待翻译内容；或者，终端设备可以为用户提供文件上传键，用户通过点击该文件上传键触发上传文件的操作，从终端设备存储的文件中选择待翻译的视频和/或音频，将所选择的待翻译的视频和/或音频上传，终端设备由此获得待翻译内容。

需要说明的是，当该机器翻译方法的执行主体为服务器时，服务器可以从终端设备处获取待翻译内容。具体的，服务器与终端设备通过网络连接，终端设备在通过上述方式获取到待翻译内容后，相应地将自身所获取的待翻译内容通过网络发送至服务器，以使服务器获得待翻译内容。

步骤902：通过机器翻译模型获得该待翻译内容对应的翻译结果。

终端设备获取到待翻译内容后，相应地将待翻译内容输入至机器翻译模型，该机器翻译模型是根据上述实施例提供的神经网络模型训练方法训练得到的，其具体结构可以参见图9a。

机器翻译模型中的编码器为循环神经网络模型，其能够将待翻译内容对应的源端向量序列读取为固定长度的编码，机器翻译模型中的解码器也是一个循环神经网络模型，其能够对编码器的输入序列进行解码，从而输出目标序列，即输出标签对应的向量序列，进而，机器翻译模型根据解码器输出的向量序列生成输出标签，即生成与待翻译内容对应的翻译结果。

需要说明的是，上述机器翻译模型是基于多注意力机制构建的，其中的编码器和解码器中均包括多个注意力网络，该机器学习模型对编码器和解码器中的多个注意力网络各自的输出向量进行融合时，均采用的是非线性变换的方式，此处的非线性变换方式可以为应用卷积对多个注意力网络各自的输出向量进行处理，也可以为应用双线性模型对多个注意力网络各自的输出向量进行处理，还可以为应用双线性模型和向量拼接对多个注意力网络各自的输出向量进行处理。

步骤903：显示该翻译结果。

终端设备通过机器翻译模型确定出与待翻译内容对应的翻译结果后，可以直接向用户显示该翻译结果。

应理解，当本实施例提供的机器翻译方法的执行主体为服务器时，服务器在通过机器翻译模型确定出与待翻译内容对应的翻译结果后，服务器可以将所确定的翻译结果发送至终端设备，以通过终端设备向用户显示该翻译结果。

本实施例提供的机器翻译方法应用了机器翻译模型对待翻译内容进行翻译，确定与待翻译内容对应的翻译结果，由于所应用的机器翻译模型是通过上述实施例提供的神经网络模型训练方法训练得到的，该机器翻译模型能够使得其中的各个注意力网络的输出向量充分交互，生成更有信息量的特征融合向量，因此，能够保证该机器翻译模型最终输出的翻译结果更加准确。

为了进一步理解本申请实施例提供的神经网络模型训练方法，下面以服务器训练用于翻译文本的机器翻译模型为例，对本申请实施例提供的神经网络模型训练方法进行整体介绍。

服务器先与之关联的数据库处获取训练样本集，该训练样本集中包括大量的训练样本以及其对应的标准标签向量。应理解，对于用于翻译文本的机器翻译模型而言，训练样本应该为待翻译的文本，其对应的标准标签为标准翻译文本，相应地，标准标签向量即为标准翻译文本对应的向量。

服务器获取到训练样本集后，将训练样本集中的训练样本逐一输入预先构建的机器翻译模型，该机器翻译模型是基于注意力机制构建的神经网络模型，其中包括编码器和解码器，编码器包括若干个级联的第一类网络块，每个第一类网络块中包括级联的一个多头注意力网络层和一个前馈神经网络层，解码器包括若干个级联的第二类网络块，每个第二类网络块包括级联的两个多头注意力网络和一个前馈神经网络。

需要说明的是，上述第一类网络块和第二类网络块中包括的多头注意力网络层中包括多个注意力网络，这些注意力网络能够从不同的维度捕获不同的特征信息，进而根据自身捕获的特征信息相应地生成输出向量。

服务器通过机器翻译模型对多头注意力网络层中的多个注意力网络各自的输出向量进行非线性变换，得到对应于多个注意力网络的特征融合向量，此处的非线性变换的方式具体可以为应用卷积对多个注意力网络各自的输出向量组成的特征图进行特征融合、应用双线性模型对多个注意力网络各自的输出向量进行特征融合，以及同时应用双线性模型和向量拼接对多个注意力网络各自的输出向量进行特征融合。

机器翻译模型根据上述特征融合向量，生成该训练样本对应的预设标签向量，进而，将该预设标签向量和该训练样本对应的标准标签向量进行对比，生成对比结果，根据该对比结果对机器翻译模型的模型参数进行迭代调整，以对该机器翻译模型的性能逐步进行优化，直到该机器翻译模型满足收敛条件，将该满足收敛条件的机器翻译模型作为目标机器翻译模型，可以将该目标机器翻译模型投入实际应用。

针对上文描述的神经网络模型训练方法，本申请还提供了对应的神经网络模型训练装置，以使上述神经网络模型训练方法在实际中得以应用和实现。

参见图10，图10是与上文图1所示的神经网络模型训练方法对应的一种神经网络模型训练装置1000的结构示意图，该神经网络模型训练装置1000包括：

获取模块1001，用于获取训练样本集，所述训练样本集包括各个训练样本及其对应的标准标签向量；

输入模块1002，用于将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；

特征融合向量生成模块1003，用于对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；

预测标签向量获取模块1004，用于获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；

获得模块1005，用于根据训练样本对应的预测标签向量与标准标签向量的对比结果，对所述神经网络模型的模型参数进行迭代调整，直到满足收敛条件，得到目标神经网络模型。

可选的，在图10所示的神经网络模型训练装置的基础上，参见图11，图11为一种特征融合向量生成模块1003的结构示意图，该特征融合向量生成模块1003具体包括：

堆叠子模块1101，用于将所述多个注意力网络各自的输出向量并排堆叠成一张二维的特征图；

特征提取子模块1102，用于通过卷积神经网络从所述特征图提取特征得到三维张量；

序列化处理子模块1103，用于将所述三维张量序列化处理得到一个一维向量；

线性变换子模块1104，用于对所述一维向量作线性变换得到所述多个注意力网络对应的特征融合向量。

可选的，在图11所示的特征融合向量生成模块1003的基础上，其中的特征提取子模块1102具体用于：

采用卷积神经网络对所述特征图进行卷积操作得到三维张量；或者，

采用卷积神经网络对所述特征图进行卷积和池化操作得到三维张量。

可选的，在图10所示的神经网络模型训练装置的基础上，参见图12，图12为另一种特征融合向量生成模块1003的结构示意图，该特征融合向量生成模块1003具体包括：

拼接子模块1201，用于将所述多个注意力网络各自的输出向量进行拼接得到第一向量；

映射子模块1202，用于对所述第一向量进行两次映射分别得到第二向量和第三向量；

相乘子模块1203，用于将所述第二向量和所述第三向量按照元素对应相乘得到第四向量；

线性映射子模块1204，用于对所述第四向量进行线性映射得到所述多个注意力网络对应的特征融合向量。

可选的，在图10所示的神经网络模型训练装置的基础上，参见图13，图13为又一种特征融合向量生成模块1003的结构示意图，该特征融合向量生成模块1003具体包括：

拼接子模块1301，用于将所述多个注意力网络各自的输出向量进行拼接，得到第一向量；

映射子模块1302，用于对所述第一向量进行两次映射分别得到第二向量和第三向量；

相乘子模块1303，用于将所述第二向量和所述第三向量按照元素对应相乘得到第四向量；

融合子模块1304，用于将所述第四向量和所述第一向量融合得到第五向量；

线性映射子模块1305，用于对所述第五向量进行线性映射得到所述多个注意力网络对应的特征融合向量。

可选的，在上述图12和图13所示的特征融合向量生成模块的基础上，其中的映射子模块1202和1302具体用于：

对所述第一向量进行两次线性映射得到第二向量和第三向量；或者，

对所述第一向量进行两次非线性映射得到第二向量和第三向量。

可选的，在上述图13所示的特征融合向量生成模块的基础上，其中的融合子模块1304具体用于：

将所述第四向量和所述第一向量进行顺序拼接得到第五向量；或者，

将所述第四向量和所述第一向量按照元素位置对应相乘得到第五向量；或者，

将所述第四向量和所述第一向量按照元素位置对应相加得到第五向量。

可选的，在上述图10所示的神经网络模型训练装置的基础上，其中的获得模块1005具体用于：

根据训练样本对应的预测标签向量与标准标签向量的对比结果，确定损失函数；

以所述损失函数最小化为目标，对所述神经网络模型的模型参数进行迭代调整；

当所述损失函数最小化时，则确定当前神经网络模型满足收敛条件，则将当前神经网络模型作为目标神经网络模型。

可选的，上述神经网络模型为机器翻译模型，包括编码器和解码器；

所述编码器包括n个级联的第一类网络块，其中，每个第一类网络块包括级联的一个多头注意力网络层和一个前馈神经网络层；

所述解码器包括n个级联的第二类网络块，其中，每个第二类网络块包括级联的两个多头注意力网络层和一个前馈神经网络层；所述n为大于等于1的正整数。

可选的，所述训练样本为待翻译的文本、视频、音频中的至少一种，所述训练样本对应的标准标签为标准翻译文本。

在上述神经网络模型训练装置中，通过神经网络模型对多个注意力网络各自的输出向量进行融合时，采用了非线性变换的方式将各个注意力网络各自的输出向量融合起来得到特征融合向量，相比现有技术中通过对各个注意力网络各自的输出向量进行线性拼接得到特征融合向量，这种非线性变换的方式考虑了各个注意力网络的输出向量之间的复杂关系，使得各个注意力网络的输出向量能够充分交互，从而生成更有信息量的特征融合向量，进而保证最终的输出表示效果更好。

针对上文描述的机器翻译方法，本申请还提供了对应的机器翻译装置，以使上述机器翻译方法在实际中得以应用和实现。

参见图14，图14是与上文图9b所示的机器翻译方法对应的一种机器翻译装置1400的结构示意图，该机器翻译装置1400包括：

获取模块1401，用于获取待翻译内容；

翻译模块1402，用于通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型根据图2至图8所示的神经网络模型训练方式训练得到的；

显示模块1403，用于显示所述翻译结果。

本实施例提供的机器翻译装置应用了机器翻译模型对待翻译内容进行翻译，确定与待翻译内容对应的翻译结果，由于所应用的机器翻译模型是通过上述实施例提供的神经网络模型训练方法训练得到的，该机器翻译模型能够使得其中的各个注意力网络的输出向量充分交互，生成更有信息量的特征融合向量，因此，能够保证该机器翻译模型最终输出的翻译结果更加准确。

本申请还提供了一种用于训练神经网络模型的设备，该设备具体可以为服务器，参见图15，图15是本申请实施例提供的一种用于训练神经网络模型的服务器结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

其中，cpu1522用于执行如下步骤：

获取训练样本集，所述训练样本集包括训练样本及其对应的标准标签向量；

将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；

通过所述神经网络模型，对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；

获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；

可选的，cpu1522还可以执行本申请实施例中神经网络模型训练方法任一具体实现方式的方法步骤。

此外，本申请还提供了一种服务器，该服务器与上述图15所示的服务器的结构相类似，其存储器用于存储机器翻译模型，该机器翻译模型是根据本申请实施例提供的神经网络模型训练方法训练得到的；其处理器用于运行该机器翻译模型，以获得与待翻译内容对应的翻译结果。

本申请实施例还提供了另一种用于训练神经网络模型的设备，该设备可以为终端设备，如图16所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：personaldigitalassistant，英文缩写：pda)、销售终端(英文全称：pointofsales，英文缩写：pos)、车载电脑等任意终端设备，以终端为手机为例：

图16示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图16，手机包括：射频(英文全称：radiofrequency，英文缩写：rf)电路1610、存储器1620、输入单元1630、显示单元1640、传感器1650、音频电路1660、无线保真(英文全称：wirelessfidelity，英文缩写：wifi)模块1670、处理器1680、以及电源1690等部件。本领域技术人员可以理解，图16中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图16对手机的各个构成部件进行具体的介绍：

rf电路1610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1680处理；另外，将设计上行的数据发送给基站。通常，rf电路1610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：lownoiseamplifier，英文缩写：lna)、双工器等。此外，rf电路1610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：globalsystemofmobilecommunication，英文缩写：gsm)、通用分组无线服务(英文全称：generalpacketradioservice，gprs)、码分多址(英文全称：codedivisionmultipleaccess，英文缩写：cdma)、宽带码分多址(英文全称：widebandcodedivisionmultipleaccess,英文缩写：wcdma)、长期演进(英文全称：longtermevolution，英文缩写：lte)、电子邮件、短消息服务(英文全称：shortmessagingservice，sms)等。

存储器1620可用于存储软件程序以及模块，处理器1680通过运行存储在存储器1620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1630可包括触控面板1631以及其他输入设备1632。触控面板1631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1631上或在触控面板1631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1680，并能接收处理器1680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1631。除了触控面板1631，输入单元1630还可以包括其他输入设备1632。具体地，其他输入设备1632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1640可包括显示面板1641，可选的，可以采用液晶显示器(英文全称：liquidcrystaldisplay，英文缩写：lcd)、有机发光二极管(英文全称：organiclight-emittingdiode，英文缩写：oled)等形式来配置显示面板1641。进一步的，触控面板1631可覆盖显示面板1641，当触控面板1631检测到在其上或附近的触摸操作后，传送给处理器1680以确定触摸事件的类型，随后处理器1680根据触摸事件的类型在显示面板1641上提供相应的视觉输出。虽然在图16中，触控面板1631与显示面板1641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1631与显示面板1641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1660、扬声器1661，传声器1662可提供用户与手机之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号，传输到扬声器1661，由扬声器1661转换为声音信号输出；另一方面，传声器1662将收集的声音信号转换为电信号，由音频电路1660接收后转换为音频数据，再将音频数据输出处理器1680处理后，经rf电路1610以发送给比如另一手机，或者将音频数据输出至存储器1620以便进一步处理。

wifi属于短距离无线传输技术，手机通过wifi模块1670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了wifi模块1670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1620内的软件程序和/或模块，以及调用存储在存储器1620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1680可包括一个或多个处理单元；优选的，处理器1680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1680中。

手机还包括给各个部件供电的电源1690(比如电池)，优选的，电源可以通过电源管理系统与处理器1680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1680还具有以下功能：

获取训练样本集，所述训练样本集包括训练样本及其对应的标准标签向量；

将所述训练样本集中的训练样本输入神经网络模型中，所述神经网络模型包括多个注意力网络；

通过所述神经网络模型，对所述多个注意力网络各自的输出向量进行非线性变换，得到所述多个注意力网络对应的特征融合向量；

获取所述神经网络模型根据所述特征融合向量输出的训练样本对应的预测标签向量；

可选的，处理器1680还可以执行本申请实施例中神经网络模型训练方法任一具体实现方式的方法步骤。

此外，本申请还提供了一种终端设备，该终端设备与上述图16所示的终端设备的结构相类似，其存储器用于存储机器翻译模型，该机器翻译模型是根据本申请实施例提供的神经网络模型训练方法训练得到的；其处理器用于运行该机器翻译模型，以获得与待翻译内容对应的翻译结果。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种神经网络模型训练方法中的任意一种实施方式，或者执行前述实施例所述的一种机器翻译方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种神经网络模型训练方法中的任意一种实施方式，或者执行前述实施例所述的一种机器翻译方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文全称：read-onlymemory，英文缩写：rom)、随机存取存储器(英文全称：randomaccessmemory，英文缩写：ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：涂兆鹏;李建;王星;王龙跃
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种便捷式智能转子轴车床的制作方法
上一篇：一种用于清洁透水路面的装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。