生成对抗网络训练方法、生成对抗网络、人脸图像翻译方法和装置与流程

文档序号：24335778发布日期：2021-03-19 12:16阅读：97来源：国知局

本申请涉及人工智能技术领域，具体为计算机视觉、增强现实和深度学习技术，尤其涉及一种生成对抗网络训练方法、生成对抗网络、人脸图像翻译方法和装置。

背景技术：

随着人工智能技术的发展，生成对抗网络应用越来越广，通过生成对抗网络能够根据用户输入的数据生成相应的目标数据，例如，基于生成对抗网络的人脸图像翻译技术，能够根据用户输入的人脸图像生成相符的个性化头像。然而，由于用户输入的数据千奇百态，生成对抗网络往往在训练集上表现比较好，而在测试集环境下却容易陷入崩溃，导致生成的目标数据存在较大瑕疵或生成完全失败。

技术实现要素：

本申请提供了一种生成对抗网络训练方法、生成对抗网络、人脸图像翻译方法、人脸图像翻译装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质和计算机程序产品。

根据第一方面，本申请提供了一种生成对抗网络训练方法，所述生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m，所述方法包括：

对训练样本添加噪声，得到第一特征数据；

将所述第一特征数据输入至所述生成对抗网络中进行训练；其中，在所述训练的过程中，对每一卷积层输出的特征数据添加噪声后，再输入至下一处理层。

根据第二方面，本申请提供了一种生成对抗网络训练装置，所述生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m，所述装置包括：

噪声添加模块，用于对训练样本添加噪声，得到第一特征数据；

训练模块，用于将所述第一特征数据输入至所述生成对抗网络中进行训练；

其中，在所述训练的过程中，所述噪声添加模块还用于对每一卷积层输出的特征数据添加噪声，每一卷积层输出的特征数据添加噪声后再输入至下一处理层。

根据第三方面，本申请提供了一种生成对抗网络，所述生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m，所述生成对抗网络通过第一方面中的生成对抗网络训练方法训练得到。

根据第四方面，本申请提供了一种人脸图像翻译方法，具有第二方面中的生成对抗网络，所述方法包括：利用所述生成对抗网络对人脸图像进行处理，得到与所述人脸图像相匹配的目标头像。

根据第五方面，本申请提供了一种人脸图像翻译装置，具有第二方面中的生成对抗网络，所述人脸图像翻译装置通过所述生成对抗网络对人脸图像进行处理，得到与所述人脸图像相匹配的目标头像。

根据第六方面，本申请提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面和第四方面中的任一项方法。

根据第七方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行第一方面和第四方面中的任一项方法。

根据第八方面，本申请提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面和第四方面中的任一项方法。

根据本申请的技术，在对生成对抗网络进行训练的过程中，通过对训练样本以及每个卷积层输出的特征数据添加噪声，来模拟现实场景中各种各样的输入，能够使生成对抗网络对现实场景中大量丰富的输入具有更强的适应能力，从而能够提高生成对抗网络的稳定性、鲁棒性和容错性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的生成对抗网络训练方法的流程示意图；

图2是根据本申请第一实施例的生成对抗网络训练过程示例图；

图3是根据本申请第二实施例的生成对抗网络训练装置的结构示意图；

图4是用来实现本申请实施例的生成对抗网络训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请中，生成对抗网络(generativeadversarialnetworks，gan)是一种深度学习模型，可广泛应用于图像生成、图像翻译、图像转换等算法。

以图像翻译为例，图像翻译技术是图像与图像之间以不同形式的转换，目前gan模型在图像翻译应用中存在的问题主要是，在训练集上表现比较好，但在测试集环境下，由于用户输入的图片千奇百态，通过gan模型生成的图像容易出现局部瑕疵或完全失败的情况，gan模型的稳定性、鲁棒性和容错性均较差。

目前，为了提升gan模型的稳定性、鲁棒性和容错性，通常采用不断扩展训练集的丰富度，使gan模型适应更多更丰富的图片输入，然而，一方面，由于现实环境中图片千千万万，数不胜数，无法收集全部的图片进行训练；另一方面，大量的训练数据需要更加庞大和复杂的模型，对模型部署和计算设备算力都提出了更高的要求。

鉴于此，本申请提供了一种生成对抗网络训练方法、生成对抗网络、人脸图像翻译方法、人脸图像翻译装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质和计算机程序产品，以提高生成对抗网络的鲁棒性和容错性。

其中，本申请提供的生成对抗网络训练方法用于对生成对抗网络进行训练，该生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m。

本申请提供的生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m，该生成对抗网络通过本申请提供的生成对抗网络训练方法训练得到。

本申请提供的人脸图像翻译方法通过所述生成对抗网络对人脸图像进行处理，得到与所述人脸图像相匹配的目标头像。

本申请提供的人脸图像翻译装置具有本申请提供的生成对抗网络，通过所述生成对抗网络对人脸图像进行处理，得到与所述人脸图像相匹配的目标头像。

以下对本申请的示范性实施例进行说明。

如图1所示，生成对抗网络训练方法，用于对生成对抗网络进行训练，所述生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m，所述方法包括如下步骤：

步骤101：对训练样本添加噪声，得到第一特征数据。

该步骤中，通过对训练样本添加噪声，能够通过有限的训练集来模拟现实环境中千千万万、形形色色的图片输入。这样，在不需要增加训练集的情况下，就能够扩展训练集的丰富度，在测试阶段，生成对抗网络也就能够对丰富的用户输入具有更强的适应能力，从而使得生成对抗网络对现实环境中大量丰富的图片输入具有更强的稳定性、鲁棒性、容错性。

步骤102：将所述第一特征数据输入至所述生成对抗网络中进行训练；其中，在所述训练的过程中，对每一卷积层输出的特征数据添加噪声后，再输入至下一处理层。

该步骤中，在对训练样本添加噪声之后，即可将得到的第一特征数据输入至生成对抗网络中进行训练，在训练的过程中，每经过一层卷积层，均可以对卷积层输出的特征数据添加噪声。这样，能够进一步使生成对抗网络在训练学习过程中，对具有丰富扰动噪声的特征数据具有更强的适应能力，从而进一步提高生成对抗网络的稳定性、鲁棒性、容错性。

本申请中添加噪声的位置可以理解为在输入层和每个卷积层后面，因此，本申请的生成对抗网络训练方法可以称之为噪声分层嵌入的生成对抗网络训练方法。

本申请中，所添加的噪声可以是以矩阵的形式表示，训练样本以及后续的特征数据也可以是以矩阵的形式表示。因此，对训练样本或卷积层输出的特征数据添加噪声，可以理解为矩阵与矩阵之间的运算。作为一种更简单的运算方式，可以将训练样本与待添加的噪声进行密集求和运算，得到第一特征数据；可以将每一卷积层输出的特征数据与待添加的噪声进行密集求和运算。此外，还可以用密集求积运算来替代密集求和运算。其中，密集求和运算指两个矩阵之间进行按位求和的运算，密集求积运算指两个矩阵之间进行按位求积的运算。

根据本申请实施例的技术，在对生成对抗网络进行训练的过程中，通过对训练样本以及每个卷积层输出的特征数据添加噪声，来模拟现实场景中各种各样的输入，能够使生成对抗网络对现实场景中大量丰富的输入具有更强的适应能力，从而能够提高生成对抗网络的稳定性、鲁棒性和容错性。

本申请所添加的噪声的幅度可以是随机的，这样，不同位置添加的噪声的幅度均可以不同，本申请所添加的噪声可以表示成n*w，其中，n表示噪声矩阵，w表示噪声扰动的幅度。

以下以图2示出的生成对抗网络结构作为示例，对噪声分层嵌入的生成对抗网络训练过程进行举例说明。

如图2所示，生成对抗网络包括多个卷积层(convolutionallayer，conv)和多个归一化层(instancenormalizationlayers，in)/激活层(rectifiedlinearunits，relu)，卷积层和归一化层/激活层(in/relu)都是生成对抗网络的处理层。

如图2所示，对待输入生成对抗网络的训练样本添加噪声n*w_0，在添加了噪声n*w_0之后，再输入至生成对抗网络中进行训练。在训练的过程中，经过卷积层conv_1之后，对conv_1输出的特征数据添加噪声n*w_1，再输入至归一化层/激活层in/relu_1；经过卷积层conv_2之后，对conv_2输出的特征数据添加噪声n*w_2，再输入至归一化层/激活层in/relu_2；依此类推，经过卷积层conv_m之后，对conv_m输出的特征数据添加噪声n*w_m，再输入至归一化层/激活层in/relu_m。其中，n表示噪声矩阵，w_0、w_1、w_2、……、w_m分别表示噪声扰动的幅度。

可选的，所述噪声的幅度通过所述生成对抗网络的训练学习得到。

为了使添加的噪声能够更充分地模拟各种各样的输入，同时又为了使生成对抗网络在训练过程能够以合适的速度实现收敛，生成对抗网络的训练过程中，可以对噪声的幅度进行学习。因此，噪声的幅度可以通过生成对抗网络的训练学习得到。

可选的，所述噪声为随机噪声或高斯噪声。

其中，随机噪声(randomnoise)又称背景噪声，由时间上随机产生的大量起伏骚扰积累而造成的，其值在给定瞬间内不能预测的噪声。高斯噪声(gaussiannoise)是指概率密度函数服从高斯分布(即正态分布)的一类噪声。

可选的，所述训练样本为人脸图像，所述噪声为高斯噪声。

本申请中，可以根据训练样本的类型来确定所添加的噪声的种类，以使添加的噪声更加符合训练样本的规律。当训练样本为人脸图像时，考虑到现实场景中大量人脸图像的噪声符合或近似符合高斯分布，因此，添加的噪声可以为高斯噪声，这样，添加的噪声更具有合理性。

当训练样本为人脸图像时，本申请的生成对抗网络可以为用于人脸图像翻译的生成对抗网络，人脸图像翻译技术可用于：根据用户输入的人脸图像，生成与其身份相像、气质相符的高度个性化的头像。由于用户输入的人脸图像千奇百态，因此，用于人脸图像翻译的生成对抗网络在稳定性、鲁棒性、容错性上具有较高的要求，而本申请提供的生成对抗网络训练方法能够很好地满足其需求。

可选的，所述生成对抗网络还嵌入有噪声模块，所述噪声模块用于生成所述噪声。

本申请的噪声可以通过外部噪声模块生成，并根据生成对抗网络的请求，输入至生成对抗网络中。为了提高生成对抗网络的的训练效率，可以在原有生成对抗网络中嵌入噪声模块，通过该噪声模块来生成所需添加的噪声。

可选的，所述噪声模块为可插拔的噪声模块；

在所述生成对抗网络的训练阶段，所述噪声模块嵌入所述生成对抗网络；

在所述生成对抗网络的预测阶段，所述噪声模块从所述生成对抗网络移除。

该实施方式中，通过在训练阶段嵌入噪声模块，而在预测阶段直接移除噪声模块，这样，在训练阶段，能够使生成对抗网络对现实场景中大量丰富的输入具有更强的适应能力，从而能够提高生成对抗网络的稳定性、鲁棒性和容错性，而在实际预测使用过程中，不会增加生成对抗网络的模型体积，不会增加额外的计算量，也不会增加额外的预测耗时。

需要说明的是，本申请中的生成对抗网络训练方法中的多种可选的实施方式，彼此可以相互结合实现，也可以单独实现，对此本申请不作限定。

本申请的上述实施例至少具有如下优点或有益效果：

本申请实施例中，在对生成对抗网络进行训练的过程中，通过对训练样本以及每个卷积层输出的特征数据添加噪声，来模拟现实场景中各种各样的输入，能够使生成对抗网络对现实场景中大量丰富的输入具有更强的适应能力，从而能够提高生成对抗网络的稳定性、鲁棒性和容错性。

本申请还提供一种生成对抗网络训练装置，所述生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m，如图3所示，生成对抗网络训练装置300包括：

噪声添加模块，用于对训练样本添加噪声，得到第一特征数据；

训练模块，用于将所述第一特征数据输入至所述生成对抗网络中进行训练；

可选的，所述噪声的幅度通过所述生成对抗网络的训练学习得到。

可选的，所述噪声为随机噪声或高斯噪声。

可选的，所述训练样本为人脸图像，所述噪声为高斯噪声。

可选的，所述生成对抗网络为用于人脸图像翻译的生成对抗网络。

可选的，所述n个处理层还包括多个归一化层和多个激活层。

可选的，所述噪声添加模块具体用于：

将所述训练样本与待添加的噪声进行密集求和运算，得到第一特征数据；

将每一卷积层输出的特征数据与待添加的噪声进行密集求和运算。

可选的，所述生成对抗网络还嵌入有噪声模块，所述噪声模块用于生成所述噪声。

可选的，所述噪声模块为可插拔的噪声模块；

在所述生成对抗网络的训练阶段，所述噪声模块嵌入所述生成对抗网络；

在所述生成对抗网络的预测阶段，所述噪声模块从所述生成对抗网络移除。

本申请提供的生成对抗网络训练装置300能够实现上述生成对抗网络训练方法实施例中的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

本申请还提供一种生成对抗网络，所述生成对抗网络包括n个处理层，所述n个处理层包括m个卷积层，所述n和所述m均大于或等于1，所述n大于或等于所述m，所述生成对抗网络通过本申请提供的生成对抗网络训练方法训练得到。

本申请的生成对抗网络对现实场景中大量丰富的输入具有更强的适应能力，具有较好的稳定性、鲁棒性和容错性。

本申请还提供一种人脸图像翻译方法，具有本申请提供的生成对抗网络，所述方法包括：利用所述生成对抗网络对人脸图像进行处理，得到与所述人脸图像相匹配的目标头像。

本申请对现实场景中大量丰富的人脸图像输入具有更强的适应能力，能够较好的实现人脸图像翻译，能够提高人脸图像翻译的稳定性和容错性。

本申请还提供一种人脸图像翻译装置，具有本申请提供的生成对抗网络，所述人脸图像翻译装置通过所述生成对抗网络对人脸图像进行处理，得到与所述人脸图像相匹配的目标头像。

本申请对现实场景中大量丰富的人脸图像输入具有更强的适应能力，能够较好的实现人脸图像翻译，能够提高人脸图像翻译的稳定性和容错性。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，电子设备400包括计算单元401，其可以根据存储在只读存储器(rom)402中的计算机程序或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序，来执行各种适当的动作和处理。在ram403中，还可以存储设备400操作所需的各种程序和数据。计算单元401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。

电子设备400中的多个部件连接至i/o接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调整解调器、无线通信收发机等。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如生成对抗网络训练方法、人脸图像翻译方法。例如，在一些实施例中，生成对抗网络训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到ram403并由计算单元401执行时，可以执行上文描述的生成对抗网络训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行生成对抗网络训练方法。又例如，在一些实施例中，人脸图像翻译方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到ram403并由计算单元401执行时，可以执行上文描述的人脸图像翻译方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行人脸图像翻译方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便携式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtualprivateserver"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并发地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨少雄
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种茎尖菜用甘薯疮痂病的抗性鉴定方法与流程
上一篇：一种液位状态检测方法、水箱组件及机器人与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。