一种图像美化方法、装置、介质及设备与流程

文档序号：20707446发布日期：2020-05-12 16:39阅读：163来源：国知局

本发明涉及图像处理技术领域，尤其涉及一种图像美化方法、装置、介质及设备。

背景技术：

随着拍照设备技术的发展以及拍摄设备的普及，拍照是一个重要的功能，也是娱乐功能之一。非洲人热衷拍照，也热衷于分享自己的各种照片，但若是和肤色较浅的人合影并且光线不足的情况下，只能看到肤色较深的非洲人的牙齿和眼睛，看不到其他脸部特征，尤其在晚上一般手机要想拍到肤色较深的非洲人的脸非常困难。

为了使照片更漂亮，美颜是图像处理软件必不可少的功能之一，主要包括美肤及美白等功能。现有的美颜算法就是编写程序模仿ps(处理以像素所构成的图像)磨皮操作，现有的磨皮方法主要涉及到通道、模糊、混合、曲线、高反差保留等操作。传统的算法，主要是滤波算法，将图像三维进行平滑处理，去掉产生干扰的细节像素，基于unet(深度学习分割网络)皮肤分割的磨皮算法通过区分皮肤与头发这种类肤色区域，进而将头发的纹理细节保留，达到该磨皮的地方磨皮，不该磨皮的地方不磨，经过通道、模糊、混合、曲线、高反差保留等操作，并没有引入学习的因素，造成泛化性能差，操作不可逆，改变了原有图像的真实的分布，误导人脸识别提取的特征，导致人脸识别准确率下降。

因此，提出一种在没有改变图像的真实分布情况下使得图像中目标对象的真实特征更凸出、增加图像中目标对象识别的准确率的图像美化方法显得尤为重要。

技术实现要素：

基于此，有必要针对上述问题，提出了一种图像美化方法、装置、介质及设备。

第一方面，本发明提出了一种图像美化方法，所述方法包括：

获取待美化图像；

将所述待美化图像作为已训练的图像美化模型的输入，所述已训练的图像美化模型用于对所述待美化图像进行美化，所述已训练的图像美化模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的，所述已训练的图像美化模型为训练完成的第一生成网络；

获取所述已训练的图像美化模型输出的目标美化图像；

其中，所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入，所述第二生成网络用于对所述第一生成网络的输出进行还原，所述第二判别网络用于对所述第一生成网络的输出进行判断识别，所述第一生成网络和所述第二判别网络为对抗性训练网络；

所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入，所述第四生成网络用于对所述第三生成网络的输出进行还原，所述第一判别网络用于对所述第三生成网络的输出进行判断识别，所述第三生成网络和所述第一判别网络为对抗性训练网络。

第二方面，本发明还提出了一种图像美化装置，所述装置包括：

图像美化模块，用于获取待美化图像，将所述待美化图像作为已训练的图像美化模型的输入，所述已训练的图像美化模型用于对所述待美化图像进行美化，所述已训练的图像美化模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的，所述已训练的图像美化模型为训练完成的第一生成网络；获取所述已训练的图像美化模型输出的目标美化图像，其中，所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入，所述第二生成网络用于对所述第一生成网络的输出进行还原，所述第二判别网络用于对所述第一生成网络的输出进行判断识别，所述第一生成网络和所述第二判别网络为对抗性训练网络，所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入，所述第四生成网络用于对所述第三生成网络的输出进行还原，所述第一判别网络用于对所述第三生成网络的输出进行判断识别，所述第三生成网络和所述第一判别网络为对抗性训练网络。

第三方面，本发明还提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

第四方面，本发明还提出了一种计算机设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

综上所述，本发明的图像美化方法通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像美化模型，只需要少量的样本进行学习即可学到训练样本的共同特征，泛化能力好；所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待美化图像到目标美化图像的学习，所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标美化图像到待美化图像的学习，在没有改变图像的真实分布情况下，使得图像中目标对象的真实特征更凸出，增加图像中目标对象识别的准确率。因此，本发明在没有改变图像的真实分布情况下，使得图像中目标对象的真实特征更凸出，增加图像中目标对象识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中图像美化方法的流程图；

图2为图1中图像美化方法的训练图像美化模型的流程图；

图3为一个实施例中第一判别网络的结构示意图；

图4为一个实施例中第一生成网络的结构示意图；

图5为一个实施例中特征提取子网的结构示意图；

图6为一个实施例中特征还原子网的结构示意图；

图7为图1中图像美化方法的特征嵌入子网的工作流程图；

图8为图7中特征嵌入子网的确定待融合目标特征图像的流程图；

图9为图1中图像美化方法的梯度下降优化方法的流程图；

图10为一个实施例中图像美化装置的结构框图；

图11为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提出了一种图像美化方法，所述方法包括：

s102、获取待美化图像；

其中，所述待美化图像可以是需要美化的深肤色人脸数字图像。也可以是其他图像，比如，可以是动物图像、植物图像，在此举例不作具体限定。

所述待美化图像可以包括在不同场景、不同时间段、不同天气等采集的图像，在此不作具体限定。

s104、将所述待美化图像作为已训练的图像美化模型的输入，所述已训练的图像美化模型用于对所述待美化图像进行美化，所述已训练的图像美化模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的，所述已训练的图像美化模型为训练完成的第一生成网络；

具体而言，当所述待美化图像为深肤色人脸图像时，采用深肤色人脸图像训练出的图像美化模型作为所述已训练的图像美化模型；当所述待美化图像为动物图像时，采用对应的动物图像训练出的图像美化模型作为所述已训练的图像美化模型；当所述待美化图像为植物图像时，采用对应的植物图像训练出的图像美化模型作为所述已训练的图像美化模型。可以理解的是，采用同一类目标对象的图像训练出的图像美化模型用于美化同一类目标对象的图像，美化效果将更准确，比如，采用黑色人脸图像训练出的图像美化模型美化黑色人脸图像美化效果将更准确；采用猴子图像训练出的图像美化模型美化猴子图像美化效果将更准确，在此举例不作具体限定。

可以理解的是，所述待美化图像与用于训练所述已训练的图像美化模型的图像的风格一致，比如，所述待美化图像与用于训练所述已训练的图像美化模型的图像的色彩、造型、主题一致，在此不作具体限定。

s106、获取所述已训练的图像美化模型输出的目标美化图像；

具体而言，所述待美化图像经过所述已训练的图像美化模型美化后输出目标美化图像，目标美化图像没有改变待美化图像的真实分布并且使得图像中目标对象的真实特征更凸出、增加图像中目标对象识别的准确率。

比如，当所述待美化图像为深肤色人脸图像时，经过所述已训练的图像美化模型美化后的深肤色人脸图像将保留人脸的面部器官的轮廓及纹理，使深肤色人脸肤色均匀并且肤色高亮，有利于肉眼通过所述已训练的图像美化模型美化后的深肤色人脸图像识别出图像中深肤色人脸的面部特征，在此举例不作具体限定。

s108、其中，所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入，所述第二生成网络用于对所述第一生成网络的输出进行还原，所述第二判别网络用于对所述第一生成网络的输出进行判断识别，所述第一生成网络和所述第二判别网络为对抗性训练网络；

所述第一生成网络用于使对图像合成后输出的图像包括所述目标美化图像与所述待美化图像之间的差异特征，所述差异特征包括高光差异特征、清晰度差异特征、色调差异特征。

所述第二生成网络对所述第一生成网络输出的图像进行还原后输出的图像与输入所述第一生成网络的图像近似。

所述第二判别网络拟合了源图像与所述第一源图像生成数据的wasserstein距离，用于使所述第一生成网络输出的图像与所述目标美化图像近似。

wasserstein距离又叫earth-mover距离(em距离)，用于衡量两个分布之间的距离，是在最优路径规划下的最小消耗。

s110、所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入，所述第四生成网络用于对所述第三生成网络的输出进行还原，所述第一判别网络用于对所述第三生成网络的输出进行判断识别，所述第三生成网络和所述第一判别网络为对抗性训练网络。

所述第三生成网络用于使第一生成网络、第二生成网络、第三生成网络、第四生成网络进行可逆的生成变换。

所述第四生成网络对所述第三生成网络输出的图像进行还原后输出的图像与输入所述第三生成网络的图像近似。

所述第一判别网络拟合了目标图像与所述第一目标图像生成数据的wasserstein距离，用于使所述第三生成网络输出的图像与所述待美化图像近似。

本实施例的图像美化方法通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像美化模型，只需要少量的样本进行学习即可学到训练样本的共同特征，泛化能力好；所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待美化图像到目标美化图像的学习，所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标美化图像到待美化图像的学习，在没有改变图像的真实分布情况下，使得图像中目标对象的真实特征更凸出，增加图像中目标对象识别的准确率。

如图2所示，在一个实施例中，所述已训练的图像美化模型采用如下方式训练得到：

s202、获取多个图像对，所述图像对中包括源图像、目标图像，所述源图像为待美化图像，目标图像为目标美化图像；

具体而言，每个图像对作为一个训练样本，训练样本的数量、目标图像与源图像的差异特征将影响训练出的图像美化模型的质量。可以理解的是，图像对的数量可以为50个、80个、100个、150个、200个，在此举例不作具体限定。

比如，当所述待美化图像为深肤色人脸图像时，所述目标图像与源图像的差异特征之间的差异特征包括高光差异特征、清晰度差异特征、色调差异特征，在此举例不作具体限定。

可以理解的是，每个图像对中的源图像和目标图像的风格一致，比如，每个图像对中的源图像和目标图像的色彩、造型、主题一致，在此举例不作具体限定。

s204、将所述源图像输入第一生成网络得到第一源图像生成数据，将所述第一源图像生成数据输入第二生成网络得到第二源图像生成数据，将所述目标图像输入第三生成网络得到第一目标图像生成数据，将所述第一目标图像生成数据输入第四生成网络得到第二目标图像生成数据，所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络；

所述图像生成网络是以卷积神经网络构成。

所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络是指所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络的输入层、隐含层、输出层相同。

s206、将所述源图像输入第一判别网络得到第一源图像期望数据，将所述第一源图像生成数据输入第二判别网络得到第二源图像期望数据，将所述目标图像输入第二判别网络得到第一目标图像期望数据，将所述第一目标图像生成数据输入第一判别网络得到第二目标图像期望数据，所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络且包括多个残差块、全连接层；

所述图像判别网络是以卷积神经网络构成，用于判断输入的图像是否是真实的学习目标。

所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络是指所述第一判别网络、所述第二判别网络的输入层、隐含层、输出层相同。

可以理解的是，所述第一判别网络、所述第二判别网络的全连接层后无需设置激活层。

s208、根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据、所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据采用梯度下降优化方法进行训练，得到已训练的图像美化模型。

具体而言，根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据按照第一损失函数进行计算得到第一损失值；根据所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据、所述第二源图像期望数据、所述目标图像第二期望数按照第二损失函数进行计算得到第二损失值；若所述第二损失值未达到相应的收敛条件时，则根据所述第一损失值更新所述第一判别网络、所述第二判别网络的网络参数，根据所述第二损失值更新所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络的网络参数；重复执行上述步骤直至第二损失值达到收敛条件，把训练完成的第一生成网络作为所述已训练的图像美化模型。其中，所述第一损失函数采用自适应调节的梯度惩罚系数以使每个所述第一损失函数对每个输入样本独立地施加梯度惩罚且梯度惩罚的大小满足lipschitz条件(利普希茨连续条件)。在一个实施例中，收敛条件是指在迭代的过程中，第二损失值发生收敛，基本不再发生变化，则训练停止。

比如，梯度下降优化方法包括adam算法，在此举例不作具体限定。

本实施例通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像美化模型，只需要少量的样本进行学习即可学到训练样本的共同特征，比如，采用100个样本进行学习即可学到训练样本的共同特征，泛化能力好；所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待美化图像到目标美化图像的学习，所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标美化图像到待美化图像的学习，使美化操作可逆，没有改变图像的真实分布；采用梯度下降优化方法计算复杂度小，能快速筛选出训练样本的共同特征，从而提高了训练效率。

如图3所示，在一个实施例中，所述第一判别网络包括依次相连的输入层、第一残差块、第二残差块、第三残差块、第四残差块、第五残差块、第六残差块、全连接层；

所述第一残差块包括第一残差卷积层、第一激活层、第一正则化层，所述第一残差卷积层采用对称填充、步长为2、通道数为16、每隔一个卷积层进行连接，所述第一激活层采用lrelu激活函数，所述第一正则化层用于对单个输入图像进行正则化；

所述第二残差块包括第二残差卷积层、第二激活层、第二正则化层，所述第二残差卷积层采用不填充、步长为2、通道数为32、每隔一个卷积层进行连接，所述第二激活层采用lrelu激活函数，所述第二正则化层用于对单个输入图像进行正则化；

所述第三残差块包括第三残差卷积层、第三激活层、第三正则化层，所述第三残差卷积层采用不填充、步长为2、通道数为64、每隔一个卷积层进行连接，所述第三激活层采用lrelu激活函数，所述第三正则化层用于对单个输入图像进行正则化；

所述第四残差块包括第四残差卷积层、第四激活层、第四正则化层，所述第四残差卷积层采用不填充、步长为2、通道数为128、每隔一个卷积层进行连接，所述第四激活层采用lrelu激活函数，所述第四正则化层用于对单个输入图像进行正则化；

所述第五残差块包括第五残差卷积层、第五激活层、第五正则化层，所述第五残差卷积层采用不填充、步长为2、通道数为128、每隔一个卷积层进行连接，所述第五激活层采用lrelu激活函数，所述第五正则化层用于对单个输入图像进行正则化；

所述第六残差块包括第六残差卷积层、第六激活层、第六正则化层，所述第六残差卷积层采用不填充、步长为2、通道数为128、每隔一个卷积层进行连接，所述第六激活层采用lrelu激活函数，所述第六正则化层用于对单个输入图像进行正则化；

其中，所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层、所述第四残差卷积层、所述第五残差卷积层、所述第六残差卷积层包括3×3卷积核、5×5卷积核中至少一种。可以理解的是，所述第一判别网络全连接层后无需设置激活层。

可以理解的是，所述第一判别网络的结构还可以由本领域技术人员根据实际需要自行设置，在此举例不作具体限定。

所述lrelu激活函数是指leakyrelu激活函数。可以理解的是，本领域技术人员根据实际需要将所述第一判别网络的激活函数设置为其他函激活函数，在此举例不作具体限定。

所述输入层用于将输入所述第一判别网络的图像进行归一化处理。比如，把输入所述第一判别网络的图像的像素的原始值归一化至[0,1]区间，以用于提升所述第一判别网络学习的效率。可以理解的是，所述输入层的结构可以由本领域技术人员根据实际需要自行设置，在此举例不作具体限定。

所述第一残差卷积层、所述第二残差卷积层、所述第三残差卷积层、所述第四残差卷积层、所述第五残差卷积层、所述第六残差卷积层采用全部是3×3卷积核、全部是5×5卷积核、部分3×3卷积核和部分5×5卷积核中的任一种。

因所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络，本申请中对所述第一判别网络的结构的限定同样适用于所述第二判别网络，在此对所述第二判别网络的结构不再展开赘述。

在一个实施例中，所述获取多个图像对，还包括：采集源图像，所述源图像为深肤色人脸图像，根据所述源图像进行美化处理生成与源图像对应的目标图像，所述美化处理包括保留真实特征的情况下实现肤色均匀及肤色高亮。

所述肤色均匀用于避免图像上不同区域的皮肤rgb值差异太大，皮肤rgb值差异太大将影响深肤色人脸的辨识度。其中，当待均匀区域的皮肤rgb值高于皮肤平均rgb值时，则减少待均匀区域的皮肤rgb值；当待均匀区域的皮肤rgb值低于皮肤平均rgb值时，则增加待均匀区域的皮肤rgb值。比如，当待均匀区域的皮肤rgb值高于皮肤平均rgb值时，则把待均匀区域的皮肤rgb值减少且减少后不低于皮肤平均rgb值；当待均匀区域的皮肤rgb值低于皮肤平均rgb值时，则把待均匀区域的皮肤rgb值增加且增加不高于皮肤平均rgb值，在此举例不作具体限定。

所述肤色高亮是指降低肤色的颜色饱和度及增加肤色的颜色亮度。比如，肤色的颜色的饱和度降低5％至25％，亮度增加5％至25％，在此举例不作具体限定。

随着带摄像功能的移动工具的普及，更多的图像来自带摄像功能的移动工具的拍摄，故选用带摄像功能的移动工具拍摄的图像作为源图像，源图像经过摄像专家美化处理后作为对应的目标图像。可以理解的是，还可以采用专业拍摄设备拍摄的图像作为源图像，在此举例不作具体限定。

所述带摄像功能的移动工具包括手机、平板电脑、穿戴设备，在此举例不作具体限定。

源图像可以包括在不同场景、不同时间段、不同天气等采集的图像，在此不作具体限定。

其中，采用整张拍摄的图像作为源图像。在另一个实施例中，按预设的尺寸从拍摄的图像中截取子图像作为源图像，把该源图像进行美化处理后作为目标图像，以用于提高训练图像美化模型的效率。

如图4所示，在一个实施例中，所述第一生成网络包括特征提取子网、特征还原子网、特征嵌入子网；

所述特征提取子网用于对所述源图像进行提取得到表层特征，对所述表层特征进行压缩得到第一特征图像，所述表层特征包括轮廓、纹理；

所述特征还原子网用于把所述第一特征图像进行放大还原得到第二特征图像；

所述特征嵌入子网用于把所述第一特征图像、所述第二特征图像、所述源图像进行融合处理得到第一源图像生成数据。

所述第一生成网络通过把输入的图像进行表层特征提取、压缩、放大还原、融合处理，表层特征提取提取后会再融合处理使输出的图像没有改变输入的图像的真实分布，并且保留了表层特征，增加对图像中目标对象识别的准确率。

所述融合处理是指把第一特征图像的信息、第二特征图像的信息、源图像的信息进行融合。

特征提取子网、特征还原子网、特征嵌入子网可以由本领域技术人员根据实际需要自行设置，在此不作具体限定。

因所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络，本申请中对所述第一判别网络的结构的限定同样适用于所述第二生成网络、所述第三生成网络、所述第四生成网络，在此对所述第二生成网络、所述第三生成网络、所述第四生成网络的结构不再展开赘述。

在一个实施例中，所述特征提取子网包括依次相连的多个第一卷积块；

所述第一卷积块包括依次相连的第七卷积层、第七激活层、第一分批归一化层；

所述第七卷积层采用3×3卷积核或5×5卷积核，且采用对称填充；

所述第七激活层采用selu激活函数。

可以理解的是，所述第一卷积块的数量根据输入所述特征提取子网的图像的尺寸进行确定。

比如，如图5所示，输入所述特征提取子网的图像尺寸为512×512×3(512为像素点，3为rgb通道数，一个颜色一个通道)时，第一卷积块的为9个，9个第一卷积块的步长依次为1、1、2、1、2、1、2、1、2，所述特征提取子网输出32×32×128维特征图，在此举例不作具体限定。

所述第一分批归一化层用于将图像数据进行归一化处理，比如，采用bn，避免过度拟合。

所述第七卷积层采用3×3卷积核或5×5卷积核是指全部采用3×3卷积核、全部采用5×5卷积核、部分采用3×3卷积核和部分采用5×5卷积核中的任一种方式。

在一个实施例中，所述特征还原子网包括依次相连的多个第二卷积块、一个第三卷积块；

所述第二卷积块包括依次相连的第八卷积层、第八激活层、第二分批归一化层，所述第八卷积层采用3×3卷积核且采用对称填充，所述第八激活层采用selu激活函数；

所述第三卷积块包括第九卷积层、第九激活层、第一单元卷积层，所述第九卷积层包括采用8×8卷积核、步长为1、采用对称填充，所述第九激活层采用selu激活函数，所述第一单元卷积层包括采用1×1卷积核、步长为1、不进行填充。

可以理解的是，所述第二卷积块的数量根据输入的图像的尺寸进行确定。

比如，如图6所示，输入所述特征提取子网的图像尺寸为512×512×3(512为像素点，3为rgb通道数，一个颜色一个通道)，所述特征提取子网输出的图像为32×32×128维特征图时，第二卷积块的为4个，4个第二卷积块的步长依次为1、2、1、2，所述特征还原子网输出1×1×128维特征图，在此举例不作具体限定。

所述第二分批归一化层用于将图像数据进行归一化处理，比如，采用bn，避免过度拟合。

如图7所示，在一个实施例中，所述特征嵌入子网用于把所述第一特征图像、所述第二特征图像、所述源图像进行融合处理得到第一源图像生成数据，具体包括：

s702、将所述第二特征图像复制后进行拼接得到第三特征图像，所述第三特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同；

所述第三特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同是指图像的大小不变、通道数完全相同。比如，所述特征提取子网输出的图像为32×32×128维特征图(第一特征图像)时，第三特征图像为32×32×128维特征图。

s704、将所述第三特征图像与所述第一特征图像在通道维上进行联结得到第四特征图像；

所述通道维是通道的维度，通道是指颜色通道，比如，第三特征图像为32×32×128维特征图(32为像素点，128为rgb通道数)，其中，32×32代表是图像的长宽尺寸，128为通道维度。通道维上进行联结是指第三特征图像和第一特征图像在通道维度上直接连接，可以理解为第一特征图像在通道维度上直接加在第三特征图像的后面。进行联结后的图像大小(图像的长宽尺度)不变，通道数增加。

s706、将所述第四特征图像经过第四卷积块降通道处理后得到第五特征图像，所述第五特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同；

所述降通道处理是指降低通道数量。

第四卷积块包括卷积核为1×1及采用不填充的卷积层、采用selu激活函数的激活层、采用bn的分批归一化层。

s708、对所有所述第五特征图像根据由近及远的顺序进行减少通道数量、填充、与所述第一特征图像联结处理，得到待融合目标特征图像，所述待融合目标特征图像的尺寸及通道数量与所述源图像的尺寸及通道数量相同；

所述由近及远的顺序是指所述特征嵌入子网提取特征的顺序，先提取作为远，后提取的作为近。

s710、将所述待融合目标特征图像与所述源图像进行融合，得到第一源图像生成数据。

具体而言，将所述待融合目标特征图像与所述源图像对应位置的特征值直接相加，得到第一源图像生成数据。

比如，输入所述特征提取子网的图像尺寸为512×512×3(512为像素点，3为rgb通道数，一个颜色一个通道)，所述特征提取子网输出的图像为32×32×128维特征图(第一特征图像)时，所述特征还原子网输出1×1×128维特征图(第二特征图像)；

将1×1×128(第二特征图像)维特征图复制32×32份后进行拼接得到32×32×128维特征图(第三特征图像)；

在32×32×128维特征图(第三特征图像)后直接加在所述特征提取子网输出的图像为32×32×128维特征图(第一特征图像)后面得到32×32×256维特征图(第四特征图像)；

将32×32×256维特征图(第四特征图像)经过第四卷积块降通道处理后得到32×32×128维特征图(第五特征图像)；

将所有32×32×128维特征图(第五特征图像)根据由近及远的顺序进行减少通道数量、填充、与所述第一特征图像联结处理，得到512×512×3(待融合目标特征图像)；

将512×512×3(待融合目标特征图像)与512×512×3(源图像)对应位置的特征值直接相加得到512×512×3(第一源图像生成数据)。

如图8所示，在一个实施例中，所述对所有所述第五特征图像根据由近及远的顺序进行减少通道数量、填充、与所述第一特征图像联结处理，得到待融合目标特征图像，具体包括：

s802、采用由近及远的顺序获取所述第五特征图像；

所述由近及远的顺序是指所述特征嵌入子网提取特征的顺序，先提取作为远，后提取的作为近。

s804、将所述第五特征图像通过第五卷积块压缩后得到第六特征图像；

所述第五卷积块包括卷积层(卷积核为3×3、采用对称填充、步长为2)、采用selu激活函数的激活层、采用bn的分批归一化层。

s806、将所述第六特征图像进行相邻平均法填充后得到第七特征图像，所述第七特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同；

比如，所述第七特征图像、所述第一特征图像都为32×32×128维特征图。

s808、将所述第七特征图像与所述第一特征图像在通道维上进行联结，得到待融合目标特征图像。

具体而言，所述通道维是通道的维度，通道是指颜色通道，比如，第三特征图像为32×32×128维特征图(32为像素点，128为rgb通道数)。

将所述第七特征图像在通道维度上直接加在所述第一特征图像后面，得到待融合目标特征图像。可以理解的是，联结过程中图像的大小(图像的长宽尺寸)不变，通道数增加。

可以理解的是，通过循环执行步骤s802至步骤s808以使所述第五特征图像经过减少通道数量、填充、与所述第一特征图像联结处理得到待融合目标特征图像，所有所述第五特征图像都经过一次步骤s802至步骤s808的处理则结束循环。即第五特征图像有很多个，循环的目的是依次处理每个第五特征图像，直到所有第五特征图像处理完毕结束。

如图9所示，在一个实施例中，所述根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据、所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据采用梯度下降优化方法进行训练，得到已训练的图像美化模型，具体包括：

s902、根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据按照第一损失函数进行计算得到第一损失值，若所述第一损失值未达到第一收敛条件，则根据所述第一损失值更新所述第一判别网络、所述第二判别网络的网络参数，把更新后的所述第一判别网络、所述第二判别网络用于下一次计算所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据；

s904、根据所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据、所述第二源图像期望数据、所述目标图像第二期望数按照第二损失函数进行计算得到第二损失值，若所述第二损失值未达到第二收敛条件，则根据所述第二损失值更新所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络的网络参数，把更新后的所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络用于下一次计算所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据；

s906、重复执行上述步骤直至所述第一损失值达到所述第一收敛条件和所述第二损失值达到所述第二收敛条件，把训练完成的第一生成网络作为所述已训练的图像美化模型。

具体而言，第一收敛条件是指第一损失值需要达到的收敛条件，第二收敛条件是第二损失值需要达到的收敛条件，收敛条件是指随着迭代次数的增加，损失值不再发生变化。

重复执行步骤s902至步骤s904直至所述第一损失值达到所述第一收敛条件和所述第二损失值达到所述第二收敛条件，把训练完成的第一生成网络作为所述已训练的图像美化模型。每次循环通过第一损失函数进行计算得到第一损失值、同时按照第二损失函数进行计算得到第二损失值，增加第一损失函数迭代计算的次数，从而提高了所述第一判别网络、所述第二判别网络判别的准确性，通过提高所述第一判别网络、所述第二判别网络判别的准确性提高所述已训练的图像美化模型的准确性。

其中，所述第一损失函数采用自适应调节的梯度惩罚系数以使每个所述第一损失函数对每个输入样本独立地施加梯度惩罚且梯度惩罚的大小满足lipschitz条件。

在一个实施例中，所述第一损失函数为l1的计算公式为：

l1＝e[dy(y1)]-e[dy(y)]+e[dx(x1)]-e[dx(x)]+a×d_gp

所述第二损失函数为l2的计算公式为：

l2＝-e[dy(y1)]-e[dx(x1)]+1000e[mse(x,y1)]+1000[mse(y,x1)]+10000[mse(x,x2)]+10000[mse(y,y2)]

其中，e[dy(y1)]为所述第二源图像期望数据，e[dy(y)]为所述第一目标图像期望数据，e[dx(x1)]为所述第二目标图像期望数据，e[dx(x)]为第一源图像期望数据，mse()是均方误差；d_gp是判别网络对生成分布的样本点(第二源图像生成数据上的点)和真实分布的样本点(源图像上与第二源图像生成数据上的点对应位置的点)连线上的样本点的移动加权平均梯度惩罚项，所述生成分布的样本点是指所述第二源图像生成数据；a为梯度惩罚系数，随d_gp的变化而变化；x为源图像，y为目标图像，x1为第一目标图像生成数据，y1为第一源图像生成数据，x2为第二源图像生成数据，y2为第二目标图像生成数据，1000e[mse(x,y1)]中e[mse(x,y1)]为mse(x,y1)的期望值。

比如，当d_gp大于预设阈值，则a乘以2的值作为更新后的梯度惩罚系数a，以使每个所述第一损失函数对每个输入样本独立地施加梯度惩罚且梯度惩罚的大小满足lipschitz条件，从而使所述第二损失函数的输出的所述第二损失值最小化。所述预设阈值比如0.05，在此举例不做具体限定。

可以理解的是，本领域技术人员根据实际需要自行设置第一损失函数、第二损失函数，在此举例不作具体限定。

如图10所示，在一个实施例中，提出了一种图像美化装置，所述装置包括：

图像美化模块1002，用于获取待美化图像，将所述待美化图像作为已训练的图像美化模型的输入，所述已训练的图像美化模型用于对所述待美化图像进行美化，所述已训练的图像美化模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的，所述已训练的图像美化模型为训练完成的第一生成网络；获取所述已训练的图像美化模型输出的目标美化图像，其中，所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入，所述第二生成网络用于对所述第一生成网络的输出进行还原，所述第二判别网络用于对所述第一生成网络的输出进行判断识别，所述第一生成网络和所述第二判别网络为对抗性训练网络，所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入，所述第四生成网络用于对所述第三生成网络的输出进行还原，所述第一判别网络用于对所述第三生成网络的输出进行判断识别，所述第三生成网络和所述第一判别网络为对抗性训练网络。

本实施例的图像美化装置的图像美化模块通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像美化模型，只需要少量的样本进行学习即可学到训练样本的共同特征，泛化能力好；所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待美化图像到目标美化图像的学习，所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标美化图像到待美化图像的学习，在没有改变图像的真实分布情况下，使得图像中目标对象的真实特征更凸出，增加图像中目标对象识别的准确率。

在一个实施例中，所述已训练的图像美化模型采用如下方式训练得到：

获取多个图像对，所述图像对中包括源图像、目标图像，所述源图像为待美化图像，目标图像为目标美化图像；

将所述源图像输入第一生成网络得到第一源图像生成数据，将所述第一源图像生成数据输入第二生成网络得到第二源图像生成数据，将所述目标图像输入第三生成网络得到第一目标图像生成数据，将所述第一目标图像生成数据输入第四生成网络得到第二目标图像生成数据，所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络；

将所述源图像输入第一判别网络得到第一源图像期望数据，将所述第一源图像生成数据输入第二判别网络得到第二源图像期望数据，将所述目标图像输入第二判别网络得到第一目标图像期望数据，将所述第一目标图像生成数据输入第一判别网络得到第二目标图像期望数据，所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络且包括多个残差块、全连接层；

根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据、所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据采用梯度下降优化方法进行训练，得到已训练的图像美化模型。

图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器和终端设备，所述服务器包括但不限于高性能计算机和高性能计算机集群；所述终端设备包括但不限于移动终端设备和台式终端设备，所述移动终端设备包括但不限于手机、平板电脑、智能手表和笔记本电脑，所述台式终端设备包括但不限于台式电脑和车载电脑。如图11所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现一种图像美化方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种图像美化方法。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的一种图像美化方法可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成的一种图像美化装置的各个程序模板。比如，图像美化模块1002。

在一个实施例中，提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行时实现如下方法步骤：获取待美化图像；将所述待美化图像作为已训练的图像美化模型的输入，所述已训练的图像美化模型用于对所述待美化图像进行美化，所述已训练的图像美化模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的，所述已训练的图像美化模型为训练完成的第一生成网络；获取所述已训练的图像美化模型输出的目标美化图像；其中，所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入，所述第二生成网络用于对所述第一生成网络的输出进行还原，所述第二判别网络用于对所述第一生成网络的输出进行判断识别，所述第一生成网络和所述第二判别网络为对抗性训练网络；所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入，所述第四生成网络用于对所述第三生成网络的输出进行还原，所述第一判别网络用于对所述第三生成网络的输出进行判断识别，所述第三生成网络和所述第一判别网络为对抗性训练网络。

本实施例的图像美化方法通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像美化模型，只需要少量的样本进行学习即可学到训练样本的共同特征，泛化能力好；所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待美化图像到目标美化图像的学习，所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标美化图像到待美化图像的学习，在没有改变图像的真实分布情况下，使图像中目标对象的真实特征更凸出，增加图像中目标对象识别的准确率。

在一个实施例中，提出了一种计算机设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器实现如下方法步骤：获取待美化图像；将所述待美化图像作为已训练的图像美化模型的输入，所述已训练的图像美化模型用于对所述待美化图像进行美化，所述已训练的图像美化模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的，所述已训练的图像美化模型为训练完成的第一生成网络；获取所述已训练的图像美化模型输出的目标美化图像；其中，所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入，所述第二生成网络用于对所述第一生成网络的输出进行还原，所述第二判别网络用于对所述第一生成网络的输出进行判断识别，所述第一生成网络和所述第二判别网络为对抗性训练网络；所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入，所述第四生成网络用于对所述第三生成网络的输出进行还原，所述第一判别网络用于对所述第三生成网络的输出进行判断识别，所述第三生成网络和所述第一判别网络为对抗性训练网络。

需要说明的是，上述一种图像美化方法、一种图像美化装置、存储介质及计算机设备属于一个总的发明构思，一种图像美化方法、一种图像美化装置、存储介质及计算机设备实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高亚南
技术所有人：深圳市雄帝科技股份有限公司
我是此专利的发明人

上一篇：传感器装置和用于传感器测量的方法与流程
上一篇：一种四门式冰箱的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。