一种图像增强方法、装置、介质及设备与流程

文档序号:20707443发布日期:2020-05-12 16:39阅读:118来源:国知局
一种图像增强方法、装置、介质及设备与流程

本发明涉及图像处理技术领域,尤其涉及一种图像增强方法、装置、介质及设备。



背景技术:

日常经常需要用到证件照,随着带拍照功能的设备的普及,很多人喜欢自行拍摄照片后采用做图软件处理出证件照。在做图软件中通过依次执行选择抠图、选择抠图方式、选择删除和保留区域、生成透明底层图片操作后,再选择填充底色进行证件照更换背景颜色操作。在证件照背景颜色与目标物颜色比较接近、深色头发中存在白头发、披肩发蓬松情况下采用自动抠图效果不好,针对图片中颜色比较乱且区分不明显的情况下只能采用手动抠图,比较耗时,而且背景与目标物不太融洽。因此,提出一种避免图像中目标对象与背景边界不太融洽的图像增强方法显得尤为重要。



技术实现要素:

基于此,有必要针对上述问题,提出了一种图像增强方法、装置、介质及设备。

第一方面,本发明提出了一种图像增强方法,所述方法包括:

获取待增强图像;

将所述待增强图像作为已训练的图像增强模型的输入,所述已训练的图像增强模型用于对所述待增强图像进行增强,所述已训练的图像增强模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的,所述已训练的图像增强模型为训练完成的第一生成网络;

获取所述已训练的图像增强模型输出的目标增强图像;

其中,所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入,所述第二生成网络用于对所述第一生成网络的输出进行还原,所述第二判别网络用于对所述第一生成网络的输出进行判断识别,所述第一生成网络和所述第二判别网络为对抗性训练网络;

所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入,所述第四生成网络用于对所述第三生成网络的输出进行还原,所述第一判别网络用于对所述第三生成网络的输出进行判断识别,所述第三生成网络和所述第一判别网络为对抗性训练网络。

第二方面,本发明还提出了一种图像增强装置,所述装置包括:

图像增强模块,用于获取待增强图像,将所述待增强图像作为已训练的图像增强模型的输入,所述已训练的图像增强模型用于对所述待增强图像进行增强,所述已训练的图像增强模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的,所述已训练的图像增强模型为训练完成的第一生成网络;获取所述已训练的图像增强模型输出的目标增强图像,其中,所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入,所述第二生成网络用于对所述第一生成网络的输出进行还原,所述第二判别网络用于对所述第一生成网络的输出进行判断识别,所述第一生成网络和所述第二判别网络为对抗性训练网络,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入,所述第四生成网络用于对所述第三生成网络的输出进行还原,所述第一判别网络用于对所述第三生成网络的输出进行判断识别,所述第三生成网络和所述第一判别网络为对抗性训练网络。

第三方面,本发明还提出了一种存储介质,存储有计算机指令程序,所述计算机指令程序被处理器执行时,使得所述处理器执行第一方面任一项所述方法的步骤。

第四方面,本发明还提出了一种计算机设备,包括至少一个存储器、至少一个处理器,所述存储器存储有计算机指令程序,所述计算机指令程序被所述处理器执行时,使得所述处理器执行第一方面任一项所述方法的步骤。

综上所述,本发明的图像增强方法通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像增强模型,只需要少量的样本进行学习即可学到训练样本的共同特征,泛化能力好;所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待增强图像到目标增强图像的学习,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标增强图像到待增强图像的学习,通过学习在保留想要的目标对象的特征情况下,避免图像中目标对象与背景边界不太融洽;只需要把待增强图像输入所述已训练的图像增强模型即可得到目标增强图像,相对做图软件抠图处理,操作简单。因此,本发明在保留想要的目标对象的特征情况下,使图像中目标对象与背景边界更融洽,并且操作简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

其中:

图1为一个实施例中图像增强方法的流程图;

图2为图1中图像增强方法的训练图像增强模型的流程图;

图3为一个实施例中第一判别网络的结构示意图;

图4为一个实施例中第一生成网络的结构示意图;

图5为一个实施例中特征提取子网的结构示意图;

图6为一个实施例中特征还原子网的结构示意图;

图7为图1中图像增强方法的特征嵌入子网的工作流程图;

图8为图7中特征嵌入子网的确定待融合目标特征图像的流程图;

图9为图1中图像增强方法的梯度下降优化方法的流程图;

图10为一个实施例中图像增强装置的结构框图;

图11为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,在一个实施例中,提出了一种图像增强方法,所述方法包括:

s102、获取待增强图像;

其中,所述待增强图像可以是需要增强的人物证件照,也可以是是其他图像,比如,可以是动物图像、植物图像,在此举例不作具体限定。

所述待增强图像可以包括在不同场景、不同时间段、不同天气等采集的图像,在此不作具体限定。

s104、将所述待增强图像作为已训练的图像增强模型的输入,所述已训练的图像增强模型用于对所述待增强图像进行增强,所述已训练的图像增强模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的,所述已训练的图像增强模型为训练完成的第一生成网络;

具体而言,当所述待增强图像为人物证件照人脸图像时,采用人物证件图像训练出的图像增强模型作为所述已训练的图像增强模型;当所述待增强图像为动物图像时,采用对应的动物图像训练出的图像增强模型作为所述已训练的图像增强模型;当所述待增强图像为植物图像时,采用对应的植物图像训练出的图像增强模型作为所述已训练的图像增强模型。可以理解的是,采用同一类目标对象的图像训练出的图像增强模型用于增强同一类目标对象的图像,增强效果将更准确,比如,采用黑色人脸图像训练出的图像增强模型增强黑色人脸图像增强效果将更准确;采用猴子图像训练出的图像增强模型增强猴子图像增强效果将更准确,在此举例不作具体限定。

可以理解的是,所述待增强图像与用于训练所述已训练的图像增强模型的图像的风格一致,比如,所述待增强图像与用于训练所述已训练的图像增强模型的图像的色彩、造型、主题一致,在此不作具体限定。

s106、获取所述已训练的图像增强模型输出的目标增强图像;

具体而言,所述待增强图像经过所述已训练的图像增强模型增强后输出目标增强图像,目标增强图像在保留想要的目标对象的特征情况下避免图像中目标对象与背景边界不太融洽。

比如,当所述待增强图像为人物证件照时,经过所述已训练的图像增强模型增强后的人物证件图像将保留想要的目标对象的特征情况,避免图像中目标对象与背景边界不太融洽,在此举例不作具体限定。

所述想要的目标对象的特征包括头发、目标对象的轮廓。

s108、其中,所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入,所述第二生成网络用于对所述第一生成网络的输出进行还原,所述第二判别网络用于对所述第一生成网络的输出进行判断识别,所述第一生成网络和所述第二判别网络为对抗性训练网络;

所述第一生成网络用于使对图像合成后输出的图像包括所述目标增强图像与所述待增强图像之间的差异特征,所述差异特征包括图像中目标对象与周围背景差异特征。

所述第二生成网络对所述第一生成网络输出的图像进行还原后输出的图像与输入所述第一生成网络的图像近似。

所述第二判别网络拟合了源图像与所述第一源图像生成数据的wasserstein距离,用于使所述第一生成网络输出的图像与所述目标增强图像近似。

wasserstein距离又叫earth-mover距离(em距离),用于衡量两个分布之间的距离,是在最优路径规划下的最小消耗。

s110、所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入,所述第四生成网络用于对所述第三生成网络的输出进行还原,所述第一判别网络用于对所述第三生成网络的输出进行判断识别,所述第三生成网络和所述第一判别网络为对抗性训练网络。

所述第三生成网络用于使第一生成网络、第二生成网络、第三生成网络、第四生成网络进行可逆的生成变换。

所述第四生成网络对所述第三生成网络输出的图像进行还原后输出的图像与输入所述第三生成网络的图像近似。

所述第一判别网络拟合了目标图像与所述第一目标图像生成数据的wasserstein距离,用于使所述第三生成网络输出的图像与所述待增强图像近似。

本实施例的图像增强方法通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像增强模型,只需要少量的样本进行学习即可学到训练样本的共同特征,泛化能力好;所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待增强图像到目标增强图像的学习,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标增强图像到待增强图像的学习,通过学习在保留想要的目标对象的特征情况下,避免图像中目标对象与背景边界不太融洽;只需要把待增强图像输入所述已训练的图像增强模型即可得到目标增强图像,相对做图软件抠图处理,操作简单。

如图2所示,在一个实施例中,所述已训练的图像增强模型采用如下方式训练得到:

s202、获取多个图像对,所述图像对中包括源图像、目标图像,所述源图像为待增强图像,目标图像为目标增强图像;

具体而言,每个图像对作为一个训练样本,训练样本的数量、目标图像与源图像的差异特征将影响训练出的图像增强模型的质量。可以理解的是,图像对的数量可以为50个、80个、100个、150个、200个,在此举例不作具体限定。

比如,当所述待增强图像为人物证件照时,所述目标图像与源图像的差异特征之间的差异特征包括图像中目标对象与周围背景差异特征,在此举例不作具体限定。

可以理解的是,每个图像对中的源图像和目标图像的风格一致,比如,每个图像对中的源图像和目标图像的色彩、造型、主题一致,在此举例不作具体限定。

s204、将所述源图像输入第一生成网络得到第一源图像生成数据,将所述第一源图像生成数据输入第二生成网络得到第二源图像生成数据,将所述目标图像输入第三生成网络得到第一目标图像生成数据,将所述第一目标图像生成数据输入第四生成网络得到第二目标图像生成数据,所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络;

所述图像生成网络是以卷积神经网络构成。

所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络是指所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络的输入层、隐含层、输出层相同。

s206、将所述源图像输入第一判别网络得到第一源图像期望数据,将所述第一源图像生成数据输入第二判别网络得到第二源图像期望数据,将所述目标图像输入第二判别网络得到第一目标图像期望数据,将所述第一目标图像生成数据输入第一判别网络得到第二目标图像期望数据,所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络且包括多个基础块、全连接层;

所述图像判别网络是以卷积神经网络构成,用于判断输入的图像是否是真实的学习目标。

所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络是指所述第一判别网络、所述第二判别网络的输入层、隐含层、输出层相同。

可以理解的是,所述第一判别网络、所述第二判别网络的全连接层后无需设置激活层。

s208、根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据、所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据采用梯度下降优化方法进行训练,得到已训练的图像增强模型。

具体而言,根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据按照第一损失函数进行计算得到第一损失值;根据所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据、所述第二源图像期望数据、所述目标图像第二期望数按照第二损失函数进行计算得到第二损失值;若所述第二损失值未达到相应的收敛条件时,则根据所述第二损失值更新所述第一判别网络、所述第二判别网络的网络参数,根据所述第二损失值更新所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络的网络参数;重复执行上述步骤直至第二损失值达到收敛条件,把训练完成的第一生成网络作为所述已训练的图像增强模型;其中,所述第一损失函数采用自适应调节的梯度惩罚系数以使每个所述第一损失函数对每个输入样本独立地施加梯度惩罚且梯度惩罚的大小满足lipschitz条件(利普希茨连续条件)。在一个实施例中,收敛条件是指在迭代的过程中,第二损失值发生收敛,基本不再发生变化,则训练停止。

比如,梯度下降优化方法包括adam算法,在此举例不作具体限定。

本实施例通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像增强模型,只需要少量的样本进行学习即可学到训练样本的共同特征,比如,采用100个样本进行学习即可学到训练样本的共同特征,泛化能力好;所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待增强图像到目标增强图像的学习,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标增强图像到待增强图像的学习,使增强操作可逆,在保留想要的目标对象的特征情况下避免图像中目标对象与背景边界不太融洽;采用梯度下降优化方法计算复杂度小,能快速筛选出训练样本的共同特征,从而提高了训练效率。

如图3所示,在一个实施例中,所述第一判别网络包括依次相连的输入层、第一基础块、第二基础块、第三基础块、第四基础块、第五基础块、第六基础块、全连接层;

所述第一基础块包括第一基础卷积层、第一激活层、第一正则化层,所述第一基础卷积层采用3×3卷积核、对称填充、步长为2、通道数为16,所述第一激活层采用lrelu激活函数,所述第一正则化层用于对单个输入图像进行正则化;

所述第二基础块包括第二基础卷积层、第二激活层、第二正则化层,所述第二基础卷积层采用3×3卷积核、不填充、步长为2、通道数为32,所述第二激活层采用lrelu激活函数,所述第二正则化层用于对单个输入图像进行正则化;

所述第三基础块包括第三基础卷积层、第三激活层、第三正则化层,所述第三基础卷积层采用3×3卷积核、不填充、步长为2、通道数为64,所述第三激活层采用lrelu激活函数,所述第三正则化层用于对单个输入图像进行正则化;

所述第四基础块包括第四基础卷积层、第四激活层、第四正则化层,所述第四基础卷积层采用3×3卷积核、不填充、步长为2、通道数为128,所述第四激活层采用lrelu激活函数,所述第四正则化层用于对单个输入图像进行正则化;

所述第五基础块包括第五基础卷积层、第五激活层、第五正则化层,所述第五基础卷积层采用3×3卷积核、不填充、步长为2、通道数为128,所述第五激活层采用lrelu激活函数,所述第五正则化层用于对单个输入图像进行正则化;

所述第六基础块包括第六基础卷积层、第六激活层、第六正则化层,所述第六基础卷积层采用3×3卷积核、不填充、步长为2、通道数为128,所述第六激活层采用lrelu激活函数,所述第六正则化层用于对单个输入图像进行正则化。

可以理解的是,所述第一判别网络的结构还可以由本领域技术人员根据实际需要自行设置,在此举例不作具体限定。

所述lrelu激活函数是指leakyrelu激活函数。可以理解的是,本领域技术人员根据实际需要将所述第一判别网络的激活函数设置为其他函激活函数,在此举例不作具体限定。

所述输入层用于将输入所述第一判别网络的图像进行归一化处理。比如,把输入所述第一判别网络的图像的像素的原始值归一化至[0,1]区间,以用于提升所述第一判别网络学习的效率。可以理解的是,所述输入层的结构可以由本领域技术人员根据实际需要自行设置,在此举例不作具体限定。

因所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络,本申请中对所述第一判别网络的结构的限定同样适用于所述第二判别网络,在此对所述第二判别网络的结构不再展开赘述。

在一个实施例中,所述获取多个图像对,还包括:采集源图像,所述源图像为人物证件照,根据所述源图像进行增强处理生成与源图像对应的目标图像,所述增强处理包括保留想要的目标对象的特征的标准化处理。

所述标准化处理用于保留想要的目标对象的特征,处理方式与把源图像处理成目标图像的方式相同或相近,比如,保留目标对象的头发轮廓、衣服轮廓、脸部轮廓。

随着带摄像功能的移动工具的普及,更多的图像来自带摄像功能的移动工具的拍摄,故选用带摄像功能的移动工具拍摄的图像作为源图像,源图像经过摄像专家增强处理后作为对应的目标图像。可以理解的是,还可以采用专业拍摄设备拍摄的图像作为源图像,在此举例不作具体限定。

所述带摄像功能的移动工具包括手机、平板电脑、穿戴设备,在此举例不作具体限定。

源图像可以包括在不同场景、不同时间段、不同天气等采集的图像,在此不作具体限定。

其中,采用整张拍摄的图像作为源图像。在另一个实施例中,按预设的尺寸从拍摄的图像中截取子图像作为源图像,把该源图像进行增强处理后作为目标图像,以用于提高训练图像增强模型的效率。

如图4所示,在一个实施例中,所述第一生成网络包括特征提取子网、特征还原子网、特征嵌入子网;

所述特征提取子网用于对所述源图像进行提取得到表层特征,对所述表层特征进行压缩得到第一特征图像,所述表层特征包括轮廓;

所述特征还原子网用于把所述第一特征图像进行放大还原得到第二特征图像;

所述特征嵌入子网用于把所述第一特征图像、所述第二特征图像、所述源图像进行融合处理得到第一源图像生成数据。

所述第一生成网络通过把输入的图像进行表层特征提取、压缩、放大还原、融合处理,表层特征提取提取后会再融合处理使输出的图像没有改变输入的图像的真实分布,并且保留了表层特征保留想要的目标对象的特征。

所述融合处理是指把第一特征图像的信息、第二特征图像的信息、源图像的信息进行融合。

特征提取子网、特征还原子网、特征嵌入子网可以由本领域技术人员根据实际需要自行设置,在此不作具体限定。

因所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络,本申请中对所述第一判别网络的结构的限定同样适用于所述第二生成网络、所述第三生成网络、所述第四生成网络,在此对所述第二生成网络、所述第三生成网络、所述第四生成网络的结构不再展开赘述。

在一个实施例中,所述特征提取子网包括依次相连的多个第一卷积块;

所述第一卷积块包括依次相连的第七卷积层、第七激活层、第一分批归一化层;

所述第七卷积层采用3×3卷积核或5×5卷积核,且采用对称填充;

所述第七激活层采用selu激活函数。

可以理解的是,所述第一卷积块的数量根据输入所述特征提取子网的图像的尺寸进行确定。

比如,如图5所示,输入所述特征提取子网的图像尺寸为512×512×3(512为像素点,3为rgb通道数,一个颜色一个通道)时,第一卷积块的为9个,9个第一卷积块的步长依次为1、1、2、1、2、1、2、1、2,所述特征提取子网输出32×32×128维特征图,在此举例不作具体限定。

所述第一分批归一化层用于将图像数据进行归一化处理,比如,采用bn,避免过度拟合。

所述第七卷积层采用3×3卷积核或5×5卷积核是指全部采用3×3卷积核、全部采用5×5卷积核、部分采用3×3卷积核和部分采用5×5卷积核中的任一种方式。

在一个实施例中,所述特征还原子网包括依次相连的多个第二卷积块、一个第三卷积块;

所述第二卷积块包括依次相连的第八卷积层、第八激活层、第二分批归一化层,所述第八卷积层采用3×3卷积核且采用对称填充,所述第八激活层采用selu激活函数;

所述第三卷积块包括第九卷积层、第九激活层、第一单元卷积层,所述第九卷积层包括采用8×8卷积核、步长为1、采用对称填充,所述第九激活层采用selu激活函数,所述第一单元卷积层包括采用1×1卷积核、步长为1、不进行填充。

可以理解的是,所述第二卷积块的数量根据输入的图像的尺寸进行确定。

比如,如图6所示,输入所述特征提取子网的图像尺寸为512×512×3(512为像素点,3为rgb通道数,一个颜色一个通道),所述特征提取子网输出的图像为32×32×128维特征图时,第二卷积块的为4个,4个第二卷积块的步长依次为1、2、1、2,所述特征还原子网输出1×1×128维特征图,在此举例不作具体限定。

所述第二分批归一化层用于将图像数据进行归一化处理,比如,采用bn,避免过度拟合。

如图7所示,在一个实施例中,所述特征嵌入子网用于把所述第一特征图像、所述第二特征图像、所述源图像进行融合处理得到第一源图像生成数据,具体包括:

s702、将所述第二特征图像复制后进行拼接得到第三特征图像,所述第三特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同;

所述第三特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同是指图像的大小不变、通道数完全相同。比如,所述特征提取子网输出的图像为32×32×128维特征图(第一特征图像)时,第三特征图像为32×32×128维特征图。

s704、将所述第三特征图像与所述第一特征图像在通道维上进行联结得到第四特征图像;

所述通道维是通道的维度,通道是指颜色通道,比如,第三特征图像为32×32×128维特征图(32为像素点,128为rgb通道数),其中,32×32代表是图像的长宽尺寸,128为通道维度。通道维上进行联结是指第三特征图像和第一特征图像在通道维度上直接连接,可以理解为第一特征图像在通道维度上直接加在第三特征图像的后面。进行联结后的图像大小(图像的长宽尺度)不变,通道数增加。

s706、将所述第四特征图像经过第四卷积块降通道处理后得到第五特征图像,所述第五特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同;

所述降通道处理是指降低通道数量。

第四卷积块包括卷积核为1×1及采用不填充的卷积层、采用selu激活函数的激活层、采用bn的分批归一化层。

s708、对所有所述第五特征图像根据由近及远的顺序进行减少通道数量、填充、与所述第一特征图像联结处理,得到待融合目标特征图像,所述待融合目标特征图像的尺寸及通道数量与所述源图像的尺寸及通道数量相同;

所述由近及远的顺序是指所述特征嵌入子网提取特征的顺序,先提取作为远,后提取的作为近。

s710、将所述待融合目标特征图像与所述源图像进行融合,得到第一源图像生成数据。

具体而言,将所述待融合目标特征图像与所述源图像对应位置的特征值直接相加,得到第一源图像生成数据。

比如,输入所述特征提取子网的图像尺寸为512×512×3(512为像素点,3为rgb通道数,一个颜色一个通道),所述特征提取子网输出的图像为32×32×128维特征图(第一特征图像)时,所述特征还原子网输出1×1×128维特征图(第二特征图像);

将1×1×128(第二特征图像)维特征图复制32×32份后进行拼接得到32×32×128维特征图(第三特征图像);

在32×32×128维特征图(第三特征图像)后直接加在所述特征提取子网输出的图像为32×32×128维特征图(第一特征图像)后面得到32×32×256维特征图(第四特征图像);

将32×32×256维特征图(第四特征图像)经过第四卷积块降通道处理后得到32×32×128维特征图(第五特征图像);

将所有32×32×128维特征图(第五特征图像)根据由近及远的顺序进行减少通道数量、填充、与所述第一特征图像联结处理,得到512×512×3(待融合目标特征图像);

将512×512×3(待融合目标特征图像)与512×512×3(源图像)对应位置的特征值直接相加得到512×512×3(第一源图像生成数据)。

如图8所示,在一个实施例中,所述对所有所述第五特征图像根据由近及远的顺序进行减少通道数量、填充、与所述第一特征图像联结处理,得到待融合目标特征图像,具体包括:

s802、采用由近及远的顺序获取所述第五特征图像;

所述由近及远的顺序是指所述特征嵌入子网提取特征的顺序,先提取作为远,后提取的作为近。

s804、将所述第五特征图像通过第五卷积块压缩后得到第六特征图像;

所述第五卷积块包括卷积层(卷积核为3×3、采用对称填充、步长为2)、采用selu激活函数的激活层、采用bn的分批归一化层。

s806、将所述第六特征图像进行相邻平均法填充后得到第七特征图像,所述第七特征图像的尺寸及通道数量与所述第一特征图像的尺寸及通道数量相同;

比如,所述第七特征图像、所述第一特征图像都为32×32×128维特征图。

s808、将所述第七特征图像与所述第一特征图像在通道维上进行联结,得到待融合目标特征图像。

具体而言,所述通道维是通道的维度,通道是指颜色通道,比如,第三特征图像为32×32×128维特征图(32为像素点,128为rgb通道数)。

将所述第七特征图像在通道维度上直接加在所述第一特征图像后面,得到待融合目标特征图像。可以理解的是,联结过程中图像的大小(图像的长宽尺寸)不变,通道数增加。

可以理解的是,通过循环执行步骤s802至步骤s808以使所述第五特征图像经过减少通道数量、填充、与所述第一特征图像联结处理得到待融合目标特征图像,所有所述第五特征图像都经过一次步骤s802至步骤s808的处理则结束循环。即第五特征图像有很多个,循环的目的是依次处理每个第五特征图像,直到所有第五特征图像处理完毕结束。

如图9所示,在一个实施例中,所述根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据、所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据采用梯度下降优化方法进行训练,得到已训练的图像增强模型,具体包括:

s902、根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据按照第一损失函数进行计算得到第一损失值,若所述第一损失值未达到第一收敛条件,则根据所述第一损失值更新所述第一判别网络、所述第二判别网络的网络参数,把更新后的所述第一判别网络、所述第二判别网络用于下一次计算所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据;

s904、根据所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据、所述第二源图像期望数据、所述目标图像第二期望数按照第二损失函数进行计算得到第二损失值,若所述第二损失值未达到第二收敛条件,则根据所述第二损失值更新所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络的网络参数,把更新后的所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络用于下一次计算所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据;

s906、重复执行上述步骤直至所述第一损失值达到所述第一收敛条件和所述第二损失值达到所述第二收敛条件,把训练完成的第一生成网络作为所述已训练的图像增强模型。

具体而言,第一收敛条件是指第一损失值需要达到的收敛条件,第二收敛条件是第二损失值需要达到的收敛条件,收敛条件是指随着迭代次数的增加,损失值不再发生变化。

重复执行步骤s902至步骤s904直至所述第一损失值达到所述第一收敛条件和所述第二损失值达到所述第二收敛条件,把训练完成的第一生成网络作为所述已训练的图像增强模型。每次循环通过第一损失函数进行计算得到第一损失值、同时按照第二损失函数进行计算得到第二损失值,增加第一损失函数迭代计算的次数,从而提高了所述第一判别网络、所述第二判别网络判别的准确性,通过提高所述第一判别网络、所述第二判别网络判别的准确性提高所述已训练的图像增强模型的准确性。

其中,所述第一损失函数采用自适应调节的梯度惩罚系数以使每个所述第一损失函数对每个输入样本独立地施加梯度惩罚且梯度惩罚的大小满足lipschitz条件(利普希茨连续条件)。

在一个实施例中,所述第一损失函数为l1的计算公式为:

l1=e[dy(y1)]-e[dy(y)]+e[dx(x1)]-e[dx(x)]+a×d_gp

所述第二损失函数为l2的计算公式为:

l2=-e[dy(y1)]-e[dx(x1)]+1000e[mse(x,y1)]+1000[mse(y,x1)]+10000[mse(x,x2)]+10000[mse(y,y2)]

其中,e[dy(y1)]为所述第二源图像期望数据,e[dy(y)]为所述第一目标图像期望数据,e[dx(x1)]为所述第二目标图像期望数据,e[dx(x)]为第一源图像期望数据,mse()是均方误差;d_gp是判别网络对生成分布的样本点(第二源图像生成数据上的点)和真实分布的样本点(源图像上与第二源图像生成数据上的点对应位置的点)连线上的样本点的移动加权平均梯度惩罚项,所述生成分布的样本点是指所述第二源图像生成数据;a为梯度惩罚系数,随d_gp的变化而变化;x为源图像,y为目标图像,x1为第一目标图像生成数据,y1为第一源图像生成数据,x2为第二源图像生成数据,y2为第二目标图像生成数据,1000e[mse(x,y1)]中e[mse(x,y1)]为mse(x,y1)的期望值。

比如,当d_gp大于预设阈值,则a乘以2的值作为更新后的梯度惩罚系数a,以使每个所述第一损失函数对每个输入样本独立地施加梯度惩罚且梯度惩罚的大小满足lipschitz条件,从而使所述第二损失函数的输出的所述第二损失值最小化。所述预设阈值比如0.05,在此举例不做具体限定。

可以理解的是,本领域技术人员根据实际需要自行设置第一损失函数、第二损失函数,在此举例不作具体限定。

如图10所示,在一个实施例中,提出了一种图像增强装置,所述装置包括:

图像增强模块1002,用于获取待增强图像,将所述待增强图像作为已训练的图像增强模型的输入,所述已训练的图像增强模型用于对所述待增强图像进行增强,所述已训练的图像增强模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的,所述已训练的图像增强模型为训练完成的第一生成网络;获取所述已训练的图像增强模型输出的目标增强图像,其中,所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入,所述第二生成网络用于对所述第一生成网络的输出进行还原,所述第二判别网络用于对所述第一生成网络的输出进行判断识别,所述第一生成网络和所述第二判别网络为对抗性训练网络,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入,所述第四生成网络用于对所述第三生成网络的输出进行还原,所述第一判别网络用于对所述第三生成网络的输出进行判断识别,所述第三生成网络和所述第一判别网络为对抗性训练网络。

本实施例的图像增强装置的图像增强模块通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像增强模型,只需要少量的样本进行学习即可学到训练样本的共同特征,泛化能力好;所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待增强图像到目标增强图像的学习,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标增强图像到待增强图像的学习,通过学习在保留想要的目标对象的特征情况下,避免图像中目标对象与背景边界不太融洽;只需要把待增强图像输入所述已训练的图像增强模型即可得到目标增强图像,相对做图软件抠图处理,操作简单。

在一个实施例中,所述已训练的图像增强模型采用如下方式训练得到:

获取多个图像对,所述图像对中包括源图像、目标图像,所述源图像为待增强图像,目标图像为目标增强图像;

将所述源图像输入第一生成网络得到第一源图像生成数据,将所述第一源图像生成数据输入第二生成网络得到第二源图像生成数据,将所述目标图像输入第三生成网络得到第一目标图像生成数据,将所述第一目标图像生成数据输入第四生成网络得到第二目标图像生成数据,所述第一生成网络、所述第二生成网络、所述第三生成网络、所述第四生成网络采用相同结构的图像生成网络;

将所述源图像输入第一判别网络得到第一源图像期望数据,将所述第一源图像生成数据输入第二判别网络得到第二源图像期望数据,将所述目标图像输入第二判别网络得到第一目标图像期望数据,将所述第一目标图像生成数据输入第一判别网络得到第二目标图像期望数据,所述第一判别网络、所述第二判别网络采用相同结构的图像判别网络且包括多个基础块、全连接层;

根据所述第一源图像期望数据、所述第二源图像期望数据、所述第一目标图像期望数据、所述第二目标图像期望数据、所述第一源图像生成数据、所述第二源图像生成数据、所述第一目标图像生成数据、所述第二目标图像生成数据采用梯度下降优化方法进行训练,得到已训练的图像增强模型。

图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器和终端设备,所述服务器包括但不限于高性能计算机和高性能计算机集群;所述终端设备包括但不限于移动终端设备和台式终端设备,所述移动终端设备包括但不限于手机、平板电脑、智能手表和笔记本电脑,所述台式终端设备包括但不限于台式电脑和车载电脑。如图11所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现一种图像增强方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种图像增强方法。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,本申请提供的一种图像增强方法可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成的一种图像增强装置的各个程序模板。比如,图像增强模块1002。

在一个实施例中,提出了一种存储介质,存储有计算机指令程序,所述计算机指令程序被处理器执行时,使得所述处理器执行时实现如下方法步骤:

获取待增强图像;

将所述待增强图像作为已训练的图像增强模型的输入,所述已训练的图像增强模型用于对所述待增强图像进行增强,所述已训练的图像增强模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的,所述已训练的图像增强模型为训练完成的第一生成网络;

获取所述已训练的图像增强模型输出的目标增强图像;

其中,所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入,所述第二生成网络用于对所述第一生成网络的输出进行还原,所述第二判别网络用于对所述第一生成网络的输出进行判断识别,所述第一生成网络和所述第二判别网络为对抗性训练网络;

所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入,所述第四生成网络用于对所述第三生成网络的输出进行还原,所述第一判别网络用于对所述第三生成网络的输出进行判断识别,所述第三生成网络和所述第一判别网络为对抗性训练网络。

本实施例的图像增强方法通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像增强模型,只需要少量的样本进行学习即可学到训练样本的共同特征,泛化能力好;所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待增强图像到目标增强图像的学习,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标增强图像到待增强图像的学习,通过学习在保留想要的目标对象的特征情况下,避免图像中目标对象与背景边界不太融洽;只需要把待增强图像输入所述已训练的图像增强模型即可得到目标增强图像,相对做图软件抠图处理,操作简单。

在一个实施例中,提出了一种计算机设备,包括至少一个存储器、至少一个处理器,所述存储器存储有计算机指令程序,所述计算机指令程序被所述处理器执行时,使得所述处理器实现如下方法步骤:

获取待增强图像;

将所述待增强图像作为已训练的图像增强模型的输入,所述已训练的图像增强模型用于对所述待增强图像进行增强,所述已训练的图像增强模型是基于第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络训练得到的,所述已训练的图像增强模型为训练完成的第一生成网络;

获取所述已训练的图像增强模型输出的目标增强图像;

其中,所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入,所述第二生成网络用于对所述第一生成网络的输出进行还原,所述第二判别网络用于对所述第一生成网络的输出进行判断识别,所述第一生成网络和所述第二判别网络为对抗性训练网络;

所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入,所述第四生成网络用于对所述第三生成网络的输出进行还原,所述第一判别网络用于对所述第三生成网络的输出进行判断识别,所述第三生成网络和所述第一判别网络为对抗性训练网络。

本实施例的图像增强方法通过第一生成网络、第二生成网络、第三生成网络、第四生成网络、第一判别网络和第二判别网络的非监督学习训练出图像增强模型,只需要少量的样本进行学习即可学到训练样本的共同特征,泛化能力好;所述第一生成网络的输出分别为所述第二生成网络的输入和第二判别网络的输入实现了待增强图像到目标增强图像的学习,所述第三生成网络的输出分别为所述第四生成网络的输入和第一判别网络的输入实现了目标增强图像到待增强图像的学习,通过学习在保留想要的目标对象的特征情况下,避免图像中目标对象与背景边界不太融洽;只需要把待增强图像输入所述已训练的图像增强模型即可得到目标增强图像,相对做图软件抠图处理,操作简单。

需要说明的是,上述一种图像增强方法、一种图像增强装置、存储介质及计算机设备属于一个总的发明构思,一种图像增强方法、一种图像增强装置、存储介质及计算机设备实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1