基于条件生成对抗网络的图像风格迁移方法与流程

文档序号：19157126发布日期：2019-11-16 00:58阅读：1627来源：国知局

本发明涉及数字图像处理技术领域，更具体地，涉及一种基于条件生成对抗网络的图像风格迁移方法。

背景技术：

2014年langoodfellow提出了生成对抗网络(gan)，通过对抗训练的思想，有效地学习了训练样本并生成高度真实的合成数据，它为深度学习中的无监督学习和半监督学习提供了广阔的思路。随后生成对抗网络对抗训练的思想被广泛地应用于解决各种棘手的训练问题，并且取得了不错的效果。其中，mehdimirza在2014年提出的条件生成对抗网络(conditiongan，cgan)，便是在gan的基础上引入了标签信息，即用标签标记图像的某种特征再进行训练，这样在生成数据的过程中，加入的条件信息就能够指引条件生成对抗网络中的生成器生成所需要的某种特征的图像了。cgan不仅能用在生成特定条件的数据，还应用到了图像转化和风格迁移当中。另外，在2018年提出来的cyclegan实现了无监督的风格迁移，并取得了出色的效果。但是该模型针对多种风格的迁移任务仍存在许多问题，如只能实现两种风格之间的迁移、整个模型包含两个生成器g和两个判别器d，参数量大等问题

技术实现要素：

本发明为解决现有技术只能实现两种风格之间的迁移的技术缺陷，提供了一种基于条件生成对抗网络的图像风格迁移方法。

为实现以上发明目的，采用的技术方案是：

一种基于条件生成对抗网络的图像风格迁移方法，包括以下步骤：

s1.构造条件生成对抗网络的图像生成器g和判别器d；

s2.收集不同风格的图像并对其进行预处理和数据增强，制定训练策略，对图像生成器g和判别器d进行训练；

s3.利用训练好的图像生成器g和判别器d进行图像风格的迁移。

优选地，所述步骤s1构造的图像生成器g采用编码器-解码器的结构，其中编码器由3个卷积层组成，采用3×3的卷积核，解码器是由3个反卷积层组成；判别器d由5个卷积层组成。

优选地，所述步骤s2的预处理包括随机裁剪、缩放、旋转，以及按照图像的风格类型对图像使用one-hot的方法进行统一的标注。

优选地，所述步骤s2对图像生成器g进行训练的具体过程如下：

s21.训练过程中，每次随机选取两种风格类型，再从各自的风格类型中分别选取一张图像作为一次训练的数据；

s22.对步骤s21选择的数据进行抽取，每次抽取的信息包括不同风格的图像xi、xj以及各自的风格相关向量yi、yj；

s23.将抽取的信息向图像生成器g进行交叉输入，分别分为(xi，yj，yi)和(xj，yi，yj)；

s24.采用循环一致性损失，记x为原始输入图像，记原始输入图像在经过图像生成器g生成为指定风格的图像之后再次经过图像生成器g生成为原始风格的图像为，计算x与的欧式距离作为损失函数，并基于计算的损失函数，对图像生成器g的参数进行更新。

优选地，所述图像生成器g的损失函数表示为：

lg＝λdlgan，d+λclcycle

其中lgan，d和lcycle表示为：

其中pdata代表原始数据分布，e表示期望；xi表示第i种风格的图像，yi表示第i种风格的风格相关向量；lgan，d表示优化生成器g过程中的主体损失函数；lcycle表示循环一致性损失，为输入图像在经过生成器生成为指定风格的图像之后再次经过生成器生成为原始风格的图像与原图像之间的欧式距离；g表示生成器，d表示判别器。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于条件生成对抗网络的图像风格迁移方法，通过收集和标注不同风格的图像训练得到一个由两个部分组成的用以多种风格迁移的条件生成对抗网络，这两个部分包括生成器(generator，g)，判别器(discriminator，d)。其中，生成器g用以实现对图像的风格转换，通过输入原始图像和目标风格的one-hot向量，可以有效的将原始图像转化为目标风格的图像。判别器d通过将输入的图像进行特征提取，最终输出一个和风格相关向量长度一致的向量，从而判断输入图像的所属风格。在训练网络的过程中，还引入了一致性损失函数，有效地帮助了生成器的收敛。该发明通过对网络结构的设计，结合了多种损失函数，使得模型可以根据需求实现多种风格迁移，并且取得了良好的视觉效果。

附图说明

图1为条件生成对抗网络的结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明提供了一种基于条件生成对抗网络的图像风格迁移方法，其包括以下步骤：

步骤s1：构造图像生成器g和判别器d，具体结构如图1所示，构建的具体过程如下：

s11：构建生成器g。生成器g采用编码器-解码器的结构，编码器提取原始图像进行编码，并由卷积神经网络将风格相关向量将对应的风格特征信息和图像信息相融合，再经过解码器恢复到生成图像。

s12：编码器由3个卷积层组成，采用3×3的卷积核，增加网络的非线性特征，减少网络的参数量，内存占用并加快训练的速度。

s13：图像经过编码器编码后输入残差网络，残差网络有4层，能够提取图像的深度特征。

s14：解码器是由3个反卷积层组成，能够将融合了条件信息的深度特征重新解码成新的图像，从而达到风格迁移的目的。

s15：参照s12-s14网络中每一层的最后都要进行一次batchnormalization(bn)操作，做归一化处理，解决数据偏移对网络训练造成影响，加快训练速度，bn操作后再经过一个relu层，然后再输入到下一层的网络当中。

s16：构建判别器d。判别器d用于判断图像不仅要判断属于原始图像的概率分布，还要在判断属于原始图像概率分布的前提下，判断图像的风格是属于哪一类。

s17：判别器d由5个卷积层组成，逐层地提取图像地深层特征，并最终输出一个和风格相关向量长度一致的向量。

s18：图像经过判别器d输出的向量与图像对应的风格相关向量的距离作为判别器的损失函数。

s19：收敛好的模型中，生成器g可以根据输入的风格相关向量对输入图像进行风格迁移，判别器d可以根据输入的图像对其进行风格的鉴别。

步骤s2：收集不同风格的图像并对其进行预处理，制定训练策略，具体过程如下：

s21：从网络上采集不同风格类型的图像作为训练图像。

s22：对得到的图像按各自的风格进行分类，并对图像进行预处理和数据增强，包括随机裁剪、缩放、旋转等。

s23：按风格类型对图像使用one-hot的方法进行统一的标注，不同的one-hot向量代表不同的风格类型。

训练过程中，每次随机选取两种风格，再从各自的风格分类中分别选取一张图像作为一次训练的数据。每次抽取的信息包括不同风格的图像xi，xj以及各自的风格相关向量yi，yj。对抽取的数据进行交叉输入，分别分为(xi，yj，yi)和(xj，yi，yj)充分利用训练图像，提高训练效率。采用循环一致性损失，记x为原始输入图像，记输入图像在经过生成器生成为指定风格的图像之后再次经过生成器生成为原始风格的图像为，计算x与的欧式距离作为损失函数，帮助生成器充分收敛。

步骤s3：利用得到的不同分类且编码的图片，训练用于风格迁移的条件生成对抗网络，具体过程如下：

s31：一般的条件生成对抗网络，其训练的过程可以等价为对生成器和判别器的对抗训练，表示为：

s32：不同于原始的条件生成网络，在本发明中，判别器d的损失函数表示为：

其中xi表示第i种风格的图像，yi表示第i种风格的风格相关向量，yf对应判别器输入的图像是由生成器生成。

s33：在本发明中，生成器g的损失函数可以表示为：

lg＝λdlgan，d+λclcycle

其中lgan，d和lcycle可以表示为：

其中lcycle表示循环一致性损失，为输入图像在经过生成器生成为指定风格的图像之后再次经过生成器生成为原始风格的图像与原图像之间的欧式距离，能有效地促进模型的收敛

s34：固定lg的两个参数，对数据进行处理，并采取相应的训练策略进行训练。

s35：将上述的损失函数最小化，得到的误差反向传播更新模型参数，交替训练生成器g和判别器d，实现最优化，最终使得生成器g学习了条件与风格的对应关系以及判别器d能够判断输入图像的风格类型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李惠川;刘树郁
技术所有人：中山大学
我是此专利的发明人

上一篇：用于核酸样品标准化的方法与流程
上一篇：一种耐高温耐腐蚀碳化硅制品的制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。