一种基于特征调整的神经风格迁移方法及系统与流程

文档序号：26938214发布日期：2021-10-12 13:27阅读：65来源：国知局

1.本发明属于图像与视频风格化领域，具体设计一种基于特征调整的神经风格迁移方法及系统。

背景技术：

2.风格迁移旨在将特定图像的风格迁移到给定目标图像或视频上，实现风格图像或视频的批量生成。近几年，风格迁移越来越受到学术界的关注。
3.风格迁移方法可以分为三类。基于块匹配的方法，在参考风格图像和目标内容图像之间建立块的匹配关系，通过块的迁移与融合实现风格迁移。基于迭代的深度学习方法，使用在大型数据集上预训练的分类神经网络提取特征，使用特征的均方误差作为内容损失函数项，使用特征分布的距离作为风格损失函数项，通过迭代和最小化损失函数实现风格迁移。基于前传的深度学习方法，设计具有风格迁移功能的模块，在大型数据集上训练，推理时只需要一次参数前传。
4.但是，基于块匹配的方法无法迁移风格的语义信息，基于迭代的深度学习方法需要漫长的迭代过程和复杂的计算量，已有的基于前传的深度学习方法风格迁移效果不佳，均无法满足实际应用的需求。

技术实现要素：

5.针对上述技术问题，本发明提出了一种基于特征调整的神经风格迁移方法及系统。本发明能够将指定的参考风格图像的艺术表征迁移至目标内容图像或视频帧，实现对目标内容图像或视频帧的风格化，提升其主观视觉质量与艺术效果。
6.本发明采用的技术方案如下：
7.一种基于特征调整的神经风格迁移方法，包括以下步骤：
8.利用训练数据集，训练神经风格迁移网络模型；该神经风格迁移网络模型包括内容编码器、风格编码器、装饰器和解码器；内容编码器和风格编码器均包括连续的若干个卷积层，每个卷积层后跟随一个线性整流函数，中间不相邻的部分卷积层和最后卷积层前使用最大池化进行下采样；装饰器包括一个单样本规范化层和在后的若干个风格装饰模块；解码器包括若干个相互交替的自适应单样本规范化层和残差块，以及位于末尾的一个卷积层；
9.将目标内容图像或视频帧和参考风格图像输入到训练好的神经风格迁移网络模型中进行进行以下步骤的处理：
10.将目标内容图像或视频帧输入到内容编码器中，处理得到内容编码；
11.将参考风格图像输入到风格编码器中，首个卷积层和含有最大池化的卷积层分别输出风格编码；
12.将内容编码输入到装饰器中，同时在各个风格装饰模块中输入风格编码；
13.将装饰器输出的内容输入到解码器中，在各个自适应单样本规范化层中还依次输
入风格编码器不同层的风格编码的均值和方差，处理得到最终的风格迁移结果图像或视频帧。
14.进一步地，训练数据集包括由摄影图像组成的内容数据集和由绘画图像组成的风格数据集；训练时，将内容数据集输入到内容编码器中，将风格数据集输入到风格编码器中。
15.进一步地，内容编码器和风格编码器的卷积层均为9个，其中第3、5、9个卷积层前使用最大池化进行下采样；装饰器的风格装饰模块为3个；解码器的自适应单样本规范化层为4个，残差块为3个，卷积层为1个。
16.进一步地，风格装饰模块包括至少一卷积核预测单元、若干个卷积层和一个线性整流函数，卷积核预测单元包括卷积层、全局池化层、合并层和全连接层。
17.进一步地，残差块包括1个上采样层、3个卷积层、2个带泄露整流函数和2个单样本规范化层。
18.进一步地，残差块的上采样层将输入的数据采样后，分别输出给1个卷积层和由另外2个卷积层与2个带泄露整流函数和2个单样本规范化层交替组成的多层结构，两支数据相加汇合后作为输出。
19.一种基于特征调整的神经风格迁移系统，包括一神经风格迁移网络模型，其经训练后，通过输入目标内容图像或视频帧和参考风格图像，处理得到风格迁移结果图像或视频帧；该神经风格迁移网络模型包括：
20.内容编码器，包括连续的若干个卷积层，每个卷积层后跟随一个线性整流函数，中间不相邻的部分卷积层和最后卷积层前使用最大池化进行下采样；用于处理目标内容图像，得到内容编码；
21.风格编码器，包括连续的若干个卷积层，每个卷积层后跟随一个线性整流函数，中间不相邻的部分卷积层和最后卷积层前使用最大池化进行下采样；用于处理参考风格图像，首个卷积层和含有最大池化的卷积层分别输出风格编码；
22.装饰器，包括一个单样本规范化层和在后的若干个风格装饰模块；其中单样本规范化层用于接收内容编码并处理输出给风格装饰模块，风格装饰模块用于接收上层输入的数据同时接收风格编码进行综合处理并输出给下一层；
23.解码器，包括若干个相互交替的自适应单样本规范化层和残差块，以及位于末尾的一个卷积层；用于处理装饰器输出的内容，其中各个自适应单样本规范化层还依次输入风格编码器不同层的风格编码的均值和方差进行，处理得到最终的风格迁移结果图像或视频帧。
24.本发明通过调整神经网络的特征空间与通道两个维度的分布，只需要一次参数前传就可以实现效果良好的风格迁移。与已有技术相比，本发明在对目标内容的语义结构保持、对参考风格的表征、处理速度等方面取得更好的综合效果，并特别优化了目标内容为视频时对时域连续性的保持。
附图说明
25.图1为本发明实施例所使用的神经风格迁移网络的结构图。
26.图2为本发明实施例所使用的风格装饰模块的结构图。
27.图3a-3c为本发明实施例的目标内容图、参考风格图和风格迁移结果图。
具体实施方式
28.为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。需说明的是，以下实施例所给出的具体层数、模块数、函数数量以及对某些层的设置等都仅是一种较佳的实施方式，而不用于限制，本领域技术人员可以根据实际需要来选取数量和设置某些层，应可理解。
29.本实施例公开一种基于特征调整的神经风格迁移方法，以对目标内容图像进行风格迁移为例，具体说明如下：
30.步骤1：搜集大量摄影图像和大量绘画图像，摄影图像组成内容数据集，绘画图像组成风格数据集。
31.步骤2：搭建神经风格迁移网络模型。
32.网络结构如图1所示，模型分为内容编码器e
c
、风格编码器e
s
、装饰器m和解码器d四个子网络。内容编码器e
c
由连续的9个卷积层组成，每个卷积层后跟随一个线性整流函数(relu)，第3、5、9个卷积层前使用最大池化进行下采样，最后一层的输出为内容编码l。风格编码器e
s
与内容编码器e
c
有相同的网络结构，但是在输出最后一层结果的基础上还输出第1、3、5层的结果。
33.装饰器m由一个单样本规范化层(instance normalization)和三个风格装饰模块组成，输入为内容编码l。风格装饰模块的结果如图2所示，在输入上一层输出的基础上，输入风格编码。上一层输出与风格编码输入卷积核预测单元，具体地，将上一层输出和风格编码依次经过一卷积层和一全局池化层，合并后再输入一全连接层，得到动态卷积核。将上一层输出依次经过若干卷积层、动态卷积层与线性整流函数交替组成的模块，并与原始输入相加，得到特征风格装饰结果。
34.解码器d由4个自适应单样本规范化层(adaptive instance normalization)、3个残差块和1个卷积层交替组成。4个自适应单样本规范化层依次输入风格编码器不同层风格编码的均值与方差。残差块如图1所示，由一个最近邻上采样层、3个卷积层、两个带泄露整流函数(leaky relu)和两个单样本规范化层组成。残差块的上采样层将输入的数据采样后，分别输出给1个卷积层和由另外2个卷积层与2个带泄露整流函数和2个单样本规范化层交替组成的多层结构，两支数据相加后作为输出。解码器的最终输出为风格迁移结果o。
35.步骤3：训练神经风格迁移网络模型。
36.模型的总损失函数项为：
37.l＝λ
style
l
style
+λ
content
l
content
+λ
recon
l
recon
+λ
tv
l
tv
+λ
temp
l
temp
，
38.式中，λ
style
、λ
content
、λ
recon
、λ
tv
和λ
temp
是权重项，通常λ
style
设置为20，λ
content
设置为1，λ
recon
设置为100，λ
tv
设置为10，λ
temp
设置为150。
39.l
style
为风格损失函数项：
40.l
style
＝∑
l
(||mean(φ
l
(s))-mean(φ
l
(m(s,c)))||2+||var(φ
l
(s))-var(φ
l
(m(s,c)))||2)，
41.式中，φ
l
为预训练的图像分类模型的特征，mean(
·
)为特征的均值，var(
·
)为特征的方差，l通常取vgg19模型的relu1_1，relu2_1，relu3_1，relu4_1层，s为参考风格图像，
c为目标内容图像，m(s,c)为风格迁移模型m输入s与c的风格迁移结果。
42.l
content
为内容损失函数项：
43.l
content
＝∑
l
(||φ
l
(c)-φ
l
(m(s,c))||2)，
44.l通常取vgg19模型的relu4_1层。
45.l
recon
为重建损失函数项：
46.l
recon
＝||m(i,i
gray
)-i||，
47.i或者为风格图像或者为内容图像，i
gray
为对i进行灰度化得到。
48.l
tv
为全变分损失函数项，记δ
x
为水平方向的残差，记δ
y
为垂直方向的残差，则全变分损失函数为：
49.l
tv
＝||δ
x
(m(s,c))+δ
y
(m(s,c))||。
50.l
temp
为时域连续性损失函数项：
51.l
temp
＝||m(s,f(c)+δ)-f(m(s,c))||，
52.f为随机光流，首先生成一个与c长宽尺寸相同的二通道随机噪声图，然后对其进行高斯模糊。f(c)为使用光流f对图像c进行扭曲，对于每一个c的坐标为(w,h)的像素，水平光流为f
x
，垂直方向光流为f
y
，则其新坐标为(w+f
x
,h+f
y
)，使用最近邻插值完成该扭曲操作。
53.步骤3：推理阶段，输入参考风格图像s(见图3b)和目标内容图像或视频帧c(见图3a)，最终输出想要的风格迁移结果图(见图3c)。
54.以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘家瑛;汪文靖;许继征;张莉;王悦;郭宗明
技术所有人：北京字节跳动科技有限公司
我是此专利的发明人

上一篇：环化靛蓝受体及聚合物的制备与应用的制作方法
上一篇：一种中空二氧化锰纳米球的制备方法与应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。