基于时域一致性约束的视频风格迁移方法与流程

文档序号：18547684发布日期：2019-08-27 21:50阅读：717来源：国知局

本发明属于视频图像处理技术领域，具体涉及一种视频风格迁移方法，可用于视频渲染、风格转换的视频处理场合。

背景技术：

十九世纪以来，不仅艺术家在探索如何创造出更优吸引力的艺术作品，图像处理领域的相关人员也在思考这个问题。随着深度学习的发展，2015年leona.gatys等人在“aneuralalgorithmofartisticstyle[j].computerscience,2015.”中，提出用深度神经网络模型提取图像的风格特征并将其赋予另一幅图像的算法，该算法被称为“图像风格迁移算法”。艺术作品的风格特征具体包括纹理特征、色彩特征、笔触特征、对比度特征及明暗光线的变化，是一个更为抽象的概念。

近几年，关于图像及视频风格迁移的研究层出不穷。在过去，人们如果需要将一幅真实图像重画为具有艺术风格的合成图像，不仅需要一批训练有素的画家，还需要大量的时间和精力；如果要重画一段视频序列，所耗费的人力物力更是难以想象，因此，使用算法实现图像或视频的风格迁移具有重要的意义。

目前，针对视频风格迁移问题，研究者们已经提出一些优秀的算法。根据算法的基本原理，可以将这些算法分为基于迭代优化的描述性方法和基于深度学习的生成式方法。

基于迭代优化的描述性方法的基本思想是：首先建模并分别提取风格图像的风格信息和内容图像的内容信息，然后在目标图像中将两种信息结合，通过不断迭代优化生成的风格化图像，产生视觉效果良好的结果。目前此类方法最主要的局限性有两点，一是迭代优化过程中计算量十分巨大，非常耗时；二是随机初始化和损失函数的局部极小容易使输出的结果质量较差。

基于迭代优化的视频的风格迁移方法最大的问题在于效率低下，而基于深度学习的生成式方法正好解决了速度和计算量的问题，最初的基于深度学习的生成式神经方法由justinjohnson等人在“perceptuallossesforreal-timestyletransferandsuper-resolution[j].2016.”提出，他们通过预训练指定风格的深度神经网络模型，在测试阶段只需前向传播一次就可以产生对应的风格化结果。justinjohnson等人的风格迁移网络结构设计主要借鉴了alecradford等人在“unsupervisedrepresentationlearningwithdeepconvolutionalgenerativeadversarialnetworks[j].computerscience,2015.”论文中提出的残差模块和步长卷积。可是如果直接将图像风格迁移算法应用于视频风格迁移问题，前后两帧之间微弱的明亮变化、噪声以及运动，都会在风格转换的过程中产生巨大的差异，从而导致风格化视频的闪烁和不连续性。因此，huanghaozhi等人在“real-timeneuralstyletransferforvideos[c]//ieeeconferenceoncomputervision&patternrecognition.2017.”中提出将时域损失函数加入基于卷积神经网络的风格迁移算法中，通过相邻两帧图像的运动矢量估计约束输出结果时域上的一致性。该方法虽说提高了视频的风格转换速度，但又由于没有考虑间隔更远的帧图像之间的时域相关性，导致风格化视频缺少长时一致性，使得风格化视频的连贯效果较差。

技术实现要素：

本发明的目的在于针对上述现有技术的不足，提出了一种基于时域一致性约束的视频风格迁移方法，以增加风格化视频的时域一致性，提高风格化视频的连贯效果。

本发明的技术方案是：将多组视频帧序列、离线计算的光流信息和风格图像作为视频风格转换网络模型的输入，通过每组帧图像之间的光流信息约束输出结果之间的时域相关性；对视频风格转换网络模型进行训练，拟合输入的真实视频与输出的风格化视频之间的非线性映射关系，并以这种关系为指导对真实视频进行不同风格的渲染，提高风格化视频的时域一致性和视觉效果，同时提高对视频进行风格转换的速度，其实现步骤包括如下：

(1)根据视频训练集v和风格图像a，离线计算光流信息：

(1a)获取视频训练集v和风格图像a，其中v中包含n组视频序列，每组视频序列ιⁿ包括四幅图像，分别为一段视频的第1帧i1，第4帧i4，第6帧i6和第7帧i7，其中n＝{1,2,...,n}；

(1b)通过变分光流法计算不同帧图像之间的光流信息和光流置信度信息cⁿ＝{c^(1,7),c^(4,7),c^(6,7)}，其中表示第i帧到第7帧的光流信息，c^(i,7)表示第i帧与第7帧之间的光流置信度矩阵，其中，i∈{1,4,6}；

(2)构建基于时域一致性约束的视频风格迁移网络：

(2a)设计风格转换网络，该网络包括依次连接的三个底层卷积层、五个残差模块、两个反卷积层和一个高层卷积层；将底层第一个卷积层的输出输入到第二个反卷积层中，将底层第二个卷积层的输出输入到第一个反卷积层中，形成两个跳跃连接；

(2b)设置训练参数，随机初始化风格转换网络的权值σ0和偏置值β0；

(3)训练基于时域一致性约束的视频风格转换网络模型：

(3a)每次从视频训练集v中选择一组视频iⁿ，以及它对应的光流信息wⁿ、光流置信度信息cⁿ，作为训练样本，其中n＝{1,2,...,n}；

(3b)将训练样本输入到风格转换网络生成风格化结果pⁿ，pⁿ＝{p1,p4,p6,p7}；

(3c)计算风格化结果的总损失值lt：

lt＝λsls+λclc+λvlv+λtlt，

其中，ls表示风格损失值、lc表示内容损失值、lv表示全变分损失值、lt表示时域损失值，λs表示风格损失权重，λc表示内容损失权重，λv表示全变分损失权重，λt表示时域损失权重；

(3d)使用总损失值lt训练风格转换网络模型，更新风格转换网络模型的权值σ和偏置值β；

(3e)循环进行(3a)-(3d)对风格转换网络模型进行迭代优化训练，直到取完视频训练集v中所有的视频序列组，得到训练好的风格转换网络模型；

(4)利用训练好的视频风格转换模型对测试视频进行风格迁移，即将一段测试视频输入到训练好的风格转换网络模型中，风格转换网络模型的输出即为具有时域一致性的风格化视频。

本发明与现有技术相比，具有以下优点：

1.本发明由于采用对输入视频与风格化视频的非线性映射关系预先进行学习，再对非线性关系的视频风格转换网络模型进行训练，可得到能将测试视频转换为风格化视频的视频风格转换网络模型，不仅实现了利用离线视频风格转换模型对测试视频的风格转换，而且所生成的风格化视频具有时域一致性，且能满足实时性的要求；

2.本发明使用视频训练集的光流信息训练风格转换网络，使得该网络生成的风格化视频同时具有短时一致性和长时一致性，提高了风格化结果的视觉效果；

3.本发明在视频风格转换网络结构中加入跳跃连接，将底层卷积层中的局部图像特征直接传递到高层网络的反卷积层中，与高级语义图像特征相结合，提高了网络模型的训练速度。

附图说明

图1为本发明的实现流程图；

图2为采用本发明的方法和基于前向网络的视频风格迁移方法对视频进行风格迁移的效果对比图。

具体实施方式

以下结合附图对本发明的实施例和效果做进一步描述。

参照图1，本发明的实现步骤如下：

步骤1，根据视频训练集v和风格图像a，离线计算光流信息。

(1b)通过现有的变分光流法计算不同帧图像之间的光流信息和光流置信度信息cⁿ＝{c^(1,7),c^(4,7),c^(6,7)}，其中表示第i帧到第7帧的光流信息，c^(i,7)表示第i帧与第7帧之间的光流置信度矩阵，i∈{1,4,6}。

步骤2，构建基于时域一致性约束的视频风格转换网络。

(2a)设计风格转换网络：

该网络包括依次连接的三个底层卷积层、五个残差模块、两个反卷积层和一个高层卷积层，且底层第一个卷积层的输出输入到第二个反卷积层中，底层第二个卷积层的输出输入到第一个反卷积层中，形成两个跳跃连接，各层参数如下：

第一底层卷积层的卷积核大小为9×9，卷积核数量为32，步长为1；

第二底层卷积层的卷积核大小为3×3，卷积核数量为64，步长为2；

第三底层卷积层的卷积核大小为3×3，卷积核数量为128，步长为2；

第一残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第二残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第三残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第四残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第五残差模块的卷积核大小为3×3，卷积核数量为128，步长为1；

第一反卷积层的卷积核大小为3×3，卷积核数量为64，步长为0.5；

第二反卷积层的卷积核大小为3×3，卷积核数量为32，步长为0.5；

最后一层高层卷积层的卷积核大小为9×9，卷积核数量3，步长为1；

(2b)设置训练参数，随机初始化风格转换网络的权值σ0和偏置值β0。

步骤3，训练基于时域一致性约束的视频风格转换网络。

(3a)每次从视频训练集v中选择一组视频iⁿ，以及它对应的光流信息wⁿ、光流置信度信息cⁿ，作为训练样本，其中n＝{1,2,...,n}；

(3b)将训练样本输入到风格转换网络生成风格化结果pⁿ，pⁿ＝{p1,p4,p6,p7}；

(3c)根据输入帧序列iⁿ、光流信息wⁿ、光流置信度信息cⁿ和风格化结果pⁿ计算总损失值lt：

(3c1)计算风格损失值ls：

其中，c表示风格特征的维度，h表示风格特征的高度，w表示风格特征的宽度，ii表示输入帧，pi表示输出的风格化帧，i∈{1,4,6}，||·||2代表二范数操作，φ(ii)表示使用已有的vgg-19图像分类模型提取输入帧ii的风格特征，φ(pi)表示使用已有的vgg-19图像分类模型提取风格化帧pi的风格特征，n＝{1,2,...,n}；

(3c2)计算内容损失值lc：

其中，c表示内容特征的维度，h表示内容特征的高度，w表示内容特征的宽度，ii表示输入帧，pi表示输出的风格化帧，i∈{1,4,6}，||·||2代表二范数操作，θ(ii)表示使用已有的vgg-19图像分类模型提取输入帧ii的内容特征，θ(pi)表示使用已有的vgg-19图像分类模型提取风格化帧pi的内容特征，n＝{1,2,...,n}。

(3c3)计算全变分损失值lv：

其中，pi表示风格化帧，i∈{1,4,6}，(x,y)表示坐标值，||·||代表一范数操作，pi^(x,y)代表图像pi上坐标(x,y)处的像素值。

(3c4)计算时域损失函数lt：

首先，计算长时光流置信度信息：其中长时光流置信度矩阵的计算公式如下：

c^(i,7)表示光流置信度矩阵，i∈{1,4,6}。

接着，对风格化结果pⁿ的前三帧{p1,p4,p6}做光流变换，得到光流变换结果其中表示风格化帧pi对应的光流变换结果；

然后，通过以下公式计算时域损失值lt：

其中，c表示风格化帧的维度，h表示风格化帧的高度，w表示风格化帧的宽度，p7表示风格化结果的第7帧；

(3c5)根据(3c1)-(3c4)的计算结果计算总损失值lt：

lt＝λsls+λclc+λvlv+λtlt，

其中λs表示风格损失权重，λc表示内容损失权重，λv表示全变分损失权重，λt表示时域损失权重；风格损失权重λs值被设置为200，内容损失权重λc值被设置为10，全变分损失权重λv值被设置为20，时域损失权重λt值被设置为0.1。

(3d)使用总损失值lt训练风格转换网络模型，更新风格转换网络模型的权值σ和偏置值β；

(3e)循环进行(3a)-(3d)对风格转换网络模型进行迭代优化训练，直到取完视频训练集v中所有的视频序列组，得到训练好的风格转换网络模型。

步骤4，利用训练好的视频风格转换模型对测试视频进行风格迁移。

(4a)将测试视频分解成有序的视频帧序列，并逐帧输入到训练好的视频风格转换模型之中，有序逐帧地输出具有指定风格的风格化结果；

(4b)将输出的风格化帧序列重新合成连续视频，输出风格化视频。

由于本发明构建的风格转换网络是全卷积网络，因此可对任意尺寸的输入视频进行视频风格迁移。

本发明的效果可以通过以下仿真进一步说明。

1、仿真实验条件：

软件环境为：ubuntu16.04操作系统、tensorflow-1.4.0-gpu深度学习框架、cuda8.0显卡驱动、python2.7编程语言解释器。硬件环境为：inteli7-5930kcpu、ddr5-128gb内存、geforcegtx1080ti显卡。

仿真实验使用公开的septuplets视频数据集，取其中30000组视频序列作为训练集；使用公开的mpi-sintel视频数据集作为测试集。

2、仿真内容：

在上述实验条件下，采用本发明方法和现有的基于前馈网络的视频风格迁移方法，分别对测试视频进行风格迁移，结果如图2。其中，图(2a)是三帧连续的测试帧序列，图(2b)是使用基于前馈网络的视频风格迁移方法对图(2a)进行风格迁移的实验结果，图(2c)是使用本发明对图(2a)进行风格迁移的实验结果。

3、仿真结果分析：

从图2可以看出，图(2c)产生的结果色彩对比度明显高于图(2b)，且在静止的背景区域，图(2c)相邻两帧的风格效果基本一致，而(2b)中具有严重的斑驳现象，同一静止区域风格效果却发生了变化，由此说明本发明相比于基于前馈网络的风格迁移方法可有效地避免风格化视频的闪烁现象，能够产生色彩鲜艳、纹理一致且视觉效果良好的风格化视频。

为了更进一步分析结果的时域一致性，通过时域误差etemporal定量的衡量不同方法的性能差别，时域误差etemporal通过如下公式计算：

其中，n代表视频的总帧数，d代表风格化结果的维度，表示第t帧与第t+1帧的光流置信度矩阵，pt表示输出的第t帧风格化结果，t＝{1,2,...,n}，w(·)表示光流变换操作。

本发明现有基于前馈网络的视频风格迁移方法两种方法比较的数据如下表1：

表1不同方法时域误差对比

从表1可以看出，本发明提出的视频风格迁移方法相比于基于前馈网络的视频风格迁移方法时域误差更低，在时域一致性以及视觉效果等方面有明显的提升。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董伟生;张珍;谢雪梅;石光明;孙璐
技术所有人：西安电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。