一种视频动作迁移深度学习系统和方法

文档序号:29814367发布日期:2022-04-27 09:28阅读:194来源:国知局
一种视频动作迁移深度学习系统和方法

1.本发明涉及计算机视觉技术领域,尤其是涉及一种视频动作迁移深度学习系统和方法。


背景技术:

2.随着视频时代的兴起,人像视频生成也成为计算机视觉领域中一项重要任务,在视频定向编辑、视频制作等领域有着广泛的应用场景,其中视频中的动作迁移任务,目的是使参考视频人物的动作迁移到源视频人物上,同时保留源视频人物的身份特征。该任务在动画、影视领域得到较大的关注,极具实际的应用价值。
3.目前,一些经典的方法是依赖于复杂的人体建模过程,如人体轮廓模型,人脸模型(volker blanz and thomas vetter.a morphable model for the synthesis of 3d faces.in proceedings of the 26th annual conference on computer graphics and interactive techniques,pages 187-194,1999.)等,在这些高度局限且复杂的模型上来完成动作迁移视频的生成。当应用场景转变时,这类经典方法难以迁移到新的数据集上。随着自动编码器,对抗生成网络等深度模型(david berthelot,thomas schumm,and luke metz.be-gan:boundary equilibrium generative adversarial networks.arxiv preprint arxiv:1703.10717,2017.)的兴起,这类模型也被用于视频生成任务上,但这些方法并不能灵活的控制生成视频人物的动作以及外观。
4.另一方面,也有方法(siarohin a,lathuili
è
re s,tulyakov s,et al.animating arbitrary objects via deep motion transfer[c]proceedings of the ieee/cvf conference on computer vision and pattern recognition.2019:2377-2386.)利用预测动作光流并对源视频人物进行扭曲操作来实现动作的迁移,但在动作变换较大的情况下,该类方法容易产生出动作不真实、动作区域较模糊、视觉上不自然的动作迁移视频。
[0005]
因此,如何在不需要复杂人体模型的情况下,实现大幅度动作迁移,是目前亟待解决的问题。


技术实现要素:

[0006]
本发明的目的是提供一种视频动作迁移深度学习系统和方法,提取源图像关键点信息、参考图像关键点信息、源图像深度特征和参考图像深度特征,分别对源图像深度特征、参考图像深度特征进行量化,得到源图像全局量化特征、参考图像全局量化特征,在源图像全局量化特征基础上,对参考图像深度特征进行再次量化,得到参考图像局部量化特征,在参考图像全局量化特征基础上,对源图像深度特征进行再次量化,得到源图像局部量化特征,将源图像人物关键点坐标、源图像全局量化特征、参考图像局部量化特征进行预测,得到目标图像量化特征,对目标图像量化特征进行解码,得到目标图像。根据人体关键点信息、量化特征重建图像,保证目标图像的清晰度及分辨率。
[0007]
第一方面,本发明的上述发明目的通过以下技术方案得以实现:
[0008]
一种视频动作迁移深度学习系统,包括分别与系统控制部连接的人物视频数据预处理部、视频特征量化部、视频特征重组部、动作迁移视频生成部,人物视频数据预处理部用于对源图像数据、参考图像数据进行预处理,提取源图像中源关键点信息和参考图像中参考关键点信息;视频特征量化部用于分别提取源图像、参考图像的深度特征,并进行特征量化操作,获得源图像量化特征、参考图像量化特征;视频特征重组部用于根据源关键点、源图像量化特征、参考图像量化特征,预测出目标图像的量化特征;动作迁移视频生成部用于根据目标图像的量化特征,输出目标图像,系统控制部用于存储程序并进行控制。
[0009]
本发明进一步设置为:还包括分别与系统控制部连接的输入控制部、视频显示部、系统通信部,系统通信部用于不同结构部之间的数据交互,输入控制部用于提供图像数据输入,视频显示部用于输出目标图像的动作视频。
[0010]
第二方面,本发明的上述发明目的通过以下技术方案得以实现:
[0011]
一种视频动作迁移深度学习方法,建立视频动作迁移模型,从同一段视频中抽取二个不同帧图像作为源图像与参考图像,进行预处理,分别提取源图像的源关键点信息、参考图像的参考关键点信息、源图像深度特征、参考图像深度特征,分别对源图像深度特征、参考图像深度特征进行量化,得到源图像量化特征、参考图像量化特征,根据源关键点信息、参考关键点信息、源图像量化特征、参考图像量化特征进行预测,得到目标图像量化特征,根据目标图像量化特征生成目标图像;基于视频动作迁移模型的各参数,对不同来源的迁移源图像与迁移参考图像,采用与建模相同的过程,进行动作迁移。
[0012]
本发明进一步设置为:对源图像深度特征进行量化,得到源图像全局量化特征,对参考图像深度特征进行量化,得到参考图像全局量化特征;基于参考图像全局量化特征,对源图像深度特征进行再次量化,得到源图像局部量化特征;基于源图像全局量化特征,对参考图像深度特征进行再次量化,得到参考图像局部量化特征。
[0013]
本发明进一步设置为:计算源图像深度特征中的每个特征在参考图像全局量化特征中的最小欧式距离,得到源图像局部量化特征;计算参考图像深度特征中的每个特征在源图像全局量化特征中的最小欧式距离,得到参考图像局部量化特征。
[0014]
本发明进一步设置为:根据源关键点信息、参考关键点信息、源图像全局量化特征、参考图像局部量化特征进行预测,得到目标图像量化特征。
[0015]
本发明进一步设置为:将源关键点信息、参考关键点信息映射为维度特征,得到关键点特征序列,根据源图像全局量化特征、参考图像局部量化特征分别建立索引序列,基于关键点特征序列、索引序列,在特征重组网络中,采用掩码方式,获得掩码后的最高概率值,建立目标图像的索引序列,在源图像索引序列中预测目标图像量化特征索引。
[0016]
本发明进一步设置为:计算目标图像量化特征索引概率分布值与参考图像局部量化特征索引损失,得到第二损失函数,优化特征重组网络。
[0017]
本发明进一步设置为:建立全局特征库、编码器、解码器,利用编码器分别提取源图像深度特征、参考图像深度特征,利用全局特征库分别对源图像深度特征、参考图像深度特征进行量化,利用解码器对目标图像量化特征进行解码,生成目标图像。
[0018]
本发明进一步设置为:根据图像数据设置全局特征库并初始化,以深度特征与量化特征之间的最小欧式距离优化全局特征库;采用patchgan区分生成图像与真实图像,采用第一损失函数同时对编码器、解码器、全局特征库进行训练,第一损失函数包括对抗损失
与量化重组损失。
[0019]
本发明进一步设置为:编码器包括卷积层、残差模块、下采样模块、自注意力模块、激活函数,用于对原始图像的像素特征进行整合变换,并进行映射,得到中间特征图,解码器与编码器对称,包括卷积层、残差模块、上采样模块、自注意力模块、激活函数,用于对目标图像量化特征进行解码。
[0020]
本发明进一步设置为:对源图像与参考图像进行预处理,包括调整图像大小、利用预训练模型和数据增强方法,获取源图像人物关键点坐标和参考图像人物关键点坐标。
[0021]
第三方面,本发明的上述发明目的通过以下技术方案得以实现:
[0022]
一种视频动作迁移深度学习终端,包括存储器、处理器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术所述方法。
[0023]
第四方面,本发明的上述发明目的通过以下技术方案得以实现:
[0024]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被所述处理器执行时实现本技术所述方法。
[0025]
与现有技术相比,本技术的有益技术效果为:
[0026]
1.本技术通过对源图像与参考图像的深度特征进行量化,并结合关键点信息预测目标图像的量化特征,解码后生成目标图像,简化了动作迁移的过程,提高了目标图像的清晰度和分辨率;
[0027]
2.进一步地,本技术通过引入损失函数,保证了数据处理时更真实,提高了动作迁移的效果;
[0028]
3.进一步地,本技术通过提取人体关键点信息作为特征重组网络的条件,能够有效地完成姿态变化较大的动作迁移。
附图说明
[0029]
图1是本技术的一个具体实施例的迁移深度学习系统结构示意图;
[0030]
图2是本技术的一个具体实施例的迁移深度学习建模流程结构示意图;
[0031]
图3是本技术的一个具体实施例的特征量化流程结构示意图;
[0032]
图4是本技术的一个具体实施例的特征重组流程结构示意图。
具体实施方式
[0033]
以下结合附图对本发明作进一步详细说明。
[0034]
具体实施例一
[0035]
本技术的一种视频动作迁移深度学习系统,如图1所示,包括人物视频数据预处理部、视频特征量化部、视频特征重组部、动作迁移视频生成部、系统控制部、输入控制部、视频显示部、系统通信部,人物视频数据预处理部、视频特征量化部、视频特征重组部、动作迁移视频生成部、输入控制部、视频显示部、系统通信部各部分别与系统控制部连接。
[0036]
人物视频数据预处理部,用于对源图像数据、参考图像数据进行预处理,提取源图像中源关键点信息和参考图像中参考关键点信息,包括源图像中源人物关键点坐标信息、参考图像中参考人物关键点坐标信息。
[0037]
视频特征量化部,用于分别提取源图像的深度特征、参考图像的深度特征,并分别进行特征量化操作,获得源图像量化特征、参考图像量化特征,源图像量化特征包括源图像全局量化特征、源图像局部量化特征,参考图像量化特征包括参考图像全局量化特征、参考图像局部量化特征。
[0038]
视频特征重组部用于根据源关键点、源图像量化特征、参考图像量化特征,预测出目标图像的量化特征;包括用源人物关键点坐标、参考人物关键点坐标、源图像全局量化特征、参考图像局部量化特征进行重组,得到源人物的动作迁移目标图像量化特征。或用源人物关键点坐标、参考人物关键点坐标、参考图像全局量化特征、源图像局部量化特征进行重组,得到参考人物的动作迁移目标图像量化特征。
[0039]
动作迁移视频生成部用于根据目标图像的量化特征,输出目标图像,系统控制部用于存储程序并进行控制。
[0040]
对源视频中的所有图像、参考视频中的所有图像进行图像深度特征提取与关键点信息提取,并进行特征量化与重组,得到目标图像的视频量化特征,生成目标视频。
[0041]
系统通信部用于不同结构部之间的数据交互,输入控制部用于提供视频、图像数据输入,视频显示部用于输出目标图像的动作视频,或目标视频。
[0042]
具体实施例二
[0043]
视频是由一帧帧图像组成的,为了简单起见,本技术以图像进行动作迁移说明,对于视频的动作迁移,以此类推,不再赘述。
[0044]
本技术的一种视频动作迁移深度学习方法,如图2所示,建立视频动作迁移模型,对各步骤中的参数进行更新,包括以下步骤:
[0045]
s1、开始;
[0046]
s2、接收视频数据,从视频数据中截取不同帧图像,分别作为源图像、参考图像;
[0047]
s3、对源图像、参考图像进行预处理,得到源图像中源关键点信息、参考图像中参考关键点信息;
[0048]
s4、分别提取源图像、参考图像深度特征,对深度特征进行量化,得到全局量化特征与局部量化特征;
[0049]
s5、根据关键点信息、全局量化特征、局部量化特征,进行特征重组,预测目标图像的量化特征;
[0050]
s6、根据目标图像量化特征,生成目标图像;
[0051]
s7、显示目标图像;
[0052]
s8、结束。
[0053]
在提取深度特征及对特征量化前,建立全局特征库、编码器、解码器,全局特征库用于对深度特征进行量化,编码器用于提取深度特征,解码器用于对量化特征进行解码,生成目标图像。
[0054]
根据图像数据的大小、复杂程度,设置全局特征库,基于第一损失函数,分别更新编码器、解码器、全局特征库的参数。
[0055]
第一损失函数包括对抗损失与量化重组损失
[0056]
[0057][0058][0059]
式中,xs表示源图像,表示经编码器、解码器重构后的重构源图像,x
t
表示参考图像,表示经编码器、解码器重构后的重构参考图像,zs表示源图像的深度特征,表示源图像的局部量化特征,z
t
表示参考图像的深度特征,表示参考图像的局部量化特征,为衡量特征存储模块中的特征与源图像深度特征、参考图像深度特征之间差异的损失函数。
[0060]
β表示平衡系数,取值范围为:[0,1]。
[0061]
sg表示梯度停止操作,用于更新编码器参数和全局特征库。
[0062]
利用对抗损失,提高经编码器、解码器重建出的图像的真实性,使用patchgan区分生成图像与真实图像。量化重组损失,用于衡量图像量化特征排列重组之后的质量好坏,利用量化重组损失更新全局特征库中的特征。
[0063]
编码器包括卷积层、残差模块、下采样模块、自注意力模块、激活函数,解码器与编码器对称设置,包括卷积层、残差模块、上采样模块、自注意力模块、激活函数。
[0064]
对编码器与解码器训练时,采用第一损失函数和引入patchgan,提高重建图像的真实性。
[0065]
从同一视频中得到的源图像与参考图像,调整尺寸,使用预训练模型分别提取关键点信息,从源图像中提取源关键点信息,从参考图像中提取参考关键点信息。引入图像随机翻转的数据增强方式,提高模型的训练效果。
[0066]
利用编码器,分别得到源图像s的深度特征zs、参考图像t的深度特征z
t
。源图像s的深度特征zs、参考图像t的深度特征z
t
的维度都是h
×w×
c。
[0067]
如图3所示,从全局特征库中查找与深度特征最接近的库深度特征,作为全局量化特征,全局量化特征的维度仍是h
×w×
c。源图像的全局量化特征标记为zs,参考图像的全局量化特征标记为z
t

[0068]
从全局量化特征中,再进行局部量化,得到局部量化特征,具体地,从源图像全局量化特征zs中,查找与参考图像深度特征z
t
最接近的量化特征,作为参考图像局部量化特征对应地,从参考图像全局量化特征z
t
中,查找与源图像深度特征zs最接近的量化特征,作为源图像局部量化特征
[0069]
从全局特征库中查找与深度特征最接近的h
×
w个维度为c的库深度特征,作为全局量化特征,分别表示如下:
[0070][0071][0072]
式中,qk表示全局特征库q中的第k个库深度特征,(i,j)、分别表示深度特征图上的坐标;表示参考图像深度特征图上第i行第j列对应的深度特征。
[0073][0074][0075]
式中,zk表示全局量化特征中的第k个量化特征;(i,j),分别表示深度特征图上的坐标;表示源图像深度特征图上第i行第j列对应的深度特征。
[0076]
建立特征重组网络,根据源关键点信息、参考关键点信息、全局量化特征、局部量化特征进行重组,预测出目标图像的量化特征,如图4所示。
[0077]
固定编码器与解码器参数,采用含有relu激活函数的3层全连接网络,将关键点信息中的关键点坐标,映射为维度特征得到关键点特征序列
[0078]
将源图像全局量化特征zs∈rh×w×c,转化为源图像全局量化特征索引序列参考图像局部量化特征,转化为参考图像局部量化特征索引序列
[0079]
以关键点特征序列作为条件信息,根据源图像全局量化特征索引序列参考图像局部量化特征索引序列预测目标图像的量化特征索引序列
[0080][0081]
式中,t
[s]
为一个可学习的开始索引,s为源图像全局量化特征索引序列的全体索引,c为关键点特征序列的全体特征,t
<j
为参考图像局部量化特征索引序列的前j-1个索
引。为目标图像量化特征索引序列的第j个索引。在生成目标图像的量化特征索引时,从全局特征库中先筛选出源图像的量化特征索引从中的范围内预测目标图像量化特征索引
[0082]
在本技术的一个具体实施例中,在特征重组网络最后的softmax层,采用掩码的方式,遮盖掉不属于范围内的索引预测概率值,根据掩码后的最高概率值获得目标图像的索引序列。以softmax层采用掩码的方式,完成源图像量化特征重组,从源图像全局量化特征,生成目标图像的量化特征。
[0083]
利用目标图像量化特征索引概率分布值与参考图像局部量化特征索引标签,计算第二损失函数,更新特征重组网络。
[0084]
第二损失函数为:
[0085][0086]
式中,s为源图像全局量化特征索引序列的全体索引,c为关键点特征序列的全体特征,为目标图像量化特征索引序列的全体索引。
[0087]
将预测出的目标图像量化特征,通过解码器进行解码,得到目标图像
[0088]
经过以上步骤,完成了视频动作迁移模型的建立,确定了视频动作迁移模型中的参数。
[0089]
在本技术的一个具体实施例中,编码器包括2个卷积层、7个残差模块、4个下采样模块、2个自注意力模块、swish激活函数。解码器包括2个卷积层、7个残差模块、4个上采样模块、2个自注意力模块、swish激活函数。
[0090]
从全局特征库中,查找最接近的深度特征,是计算库深度特征与选中的深度特征之间的欧氏距离,以欧氏距离最小者为最接近深度特征。从全局量化特征中,查找最接近的深度特征,也是计算全局量化特征中的深度特征与选中的深度特征之间的欧氏距离,以欧氏距离最小者为最接近深度特征。
[0091]
特征重组网络包括架构为gpt2的多层transformer网络,设置每一层的特征嵌入维度,在每一层的多头注意力机制中,设置注意力多头数量,如设置12层的transformer网络,设置特征嵌入维度为768,注意力多头数量为12。
[0092]
基于视频动作迁移模型参数,对不同来源的迁移源图像、迁移参考图像,按照建立视频动作迁移模型的步骤,进行预处理,分别得到迁移源图像的关键点信息、迁移参考图像的关键点信息,基于编码器,得到迁移源图像深度特征、迁移参考图像深度特征,基于全局特征库,分别对深度特征进行量化,得到迁移源图像全局量化特征、迁移参考图像全局量化特征,基于迁移源图像全局量化特征,对迁移参考图像深度特征进行再次量化,得到迁移参考图像局部量化特征,将迁移源图像的关键点信息、迁移参考图像的关键点信息、迁移源图像全局量化特征、迁移参考图像局部量化特征输入特征重组网络,进行重组,得到迁移目标图像的量化特征,利用解码器进行解码,得到迁移目标图像。
[0093]
对一段迁移源视频、迁移参考视频中的各帧图像重复进行以上操作,得到迁移目标视频。
[0094]
具体实施例三
[0095]
本发明一实施例提供的一种视频动作迁移深度学习系统终端设备,该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如图像预处理模型计算程序,所述处理器执行所述计算机程序时实现实施例1、2中的方法。
[0096]
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述视频动作迁移深度学习系统终端设备中的执行过程。例如,所述计算机程序可以被分割成多个模块,各模块具体功能如下:
[0097]
1.图像预处理模块,用于对图像进行预处理;
[0098]
2.量化模块,用于对图像的深度特征进行量化;
[0099]
3.重组模块,用于生成目标图像的量化特征;
[0100]
4.生成模块,用于生成目标图像。
[0101]
所述视频动作迁移深度学习系统终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述视频动作迁移深度学习系统终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述上述示例仅仅是所述视频动作迁移深度学习系统终端设备的示例,并不构成对所述视频动作迁移深度学习系统终端设备的限定,可以包括更多或更少的部件,或组合某些部件,或不同的部件,例如所述视频动作迁移深度学习系统终端设备还可以包括网络接入设备、总线等。
[0102]
所述处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数据信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种视频动作迁移深度学习系统终端设备的控制中心,利用各种接口和线路连接整个所述一种视频动作迁移深度学习系统终端设备的各个部分。
[0103]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种视频动作迁移深度学习系统终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(smartmediacard,smc)、安全数字(securedigital,sd)卡、闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0104]
具体实施例四
[0105]
所述一种视频动作迁移深度学习系统终端设备集成的模块/单元,如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、电载波信号、电信信号以及软件分发介质等。
[0106]
本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1