音视频数据处理方法、装置、设备和存储介质与流程

文档序号:36402062发布日期:2023-12-16 06:44阅读:25来源:国知局
音视频数据处理方法、装置、设备和存储介质

本公开涉及人工智能领域,更具体地,涉及一种音视频数据处理方法、装置、设备和存储介质。


背景技术:

1、目前,音视频驱动的说话人脸视频生成已成为计算机视觉、计算机图形学和虚拟现实中的一项重要技术。人脸作为人类最具表现力和个性化的外在特征,是人们在相互沟通交流过程中用来表达情感的直接载体。头部姿态和面部表情相结合可以传递更多有效的信息,从而大幅度提升人们对语言的理解。姿态和表情与驱动音视频的同步很大程度上决定了人脸动画的优劣,所以借助驱动音视频中说话人的音调、情感和姿态等因素,可生成逼真自然的人脸说话视频。音视频驱动的说话人脸视频生成技术使用任意一段音频和/或视频与指定的任一人物的头部图像生成该人物的说话人脸视频。音视频驱动的说话人脸视频生成技术可以提高在线教育辅导、虚拟新闻播报、影视剧编辑修正、大型三维游戏制作等方面的制作效率,提升用户视听层面的感受,并为制作方和用户双方节省不必要的时间开销。因此,音视频驱动的说话人脸视频生成技术是目前比较具有现实意义和价值的研究。

2、因此,需要一种高效的说话人脸视频生成方法,使得可以基于驱动音视频快速准确地生成说话人脸视频。


技术实现思路

1、为了解决上述问题,本公开通过利用驱动音视频和待驱动视频建立循环控制结构,并利用该结构中的生成图像与原始图像之间的多组相互监督来生成最优的合成视频,从而实现了高效的音视频驱动的说话人脸视频生成。

2、本公开的实施例提供了一种音视频数据处理方法、装置、设备和计算机可读存储介质。

3、本公开的实施例提供了一种音视频数据处理方法,包括:获取驱动音视频和待驱动视频,所述驱动音视频包括驱动视频和驱动音频;利用所述驱动音视频驱动所述待驱动视频,以生成第一中间视频,并利用所述驱动音视频驱动所述第一中间视频,以生成第一合成视频,其中,所述第一中间视频具有所述驱动音视频的姿态信息和所述待驱动视频的表情信息,并且所述第一合成视频具有所述驱动音视频的姿态信息和表情信息;利用所述待驱动视频驱动所述驱动音视频,以生成第二中间视频,并利用所述待驱动视频驱动所述第二中间视频,以生成第二合成视频,其中,所述第二中间视频具有所述驱动音视频的姿态信息和所述待驱动视频的表情信息,并且所述第二合成视频具有所述待驱动视频的姿态信息和表情信息;以及基于所述第一中间视频与所述第二中间视频、所述第一合成视频与所述驱动音视频、以及所述第二合成视频与所述待驱动视频,生成最终合成视频,所述最终合成视频具有所述驱动音视频的姿态信息和表情信息。

4、本公开的实施例提供了一种音视频数据处理装置,包括:数据获取模块,被配置为获取驱动音视频和待驱动视频,所述驱动音视频包括驱动视频和驱动音频;正向处理模块,被配置为利用所述驱动音视频驱动所述待驱动视频,以生成第一中间视频,并利用所述驱动音视频驱动所述第一中间视频,以生成第一合成视频,其中,所述第一中间视频具有所述驱动音视频的姿态信息和所述待驱动视频的表情信息,并且所述第一合成视频具有所述驱动音视频的姿态信息和表情信息;反向处理模块,被配置为利用所述待驱动视频驱动所述驱动音视频,以生成第二中间视频,并利用所述待驱动视频驱动所述第二中间视频,以生成第二合成视频,其中,所述第二中间视频具有所述驱动音视频的姿态信息和所述待驱动视频的表情信息,并且所述第二合成视频具有所述待驱动视频的姿态信息和表情信息;以及视频合成模块,被配置为基于所述第一中间视频与所述第二中间视频、所述第一合成视频与所述驱动音视频、以及所述第二合成视频与所述待驱动视频,生成最终合成视频,所述最终合成视频具有所述驱动音视频的姿态信息和表情信息。

5、本公开的实施例提供了一种音视频数据处理设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的音视频数据处理方法。

6、本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的音视频数据处理方法。

7、本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的音视频数据处理方法。

8、本公开的实施例所提供的方法相比于传统的音视频驱动的说话人脸视频生成方法而言,能够直接建立源图像(被驱动图像)与驱动图像之间的姿态和表情联系,实现对姿态和表情信息的解耦合和独立控制,并直观地获得单独驱动姿态和表情中的任一种信息的处理结果。

9、本公开的实施例所提供的方法利用驱动音视频和待驱动视频进行相互驱动,通过在双向驱动过程中对表情和姿态信息进行解耦合控制以建立可互相监督的多个视频对,从而基于这些视频对的相互监督生成具有驱动音视频的姿态和表情信息的最终合成视频。通过本公开的实施例的方法能够在由于没有驱动音视频的成对视频数据而缺少监督信息的情况下将姿态和表情解耦合并且独立控制,并且可以直接建立源图像(被驱动图像)和驱动图像之间的姿态和表情联系从而避免了隐式的中间结果所引入的额外误差,在能够直观地获得单独驱动姿态和表情中的任一种信息的处理结果的同时实现了更高效准确的音视频驱动的说话人脸视频生成。



技术特征:

1.一种音视频数据处理方法,包括:

2.如权利要求1所述的方法,其中,所述利用所述驱动音视频驱动所述待驱动视频以生成第一中间视频以及所述利用所述待驱动视频驱动所述第二中间视频以生成第二合成视频是通过姿态模块实现的,并且所述利用所述驱动音视频驱动所述第一中间视频以生成第一合成视频以及所述利用所述待驱动视频驱动所述驱动音视频以生成第二中间视频是通过表情模块实现的;

3.如权利要求2所述的方法,其中,所述利用所述驱动音视频驱动所述第一中间视频以生成第一合成视频包括:

4.如权利要求2所述的方法,其中,在所述姿态模块和所述表情模块的输入中,所述驱动对象被表示为与所述驱动对象相对应的人脸三维可变形模型通过映射网络所生成的高维特征向量。

5.如权利要求2所述的方法,其中,所述姿态模块和所述表情模块分别包括姿态预测网络和表情预测网络;

6.如权利要求2所述的方法,其中,所述基于所述第一中间视频与所述第二中间视频、所述第一合成视频与所述驱动音视频、以及所述第二合成视频与所述待驱动视频,生成最终合成视频包括:

7.如权利要求6所述的方法,其中,所述相互监督以损失函数的形式表示;

8.如权利要求7所述的方法,其中,所述损失函数包括感知损失函数和重建损失函数;

9.如权利要求2所述的方法,其中,所述姿态模块和所述表情模块是基于训练阶段的第一中间视频与第二中间视频、第一合成视频与驱动音视频、以及第二合成视频与待驱动视频之间的相互监督而训练所得的,所述姿态模块和所述表情模块被联合地或独立地用于控制输入对象的姿态信息和表情信息中的至少一个。

10.一种音视频数据处理装置,包括:

11.如权利要求10所述的装置,其中,所述利用所述驱动音视频驱动所述待驱动视频以生成第一中间视频以及所述利用所述待驱动视频驱动所述第二中间视频以生成第二合成视频是通过姿态模块实现的,并且所述利用所述驱动音视频驱动所述第一中间视频以生成第一合成视频以及所述利用所述待驱动视频驱动所述驱动音视频以生成第二中间视频是通过表情模块实现的;

12.如权利要求11所述的装置,其中,所述姿态模块和所述表情模块是基于训练阶段的第一中间视频与第二中间视频、第一合成视频与驱动音视频、以及第二合成视频与待驱动视频之间的相互监督而训练所得的,所述姿态模块和所述表情模块被联合地或独立地用于控制输入对象的姿态信息和表情信息中的至少一个。

13.一种音视频数据处理设备,包括:

14.一种计算机程序产品,所述计算机程序产品存储在计算机可读存储介质上,并且包括计算机指令,所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-9中任一项所述的方法。

15.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-9中任一项所述的方法。


技术总结
本公开的实施例提供了一种音视频数据处理方法、装置、设备和计算机可读存储介质。该方法利用驱动音视频和待驱动视频进行相互驱动,通过在双向驱动过程中对表情和姿态信息进行解耦合控制以建立可互相监督的多个视频对,从而基于这些视频对的相互监督生成具有驱动音视频的姿态和表情信息的最终合成视频。通过该方法能够在由于没有驱动音视频的成对视频数据而缺少监督信息的情况下将姿态和表情解耦合并且独立控制,并且可以直接建立被驱动图像和驱动图像之间的姿态和表情联系从而避免了隐式的中间结果所引入的额外误差,在能够直观地获得单独驱动姿态和表情中的任一种信息的处理结果的同时实现了更高效准确的音视频驱动的说话人脸视频生成。

技术研发人员:全卫泽,庞有鑫,袁梦轲,张勇,严冬明
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1