语音驱动视频的生成方法与流程

文档序号:36232224发布日期:2023-12-01 05:38阅读:40来源:国知局
语音驱动视频的生成方法与流程

本技术涉及计算机视觉,尤其涉及一种语音驱动视频的生成方法。


背景技术:

1、随着人工智能的发展,数字人和虚拟人得到了越来越多的应用,例如应用于新闻播报、人机交互、培训等场景中模拟真人,数字人和虚拟人的主要生成方式为通过语音驱动生成,通过语音驱动唇形,使得数字人和虚拟人的嘴型与音频同步,生成完整的视频。

2、目前,在基于唇形驱动生成视频时,会对人脸进行增强处理,以使生成的视频中的人脸较为清晰,但往往生成的驱动视频中不止包括人脸部分,还包括脖子、肩部等部分,仅通过增强处理往往不能去除脖子等部分的阴影以提高清晰度,使得生成的驱动视频的质量不高。

3、因此,如何提高生成的驱动视频的质量是亟待解决的问题。


技术实现思路

1、为了解决基于现有方法生成的驱动视频的质量不高的问题,本技术提供了一种语音驱动视频的生成方法、装置、电子设备及计算机可读存储介质。

2、第一方面,本技术提供了一种驱动视频的生成方法,包括:

3、获取唇形生成模型输出的初始驱动视频,所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频,所述唇形生成模型是根据样本训练集进行训练得到的,所述样本训练集包括多张训练图像、每张训练图像对应的驱动音频以及目标生成图像;

4、将所述初始驱动视频进行分解,得到所述初始驱动视频对应的多个初始视频帧;

5、针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧;

6、基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,所述目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和所述待处理图像中的非人脸区域图像;

7、基于所述目标驱动音频和所述每个初始视频帧对应的目标视频帧,生成目标驱动视频。

8、作为本技术实施例一种可选的实施方式,所述针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧,包括:

9、针对所述每个初始视频帧,将所述初始视频帧和所述初始视频帧对应的待处理图像输入人脸增强模型;

10、基于所述待处理图像对所述初始视频帧中的人脸区域图像进行增强处理,输出所述初始视频帧对应的人脸增强图像帧。

11、作为本技术实施例一种可选的实施方式,所述基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,包括:

12、将所述人脸增强图像帧输入人脸解析模型,获取所述人脸增强图像帧中的人脸关键点;

13、基于所述人脸关键点在所述人脸增强图像帧中获取第一目标区域图像,所述第一目标区域图像包括人脸区域图像;

14、基于所述第一目标区域图像对所述待处理图像进行处理,得到所述初始视频帧对应的目标视频帧。

15、作为本技术实施例一种可选的实施方式,所述基于所述第一目标区域图像对所述待处理图像进行处理,得到所述初始视频帧对应的目标视频帧,包括:

16、在所述人脸增强图像帧对应的待处理图像中确定第二目标区域图像,所述第二目标区域图像包括人脸区域图像;

17、用所述第一目标区域图像替换所述人脸增强图像帧对应的待处理图像中的第二目标区域图像,得到所述初始视频帧对应的目标视频帧。

18、作为本技术实施例一种可选的实施方式,所述唇形生成模型包括:生成器;

19、所述获取唇形生成模型输出的初始驱动视频,包括:

20、获取待处理图像和目标驱动音频;

21、将所述待处理图像和所述目标驱动音频输入所述生成器中,获取第一特征序列和第二特征序列,并基于所述第一特征序列和所述第二特征序列生成初始驱动视频;所述第一特征序列用于表征所述待处理图像的面部特征,所述第二特征序列用于表征所述目标驱动音频的音频特征。

22、作为本技术实施例一种可选的实施方式,所述生成器包括第一编码器、第二编码器、以及解码器;

23、所述将所述待处理图像和所述目标驱动音频输入生成器中,获取第一特征序列和第二特征序列,并基于所述第一特征序列和所述第二特征序列生成初始驱动视频,包括:

24、将所述待处理图像输入第一编码器,对所述待处理图像的面部特征进行识别,输出第一特征序列;

25、将所述目标驱动音频输入第二编码器,对所述目标驱动音频的音频特征进行提取,输出第二特征序列;

26、将所述第一特征序列和所述第二特征序列输入所述解码器,基于所述解码器对所述第一特征序列和所述第二特征序列量进行融合处理,输出所述初始驱动视频。

27、作为本技术实施例一种可选的实施方式,所述唇形生成模型包括:质量判别器和唇形同步判别器;

28、在所述获取唇形生成模型输出的初始驱动视频之前,所述方法还包括:

29、将所述多张训练图像和每张训练图像对应的驱动音频输入生成器中,得到预测图像;

30、将所述预测图像和所述训练图像入至所述质量判别器,得到第一判别结果;

31、将所述训练图像对应的驱动音频和所述训练图像输入至所述唇形同步判别器,得到第二判别结果;

32、根据损失函数、所述第一判别结果、所述第二判别结果、所述预测图像以及所述目标生成图像,调整所述唇形生成模型的权重参数,直至所述唇形生成模型收敛,得到训练好的所述唇形生成模型。

33、第二方面,本技术提供一种驱动视频的生成装置,包括:

34、驱动模块,用于获取唇形生成模型输出的初始驱动视频,所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频,所述唇形生成模型是根据样本训练集进行训练得到的,所述样本训练集包括多张训练图像、每张训练图像对应的驱动音频以及目标生成图像;

35、分解模块,用于将所述初始驱动视频进行分解,得到所述初始驱动视频对应的多个初始视频帧;

36、增强模块,用于针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧;

37、处理模块,用于基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,所述目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和所述待处理图像中的非人脸区域图像;

38、生成模块,用于基于所述目标驱动音频和所述每个初始视频帧对应的目标视频帧,生成目标驱动视频。

39、作为本技术实施例一种可选的实施方式,所述增强模块,具体用于针对所述每个初始视频帧,将所述初始视频帧和所述初始视频帧对应的待处理图像输入人脸增强模型;

40、基于所述待处理图像对所述初始视频帧中的人脸区域图像进行增强处理,输出所述初始视频帧对应的人脸增强图像帧。

41、作为本技术实施例一种可选的实施方式,所述生成模块,具体用于将所述人脸增强图像帧输入人脸解析模型,获取所述人脸增强图像帧中的人脸关键点;

42、基于所述人脸关键点在所述人脸增强图像帧中获取第一目标区域图像,所述第一目标区域图像包括人脸区域图像;

43、基于所述第一目标区域图像对所述待处理图像进行处理,得到所述初始视频帧对应的目标视频帧。

44、作为本技术实施例一种可选的实施方式,所述生成模块,具体用于在所述人脸增强图像帧对应的待处理图像中确定第二目标区域图像,所述第二目标区域图像包括人脸区域图像;

45、用所述第一目标区域图像替换所述人脸增强图像帧对应的待处理图像中的第二目标区域图像,得到所述初始视频帧对应的目标视频帧。

46、作为本技术实施例一种可选的实施方式,所述唇形生成模型包括:生成器;所述驱动模块,具体用于获取待处理图像和目标驱动音频;

47、将所述待处理图像和所述目标驱动音频输入所述生成器中,获取第一特征序列和第二特征序列,并基于所述第一特征序列和所述第二特征序列生成初始驱动视频;所述第一特征序列用于表征所述待处理图像的面部特征,所述第二特征序列用于表征所述目标驱动音频的音频特征。

48、作为本技术实施例一种可选的实施方式,所述生成器包括第一编码器、第二编码器、以及解码器;所述驱动模块,具体用于将所述待处理图像输入第一编码器,对所述待处理图像的面部特征进行识别,输出第一特征序列;

49、将所述目标驱动音频输入第二编码器,对所述目标驱动音频的音频特征进行提取,输出第二特征序列;

50、将所述第一特征序列和所述第二特征序列输入所述解码器,基于所述解码器对所述第一特征序列和所述第二特征序列量进行融合处理,输出所述初始驱动视频。

51、作为本技术实施例一种可选的实施方式,所述唇形生成模型包括:质量判别器和唇形同步判别器;所述装置还包括:

52、训练模块,用于在所述获取唇形生成模型输出的初始驱动视频之前,将所述多张训练图像和每张训练图像对应的驱动音频输入生成器中,得到预测图像;

53、将所述预测图像和所述训练图像入至所述质量判别器,得到第一判别结果;

54、将所述训练图像对应的驱动音频和所述训练图像输入至所述唇形同步判别器,得到第二判别结果;

55、根据损失函数、所述第一判别结果、所述第二判别结果、所述预测图像以及所述目标生成图像,调整所述唇形生成模型的权重参数,直至所述唇形生成模型收敛,得到训练好的所述唇形生成模型。

56、第三方面,本技术实施例提供一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于在调用计算机程序时执行第一方面或第一方面任一种可选的实施方式所述的语音驱动视频的生成方法。

57、第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第一方面任一种可选的实施方式所述的语音驱动视频的生成方法。

58、本技术实施例提供的技术方案与现有技术相比具有如下优点:

59、本技术实施例提供的语音驱动视频的生成方法包括:获取唇形生成模型输出的初始驱动视频,所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频,所述唇形生成模型是根据样本训练集进行训练得到的,所述样本训练集包括多张训练图像、每张训练图像对应的驱动音频以及目标生成图像;将所述初始驱动视频进行分解,得到所述初始驱动视频对应的多个初始视频帧;针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧;基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,所述目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和所述待处理图像中的非人脸区域图像;基于所述目标驱动音频和所述每个初始视频帧对应的目标视频帧,生成目标驱动视频。在本技术实施例中,对初始驱动视频进行分解得到的初始视频帧中的人脸区域图像进行了增强处理,得到人脸增强图像帧,在基于人脸增强图像帧和待处理图像得到的目标视频帧中,使得目标视频帧中的人脸区域图像为增强处理后的图像,其它区域图像为待处理图像中未失真的图像,从而,目标视频帧的整体清晰度得到了提升,提高了基于目标视频帧生成的语音驱动视频的质量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1