一种视频生成方法及相关设备与流程

文档序号:37220371发布日期:2024-03-05 15:16阅读:26来源:国知局
一种视频生成方法及相关设备与流程

本申请涉及计算机,更具体地,涉及一种视频生成方法及相关设备。


背景技术:

1、根据一段音频和目标人的视频,生成目标人发出该语音的唇形同步视频,它可以应用在数字虚拟人、游戏、动漫角色配音及音唇同步语音翻译等场景。

2、现有技术中,可以基于wav2lip模型生成唇形同步视频,其通过对抗生成网络(gan)的唇形动作迁移方法,将视频人物的口型与语音同步。该模型可以对动态视频进行唇形转换,针对任意给定的语音信号,可实现高精度的唇形同步效果。

3、然而,现有的原始wav2lip模型要求输入的图像分辨率较小,生成的图像分辨率也较低,特别是生成的视频中人脸的下半部分较模糊,牙齿不清晰,无法满足高质量视频的生成。

4、因此,如何提高唇形同步视频的视频质量,是目前有待解决的技术问题。

5、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本申请实施例提出了一种视频生成方法及相关设备,通过对原始wav2lip模型的网络结构进行修改,用以提高唇形同步视频的视频质量。

2、第一方面,提供一种视频生成方法,所述方法包括:根据目标人的真实说话视频获取样本视频帧序列和样本语音;对所述样本视频帧序列中各样本视频帧的预设区域,进行掩码处理,获取掩码帧序列;根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练,训练完成后生成目标wav2lip模型;将目标语音和所述目标人的人脸视频帧序列,输入所述目标wav2lip模型,生成所述目标人发出所述目标语音的唇形同步视频;其中,所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器,所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器,分别增加至少一个卷积层后得到的。

3、第二方面,提供一种视频生成装置,所述装置包括:获取模块,用于根据目标人的真实说话视频获取样本视频帧序列和样本语音;处理模块,用于对所述样本视频帧序列中各样本视频帧的预设区域,进行掩码处理,获取掩码帧序列;训练模块,用于根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练,训练完成后生成目标wav2lip模型;生成模块,用于将目标语音和所述目标人的人脸视频帧序列,输入所述目标wav2lip模型,生成所述目标人发出所述目标语音的唇形同步视频;其中,所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器,所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器,分别增加至少一个卷积层后得到的。

4、第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述视频生成方法。

5、第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的视频生成方法。

6、通过应用以上技术方案,先根据目标人的真实说话视频获取样本视频帧序列和样本语音,再对样本视频帧序列中各样本视频帧的预设区域,进行掩码处理,获取掩码帧序列,然后根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练,训练完成后,生成目标wav2lip模型,最后将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型,生成目标人发出目标语音的唇形同步视频;其中,预设wav2lip模型中包括预设人脸编码器和预设人脸解码器,预设人脸编码器和预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器,分别增加至少一个卷积层后得到的,以此通过对原始wav2lip模型的网络结构进行修改,使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频,从而提高了唇形同步视频的视频质量。



技术特征:

1.一种视频生成方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,在对所述样本视频帧序列中各样本视频帧的预设区域,进行掩码处理,获取掩码帧序列之前,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述根据各所述目标关键点确定所述预设区域,包括:

4.如权利要求1所述的方法,其特征在于,所述预设wav2lip模型包括口型生成器、唇音同步判别器和视觉质量判别器,所述口型生成器包括所述预设人脸编码器、预设音频编码器和所述预设人脸解码器,所述根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练,包括:

5.如权利要求4所述的方法,其特征在于,所述口型生成器的输出端连接预设超分辨率模型,所述根据所述预设人脸解码器的输出结果获取生成视频帧,包括:

6.如权利要求4所述的方法,其特征在于,所述视觉质量判别器包括依次连接的多个子判别器,各所述子判别器分别用于在不同预设尺度上,判断输入图像是否为真实人脸图像,所述根据所述视觉质量判别器确定所述生成视频帧和所述样本视频帧之间的对抗损失,包括:

7.如权利要求4所述的方法,其特征在于,所述根据各所述子判别器的判别结果确定所述对抗损失,包括:

8.一种视频生成装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的视频生成方法。


技术总结
本发明公开了一种视频生成方法及相关设备,该方法包括:先根据目标人的真实说话视频获取样本视频帧序列和样本语音,再对样本视频帧序列中各样本视频帧的预设区域进行掩码处理,获取掩码帧序列,然后根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练,训练完成后生成目标wav2lip模型,最后将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型,生成目标人发出目标语音的唇形同步视频;其中,与原始wav2lip模型相比,预设wav2lip模型中的预设人脸编码器和预设人脸解码器增加了至少一个卷积层,使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频,从而提高了唇形同步视频的视频质量。

技术研发人员:程平,吴松城
受保护的技术使用者:厦门黑镜科技有限公司
技术研发日:
技术公布日:2024/3/4
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1