一种视频生成方法及相关设备与流程

文档序号：37220371发布日期：2024-03-05 15:16阅读：26来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及计算机，更具体地，涉及一种视频生成方法及相关设备。

背景技术：

1、根据一段音频和目标人的视频，生成目标人发出该语音的唇形同步视频，它可以应用在数字虚拟人、游戏、动漫角色配音及音唇同步语音翻译等场景。

2、现有技术中，可以基于wav2lip模型生成唇形同步视频，其通过对抗生成网络(gan)的唇形动作迁移方法，将视频人物的口型与语音同步。该模型可以对动态视频进行唇形转换，针对任意给定的语音信号，可实现高精度的唇形同步效果。

3、然而，现有的原始wav2lip模型要求输入的图像分辨率较小，生成的图像分辨率也较低，特别是生成的视频中人脸的下半部分较模糊，牙齿不清晰，无法满足高质量视频的生成。

4、因此，如何提高唇形同步视频的视频质量，是目前有待解决的技术问题。

5、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本申请实施例提出了一种视频生成方法及相关设备，通过对原始wav2lip模型的网络结构进行修改，用以提高唇形同步视频的视频质量。

2、第一方面，提供一种视频生成方法，所述方法包括：根据目标人的真实说话视频获取样本视频帧序列和样本语音；对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后生成目标wav2lip模型；将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；其中，所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的。

3、第二方面，提供一种视频生成装置，所述装置包括：获取模块，用于根据目标人的真实说话视频获取样本视频帧序列和样本语音；处理模块，用于对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列；训练模块，用于根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，训练完成后生成目标wav2lip模型；生成模块，用于将目标语音和所述目标人的人脸视频帧序列，输入所述目标wav2lip模型，生成所述目标人发出所述目标语音的唇形同步视频；其中，所述预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，所述预设人脸编码器和所述预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的。

4、第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述视频生成方法。

5、第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的视频生成方法。

6、通过应用以上技术方案，先根据目标人的真实说话视频获取样本视频帧序列和样本语音，再对样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列，然后根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练，训练完成后，生成目标wav2lip模型，最后将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型，生成目标人发出目标语音的唇形同步视频；其中，预设wav2lip模型中包括预设人脸编码器和预设人脸解码器，预设人脸编码器和预设人脸解码器是对原始wav2lip模型中的原始人脸编码器和原始人脸解码器，分别增加至少一个卷积层后得到的，以此通过对原始wav2lip模型的网络结构进行修改，使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频，从而提高了唇形同步视频的视频质量。

技术特征：

1.一种视频生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，在对所述样本视频帧序列中各样本视频帧的预设区域，进行掩码处理，获取掩码帧序列之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述根据各所述目标关键点确定所述预设区域，包括：

4.如权利要求1所述的方法，其特征在于，所述预设wav2lip模型包括口型生成器、唇音同步判别器和视觉质量判别器，所述口型生成器包括所述预设人脸编码器、预设音频编码器和所述预设人脸解码器，所述根据所述样本视频帧序列、所述样本语音和所述掩码帧序列对预设wav2lip模型进行训练，包括：

5.如权利要求4所述的方法，其特征在于，所述口型生成器的输出端连接预设超分辨率模型，所述根据所述预设人脸解码器的输出结果获取生成视频帧，包括：

6.如权利要求4所述的方法，其特征在于，所述视觉质量判别器包括依次连接的多个子判别器，各所述子判别器分别用于在不同预设尺度上，判断输入图像是否为真实人脸图像，所述根据所述视觉质量判别器确定所述生成视频帧和所述样本视频帧之间的对抗损失，包括：

7.如权利要求4所述的方法，其特征在于，所述根据各所述子判别器的判别结果确定所述对抗损失，包括：

8.一种视频生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的视频生成方法。

技术总结
本发明公开了一种视频生成方法及相关设备，该方法包括：先根据目标人的真实说话视频获取样本视频帧序列和样本语音，再对样本视频帧序列中各样本视频帧的预设区域进行掩码处理，获取掩码帧序列，然后根据样本视频帧序列、样本语音和掩码帧序列对预设wav2lip模型进行训练，训练完成后生成目标wav2lip模型，最后将目标语音和目标人的人脸视频帧序列输入目标wav2lip模型，生成目标人发出目标语音的唇形同步视频；其中，与原始wav2lip模型相比，预设wav2lip模型中的预设人脸编码器和预设人脸解码器增加了至少一个卷积层，使训练出的目标wav2lip模型可以满足更高分辨率的人脸视频帧输入和输出更高分辨率的唇形同步视频，从而提高了唇形同步视频的视频质量。

技术研发人员：程平,吴松城
受保护的技术使用者：厦门黑镜科技有限公司
技术研发日：
技术公布日：2024/3/4

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程平,吴松城
技术所有人：厦门黑镜科技有限公司
我是此专利的发明人

上一篇：一种Ni-SM-CdS复合型光催化剂的制备方法
上一篇：一种延时自降解型农药控释剂及其制备方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。