在数字人领域驱动中文语音精准生成唇形视频的方法与流程

文档序号：37425905发布日期：2024-03-25 19:13阅读：来源：国知局

技术特征：

1.一种在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，包括：

2.根据权利要求1所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，将下载的cmlr中文数据集进行超分处理，得到预设分辨率的视频，包括：

4.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，对超分处理后的cmlr中文数据集进行音视频合成，包括：

5.根据权利要求2所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，基于音视频合成后的cmlr中文数据集生成图像序列，并对人脸下半张脸进行关键点检测，得到图像序列中所有下半张脸的点位的最大值和最小值，包括：

6.根据权利要求1-5中任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，所述步骤2包括：

7.根据权利要求1-6中任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法，其特征在于，所述步骤3中将预处理后的视频帧输入到新的模型进行唇部推理，包括：

8.一种在数字人领域驱动中文语音精准生成唇形视频的装置，其特征在于，包括：

9.一种在数字人领域驱动中文语音精准生成唇形视频的设备，其特征在于，包括：处理器和存储器，所述存储器中存储有可执行的程序指令，所述处理器调用所述存储器中的程序指令时，所述处理器用于：

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至7任一项所述的在数字人领域驱动中文语音精准生成唇形视频的方法的步骤。

技术总结
本发明提供了一种在数字人领域驱动中文语音精准生成唇形视频的方法，包括：下载CMLR中文数据集并进行预处理，得到预处理后的CMLR中文数据集；将预处理后的CMLR中文数据集作为训练数据，按照设置的训练标准对wav2lip唇形同步模型进行训练，得到新的模型；将预处理后的视频帧输入到新的模型进行唇部推理，输出新的口型驱动视频。本发明针对现有的模型中对中文语音支持度差的缺陷，通过采用中文语音的数据集进行了重训练，使得中文发音口型得到校准；避免了现有模型在匹配到中文语音时口型开合过快的问题。此外，新的模型在训练时采用人脸关键点检测技术，从而能够更好的适配了下半脸，使上下脸看起来更加协调。

技术研发人员：郭文龙,唐杰,张宋伟,戴立言
受保护的技术使用者：上海网达软件股份有限公司
技术研发日：
技术公布日：2024/3/24

完整全部详细技术资料下载

当前第2页1 2