数字人口型视频的生成方法、装置、终端设备和存储介质与流程

文档序号：37640442发布日期：2024-04-18 18:01阅读：13来源：国知局

本申请属于数字人，尤其涉及一种数字人口型视频的生成方法、装置、终端设备和存储介质。

背景技术：

1、数字人是一种通过数字技术模拟人类外形、声音、情感等特征的虚拟人物。它们具有高度的逼真度和灵活性，可以用于教育、医疗、游戏、娱乐、虚拟展览等应用场景。在相关技术中，可以利用语音合成技术，识别出音频中人的语音特征，并根据语音特征生成数字人口型。但相关技术中利用音频生成的口型并不真实、自然。

技术实现思路

1、本申请实施例提供一种数字人口型视频的生成方法、装置、终端设备和存储介质，可以解决相关技术中利用音频生成的口型不真实、自然的问题。

2、第一方面，本申请实施例提供了一种数字人口型视频的生成方法，包括：

3、获取待转换音频；

4、将所述待转换音频转换成对应的第一音频口型特征；

5、将所述第一音频口型特征输入至映射关系模型，得到第一面部口型特征，所述映射关系模型为音频口型特征与面部口型特征之间的映射关系模型；

6、对所述第一面部口型特征进行渲染，得到数字人口型视频。

7、第二方面，本申请实施例提供了一种数字人口型视频的生成装置，包括：

8、获取模块，用于获取待转换音频；

9、转换模块，用于将所述待转换音频转换成对应的第一音频口型特征；

10、输入模块，用于将所述第一音频口型特征输入至映射关系模型，得到第一面部口型特征，所述映射关系模型为音频口型特征与面部口型特征之间的映射关系模型；

11、渲染模块，用于对所述第一面部口型特征进行渲染，得到数字人口型视频。

12、第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数字人口型视频的生成方法的步骤。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数字人口型视频的生成方法的步骤。

14、第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述数字人口型视频的生成方法。

15、本申请实施例与现有技术相比的有益效果是：本申请实施例首先获取待转换音频，并将待转换音频转换成对应的第一音频口型特征，再将第一音频口型特征输入至映射关系模型，得到第一面部口型特征，然后对第一面部口型特征进行渲染，得到数字人口型视频。本申请实施例将待转换音频转换成对应的音频口型特征，再利用音频口型特征与面部口型特征之间的映射关系模型，将音频口型特征转换成面部口型特征，转换后的面部口型特征相较于音频口型特征，更贴近于说话人的口型，因此最终渲染出来的数字人口型视频更加真实、自然。

技术特征：

1.一种数字人口型视频的生成方法，其特征在于，包括：

2.如权利要求1所述的数字人口型视频的生成方法，其特征在于，在所述将所述第一音频口型特征输入至映射关系模型，得到第一面部口型特征之前，所述方法还包括：

3.如权利要求2所述的数字人口型视频的生成方法，其特征在于，所述获取第二面部口型特征，包括：

4.如权利要求2所述的数字人口型视频的生成方法，其特征在于，在所述根据所述第二面部口型特征与所述第二音频口型特征，建立所述映射关系模型之后，所述将所述第一音频口型特征输入至映射关系模型，得到第一面部口型特征之前，所述方法还包括：

5.如权利要求2所述的数字人口型视频的生成方法，其特征在于，在所述获取第二面部口型特征之后，所述方法还包括：

6.如权利要求1所述的数字人口型视频的生成方法，其特征在于，所述将所述待转换音频转换成对应的第一音频口型特征，包括：

7.如权利要求1所述的数字人口型视频的生成方法，其特征在于，所述对所述第一面部口型特征进行渲染，得到数字人口型视频，包括：

8.一种数字人口型视频的生成装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数字人口型视频的生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数字人口型视频的生成方法的步骤。

技术总结
本申请适用于数字人技术领域，提供了一种数字人口型视频的生成方法、装置、终端设备和存储介质。上述数字人口型视频的生成方法包括：获取待转换音频；将待转换音频转换成对应的第一音频口型特征；将第一音频口型特征输入至映射关系模型，得到第一面部口型特征；对第一面部口型特征进行渲染，得到数字人口型视频。本申请实施例将待转换音频转换成对应的音频口型特征，再利用音频口型特征与面部口型特征之间的映射关系模型，将音频口型特征转换成面部口型特征，转换后的面部口型特征相较于音频口型特征，更贴近于说话人的口型，因此最终渲染出来的数字人口型视频更加真实、自然。

技术研发人员：宋泽山
受保护的技术使用者：上海积图科技有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋泽山
技术所有人：上海积图科技有限公司
我是此专利的发明人