3D数字人唇形实时驱动方法、装置、终端和存储介质与流程

文档序号：37447742发布日期：2024-03-28 18:30阅读：12来源：国知局

本公开涉及信息，尤其涉及3d数字人唇形实时驱动方法及装置、终端和存储介质。

背景技术：

1、随着人工智能时代的来临，基于人工智能人机交互方式的应用也越来越普遍，可视化语音技术就是一种新一代人机交互方式。3d数字人是一种比较常见的方式，可以模拟真人的动作、神态，且可以与真人进行语音交流。3d数字人唇形驱动技术是3d数字人产品落地所需的关键技术之一。目前大部分同类产品要么采用传统方法，即人为设计驱动规则，通用性较差；要么采用基于深度学习的技术方案，训练数据采集成本高，不易获取。基于此，如何提高3d数字人唇形驱动的鲁棒性成为了亟需解决的技术问题。

技术实现思路

1、为解决现有问题，本公开提供一种3d数字人唇形实时驱动方法及装置、终端和存储介质。

2、本公开采用以下的技术方案。

3、本公开的实施例提供一种3d数字人唇形实时驱动方法，3d数字人唇形实时驱动方法包括：获取训练音频和训练bs数据，得到训练音频-bs数据对；利用所述训练音频-bs数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；将音频输入所述经训练的卷积神经网络模型以输出bs数据；基于所述音频和所述bs数据进行3d数字人唇形的驱动和所述音频的同步播放。

4、本公开的另一实施例提供了一种3d数字人唇形实时驱动装置，所述3d数字人唇形实时驱动装置包括：训练数据获取模块，配置为获取训练音频和训练bs数据，得到训练音频-bs数据对；模型训练模块，配置为利用所述训练音频-bs数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；bs数据输出模块，配置为将音频输入所述经训练的卷积神经网络模型以输出bs数据；驱动模块，配置为基于所述音频和所述bs数据进行3d数字人唇形的驱动和所述音频的同步播放。

5、在一些实施例中，本公开提供一种终端，包括：至少一个存储器和至少一个处理器；其中，存储器用于存储程序代码，处理器用于调用所述存储器所存储的程序代码执行上述3d数字人唇形实时驱动方法。

6、在一些实施例中，本公开提供一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行上述3d数字人唇形实时驱动方法。

7、本公开通过采用基于bs（blendshape）的深度学习方法，利用训练音频-bs数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型，然后将音频输入经训练的卷积神经网络模型以输出bs数据，进而基于音频和bs数据进行3d数字人唇形的驱动和音频的同步播放，如此，提高了训练模型的泛化能力，且通用性更强，能够保证3d数字人唇形驱动的实时性。

技术特征：

1.一种3d数字人唇形实时驱动方法，其特征在于，所述3d数字人唇形实时驱动方法包括：

2.根据权利要求1所述的3d数字人唇形实时驱动方法，其特征在于，还包括：

3.根据权利要求1所述的3d数字人唇形实时驱动方法，其特征在于，获取所述训练音频和所述训练bs数据包括：通过苹果手机和电脑获取所述训练音频和所述训练bs数据。

4.根据权利要求3所述的3d数字人唇形实时驱动方法，其特征在于，通过苹果手机和电脑获取所述训练音频和所述训练bs数据包括：

5.根据权利要求1所述的3d数字人唇形实时驱动方法，其特征在于，还包括：

6.根据权利要求1所述的3d数字人唇形实时驱动方法，其特征在于，将音频输入所述经训练的卷积神经网络模型包括：

7.根据权利要求1所述的3d数字人唇形实时驱动方法，其特征在于，所述卷积神经网络模型包括音素分析网络、语言表达网络和输出网络，其中，所述音素分析网络由五层残差块组成，所述输出网络由两层全连接层组成，所述输出网络的激活函数为修正线性单元。

8.一种3d数字人唇形实时驱动装置，其特征在于，所述3d数字人唇形实时驱动装置包括：

9.一种终端，包括：

10.一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1至7中任一项所述的3d数字人唇形实时驱动方法。

技术总结
本公开提供3D数字人唇形实时驱动方法及装置、终端和存储介质。3D数字人唇形实时驱动方法包括：获取训练音频和训练BS数据，得到训练音频‑BS数据对；利用训练音频‑BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；将音频输入经训练的卷积神经网络模型以输出BS数据；基于音频和BS数据进行3D数字人唇形的驱动和音频的同步播放。本公开的方法提高了训练模型的泛化能力，且通用性更强，能够保证3D数字人唇形驱动的实时性。

技术研发人员：李志华,杨松,杨波
受保护的技术使用者：飞狐信息技术（天津）有限公司
技术研发日：
技术公布日：2024/3/27

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李志华,杨松,杨波
技术所有人：飞狐信息技术（天津）有限公司
我是此专利的发明人

上一篇：一种基于无线拍照的野外鸟巢观测装置
上一篇：表面包硅胶电磁导热辊的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。