本公开涉及信息,尤其涉及3d数字人唇形实时驱动方法及装置、终端和存储介质。
背景技术:
1、随着人工智能时代的来临,基于人工智能人机交互方式的应用也越来越普遍,可视化语音技术就是一种新一代人机交互方式。3d数字人是一种比较常见的方式,可以模拟真人的动作、神态,且可以与真人进行语音交流。3d数字人唇形驱动技术是3d数字人产品落地所需的关键技术之一。目前大部分同类产品要么采用传统方法,即人为设计驱动规则,通用性较差;要么采用基于深度学习的技术方案,训练数据采集成本高,不易获取。基于此,如何提高3d数字人唇形驱动的鲁棒性成为了亟需解决的技术问题。
技术实现思路
1、为解决现有问题,本公开提供一种3d数字人唇形实时驱动方法及装置、终端和存储介质。
2、本公开采用以下的技术方案。
3、本公开的实施例提供一种3d数字人唇形实时驱动方法,3d数字人唇形实时驱动方法包括:获取训练音频和训练bs数据,得到训练音频-bs数据对;利用所述训练音频-bs数据对训练卷积神经网络模型,得到经训练的卷积神经网络模型;将音频输入所述经训练的卷积神经网络模型以输出bs数据;基于所述音频和所述bs数据进行3d数字人唇形的驱动和所述音频的同步播放。
4、本公开的另一实施例提供了一种3d数字人唇形实时驱动装置,所述3d数字人唇形实时驱动装置包括:训练数据获取模块,配置为获取训练音频和训练bs数据,得到训练音频-bs数据对;模型训练模块,配置为利用所述训练音频-bs数据对训练卷积神经网络模型,得到经训练的卷积神经网络模型;bs数据输出模块,配置为将音频输入所述经训练的卷积神经网络模型以输出bs数据;驱动模块,配置为基于所述音频和所述bs数据进行3d数字人唇形的驱动和所述音频的同步播放。
5、在一些实施例中,本公开提供一种终端,包括:至少一个存储器和至少一个处理器;其中,存储器用于存储程序代码,处理器用于调用所述存储器所存储的程序代码执行上述3d数字人唇形实时驱动方法。
6、在一些实施例中,本公开提供一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述3d数字人唇形实时驱动方法。
7、本公开通过采用基于bs(blendshape)的深度学习方法,利用训练音频-bs数据对训练卷积神经网络模型,得到经训练的卷积神经网络模型,然后将音频输入经训练的卷积神经网络模型以输出bs数据,进而基于音频和bs数据进行3d数字人唇形的驱动和音频的同步播放,如此,提高了训练模型的泛化能力,且通用性更强,能够保证3d数字人唇形驱动的实时性。
1.一种3d数字人唇形实时驱动方法,其特征在于,所述3d数字人唇形实时驱动方法包括:
2.根据权利要求1所述的3d数字人唇形实时驱动方法,其特征在于,还包括:
3.根据权利要求1所述的3d数字人唇形实时驱动方法,其特征在于,获取所述训练音频和所述训练bs数据包括:通过苹果手机和电脑获取所述训练音频和所述训练bs数据。
4.根据权利要求3所述的3d数字人唇形实时驱动方法,其特征在于,通过苹果手机和电脑获取所述训练音频和所述训练bs数据包括:
5.根据权利要求1所述的3d数字人唇形实时驱动方法,其特征在于,还包括:
6.根据权利要求1所述的3d数字人唇形实时驱动方法,其特征在于,将音频输入所述经训练的卷积神经网络模型包括:
7.根据权利要求1所述的3d数字人唇形实时驱动方法,其特征在于,所述卷积神经网络模型包括音素分析网络、语言表达网络和输出网络,其中,所述音素分析网络由五层残差块组成,所述输出网络由两层全连接层组成,所述输出网络的激活函数为修正线性单元。
8.一种3d数字人唇形实时驱动装置,其特征在于,所述3d数字人唇形实时驱动装置包括:
9.一种终端,包括:
10.一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至7中任一项所述的3d数字人唇形实时驱动方法。