本公开涉及计算机,本公开尤其涉及一种数字人驱动方法、电子设备、存储介质及程序产品。
背景技术:
1、虚拟数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(例如:外貌特征、人类表演能力、交互能力等)的综合产物。
2、相关技术提供的数字人驱动方法包括采集目标对象的图像信息和音频信息;对图像信息和音频信息进行识别判断,得到判断结果;根据判断结果对图像信息和/或音频信息进行特征提取处理,得到第一运动特征和/或第二运动特征;将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器;通过人物生成器对数字人基础图像进行驱动处理,输出第一数字人驱动图像。
3、相关技术提供的数字人驱动方法,由语音驱动生成的表情特征存在预测不准确,嘴形同步性低的问题。尤其是针对静音段音频,相关技术方案提供的方法需要针对说话人本身的说话方式和音色进行微调以达到数字人驱动的最佳效果,在跨语种和情感数字人的应用场景下表现欠佳。
技术实现思路
1、本公开提供了一种数字人驱动方法、电子设备、存储介质及程序产品。
2、一方面本公开实施方式提供了一种数字人驱动方法,包括:
3、获取音频数据;
4、对所述音频数据进行语音特征解耦,得到音频特征;
5、对所述音频特征进行特征分析处理,得到中间向量表征;
6、基于所述中间向量表征生成视频图像,基于所述视频图像驱动数字人。
7、根据本公开一种优选的实施方式,所述音频特征包括基于目标音频的第一音频特征和基于发音人音频的第二音频特征。
8、根据本公开一种优选的实施方式,对所述音频特征进行特征分析处理,得到中间向量表征,包括:
9、对所述第一音频特征进行聚类分析处理,得到第一中间向量表征;
10、对所述第二音频特征进行遮罩处理,得到第二中间向量表征。
11、根据本公开一种优选的实施方式,对所述音频数据进行语音特征解耦,包括:
12、对所述音频数据进行切分,得到分段音频序列;
13、对所述分段音频序列进行语音特征解耦。
14、根据本公开一种优选的实施方式,对所述音频数据进行切分,得到分段音频序列,包括:
15、基于音频数据的时间长度对所述音频数据进行切分,得到所述分段音频序列。
16、根据本公开一种优选的实施方式,对所述音频数据进行切分,得到分段音频序列之后,还包括:
17、对所述分段音频序列进行均值方差标准化处理。
18、根据本公开一种优选的实施方式,对所述第一音频特征进行聚类处理,得到第一中间向量表征,包括:
19、获取所述第一音频特征的粒度等级;
20、基于所述第一音频特征的粒度等级对所述第一音频特征进行聚类处理,得到第一中间向量表征。
21、根据本公开一种优选的实施方式,基于所述第一音频特征的粒度等级对所述第一音频特征进行聚类处理,得到第一中间向量表征,包括:
22、基于第一音频特征的粒度等级对所述第一音频特征进行聚类处理,得到不同粒度等级的子音频特征;
23、对不同粒度等级的子音频特征向量化,获取向量化的子音频特征之间的距离;
24、基于向量化的子音频特征之间的距离进行各个子音频特征的融合,得到所述第一中间向量表征。
25、根据本公开一种优选的实施方式,所述粒度等级包括元音辅音级,音素级以及多元音素级。
26、根据本公开一种优选的实施方式,对所述第二音频特征进行遮罩处理,得到第二中间向量表征,包括:
27、基于第二音频特征的时序在所述第二音频特征中按照预设时序比例获取预设数量的第二音频特征,对所述预设数量的第二音频特征进行遮罩处理;
28、基于遮罩处理的第二音频特征以及未遮罩处理的第二音频特征得到第二中间向量表征。
29、根据本公开一种优选的实施方式,还包括:获取所述第一中间向量表征与所述第二中间向量表征的交叉熵损失;
30、基于所述交叉熵损失与预设阈值更新所述第一中间向量表征与所述第二中间向量表征。
31、根据本公开一种优选的实施方式,获取所述第一中间向量表征与所述第二中间向量表征的交叉熵损失,包括:
32、获取遮罩处理的第二音频特征的占比以及未遮罩处理的第二音频特征的占比;
33、基于遮罩处理的第二音频特征的占比以及未遮罩处理的第二音频特征的占比得到所述交叉熵损失。
34、根据本公开一种优选的实施方式,通过如下公式得到所述交叉熵损失:
35、l=αlm+(1-α)lu
36、其中,l表示交叉熵损失,α表示遮罩处理的第二音频特征的占比,lu表示未遮罩处理的第二音频特征的损失,lm表示遮罩处理的第二音频特征的损失。
37、根据本公开实施方式的还一个方面,提供了一种电子设备,包括:
38、存储器,所述存储器存储执行指令;
39、处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行本公开实施方式中任一项所述的数字人驱动方法。
40、根据本公开实施方式的再一个方面,提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现本公开实施方式中任一项所述的数字人驱动方法。
41、根据本公开实施方式的又一个方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本公开实施方式中任一项所述的数字人驱动方法。
1.一种数字人驱动方法,其特征在于,包括:
2.根据权利要求1所述的数字人驱动方法,其特征在于,所述音频特征包括基于目标音频的第一音频特征和基于发音人音频的第二音频特征。
3.根据权利要求2所述的数字人驱动方法,其特征在于,对所述音频特征进行特征分析处理,得到中间向量表征,包括:
4.根据权利要求3所述的数字人驱动方法,其特征在于,对所述第一音频特征进行聚类处理,得到第一中间向量表征,包括:
5.根据权利要求4所述的数字人驱动方法,其特征在于,基于所述第一音频特征的粒度等级对所述第一音频特征进行聚类处理,得到第一中间向量表征,包括:
6.根据权利要求2所述的数字人驱动方法,其特征在于,对所述第二音频特征进行遮罩处理,得到第二中间向量表征,包括:
7.根据权利要求3所述的数字人驱动方法,其特征在于,还包括:获取所述第一中间向量表征与所述第二中间向量表征的交叉熵损失;以及
8.一种电子设备,其特征在于,包括:
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的数字人驱动方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的数字人驱动方法。