数字人驱动方法、电子设备、存储介质及程序产品与流程

文档序号：38035646发布日期：2024-05-17 13:20阅读：9来源：国知局

本公开涉及计算机，本公开尤其涉及一种数字人驱动方法、电子设备、存储介质及程序产品。

背景技术：

1、虚拟数字人指存在于非物理世界中，由计算机手段创造及使用，并具有多重人类特征(例如：外貌特征、人类表演能力、交互能力等)的综合产物。

2、相关技术提供的数字人驱动方法包括采集目标对象的图像信息和音频信息；对图像信息和音频信息进行识别判断，得到判断结果；根据判断结果对图像信息和/或音频信息进行特征提取处理，得到第一运动特征和/或第二运动特征；将第一运动特征和/或第二运动特征、数字人基础图像输入至人物生成器；通过人物生成器对数字人基础图像进行驱动处理，输出第一数字人驱动图像。

3、相关技术提供的数字人驱动方法，由语音驱动生成的表情特征存在预测不准确，嘴形同步性低的问题。尤其是针对静音段音频，相关技术方案提供的方法需要针对说话人本身的说话方式和音色进行微调以达到数字人驱动的最佳效果，在跨语种和情感数字人的应用场景下表现欠佳。

技术实现思路

1、本公开提供了一种数字人驱动方法、电子设备、存储介质及程序产品。

2、一方面本公开实施方式提供了一种数字人驱动方法，包括：

3、获取音频数据；

4、对所述音频数据进行语音特征解耦，得到音频特征；

5、对所述音频特征进行特征分析处理，得到中间向量表征；

6、基于所述中间向量表征生成视频图像，基于所述视频图像驱动数字人。

7、根据本公开一种优选的实施方式，所述音频特征包括基于目标音频的第一音频特征和基于发音人音频的第二音频特征。

8、根据本公开一种优选的实施方式，对所述音频特征进行特征分析处理，得到中间向量表征，包括：

9、对所述第一音频特征进行聚类分析处理，得到第一中间向量表征；

10、对所述第二音频特征进行遮罩处理，得到第二中间向量表征。

11、根据本公开一种优选的实施方式，对所述音频数据进行语音特征解耦，包括：

12、对所述音频数据进行切分，得到分段音频序列；

13、对所述分段音频序列进行语音特征解耦。

14、根据本公开一种优选的实施方式，对所述音频数据进行切分，得到分段音频序列，包括：

15、基于音频数据的时间长度对所述音频数据进行切分，得到所述分段音频序列。

16、根据本公开一种优选的实施方式，对所述音频数据进行切分，得到分段音频序列之后，还包括：

17、对所述分段音频序列进行均值方差标准化处理。

18、根据本公开一种优选的实施方式，对所述第一音频特征进行聚类处理，得到第一中间向量表征，包括：

19、获取所述第一音频特征的粒度等级；

20、基于所述第一音频特征的粒度等级对所述第一音频特征进行聚类处理，得到第一中间向量表征。

21、根据本公开一种优选的实施方式，基于所述第一音频特征的粒度等级对所述第一音频特征进行聚类处理，得到第一中间向量表征，包括：

22、基于第一音频特征的粒度等级对所述第一音频特征进行聚类处理，得到不同粒度等级的子音频特征；

23、对不同粒度等级的子音频特征向量化，获取向量化的子音频特征之间的距离；

24、基于向量化的子音频特征之间的距离进行各个子音频特征的融合，得到所述第一中间向量表征。

25、根据本公开一种优选的实施方式，所述粒度等级包括元音辅音级，音素级以及多元音素级。

26、根据本公开一种优选的实施方式，对所述第二音频特征进行遮罩处理，得到第二中间向量表征，包括：

27、基于第二音频特征的时序在所述第二音频特征中按照预设时序比例获取预设数量的第二音频特征，对所述预设数量的第二音频特征进行遮罩处理；

28、基于遮罩处理的第二音频特征以及未遮罩处理的第二音频特征得到第二中间向量表征。

29、根据本公开一种优选的实施方式，还包括：获取所述第一中间向量表征与所述第二中间向量表征的交叉熵损失；

30、基于所述交叉熵损失与预设阈值更新所述第一中间向量表征与所述第二中间向量表征。

31、根据本公开一种优选的实施方式，获取所述第一中间向量表征与所述第二中间向量表征的交叉熵损失，包括：

32、获取遮罩处理的第二音频特征的占比以及未遮罩处理的第二音频特征的占比；

33、基于遮罩处理的第二音频特征的占比以及未遮罩处理的第二音频特征的占比得到所述交叉熵损失。

34、根据本公开一种优选的实施方式，通过如下公式得到所述交叉熵损失：

35、l＝αlm+(1-α)lu

36、其中，l表示交叉熵损失，α表示遮罩处理的第二音频特征的占比，lu表示未遮罩处理的第二音频特征的损失，lm表示遮罩处理的第二音频特征的损失。

37、根据本公开实施方式的还一个方面，提供了一种电子设备，包括：

38、存储器，所述存储器存储执行指令；

39、处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行本公开实施方式中任一项所述的数字人驱动方法。

40、根据本公开实施方式的再一个方面，提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现本公开实施方式中任一项所述的数字人驱动方法。

41、根据本公开实施方式的又一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本公开实施方式中任一项所述的数字人驱动方法。

技术特征：

1.一种数字人驱动方法，其特征在于，包括：

2.根据权利要求1所述的数字人驱动方法，其特征在于，所述音频特征包括基于目标音频的第一音频特征和基于发音人音频的第二音频特征。

3.根据权利要求2所述的数字人驱动方法，其特征在于，对所述音频特征进行特征分析处理，得到中间向量表征，包括：

4.根据权利要求3所述的数字人驱动方法，其特征在于，对所述第一音频特征进行聚类处理，得到第一中间向量表征，包括：

5.根据权利要求4所述的数字人驱动方法，其特征在于，基于所述第一音频特征的粒度等级对所述第一音频特征进行聚类处理，得到第一中间向量表征，包括：

6.根据权利要求2所述的数字人驱动方法，其特征在于，对所述第二音频特征进行遮罩处理，得到第二中间向量表征，包括：

7.根据权利要求3所述的数字人驱动方法，其特征在于，还包括：获取所述第一中间向量表征与所述第二中间向量表征的交叉熵损失；以及

8.一种电子设备，其特征在于，包括：

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的数字人驱动方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的数字人驱动方法。

技术总结
本公开提供了一种数字人驱动方法、电子设备、存储介质及程序产品。本公开的数字人驱动方法包括：获取音频数据；对音频数据进行语音特征解耦，得到音频特征；对音频特征进行特征分析处理，得到中间向量表征；基于中间向量表征生成视频图像，基于视频图像驱动数字人。

技术研发人员：唐旻杰,李梅,孙瑜博,邬欣诺,吕达,陈云琳
受保护的技术使用者：上海墨百意信息科技有限公司
技术研发日：
技术公布日：2024/5/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐旻杰,李梅,孙瑜博,邬欣诺,吕达,陈云琳
技术所有人：上海墨百意信息科技有限公司
我是此专利的发明人

上一篇：一种新能源汽车电池组
上一篇：一种基于多视图神经网络的Wi-Fi手势识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。