基于语音分析的3D虚拟演讲者驱动方法及相关装置与流程

文档序号:35386610发布日期:2023-09-09 12:47阅读:79来源:国知局

本技术涉及语音分析,尤其涉及基于语音分析的3d虚拟演讲者驱动方法及相关装置。


背景技术:

1、现如今由于受各种外界环境因素影响,同时基于网络在线学习给学习者提供了便捷、自由和宽松的学习环境,学习者们更倾向于从网络视频上获取知识。然而,这种分离时空的教学方式久而久之会使学习者难以保持长久的热情,专注力也会有所下降。针对这一问题三维虚拟教师应运而生。在动画视频教学中,虚拟教师的形象对调动学生积极性、引导学生参与课堂等方面具有积极影响,而一个好的虚拟教师形象对人物建模、人物口型与人物动作都有要求。

2、一个包含三维虚拟教师形象的视频需要通过人工手段驱动三维人物模型,使虚拟教师能够动起来达到真实教师教授课程的效果,这其中的每一过程都需要人工参与调节,并且在模型发生较大变化时,需要重新进行骨骼绑定等操作,难以复用过去的成果,这导致了教学视频的产出需要耗费较多的时间与人力,由此可见,传统的语音和面部运动的同步很难人工实现,这就需要用自动生成虚拟人物口型与动作的方案来缩短视频制作工期与人力。

3、现有的方法有使用颜色、深度和音频重现rgbd传感器记录说话者面部动画,然而,这并不适用于推广到不可见的说话者的语音。同时也有的方法试图在潜在表征中对说话者风格进行建模,或者将个人风格编码在静态blendshape基础中,但是这两种方法都集中于较低的面部动画,主要是在唇部,并不包含其他动作。主流的语音驱动三维模型是编码器-解码器模型,或结合解耦与融合的思想计算口型的偏移量。单纯口型的变化而忽略了语音驱动人脸面部表情,让三维虚拟人物看起来目光呆滞,无法与学习者产生共鸣,并且语音中演讲者的声音特征、情绪特征与上下文内容特征也应该对人物的口型与动作产生影响,否则会使虚拟人物的表现能力不佳。而且,在口型生成时忽略了声色、抑扬等具有演讲者特点的部分;另外,头部动作并非只与语音相关,相同的语音内容可能有不同的动作,或者说头部动作并非是语音一个因素可以决定。所以实际的三维虚拟演讲者语音驱动效果较差,不满足实际场景应用需求。


技术实现思路

1、本技术提供了基于语音分析的3d虚拟演讲者驱动方法及相关装置,用于解决现有技术仅考虑语音驱动的口型变化情况,忽略了其他动作形态,且驱动因素仅分析语音,太过单一,导致三维虚拟演讲者动作驱动效果较差的技术问题。

2、有鉴于此,本技术第一方面提供了基于语音分析的3d虚拟演讲者驱动方法,包括:

3、通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码;

4、采用预设自回归概率模型根据所述语音内容编码和历史头部运动特征预测当前头部运动特征,所述预设自回归概率模型包括残差块;

5、基于lstm网络模型和第一mlp根据所述语音内容编码和所述演讲人信息编码提取风格口型特征,所述风格口型特征包括通用口型特征;

6、通过第二mlp根据所述当前头部运动特征和所述风格口型特征计算口型系数和头部运动系数;

7、依据所述口型系数、所述头部运动系数和预置手部动作对3d虚拟演讲者进行驱动。

8、优选地,所述采用预设自回归概率模型根据所述语音内容编码和历史头部运动特征预测当前头部运动特征,包括:

9、以历史头部运动特征和对应的历史语音表征为条件,采用预设自回归概率模型捕获所述语音内容编码中头部运动的时序依赖关系,并预测当前头部运动特征。

10、优选地,所述基于lstm网络模型和第一mlp根据所述语音内容编码和所述演讲人信息编码提取风格口型特征,所述风格口型特征包括通用口型特征,包括:

11、基于第一lstm网络模型在所述语音内容编码中提取通用口型特征;

12、通过第一mlp将所述演讲人信息编码进行降维处理后,采用第二lstm网络模型根据所述通用口型特征和降维后的所述演讲人编码信息进行综合特征提取,得到风格口型特征。

13、优选地,所述依据所述口型系数、所述头部运动系数和预置手部动作对3d虚拟演讲者进行驱动,之前还包括:

14、基于姿势静止回归模型和moglow模型构建自回归序列到序列模型;

15、采用所述自回归序列到序列模型根据所述语音内容编码生成预置手部动作。

16、本技术第二方面提供了基于语音分析的3d虚拟演讲者驱动装置,包括:

17、特征编码单元,用于通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码;

18、头部预测单元,用于采用预设自回归概率模型根据所述语音内容编码和历史头部运动特征预测当前头部运动特征,所述预设自回归概率模型包括残差块;

19、口型分析单元,用于基于lstm网络模型和第一mlp根据所述语音内容编码和所述演讲人信息编码提取风格口型特征,所述风格口型特征包括通用口型特征;

20、系数计算单元,用于通过第二mlp根据所述当前头部运动特征和所述风格口型特征计算口型系数和头部运动系数;

21、形态驱动单元,用于依据所述口型系数、所述头部运动系数和预置手部动作对3d虚拟演讲者进行驱动。

22、优选地,所述头部预测单元,具体用于:

23、以历史头部运动特征和对应的历史语音表征为条件,采用预设自回归概率模型捕获所述语音内容编码中头部运动的时序依赖关系,并预测当前头部运动特征。

24、优选地,所述口型分析单元,具体用于:

25、基于第一lstm网络模型在所述语音内容编码中提取通用口型特征;

26、通过第一mlp将所述演讲人信息编码进行降维处理后,采用第二lstm网络模型根据所述通用口型特征和降维后的所述演讲人编码信息进行综合特征提取,得到风格口型特征。

27、优选地,还包括:

28、模型构建单元,用于基于姿势静止回归模型和moglow模型构建自回归序列到序列模型;

29、动作生成单元,用于采用所述自回归序列到序列模型根据所述语音内容编码生成预置手部动作。

30、本技术第三方面提供了基于语音分析的3d虚拟演讲者驱动设备,所述设备包括处理器以及存储器;

31、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

32、所述处理器用于根据所述程序代码中的指令执行第一方面所述的基于语音分析的3d虚拟演讲者驱动方法。

33、本技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的基于语音分析的3d虚拟演讲者驱动方法。

34、从以上技术方案可以看出,本技术实施例具有以下优点:

35、本技术中,提供了基于语音分析的3d虚拟演讲者驱动方法,包括:通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码;采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征,预设自回归概率模型包括残差块;基于lstm网络模型和第一mlp根据语音内容编码和演讲人信息编码提取风格口型特征,风格口型特征包括通用口型特征;通过第二mlp根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数;依据口型系数、头部运动系数和预置手部动作对3d虚拟演讲者进行驱动。

36、本技术提供的基于语音分析的3d虚拟演讲者驱动方法,基于当前语音信息不仅考虑了口型特征,还分别提取出了头部运动特征和手部动作用于生动灵活的驱动演讲者的动作形态;而且除了语音内容信息之外,还考虑了演讲人信息,结合演讲人个性化特征和语音内容分析并得到各类动作系数,进而实现对演讲者的高效驱动;此外,在头部运动特征分析阶段还考虑到了前面时间的头部运动特征对后来时间的头部运动特征的影响,更加符合实际情况。因此,本技术能够解决现有技术仅考虑语音驱动的口型变化情况,忽略了其他动作形态,且驱动因素仅分析语音,太过单一,导致三维虚拟演讲者动作驱动效果较差的技术问题。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!