基于扩散模型的动作生成方法、装置、设备及介质

文档序号:38029919发布日期:2024-05-17 13:08阅读:16来源:国知局
基于扩散模型的动作生成方法、装置、设备及介质

本发明属于人工智能,具体涉及一种基于扩散模型的动作生成方法、装置、设备及介质。


背景技术:

1、随着计算技术的快速发展,三维(3d)人体模型及其动态运动在数字娱乐行业中得到广泛应用。人体表演主要涉及人体的形态和动作。人体表演动画的重点研究问题包括如何捕捉和分析人体的静态几何外观和动态运动,以及如何用物理效果模拟人体运动,单一的动作往往只能适用于特定场所,业界一直在探索能简便生成组合动作以灵活适用于不同场景。

2、条件人体运动生成是一项具有挑战性的任务,它根据各种条件输入(例如动作类或文本描述符、音乐或图片信号)生成合理的人体运动序列。由于人体运动高度多样化,并且具有与条件模态(例如自然语言中的文本描述符)完全不同的分布特性,因此很难学习从所需条件模态到人体运动序列的概率映射。此外,来自运动捕捉系统的原始运动数据可能存在序列冗余且包含噪声;直接对原始运动序列和条件模态的联合分布进行建模将需要大量的计算开销,并且可能会导致捕获的噪声引入伪影。

3、人体运动生成所面临的复杂挑战,不仅仅是将深度生成模型应用于人体运动数据集。首先,人体运动是高度非线性和铰接的,受到物理和生物力学的限制。此外,人类大脑拥有感知生物运动的专门神经机制,对轻微不自然的运动学也很敏感。因此,生成的运动需要自然、平滑和可信等高视觉质量。其次,人体动作生成的需求通常包括上下文作为条件信号,例如文本描述、背景音频或周围环境。生成的动作不仅本身合理,而且与条件信号相协调信号。最后,人体动作是一种重要的非语言交流媒介,反映了各种潜在因素,例如目标、个人风格、社会规范和文化表达方式。理想情况下,运动生成模型应该学会捕捉细微的变化以及与条件信号的语义联系。


技术实现思路

1、本发明提供一种基于扩散模型的动作生成方法、装置、设备及介质,只需要输入一段目标动作的描述文字,便能依据文字内容生成一段动作数据,实现高效便捷地生成多样化、高自由度、观感自然、动作流畅的动作。

2、为实现上述技术目的,本发明采用如下技术方案:

3、一种基于扩散模型的动作生成方法,包括:

4、步骤1,获取不同动作对应的身体多节点位置的时间序列,记为动作序列,并标注各动作序列的文本信息;

5、步骤2,构建基于扩散模型的动作生成模型,包括逆向去噪过程和前向加噪过程;其中,

6、所述前向加噪过程,使用预定义的超参数表示条件概率分布均值和方差;

7、所述逆向去噪过程,通过神经网络预测前向加噪过程所添加的噪音,进而对输入数据进行还原;

8、步骤3,将动作序列的文本信息和给定的噪音作为逆向去噪过程的原始输入数据,将动作序列作为逆向去噪过程最终所得的还原数据,对所述动作生成模型进行训练;

9、步骤4,获取目标动作的文本信息,将该文本信息和给定的噪音输入至训练好的动作生成模型中,得到目标动作对应的身体多节点坐标的时间序列。

10、进一步的,所述前向加噪过程建模为马尔可夫噪声过程,在前向加噪过程的第t个扩散时间步表示为:

11、

12、其中,为第t个扩散时间步的运动序列,包括身体多节点从第1至第n帧的位置数据;αt∈(0,1)是常量超参数,当αt足够小时,初始给定的噪音符合正态分布,即i为单位矩阵,t为扩散时间步的总数。

13、进一步的,所述神经网络包括文本编码器、时间编码器、第一线性层、pe层、transformer encoder和第二线性层;

14、所述文本编码器对输入的文本信息进行编码,得到文本编码;

15、所述时间编码器对添加噪声的扩散时间步进行编码,得到时间编码;将文本编码与时间编码整合后记为词嵌入向量;

16、所述第一线性层对每个扩散时间步输入的运动序列进行线性处理;

17、所述pe层使用正弦函数为线性处理后的词嵌入向量和运动序列各帧数据进行位置编码;

18、所述transformer encoder对pe层的输出数据进行处理,再由第二线性层输出当前扩散时间步预测所得的原始运动序列。

19、进一步的,训练神经网络采用损失函数为:

20、

21、

22、

23、

24、

25、其中,代表现有的简化损失函数,代表身体多节点的位置误差,代表身体多节点中的脚与地面之间的接触误差,代表身体多节点的速度误差;λpos、分别代表的权重;

26、x0代表作为逆向去噪过程最终所得还原数据的运动序列,c代表动作序列的文本信息,xt代表作为逆向去噪过程第t个扩散时间步的运动序列,g(xt,t,c)代表逆向去噪过程第t个扩散时间步预测输出的运动序列;

27、代表运动序列x0中的第i帧数据,代表逆向去噪过程预测输出的运动序列中的第i帧数据;fk()代表正向运动学函数,计算身体各个关节点的空间位置变换关系;fi代表运动序列第i帧数据中的脚是否接触地面的二进制掩码,若脚接触地面则fi=1,若脚不接触地面则fi=0。

28、进一步的,步骤1获取的动作序列,通过使用人体动作捕捉设备采集人体多个关节点在设定时长内的坐标变化得到。

29、进一步的,在使用人体动作捕捉设备采集得到不同人体的运动序列后,再使用mosh++方法将采集到的不同人体的运动序列转换到给定身体模型表示的3d人体网格中,再使用该转换后的运动序列对动作生成模型进行训练。

30、一种基于扩散模型的动作生成装置,包括:

31、数据获取模块,用于:获取不同动作对应的身体多节点位置的时间序列,记为动作序列,并标注各动作序列的文本信息;

32、模型构建模块,用于:构建基于扩散模型的动作生成模型,包括逆向去噪过程和前向加噪过程;其中,所述前向加噪过程,使用预定义的超参数表示条件概率分布均值和方差;所述逆向去噪过程,通过神经网络预测前向加噪过程所添加的噪音,进而对输入数据进行还原;

33、模型训练模块,用于:将动作序列的文本信息和给定的噪音作为逆向去噪过程的原始输入数据,将动作序列作为逆向去噪过程最终所得的还原数据,对所述动作生成模型进行训练;

34、动作生成模块,用于:获取目标动作的文本信息,将该文本信息和给定的噪音输入至训练好的动作生成模型中,得到目标动作对应的身体多节点坐标的时间序列。

35、一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项所述的基于扩散模型的动作生成方法。

36、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的基于扩散模型的动作生成方法。

37、有益效果

38、本发明通过深度学习模型对大规模运动数据进行学习,实现了更为细致和真实的人体动作合成,提高了动作的真实感和多样性,为虚拟环境中的动作表达提供了更为真实的解决方案。在风格转移方面,本发明突破传统风格迁移的限制,通过深度学习网络实现了文字到动作的生成。

39、本发明应用不仅可以推动人体动作生成技术的前沿,同时为虚拟现实、娱乐产业等领域提供了更为先进和出色的人体动作效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1