一种基于单目RGB视频和稀疏IMU的人体动作捕捉方法及装置

文档序号:37731624发布日期:2024-04-23 12:18阅读:8来源:国知局
一种基于单目RGB视频和稀疏IMU的人体动作捕捉方法及装置

本技术涉及计算机视觉和图形学领域,尤其涉及一种基于单目rgb视频和稀疏imu的人体动作捕捉方法及装置。


背景技术:

1、人体动作捕捉是计算机视觉和图形学领域的一个重要方向,在虚拟现实、医疗、游戏和动画中有着广泛的应用。这些应用都需要一个实时运行、稳定、方便设置的动作捕捉方法。

2、目前存在多种人体动作捕捉的方法,然而多视角相机的人体动作捕捉方法需要复杂的安装和设置步骤,并且受限制于固定的动作捕捉场景,成本非常高。基于商用惯性动作捕捉设备的方法需要穿戴大量imu设备,人体动作受到限制,并且成本非常高,普通消费者难以负担。基于单目rgb图片或视频的方法设置简单,但是在极端光照条件、严重遮挡或人离开摄像机视角的情况下,方法就会失效。基于稀疏imu的人体动作捕捉方法不受限于动作捕捉场景,但是由于传感器误差累积造成的漂移,使得无法准确估计人体的全局运动。


技术实现思路

1、本技术旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本技术的第一个目的在于提出一种基于单目rgb视频和稀疏imu的人体动作捕捉方法,以实现实时、准确的人体动作捕捉。

3、本技术的第二个目的在于提出一种基于单目rgb视频和稀疏imu的人体动作捕捉装置。

4、本技术的第三个目的在于提出一种电子设备。

5、为达上述目的,本技术第一方面实施例提出一种基于单目rgb视频和稀疏imu的人体动作捕捉方法,包括:

6、获取人体的惯性测量值和2d关键点,将所述惯性测量值和2d关键点输入循环神经网络模型中,得到人体的脚地接触概率、初始全局速度、初始全局位置以及在根节点坐标系和相机坐标系下的第一3d关节坐标和第二3d关节坐标;

7、融合所述第一3d关节坐标和第二3d关节坐标,根据融合后的3d关节坐标和所述2d关键点对人体三维参数模型进行求解,得到人体的关节旋转预测结果;

8、基于所述脚地接触概率,对所述初始全局速度进行更新以生成最终全局速度,根据互补滤波的算法融合所述最终全局速度和所述初始全局位置,得到人体的最终全局位置预测结果;

9、根据所述关节旋转预测结果和最终全局位置预测结果,得到人体动作捕捉结果。

10、可选的,所述获取人体的惯性测量值与2d关键点,包括:

11、通过安装在人体左右臂、左右小腿、头部和腰部上的惯性测量单元imu,得到人体的所述惯性测量值;

12、获取摄像机拍摄的人体单目rgb视频,在所述人体单目rgb视频中连续检测人体关节,得到人体的所述2d关键点。

13、可选的,所述将所述惯性测量值和2d关键点输入循环神经网络模型中,得到人体的脚地接触概率、初始全局速度、初始全局位置以及在根节点坐标系和相机坐标系下的第一3d关节坐标和第二3d关节坐标,包括:

14、将所述惯性测量值输入训练好的第一循环神经网络模型rnn-p1中,得到人体在根节点坐标系下的第一3d关节坐标;

15、将所述惯性测量值、所述2d关键点以及所述2d关键点对应的关键点置信度输入到训练好的第二循环神经网络模型rnn-p2中,得到人体在相机坐标系下的第二3d关节坐标,其中,使用均方误差监督rnn-p1和rnn-p2的训练过程,rnn-p1和rnn-p2的损失函数分别为:

16、

17、

18、其中,lp1为rnn-p1的损失函数,lp2为rnn-p2的损失函数,表示rnn-p1预测的根节点坐标系的所述第一3d关节坐标,表示rnn-p2预测的相机坐标系的所述第二3d关节坐标,上标gt表示训练集的标签数据,‖‖2为矩阵的l2范数;

19、将所述惯性测量值输入训练好的第三循环神经网络模型rnn-t1中,得到人体的脚地接触概率;

20、将所述惯性测量值输入训练好的第四循环神经网络模型rnn-t2中,得到人体的初始全局速度;

21、将所述惯性测量值和所述2d关键点输入训练好的第五循环神经网络模型rnn-t3中,得到人体的初始全局位置,其中,使用均方误差监督rnn-t1、rnn-t2和rnn-t3的训练过程。

22、可选的,所述融合所述第一3d关节坐标和第二3d关节坐标,根据融合后的3d关节坐标和所述2d关键点对人体三维参数模型进行求解,得到人体的关节旋转预测结果,包括:

23、根据所述惯性测量值将所述第二3d关节坐标转换到根节点坐标系;

24、若所述2d关键点的平均置信度在第一设定值和第二设定值之间,在所述第一3d关节坐标和转换后的所述第二3d关节坐标间进行线性插值,得到融合后的3d关节坐标;

25、将所述惯性测量值和融合后的3d关节坐标输入第六循环神经网络模型rnn-p3中,得到人体的关节旋转预测结果,其中,使用均方误差监督rnn-p3的训练过程,rnn-p3的损失函数为:

26、

27、其中,lp3为rnn-p3的损失函数,为所述关节旋转预测结果。

28、可选的,所述方法,还包括:

29、若所述2d关键点的平均置信度小于第一设定值,不进行融合过程,仅将所述惯性测量值输入rnn-p3中,得到人体的关节旋转预测结果;

30、若所述2d关键点的平均置信度大于第二设定值,不进行融合过程,将所述惯性测量值和转换后的所述第二3d关节坐标输入rnn-p3中,得到人体的关节旋转预测结果。

31、可选的,所述基于所述脚地接触概率,对所述初始全局速度进行更新以生成最终全局速度,包括:

32、判断所述脚地接触概率是否大于第三设定值;

33、若所述脚地接触概率不大于第三设定值,将所述初始全局速度作为所述最终全局速度;

34、若所述脚地接触概率大于第三设定值,根据2帧之间人脚的3d关节坐标得到第一速度,利用线性插值融合所述第一速度和所述初始全局速度,得到所述最终全局速度。

35、可选的,所述根据互补滤波的算法融合所述最终全局速度和所述初始全局位置,得到人体的最终全局位置预测结果,包括:

36、基于所述2d关键点的平均置信度,根据互补滤波的算法融合所述最终全局速度和所述初始全局位置,得到人体的最终全局位置预测结果,表达式为:

37、

38、其中,表示第k帧时相机坐标系的所述最终全局位置预测结果,下标c表示相机坐标系,表示第k帧时的所述最终全局速度,e表示网络估计的结果,δt是2帧的时间间隔,αk为所述2d关键点的平均置信度,e()表示rnn-t3预测的结果。

39、可选的,所述方法,还包括:

40、根据所述关节旋转预测结果和最终全局位置预测结果,对所述循环神经网络模型参数进行更新。

41、为达上述目的,本技术第二方面实施例提出了一种基于单目rgb视频和稀疏imu的人体动作捕捉装置,包括:

42、获取模块,用于获取人体的惯性测量值和2d关键点,将所述惯性测量值和2d关键点输入循环神经网络模型中,得到人体的脚地接触概率、初始全局速度、初始全局位置以及在根节点坐标系和相机坐标系下的第一3d关节坐标和第二3d关节坐标;

43、关节旋转预测模块,用于融合所述第一3d关节坐标和第二3d关节坐标,根据融合后的3d关节坐标和所述2d关键点对人体三维参数模型进行求解,得到人体的关节旋转预测结果;

44、全局位置预测模块,用于基于所述脚地接触概率,对所述初始全局速度进行更新以生成最终全局速度,根据互补滤波的算法融合所述最终全局速度和所述初始全局位置,得到人体的最终全局位置预测结果;

45、动作捕捉模块,用于根据所述关节旋转预测结果和最终全局位置预测结果,得到人体动作捕捉结果。

46、为达上述目的,本技术第三方面实施例提出了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;

47、所述存储器存储计算机执行指令;

48、所述处理器执行所述存储器存储的计算机执行指令,以实现如上述第一方面中任一项所述的方法。

49、本技术的实施例提供的技术方案至少带来以下有益效果:

50、通过本技术提出的方案,考虑了不同模态输入数据的特性,设计了在不同坐标系下的预测方法,考虑了如何弥补不同模态数据进行人体动作捕捉的问题,能够实时的进行遮挡、弱光照、人出相机场景下的长时间人体动作捕捉,解决了相关技术中的商业动作捕捉设备无法满足日常用户需求的问题,也解决了单目rgb视觉方法的受遮挡、光照、人出相机影响的问题,以及基于imu方法的误差累积造成的漂移问题,实现了鲁棒、实时、准确的人体动作捕捉方法,具有极高的应用价值。

51、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1