本发明涉及计算机视觉领域,具体地涉及一种构建姿态估计模型的方法、装置及姿态估计的方法。
背景技术:
1、现有的3d姿态估计算法主要有两种,第一种是从通过深度学习模型建立单目rgb图像到3d坐标的端到端映射,该方法虽然能从图片中获取丰富的信息,但没有中间的监督过程,模型容易受图片背景、光照和人穿着的影响,对于单一模型来说学习特征过于复杂。第二种是先获取2d信息,然后再提升至3d姿态,但该方法需要复杂的网络架构和充足的训练样本,并且该方法缺少原始图像的输入,可能会丢失一些空间信息,致使2d姿态估计的误差在3d估计中放大。
技术实现思路
1、本发明实施例的目的是提供一种构建姿态估计模型的方法、装置及姿态估计的方法,该方法实现了实现了模型的轻量化,提高了姿态估计的精度。
2、为了实现上述目的,本发明实施例提供一种构建姿态估计模型的方法,包括获取数据集,所述数据集包括rgb图、第一关键点热图和三维人体关键点坐标;
3、训练所述rgb图和第一关键点热图,得到第一识别模型;
4、估计所述第一识别模型得到第二关键点热图;
5、利用深度学习或均匀采样获取所述第二关键点热图的稀疏帧采样数据和密集帧采样数据;
6、根据所述三维人体关键点坐标、密集帧采样数据和稀疏帧采样数据确定密集帧网络和稀疏帧网络;
7、利用所述密集帧网络蒸馏所述稀疏帧网络得到第二识别模型。
8、可选的,所述根据所述三维人体关键点坐标、密集帧采样数据和稀疏帧采样数据确定密集帧网络和稀疏帧网络,包括:
9、根据所述三维人体关键点坐标和密集帧采样数据搭建密集帧网络,并固定所述密集帧网络的网络参数;
10、根据所述三维人体关键点坐标和稀疏帧采样数据搭建稀疏帧网络。
11、可选的,获取所述三维人体关键点坐标的方法包括:
12、根据所述第一关键点热图建立关键帧序列;
13、对所述关键帧序列进行估计得到三维人体关键点坐标。
14、可选的,所述对所述关键帧序列进行估计得到三维人体关键点坐标,包括:
15、提取所述关键帧序列的时间特征和空间特征;
16、对所述时间特征和空间特征进行特征融合,得到三维人体关键点坐标。
17、可选的,所述数据集为人体骨骼信息的节点;
18、所述第一关键点热图和第二关键点热图均为二维图。
19、另一方面,本申请还提出一种构建姿态估计模型的装置,该装置包括:
20、获取模块,用于获取数据集,所述数据集包括rgb图、第一关键点热图和三维人体关键点坐标;
21、第一处理模块,用于训练所述rgb图和第一关键点热图,得到第一识别模型;
22、第二处理模块,用于估计所述第一识别模型得到第二关键点热图;
23、第三处理模块,用于利用深度学习或均匀采样获取所述第二关键点热图的稀疏帧采样数据和密集帧采样数据;
24、第四处理模块,用于根据所述三维人体关键点坐标、密集帧采样数据和稀疏帧采样数据确定密集帧网络和稀疏帧网络;
25、第五处理模块,用于利用所述密集帧网络蒸馏所述稀疏帧网络得到第二识别模型。
26、可选的,所述根据所述三维人体关键点坐标、密集帧采样数据和稀疏帧采样数据确定密集帧网络和稀疏帧网络,包括:
27、根据所述三维人体关键点坐标和密集帧采样数据搭建密集帧网络,并固定所述密集帧网络的网络参数;
28、根据所述三维人体关键点坐标和稀疏帧采样数据搭建稀疏帧网络。
29、可选的,获取所述三维人体关键点坐标的方法包括:
30、根据所述第一关键点热图建立关键帧序列;
31、对所述关键帧序列进行估计得到三维人体关键点坐标。
32、可选的,所述对所述关键帧序列进行估计得到三维人体关键点坐标,包括:
33、提取所述关键帧序列的时间特征和空间特征;
34、对所述时间特征和空间特征进行特征融合,得到三维人体关键点坐标。
35、可选的,所述数据集为人体骨骼信息的节点;
36、所述第一关键点热图和第二关键点热图均为二维图。
37、另一方面,本申请还提出一种姿态估计的方法,该方法包括:将待测数据集带入上述所述的构建姿态估计模型的方法获得的第二识别模型进行姿态估计。
38、另一方面,本申请还提出一种机器可读存储介质,存储有机器指令,当所述机器指令在机器上运行时,使得机器执行上述所述的构建姿态估计模型的方法,和/或根据上述所述的姿态估计的方法。
39、本发明实施例提供的构建姿态估计模型的方法包括:获取数据集,所述数据集包括rgb图、第一关键点热图和三维人体关键点坐标;训练所述rgb图和第一关键点热图,得到第一识别模型;估计所述第一识别模型得到第二关键点热图;利用深度学习或均匀采样获取所述第二关键点热图的稀疏帧采样数据和密集帧采样数据;根据所述三维人体关键点坐标、密集帧采样数据和稀疏帧采样数据确定密集帧网络和稀疏帧网络;利用所述密集帧网络蒸馏所述稀疏帧网络得到第二识别模型。本申请采用知识蒸馏的方法,将密集采样提取到的特征传递至稀疏采样,提升稀疏采样的精度,实现了模型轻量化。
40、本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
1.一种构建姿态估计模型的方法,其特征在于,该方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述三维人体关键点坐标、密集帧采样数据和稀疏帧采样数据确定密集帧网络和稀疏帧网络,包括:
3.根据权利要求1所述的方法,其特征在于,获取所述三维人体关键点坐标的方法包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述关键帧序列进行估计得到三维人体关键点坐标,包括:
5.根据权利要求1所述的方法,其特征在于,
6.一种构建姿态估计模型的装置,其特征在于,该装置包括:
7.根据权利要求6所述的装置,其特征在于,所述根据所述三维人体关键点坐标、密集帧采样数据和稀疏帧采样数据确定密集帧网络和稀疏帧网络,包括:
8.根据权利要求6所述的装置,其特征在于,获取所述三维人体关键点坐标的方法包括:
9.根据权利要求8所述的装置,其特征在于,所述对所述关键帧序列进行估计得到三维人体关键点坐标,包括:
10.根据权利要求6所述的装置,其特征在于,
11.一种姿态估计的方法,其特征在于,该方法包括:将待测数据集带入上述权利要求1至5中任一项所述的构建姿态估计模型的方法获得的第二识别模型进行姿态估计。
12.一种机器可读存储介质,其特征在于,存储有机器指令,当所述机器指令在机器上运行时,使得机器执行权利要求1至5中任意一项权利要求所述的构建姿态估计模型的方法,和/或根据权利要求 11中所述的姿态估计的方法。