本发明涉及图像数据处理,具体而言,涉及一种基于时空掩码重建的骨架检测模型的构建方法。
背景技术:
1、人体姿态识别是检测图像或者视频中人体关键点的位置、构建人体骨架图的过程。利用人体姿态信息可以进一步进行动作识别、人机信息交互、异常行为检测等任务。然而,人的肢体比较灵活,姿态特征在视觉上变化比较大,容易受到视角和服饰变化的影响,同时,经常会出现用户的身体部分被遮挡的情况,导致在检测识别用户的人体姿态时,用户的骨架信息存在被遮掩和不完整的情况。因此,当前使用的骨架模型hrnet在实际部署中存在着问题,其无法在用户的骨架信息被遮挡或不完整的情况下,准确地还原识别出完整的人体骨架图。
2、由此可见,相关技术中存在的问题是:相关技术中的技术方案无法在骨架信息被遮挡或不完整的情况下,准确地还原识别出完整的人体骨架图。
技术实现思路
1、本发明解决的问题是:相关技术中的技术方案无法在骨架信息被遮挡或不完整的情况下,准确地还原识别出完整的人体骨架图。
2、为解决上述问题,本发明提供了一种基于时空掩码重建的骨架检测模型的构建方法,构建方法包括:
3、s100:获取被打标签的t张训练图像,对t张训练图像进行的打标签是指,将每张训练图像的人体骨架关键点坐标和每张训练图像建立对应关系,t张训练图像可组成连续的t帧训练视频;
4、s200:训练网络将t张训练图像划分为多个时空立方体,并对部分时空立方体进行遮掩,获取多个未遮掩时空立方体,并记录多个未遮掩时空立方体对应的正确位置,对部分时空立方体进行遮掩是指,忽略被遮掩的部分时空立方体的信息;
5、s300:将多个未遮掩时空立方体输入编码器,获取多个低维度的特征表示;
6、s400:将多个低维度的特征表示和多个正确位置输入解码器,获取高维度的t幅训练热力图;
7、s500:将标签转化为t幅正确热力图,计算t幅训练热力图和t幅正确热力图的损失;
8、s600:根据损失优化训练网络的参数;
9、s700:获取多个带有标签的t张训练图像,循环s200至s600的步骤,迭代至损失收敛,完成训练,将训练网络的参数固定,由此构建骨架检测模型;
10、其中,t为大于或等于2的整数。
11、与现有技术相比,采用该技术方案所达到的技术效果:经过时空掩码重建的骨架检测模型对于用户的骨架信息被遮挡或不完整的情况下,能够准确地还原识别出完整的人体骨架图。
12、在本发明的一个实施例中,在s100之前,还包括:
13、获取带有标签的训练视频,从训练视频中抽取t张训练图像,对训练视频打标签是指,将训练视频中每帧的人体骨架关键点坐标和训练视频的每帧建立对应关系。
14、与现有技术相比,采用该技术方案所达到的技术效果:通过本实施例的方法能够快速地获取t张训练图像,以满足本发明的构建方法的训练需要。
15、在本发明的一个实施例中,训练图像为rgb图像;或,训练图像为深度图像。
16、与现有技术相比,采用该技术方案所达到的技术效果:在本实施例的方案中,可通过输入不同种类的训练图像,使训练完成的骨架检测模型适用于相应种类的训练图像,有效地提升了其实用性。
17、在本发明的一个实施例中,t张训练图像包括h×w×t个像素;
18、其中,h为每张训练图像的高度,w为每张训练图像的宽度,t为训练图像的数量。
19、在本发明的一个实施例中,编码器和解码器均为vision transformer网络结构。
20、与现有技术相比,采用该技术方案所达到的技术效果:vision transformer网络结构能够准确地完成本发明中编码器和解码器的工作,提高了本发明的构建方法的可靠性。
21、在本发明的一个实施例中,编码器包括编码器全连接层和transformer blocks,s300包括:
22、将多个未遮掩时空立方体输入编码器全连接层进行线性映射后,再输入transformer blocks中,得到多个特征表示。
23、与现有技术相比,采用该技术方案所达到的技术效果:通过本实施例的方法能够准确地得到多个未遮掩时空立方体内的信息,进而使后续的构建方法更加准确地的进行。
24、在本发明的一个实施例中,解码器包括解码器全连接层和reshape,s400包括:
25、将多个低维度的特征表示和多个正确位置输入解码器全连接层进行线性映射后,再输入reshape中,得到t幅训练热力图。
26、与现有技术相比,采用该技术方案所达到的技术效果:通过本实施例的方法能够根据编码器输出的信息还原得到完整的训练热力图,进而使后续的构建方法更加准确地的进行。
1.一种基于时空掩码重建的骨架检测模型的构建方法,其特征在于,所述构建方法包括:
2.根据权利要求1所述的构建方法,其特征在于,在所述s100之前,还包括:
3.根据权利要求1所述的构建方法,其特征在于,所述训练图像为rgb图像;或,所述训练图像为深度图像。
4.根据权利要求1所述的构建方法,其特征在于,t张所述训练图像包括h×w×t个像素;
5.根据权利要求1至4中任一项所述的构建方法,其特征在于,所述编码器和所述解码器均为vision transformer网络结构。
6.根据权利要求5所述的构建方法,其特征在于,所述编码器包括编码器全连接层和transformer blocks,所述s300包括:
7.根据权利要求6所述的构建方法,其特征在于,所述解码器包括解码器全连接层和reshape,所述s400包括: