本申请一般涉及数据处理技术,包括但不限于,生成来自图像数据的人体关节和骨骼的信息的方法、系统以及非暂时性计算机可读介质。
背景技术:
1、人体姿态估计需要大量的数据,标注图像中的人体关键点。这种关键点标签可以在图像中合成、手动创建或自动识别。自动识别的标签所耗费的人力和计算机资源最少,且同时具有合理的准确度。然而,自动识别的标签通常是需要使用特定的成像设备的结果。特定的成像设备提供质量有限的图像,并且特定的成像设备经常与附着在跟踪物体表面的物理标记一起使用。物理标记不方便使用,会造成数据污染,在某些情况下甚至会干扰物体的移动。与现有的实践相比,使用具有更方便的人体姿态估计机制识别图像(尤其是,传统摄像头拍摄的图像)中的人体关键点将会是非常有利的。
技术实现思路
1、因此,需要一种方便的人体姿态估计机制,用于在图像中识别人体关键点,尤其是在由传统摄像头(例如,手机摄像头或增强眼镜的摄像头)拍摄的图像中。为此,本申请旨在利用第一摄像头的标注功能,在第二摄像头(如,rgb摄像头,飞行时间摄像头)拍摄的图像中自动标注关键点。第一摄像头和第二摄像头在时间上同步,更重要的是,在空间上校准,以确定第一摄像头和第二摄像头的两个坐标之间的物理相关性。物理相关性可选地由旋转和平移矩阵表示。第一摄像头分布在场景中并同时拍摄多个第一图像。从场景的多个第一图像推导出特征图和聚合体积,并应用于创建场景中的第一关键点。根据第一摄像头和第二摄像头的两个坐标之间的物理相关性,将多个第一关键点的子集转换为第二摄像头拍摄的第二图像上的对应的多个第二关键点。根据多个第二关键点,在第二图像上填充额外的缺失关键点。由此,将第二关键点和/或额外的缺失关键点自动且没有用户干预地注释在第二图像上。
2、根据一个方面,一种自动标注图像的方法在计算机系统处执行。所述方法包括获取由多个第一摄像头同时拍摄的场景的多个第一图像。每个第一图像由设置在所述场景中不同位置的各自第一摄像头拍摄。所述方法进一步包括所述多个第一图像中生成多个二维(two-dimensional,2d)特征图,并且每个第一图像对应于各自2d特征图的子集。所述方法进一步包括将所述多个2d特征图投影到所述场景的多个聚合体积中,并通过使用热图神经网络生成与所述场景的多个聚合体积相对应的多个三维(three-dimensional,3d)热图。所述方法进一步包括从所述多个3d热图中,自动且没有用户干预地识别所述场景中多个关键点的位置。每个所述关键点对应于所述场景中的人的关节。
3、在一些实施例中,在所述场景的第一坐标中识别所述多个关键点的位置。所述方法进一步包括:获取与所述多个第一图像同时且由第二摄像头拍摄的所述场景的第二图像,并确定所述场景的所述第一坐标和所述第二摄像头的第二坐标之间的相关性。所述方法进一步包括:根据所述第一坐标和所述第二坐标的相关性,将多个关键点的位置从所述第一坐标转换到所述第二坐标中,并根据所述第二坐标中所述多个关键点的转换后位置,利用所述多个关键点自动标注所述第二图像。
4、根据另一个方面,一些实施方式包括一种计算机系统,所述计算机系统包括一个或多个处理器和存储器,所述存储器中存储有指令,所述指令由所述一个或多个处理器执行以实现如上所述的任一方法。该计算机系统通过对三维人体姿势执行数据驱动的体积三角测量方法、对两种类型的摄像头执行时间对齐和坐标系校准来实现关键点标注和注释。
5、根据又一个方面,一些实施方式包括一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质中存储有指令,所述指令由一个或多个处理器执行以实现如上所述的任一方法。
1.一种自动标注图像的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对于每个第一图像,利用与其相应的主干神经网络,从对应的第一图像中,生成对应的二维特征图子集,并且所述相应的主干神经网络是与所述热图神经网络和其他对应的主干神经网络分开地或端到端地联合地训练的。
3.根据权利要求1或2所述的方法,其特征在于,从所述多个三维热图中,识别所述场景中的多个关键点的位置,进一步包括:
4.根据前述权利要求中任一项所述的方法,其特征在于,所述多个第一图像是在时间窗口内拍摄所述多个第一图像时而同时拍摄的。
5.根据前述权利要求中任一项所述的方法,其特征在于,所述多个第一摄像头中每个第一摄像头包括飞行时间摄像头。
6.根据前述权利要求中任一项所述的方法,其特征在于,在所述场景的第一坐标中,识别所述多个关键点的位置,进一步包括:
7.根据权利要求6所述的方法,其特征在于,利用所述多个关键点,标注所述第二图像,进一步包括:
8.根据权利要求6所述的方法,其特征在于,利用所述多个关键点,标注所述第二图像,进一步包括:
9.根据权利要求6所述的方法,其特征在于,进一步包括:
10.根据权利要求6所述的方法,其特征在于,所述第一坐标与所述第二坐标之间的所述相关性,包括与所述第一坐标和所述第二坐标之间的三维位移相关的多个位移参数,以及与所述第一坐标和所述第二坐标之间的三维旋转相关的多个旋转参数。
11.根据权利要求6所述的方法,其特征在于,确定所述第一坐标和所述第二坐标之间的相关性,进一步包括:
12.根据权利要求6所述的方法,其特征在于,所述第二摄像头被配置为拍摄彩色图像,单色图像,或深度图像。
13.根据权利要求6所述的方法,其特征在于,所述第二摄像头被安装在移动设备或增强现实眼镜上。
14.一种计算机系统,其特征在于,包括:
15.一种非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质中存储指令,所述指令由一个或多个处理器执行以实现如权利要求1-13任一项所述的方法。