基于神经网路的人体动作识别方法和装置与流程

文档序号:22389057发布日期:2020-09-29 17:53阅读:125来源:国知局
基于神经网路的人体动作识别方法和装置与流程
本发明涉及人体动作识别
技术领域
,尤其涉及一种基于神经网络的人体动作识别方法和装置。
背景技术
:三维人体的重建与属性识别一直是机器视觉领域的重要研究方向,目前学术界基于深度学习的人体重建相关工作大致可以分为两大类,参数化模型重建和非参数化模型重建。其中,非参数化模型重建代表性的工作是云从的densebody,该方法将人体网格展开为uvmap,然后通过卷积网络对uvmap做回归,具有数据表达更适合卷积,效果更好的优点。参数化的模型重建代表性的工作是伯克利的hmr,该方法直接利用卷积网络从图像中分别提取人体模型参数beta(用于描述形态参数)和theta(用于描述姿态参数),通过一个参数化模型(例如smpl,smpl-x,基于vae的模型等)生成人体网格,然后对网格做点到点的回归。目前工业领域主要采用这种方法。基于rgb图像方法的优点是数据获取难度小,数据多样性更好,动作更丰富。虽然目前人体动作捕捉的硬件条件已经达到要求,但行业内尚无一个基于单个深度相机的实时捕捉人体动作的技术方案,现有技术中的基于单个深度相机的实时捕捉人体动作的相关技术存在对硬件要求极高或者不能达到实时的效果的问题。目前,可以运用的实时捕捉人体动作方法技术如上文提到的,主要是参数化方法和非参数化方法,例如densebody这样的非参数化方法,缺点就是参数化代价大,从而难以支持实时的动作迁移等应用场景。因此,如何避免现有的基于rgb图像的实时捕捉人体动作方法中难以支持实时动作迁移的应用场景的麻烦,而且动作捕捉准确性不高的情况,仍然是本领域技术人员亟待解决的问题。技术实现要素:本发明实施例提供一种基于神经网络的人体动作识别方法和装置,用以解决现有的基于rgb图像的实时捕捉人体动作方法中难以支持实时动作迁移的应用场景且动作捕捉准确性不高的问题。第一方面,本发明实施例提供一种基于神经网络的人体动作识别方法,包括:将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图;将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数;其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成;将所述待识别的人体动作的姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果。优选地,该方法中,所述预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签是通过将所述样本无背景像素干扰的rgb图像输入标注算法得到2d关键点坐标,再将所述2d关键点坐标转换为3d关键点坐标得到的;对应地,所述预先确定的对应于各样本无背景像素干扰的rgb图像的三维点云标签是通过将所述样本无背景像素干扰的rgb图像对应的深度图像基于采集图像的相机内参转换成三维点云得到的。优选地,该方法中,所述标注算法为alphapose的2d关键点检测算法。优选地,该方法中,所述将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图,具体包括:待识别的人体动作的rgb-d图像包括彩色图像、深度图像和人体mask图像;使用所述人体mask图像对所述彩色图像进行掩膜处理,得到无背景像素干扰的rgb图像;对所述彩色图像和所述深度图像进行基于采集所述rgb-d图像的深度相机内参的转换,得到无背景像素干扰的点云三维坐标图。优选地,该方法中,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成,具体包括:所述姿态参数识别模型训练时的损失函数ltotal=λ1l2d+λ2l3d+λ3lpoint+λ4lsmooth,其中,l2d为2d关键点损失,l3d为3d关键点损失,lpoint为点云损失,lsmooth为平滑损失,λi(i=1,2,3,4)是对应损失项的权重。优选地,该方法中,所述2d关键点损失l2d通过如下公式计算:其中,pgt是对应于各样本无背景像素干扰的rgb图像的参考标准2d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到;pl为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的2d关键点信息集合;所述3d关键点损失l3d通过如下公式计算:其中,pgt2是对应于各样本无背景像素干扰的rgb图像的参考标准3d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到的参考标准2d关键点转换为参考标准3d关键点坐标得到;pj为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的3d关键点信息集合;v是由0和1构成的one-hot向量,用于描述人体的自身遮挡;所述点云损失lpoint通过如下公式计算:其中,vgt是对应于各三维点云标签的网格点的集合,vpred为无背景像素干扰的点云三维坐标集合,ngt为所述网格点法向集合,w是由0和1构成的one-hot向量,若在无背景像素干扰的r深度图上能找到对应于one-hot向量第i个元素的对应点,则第i个元素为1,否则第i个元素为0,其中,i为正整数;所述平滑损失lsmooth通过如下公式计算:其中,rpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数,rcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数。第二方面,本发明实施例提供一种基于神经网络的人体动作识别装置,包括:预处理单元,用于将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图;识别单元,用于将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数;其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成;动作单元,用于将所述待识别的人体动作的姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果。优选地,该装置中,所述预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签是通过将所述样本无背景像素干扰的rgb图像输入标注算法得到2d关键点坐标,再将所述2d关键点坐标转换为3d关键点坐标得到的;对应地,所述预先确定的对应于各样本无背景像素干扰的rgb图像的三维点云标签是通过将所述样本无背景像素干扰的rgb图像对应的深度图像基于采集图像的相机内参转换成三维点云得到的。第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的基于神经网络的人体动作识别方法的步骤。第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的基于神经网络的人体动作识别方法的步骤。本发明实施例提供的方法和装置,通过首先对待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图,然后将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数,最后通过将姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果,其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,同时,限定姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成。如此,通过深度学习的方式采用大量的样本图像和点云数据训练姿态参数识别模型,可以保证模型的精确性,使得人体动作识别的准确性得到保证,还在构建损失函数时考虑关键点损失、平滑损失和点云损失,进一步保障模型的精确性,而训练好的模型用于实时进行基于人体动作的rgb-d图像的人体动作识别,降低了整个识别过程的复杂程度,保证了人体动作识别的实时性。因此,本发明实施例提供的方法和装置,实现了支持实时动作迁移的应用场景且提高了动作识别的准确性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的基于神经网络的人体动作识别方法的流程示意图;图2为本发明实施例提供的基于神经网络的人体动作识别装置的结构示意图;图3为本发明实施例提供的电子设备的实体结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。现有的基于rgb图像的实时捕捉人体动作方法普遍存在难以支持实时动作迁移的应用场景且动作捕捉准确性不高的问题。对此,本发明实施例提供了一种单目散斑结构光系统的散斑投射器标定参数确定方法。图1为本发明实施例提供的基于神经网络的人体动作识别方法的流程示意图,如图1所示,该方法包括:步骤110,将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图。具体地,对于待识别的人体动作的rgb-d图像,首先要对待识别的人体动作的rgb图像作背景分割的预处理,即去掉前景物体人体后面的背景。而进行背景的分割方法有两种,一种是基于人体关键点的裁剪出前景人体,具体包括:识别rgb图像中人体的关键点,所述关键点包括人体的左脚踝、右脚踝、左膝盖、右膝盖、左臀边、右臀边、左腰部、右腰部、左手肘、右手肘、左肩、右肩、鼻子、左耳和右耳,然后直接将关键点扩大到一定像素得到裁剪框,裁剪掉有效的背景像素,即去掉前景物体人体后面的背景;另一种是在rgb-d相机采集的rgb-d图像后,调用其采集数据的sdk可以得到彩色图像、深度图像和人体mask图像,然后将人体mask图像对所述彩色图像进行掩膜处理,得到无背景像素干扰的rgb图像。以上两种分割背景的方法均可采用,此处不作具体限定。然后,基于无背景像素干扰的rgb图像和深度图像,可以得到无背景像素干扰的点云三维坐标图。步骤120,将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数;其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成。具体地,将待识别的人体动作的rgb-d图像进行预处理后得到的无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入预先训练好的姿态参数识别模型,该模型即输出所述待识别的人体动作的姿态参数、形态参数和位移参数。其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,为了保证训练出的模型的准确性,通常会采用大量的样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图进行训练。上述训练样本的形成过程是:使用深度相机在一般室内场景下采集rgb-d数据,提取数据帧后,包含彩色图像、深度图像和人体mask图像,室内场景下的数据采集有310人,采集他们的扭头、鞠躬、踢腿、跑步、跳跃、自由走动、挥拳等动作,形成508170个样本rgb-d图像,然后再用该深度相机采集实验室场景下的rgb-d数据,实验室场景下的数据采集有32人,采集他们的扭头、扭腰、原地转圈、立位体前屈、大角度拳击、大角度踢腿、压腿、玩篮球、玩羽毛球、玩保龄球、玩台球、拉弓、举重、玩棒球、玩排球、玩网球等动作,形成367528个样本rgb-d图像。对上述所有样本rgb-d图像进行如步骤110的rgb-d图像预处理,得到对应的样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图。而对应于各样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图的标签是对应于所述各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签,上述标签的获取方法即对样本无背景像素干扰的rgb图像对应的原始rgb图像采用第三方标注算法提取的3d关键点坐标标签和三维点云标签,所述第三方标注算法即常用的提取关键点准确性比较高的算法,此处不作具体限定。其次,进一步限定所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成,该损失函数除了考虑神经网络预测的关键点与预先确定的关键点标签之间的差值和考虑神经网络预测的关键点的三维点云与预先确定的关键点三维点云标签之间的差值之外,还要考虑平滑损失,即对应于人体同一动作的前后帧之间的平移和旋转的程度,平滑损失用于防止抖动。模型的输出是待识别的人体动作的姿态参数、形态参数和位移参数,上述参数与训练标签3d关键点坐标和三维点云为等价参数,将人体的3d关键点坐标和三维点云采用等价变换即可以得到人体动作的姿态参数、形态参数和位移参数,人体的3d关键点坐标和三维点云组成的参数与人体动作的姿态参数、形态参数和位移参数组成的参数在描述人体动作方面的作用相同。步骤130,将所述待识别的人体动作的姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果。具体地,将所述姿态参数识别模型输出结果姿态参数、形态参数和位移参数输入预先搭建好的参数化模型,即g模型,通过g模型可以构建人体的动作结果,输出待识别的人体动作结果。本发明实施例提供的方法,通过首先对待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图,然后将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数,最后通过将姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果,其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,同时,限定姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成。如此,通过深度学习的方式采用大量的样本图像和点云数据训练姿态参数识别模型,可以保证模型的精确性,使得人体动作识别的准确性得到保证,还在构建损失函数时考虑关键点损失、平滑损失和点云损失,进一步保障模型的精确性,而训练好的模型用于实时进行基于人体动作的rgb-d图像的人体动作识别,降低了整个识别过程的复杂程度,保证了人体动作识别的实时性。因此,本发明实施例提供的方法,实现了支持实时动作迁移的应用场景且提高了动作识别的准确性。基于上述实施例,该方法中,所述预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签是通过将所述样本无背景像素干扰的rgb图像输入标注算法得到2d关键点坐标,再将所述2d关键点坐标转换为3d关键点坐标得到的;对应地,所述预先确定的对应于各样本无背景像素干扰的rgb图像的三维点云标签是通过将所述样本无背景像素干扰的rgb图像对应的深度图像基于采集图像的相机内参转换成三维点云得到的。具体地,要确定样本无背景像素干扰的rgb图像对应的3d关键点坐标标签和三维点云标签,首先要用标注算法提取所述样本无背景像素干扰的rgb图像的2d关键点坐标,再将所述2d关键点坐标转换为3d关键点坐标,其中,所述标注算法即第三方常用的提取2d关键点准确性比较高的算法,此处不作具体限定,而将2d关键点坐标转换为3d关键点坐标也仅需要通过采集原始图像的相机内参进行转换即可,此处不作赘述。再通过将所述样本无背景像素干扰的rgb图像对应的深度图像基于采集图像的相机内参转换成三维点云得到三维点云标签。其中,所述关键点对于人体而言,即人体的左脚踝、右脚踝、左膝盖、右膝盖、左臀边、右臀边、左腰部、右腰部、左手肘、右手肘、左肩、右肩、鼻子、左耳和右耳。基于上述任一实施例,该方法中,所述标注算法为alphapose的2d关键点检测算法。具体地,此处限定采用的标注算法为alphapose的2d关键点检测算法,其为目前提取2d关键点准确率较高的算法,采用该算法提取出来的关键点常被作为参考标准(groundtruth)。基于上述任一实施例,该方法中,所述将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图,具体包括:待识别的人体动作的rgb-d图像包括彩色图像、深度图像和人体mask图像;使用所述人体mask图像对所述彩色图像进行掩膜处理,得到无背景像素干扰的rgb图像;对所述彩色图像和所述深度图像进行基于采集所述rgb-d图像的深度相机内参的转换,得到无背景像素干扰的点云三维坐标图。具体地,此处具体限定了对待识别的人体动作的rgb-d图像进行分割背景预处理的具体方法:即采用人体mask掩膜处理方法,具体流程如下:采用rgb-d相机采集数据后,调用其采集数据的sdk得到待识别的人体动作的rgb-d图像的彩色图像、深度图像和人体mask图像,使用所述人体mask图像对所述彩色图像进行掩膜处理,即用人体mask将无效像素(背景)的r值、g值和b值都置为-255。优选地,此处可以将mask边缘部分扩大一定像素得到更大的mask,如此,可以减少因为动作太快而导致关键点被跟丢的概率,并且图像包含mask信息,无背景像素干扰,对于人体衣着与背景颜色相似的场景,由于深度相机的mask用到了深度信息,会更加鲁棒。此通过人体mask进行人体与背景分离的方法与通过识别关键点将关键点扩大得到裁剪框裁剪出人体的方法相比,比较结果如表1,表1为彩色图无mask分离人体准确性和彩色图带mask分离人体准确性的对比结果,表1如下:表1彩色图无mask分离人体准确性和彩色图带mask分离人体准确性的对比结果model彩色图无mask彩色图带masklankle0.94590.9560rankle0.94420.9514lknee0.95090.9621rknee0.94460.9567lhip0.95780.9738rhip0.96210.9749lwrist0.83300.8763rwrist0.82140.8620lelbow0.92340.9543relbow0.90950.9515lshoulder0.97240.9844rshoulder0.96250.9861nose0.97590.9879lear0.98160.9907rear0.98230.9901total0.93780.9523表1中的对应于人体各个部位的数值结果是根据pck@0.2(percentageofcorrectkeypoint)指标计算出来的,该指标的计算方法是计算检测关键点与参考标准(groundtruth)的欧式距离小于0.2×躯干直径的比例。由表1中的比较结果可知采用彩色图带mask方法分离出的人体比采用彩色图无mask方法分离出的人体对于后续检测关键点的准确性更有利。因此,本发明实施例采用的对rgb-d图像进行预处理的方法即使用人体mask,用此方法提取出的无背景的人体图像更有利于后续在此图像上提取人体的关键点,描述人体动作情况。基于上述任一实施例,该方法中,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成,具体包括:所述姿态参数识别模型训练时的损失函数ltotal=λ1l2d+λ2l3d+λ3lpoint+λ4lsmooth,其中,l2d为2d关键点损失,l3d为3d关键点损失,lpoint为点云损失,lsmooth为平滑损失,λi(i=1,2,3,4)是对应损失项的权重。具体地,姿态参数识别模型训练时的损失函数要考虑关键点损失、平滑损失和点云损失,而关键点损失又由2d关键点损失和3d关键点损失组成。具体的损失函数的公式为ltotal=λ1l2d+λ2l3d+λ3lpoint+λ4lsmooth,其中,l2d为2d关键点损失,l3d为3d关键点损失,lpoint为点云损失,lsmooth为平滑损失,λ1是对应于2d关键点损失项的权重,λ2是对应于3d关键点损失项的权重,λ3是对应于点云损失项的权重,λ4是对应于平滑损失项的权重。基于上述任一实施例,该方法中,所述2d关键点损失l2d通过如下公式计算:其中,pgt是对应于各样本无背景像素干扰的rgb图像的参考标准2d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到;pl为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的2d关键点信息集合;所述3d关键点损失l3d通过如下公式计算:其中,pgt2是对应于各样本无背景像素干扰的rgb图像的参考标准3d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到的参考标准2d关键点转换为参考标准3d关键点坐标得到;pj为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的3d关键点信息集合;v是由0和1构成的one-hot向量,用于描述人体的自身遮挡;所述点云损失lpoint通过如下公式计算:其中,vgt是对应于各三维点云标签的网格点的集合,vpred为无背景像素干扰的点云三维坐标集合,ngt为所述网格点法向集合,w是由0和1构成的one-hot向量,若在无背景像素干扰的r深度图上能找到对应于one-hot向量第i个元素的对应点,则第i个元素为1,否则第i个元素为0,其中,i为正整数;所述平滑损失lsmooth通过如下公式计算:其中,rpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数,rcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数。具体地,2d关键点损失l2d通过如下公式计算:其中,pgt是对应于各样本无背景像素干扰的rgb图像的参考标准2d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到,所述标注算法为第三方常用的提取2d关键点准确性比较高的算法,优选地,所述标注算法采用alphapose的2d关键点检测算法,而pl为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的2d关键点信息集合;3d关键点损失l3d通过如下公式计算:其中,pgt2是对应于各样本无背景像素干扰的rgb图像的参考标准3d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到的参考标准2d关键点转换为参考标准3d关键点坐标得到,所述标注算法为第三方常用的提取2d关键点准确性比较高的算法,优选地,所述标注算法采用alphapose的2d关键点检测算法,而通过参考标准2d关键点获取参考标准3d关键点仅需要基于采集原始图像的相机内参进行转换即可,pj为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的3d关键点信息集合;v是由0和1构成的one-hot向量,用于描述人体的自身遮挡,v中的第i个元素的取值取决于第i个元素对应的人体关键点是否被自身遮挡,若被自身遮挡,则第i个元素为0,若没有自身遮挡,则第i个元素为1;点云损失lpoint通过如下公式计算:其中,vgt是对应于各三维点云标签的网格点的集合,网格点的集合是通过对各三维点云进行网格化处理得到的,vpred为无背景像素干扰的点云三维坐标集合,ngt为所述网格点法向集合,w是由0和1构成的one-hot向量,若在无背景像素干扰的r深度图上能找到对应于one-hot向量第i个元素的对应点,则第i个元素为1,否则第i个元素为0,其中,i为正整数;所述平滑损失lsmooth通过如下公式计算:在进行样本训练时,通常会将对应于同一人体动作的前后多帧作为样本进行训练,而rpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数,rcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数。基于上述任一实施例,本发明实施例提供一种基于神经网络的人体动作识别装置,图2为本发明实施例提供的基于神经网络的人体动作识别装置的结构示意图。如图2所示,该装置包括预处理210、单元识别单元220和动作单元230,其中,所述预处理单元210,用于将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图;所述识别单元220,用于将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数;其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成;所述动作单元230,用于将所述待识别的人体动作的姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果。本发明实施例提供的装置,通过首先对待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图,然后将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数,最后通过将姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果,其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,同时,限定姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成。如此,通过深度学习的方式采用大量的样本图像和点云数据训练姿态参数识别模型,可以保证模型的精确性,使得人体动作识别的准确性得到保证,还在构建损失函数时考虑关键点损失、平滑损失和点云损失,进一步保障模型的精确性,而训练好的模型用于实时进行基于人体动作的rgb-d图像的人体动作识别,降低了整个识别过程的复杂程度,保证了人体动作识别的实时性。因此,本发明实施例提供的装置,实现了支持实时动作迁移的应用场景且提高了动作识别的准确性。基于上述任一实施例,该装置中,所述预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签是通过将所述样本无背景像素干扰的rgb图像输入标注算法得到2d关键点坐标,再将所述2d关键点坐标转换为3d关键点坐标得到的;对应地,所述预先确定的对应于各样本无背景像素干扰的rgb图像的三维点云标签是通过将所述样本无背景像素干扰的rgb图像对应的深度图像基于采集图像的相机内参转换成三维点云得到的。基于上述任一实施例,该装置中,所述标注算法为alphapose的2d关键点检测算法。基于上述任一实施例,该装置中,所述预处理单元,具体用于:待识别的人体动作的rgb-d图像包括彩色图像、深度图像和人体mask图像;使用所述人体mask图像对所述彩色图像进行掩膜处理,得到无背景像素干扰的rgb图像;对所述彩色图像和所述深度图像进行基于采集所述rgb-d图像的深度相机内参的转换,得到无背景像素干扰的点云三维坐标图。基于上述任一实施例,该装置中,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成,具体包括:所述姿态参数识别模型训练时的损失函数ltotal=λ1l2d+λ2l3d+λ3lpoint+λ4lsmooth,其中,l2d为2d关键点损失,l3d为3d关键点损失,lpoint为点云损失,lsmooth为平滑损失,λi(i=1,2,3,4)是对应损失项的权重。基于上述任一实施例,该装置中,所述2d关键点损失l2d通过如下公式计算:其中,pgt是对应于各样本无背景像素干扰的rgb图像的参考标准2d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到;pl为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的2d关键点信息集合;所述3d关键点损失l3d通过如下公式计算:其中,pgt2是对应于各样本无背景像素干扰的rgb图像的参考标准3d关键点信息集合,通过将所述各样本无背景像素干扰的rgb图像输入标注算法得到的参考标准2d关键点转换为参考标准3d关键点坐标得到;pj为所述姿态参数识别模型训练时的神经网络预测的各样本无背景像素干扰的rgb图像的3d关键点信息集合;v是由0和1构成的one-hot向量,用于描述人体的自身遮挡;所述点云损失lpoint通过如下公式计算:其中,vgt是对应于各三维点云标签的网格点的集合,vpred为无背景像素干扰的点云三维坐标集合,ngt为所述网格点法向集合,w是由0和1构成的one-hot向量,若在无背景像素干扰的r深度图上能找到对应于one-hot向量第i个元素的对应点,则第i个元素为1,否则第i个元素为0,其中,i为正整数;所述平滑损失lsmooth通过如下公式计算:其中,rpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tpre为所述姿态参数识别模型训练时的神经网络预测的对应于同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数,rcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的旋转参数,tcur为所述姿态参数识别模型训练时的神经网络预测的对应于该同一人体动作的前一帧样本无背景像素干扰的rgb图像的平移参数。图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(communicationsinterface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序,以执行上述各实施例提供的基于神经网络的人体动作识别方法,例如包括:将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图;将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数;其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成;将所述待识别的人体动作的姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果。此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于神经网络的人体动作识别方法,例如包括:将待识别的人体动作的rgb-d图像进行预处理,得到无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图;将所述无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图输入姿态参数识别模型,输出所述待识别的人体动作的姿态参数、形态参数和位移参数;其中,所述姿态参数识别模型是基于样本无背景像素干扰的rgb图像和无背景像素干扰的点云三维坐标图以及预先确定的对应于各样本无背景像素干扰的rgb图像的3d关键点坐标标签和三维点云标签进行训练后得到的,所述姿态参数识别模型训练时的损失函数基于关键点损失、平滑损失和点云损失构成;将所述待识别的人体动作的姿态参数、形态参数和位移参数输入参数化模型,输出待识别的人体动作结果。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1