一种基于三维人体姿态估计方法及装置与流程

文档序号:15983683发布日期:2018-11-17 00:37阅读:235来源:国知局

本发明属于计算机视觉、图像处理、计算机图形学及深度学习应用领域,尤其涉及一种基于三维人体姿态估计方法及装置。

背景技术

所谓人体姿态估计是指将抽象层次特征与人体模型进行匹配,从而得到不同时刻目标所处的姿态。人体姿态估计是人体运动捕捉的核心问题。人体的姿态表达包括两个方面,一是整个人体在世界坐标的位置和方向;二是身体各部分关节的角度及受关节角影响的皮肤变形。人体运动姿态估计的主要应用领域可以分为三大方向:监控、控制和分析:

(1)在监控应用方面,一些传统的应用包括在机场或地铁中自动检测并定位行人、人数统计或人群流动、拥塞分析等。随着安全意识的提高,近年来出现了一些新型的应用——个人或人群的行为和动作的分析。比如在排队和购物中,检测不正常的行为或进行身份识别等。

(2)在控制应用方面,人们利用运动估计结果或姿态参数来对目标进行控制。这在人机交互方面的应用最多。在娱乐产业如电影和游戏动画等,应用也越来越广。人们可以利用捕捉到的人的形状、外表和动作,来制作3d电影或重建游戏中的人的三维模型。

(3)在分析应用方面,包括对外科病人的自动诊断、对运动员动作的分析和改进等。在视觉媒体方面,有基于内容的视频检索、视频压缩等应用。此外,在汽车产业方面也得到了相关的应用,比如安全气囊的自动控制、睡眠检测和行人检测等。

目前市场上比较成熟的人体运动捕捉系统有基于电动机械的,电磁的和特殊光学标志等类型。磁性或者光学的标记被附在人的肢体上,它们的三维轨迹被用来描述目标运动,这些系统是自动的,但是其存在的缺点是:设备非常笨重,且价格昂贵,无法得到广泛的应用。

因此,基于计算机视觉人体运动捕捉技术已经成为研究热点。它利用计算机视觉的基本原理,从视频中直接提取三维人体运动序列。这种方法不需要在人体关节上附加任何传感器,保证了人体运动不受限制,而且造价低,效率高。当前流行的方法大多采用基于人体模型的匹配技术。这种方法的目标是在状态空间中找到一组姿态参数,使得对应这个参数的人体姿态与从观测图像中提取的底层特征最为符合。

在基于计算机视觉的运动跟踪这一领域,一般采用的研究方法是:

在跟踪的开始,确定图像序列中首帧的人体位置,后续序列中人体目标的确定依赖于人体运动的连续性和运动学约束条件。其中,确定首帧人体位置有两种方法:

一是人为规定目标的首个姿态或者将人体模型设定为首帧的近似姿态,这不利于人体跟踪的自动化。

二是去除人体以外的背景后,使用部位检测方法确定身体的各个部位,这种方法可部分实现自动化,但需要人景分割的严格保证。

在后续人体跟踪和三维姿态估计中,有基于模型和无模型的方法。其中:

(1)基于模型的一般方法是事先建立人体的3d模型,将模型与运动序列的首帧匹配,在后续跟踪中,利用运动参数限制等条件,采用梯度下降或随机采样等优化方法进一步估计每一帧的模型参数,从而得出模型运动序列。这种方法的缺点是:后续帧的跟踪存在累积误差,长时间跟踪容易出错。

(2)无模型方法不需要建立人体模型,而是根据人体运动呈现的几何、纹理、色彩等信息,采用学习或基于样本的方法来估计人体运动姿态。这种方法的缺点在于:人体运动姿态难以用有限个状态描述,依赖于先验知识,且只能跟踪特定的动作集。

基于模型和无模型的这两种跟踪方法都可采用单目摄像机或多目摄像机实现。由于不具有深度信息的普通图像在重建中存在从三维到二维映射的歧义性,且对于复杂运动姿态估计非常困难,因此在过去十多年的研究中,大多数人体运动跟踪技术的都是基于多目摄像机条件下实现的,以此获得深度信息。但是,使用多目摄像机的条件是:需要定标且不方便在普通家庭中布置,不利于运动捕捉技术的应用普及到千家万户中。

综上所述,针对现有技术中多目摄像机使用条件的限制以及为了快速便捷地识别出深度图像,亟需一种有效的解决方案。



技术实现要素:

为了解决现有技术的不足,本发明的第一目的是提供一种基于三维人体姿态估计方法,其能够精确地识别出深度图像中的三维人体姿态。

本发明的一种基于三维人体姿态估计方法的技术方案为:

一种基于三维人体姿态估计方法,包括:

s1:运用单目相机采集人体不同角度的深度图像和rgb彩色图像;

s2:基于rgb彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像;

s3:基于对应的rgb彩色图像和关键点标注图像,构造手部关节节点2d-3d映射网络;

s4:标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;

s5:基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;

s6:合并步骤s3和步骤s5的输出,实现对三维人体姿态估计的精细化估计。

在所述步骤1中,单目相机可以采用kinect相机来实现。

kinect比一般的摄像头更为智能。首先,它能够发射红外线,从而对整个房间进行立体定位。摄像头则可以借助红外线来识别人体的运动。除此之外,配合着xbox360上的一些高端软件,便可以对人体的48个部位进行实时追踪。

需要说明的是,单目相机除了kinect相机之外,也可以采用其他现有单目相机来实现。

进一步的,所述步骤s2中基于rgb彩色图像构造出人体骨骼关键点检测神经网络,具体包括:

标注rgb彩色图像中的人体骨骼关键点,构建出数据集;

将构建的数据集划分为训练集和测试集,并将训练集输入至预设人体骨骼关键点检测神经网络中进行训练;

利用测试集来测试训练后的人体骨骼关键点检测神经网络,直至达到预设要求。

在所述步骤s2中,通过对获取的rgb彩色图像标注人体骨骼关键点形成训练人体骨骼关键点检测神经网络的数据集,这样能够快速准确地得到预设要求的人体骨骼关键点检测神经网络。其中,预设要求为人体骨骼关键点检测神经网络输出的人体骨骼关键点的精度在预先设定精度范围内。

其中,人体骨骼关键点检测神经网络可以由vgg-19网络后接有t(t为大于或等于1的正整数)个阶段,每个阶段有2个全卷积网络的结构构成。

其中,vgg(visualgeometrygroup)属于牛津大学科学工程系,其发布了一些列以vgg开头的卷积网络模型。

需要说明的是,人体骨骼关键点检测神经网络也可以为其他现有的神经网络模型。

进一步的,在所述步骤s3中,构造的手部关节节点2d-3d映射网络输出手部分割图像,手部关节节点2d-3d映射网络的结构为:(卷积层+relu激活层)+最大池化层+双线性上采样。

上述手部关节节点2d-3d映射网络的损失函数采用softmax和交叉熵损失函数。

在本发明中,将2d手部检测问题转化为分割问题消除不同人手的大小尺寸不同对网络精确性影响。

需要说明的是,手部关节节点2d-3d映射网络除了上述结构之外,还可以采用其他现有神经网络结构来实现。

进一步的,在所述步骤s4中,得到着色深度图像的步骤具体包括:

利用棋盘法来标定人体相同角度的深度图像与关键点标注图像;

匹配人体相同角度的关键点标注图像与深度图像;

调整匹配后的深度图像大小并进行三维着色点云。

本发明利用棋盘法来标定人体相同角度的深度图像与关键点标注图像,能够准确获取图像中关键点的坐标信息。

进一步的,在所述步骤s5中,预设学习网络为u型强化学习网络。

其中,u型强化学习网络是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。

u型强化学习网络的结构为:对输入进行预设次数的卷积操作和预设次数的池化操作(maxpool下采样),每次卷积后接一层relu激活层,重复若干次,下采样后的卷积过滤器数量增加相应倍数;

对下采样后得到的结果进行预设次数的卷积操作和预设次数的预设步长的去卷积操作(上采样),每次卷积后接一个relu激活层,重复若干次,上采样时过滤器数量减少相应倍数;得到的结果和对应左侧部分卷积结果进行连接后再进行卷积;

最后输出相应结果。

需要说明的是,预设学习网络也可以为q型强化学习网络。

发明的第二目的是提供一种基于三维人体姿态估计装置,其能够精确地识别出深度图像中的三维人体姿态。

本发明的一种基于三维人体姿态估计装置的技术方案为:

一种基于三维人体姿态估计装置,包括:

图像采集单元,其运用单目相机采集人体不同角度的深度图像和rgb彩色图像;

关键点标注单元,其用于基于rgb彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像;

手部识别单元,其用于基于对应的rgb彩色图像和关键点标注图像,构造手部关节节点2d-3d映射网络;

深度图像着色单元,其用于标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;

深度图像关键点预测单元,其用于基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;

三维人体姿态估计单元,其用于合并手部识别单元和深度图像关键点预测单元的输出,实现对三维人体姿态估计的精细化估计。

其中,单目相机可以采用kinect相机来实现。

kinect比一般的摄像头更为智能。首先,它能够发射红外线,从而对整个房间进行立体定位。摄像头则可以借助红外线来识别人体的运动。除此之外,配合着xbox360上的一些高端软件,便可以对人体的48个部位进行实时追踪。

需要说明的是,单目相机除了kinect相机之外,也可以采用其他现有单目相机来实现。

进一步的,所述关键点标注单元,包括:

数据集构建子单元,其用于标注rgb彩色图像中的人体骨骼关键点,构建出数据集;

神经网络训练子单元,其用于将构建的数据集划分为训练集和测试集,并将训练集输入至预设人体骨骼关键点检测神经网络中进行训练;

神经网络检测子单元,其用于利用测试集来测试训练后的人体骨骼关键点检测神经网络,直至达到预设要求。

在所述关键点标注单元中,通过对获取的rgb彩色图像标注人体骨骼关键点形成训练人体骨骼关键点检测神经网络的数据集,这样能够快速准确地得到预设要求的人体骨骼关键点检测神经网络。其中,预设要求为人体骨骼关键点检测神经网络输出的人体骨骼关键点的精度在预先设定精度范围内。

其中,人体骨骼关键点检测神经网络可以由vgg-19网络后接有t(t为大于或等于1的正整数)个阶段,每个阶段有2个全卷积网络的结构构成。

其中,vgg(visualgeometrygroup)属于牛津大学科学工程系,其发布了一些列以vgg开头的卷积网络模型。

需要说明的是,人体骨骼关键点检测神经网络也可以为其他现有的神经网络模型。

进一步的,在所述手部识别单元中,构造的手部关节节点2d-3d映射网络输出手部分割图像,手部关节节点2d-3d映射网络的结构为:(卷积层+relu激活层)+最大池化层+双线性上采样。

上述手部关节节点2d-3d映射网络的损失函数采用softmax和交叉熵损失函数。

在本发明中,将2d手部检测问题转化为分割问题消除不同人手的大小尺寸不同对网络精确性影响。

需要说明的是,手部关节节点2d-3d映射网络除了上述结构之外,还可以采用其他现有神经网络结构来实现。

进一步的,所述深度图像着色单元,包括:

标定子单元,其用于利用棋盘法来标定人体相同角度的深度图像与关键点标注图像;

匹配子单元,其用于匹配人体相同角度的关键点标注图像与深度图像;

三维着色点云子单元,其用于调整匹配后的深度图像大小并进行三维着色点云。

本发明利用棋盘法来标定人体相同角度的深度图像与关键点标注图像,能够准确获取图像中关键点的坐标信息。

进一步的,在所述深度图像关键点预测单元中,预设学习网络为u型强化学习网络。

其中,u型强化学习网络是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。

u型强化学习网络的结构为:对输入进行预设次数的卷积操作和预设次数的池化操作(maxpool下采样),每次卷积后接一层relu激活层,重复若干次,下采样后的卷积过滤器数量增加相应倍数;

对下采样后得到的结果进行预设次数的卷积操作和预设次数的预设步长的去卷积操作(上采样),每次卷积后接一个relu激活层,重复若干次,上采样时过滤器数量减少相应倍数;得到的结果和对应左侧部分卷积结果进行连接后再进行卷积;

最后输出相应结果。

需要说明的是,预设学习网络也可以为q型强化学习网络。

与现有技术相比,本发明的有益效果是:

(1)本发明运用单目相机采集人体不同角度的深度图像和rgb彩色图像,解决了在人体姿态估计领域中采用多目相机的条件限制,该方法更容易实现,而且能够精确地识别出深度图像中的三维人体姿态。

(2)本发明能够通过对神经网络训练后达到对三维人体姿态实时识别。

(3)本发明可以将训练好的神经网络模型存储于小型终端设备中,方便集成到智能家居、智能交互式设备中。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1是本发明的基于三维人体姿态估计方法流程图;

图2是本发明的基于三维人体姿态估计方法的一个实施例示意图;

图3是本发明的人体骨骼关键点检测神经网络的一个实施例示意图;

图4是本发明的手部关节节点2d-3d映射的神经网络一个实施例示意图;

图5是本发明的一种u型强化学习神经网络一个实施例示意图;

图6是本发明的基于三维人体姿态估计装置结构示意图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本发明的基于三维人体姿态估计方法,包括步骤s1~步骤s6。

具体地,下面结合基于三维人体姿态估计方法的一个实施例来具体说明本发明的技术方案,如图2所示:

本发明的基于三维人体姿态估计方法,包括:

s1:运用单目相机采集人体不同角度的深度图像和rgb彩色图像。

在所述步骤1中,单目相机可以采用kinect相机来实现。

kinect比一般的摄像头更为智能。首先,它能够发射红外线,从而对整个房间进行立体定位。摄像头则可以借助红外线来识别人体的运动。除此之外,配合着xbox360上的一些高端软件,便可以对人体的48个部位进行实时追踪。

需要说明的是,单目相机除了kinect相机之外,也可以采用其他现有单目相机来实现。

s2:基于rgb彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像。

其中,所述步骤s2中基于rgb彩色图像构造出人体骨骼关键点检测神经网络,具体包括:

步骤s21:标注rgb彩色图像中的人体骨骼关键点,构建出数据集;

具体地,构建数据集的步骤为:

步骤s211:使用12台kinect深度相机,放在一个房间内不同的三个位置,每个位置放置4台kinect深度相机,在每个位置形成四个不同的视角,对多名男性和女性分别拍摄不同人体姿势的图像,将采集到的图片整理成一个图片库。

步骤s212:使用多台深度相机建立手势数据集;此数据集是采集20个人39个不同的手势动作的图像,将数据集划分为一个训练集和一个测试集,然后对图像中的光照强度,背景图像进行随机渲染扩大数据多样性。

步骤s213:将步骤s211和步骤s212所得到的图片库进行骨骼关键点标注,将关键点坐标信息(x,y,d)作为图像的标签,利用shell编写脚本,将图像和图像标签转存为lmdb或hdf5格式文件。其中:x、y为关键点在深度图像中的横纵坐标,d为深度坐标。

步骤s22:将构建的数据集划分为训练集和测试集,并将训练集输入至预设人体骨骼关键点检测神经网络中进行训练;

步骤s23:利用测试集来测试训练后的人体骨骼关键点检测神经网络,直至达到预设要求。

在所述步骤s2中,通过对获取的rgb彩色图像标注人体骨骼关键点形成训练人体骨骼关键点检测神经网络的数据集,这样能够快速准确地得到预设要求的人体骨骼关键点检测神经网络。其中,预设要求为人体骨骼关键点检测神经网络输出的人体骨骼关键点的精度在预先设定精度范围内。

其中,如图3所示,人体骨骼关键点检测神经网络可以由vgg-19网络后接有t(t为大于或等于1的正整数)个阶段,每个阶段有2个全卷积网络的结构构成。

其中,vgg(visualgeometrygroup)属于牛津大学科学工程系,其发布了一些列以vgg开头的卷积网络模型。

具体地,本例中人体骨骼关键点检测神经网络的处理过程如下:

s222:首先将由kinect得到的w*h的2d-rgb图像作为输入,经由vgg-19的前10层获得特征图f,作为模型第一个阶段每个分支的输入。

s223:在模型第一阶段,阶段中的每个分支分别产生一系列检测置信图s1=ρ1(f)和一组局部关系域l1=φ1(f);其中ρ1(f)和φ1(f)分别是是阶段一中两分支卷积神经网络的推论。

s224:全卷积网络分支1的具体设计如下:

(a)因在本发明中可以同时对多人进行三维姿态识别,首先对rgb图像中的每个人生成独立的置信图

(b)用xj,k∈r2表示图像中第k个人第j个身体部位的真实位置。其中,j和k均为大于0的正整数;

(c)利用高斯分布使被检测的身体部位关键点高亮:

(d)在每幅置信图中取高斯值最大的关键点:

其中,p为像素点坐标。

s225:全卷积网络分支2用于检测关键点连线的位置和方向信息,具体设计如下:

(a):构造监督用真实局部关联域其中c为第k个人身体上第c个两关键点连接线段。构造过程如下:

(b):令分别图像中第k个人身体上第c个两关键点连线的关键点。

(c):利用以下公式求出在第c个连线上身体肢体的局部关联向量:

其中如果p在肢体c上等式(3)为v,否则等式(3)为0

(d):在c连线上的两个关键点做线性差值,近似的求出像素点p位于k个人在连线c上的像素坐标:

pu=(1-u)xj1-uxj2,0≤u≤1(5)

(e):利用公式(5)求出图像中在c连线上有重叠关系所有人的关系域:

其中nc(p)是在点p的非零向量个数。

(f):对预测的局部关系域进行采样,用lc沿着线段c去测量k个人重叠部分的置信度:

s223:两个分支每阶段都由3个3×3和2个2×2的卷积层组成;

s224:将第一阶段全卷积网络的输出与原始特征图f合并作为第二阶段的输入,以此迭代到阶段t;

s225:两个分支模型用t个阶段不断对各分支目标进行精炼,为了有效避免梯度消失每个阶段都加入l2损失函数,作为监督功能。将个分支损失函数定义如下:

其中s*是建数据库时已标注的真实置信图的值,代表预测的置信图值,t代表分支模型阶段,t∈[1,2,…,t],m代表图中关键点位置坐标,j代表第j个关键点,用w(p)为二进制标志,如果关键点标注数据缺失时w(p)=0,否则为1,避免在网络训练中惩罚真实的位置预测。

s226:在阶段t结束后对两分支得到的人体部位位置置信图和关节点关系利用贪心算法,得到人的2d关键点图像。公式(10)是整个关键点检测网络的模型公式:

需要说明的是,人体骨骼关键点检测神经网络也可以为其他现有的神经网络模型。

s3:基于对应的rgb彩色图像和关键点标注图像,构造手部关节节点2d-3d映射网络。

其中,在所述步骤s3中,构造的手部关节节点2d-3d映射网络输出手部分割图像,手部关节节点2d-3d映射网络的结构为:(卷积层+relu激活层)+最大池化层+双线性上采样。

上述手部关节节点2d-3d映射网络的损失函数采用softmax和交叉熵损失函数。

在本发明中,将2d手部检测问题转化为分割问题消除不同人手的大小尺寸不同对网络精确性影响。

其中,构造手部关节节点2d-3d映射网络的具体过程,如图4所示:

s31:将原始2drgb图像调整大小为256*256*3作为手部图像分割网络的输入,网络采用(卷积层+relu激活层)+最大池化层+双线性上采样的结构,损失函数采用softmax和交叉熵损失函数,输出256*256*3的手部分割图像。

s32:采用一个与s31同样结构的神经网络,将s31的输出作为输入,该神经网络对手部21个关节生成边界框,并在边界框中心加入均值为0,方差为10的高斯噪声,网络将分别生成21个32×32×1关节点热图。

s33:求21个2d关节点热图到3d的估计值,具体方法如下;

s34:首先定义一个三维手部关节点坐标集合wi=(xi,yi,zi),i∈[1,j],j=21。

s35:利用s12获得的手部3维数据库训练一个全卷积神经网络,使用l2损失函数。网络采用(卷积层+relu激活层)+全连接层的结构。

s36:利用s35训练的全卷积神经网络获得的先验知识,对2d手部图像各关键点建立正则化坐标集合,公式如下:

s=||wk+1-wk||(12)

其中k∈[1,20]。

s37:建立相对坐标系,消除因手部大小不同等原因造成的个关节点位置相对失真。本例中将食指第一关节作为根节点,即s=1,此外将利用公式(13)求出其余个节点相对于食指第一关节点的相对位置。

r为食指第一节点。

需要说明的是,手部关节节点2d-3d映射网络除了上述结构之外,还可以采用其他现有神经网络结构来实现。

s4:标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;

其中,在所述步骤s4中,得到着色深度图像的步骤具体包括:

利用棋盘法来标定人体相同角度的深度图像与关键点标注图像;

匹配人体相同角度的关键点标注图像与深度图像;

调整匹配后的深度图像大小并进行三维着色点云。

本发明利用棋盘法来标定人体相同角度的深度图像与关键点标注图像,能够准确获取图像中关键点的坐标信息

s41:利用棋盘法对kinect的rgb摄像头进行标定,利用matlabcameracalibrationtoolbox计算rgb内参。

s42:利用棋盘法对kinect的深度摄像头进行标定,利用matlabcameracalibrationtoolbox计算rgb内参。

s43:对2d-rgb摄像头和3d深度摄像头进行配准,具体步骤如下:

s44:利用公式(14)建立深度图像空间坐标系:

pir=hirpir(14)

其中pir为深度摄像头坐标下某点的空间坐标,pir为该点在平面上的投影坐标(x、y单位为像素,z为深度值,单位为毫米),hir为深度摄像头的内参矩阵。

s45:利用公式(15)、(16)为rgb摄像头建立空间坐标:

prgb=rpir+t(15)

prgb=hrgbprgb(16)

其中prgb为在rgb摄像头坐标下同一点的空间坐标,prgb为该点在rgb像平面上的投影坐标,hrgb为rgb摄像头的内参矩阵,r为旋转矩阵,t为平移向量。

s46:利用摄像头外参矩阵,将全局坐标系中的点变换到摄像头矩阵,变换公式如公式(17):

其中旋转矩阵rir(rrgb)和平移向量tir(trgb)是深度摄像头(rgb摄像头)的外参矩阵

s47:将配准后的图像调整大小为64×64×64的三维着色点云矩阵。

s5:基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;

其中,在所述步骤s5中,预设学习网络为u型强化学习网络。

其中,u型强化学习网络是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。

u型强化学习网络的结构为:对输入进行预设次数的卷积操作和预设次数的池化操作(maxpool下采样),每次卷积后接一层relu激活层,重复若干次,下采样后的卷积过滤器数量增加相应倍数;

对下采样后得到的结果进行预设次数的卷积操作和预设次数的预设步长的去卷积操作(上采样),每次卷积后接一个relu激活层,重复若干次,上采样时过滤器数量减少相应倍数;得到的结果和对应左侧部分卷积结果进行连接后再进行卷积;

最后输出相应结果。

需要说明的是,预设学习网络也可以为q型强化学习网络。

具体地,u型强化学习网络结构,如图5所示:

s52:对s2、s4的输入进行2次3×3×3卷积操作和1次2×2×2池化操作(maxpool下采样),每次卷积后接一层relu激活层,重复4次,下采样后的卷积过滤器数量增加2倍。

s53:对下采样后得到的结果进行2次3×3卷积操作和1次步长为2×2的去卷积操作(上采样),每次卷积后接一个relu激活层,重复4次,上采样时过滤器数量减少2倍,得到的结果和对应左侧部分卷积结果进行连接后再进行卷积,这时卷积过滤器数量减少2倍。

s54:输出点云中关键点置信图。

s6:合并步骤s3和步骤s5的输出,实现对三维人体姿态估计的精细化估计。

本发明的基于三维人体姿态估计方法,运用单目相机采集人体不同角度的深度图像和rgb彩色图像,解决了在人体姿态估计领域中采用多目相机的条件限制,该方法更容易实现,而且能够精确地识别出深度图像中的三维人体姿态。

如图6所示,本发明的一种基于三维人体姿态估计装置的技术方案为:

一种基于三维人体姿态估计装置,包括:

(1)图像采集单元,其运用单目相机采集人体不同角度的深度图像和rgb彩色图像;

其中,单目相机可以采用kinect相机来实现。

kinect比一般的摄像头更为智能。首先,它能够发射红外线,从而对整个房间进行立体定位。摄像头则可以借助红外线来识别人体的运动。除此之外,配合着xbox360上的一些高端软件,便可以对人体的48个部位进行实时追踪。

需要说明的是,单目相机除了kinect相机之外,也可以采用其他现有单目相机来实现。

(2)关键点标注单元,其用于基于rgb彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像;

其中,所述关键点标注单元,包括:

数据集构建子单元,其用于标注rgb彩色图像中的人体骨骼关键点,构建出数据集;

神经网络训练子单元,其用于将构建的数据集划分为训练集和测试集,并将训练集输入至预设人体骨骼关键点检测神经网络中进行训练;

神经网络检测子单元,其用于利用测试集来测试训练后的人体骨骼关键点检测神经网络,直至达到预设要求。

在所述关键点标注单元中,通过对获取的rgb彩色图像标注人体骨骼关键点形成训练人体骨骼关键点检测神经网络的数据集,这样能够快速准确地得到预设要求的人体骨骼关键点检测神经网络。其中,预设要求为人体骨骼关键点检测神经网络输出的人体骨骼关键点的精度在预先设定精度范围内。

其中,人体骨骼关键点检测神经网络可以由vgg-19网络后接有t(t为大于或等于1的正整数)个阶段,每个阶段有2个全卷积网络的结构构成。

其中,vgg(visualgeometrygroup)属于牛津大学科学工程系,其发布了一些列以vgg开头的卷积网络模型。

需要说明的是,人体骨骼关键点检测神经网络也可以为其他现有的神经网络模型。

(3)手部识别单元,其用于基于对应的rgb彩色图像和关键点标注图像,构造手部关节节点2d-3d映射网络;

在所述手部识别单元中,构造的手部关节节点2d-3d映射网络输出手部分割图像,手部关节节点2d-3d映射网络的结构为:(卷积层+relu激活层)+最大池化层+双线性上采样。

上述手部关节节点2d-3d映射网络的损失函数采用softmax和交叉熵损失函数。

在本发明中,将2d手部检测问题转化为分割问题消除不同人手的大小尺寸不同对网络精确性影响。

需要说明的是,手部关节节点2d-3d映射网络除了上述结构之外,还可以采用其他现有神经网络结构来实现。

(4)深度图像着色单元,其用于标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;

其中,所述深度图像着色单元,包括:

标定子单元,其用于利用棋盘法来标定人体相同角度的深度图像与关键点标注图像;

匹配子单元,其用于匹配人体相同角度的关键点标注图像与深度图像;

三维着色点云子单元,其用于调整匹配后的深度图像大小并进行三维着色点云。

本发明利用棋盘法来标定人体相同角度的深度图像与关键点标注图像,能够准确获取图像中关键点的坐标信息。

(5)深度图像关键点预测单元,其用于基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;

其中,在所述深度图像关键点预测单元中,预设学习网络为u型强化学习网络。

其中,u型强化学习网络是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。

u型强化学习网络的结构为:对输入进行预设次数的卷积操作和预设次数的池化操作(maxpool下采样),每次卷积后接一层relu激活层,重复若干次,下采样后的卷积过滤器数量增加相应倍数;

对下采样后得到的结果进行预设次数的卷积操作和预设次数的预设步长的去卷积操作(上采样),每次卷积后接一个relu激活层,重复若干次,上采样时过滤器数量减少相应倍数;得到的结果和对应左侧部分卷积结果进行连接后再进行卷积;

最后输出相应结果。

需要说明的是,预设学习网络也可以为q型强化学习网络。

(6)三维人体姿态估计单元,其用于合并手部识别单元和深度图像关键点预测单元的输出,实现对三维人体姿态估计的精细化估计。

本发明的基于三维人体姿态估计装置,运用单目相机采集人体不同角度的深度图像和rgb彩色图像,解决了在人体姿态估计领域中采用多目相机的条件限制,该方法更容易实现,而且能够精确地识别出深度图像中的三维人体姿态。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、装置或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1