一种基于多层分形网络和关节亲属模式的多人姿态估计方法与流程

文档序号:15462838发布日期:2018-09-18 18:35阅读:185来源:国知局

本发明涉及人体姿态估计领域,具体涉及一种基于多层分形网络和关节亲属模式的多人姿态估计方法。



背景技术:

人体姿态估计是进一步理解人体行为的关键步骤,有效预测人体关节点并获得相应运动姿态,对于实现如行为识别、人体追踪及人体重识别等更高级别的计算机视觉任务具有重要的意义。尽管对于人体姿态估计的研究众多,但当单张图像中存在多个人时,可能导致更多的肢体截断或闭塞,难以定位所有个体的关节点;且多人肢体相互作用,容易产生关节依赖导致高维输入空间。传统的单人姿态估计方法在预测到人体关节点之后,只需要直接连接相邻关节点即可形成人体姿态,该方法未考虑到同类关节点之间的互斥性。由于多人关节点之间存在错综复杂的关节依赖,使得一些处理单人姿态估计的方法无法满足多人姿态估计的需求。随着深度学习方法的快速发展,对于多人姿态估计的研究也逐渐多了起来,但始终未能找到一种具有普适性的姿态估计方法。

对于RGB图像中多人姿态的估计,Pishchulin等人(2016 IEEE Conference on Computer Vision and Pattern Recognition,2016,pp.4929-4937)在论文“DeepCut:Joint Subset Partition and Labeling for Multi Person Pose Estimation”中提出了一个联合目标函数来解决多人姿态估计问题,该方法不需要单独的人体检测器或任何关于人数的先验信息,且可以解决任何类型的闭塞或截断,但是对于现实情况而言,这是一个NP难问题且价格昂贵,因此该方法限制了部位推荐的数量。Insafutdinov等人(16th European Conference on Computer Vision,2016,pp.34-50)在论文“DeeperCut:A Deeper,Stronger,and Faster Multi-person Pose Estimation Model”中提出一种基于ResNet的强部件检测器来检测所有人体部位,及一种增量优化策略来标记和组装这些部位,由于该方法只考虑了很小的局部区域,因此对于相距较远的相邻关节点,该方法对于关节点的组装效果并不好。

北京航空航天大学在其申请的专利“一种结合旋转不变性特征的单张图片人体姿态估计方法”(专利申请号:CN201510502639.4,公开号:CN105117694A)中公开了一种通过融合人体部件表象模型和基于姿态先验的人体形变模型,对输入图像进行表象评分,并以此评分结果为指导进行人体二维姿态估计的方法。该方法可有效对人体部位进行约束,但对于图像中多个人的不同关节之间,却不能保证约束关系,从而无法高效估计多人姿态。



技术实现要素:

本发明的目的在于提供一种基于多层分形网络和关节亲属模式的多人姿态估计方法,其能够高效评估多人姿态。

为实现上述目的,本发明采用的技术方案是:

一种基于多层分形网络和关节亲属模式的多人姿态估计方法,其首先通过采用多尺度特征提取单元替换原始沙漏网络中的剩余单元,构建三层分形网络模型;然后基于该三层分形网络模型对包含多人的单张图像进行处理,获取该图像的人体候选关节点位置热图;对候选关节点进行分层,计算相邻两层关节点之间的双向条件概率,用于推理各个关节点之间的相互亲属度,根据每对关节的亲属关系和外部空间约束关系,将关节点迭代到多个人中,并组合所有个人的姿势,形成一个完整的多人姿态。

所述多人姿态估计方法具体包括以下步骤:

步骤1、构造并优化三层分形网络模型

步骤1.1、采用多尺度特征提取单元替换8堆叠沙漏模型的原始剩余单元,构造三层分形网络模型,该三层分形网络模型包含堆叠卷积,批量归一化和ReLu非线性;

步骤1.2、采用多人姿态数据集训练三层分形网络模型,计算各个关节点置信分数,并对相应关节点位置热图进行中间预测,形成中间预测关节点热图;

在训练阶段,假设是所有K个人体关节点的地面真值位置,其中K=15,并且lk表示第k个关节点,令为关节点k分配到位置τ的置信分数,其中置信分数可表示成:

步骤1.3、计算步骤1.2中生成的中间预测关节点热图与相应的地面真值热图之间的均方误差损失函数Γk,用于训练三层分形网络模型参数,并优化三层分形网络模型;

在训练过程中,假设所有中间预测关节点热图为Φ'={Φ'k}k=1,2,...,K,尺度为15×64×64,令Φ={Φk}k=1,2,...,K为高斯激活生成的每个人体部位对应的地面真值热图,其中均方误差损失函数Γk表示成:

将整体目标函数设置为最大化置信分数及最小化预测损失Γk,对模型参数进行微调,优化三层分形网络,具体过程表示如下:

步骤2、多人姿态估计

步骤2.1、读取包含多人的单张RGB图像,重置图像大小至512×512;

步骤2.2、将大小为512×512的RGB图像,作为VGG19网络的前10层卷积输入,经过VGG19网络后提取到一组人体特征图F;

步骤2.3、将步骤2.2生成的人体特征图F输入到步骤1训练得到的三层分形网络模型中,获取人体候选关节点位置热图;

步骤2.4、在人体候选关节点位置热图中,采用非最大值抑制算法查找每个关节点最大像素值位置,选择具有最大峰值的像素位置作为关节点位置的中心,然后膨胀该中心点以生成半径为R个像素的圆,即得人体关节点位置;

步骤2.5、通过步骤2.4得到的所有人体关节点位置进行分层,分别计算相邻两层的各关节点之间的双向条件概率,用于推理关节点之间的相互亲属度;

假设关节点i与关节点j为相邻层关节点,首先计算从关节点i到关键点j的条件概率同时也计算关节点j到关节点i的条件概率计算过程如下所示:

只有当相互条件概率均超过给定阈值ε时,才认为这两个关节点相互依赖,属于同一个体,判别式如下:

关节点i到关键点j的条件概率大于等于阈值ε,定义为组Di,j;关节点j到关键点i的条件概率大于等于阈值ε,定义为组Dj,i;

步骤2.6、选择在两组中同时出现的身体关节对,构建候选边集Eij,其中,边集Eij定义为:然后对边集Eij执行外部空间约束,进行相邻关节点的最佳匹配;

假定关节i是固定的,引入边集中关节之间的空间距离来优化边集,空间距离计算如下:

目标函数为在边集中选择关节点时,最小化空间距离,优化各层关节之间的亲属度,以最佳匹配各相邻层关节点形成关节点对,其中目标函数表示为:

步骤2.7、连接最佳匹配关节对,形成部分人体骨架;

步骤2.8、重复步骤2.5至步骤2.7,逐层迭代,直到所有关节点均被分配到相应个体,即完成单张图像中的多人姿态估计。

采用上述方案后,本发明通过修改多尺度特征提取单元并设计三层分形架构,实现输入图像局部感受野的增大并捕获人体关节更大的局部上下文特征,有效改善人体关节点位置热图的中间预测;同时充分考虑个体关节点之间的亲属关系和空间关系,实现关节点之间的最佳匹配,有效去除大量关节点之间的杂乱匹配,可大大提升多人姿态估计的平均精度。

附图说明

图1为本发明实现关节点预测的三层分形网络框架;

图2为本发明输入的单张RGB图像;

图3为图2的人体关节点位置热图预测结果;

图4为人体关节点具体位置确定图像;

图5为相邻层关节点之间的分层双向推理图像;

图6为最终得到的多人姿态估计结果图像。

具体实施方式

本发明揭示了一种基于多层分形网络和关节亲属模式的多人姿态估计方法,其在人体关节点预测阶段,通过采用多尺度特征提取单元替换原始沙漏网络中的剩余单元,有效增大图像局部感受野区域并捕获人体关节点的更大局部上下文特征信息,同时对图像进行多次上下采样,提取人体多尺度特征,对人体关节点热图位置进行中间预测,并通过分形网络第三层对预测结果进行优化;同时,本发明提出一种分层双向推理算法,计算相邻关节点之间的亲属度,有效避免多人关节点之间的杂乱匹配,可大大提高个人关节点之间的匹配准确度,为人体行为识别提供一个姿态参考。

如图1至图6所示,本发明的多人姿态估计方法具体包括以下步骤:

步骤1、构造并优化三层分形网络模型

步骤1.1、如图1所示,采用多尺度特征提取单元替换8堆叠沙漏模型的原始剩余单元,构造三层分形网络模型,该三层分形网络模型包含堆叠卷积,批量归一化和ReLu非线性。

通过使用多尺度特征提取单元作为基本构建块,可增大输入图像的局部感受野区域,并捕获人体关节的更大局部上下文特征,有利于人体局部关节点热图的回归。

步骤1.2、采用多人姿态数据集训练三层分形网络模型,计算各个关节点置信分数,并对相应关节点位置热图进行中间预测,生成关节点热图的中间预测结果;

在训练阶段,假设是所有K个人体关节点的地面真值位置,其中K=15,并且lk表示第k个关节点,令为关节点k分配到位置τ的置信分数,其中置信分数可表示成:

通过对三层分形网络的第一层添加沙漏剩余模块数量,来增大输入图像的局部感受野区域,并捕获人体关节的更大局部上下文特征;在该分形网络第二层嵌套一个8层的堆叠沙漏网络,可对大小为512×512的输入图像进行连续池化操作,池化到大小为64×64的更低分辨率,接着对该低分辨率图像进行多次上采样操作,以捕获图像多分辨率下的多尺度特征,直到恢复图像原始上下文信息。结合三层分形网络前两层获取的特征信息,该网络能够产生关节点热图的中间预测结果。

步骤1.3、计算步骤1.2中生成的关节点热图的中间预测结果与相应的地面真值热图之间的均方误差损失函数Γk,用于训练三层分形网络模型参数,并优化三层分形网络模型;

在训练过程中,假设所有关节点热图的中间预测结果为Φ'={Φ'k}k=1,2,...,K,尺度为15×64×64,令Φ={Φk}k=1,2,...,K为高斯激活生成的每个人体部位对应的地面真值热图,其中均方误差损失函数Γk可表示成:

通过均方误差损失函数对三层分形网络进行训练,并对模型参数进行微调,优化三层分形网络。整体目标函数为最大化置信分数及最小化预测损失Γk,具体过程表示如下:

在该三层分形网络的最后一层,将原始输入图像信息与该网络前两层输出信息进行连接,在具备图像原始信息的基础上,结合关节点中间预测结果,以获取不同分辨率下更丰富的图像信息。执行核大小为1×1,步长为1的卷积操作,对前两层特征进行标准化连接,然后将标准化连接后的特征与关节点热图中间预测值按逐像素相加法进行融合,以优化关节点中间预测结果并产生人体部位回归热图的最终输出。

步骤2、多人姿态估计

步骤2.1、读取如图2所示的包含多人的单张RGB图像,重置图像大小至512×512;

步骤2.2、将大小为512×512的RGB图像,作为VGG19网络的前10层卷积输入,并对VGG19网络进行微调,通过修改网络各卷积层参数使其能更适合输入图像的处理,能提取更具区分性的人体特征图;经过VGG19网络处理后提取到一组人体特征图F;

步骤2.3、将步骤2.2生成的人体特征图F输入到步骤1训练得到的三层分形网络模型中,获取人体候选关节点位置热图,如图3所示;

步骤2.4、在人体候选关节点位置热图中,采用非最大值抑制算法查找每个关节点最大像素值位置,选择具有最大峰值的像素位置作为关节点位置的中心,然后膨胀该中心点以生成半径为R个像素的圆,即得到人体关节点位置,在该实施例中,R为5。得到的人体关节点图像如图4所示。

令为第j个关节点在位置τ的像素值,并令δj为最大像素,为最终关节点位置,具体过程表示为:

最后在相同的热图中抑制其他像素,并将它们从预测的热图中去除,重复该过程,直到那些热图回归到15个实心圆,这些圆便是人体的关节位置,这些关节位置用于随后的关节关联。

步骤2.5、如图5所示,通过步骤2.4得到的所有人体关节点位置进行分层,分别计算相邻两层的各关节点之间的双向条件概率,用于推理关节点之间的相互亲属度。

假设关节点i与关节点j为相邻层关节点,首先计算从关节点i到关键点j的条件概率同时也计算关节点j到关节点i的条件概率计算过程如下所示:

相互条件概率反映了关节点之间的相互依赖程度,假设高但不高的话,还不足以说明关节i与关节j属于同一个人。

只有当相互条件概率均超过给定阈值ε时,才认为这两个关节点相互依赖,属于同一个体。判别式如下:

其中ε设置为0.6。

关节点i到关键点j的条件概率大于等于阈值ε,定义为组Di,j;关节点j到关键点i的条件概率大于等于阈值ε,定义为组Dj,i。

步骤2.6、选择在两组中同时出现的身体关节对,构建候选边集Eij,以进一步形成人体骨架,边集Eij可定义为下式:

为了选择最佳匹配结果,对边集Eij执行一些外部空间约束,假定关节i是固定的,引入边集中关节之间的空间距离来优化边集,空间距离计算如下:

目标函数为在边集中选择关节点时,最小化空间距离,优化各层关节之间的亲属度,以最佳匹配各相邻层关节点形成关节点对。其中目标函数表示为:

步骤2.7、连接最佳匹配关节对,然后将它们作为人体姿势的一部分进行连接,形成部分人体骨架。

步骤2.8、重复步骤2.5至步骤2.8,逐层迭代,直到所有关节点均被分配到个体,实现最终的多人全身姿态估计,如图6所示。

本发明的关键在于,本发明采用三层分形网络模型对人体关键点进行预测,并提出分层双向推理算法对多人关节点进行分析,根据每对关节点之间的亲属度及外部空间关系,实现多个人体关节点之间的最佳匹配,有效去除大量关节点之间的杂乱匹配,可大大提升多人姿态估计的平均精度。

以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1