一种基于RPE-I相对位置编码的RPEPose关节点检测模型

文档序号:37021709发布日期:2024-02-09 13:15阅读:17来源:国知局
一种基于RPE-I相对位置编码的RPEPose关节点检测模型

本发明属于姿态估计领域,尤其涉及一种基于rpe-i相对位置编码的rpepose关节点检测模型。


背景技术:

1、二维人体姿态估计模型(2d human pose estimation,2d hpe)旨在从图像或者视频中预测人体关节点(或称关键点,比如头,左手,右脚等)的二维空间位置坐标。2d hpe的应用场景非常广泛,包括动作识别,动画生成,增强现实等。传统的2d hpe算法,设计手工特征提取图像信息,从而进行关键点的检测。近年来随着深度学习的快速发展,基于深度学习的2d hpe算法取得了重大突破,算法精度得到了大幅提升。

2、目前,关节点检测模型根据热力图对人体关键点位置预测的方法可分为两类:

3、(1)基于卷积神经网络(convolutional neural network,cnn)架构,如:openpose、yolo-pose、cpn等。cpn模型提出了一种名为级联金字塔网络(cascaded pyramidnetwork)的网络结构。该网络架构包括两个阶段:globalnet和refinenet。globalnet可以成功定位易识别关键点,而refinenet则通过结合globalnet所有层级的特征序列,准确处理遮挡或不可见的难识别关键点。yolo-pose是一种无热力图(heatmap)关节点检测模型。该模型可以进行端到端训练,取消了自底向上检测方法中的后处理操作,而可以将检测到的关键点分组到一个骨架网络中,同时优化了自上而下的方法,在前向传播时,可以通过联合检测人体框以及对应的关键点,以更准确进行多人姿态估计。基于cnn架构的模型通过堆叠深度卷积神经网络,隐式学习身体部位之间的空间依赖关系,从而取得了优异的关键点检测性能。然而,先前大多数的研究都将深度神经网络视为一个强大的黑盒预测器,并致力于改进网络结构,却并不清楚网络架构内部的具体情况,更难以分析模型内部捕捉身体部位之间空间关系的方法。如图1所示,卷积神经网络的缩放特性较差,因此它虽然在低层次堆叠以提取特征方面很有优势,但是在高层次堆叠以扩大感受野的情况下,不但在捕捉全局依赖关系上效率不高,而且会大大增加模型计算量,从而加大了对硬件的需求,限制了模型落地应用。

4、(2)基于vision transformer架构,如:transpose、vitpose等。如图2所示,transformer架构的关键点定位方法通过定性分析来揭示骨架中身体关节变量之间的细粒度空间依赖关系,从而可以建立全局图像的长距离连接,因此,该架构的注意力层能够捕捉任意成对位置之间的交互作用,其注意力图则即时存储这些依赖关系。transpose模型是首个使用经典vision transformer架构进行关节点检测的模型,是该领域的基准模型之一,在精度上超越了同等规模的所有基于cnn架构的关节点检测模型。不同于transpose使用了cnn架构的特征提取器来提取人体检测框,vitpose从人体检测框提取到关节点检测这两个阶段都使用了vision transformer架构,并且对transformer解码器进行了轻量化,也是该领域的基准模型之一。虽然transpose模型在coco 2017的验证集上,以oks指标为判断标准的精度(ap)为75.8%,召回率(ar)为80.8%,但是仔细研究其架构可以发现,该模型的transformer编码器采用的是二维正弦位置编码方式属于绝对位置编码,该种编码方式在transformer架构编码过程丢失了图像块(token)之间的相对位置信息,而位置信息对于理解图像是有帮助的,尤其对于姿态估计任务而言,正确捕捉不同关键点的位置信息能保证更精准的预测。


技术实现思路

1、为得到更精准的预测和降低计算负担,本发明提供一种基于rpe-i相对位置编码的rpepose关节点检测模型。

2、本发明的一种基于rpe-i相对位置编码的rpepose关节点检测模型,包括cnn特征提取器、vision transformer编码器和检测器三个模块。

3、cnn特征提取器:使用改进的resnet-50网络架构用于提取人体检测框中的人体特征。在接收到图像后,通过该resnet-50网络架构一系列的卷积操作、最大池化操作和下采样操作后,得到特征图序列特征图中的特征向量与卷积核的卷积操作由公式(1)表示:

4、

5、其中,ig(i,j)表示一个二维信号,用于表示在特征图中,位于(i,j)位置的特征,i表示横方向的位置坐标,j表示竖方向的位置坐标;ke(m,n)也是一个二维信号,表示卷积核的信息,其中,m表示横方向的大小,n代表竖方向的大小;he(i,j)则表示的是图像块ig(i,j)与卷积核ke(m,n)进行卷积操作后所得到的数据信息。

6、然后采用reduce操作,利用一个1×1卷积核,把特征图序列通道数缩小一半,因此,在经过reduce操作后,cnn特征提取器输出二维特征图序列其中d=256,h=h’in/4,w=w’in/4。

7、vision transformer编码器:用于捕捉图像块之间特征向量的长距离空间相互作用。cnn特征提取器输出一个2维空间结构的特征图序列在transformer编码器中,图像特征映射被展平成一个序列即一个包含l个d维特征向量的序列,其中l=h×w;经过3个注意力层和前馈网络的计算后,该编码器输出特征序列

8、检测器:用于预测关键点热图。检测器连接到vision transformer编码器输出的特征序列上,用于预测m种类型的关键点热图首先,检测器将e重新调整回的形状,然后使用一个1×1卷积将特征序列e的通道维度从d降低到m;若h,w≠h’in,w’in,则在1×1卷积之前使用4×4反卷积进行上采样;一个1×1卷积完全等同于一个逐位置计算的全连接层,全连接层使用公式(2)计算每个特征图中的像素的预测概率:

9、

10、其中,qm表示每个特征图中的像素预测为第m个关键点的概率,而pm表示该图像块的真实标签,因此pm的值为0或1,h(q,p)则表示该图像块对所有关键点的预测准确率。

11、进一步的,vision transformer编码器会经过三层注意力层的计算,而每层注意力层的运算流程如下:

12、首先进行“查询q-键k-位置p-值v”多头自注意计算,计算出图像块之间的关联度;自注意计算通过三个矩阵将输入序列投影到查询序列键序列和值序列再添加一个位置序列从而构造出注意力分值矩阵

13、

14、其中,位置序列p为rpe-i相对位置编码输出的参数矩阵。

15、然后再经过残差连接和归一化操作,以及基于位置方向的前馈网络ffn后,visiontransformer编码器输出特征序列

16、进一步的,rpe-i相对位置编码过程为:

17、假设图像块序列中的一个图像块i的横向位置坐标为ix,纵向位置坐标为iy,另一个图像块j的横向位置坐标则为jx,纵向位置坐标则为jy;则这两个图像块之间的相对位置pij可由公式(4)表示:

18、pij=(xi'j,yi'j)=(ix-jx,iy-jy)(4)

19、每个图像块pi从1到l编号,那么它们之间的相对位置序列就构成一个相对位置参数矩阵创建一个嵌入表格对一个较小尺寸的偏置矩阵进行参数化;的初始值是满足正太随机分布的二维序列,在训练过程中会通过自学习逐步完善以迎合自注意力计算;由此计算出每个图像块之间的相对位置从而满足改进后的注意力分值矩阵的计算公式

20、本发明的有益技术效果为:

21、本发明基于rpe-i相对位置编码,构建了基于vision transformer架构的rpepose关节点检测模型,rpe-i相对位置编码,给vision transformer编码器提供了图像块之间的相对位置信息,增强了其对图像的理解能力。本发明为跌倒检测算法框架提供一个计算量更少,而精度更高的姿态估计模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1