一种增强解析能力的人体解析模型构建方法

文档序号：37588276发布日期：2024-04-18 12:17阅读：10来源：国知局

本发明属于人体图像处理，尤其涉及一种增强解析能力的人体解析模型构建方法。

背景技术：

1、人体图像解析旨在对人体图像进行逐像素识别，理解图像中人体各个部分的语义，广泛应用于行人重识别、视频监控和人物动作分析。人体图像解析是一项细粒度的解析任务，其精确程度直接影响了其应用性。

2、人体部位信息对解析至关重要，合理地利用人体结构能够加强对人体部位的识别。gong等提出自监督敏感结构的学习方法，从全局上下文的角度整合人体关节的结构信息，实现了人体解析。然而在如今的人体解析方法中，基于深度学习的方法在高效性和准确性方面有着更好的效果。基于深度学习的语义分割方法包括全卷积网络(fcn)、u-net、pspnet、segnet和deeplab等。与传统的图像分割方法相比，这些方法能够利用深度学习技术提取图像的高级语义信息，从而显著提高图片的分割精度。全卷积神经网络(fcn)是一种具有代表性的网络结构，其特点是在图像的分辨率和语义信息之间进行了巧妙的权衡，通过端到端的训练方式，更好地捕捉到图像中的空间信息以及上下文信息，进而实现高精度的语义分割。

3、对于人体解析这一图像分割的方向，人体实例分割解析中包含单阶段的实例分割方法，该方法的工作受到单阶段目标检测研究的启发，因此，存在两种主要思路；一种是基于锚点框单阶段检测模型，如yolo、retinanet等，其代表作包括yolact和solo。另一种是基于无锚框检测模型的思路，如fcos等，其代表方法有polarmask和adaptis等。

4、根据上述研究，对于实例级人体解析网络，大多的解析都是基于对人体的检测基础上进行的，没有做到真正的检测和解析同时进行；并且在增强人体解析特征的注意力机制融合上下文信息方面，没有提出对人体解析任务效果有提升的方案。

技术实现思路

1、针对现有技术的不足，本发明提供了一种增强解析能力的人体解析模型构建方法，构建的模型解决了单阶段人体解析算法中无法充分获取人体目标上下文信息及其注意力机制融合特征的问题，提高了人体解析模型算法的准确性。

2、为了达到上述目的，本发明的技术方案是：

3、一种增强解析能力的人体解析模型构建方法，包括以下步骤：

4、步骤1)构建人体图像解析网络模型；所述网络模型包括骨干网络、颈部网络和头部网络，其中，骨干网络是模型的特征提取部分，用于从输入图像中提取高层次、语义丰富的特征；颈部网络是介于骨干网络和头部网络之间的中间层，用于在骨干网络提取的特征基础上进行特征融合、上下文增强；头部网络是模型的输出部分，用于负责最终的预测和分割任务；

5、步骤2)通过计算特征图的注意力和对特征图进行上下文信息融合激活操作，将注意力机制计算得到的新特征图和上下文增强计算得到的新特征图通过堆叠的操作融合在一起，得到注意力融合上下文信息模块，并将注意力融合上下文信息模块加入到颈部网络中；其中，注意力机制为三重注意力机制，其三重注意力分别由上部分支、中部分支和下部分支组成；

6、步骤3)在颈部网络中采用轻量级的通用上采样算子carafe，完成人体解析模型的构建；

7、步骤4)对构建的人体解析模型进行训练，更新模型中骨干网络、颈部网络和头部网络的权重系数，得到最佳权重系数的人体解析模型。

8、优选的，所述骨干网络由深度卷积神经网络(cnn)组成；所述颈部网络包括卷积层、池化层和注意力机制；所述头部网络是由分割网络和检测网络结合而成，其又被称为检测分割头。

9、优选的，所述骨干网络设置的层数为50层，且使用残差网络结构来避免训练时梯度爆炸和参数冗余情况；设置输入图片尺寸为640*640，且特征提取通道数通过设置卷积核逐层增加。

10、优选的，所述网络模型采用的数据集是active template regression-atr数据集，其中包含了数据集为单人场景人体解析数据集。

11、优选的，所述特征融合用于将不同层之间的特征图通过上采样或下采样的方法整合到同一大小，融合成一个特征图；所述上下文增强是用于在同一特征图中将不同位置的特征信息通过融合激活操作增强其特征表现。

12、优选的，所述三重注意力不同的分支负责捕获空间维度h或w与通道维度c之间的交互特征；其中，上部分支负责计算通道维度c和空间维度w的注意力权重；中部分支负责计算通道维度c与空间维度h之间的注意力权重；下部分支用于捕获空间维度c和w之间的依赖性。

13、优选的，所述上下文信息融合激活分为上下文信息融合操作和上下文信息激活两部分；

14、其中，上下文信息融合操作方式为：在输入特征图大小为c×h×w保持通道数c不变的前提下，对h×w尺度大小分别进行4倍、8倍和16倍的下采样操作，将h和w的尺度缩小到原始尺度的1/4，1/8和1/16；

15、上下文信息激活操作方式为：对原始输入特征图进行3×3大小的卷积操作，使卷积操作后的特征图大小与原始输入特征图c×h×w大小一致，以通过此操作保留一定的原特征图信息；将三个下采样尺度的输出特征图通过上采样的操作把h和w这两个方向的大小恢复到原始大小，再与卷积操作所输出的特征图排列聚合到一起；运用卷积的操作将所有输出特征图聚合的部分恢复到与原始输入特征图相同的大小c×h×w。

16、优选的，所述上采样算子carafe首先利用输入特征图来预测上采样核，然后基于预测的上采样核来进行特征上采样。

17、优选的，对人体解析模型进行训练包括以下步骤：

18、41)将调整好标签的数据集准备好，并且设置数据集输入模型时的训练批次batch-size；

19、42)对模型中需要的权重系数进行初始化，将训练数据及其标签按批次送入模型中进行前向传播得到预测值和真实值的误差，即损失值loss；

20、43)采用随机梯度下降sgd的方法根据得到的损失值loss来更新模型中骨干网络、颈部网络和头部网络的权重系数，使模型收敛从而达到最佳性能；

21、44)将验证集的图片和标签输入模型进行多次验证，并计算和记录模型多次验证在验证集上的评价指标map0.5值，将map0.5值最高的一个，作为最佳权重系数。

22、本发明的技术效果和优点：

23、本发明提供的基于一种增强解析能力的人体解析模型构建方法，通过构建的骨干网络，从而可从人体解析数据集中对人体图片进行深度特征提取；通过构建的颈部网络，可根据注意力机制对于实例分割任务提升性能，以及上下文特征融合对于人体解析性能的提升的特点，通过将注意力机制与特征图上下文信息融合操作，提高了人体解析的准确度和可靠性，并且在颈部网络中采取保存更多细节特征的上采样操作提升了模型的性能，实现更深度的特征图信息融合，进一步增强了网络人体部位解析的能力。

技术特征：

1.一种增强解析能力的人体解析模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种增强解析能力的人体解析模型构建方法，其特征在于：步骤1)中，所述骨干网络由深度卷积神经网络(cnn)组成；所述颈部网络包括卷积层、池化层和注意力机制；所述头部网络是由分割网络和检测网络结合而成。

3.根据权利要求2所述的一种增强解析能力的人体解析模型构建方法，其特征在于：所述骨干网络设置的层数为50层，且使用残差网络结构来避免训练时梯度爆炸和参数冗余情况；设置输入图片尺寸为640*640，且特征提取通道数通过设置卷积核个数逐层增加。

4.根据权利要求2所述的一种增强解析能力的人体解析模型构建方法，其特征在于：所述网络模型采用的数据集是active template regression-atr数据集，其中包含了数据集为单人场景人体解析数据集。

5.根据权利要求1所述的一种增强解析能力的人体解析模型构建方法，其特征在于：所述特征融合用于将不同层之间的特征图通过上采样或下采样的方法整合到同一大小，融合成一个特征图；所述上下文增强是用于在同一特征图中将不同位置的特征信息通过融合激活操作增强其特征表现。

6.根据权利要求1所述的一种增强解析能力的人体解析模型构建方法，其特征在于：步骤2)中，所述三重注意力不同的分支负责捕获空间维度h或w与通道维度c之间的交互特征；其中，上部分支负责计算通道维度c和空间维度w的注意力权重；中部分支负责计算通道维度c与空间维度h之间的注意力权重；下部分支用于捕获空间维度c和w之间的依赖性。

7.根据权利要求1所述的一种增强解析能力的人体解析模型构建方法，其特征在于，步骤2)中，所述上下文信息融合激活分为上下文信息融合操作和上下文信息激活两部分；

8.根据权利要求1所述的一种增强解析能力的人体解析模型构建方法，其特征在于，步骤3)中，所述上采样算子carafe首先利用输入特征图来预测上采样核，然后基于预测的上采样核来进行特征上采样。

9.根据权利要求1所述的一种增强解析能力的人体解析模型构建方法，其特征在于，步骤4)中，对人体解析模型进行训练包括以下步骤：

技术总结
本发明涉及一种增强解析能力的人体解析模型构建方法，步骤如下：构建人体图像解析网络模型，网络模型包括骨干网络、颈部网络和头部网络；通过计算特征图的注意力和对特征图进行上下文信息融合激活操作，将注意力机制和上下文增强两个模块计算得到的新特征图通过堆叠的操作融合在一起，得到注意力融合上下文信息模块，并将注意力融合上下文信息模块加入到颈部网络中；将上采样算子应用于颈部网络中，完成人体解析模型的构建；对构建的人体解析模型进行训练，得到最佳权重系数的人体解析模型。该方法构建的模型解决了单阶段人体解析算法中无法充分获取人体目标上下文信息及其注意力机制融合特征的问题，提高了人体解析模型算法的准确性。

技术研发人员：包志强,杜得菲,黄琼丹,谭羽,王思伟,同彤
受保护的技术使用者：西安邮电大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：包志强,杜得菲,黄琼丹,谭羽,王思伟,同彤
技术所有人：西安邮电大学
我是此专利的发明人

上一篇：应用于工业表面检测的模型训练方法及装置与流程
上一篇：一种带检修的斗提驱动平台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。