空间自注意力机制及目标检测方法与流程

文档序号：20954561发布日期：2020-06-02 20:20阅读：3942来源：国知局

本发明涉及一种空间自注意力机制及目标检测方法，属于计算机视觉领域。
背景技术：
：目标检测是计算机视觉任务中最基础，同时也是最具有挑战性的任务。它旨在对图像中的目标进行定位与分类。近年来，随着深度学习技术的迅猛发展，目标检测的技术的效果得到了很大的提高。基于深度学习的目标检测技术主要分为三个步骤：首先，采用卷积网络对目标提取特征；随着卷积网络深度的加深，网络表征能力越强，但同时小目标与位置信息损失越大。然后，采用不同大小比率的滑动窗口对整幅图像进行遍历；一方面，尽管滑窗能够遍历整幅图像，但仍不能保证特殊形状的存在不会影响最终检测效果；另一方面，滑窗遍历整幅图像导致计算量增加以及正负样本的不平衡，影响检测效果。最后，对所提取的特征进行分类并使包围框回归，同时对预测出来的结果进行非极大值抑制操作，以得到最终结果。近年来，通过注意力机制来增强网络的表征能力的方法层出不穷。senet提出了基于通道间的注意力机制，通过两个全连接层计算通道间的重要程度，再对原特征图进行加权求值。cbam将基于通道间的注意力机制与基于空间中的注意力机制进行融合，使用最大池化与平均池化对特征图进行压缩，再使用1*1卷积得到每个通道的重要程度，最后对原特征图进行加权求值。这些注意力机制只考虑了特征图中的一阶池化作用，没有考虑全局信息对该位置影响。所以在确定该位置重要程度时，需要添加全局信息的指导，以使得目标检测的精确度提高。专利cn201910738932.9公开了一种基于自注意力机制的多尺度空间自注意力机制及目标检测方法，其中所涉及到的空间注意力模块只是对特征图进行降维压缩，没有考虑到其他像素点对该像素点的位置影响程度，即丢失了全局信息的指导。有鉴于此，确有必要提出一种空间自注意力机制及目标检测方法，以解决上述问题。技术实现要素：本发明的目的在于提供一种空间自注意力机制及目标检测方法，更好地提高网络检测的精度，提高卷积网络的表达能力。为实现上述目的，本发明提供了一种空间自注意力机制，主要包括以下步骤：步骤1、对特征图f∈rc×h×w进行自适应平均池化得到特征图f′；步骤2、对特征图f′进行两次降维映射，得到f(f′)与g(f′)，将f(f′)与g(f′)按行展开，得到矩阵m和矩阵n；步骤3、将矩阵m和矩阵n进行相乘，得到矩阵z＝mt×n；步骤4、对矩阵z通过行卷积得到特征图y；步骤5、对特征图y使用sigmoid激活并进行拓展，得到特征图q；步骤6、对特征图q进行反自适应平均池化，得到最终空间每个像素的权重，将所述权重与特征图f进行点乘，以获得最终特征图r；步骤7、将最终特征图r作为下一个卷积层的输入。可选的，步骤1中，特征图f′＝adaptiveavgpool2d(f)，此时f′的大小为c×h′×w′。可选的，步骤2中，所述矩阵m＝reshape(f(f′))，n＝reshape(g(f′))，且m，n的大小为c′×h′w′。可选的，步骤3中，所述矩阵z的大小为h′w′×h′w′，其中，矩阵z的第i行第j列元素表示j像素对i像素的影响程度。可选的，步骤4中，特征图y的大小为h′w′×1。可选的，步骤5中，特征图q的大小为h′×w′。为实现上述目的，本发明还提供了一种目标检测方法，应用上述的空间自注意力机制，主要包括以下步骤：步骤s1、获取原始数据集，搭建基础网络框架，以提取图像的卷积特征；步骤s2、构造目标检测模型，并将基础网络框架的上采样层与下采样层进行特征融合，应用空间自注意力机制，作为下一个卷积层的输入；步骤s3、将训练后的原始数据集作为基础网络框架的输入，采用adam优化器对目标检测模型进行训练优化，以得到最终的目标检测模型。可选的，所述步骤s1具体包括以下步骤：步骤s11、获取原始数据集，将原始数据集通过数据增强进行扩充；步骤s12、选取hourglass-54作为基础网络框架，用于提取图像的卷积特征。可选的，所述步骤s12具体包括：步骤s121、缩放原始数据集，作为基础网络框架的输入；步骤s122、基础网络框架包含六层下采样层与五层上采样层，将对应的上采样层与下采样层进行特征融合之后，应用空间自注意力机制，作为下一个卷积层的输入；步骤s123、在基础网络框架的最后一层添加检测层，所述检测层采用centernet检测层模块。可选的，所述步骤s3具体包括以下步骤：步骤s31、初始化基础网络框架参数，对其余层采用随机初始化；步骤s32、将训练后的原始数据集作为基础网络框架的输入，采用adam优化器对目标检测模型进行训练优化，并不断更新基础网络框架中的参数。本发明的有益效果是：本发明基于空间自注意力机制，能够更好地提高网络检测的精度，本发明简单高效，且计算量较低，可应用到任意卷积网络的前向过程中，为特征图提供全局信息指导，提高卷积网络的表达能力。附图说明图1是本发明空间自注意力机制的步骤流程图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。如图1所示，本发明揭示了一种空间自注意力机制，主要包括以下步骤：步骤1、对特征图f∈rc×h×w进行自适应平均池化得到特征图f′；步骤2、对特征图f′进行两次降维映射，得到f(f′)与g(f′)，将f(f′)与g(f′)按行展开，得到矩阵m和矩阵n；步骤3、将矩阵m和矩阵n进行相乘，得到矩阵z＝mt×n；步骤4、对矩阵z通过行卷积得到特征图y；步骤5、对特征图y使用sigmoid激活并进行拓展，得到特征图q；步骤6、对特征图q进行反自适应平均池化，得到最终空间每个像素的权重，将所述权重与特征图f进行点乘，以获得最终特征图r；步骤7、将最终特征图r作为下一个卷积层的输入。以下将对步骤1-步骤7进行详细说明。步骤1中，特征图f′＝adaptiveavgpool2d(f)，此时f′的大小为c×h′×w′。步骤2中，对特征图f′进行两次降维映射至128维，得到f(f′)与g(f′)，此时f(f′)与g(f′)的大小为128×h′×w′，再将f(f′)与g(f′)按行展开，得到128×h′w′大小的矩阵m和矩阵n，其中，m＝reshape(f(f′))，n＝reshape(g(f′))，且m，n的大小为c′×h′w′。步骤3中，将矩阵m和矩阵n进行相乘，得到h′w′×h′w′大小的矩阵z＝mt×n，其中，矩阵z的第i行第j列元素表示j像素对i像素的影响程度，矩阵z的第i行的元素表示特征图上所有像素对i像素的影响。步骤4中，特征图y的大小为h′w′×1，特征图中的元素表示其在全局信息之中的重要性。步骤5中，特征图q的大小为h′×w′。步骤7中，最终特征图r可作为下一个卷积层的输入，以获得全局位置信息，提高检测精度。相应地，本发明还提供了一种应用上述空间自注意力机制的目标检测方法，主要包括以下步骤：步骤s1、获取原始数据集，搭建基础网络框架，以提取图像的卷积特征；步骤s2、构造目标检测模型，并将基础网络框架的上采样层与下采样层进行特征融合之后，应用空间自注意力机制，作为下一个卷积层的输入；步骤s3、将训练后的原始数据集作为基础网络框架的输入，采用adam优化器对目标检测模型进行训练优化，以得到最终的目标检测模型。以下将对步骤s1-s3进行详细说明。步骤s1的具体步骤包括：步骤s11、获取原始数据集，将原始数据集通过数据增强进行扩充，数据增强方法包括：随机翻转、随机缩放(0.6到1.3之间)、裁剪和颜色抖动。步骤s12、选取hourglass-54作为基础网络框架，用于提取图像的卷积特征。步骤s12具体为：步骤s121、缩放原始数据集至384*384*3，作为基础网络框架的输入；步骤s122、hourglass-54基础网络框架包含六层下采样层与五层上采样层，其中，下采样层的特征图信息为128*128*256，64*64*256，32*32*384，16*16*384，8*8*384，4*4*512；上采样层的特征图信息为8*8*384，16*16*384，32*32*384，64*64*256，128*128*256，将对应的上采样层与下采样层进行特征融合之后，应用空间自注意力机制，作为下一个卷积层的输入。步骤s123、在基础网络框架的最后一层添加检测层，用于类别检测和位置检测，该检测层采用centernet检测层模块，以检测目标中心点并回归得到目标的长宽。步骤s2的具体步骤见前述步骤1-步骤7，此处不再说明。步骤s3的具体步骤包括：步骤s31、初始化hourglass-54基础网络框架的参数，加载extremenet中的hourglass-104的前一半沙漏模块参数进行初始化hourglass-54基础网络框架的参数，对其余层采用随机初始化。步骤s32、将训练后的原始数据集作为基础网络框架的输入，通过对基础网络框架进行特征提取与检测，与真实值进行比较以得到误差，采用adam优化器对目标检测模型进行训练优化，并不断更新基础网络框架中的参数。为了验证本发明的检测效果，即合理性与有效性，本发明与传统的检测方法以及不同的网络框架进行对比，选取pascalvoc2007和pascalvoc2012标准数据集进行仿真实验，评价指标是iou阈值为0.5时的平均精度(map)。centernet目标检测方法是通过检测目标的中心点，回归目标的长宽得到目标的检测框，此类方法不需要人为设定锚框的大小，也不需要像cornernet之类的目标检测方法对关键点进行分组。本实施例选取hourglass-54为基础网络框架，hourglass-54网络框架采用的是对称的上采样层与下采样层结合的网络，其中，上采样层与下采样层通过特征融合之后，应用空间自注意力机制，以在卷积网络的前向过程中，获得全局信息的指导。本实施例是加载extremenet中的hourglass-104网络前一半沙漏模块参数进行预训练，设置学习率为1.25e-05，分别在30epoch，50epoch学习率下降0.1。结果如下表1所示，从该表中可以看出：本发明提出的空间自注意力机制及目标检测方法精度高且计算速度快，能够有效的提高网络检测的精度。表1不同空间自注意力机制在pascalvoc2007测试集上的对比分辨率map@0.5fpsfasterrcnn600*100076.45r-fcn600*100080.59yolov2544*54478.640ssd513*51378.919dssd513*51381.55.5centernet-res18384*38472.6142centernet-res18512*51275.7100centernet-res101384*38477.645centernet-res101512*51278.730本发明384*38481.9535综上所述，本发明基于空间自注意力机制，能够更好地提高网络检测的精度，本发明简单高效，且计算量较低，可应用到任意卷积网络的前向过程中，为特征图提供全局信息指导，提高卷积网络的表达能力。以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张伶俐;陈可佳;周晓萌
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：用于塑料挤出机的高填充机筒的制作方法
上一篇：一种钢轨锯磨铣集成装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。