一种用于目标检测的自适应多形状卷积方法

文档序号:32047980发布日期:2022-11-03 07:55阅读:149来源:国知局
一种用于目标检测的自适应多形状卷积方法

1.本发明属于计算机视觉领域,具体涉及一种用于目标检测的自适应多形状卷积方法。


背景技术:

2.卷积神经网络是计算机视觉领域重要的方法,也是人工智能热门的研究领域,它在处理各种特征提取任务中发挥非常重要的作用。卷积神经网络极大地加快了计算机视觉任务的发展,包括图像分类、目标检测和目标分割。卷积层的深层叠加能够模拟复杂的函数,卷积操作可以提取图像的各类语义特征,梯度反向传播使网络能学习更新大量参数。
3.卷积神经网络中不同的卷积核和卷积方式让其具备了强大的特征特取能力。标准的卷积有不同的卷积核大小,如3x3、1x1卷积核。分组卷积将将输入分为g组,则相应的参数量可以减少1/g,可以大幅减少网络的参数。扩张卷积扩大了核中每两个相邻权重之间的距离,让权重分布离散,扩大了原本卷积核的感受野。反卷积是一种上采样操作,用于扩大特征图。
4.但是,目前上述的卷积方式只能以矩形区域去覆盖目标主体,然而大多数目标都具有不规则的几何形状。这样在卷积提取特征过程中卷积核不只提取了物体的特征,也提取了无效的背景,显然这是非常低效的。


技术实现要素:

5.本发明的目的在于要解决目前卷积核无法进行多形状的变化,导致卷积提取特征低效的缺点。本发明提供一种用于目标检测的自适应多形状卷积方法,该方法让卷积核具有形状变化的能力,从而更高效的提取目标主体特征,消除背景等无关信息对特征提取的不利影响。
6.本发明为解决上述问题,通过一种用于目标检测的自适应多形状卷积方法的技术方案予以实现,包括以下步骤:
7.步骤一、通过标准卷积操作和argmax操作学习得到核掩模,则核掩模计算公式如下:
8.m(x)=argmax(conv(x))
9.其中,m(x)表示核掩模,x是输入的特征图,conv是标准卷积操作,由两个2d卷积和一个relu函数构成;第一个2d卷积用于降维,卷积核大小为3x3,输入通道数为c,输出通道数为m,stride为1,padding为1,bias为true;随后是relu函数,用于增加该模块的非线性表达能力;第二个2d卷积给通道升维,学习到最终的核掩模,卷积核大小为1x1,输入通道数为m,输出通道数为k,stride为2,padding为0,bias为true;其中,m为自适应多形状卷积核的高宽和,k为高宽积;最后,学习到的核掩模的shape为k*h/2*w/2,其中h、w为输入特征图宽高;
10.argmax操作由sigmoid函数和阈值化处理组成,得到的核掩模每点的取值为0或1,
用公式表示为:
[0011][0012]
其中,t为超参数,默认为0.25,s为conv(x)的结果,为sigmoid函数;通过sigmoid函数和阈值化处理的技巧实现argmax操作,目的是防止直接进行argmax操作导致梯度的丢失,无法进行核掩模参数的反向传播更新;
[0013]
步骤二、利用学习到的核掩模进行自适应多形状卷积,用公式表示如下:
[0014][0015]
其中,
·
表示点乘操作;w是标准卷积核,m是核掩模,x为输入特征图,y为输出特征图;k为卷积采样点数目,在3x3自适应卷积中k=9;po是特征图上的像素点坐标,pk是卷积核上的坐标点;
[0016]
若输入特征图大小为w*h,自适应多形状卷积核和标准卷积核的stride为2,自适应多形状卷积在输入特征图中的卷积采样点数与核掩模高宽相乘的数目h/2*w/2相同,自适应多形状卷积在特征图中不同位置进行卷积前,取核掩模相应坐标点在k个通道上的值点乘标准卷积核的k个权重得到新的具有形状变化的卷积核,然后再将其与采样点周围k个像素值相乘后累加得到po点的自适应多形状卷积结果;可见,在stride为2的自适应多形状卷积中,一个w*h大小的特征图对应着w/2*h/2个形状不同的卷积核;而在标准卷积中,一个特征图只使用1种形状卷积核;
[0017]
步骤三、对核掩模进行反向传播更新,利用核掩模进行自适应多形状卷积前向传播后,需要根据梯度反向传播更新参数,学习到更合适卷积采样点的核掩模,自适应多形状卷积结果关于核掩模的梯度公式如下:
[0018][0019]
其中,w是标准卷积核,m是核掩模,x为输入特征图,y为输出特征图,k为卷积采样点数目,po是特征图上的像素点坐标,pk是卷积核上的坐标点;
[0020]
核掩模由标准卷积和argmax操作学习得到,则其关于输入特征图x的梯度公式如下:
[0021][0022]
其中,x为输入特征图,m(x)为核掩模,conv(x)为标准卷积操作结果;
[0023]
根据上述梯度公式对自适应多形状卷积进行反向传播更新,最终可学习到最合适卷积采样点的核掩模;
[0024]
步骤四、将训练数据集输入基于步骤一、二、三得到的自适应多形状卷积的目标检测网络模型进行训练;所述的目标检测网络模型包括faster rcnn网络模型;
[0025]
步骤五、将测试数据集数据输入到训练好的目标检测网络模型,得到目标检测的结果。
[0026]
本发明的有益效果为:本发明所设计的方法,使用可学习的核掩实现了自适应多形状的卷积核,它解决了标准卷积核形状无法适应目标变化的缺点,实现了卷积核的可变感受野,使得对目标区域的卷积贴合目标本身,让卷积网络有更加强大的语义提取和特征表达能力。采用卷积网络学习到核掩模,也使自适应多形状的卷积相对于传统标准卷积只增加了几乎可以忽略的模型运算量。与标准卷积核相比,它同样具有权重共享、稀疏连接、平移等变的优异性质。
附图说明
[0027]
图1是本发明的自适应多形状卷积整体流程图;
[0028]
图2是本发明的自适应多形状卷积运算过程图;
[0029]
图3是本发明的自适应多形状在resnet 50残差模块中的结构图;
[0030]
图4是本发明的自适应多形状卷积与标准卷积的对比图。
具体实施方式
[0031]
下面结合附图和具体实施方式对本发明作详细说明。具体步骤如下:
[0032]
步骤一:准备目标检测数据集,训练集采用pascalvoc 2007trainval和2012trainval的并集,分别包含5011张图片和11540张图片,共标注出12608个和27450个物体。验证集采用pascalvoc 2007test,包含4952张图片和12032个物体。数据集共有20个类别,输入图片大小为512x512。
[0033]
步骤二:搭建基本目标检测模型,检测算法模型采用faster r-cnn,neck采用fpn,backbone使用resnet-50模型。faster r-cnn是当下最优秀的二阶段目标检测算法之一,使用rpn网络生成候选框,可以真正实现端到端的目标检测框架。
[0034]
步骤三:将faster r-cnn算法模型的主干网络resnet50残差块中的所有的3x3标准卷积同等替换为3x3自适应多形状卷积。
[0035]
resnet50残差块被替换前与被替换后的对比图如图3所示。图3左图为resnet50残差模块结构图,右图为自适应多形状卷积应用在resnet残差模块中的结构图。自适应多形状卷积的核掩模通过1x1卷积后的结果中学习得到,原本的resnet50残差块中的标准3x3卷积被替换为自适应多形状卷积。
[0036]
自适应多形状卷积的整体算法流程如图1所示,特征图上每一卷积位置的可学习的核掩模通过标准卷积操作和argmax操作得到。在特征图每一卷积采样点进行卷积时,取相应位置核掩模值与特征图原本的卷积核权重点乘就得到了自适应多形状卷积核,再与特征图卷积就得到了自适应多形状卷积核的卷积结果。图中,图中自适应多形状卷积核为3x3,stride为2,h、w为特征图宽高,c为输入通道值,m、k为两次卷积后核掩模的通道值,m=6,k=9。从图中可以看出,在对羊只的右身躯部位进行卷积时,自适应多形状卷积精准的对羊只右身躯部位进行了卷积,没有将草运算进来,卷积的特征提取更加高效。
[0037]
具体的使用核掩模进行自适应多形状卷积运算过程如图2所示,图中输入图像白色块为背景,深色块为目标物体。卷积的stride在x方向为3,y方向为1,自适应多形状卷积在特征图的不同位置会使用不同的核掩模,与标准卷积核点乘得到自适应多形状卷积核,可以精确的提取到目标物体的特征。
[0038]
步骤四:将训练集数据送入网络,进行模型网络的训练。模型的优化器采用sgd,学习率设置为0.02,momentum设置为0.9,weight_decay设置为0.0001,单个gpubatchize设置为4,共训练12个epoch。在第一个epoch的前500iteration采用warm up训练策略,warm_up ration设置为0.001。训练环境为python3.7.3,pytorch 1.7.1,gpu采用4个geforce rtx 2080ti,cuda版本为10.1。
[0039]
步骤五:训练完成后,使用测试集对模型进行测试,评价指标采用map和在各类别上的精度。
[0040]
表1,本发明与faster rcnn在voc2007测试集上检测精度对比
[0041][0042]
表1给出了加入自适应多形状卷积的faster r-cnn与faster r-cnn方法在pascalvoc2007测试集上检测精度比较结果。第一行pascalvoc2007测试集图片所包含的所有类别。是第二行是faster r-cnn方法的检测精度,第三行是本发明的检测精度,比较了20个类别的精度和平均精度map,加粗字体标识了所比较项目最高精度。从表1可以看出,本发明的平均检测精度map高faster r-cnn方法1.7%,在“飞机”类别提升3.1%的检测精度,在“瓶子”类别上提升4.6%的检测精度,在“椅子”类别提升5.5%的检测精度,在“绿植”类别提升4.3%的检测精度,可见自适应多形状卷积对目标检测精度的提升效果十分显著。
[0043]
图4解释了为何自适应多形状卷积要优于标准卷积。图4左图为使用4个标准3x3卷积核对图中狗的头部进行卷积特征提取时所卷积运算的区域;右图为使用4个自适应多形状3x3卷积核图中狗的头部进行卷积特征提取时所卷积运算的区域。可以看出传统标准3x3卷积核只能以矩形的区域去覆盖要卷积的目标,而目标往往是具有不规则的几何形状,这使得传统标准卷积的结果受到背景等无效信息的影响。而自适应多形状卷积可以根据卷积核在不同的位置去感知到目标的形状,以适应目标的形状去进行卷积特征提取,充分提取目标的信息。
[0044]
本发明未尽事宜为公知技术。
[0045]
上述具体实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1