一种基于方向梯度直方图与改进胶囊网络的目标检测方法

文档序号:30582817发布日期:2022-06-29 13:22阅读:141来源:国知局
一种基于方向梯度直方图与改进胶囊网络的目标检测方法

1.本发明涉及目标检测技术领域,具体涉及一种基于方向梯度直方图与改进胶囊网络的目标检测方法。


背景技术:

2.传统的卷积神经网络通过卷积操作提取目标特征,反向传播实现网络学习,以达到目标检测的目的,在目标检测任务中获得了令人瞩目的成果。然而,传统卷积神经网络存在着图像中元素相对位置、方向等信息的关注不足和池化层信息丢失的问题,障碍物遮挡、恶劣天气等因素都会对检测识别目标造成严重影响。胶囊神经网络提出了胶囊这一概念替代部分卷积神经网络中的神经元,将传统神经网络的标量扩展为向量,有效克服了传统神经网络的不足。因此,将胶囊神经网络应用于目标检测有着更高的整体识别率,胶囊神经网络有着更高的准确率和鲁棒性来满足不同影响因素下的目标检测任务。
3.然而,传统胶囊网络在给定的位置上只有一个给定类型的胶囊,因此如果一个胶囊网络彼此之间太接近,就不能检测到同一类型的两个对象。陈立潮在《梯度直方图卷积特征的胶囊网络在交通监控下的车型分类》一文中提出采用方向梯度直方图对原始图像进行预处理,在一定程度上解决了无法检测到同一类型的两个对象的问题,但是由于没有改进胶囊网络本身结构,存在原始图像信息提取不够丰富、胶囊结构存在冗余、算法复杂度较高等问题。


技术实现要素:

4.本发明的目的在于解决现有技术原始图像信息提取不够丰富、胶囊结构存在冗余、算法复杂度较高的技术问题,而提供一种基于方向梯度直方图与改进胶囊网络的目标检测方法。
5.一种基于方向梯度直方图与改进胶囊网络的目标检测方法,包括以下步骤:
6.1)获得目标原始图像,使用标注工具标注目标位置,然后随机选取不同的图像作为训练集;
7.2)将原始图像的方向梯度直方图(hog)与卷积特征图并联融合以结合图像的边缘轮廓特征与卷积核的视野特征,再以此作为改进胶囊网络的输入;
8.3)改进胶囊网络利用并行卷积网络提取综合特征,通过去冗胶囊网络形成特征向量,并利用反卷积图像重构网络实现图像重构;
9.4)利用3*3*256的卷积层和两个并行的1*1卷积核提取检测框中心点特征图和检测框尺度特征图,形成对应目标框并输出检测结果。
10.优选地,所述步骤2)方向梯度直方图(hog)与卷积特征图并联融合算法具体步骤为:
11.2-1)归一化;首先对目标图像划分为4个单元格,对其中的每个单元格划分为9块,并进行gamma归一化处理,同时对gamma校正值进行参数寻优;归一化公式如下:
[0012][0013][0014]
该式中τ表示块的特征向量,ε取值为较小的常数,表示目标图像第j个单元格中的第i块,f表示完成所有块特征向量归一化后的目标图像。
[0015]
2-2)从归一化后的图像中选择检测窗口。选择与图像纵横比相等并且不超过图像大小二分之一的检测窗口。
[0016]
2-3)从窗口中选择块。依据检测窗口选取长宽相等的矩形块。
[0017]
2-4)在块内划分cell单元。在矩形块内使用8*8像素大小的正方形cell作为块内特征提取最小单位对块进行划分。
[0018]
2-5)在cell内进行方向投影。在cell内划分9个方向,每20
°
为一角度范围提取方向信息。方向信息通过在x水平方向和y垂直方向上将灰度图像i与梯度模板u做卷积操作得到,数学公式如下:
[0019]gx
(x,y)=h(x+1,y)-h(x-1,y)
[0020]gy
(x,y)=h(x,y+1)-h(x,y-1)
[0021][0022][0023]
该式中h(x,y)表示对应坐标下的灰度值,g
x
表示水平方向梯度值,gy表示垂直方向梯度值,g表示梯度幅值,α表示梯度方向。
[0024]
2-6)在cell内进行归一化。在cell内统计各个方向角度范围的实际方向角度数量,得到方向直方图,选取角度方向最为集中的方向角度作为cell的方向。
[0025]
2-7)在块内构建hog特征。在块内统计各个cell的方向角度范围的实际方向角度数量,得到方向直方图,选取角度方向最为集中的方向角度作为块的方向。
[0026]
2-8)如果未到达最后一个块,则返回步骤2-3)。
[0027]
2-9)如果未到达最后一个窗口,则返回步骤2-2),否则得到方向梯度直方图。
[0028]
2-10)单行卷积。输入原始图像,使用一层单行卷积层对原始图像进行特征提取,得到卷积特征图。
[0029]
2-11)特征拼接,并联融合。将卷积特征图与方向梯度直方图进行维度连接,将两种特征图在第三个维度连接,得到28*28*1的图像。
[0030]
传统的卷积神经网络中采用的池化层结构并没有考虑空间上的相对关系,从而造成这一层的部分价值信息损失。为了解决这一问题,在胶囊网络中使用数字胶囊层来执行池化层的功能,提出了向量神经元,向量神经元将方向、位置等信息通过向量形式存储起来,并在网络中将这些信息不断传递,使得胶囊网络能够对于图像中元素的位置、方向信息的变化具有敏感性。
[0031]
本发明提出的基于方向梯度直方图的改进胶囊网络并行通过卷积层与hog特征提取,其图像预处理部分采用hoc-c特征,在保留了原始胶囊网络的优点的同时,方向梯度直
方图的引入加强了对于目标检测图像边缘特征信息的提取,通过梯度方向与幅值增加了过于接近的两个胶囊网络之间的辨识度,在一定程度上解决了无法检测到同一类型的两个对象的问题。
[0032]
优选地,所述步骤3)改进胶囊网络算法具体步骤为:
[0033]
3-1)利用并行卷积网络提取综合特征。
[0034]
3-2)利用去冗胶囊网络生成特征向量。
[0035]
3-3)利用反卷积图像重构网络还原原始图像,评估网络损失。
[0036]
优选地,所述步骤3-1)并行卷积网络算法具体步骤为:
[0037]
3-1-1)首先使用并行卷积神经网络作为特征提取网络。将并联融合后的图像作为输入,图像大小为28*28*1。并行卷积神经网络在卷积层采用4个卷积核,卷积核大小分别为3、5、7、9,卷积核个数选定为32个,步长为2。
[0038]
3-1-2)边界填充。调节padding大小对原矩阵进行边界填充。
[0039]
3-1-3)特征提取。特征提取层的非线性函数采用prelu函数,其数学公式如下:
[0040]
prelu(x)=max(0,x)+α*min(0,x)
[0041]
该式中,α为学习率。
[0042]
3-1-4)特征张量连接。第三个维度实现特征张量的连接,得到14*14*128的特征张量。
[0043]
优选地,所述步骤3-2)去冗胶囊网络算法具体步骤为:
[0044]
3-2-1)输入去冗余。采用并行卷积网络的输出作为去冗主胶囊网络的输入,使用1*1的卷积核去除冗余胶囊使得经过特征提取后16*16的特征图转化为14*14的特征图像,精简胶囊数量至196个。
[0045]
3-2-2)输入胶囊标量ui。
[0046]
3-2-3)输入胶囊向量与变换矩阵相乘得到的向量数学公式如下
[0047][0048]
该式中w
ij
为变换矩阵。
[0049]
3-2-4)将向量与耦合系数c
ij
进行加权求和得到加权和sj,数学公式如下:
[0050][0051]
3-2-5)使用非线性函数对sj进行压缩并前向传播,数学公式如下:
[0052][0053]
该式中sj表示加权和,vj表示非线性压缩函数。
[0054]
3-2-6)使用softmax方程更新耦合系数c
ij
,数学公式如下:
[0055][0056]
该式中表示动态路由更新后的耦合系数,的初始值设为0。vj表示非线性压缩函数,向量即为胶囊向量与变换矩阵相乘所得。
[0057]
3-2-7)若对vj的更新次数=胶囊数量k,则将最后得到的即为最后输出的vj,即表征第j个类别的特征向量。否则,返回步骤3-2-2)。
[0058]
优选地,所述步骤3-3)反卷积图像重构网络算法具体步骤为:
[0059]
3-3-1)图像输入。输入图像的大小为14*14,特征输入为5*5,卷积核大小分别为3、5、7、9,卷积核个数选定为32个,步长为2,通过调节填充使得输出图像为28*28。输入与反卷积之后的输出图像大小公式如下:
[0060][0061]
该式中表示输出图像大小,s表示步长,表示输入图像大小,k表示卷积核大小,p表示padding,即填充大小。
[0062]
3-3-2)封装信息拆分。对于胶囊中的6272个神经元,通过全连接层转化为14*14*32的张量,将该张量与并行卷积网络中的连接在第三个维度相组合使得14*14*32的张量变为14*14*160的张量。
[0063]
3-3-3)去冗余反卷积。对14*14*160的张量使用1*1的卷积核进行去冗,最终得到14*14*32的张量,与并行卷积层中相对应的卷积核的进行反卷积操作,生成最终的重构图像。
[0064]
优选地,所述步骤4)提取检测框中心点特征图和检测框尺度特征图,形成对应目标框并输出检测结果具体步骤为:
[0065]
4-1)图像输入。以重构图像作为大小为3*3、输出通道为256的卷积层的输入。
[0066]
4-2)提取中心特征图。以1*1卷积核提取检测框中心点特征图,记对象中心点的坐标标记为正值,而非对象中心点坐标标记为负值。
[0067]
4-3)提取尺度特征图。以并行的1*1卷积核提取检测框尺度特征图。尺度特征图中的尺度即为检测框的长和宽。
[0068]
4-4)输出图像。融合中心特征图与尺度特征图完成对象目标检测。
[0069]
本发明的有益效果在于:
[0070]
本发明针对现有技术原始图像信息提取不够丰富的问题,对胶囊网络结构本身进行改进,在主胶囊层前增加了并行卷积网络层,并行卷积网络经过卷积特征提取后,将原始图像的卷积特征图与方向梯度直方图两种图像特征信息,直接以维度向量连接的方式而不是网络的方式融合起来,这样使得网络的输入信息更为丰富且更为贴近原始图像信息。
[0071]
本发明针对现有胶囊结构存在冗余,算法复杂度较高的问题,对主胶囊进行了去冗余的操作。去冗主胶囊网络精简了网络结构,相较于原主胶囊网络的参数有所减少,并使得网络训练所需时间得到优化,提高了算法效率。
附图说明
[0072]
图1为本发明中目标检测模型的整体结构示意图;
[0073]
图2为本发明中的方向梯度直方图(hog)与卷积特征图并联模型流程图;
[0074]
图3为本发明中的改进胶囊网络架构图;
[0075]
图4为本发明中的并行卷积网络示意图;
[0076]
图5为本发明中的去冗胶囊网络示意图;
[0077]
图6为本发明中的反卷积图像重构网络示意图;
[0078]
图7为原始图像;
[0079]
图8为hog直方处理图像示意图;
[0080]
图9为行人图像采用本方法检测结果示意图。
具体实施方式
[0081]
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
[0082]
如图1所示,一种基于方向梯度直方图与改进胶囊网络的目标检测方法,主要包括以下步骤:
[0083]
1)获得目标原始图像,如图7所示。
[0084]
2)如图2,将原始图像的方向梯度直方图与卷积特征图并联融合以结合图像的边缘轮廓特征与卷积核的视野特征,再以此作为改进胶囊网络的输入;
[0085]
2-1)归一化。首先对目标图像划分为4个单元格,对其中的每个单元格划分为9块,并进行gamma归一化处理,同时对gamma校正值进行参数寻优;归一化公式如下:
[0086][0087][0088]
该式中τ表示块的特征向量,ε取值为较小的常数,表示目标图像第j个单元格中的第i块,f表示完成所有块特征向量归一化后的目标图像。
[0089]
2-2),从归一化后的图像中选择检测窗口。选择与图像纵横比相等并且不超过图像大小二分之一的检测窗口。
[0090]
2-3),从窗口中选择块。依据检测窗口选取长宽相等的矩形块。
[0091]
2-4),在块内划分cell单元。在矩形块内使用8*8像素大小的正方形cell作为块内特征提取最小单位对块进行划分。
[0092]
2-5),在cell内进行方向投影。在cell内划分9个方向,每20
°
为一角度范围提取方向信息。方向信息通过在x水平方向和y垂直方向上将灰度图像i与梯度模板u做卷积操作得到,数学公式如下:
[0093]gx
(x,y)=h(x+1,y)-h(x-1,y)
[0094]gy
(x,y)=h(x,y+1)-h(x,y-1)
[0095][0096][0097]
该式中h(x,y)表示对应坐标下的灰度值,g
x
表示水平方向梯度值,gy表示垂直方向梯度值,g表示梯度幅值,α表示梯度方向。
[0098]
2-6)在cell内进行归一化。在cell内统计各个方向角度范围的实际方向角度数量,得到方向直方图,如图8所示。选取角度方向最为集中的方向角度作为cell的方向。
[0099]
2-7)在块内构建hog特征。在块内统计各个cell的方向角度范围的实际方向角度数量,得到方向直方图,选取角度方向最为集中的方向角度作为块的方向。
[0100]
2-8)如果未到达最后一个块,则返回步骤3)。
[0101]
2-9)如果未到达最后一个窗口,则返回步骤2),否则得到方向梯度直方图。
[0102]
2-10)单行卷积。输入原始图像,使用一层单行卷积层对原始图像进行特征提取,得到卷积特征图。
[0103]
2-11)特征拼接,并联融合。将卷积特征图与方向梯度直方图进行维度连接,将两种特征图在第三个维度连接,得到28*28*1的图像。
[0104]
3)如图3、4,改进胶囊网络利用并行卷积网络提取综合特征,通过去冗胶囊网络形成特征向量,并利用反卷积图像重构网络实现图像重构;
[0105]
3-1)利用并行卷积网络提取综合特征;
[0106]
3-1-1)首先使用并行卷积神经网络作为特征提取网络。将并联融合后的图像作为输入,图像大小为28*28*1。并行卷积神经网络在卷积层采用4个卷积核,卷积核大小分别为3、5、7、9,卷积核个数选定为32个,步长为2。
[0107]
3-1-2)边界填充。调节padding大小对原矩阵进行边界填充。
[0108]
3-1-3)特征提取。特征提取层的非线性函数采用prelu函数,其数学公式如下:
[0109]
prelu(x)=max(0,x)+α*min(0,x)
[0110]
该式中,α为学习率。
[0111]
3-1-4)特征张量连接。第三个维度实现特征张量的连接,得到14*14*128的特征张量。
[0112]
3-2)如图5,利用去冗胶囊网络生成特征向量;
[0113]
3-2-1)输入去冗余。采用并行卷积网络的输出作为去冗主胶囊网络的输入,使用1*1的卷积核去除冗余胶囊使得经过特征提取后16*16的特征图转化为14*14的特征图像,精简胶囊数量至196个。
[0114]
3-2-2)输入胶囊标量ui。
[0115]
3-2-3)输入胶囊向量与变换矩阵相乘得到的向量数学公式如下:
[0116][0117]
该式中w
ij
为变换矩阵。
[0118]
3-2-4)将向量与耦合系数c
ij
进行加权求和得到加权和sj,数学公式如下:
[0119][0120]
3-2-5)使用非线性函数对sj进行压缩并前向传播,数学公式如下:
[0121][0122]
该式中sj表示加权和,vj表示非线性压缩函数。
[0123]
3-2-6)使用softmax方程更新耦合系数c
ij
,数学公式如下:
[0124]
[0125]
该式中表示动态路由更新后的耦合系数,的初始值设为0。vj表示非线性压缩函数,向量即为胶囊向量与变换矩阵相乘所得。
[0126]
3-2-7)若对vj的更新次数=胶囊数量k,则将最后得到的即为最后输出的vj,即表征第j个类别的特征向量。否则,返回步骤3-2-2)。
[0127]
3-3)如图6,利用反卷积图像重构网络还原原始图像。
[0128]
3-3-1)图像输入。输入图像的大小为14*14,特征输入为5*5,卷积核大小分别为3、5、7、9,卷积核个数选定为32个,步长为2,通过调节填充使得输出图像为28*28。输入与反卷积之后的输出图像大小公式如下:
[0129][0130]
该式中表示输出图像大小,s表示步长,表示输入图像大小,k表示卷积核大小,p表示padding,即填充大小。
[0131]
3-3-2)封装信息拆分。对于胶囊中的6272个神经元,通过全连接层转化为14*14*32的张量,将该张量与并行卷积网络中的连接在第三个维度相组合使得14*14*32的张量变为14*14*160的张量。
[0132]
3-3-3)去冗余反卷积。对14*14*160的张量使用1*1的卷积核进行去冗,最终得到14*14*32的张量,与并行卷积层中相对应的卷积核的进行反卷积操作,生成最终的重构图像。
[0133]
4)利用3*3*256的卷积层和两个并行的1*1卷积核提取检测框中心点特征图和检测框尺度特征图,形成对应目标框并输出检测结果。
[0134]
4-1)图像输入。以重构图像作为大小为3*3、输出通道为256的卷积层的输入。
[0135]
4-2)中心特征图。以1*1卷积核提取检测框中心点特征图,记对象中心点的坐标标记记为正值,而非对象中心点坐标标记记为负值。
[0136]
4-3)尺度特征图。以并行的1*1卷积核提取检测框尺度特征图。尺度特征图中的尺度即为检测框的长和宽。
[0137]
4-4)输出图像。融合中心特征图与尺度特征图完成对象目标检测,如图9所示。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1