一种密集连接卷积神经网络的全卷积目标检测方法与流程

文档序号:16631537发布日期:2019-01-16 06:37阅读:399来源:国知局
一种密集连接卷积神经网络的全卷积目标检测方法与流程

本发明涉及人工智能领域,更具体的,涉及一种密集连接卷积神经网络的全卷积目标检测方法。



背景技术:

卷积神经网络对特征的检测具有不变性。例如对一物体进行平移、旋转后卷积神经网络仍能识别它们为同一物体,但是对于一些在图像中所占面积较少的目标,其信息在卷积神经网络提取特征的过程中会丢失,导致无法准确地检测出目标。随着近期研究的推进,人们发现在使用“多尺度”的特征表示时能有效地提高对不同尺度的目标检测的准确率。曾有人尝试使用图像金字塔进行多尺度目标的检测,具体做法是先对一副图像进行多个尺度的缩放,然后将不同尺度的图像输入到卷积神经网络中去,但是这种方法需要很大的计算量和内存,因此不具有可行性。



技术实现要素:

为了克服现有方法不能对多尺度目标进行更准确的检测,本发明提供了一种密集连接卷积神经网络的全卷积目标检测方法。

为实现以上发明目的,采用的技术方案是:

一种密集连接卷积神经网络的全卷积目标检测方法,具体包括以下步骤:

步骤s1:构建特征提取网络densenet,特征提取网络由多个密集连接块及转换层组成,使用密集连接块能识别到图像中更具有判别性的视觉特征,输入图像经过特征提取网络后,保留各个密集连接块输出的具有不同语义和不同分辨率的特征;

步骤s2:构建特征金字塔fpn,把步骤s1中保留各层特征输入到fpn中,按照特征尺度堆叠,形成一个自下而上、尺度递增的低语义特征金字塔,由最下层开始,每层特征都经过“平行路径”进行卷积操作以获得更高的语义性;同时卷积后的特征会被上抽样到上一层特征的相同尺度,并与上一层特征进行合并,该特征将会继续往上传递,直到金字塔塔顶,循环此步骤直到构建出完整的特征金字塔;

步骤s3:构建全卷积预测器fcp网络,全卷积预测器fcp是一个能同时输出目标边界框信息及分类概率的预测器,分别对特征金字塔中的所有尺度的特征映射进行预测,预测器使输入的特征映射经过一个卷积神经网络后输出一个大小为s*s*(b*5+c)的向量作为预测结果,其作用相当于把原图像分割为s*s个网格,对每个网格预测b个边界框,每个边界框包含5个信息,包括边界框的中心坐标偏移值(tx,ty),边界框的宽高偏移值(tw,th),以及预测边界框的置信度t0,还有对每个网格预测c个目标类别的概率;

步骤s4:训练整体网络,采集目标图像参数并输入到网络中,各层网络的参数按照xavier的方式初始化,并采用由边界框坐标回归和物体分类所组成的损失函数的随机梯度下降算法计算损失梯度并使用反向传导算法对整个网络里所有层中的参数进行微调。

优选的,所述步骤s1中具体步骤如下:

步骤s101将现有的已训练好的密集连接卷积神经网络模型进行调整得到初步的特征提取网络模型;

步骤s102密集连接卷积神经网络在实施过程中分为多个的密集连接块,不同的密集连接块之间通过转换层进行连接;

步骤s103在一个密集连接块内具有多个卷积神经网络层,每一个卷积神经网络层的输入是同一个密集连接块内在它之前的所有卷积神经网络层的输出的叠加;设密集连接块内第l层的卷积网络输入为xl,输出为yl,则xl=(x1+y1+…+yl-1),yl=h(xl),其中h(.)定义为激活函数;

步骤s104h(.)是每层卷积神经网络后接的激活函数,在这里它是一个复合操作,表示输入xl先经过一个bn操作,再经过一个relu函数,最后经过一个卷积层的处理作为整个激活函数的输出;

步骤s105由于不同的密集连接块的空间大小不同,所以相互之间通过一个转换层进行连接,转换层以上一个密集连接块的输出作为输入,先经过一个bn操作,再接一个卷积神经网络层,最后经过一个池化层将特征映射的空间大小调整到符合下一个密集连接块的输入;在这里设经过池化层特征映射的空间大小变为原来的1/n倍;

步骤s106密集连接块和转换层进行多次交替连接,使得特征映射的空间大小每经过一个密集连接块后都减小,而特征映射的通道数则增加,在这里设每个密集连接块的最后一层卷积神经网络输出的特征映射为cm;

步骤s107删除现有的密集连接卷积神经网络的全局平均池化层和全连接的分类层,并将最后一个密集连接块的最后一层卷积神经网络输出的特征映射作为特征提取网络的输出。

优选的,所述步骤s2中具体步骤如下:

步骤s201fpn由“自下而上的特征金字塔”和一个“平行路径”组成,fpn先从特征提取网络中获取其各层具有不同语义不同尺度的视觉特征,然后由“自下而上”的结构堆叠生成较低语义特征的特征金字塔;

步骤s202取步骤s107中输出的特征映射作为fpn的首个输入,输入的特征映射用一个卷积层将通道数调整为一常数d,并将经过通道数调整后的特征映射作为特征金字塔的最低层特征映射,在这里设特征金字塔每层的特征映射为dm;

步骤s203fpn中的“自下而上路径”,其主要任务是对特征金字塔的低一层特征映射进行上抽样,其上抽样的因子为特征提取网络中池化层的缩小因子的倒数n,得到的特征映射与步骤s1中相对应的密集连接块输出的特征映射具有相同的空间大小;

步骤s204fpn中的“平行路径”,它以步骤s1中各个密集连接块输出的特征映射作为输入,然后使用一个卷积层把输出的特征映射的通道数调整为d;

步骤s205经过步骤s203和步骤s204,得到两个在空间大小和通道数上相同的特征映射,把这两个特征映射进行对应元素相加,然后经过一个卷积层达到减少上抽样过程中的混叠效应,由此得到了特征金字塔低一层的特征映射,把步骤s203和步骤s204中对输入的操作分别记作f(.)和g(.),则dm=g(cm),dk=∫(f(dk+1)+g(ck)),其中(0<k<m),∫表示s2.5中的卷积操作;

步骤s206重复步骤s203、步骤s204和步骤s205,使得从特征金字塔的最低层逐层往上地构建出整个特征金字塔。

优选的,所述步骤s3中具体步骤如下:

步骤s301在步骤s02中得到了一个特征金字塔,其特点是特征金字塔的特征尺度自下而上逐层增加,但是每一层的通道数保持不变,相邻两层的特征映射的空间大小的比例因子为n,构建一个同时输出目标边界框信息及分类概率的预测器,预测器将作用于特征金字塔的每一层特征,使得网络能利用不同尺度的特征映射;

步骤s302输出目标边界框信息及分类概率的预测器的构建,以特征金字塔的某一层特征映射为输入,经过两个全连接层的处理后,输出一个s*s*(b*5+c)的向量作为预测结果,其作用相当于把原图像分割为s*s个网格,对每个网格预测b个边界框,每个边界框包含5个信息,包括边界框的中心坐标偏移值(tx,ty),边界框的宽高偏移值(tw,th),以及预测边界框的置信度t0,还有对每个网格预测c个目标类别的概率;

步骤s303坐标值的计算:

x=cx+σ(tx)

y=cy+σ(ty)

σ(t0)=pr(object)*iou(b,object)

其中x,y为边界框中心在图像中的实际坐标,w,h分别为边界框的宽和高;(cx,cy)为格子的左上角坐标为,pw,ph为输入图像的宽和高分别。

优选的,所述步骤s4中具体步骤如下:

步骤s401图像采集:采集日常生活中包含各类目标的图像作为训练图像,每张图像带上经过处理都得到的关于该图像中目标的边界框及分类的信息;

步骤s402为各个预测量建立代价函数用于训练,对于边界框的中心坐标,,采用公式

作为代价函数,对于边界框的宽高,采用公式

作为代价函数,对于预测类别,采用公式

其中λcoord和λnoobj是为了让代价函数在边界框和概率的代价间作出平衡,而表示目标出现在第i个格子中,表示第i个格子中的第j个边界框对应预测的目标,最终得到如下的代价函数:

步骤s403把步骤s401中收集到的已做好标记的数据输入到网络中,各层的参数按照xavier的方式初始化,并采用由边界框坐标回归和物体分类所组成的损失函数的随机梯度下降算法计算损失梯度并使用反向传导算法对整个网络里所有层中的参数进行微调,达到对网络进行训练的目的。

优选的,所述步骤s1中,使用密集连接块与转换层交替连接的网络结构进行特征提取,能提取到图像中更好有判别性的特征映射。

优选的,所述的一种密集连接卷积下而上的特征金字塔”和“平行路径”组成的fpn网络,能够有效利用高语义低尺度和高尺度低语义的特征映射,构建出具备高语义特征、大尺度和高定位信息的特征金字塔。

与现有技术相比,本发明的有益效果是:

本发明提供了一种密集连接卷积神经网络的全卷积目标检测方法,其特点在于可以有效地利用多尺度的特征映射来进行目标检测,使得卷积神经网络对同一图像中的不同尺度目标的检测都具有较高的准确率。

附图说明

图1为本发明的流程图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示,本发明提供一种密集连接卷积神经网络的全卷积目标检测方法,具体包括以下步骤:

步骤s1:构建特征提取网络densenet,特征提取网络由多个密集连接块及转换层组成,使用密集连接块能识别到图像中更具有判别性的视觉特征,输入图像经过特征提取网络后,保留各个密集连接块输出的具有不同语义和不同分辨率的特征;

步骤s2:构建特征金字塔fpn,把步骤s1中保留各层特征输入到fpn中,按照特征尺度堆叠,形成一个自下而上、尺度递增的低语义特征金字塔,由最下层开始,每层特征都经过“平行路径”进行卷积操作以获得更高的语义性;同时卷积后的特征会被上抽样到上一层特征的相同尺度,并与上一层特征进行合并,该特征将会继续往上传递,直到金字塔塔顶,循环此步骤直到构建出完整的特征金字塔;

步骤s3:构建全卷积预测器fcp网络,全卷积预测器fcp是一个能同时输出目标边界框信息及分类概率的预测器,分别对特征金字塔中的所有尺度的特征映射进行预测,预测器使输入的特征映射经过一个卷积神经网络后输出一个大小为s*s*(b*5+c)的向量作为预测结果,其作用相当于把原图像分割为s*s个网格,对每个网格预测b个边界框,每个边界框包含5个信息,包括边界框的中心坐标偏移值(tx,ty),边界框的宽高偏移值(tw,th),以及预测边界框的置信度t0,还有对每个网格预测c个目标类别的概率;

步骤s4:训练整体网络,采集目标图像参数并输入到网络中,各层网络的参数按照xavier的方式初始化,并采用由边界框坐标回归和物体分类所组成的损失函数的随机梯度下降算法计算损失梯度并使用反向传导算法对整个网络里所有层中的参数进行微调。

优选的,所述步骤s1中具体步骤如下:

步骤s101将现有的已训练好的密集连接卷积神经网络模型进行调整得到初步的特征提取网络模型;

步骤s102密集连接卷积神经网络在实施过程中分为多个的密集连接块,不同的密集连接块之间通过转换层进行连接;

步骤s103在一个密集连接块内具有多个卷积神经网络层,每一个卷积神经网络层的输入是同一个密集连接块内在它之前的所有卷积神经网络层的输出的叠加;设密集连接块内第l层的卷积网络输入为xl,输出为yl,则xl=(x1+y1+…+yl-1),yl=h(xl),其中h(.)定义为激活函数;

步骤s104h(.)是每层卷积神经网络后接的激活函数,在这里它是一个复合操作,表示输入xl先经过一个bn操作,再经过一个relu函数,最后经过一个卷积层的处理作为整个激活函数的输出;

步骤s105由于不同的密集连接块的空间大小不同,所以相互之间通过一个转换层进行连接,转换层以上一个密集连接块的输出作为输入,先经过一个bn操作,再接一个卷积神经网络层,最后经过一个池化层将特征映射的空间大小调整到符合下一个密集连接块的输入;在这里设经过池化层特征映射的空间大小变为原来的1/n倍;

步骤s106密集连接块和转换层进行多次交替连接,使得特征映射的空间大小每经过一个密集连接块后都减小,而特征映射的通道数则增加,在这里设每个密集连接块的最后一层卷积神经网络输出的特征映射为cm;

步骤s107删除现有的密集连接卷积神经网络的全局平均池化层和全连接的分类层,并将最后一个密集连接块的最后一层卷积神经网络输出的特征映射作为特征提取网络的输出。

优选的,所述步骤s2中具体步骤如下:

步骤s201fpn由“自下而上的特征金字塔”和一个“平行路径”组成,fpn先从特征提取网络中获取其各层具有不同语义不同尺度的视觉特征,然后由“自下而上”的结构堆叠生成较低语义特征的特征金字塔;

步骤s202取步骤s107中输出的特征映射作为fpn的首个输入,输入的特征映射用一个卷积层将通道数调整为一常数d,并将经过通道数调整后的特征映射作为特征金字塔的最低层特征映射,在这里设特征金字塔每层的特征映射为dm;

步骤s203fpn中的“自下而上路径”,其主要任务是对特征金字塔的低一层特征映射进行上抽样,其上抽样的因子为特征提取网络中池化层的缩小因子的倒数n,得到的特征映射与步骤s1中相对应的密集连接块输出的特征映射具有相同的空间大小;

步骤s204fpn中的“平行路径”,它以步骤s1中各个密集连接块输出的特征映射作为输入,然后使用一个卷积层把输出的特征映射的通道数调整为d;

步骤s205经过步骤s203和步骤s204,得到两个在空间大小和通道数上相同的特征映射,把这两个特征映射进行对应元素相加,然后经过一个卷积层达到减少上抽样过程中的混叠效应,由此得到了特征金字塔低一层的特征映射,把步骤s203和步骤s204中对输入的操作分别记作f(.)和g(.),则dm=g(cm),dk=∫(f(dk+1)+g(ck)),其中(0<k<m),∫表示s2.5中的卷积操作;

步骤s206重复步骤s203、步骤s204和步骤s205,使得从特征金字塔的最低层逐层往上地构建出整个特征金字塔。

优选的,所述步骤s3中具体步骤如下:

步骤s301在步骤s02中得到了一个特征金字塔,其特点是特征金字塔的特征尺度自下而上逐层增加,但是每一层的通道数保持不变,相邻两层的特征映射的空间大小的比例因子为n,构建一个同时输出目标边界框信息及分类概率的预测器,预测器将作用于特征金字塔的每一层特征,使得网络能利用不同尺度的特征映射;

步骤s302输出目标边界框信息及分类概率的预测器的构建,以特征金字塔的某一层特征映射为输入,经过两个全连接层的处理后,输出一个s*s*(b*5+c)的向量作为预测结果,其作用相当于把原图像分割为s*s个网格,对每个网格预测b个边界框,每个边界框包含5个信息,包括边界框的中心坐标偏移值(tx,ty),边界框的宽高偏移值(tw,th),以及预测边界框的置信度t0,还有对每个网格预测c个目标类别的概率;

步骤s303坐标值的计算:

x=cx+σ(tx)

y=cy+σ(ty)

σ(t0)=pr(object)*iou(b,object)

其中x,y为边界框中心在图像中的实际坐标,w,h分别为边界框的宽和高;(cx,cy)为格子的左上角坐标为,pw,ph为输入图像的宽和高分别。

优选的,所述步骤s4中具体步骤如下:

步骤s401图像采集:采集日常生活中包含各类目标的图像作为训练图像,每张图像带上经过处理都得到的关于该图像中目标的边界框及分类的信息;

步骤s402为各个预测量建立代价函数用于训练,对于边界框的中心坐标,,采用公式

作为代价函数,对于边界框的宽高,采用公式

作为代价函数,对于预测类别,采用公式

其中λcoord和λnoobj是为了让代价函数在边界框和概率的代价间作出平衡,而表示目标出现在第i个格子中,表示第i个格子中的第j个边界框对应预测的目标,最终得到如下的代价函数:

步骤s403把步骤s401中收集到的已做好标记的数据输入到网络中,各层的参数按照xavier的方式初始化,并采用由边界框坐标回归和物体分类所组成的损失函数的随机梯度下降算法计算损失梯度并使用反向传导算法对整个网络里所有层中的参数进行微调,达到对网络进行训练的目的。

优选的,所述步骤s1中,使用密集连接块与转换层交替连接的网络结构进行特征提取,能提取到图像中更好有判别性的特征映射。

优选的,所述的一种密集连接卷积下而上的特征金字塔”和“平行路径”组成的fpn网络,能够有效利用高语义低尺度和高尺度低语义的特征映射,构建出具备高语义特征、大尺度和高定位信息的特征金字塔。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1