一种基于多层信息融合的目标检测算法的制作方法

文档序号:22245244发布日期:2020-09-15 20:02阅读:148来源:国知局
一种基于多层信息融合的目标检测算法的制作方法

本发明创造属于计算机视觉检测领域,尤其是涉及一种基于多层信息融合的目标检测算法。



背景技术:

目标检测与识别作为计算机视觉领域的基本任务之一,在工业界,目标检测受到广泛重视,在各个领域有很多实际应用。例如:目标跟踪,汽车辅助驾驶,生物识别,智能家居,智慧农业,医学图像分析及飞行物的识别。通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。在汽车行业中,车企与一级供应商纷纷在辅助驾驶领域发力。开启了以摄像头为主的辅助驾驶之路。对于城市综合道路的辅助驾驶而言,其路况较为复杂,机动车,非机动车,行人等障碍物较多,儿童,宠物,滑板车等小目标也有可能出现。行车系统需要通过摄像头对车辆,行人的精确检测,作为辅助驾驶技术中非常重要的一个基础环节,以摄像头为基础的检测算法精度效率的提升对车辆安全有着重要的意义。

近些年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。在基于深度学习的目标检测算法中,算法的检测精度与检测速度是一个对立项,若要提高检测精度就需要以降低检测速度为代价。并且检测网络结构较为复杂,参数量过大,训练时间长,训练效率低。整体的算法还有很大的改进空间。在现有的目标检测算法中,faster-rcnn作为较为先进的算法,其作者提出了共享特征的候选区域提取网络,该网络的应用使算法的性能进一步提升。但是其主干网络vggnet是基于imagenet预训练的图像分类网络,存在着位置不敏感特性,并且vggnet的不断下采样,使一些较小目标的信息被滤除,从而导致输入到区域候选网络中的特征信息不完整。

单阶段检测算法只需通过一遍网络得出目标的位置和类别信息。与基于建议区域的目标检测算法相比,检测速度会有很大的提升,更加适合移动设备。但是此类存在定位不准以及召回率不如基于区域建议方法的问题,且对距离很近的物体和很小的物体检测效果不好,泛化能力相对较弱。



技术实现要素:

有鉴于此,本发明创造旨在克服上述现有技术中存在的缺陷,提出一种基于多层信息融合的目标检测算法。

为达到上述目的,本发明创造的技术方案是这样实现的:

一种基于多层信息融合的目标检测算法,包括:

s1、对数据集图像进行预处理;将图像数据调整到网络设定的尺寸;

s2、利用densenet对图像进行不同层次信息的提取,提取四个阶段的特性特征;

s3、对提取的四个阶段特征进行通道数的规范化;

s4、对提取的多层次信息进行上下融合,加强不同层次信息的传递,使特征图具有丰富的深层语义信息及浅层的位置信息;

s5、利用区域建议算法对融合后的多层次信息进行感兴趣区域的提取;

s6、对感兴趣区域进行精确类别的预测、以及位置坐标的回归;

s7、计算分类网络与回归网络的多任务损失函数,并对网络进行训练优化,使分类与回归的损失函数达到收敛并保存网络的权重参数

s8、部署优化后的参数,对目标进行检测。

进一步的,所述步骤s1的具体步骤如下:

s101、对图像进行颜色增强、平移变化、水平以及垂直翻转;

s102、使用线性插值法将所有图像数据放缩到448*448的大小。

进一步的,所述步骤s2中特征提取的具体方法为:利用搭建的98层densenet网络对图像进行卷积池化处理,把每个传输层的结果作为输出,得到分辨率为56*56,28*28,17*17,17*17的四个阶段特征图。

进一步的,所述步骤s3中四个阶段特征进行通道数规范化的具体方法为:使用通道数为256的1*1的卷积分别对四个阶段特征进行卷积操作,将所有阶段特征的维度规范为256。

进一步的,所述步骤s4中多阶段特征融合的具体方法为:

s401、对相邻的、以及尺寸相同的两个阶段特征进行对应元素相加的操作,若两个阶段特征尺寸不同,对较小尺寸特征进行上采样操作,保证相融合的两个特征尺寸相同;

s402、使用3*3的卷积核对融合后的结果进行卷积,消除融合后的混叠效应。

进一步的,所述步骤s5的具体方法为:使用区域候选网络对步骤s4中融合后的多个阶段特征进行感兴趣区域提取,使用锚点机制对感兴趣区域进行前景和背景的二分类预测、以及边框位置的粗略拟合。

进一步的,所述步骤s6的具体方法为:

s601、对步骤s5中提取的感兴趣区域进行池化操作;

s602、将池化后的感兴趣区域输入到全连接网络,并使用softmax分类器进行分类;

s603、输出预测的目标位置坐标x,y,w,h,其中x,y,w,h分别表示盒子中心坐标及宽度和高度。

进一步的,所述步骤s7的具体方法为:

s701、首先计算分类部分的损失函数:

其中:pi为锚点预测为目标的概率,为数据集真实标签的情况

s702、再计算位置回归部分的损失函数:使用smoothl1(δ=3)平滑损失函数:

其中:tn表示预测边界框的4个参数化的坐标向量,是与正例锚点相匹配的真实框的向量;

其中:x,xa,x*分别对应预测框,锚点,真实框;

s703、最后计算两部分损失函数和:

其中:ncls为训练网络时每次输入的图像数量,nreg为锚点的个数,λ为两部分损失的平衡参数;

s704、对全连接网络进行训练,使损失函数达到收敛。

相对于现有技术,本发明创造具有以下优势:

本发明创造使用densenet作为特征提取网络,与传统的resnet网络相比,该网络所需的参数量不到resnet的一半;对于工业界而言,小模型可以显著地节省带宽,降低存储开销,提高了网络模型的计算效率,并且根据网络特性提取了不同层次的信息。

本发明创造解决了二阶段目标检测算法对小目标物体不敏感的问题,使用densenet提高基础网络提取信息的能力,同时搭建多层信息融合网络对不同层次的信息进行融合,这样保证了高层的特征位置信息的不丢失,低层特征的语义信息不丢失;在不降低检测速度的同时,提升了检测算法对不同尺寸目标的检测能力。

附图说明

构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解,本发明创造的示意性实施例及其说明用于解释本发明创造,并不构成对本发明创造的不当限定。在附图中:

图1为本发明创造实施例所述基于多层信息融合的目标价检测算法的流程图;

图2为本发明创造实施例中特征提取网络densenet的结构示意图;

图3为本发明创造实施例中多信息融合网络的流程图;

图4为本发明创造实施例中候选区域的提取回归与分类的流程图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。

在本发明创造的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。

下面将参考附图并结合实施例来详细说明本发明创造。

一种基于多层信息融合的目标检测算法,如图1至图4所示,包括:

s1、对数据集图像进行预处理;将图像数据调整到网络设定的尺寸;s2、利用densenet对图像进行不同层次信息的提取,提取四个阶段的特性特征;s3、对提取的四个阶段特征进行通道数的规范化;s4、对提取的多层次信息进行上下融合,加强不同层次信息的传递,使特征图具有丰富的深层语义信息及浅层的位置信息;s5、利用区域建议算法对融合后的多层次信息进行感兴趣区域的提取;s6、对感兴趣区域进行精确类别的预测、以及位置坐标的回归;s7、计算分类网络与回归网络的多任务损失函数,并对网络进行训练优化,使分类与回归的损失函数达到收敛并保存网络的权重参数;s8、部署优化后的参数,对目标进行检测;

具体的,s8、将步骤7中保存的网络权重参数部署到网络中,输入包含目标的图像数据,通过训练好的参数网络对图像进行特征提取,融合,感兴趣区域的粗略预测,再对目标的类别与位置进行精确的预测与回归,最后输出目标类别与位置信息。。

所述步骤s1的具体步骤如下:s101、对图像进行颜色增强、平移变化、水平以及垂直翻转;s102、使用线性插值法将所有图像数据放缩到448*448的大小。

所述步骤s2中特征提取的具体方法为:利用搭建的98层densenet网络对图像进行卷积池化处理,把每个传输层的结果作为输出,得到分辨率为56*56,28*28,17*17,17*17的四个阶段特征图。

所述步骤s3中四个阶段特征进行通道数规范化的具体方法为:使用通道数为256的1*1的卷积分别对四个阶段特征进行卷积操作,将所有阶段特征的维度规范为256。

所述步骤s4中多阶段特征融合的具体方法为:s401、对相邻的、以及尺寸相同的两个阶段特征进行对应元素相加的操作,若两个阶段特征尺寸不同,对较小尺寸特征进行上采样操作,保证相融合的两个特征尺寸相同;s402、使用3*3的卷积核对融合后的结果进行卷积,消除融合后的混叠效应。

所述步骤s5的具体方法为:使用区域候选网络对步骤s4中融合后的多个阶段特征进行感兴趣区域提取,使用锚点机制对感兴趣区域进行前景和背景的二分类预测、以及边框位置的粗略拟合。

所述步骤s6的具体方法为:s601、对步骤s5中提取的感兴趣区域进行池化操作;s602、将池化后的感兴趣区域输入到全连接网络,并使用softmax分类器进行分类;s603、输出预测的目标位置坐标x,y,w,h,其中x,y,w,h分别表示盒子中心坐标及宽度和高度。

所述步骤s7的具体方法为:s701、首先计算分类部分的损失函数:

其中:pi为锚点预测为目标的概率,为数据集真实标签的情况

s702、再计算位置回归部分的损失函数:使用smoothl1(δ=3)平滑损失函数:

其中:tn表示预测边界框的4个参数化的坐标向量,是与正例锚点相匹配的真实框的向量;

其中:x,xa,x*分别对应预测框,锚点,真实框;

s703、最后计算两部分损失函数和:

其中:ncls为训练网络时每次输入的图像数量,nreg为锚点的个数,λ为两部分损失的平衡参数;

s704、对全连接网络进行训练,使损失函数达到收敛。

具体的,本发明创造的特征融合网络的结构如图3所示。待检测的图像中包含不同尺寸的目标,本发明创造利用密集的特征提取网络提取出不同尺度的特征图(c1,c2,c3,c4)。为了达到特征共享及更精确检测效果,将不同阶段的特征图进行金字塔式的融合,然后再分别输入到区域候选网络进行预测。依靠结构的特点将多层次特征信息进行融合,将低分辨率,高层次的特征与高分辨率,低层次的特征进行自上而下的侧边连接,从而所有尺度的特征都包含不同尺寸物体的特征信息。在一定程度上增加了检测器对信息的感知能力。与fasterrcnn算法相比,原始的fasterrcnn只利用了特征提取网络的最后一层特征信息,本算法将融合的多阶段特征都进行建议区域提取,而不只使用最后p1阶段特征的原因在于后续的区域建议网络是一个窗口大小固定的滑动窗口检测器,因此在融合网络的不同层滑动可以增加其对目标尺度变化的鲁棒性。另外只是用最后一个阶段将会有更多的锚点,增加映射锚点的数量并不能有效提高准确率。

图3左侧结构为不同层次特征的维数规范化过程,本发明创造将每个过渡层的输出(c1,c2,c3,c4)作为特征融合网络的输入。主干网络densenet提取的特征图存在维数与分辨率的不同,在融合之前首先对不同层次特征的维数进行规范化。所有提取的特征都进行1x1的卷积操作,对不同通道信息进行线性组合,在不损害模型的表达能力的情况下对特征进行降维和升维。并且在保持特征图尺寸不变的前提下,增加了非线性特性。经过维数统一后的特征分别为c1’,c2’,c3’,c4’。c1’,c2’,c3’,c4’特征图分辨率分别为28x28,28x28,56x56,112x112.图3是多层次的特征的融合过程。fusion1,fusion2fusion3的具体融合过程如右侧虚线框内流程所示,在c4’k与c3’k的融合过程中,c4’k与c3’k特征图尺寸相同,c4’k不需要上采样过程,直接将c4’k与c3′k进行add操作。p3′k与c2’k的融合操作2同理;p2’k与c1’k融合过程中,两组特征图尺寸不同,利用双线性插值操作将p2’k还原到c1’k尺寸。下标k代表特征的第k个维度,如第k个维度的两个特征的add操作计算如下列公式所示。

zk(x,y)=fadd(ak,bk)=β1ak(x,y)+β2bk(x,y)

上述公式表示特征ak,bk的(x,y)位置的对应元素进行相加,所有位置相加后的结果作为add后的特征,使用β1,β2对特征ak,bk进行加权平衡β1=β2=0.5。

为了消除融合后的混叠效应,再采用3x3的卷积核对每个融合结果进行卷积。融合后网络的输出分别为p1(28x28d=256),p2(28x28d=256),p3(28x28d=256),p4(56x56d=256),然后将这些融合后的特征分别输入到后面的感兴趣区域候选网络。

感兴趣区域提取及分类与回归网络:本算法使用区域建议网络对特征进行感兴趣区域提取。rpn网络本质是基于滑窗的无类别目标检测器,网络的输入为基础网络返回的不同尺寸的特征图,并输出感兴趣区域。区域候选网络的结构如图4所示,为了生成候选区域,本文在多个尺寸的特征图上滑动一个3x3的窗口,锚点映射机制在网络中起到了核心作用。锚点是用固定的边框置于不同尺寸和比例的图片上,并且在之后目标位置的预测中用作参考边框。候选区域网络对每个锚点提供两个全连接输出。第一个输出是锚点作为目标的概率,判断目标是前景还是背景,第二个输出是边框回归,用于调整锚点以更好的拟合其预测的目标。

roipooling层利用区域候选网络生成的建议区域和特征网络提取到的特征图,得到固定大小的建议区域特征图,进入到后面再将roipooling层形成固定大小的特征图进行全连接操作,利用归一化函数进行具体类别的分类,同时,利用smoothl1损失函数完成回归操作获得物体的精确位置。

多任务损失函数;在区域候选网络中,我们为每个锚点设置一个两类的标签:正样本与负样本。正样本为与真实边框交并比最高的锚点,如果该锚点与真实边框交并比低于0.3,则将该锚点设置为负样本。对rpn网络的损失函数定义为:

公式5分为两个部分,第一部分为分类损失,第二部分为目标框的回归损失,其中:pi为锚点预测为目标的概率,为数据集真实标签的情况。tn表示预测边界框的4个参数化的坐标向量,是与正例锚点相匹配的真实框的向量。

公式(6)中的x,y,w,h分别表示盒子中心坐标及宽度和高度。x,xa,x*分别对应预测框,锚点,真实框。

在第一部分的分类损失中是两个类别(目标,非目标)的对数损失:

在第二部分的目标框回归预测中,通常使用最小平方损失函数。但l2损失对于比较大的误差的惩罚很高。本文使用smoothl1(δ=3)平滑损失函数

这两部分损失由ncls(小批量的大小决定,32)和nreg(锚点位置数量决定,这里是5488)进行规范化,并通过一个平衡参数λ进行加权,以达到平衡分类和回归部分权重的效果。

rpn网络提取的感兴趣区域还需要进行具体类别的预测和预测框的微调。这是一个分类与回归的过程,微调候选框的回归损失原理与感兴趣区域回归损失一致,而具体类别的预测由正负两类扩展为20个类别。具体20类的分类与回归损失如公式8所示。

p=(p0,...,pk)为分类网络输出预测每个感兴趣区域的离散概率分布,u为每个感兴趣区域的真实类别,μ为两个损失函数的平衡系数μ=0.5,tn′表示最后微调边界框的4个参数化的坐标向量。为了准确的提取感兴趣区域和后续进行具体分类与边界微调,算法的总的损失函数设置为以上两个损失的总和(公式12),这样在训练网络时,可以同时对两个阶段的权重进行更新。

itotal=l({pi},{tn})+l({p},{tn′})(12)

提出算法的具体步骤如下:为了获取包含不同层次信息的特征,使用densenet网络对图像进行多阶段的特征提取,将densenet中transitionlayer的输出作为提取的不同阶段特征cn(n=1,2,3,4)。

由于提取的不同阶段的特征维数不一致,将不同阶段的特征进行维数规一化。利用1x1卷积的特性,将不同阶段的特征维数规范为256,然后进行图3所示的融合操作,具体的融合计算如公式13-16所示。

cn′=cn*conv1x1d(n=1,2,3,4,d=256)(13)

p4=c4′

在公式13中,cn′为对不同阶段特征进行维数归一化后的结果,d=256表示归一化后特征的维数。在公式14-16中,fadd()表示2.2中提出的两个特征的add操作。β1,β2起到对特征进行加权平衡的作用,β1=β2=0.5

对融合的特征使用区域建议网络进行感兴趣区域的提取。对目标进行粗略的预测,只判断出是否包含物体,而不进行具体类别的预测,并且对目标位置进行粗略的回归。完成感兴趣区域的提取,再进行具体类别的预测与目标位置的精细回归。

为了准确获取目标的类别与位置。利用2.4中设计的多任务损失函数计算建议区域的损失函数与最后分类回归损失函数的总和。再利用反向传播算法对总的损失函数进行求导,对权重和偏置参数进行更新,进行多次迭代使损失函数达到最小。

本发明创造使用densenet作为特征提取网络,与传统的resnet网络相比,该网络所需的参数量不到resnet的一半;对于工业界而言,小模型可以显著地节省带宽,降低存储开销,提高了网络模型的计算效率,并且根据网络特性提取了不同层次的信息。

本发明创造解决了二阶段目标检测算法对小目标物体不敏感的问题,使用densenet提高基础网络提取信息的能力,同时搭建多层信息融合网络对不同层次的信息进行融合,这样保证了高层的特征位置信息的不丢失,低层特征的语义信息不丢失;在不降低检测速度的同时,提升了检测算法对不同尺寸目标的检测能力。

以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1