一种基于目标检测的多尺度特征融合方法

文档序号:31572762发布日期:2022-09-20 22:51阅读:307来源:国知局
一种基于目标检测的多尺度特征融合方法

1.本发明涉及深度学习领域,尤其涉及一种基于目标检测的多尺度特征融合方法。


背景技术:

2.在各种特征融合网络问世之前,各大网络结构大多都采用单向一维从头到尾的结构,如最早的alexnet、到后来的vggnet、resnet等,早期的yolov1、yolov2也采用了这种结构,直到cvpr 2017中发表了fpn特征金字塔网络结构,人们才逐渐意识到,在不断堆叠骨干网络结构单纯追求特征提取效益之外,还可以对网络结构的连接方式、堆叠方式和整体走向进行变化,且整体结构可以通过二维方式呈现,这样的结构在后来的yolov3中被采用,并独立出了后来的neck颈部网络。后来港中大联合腾讯优图于cvpr 2018提出基于fpn的改进网络-panet路径聚合网络,让fpn结构的融合方式从网络输出的角度增加了一维bottom-up path augmentation结构,主要是考虑到网络的浅层特征中包含了大量的细粒度特征,对于目标检测不同尺度的融合和实例分割这种像素级别的分类任务起到至关重要的作用。接着google brain团队于cvpr 2019发布了基于神经架构搜索的特征金字塔网络nas-fpn,这种金字塔网络是在pan网络结构上进行automl自动机器学习,即通过机器学习自动寻找基于pan网络结构的最佳连接方式和参数。然而这三个网络结构均拘泥于二维平面进行搭建,导致网络模型的多次上下折返连接时与骨干网络无法进行良好的特征传递和信息融合,尤其是当网络结构折返融合多次时,会造成深层次网络的特征信息与骨干网络的联系弱化。此外,像nas-fpn这种automl的方式对算力要求极为苛刻,通常automl即便拥有优良的gpu时其运算时间也会高达几百天。后来google brain团队于2020年在cvpr发表了bifpn(bidirectional feature pyramid network)双向特征金字塔网络结构,将fpn网络模型中的每层模块视为节点,引入了三维的立体连接方式,从三维的角度对整个网络的特征传递和特征融合方式进行了改进,让整个网络模型从最开始的二位平面连接方式跃然于纸上,增加了立体的第三维的连接。
3.目前在yolo算法中,仅用到了fpn与pan的网络结构:yolov3采用的是fpn网络结构,yolov4与yolov5同时期发布因此采用的是pan网络结构,这两种结构均为cvpr 2018及更早的结构,接下来将在yolov5上采用最新的bifpn连接方式,并分析这种方式在yolov5上带来的性能提升,以及存在的不足之处并加以改进,进而设计一套新的网络结构-as-bifpn。


技术实现要素:

4.本发明的目的在于提供一种基于目标检测的多尺度特征融合方法,以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:本发明公开了一种基于目标检测的多尺度特征融合方法,其通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,并将数据集划分为训练集和测试集;利用一阶
段代表作yolov5(you only look onceversion 5)算法负责图像内目标物体的检测;通过骨干网络多阶段多层次的卷积操作提取出多尺度图像特征;将其中一个支路以传统特征融合方式与颈部网络相连,另一支路以捷径(shortcut)方式与相同采样倍率的颈部网络相连,最后一支路以捷径方式与相同采样倍率的预测结构相连;通过深度学习一个三支路骨干网络结构,并将骨干网络中不同尺度的特征图像通过三支路向后实现神经网络的前向、后向传递;本发明具有目标检测准确率高,容易应用于大规模数据集,容易应用于多种网络模型结构,并且实现简单,更好地对不同尺度的特征图像信息保真等特点,因此具有广阔的应用前景和巨大的市场价值。
6.本发明基于目标检测的多尺度特征融合方法,其特征在于其通过计算机装置实现如下步骤:步骤s1,通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,建立并将数据集划分为训练集和测试集;步骤s2,利用yolov5目标检测算法的骨干网络(backbone)提取图像的特征;步骤s3,利用骨干网络(backbone)与颈部网络(neck)、预测结构(prediction)的三支路特征融合方法实现多尺度融合,并通过深度学习重复学习各结构支路上的权重参数,根据深度学习的训练方式,不断缩小训练时目标值与预测值之间的差距,即以最小化损失函数为学习准则,得出目标域数据集下的优化网络结构,其融合方式基于fpn(feature pyramid networks);步骤s4,在fpn的基础上改进形成pan,利用low-level特征中存储的精确定位信号,提升特征金字塔架构;步骤s5,在pan的基础上改进形成bifpn,通过bifpn让网络自行学习不同输入特征的权重。
7.进一步的,对于步骤s3中的fpn分解为三个递进的阶段,其包含以下步骤:步骤s31,骨干网络backbone生成特征阶段,在深度学习计算机视觉领域的任务是基于常用预训练的骨干网络backbone,生成抽象的语义特征,再分别针对不同的应用场景对骨干网络提取的图像形态学特征调整;骨干网络backbone生成的特征按stage划分,分别记作,n为自然数,其中的数字n与stage的编号相同,代表图像形态学特征下采样的不同阶段特征,也即分辨率减半的次数,如代表stage2输出的特征图,分辨率为输入图片的,代表stage5输出的特征图,分辨率为输入图片的;步骤s32,特征融合阶段, fpn将步骤s31生成的不同分辨率特征作为输入,输出经过融合后的特征,输出的特征以p作为编号标记,fpn的输入是、、、、,经过融合后,输出为、、、、,用数学公式表达:步骤s33,通过检测头输出bounding box,fpn输出融合后的特征后,将融合后的特征输入到检测头做具体的物体检测。
8.进一步的,步骤s5的bifpn使用的fusion策略,具体包含以下步骤:
步骤s51, unboundedfusion策略,公式为:该公式为深度学习特征融合的第一种策略,其中,为可学习的权重参数,代表单个的深度学习神经网络节点之间的数据权值比重;为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤s52, softmax-basedfusion策略公式为:该公式为深度学习特征融合的第二种策略,其中,、为可学习的权重参数,代表多个的深度学习神经网络节点之间的数据权值比重;为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤s53,fastnormalizedfusion策略公式为: 该公式为深度学习特征融合的第三种策略,其中,、为可学习的权重参数,代表多个的深度学习神经网络节点之间的数据权值比重;,是一个非常小的数字来保证分母不为0,为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤s54,集成双向跨尺度连接和快速归一化融合:公式中,是自上而下和自下而上的边缘中间节点, 是自上而下和自下而上的边缘侧向节点,是自上而下路径中6级的中间节点,是自下而上路径中6级的侧向节点,所有其他特征节点都以类似的方式构造。
9.进一步的,还包含以下步骤:步骤s61,在侧向路径上增加跃然纸上的连接结构跨越自底向上路径,将骨干网络与预测结构直接进行信息融合,在训练时通过更新不同路径的权重占比从而改进网络,以增强预测结构的特征信息获取能力和信息融合能力;步骤s62,在bifpn基础上保留边缘特征层和首尾节点,在训练时为各结构融合路径上施加权重参数影响,避免由bifpn弱化的边缘特征融合结构,将所有需要用到的特征层次均采用同样的方式跨通道连接;
步骤s63,在步骤s61与步骤s62的基础上,集成双向跨尺度连接和快速归一化融合:公式中,是自上而下和自下而上的边缘中间节点, 是自上而下和自下而上的边缘侧向节点,是自上而下路径中6级的中间节点,是自下而上路径中6级的侧向节点,所有其他特征节点都以类似的方式构造;步骤s64,为了进一步提高效率,其中图像二维张量卷积运算操作可以采用深度可分离卷积运算操作进行特征融合,并在每次卷积运算后添加批量归一化和激活。这一步视不同场景应用而决定是否采用,与本发明的结构无关。
10.进一步的,步骤s1包括从网上的个人多尺度图像、kaggle目标检测竞赛等渠道获取多尺度目标图像;由ms coco给出的图像目标尺度划分标准,图像形态学的小目标形态的尺寸面积为,中等目标尺寸面积为,大目标尺寸面积为;在输入网络结构时由resize函数缩放所有图像于一个尺寸,在统一尺寸的图像中会形成不同目标大小的尺度特征从而建立多尺度信息的图像数据集。
11.进一步的,步骤s2中采用一阶段目标检测算法代表作yolov5(you only look once version 5)为研究基础模型;多尺度特征融合方法为可以热插拔的模块化方法,在不同模型上有效迁移使用,对不同模型的更改采用步骤s3中所述的过程,即目标检测算法的结构模型分别由fpn

pan

bifpn

as-bifpn的演进过程依次改良,改进步骤依次深入。
12.与现有技术相比,本发明的有益之处在于:利用多尺度跨结构的节点连接方式可以实现多尺度特征信息的有效融合,避免了深度学习网络结构深度增加带来的深层特化语义信息丢失。本发明在若有特征融合结构上均引入了学习权重参数,在网络模型的训练过程中可以通过不同的迭代次数和学习率对多尺度特征信息融合产生影响,通过训练过程可以学习多尺度特征融合时的权重比重。由于未产生更深层次的特征信息而采用已提取到的上游特征信息,因此网络结构计算复杂度为,即,进而在不改变网络结构计算复杂度的情况下加强以fpn、pan为代表的传统网络结构特征融合能力。本发明具有可热插拔的模块化设计方式,实现方式简单,容易应用于各种规模的数据集,易于在实际中应用,因此具有广阔的应用前景和巨大的市场价值。
附图说明
13.图1为本发明的改进基础bifpn网络结构。
14.图2为本发明的as-bifpn结构示意图。
15.图3为as-bifpn结构平均精度均值实验结果曲线。
16.图4为优化后的网络模型在大尺度目标检测上的实验结果对比。
17.图5为优化后的网络模型在小尺度目标检测上的实验结果对比。
具体实施方式
18.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
19.实施例1本发明基于目标检测的多尺度特征融合方法,其通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,并将数据集划分为训练集和测试集;利用一阶段代表作yolov5(you only look onceversion 5)算法负责图像内目标物体的检测;通过骨干网络多阶段多层次的卷积操作提取出多尺度图像特征;将其中一个支路以传统特征融合方式与颈部网络相连,另一支路以捷径(shortcut)方式与相同采样倍率的颈部网络相连,最后一支路以捷径方式与相同采样倍率的预测结构相连;通过深度学习一个三支路骨干网络结构,并将骨干网络中不同尺度的特征图像通过三支路向后实现神经网络的前向、后向传递;本发明具有目标检测准确率高,容易应用于大规模数据集,容易应用于多种网络模型结构,并且实现简单,更好地对不同尺度的特征图像信息保真等特点,因此具有广阔的应用前景和巨大的市场价值。
20.本发明通过计算机装置实现如下步骤:步骤s1,通过网络收集计算机视觉图像样本建立多尺度目标检测数据集,建立并将数据集划分为训练集和测试集;步骤s1包括从网上的个人多尺度图像、kaggle目标检测竞赛等渠道获取多尺度目标图像;由ms coco给出的图像目标尺度划分标准,图像形态学的小目标形态的尺寸面积为,中等目标尺寸面积为,大目标尺寸面积为;在输入网络结构时由resize函数缩放所有图像于一个尺寸,在统一尺寸的图像中会形成不同目标大小的尺度特征从而建立多尺度信息的图像数据集。
21.步骤s2,利用yolov5目标检测算法的骨干网络(backbone)提取输入图像的形态学矩阵特征;步骤s2中采用一阶段目标检测算法代表作yolov5(you only look once version 5)为研究基础模型;该多尺度特征融合方法为可以热插拔的模块化方法,在不同模型上可以有效迁移使用,对不同模型的更改可以采用下述步骤s3中所述的过程,即目标检测算法的结构模型分别由fpn

pan

bifpn

as-bifpn的演进过程依次改良,改进步骤依次深入。
22.步骤s3,利用骨干网络(backbone)与颈部网络(neck)、预测结构(prediction)的三支路特征融合方法实现多尺度融合,并通过深度学习重复学习各结构支路上的权重参数,以最小化损失函数为学习准则,得出目标域数据集下的优化网络结构,其融合方式基于fpn(feature pyramid networks);fpn可以分解为三个递进的阶段,其包含以下步骤:步骤s31,backbone生成特征阶段,在深度学习计算机视觉领域的任务是基于常用预训练的骨干网络backbone,生成抽象的语义特征,再进行特定任务微调;backbone生成的
特征,一般按stage划分,分别记作,n为自然数,其中的数字n与stage的编号相同,代表图像形态学特征下采样的不同阶段特征,也即分辨率减半的次数,如代表stage2输出的特征图,分辨率为输入图片的,代表stage5输出的特征图,分辨率为输入图片的;步骤s32,特征融合阶段,这个是fpn特有的阶段,fpn一般将上一步骤s31生成的不同分辨率特征作为输入,输出经过融合后的特征。输出的特征一般以p作为编号标记。fpn的输入是、、、、,经过融合后,输出为、、、、,用数学公式表达:步骤s33,检测头输出bounding box,fpn输出融合后的特征后,就可以输入到检测头做具体的物体检测。
23.步骤s4,在fpn的基础上,改进形成了pan(pathaggregationnetwork),创建自下而上(bottom-up)的增强路径,用于缩短信息路径,利用low-level特征中存储的精确定位信号,提升特征金字塔架构。
24.步骤s5,在pan的基础上,改进形成了bifpn,bifpn是一种新架构,与panet相比,它增加了跨层链接,bifpn的一大特性是weightedfeaturefusion,即给不同尺度加权值;传统做法是直接堆叠不同尺度的特征,而bifpn让网络自行学习不同输入特征的权重;bifpn主要使用到了三种fusion策略,具体包含以下步骤:步骤s51,unboundedfusion策略,其公式为:该公式为深度学习特征融合的第一种策略,其中,为可学习的权重参数,代表单个的深度学习神经网络节点之间的数据权值比重;为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤s52,softmax-basedfusion策略,其公式为:该公式为深度学习特征融合的第二种策略,其中,、为可学习的权重参数,代表多个的深度学习神经网络节点之间的数据权值比重;为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤s53,fastnormalizedfusion策略,其公式为:该公式为深度学习特征融合的第三种策略,其中,、为可学习的权重参数,代表多个的深度学习神经网络节点之间的数据权值比重;,是一个非常
小的数字来保证分母不为0,为输入特征信息,在计算机视觉领域中表示该神经网络输入的图像形态学特征矩阵;步骤s54,集成双向跨尺度连接和快速归一化融合,如图1所示:根据图示中的节点关系,公式中,是自上而下和自下而上的边缘中间节点, 是自上而下和自下而上的边缘侧向节点,是自上而下路径中6级的中间节点,是自下而上路径中6级的侧向节点,所有其他特征节点都以类似的方式构造。
25.步骤s6,基于bifpn和as-bifpn两种网络结构的设计思路具体包含以下步骤:步骤s61,在侧向路径上增加跃然纸上的连接结构跨越自底向上路径,将骨干网络与预测结构直接进行信息融合,在训练时通过更新不同路径的权重占比从而改进网络,以增强预测结构的特征信息获取能力和信息融合能力;步骤s62,在bifpn基础上保留边缘特征层和首尾节点,在训练时为各结构融合路径上施加权重参数影响,避免由bifpn弱化的边缘特征融合结构,将所有需要用到的特征层次均采用同样的方式跨通道连接;步骤s63,在步骤s61与步骤s62的基础上,集成双向跨尺度连接和快速归一化融合,如图2所示:根据图示中的节点关系,公式中,是自上而下和自下而上的边缘中间节点, 是自上而下和自下而上的边缘侧向节点,是自上而下路径中6级的中间节点,是自下而上路径中6级的侧向节点,所有其他特征节点都以类似的方式构造;步骤s64,为了进一步提高效率,其中图像二维张量卷积运算操作可以采用深度可分离卷积运算操作进行特征融合,并在每次卷积运算后添加批量归一化和激活。这一步视不同场景应用而决定是否采用, 与本发明的结构无关。
26.附图1中改进基础bifpn网络结构,bifpn网络结构将模型的前后特征融合方式从二维平面跃然于纸上,增加了网络传递在折返时的跨结构连接,这种连接可以非常有效地将前后两个结构的特征进行传递和融合,并且在多尺度的特征信息上均有所贡献。由于
yolov5网络采用了二维的pan结构,即在上采样和下采样的特征处理时形成了多次的特征传递折返,因此将基于bifpn这种三维的网络结构特征处理方式运用到yolov5的网络模型中。
27.由于yolov5颈部网络中自底向上路径(bottom-up path)的存在,使得采用了自顶向下路径(up-bottom path)的骨干网络与预测结构形成了信息鸿沟,在特征传递和特征融合交互上达不到良好的效果,因此本文在侧向路径上增加跃然纸上的连接结构跨越自底向上路径,将骨干网络与预测结构直接进行信息融合,在训练时通过更新不同路径的权重占比从而改进网络,以增强预测结构的特征信息获取能力和信息融合能力。值得注意的是,bifpn是为了强化efficientdet网络的特征信息处理能力,因此着重考虑主要特征层的特征信息并弱化边缘特征层,并且不考虑首尾节点层的融合贡献。bifpn为强化efficientdet网络需要多次堆叠bifpn形成“加强特征网络结构”,但多次堆叠会造成巨大计算量,因而不考虑首尾节点的贡献和边缘特征层的特征信息,进而在bifpn上采取了首尾捷径短接的操作。efficientdet中称这样的做法为“效益权衡(efficiency trade-offs)”,即为在更优的算力资源消耗和网络性能提升之间做到平衡的目的。efficientdet网络为了形成“加强特征网络结构”而将这样的模型多次堆叠,因此带来了更多的模型参数、gflops和模型复杂度,因此需要对网络结构去繁从简。
28.附图2中为本实施例的结构示意图,通常网络模型并不需要多次堆叠网络结构,相反,通常网络本身仅实现了一次pan结构。因此本文将改为bifpn结构的yolov5网络进一步改进,基于yolov5本身结构的特点和烟火爆燃数据集多尺度的特点,在bifpn基础上保留边缘特征层和首尾节点,在训练时为各结构融合路径上施加权重参数影响。这样的修改考虑到了bifpn忽略掉的边缘特征融合结构,将所有需要用到的特征层次均采用同样的方式跨通道连接,这样的改进对于多尺度特征融合更加有利。因此该网络结构改进思路的出发点一方面是为研究的检测目标需要更全面的尺度,另一方面是为了弥补bifpn因选择性跳过部分节点导致的尺度不足。
29.此外,由于yolov5网络没有多次堆叠这样的结构,因此在模型参数量、gflops、模型复杂度等方面不会发生特别强烈的变化,将这样的网络结构命名为as-bifpn,即all scale bidirectional feature pyramid network,全尺度双向特征金字塔网络结构。
30.将yolov5目标检测算法分别采用bifpn和as-bifpn网络结构进行改良,与原始的fpn网络结构进行对比。实验结果如表1所示,实验平均精度均值曲线图如图3所示。从实验结果可以看出,使用bifpn网络结构的yolov5s比原始yolov5s高出0.8%map,从78.4%提升到了79.2%map,精度略微损失,网络层数不发生改变,网络参数量也保持在同一水平,模型的gflops上升了0.2,总体而言使用bifpn网络结构的yolov5s其能力得到了小幅度提升。
31.附图3、图4、图5表示原始yolov5与采用as-bifpn网络结构后的yolov5在多尺度目标检测上的实验结果,分别表示平均精度均值的实验结果曲线图、大尺度目标检测实验结果、小尺度目标检测实验结果。结合实验曲线图可以看到使用as-bifpn全尺度双向特征金字塔网络结构的yolov5s网络模型能够在bifpn的实验结果的表现上继续得到提升,使用as-bifpn的网络其map参数相较于bifpn网络提升了1%map,相较于原始yolov5s网络提升了1.8%map,精度提升了1.5%,并且在烟雾、火焰目标上的ap值分别提升了1.4%和0.6%,只不过在网络推理时间上由bifpn的7.6ms上升到了8.4ms,多耗了0.8ms时间。使用as-bifpn的网络模型在总体层次上与原始yolov5s、使用bifpn的yolov5s均为213层,未发生变化,只不过as-bifpn网络结构在参数量和gflops上相比bifpn分别有小幅度变化,参数量变化但是维持同一水平,gflops相较于bifpn上升了0.2、相较于原始yolov5s上升了0.4。简而言之,使用优化的as-bifpn网络结构可以使得网络在网络深度、算法模块、网络基础结构都均不改变的情况下提升原有网络在多尺度目标检测上的能力。
32.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
33.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1