一种轻量化小目标检测方法与流程

文档序号:32217223发布日期:2022-11-16 07:53阅读:242来源:国知局
一种轻量化小目标检测方法与流程

1.本发明属于计算机视觉、模式识别和目标检测技术领域,具体涉及一种轻量化小目标检测方法。


背景技术:

2.目标检测是计算机视觉领域一个经典的问题,目标检测可以在图像或视频中,识别特定目标的种类及位置,在智能安防、智能车、机器人等领域都有着广泛的用途。随着深度学习的不断发展,目标检测算法的执行效率越来越高,准确率和速度都发展到了相当高的水平。现有的目标检测算法在照度较高的环境下表现较好,但是在夜间、雾天等恶劣环境下性能受限,难以同时兼顾检测近距离大目标和远距离小目标。


技术实现要素:

3.针对上述问题,发明人经过探索和研究,目的是提出一种轻量化小目标检测方法,可实现对近距离大目标和远距离小目标的同时检测。
4.本发明为实现其目的所采取的技术方案是:一种轻量化小目标检测方法,包括如下步骤:步骤1:先对输入待检测图像进行增强处理,生成增强后图像;步骤2:再对增强后图像缩小操作,生成小图像,并把小图像内嵌到增强后图像中生成内嵌图像,一般位于左上角或右上角;步骤3:最后对内嵌图像采用基于retinatarget的小目标检测网络生成所有目标信息,目标信息包括:锚框坐标、大小、分类、置信度;步骤4:将内嵌图像中所有目标信息,包括小图像中检测到的目标,一一映射回步骤1增强后图像中的目标,从而实现近距离大目标和远距离小目标的同时检测。
5.进一步地,所述的增强处理包括图像去噪、gamma校正、直方图均衡增强、边缘增强。
6.进一步地,所述的图像缩小,可采用最近邻、线性插值或双线性插值等常规图像缩放方法对增强后图像进行水平和垂直方向等比例的缩小,生成缩小后的小图像,缩小倍数为4~36倍。
7.进一步地,所述的一一映射是指一方面将内嵌图像中小图像检测到的目标,映射回缩小前的增强后图像中的近距离大目标,另一方面将内嵌图像中非小图像区域检测到的目标一对一映射到增强后图像中的远距离小目标上。
8.本发明创造的有益效果是:采用上述技术方案,通过对待检测图像进行增强、缩小、内嵌到增强图像中进行同时目标检测,可实现对近距离大目标和远距离小目标的同时检测。本发明具有延时短、小目标检测准确率高、适合近距离大目标检测、可实时检测的特点,不仅可适用于人、车、无人机等目标检测,也适用于其它运动物体的快速检测,可广泛用于智能车、机器人、智能头盔等领域的目标检测。
附图说明
9.图1是本发明一种轻量化小目标检测方法的流程示意图;图2是本发明一种轻量化小目标检测方法中的一种内嵌图像示意图;图3是本发明一种轻量化小目标检测方法中的基于retinatarget的小目标检测网络结构示意图;图4是本发明一种轻量化小目标检测方法中的一种可视化attention-fpn实现流程图;图5是本发明一种轻量化小目标检测方法中的一一映射状态示意图。
具体实施方式
10.下面结合附图对本发明作进一步的描述,其步骤和优点将更加清楚。
11.参看图1,一种轻量化小目标检测方法,包括如下步骤:步骤1:先对输入待检测图像进行增强处理,生成增强后图像;所述的增强处理包括图像去噪、gamma校正、直方图均衡增强、边缘增强;增强后图像中目标特征将更为显著,有利于提高后续目标检测的准确率。
12.步骤2:再对增强后图像缩小操作,生成小图像,并把小图像内嵌到增强后图像中生成内嵌图像,一般位于左上角或右上角;所述的图像缩小,可采用最近邻、线性插值或双线性插值等常规图像缩放方法对增强后图像进行水平和垂直方向等比例的缩小,生成缩小后的小图像,缩小倍数为4~36倍,跟待检测图像的原始分辨率有关。
13.参看图2,所述的小图像需内嵌回增强后图像,生成内嵌图像;小图像在内嵌图像中的位置可移动,一般位于左上角或右上角。
14.步骤3:最后对内嵌图像采用基于retinatarget的小目标检测网络生成所有目标信息,目标信息包括:锚框坐标、大小、分类、置信度;所述的小目标一般针对人、车、无人机等小目标,也可以用于其它运动或静止的目标物体;其采用的数据训练集与拟检测的小目标有关。
15.所述的小目标检测算法,属于通用目标检测中的子任务,可以沿用目标检测中的经典模型。通用目标检测算法主要有两种类型:单阶段以yolo、ssd为代表,模型简单,速度更快,更适合落地应用;双阶段以faster r-cnn为代表,模型更复杂,精度更高但是速度较慢。目标检测算法从是否需要先验锚框又可以分为基于先验anchor-base和不基于锚框anchor-free两种,在anchor-free系列算法中,最具有代表性的为centernet。
16.本发明考虑到轻量化部署需求,设计实现了一种基retinatarget的小目标检测方法,其属于单阶段目标检测网络,可适用于本发明的轻量化小目标检测任务。
17.所述的基于retinatarget的小目标检测网络结构借retinaface框架的基础上,对其中的许多模块都进行了改进和升级,具体而言在于引入更多的轻量级网络作为骨干网络,改进了特征金字塔feature pyramid networks,fpn,改变了正负样本生成策略,简化neck部分,以及尝试不同的损失函数等工作。
18.参看图3,基于retinatarget的小目标检测网络符合目标检测算法中的backbone、neck、head经典设计流程,其网络结构主要包含三个主要部分:
1)用于特征提取的骨干网络,通常称作backbone。
19.2)特征处理融合模块fpn,也被称作网络的neck模块。
20.3)回归头部分,通常称为head模块,用于从经过neck模块处理后的特征中回归出目标的具体类别,坐标等信息。
21.参看图3,基于retinatarget的小目标检测网络对小目标检测的处理过程分为三步:第一步:先验锚框anchor的生成以及锚框和目标框ground truth,gt的匹配。所有单阶段基于先验锚框的目标检测算法的基本原理可以概括为针对原图的密集采样后的分类和回归,所以生成锚框是必不可少的一步,虽然锚框的几何意义是相对于原图而言,但是其具体生成是需要结合特征图来进行的。对于这里的retinatarget,会保留网络中的三层特征图,相对于原图的下采样比例分别是1/8、1/16、1/32。
22.结合本发明小目标图像数据集特点以及对速度的考虑,一种实例下,输入的图像原图大小被限定为224x224,那么三层特征图的尺度分别为28x28、14x14、7x7,其中的每一层特征图上的每一个像素点都分别对应了原图上8x8、16x16、32x32的一块区域。对于传统的faster r-cnn、ssd、retinanet等算法来说,会采取以特征图上的每一个像素点为基准,生成k个不同尺度和长宽比例的锚框,一般k=9,表示3种不同尺度,3种宽高比例的锚框。
23.锚框生成以后只是完成了针对原图的密集采样工作,进一步的还需要为每一个样本构造出用于监督学习的目标,这里具体表示目标框相对于锚框的位置以及各个锚框的类别。也即为判断锚框属于前景还是背景,如果属于前景,那么则需要为其确定具体的位置,这里的位置是通过锚框相对于目标框的偏置来表示的。这里的偏置又分为两部分,目标框中心点相对于锚框中心点的偏置以及目标框的宽高相对于锚框的宽高的转换,这里的转换具体表示经过对数变换后的目标框和锚框的尺度比例。
24.需要注意的是,为了消除锚框本身尺度带来的影响,对所有锚框同等看待,还需要对目标框相对于锚框的中心点利用宽高进行归一化。如果不进行归一化,大锚框能容忍更大的偏差,而小锚框则会对偏差十分敏感,这不利于模型的训练学习,而将回归绝对尺度转换为回归相对尺度即可解决这个问题。还有一个重要步骤为将目标框的宽高相对于锚框的宽高的转换变换到对数空间,如果不进行变换,模型的输出宽高只能是正值,这提高了对模型的要求,加大了优化难度,而变换到对数空间则解决了该问题。
25.第二步:整个网络从输入到输出的映射过程,输入图像3x224x224首先经过一个由卷积层堆叠所构成的骨干网络进行特征提取,将网络中间各层的特征抽取出来送给接下来的fpn进行处理,这里总共抽取整个骨干网络的后三层特征,对于mobilenetv1x0.25作为骨干网络而言,则三层特征图的尺度分别为64x28x28、128x14x14、256x7x7。
26.经过fpn特征融合后得到3层特征,每一层都会有大量的先验锚框。为了提高特征的表达能力,此时的特征图还会经过大卷积核构成的特征精炼模块进一步的特征提取,扩大特征图的感受野。
27.所述的fpn,是一种attention-fpn。特征金字塔作为当前目标检测主流模型中的必备组件,可以有效的提高算法对不同尺度目标的定位能力,对于小目标检测任务而言,因为实际场景中被拍摄对象相对摄像头的距离、方位不同而导致小目标尺寸变化剧烈,离摄像头近的目标的像素可以最大到400x400,最远的目标大小只有20x20,尺度变化剧烈,这就
要求目标检测网络对大小目标都有良好的检出能力。而传统fpn是通过将高层特征上采样和底层特征直接相加实现,本发明设计实现了一种融合attention思想的改进fpn。
28.受mobilevit的启发,本发明将自注意力机制进行扩展进而引入fpn模块之中,这里的query、key、value不再是来自于同一个输入,query来自于浅层特征图的非线性变换,key和value均来自于深层特征图经过上采样后的线性变换。将原始fpn中使用逐元素加法进行的操作变为了使用注意力机制的融合。从注意力机制的原理角度,可以将此操作理解为将浅层特征图里面的每个像素都使用深层特征图的所有像素的加权求和来表达。这样带来的好处在于用深层的注意力机制来表示浅层,可以有效的为浅层特征图中的每个像素引入全局信息,而卷积更关注于局部信息,所以经过融合后的特征图同时保留了全局信息和局部信息,更加有利于模型的学习。最后,再得到浅层特征和深层特征经过注意力机制融合的新特征图后,将再次使用自注意力机制将该特征图进一步的变换,提高特征的表达能力。
29.参看图4,具体操作如下:相对深层的特征图进行上采样,7x7采样为14x14,然后使用1x1卷积将通道数与上一层的通道对齐,将256映射到128,得到128x14x14,然后为了使用得到的特征图进行attention操作,这里借鉴了mobilevit的做法,先将特征图进行切片操作,每一个切片内的所有像素进行自注意力运算,然后得到的最终结果经过反变换得到与原始输入特征图相同的形状,自此实现了一次注意力计算过程。
30.第三步:这些特征图将分别经过目标框回归分支,置信度分类分支回归出最终的坐标和前景背景的概率。对于本发明而言,如果锚框的总数量用n表示,那么网络模型的分类分支的最终输出将会是2n,而坐标框回归分支的最终输出将会是4n,分别代表的是每一个锚框属于前、背景的概率以及如果属于前景,则目标的中心点相对于锚框的偏置和目标宽高相对于锚框的宽高的对数转换值。
31.为了提高定位精度,将回归目标框坐标的损失函数由平均绝对误差损失替换为了交并比损失(iou loss)。当使用绝对误差衡量输出与目标的距离,则回归出来的各个几何量是相互独立的,缺乏了相互之间固有的几何约束。而如果直接优化预测框和真实框之间的交并比则可以建模这种几何联系,这也可以看作是针对评价指标的直接优化。
32.步骤4:将内嵌图像中所有目标信息,包括小图像中检测到的目标,一一映射回步骤1增强后图像中的目标,从而实现近距离大目标和远距离小目标的同时检测。
33.参看图5,所述的一一映射是指一方面将内嵌图像中小图像检测到的目标,映射回缩小前的增强后图像中的近距离大目标,另一方面将内嵌图像中非小图像区域检测到的目标一对一映射到增强后图像中的远距离小目标上。
34.尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本发明考虑到速度和精度的平衡,采用轻量化骨干网络实现基于retinatarget的小目标检测网络,本发明不仅可适用于人、车、无人机等目标检测,也适用于其它运动或静止物体的快速检测。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1