一种注意力驱动自适应特征融合轻量级目标检测方法

文档序号:37334678发布日期:2024-03-18 17:58阅读:12来源:国知局
一种注意力驱动自适应特征融合轻量级目标检测方法

本发明属于目标检测,尤其涉及一种注意力驱动自适应特征融合轻量级目标检测方法。


背景技术:

1、随着无人机技术的快速发展,其可靠性和续航能力得到了巨大提升,凭借着飞行灵活和价格低廉等优势得到了人们的青睐,被广泛应用于物流运输、农业植保和抢险救灾等场景,给人们的生活带来极大的便利。作为一种新型的空间数据获取手段,无人机航拍技术开始被广泛应用于城市道路巡逻等任务中。相较于传统的人工巡逻,无人机巡逻不仅可以节省大量的人力物力,而且不会受到地面道路堵塞等因素的影响,因此具有重要的应用前景。然而,无人机在城市内开展正常的巡逻作业是建立在稳定的数据连接基础上的,无人机需要通过网络将拍摄的原始图像传输至地面,经过人工分析并发出指令后才能进行下一步操作。这不仅给工作人员带来了繁重的理解任务,而且对数据连接的带宽和稳定性提出了严峻的挑战。一旦出现网络连接不畅情况可能会影响无人机的正常工作甚至导致无人机的损坏,限制了无人机在城市道路巡逻应用的普及。

2、与本发明最接近的现有技术是多尺度目标检测算法。这些算法通过在不同的网络层次上提取特征,并尝试将这些特征结合起来,以检测不同大小的目标。然而,它们往往在特征融合策略上存在局限性,特别是在融合不同层次特征时,无法充分利用深层的语义信息和浅层的细节信息。此外,现有的多尺度检测方法很难在保持检测精度的同时,满足无人机平台对计算效率的严格要求。

3、现有技术中存在的主要技术问题包括:(1)无人机图像中包含更多难以识别的小目标。无人机在执行巡逻任务时距离地面的高度较远,视野中的地面物体呈现细粒化特点,视觉特征匮乏,导致目标检测算法难以从中提出到足够的有用特征,降低检测精度;(2)无人机图像的视野非常广阔并且背景复杂。较高的飞行高度和复杂的城市道路环境使得无人机图像呈现出视场大、背景复杂的特点,可能会对待识别的地面物体的特征造成干扰,导致目标检测算法难以区别目标和背景,造成严重的误检现象;(3)对目标检测算法的推理速度提出较高的要求。无人机在执行巡逻任务时的飞行速度通常较快,要求目标检测算法能够在较短的时间内完成对图像中地面目标的准确识别。


技术实现思路

1、针对以上背景,本发明提出一种注意力驱动自适应特征融合轻量级目标检测方案。

2、本发明第一方面提出一种适用于无人机的多尺度-注意力导向目标检测方法。所述方法包括:

3、步骤s1、通过无人机采集包含若干目标的真实场景图像,对所述真实场景图像进行标注,以生成训练集、验证集和测试集;

4、步骤s2、基于目标检测网络检测所述训练集中的图像所包含的目标,并基于所述验证集来验证检测结果,以完成对所述目标检测网络的训练;

5、步骤s3、利用经训练的目标检测网络对所述测试集中的图像进行检测,以检测出所述真实场景图像中包含的若干目标;

6、其中,所述目标检测网络包括若干卷积层、若干特征提取模块、若干检测单元和一个空间金字塔快速池化层;

7、其中,在所述步骤s2/所述步骤s3中,所述训练集中的图像/所述测试集中的图像作为目标检测图像被送至所述目标检测网络,检测过程共分为三个阶段;

8、在第一阶段:所述目标检测图像依次经过第一卷积层、第二卷积层、第一特征提取模块、第三卷积层、第二特征提取模块、第四卷积层、第三特征提取模块、第五卷积层、第四特征提取模块和空间金字塔快速池化层;将第一特征提取模块的输出作为k1,将第二特征提取模块的输出作为k2,将第三特征提取模块的输出作为k3,将空间金字塔快速池化层的输出作为k4;

9、在第二阶段:

10、k4经第六卷积层和上采样处理后与k3加权融合得到q1,q1经第五特征提取模块后得到k5,k5经第七卷积层和上采样处理后与k2加权融合得到q2,q2经第六特征提取模块后得到k6,k6经第八卷积层和上采样处理后与k1加权融合得到q3;

11、q3经第七特征提取模块后得到k7,将k7作为第一融合特征;k7经第九卷积层后与k6、k2加权融合得到q4,q4经第八特征提取模块后得到k8,将k8作为第二融合特征;k8经第十卷积层后与k5、k3加权融合得到q5,q5经第九特征提取模块后得到k9,将k9作为第三融合特征;k9经第十一卷积层后与k4加权融合得到q6,q6经第九特征提取模块后得到k10,将k10作为第四融合特征;

12、在第三阶段:第一检测单元、第二检测单元、第三检测单元和第四检测单元分别基于第一融合特征、第二融合特征、第三融合特征和第四融合特征生成第一注意力特征、第二注意力特征、第三注意力特征和第四注意力特征,并根据第一注意力特征、第二注意力特征、第三注意力特征和第四注意力特征进行目标检测,检测的目标尺寸分别为size1、size2、size3和size4,且size1<size2<size3<size4。

13、根据本发明第一方面的方法,对于每个特征提取模块:

14、输入的要进行特征提取的图像经卷积层后得到特征图e,将特征图e分割为完全相同的量张特征图e1、e2,进一步将e1分割为完全相同的十六张特征图e1-1,...,e1-16,十六张特征图e1-1,...,e1-16分别经卷积层后进行合并得到e1’,合并e1、e1’、e2,经卷积层后得到e’;

15、其中,e的尺寸为c×h×w,e1、e2的尺寸均为(c/2)×h×w,e1-1,...,e1-16的尺寸均为(c/32)×h×w,e1’的尺寸为(c/2)×h×w,合并e1、e1’、e2后得到的特征图的尺寸为(3c/2)×h×w,e’的尺寸为c×h×w。

16、根据本发明第一方面的方法,所述加权融合以如下公式进行表征:

17、加权融合的项数为2时,

18、加权融合的项数为3时,

19、其中,w0和w1表示加权融合的项数为2时的权重,ε表示调节参数,relu表示激活函数,conv表示卷积运算,us1、us2、us3表示要进行加权融合的项,w’0、w’1和w’2表示加权融合的项数为3时的权重。

20、根据本发明第一方面的方法,对于每个检测单元:

21、输入的融合特征经残差模块后分为完全相同的三张特征图f1、f2、f3,对f1进行横向平均池化得到pool(f1),对f2进行纵向平均池化得到pool(f2),将pool(f1)和pool(f2)进行拼接后得到拼接特征;

22、所述拼接特征先后经卷积层、归一化层和非线性处理层后,进行横向和纵向的分割处理,得到横向分割特征和纵向分割特征,所述横向分割特征和所述纵向分割特征分别经过卷积层和激活函数层后,通过加权融合得到注意力特征,所述检测单元通过对所述注意力特征进行检测来获取所述真实场景图像中包含的若干目标;

23、其中,所述输入的融合特征、三张特征图f1、f2、f3的尺寸均为c×h×w,pool(f1)的尺寸为c×h×1,pool(f2)的尺寸为c×1×w,所述拼接特征的尺寸为c×1×(w+h),c表示通道数,h表示高,w表示宽;

24、其中,所述拼接特征经卷积层后尺寸变为(c/r)×1×(w+h),r=16,经所述归一化层和所述非线性处理层后尺寸保持不变,所述横向分割特征的尺寸为(c/r)×h×1,所述纵向分割特征的尺寸为(c/r)×1×w;

25、其中,所述横向分割特征经过所述卷积层后尺寸恢复为c×h×1,经所述激活函数层后尺寸保持不变;所述纵向分割特征经过所述卷积层后尺寸恢复为c×1×w,经所述激活函数层后尺寸保持不变;

26、其中,所述注意力特征的尺寸为c×h×w;所述检测单元通过对所述注意力特征进行检测来获取所述真实场景图像中包含的若干目标。

27、本发明第二方面提出一种注意力驱动自适应特征融合轻量级目标检测系统。所述系统的处理器被配置为:

28、通过无人机采集包含若干目标的真实场景图像,对所述真实场景图像进行标注,以生成训练集、验证集和测试集;

29、基于目标检测网络检测所述训练集中的图像所包含的目标,并基于所述验证集来验证检测结果,以完成对所述目标检测网络的训练;

30、利用经训练的目标检测网络对所述测试集中的图像进行检测,以检测出所述真实场景图像中包含的若干目标;

31、其中,所述目标检测网络包括若干卷积层、若干特征提取模块、若干检测单元和一个空间金字塔快速池化层;

32、其中,所述训练集中的图像/所述测试集中的图像作为目标检测图像被送至所述目标检测网络,检测过程共分为三个阶段;

33、在第一阶段:所述目标检测图像依次经过第一卷积层、第二卷积层、第一特征提取模块、第三卷积层、第二特征提取模块、第四卷积层、第三特征提取模块、第五卷积层、第四特征提取模块和空间金字塔快速池化层;将第一特征提取模块的输出作为k1,将第二特征提取模块的输出作为k2,将第三特征提取模块的输出作为k3,将空间金字塔快速池化层的输出作为k4;

34、在第二阶段:

35、k4经第六卷积层和上采样处理后与k3加权融合得到q1,q1经第五特征提取模块后得到k5,k5经第七卷积层和上采样处理后与k2加权融合得到q2,q2经第六特征提取模块后得到k6,k6经第八卷积层和上采样处理后与k1加权融合得到q3;

36、q3经第七特征提取模块后得到k7,将k7作为第一融合特征;k7经第九卷积层后与k6、k2加权融合得到q4,q4经第八特征提取模块后得到k8,将k8作为第二融合特征;k8经第十卷积层后与k5、k3加权融合得到q5,q5经第九特征提取模块后得到k9,将k9作为第三融合特征;k9经第十一卷积层后与k4加权融合得到q6,q6经第九特征提取模块后得到k10,将k10作为第四融合特征;

37、在第三阶段:第一检测单元、第二检测单元、第三检测单元和第四检测单元分别基于第一融合特征、第二融合特征、第三融合特征和第四融合特征生成第一注意力特征、第二注意力特征、第三注意力特征和第四注意力特征,并根据第一注意力特征、第二注意力特征、第三注意力特征和第四注意力特征进行目标检测,检测的目标尺寸分别为size1、size2、size3和size4,且size1<size2<size3<size4。

38、根据本发明第二方面的系统,对于每个特征提取模块:

39、输入的要进行特征提取的图像经卷积层后得到特征图e,将特征图e分割为完全相同的量张特征图e1、e2,进一步将e1分割为完全相同的十六张特征图e1-1,...,e1-16,十六张特征图e1-1,...,e1-16分别经卷积层后进行合并得到e1’,合并e1、e1’、e2,经卷积层后得到e’;

40、其中,e的尺寸为c×h×w,e1、e2的尺寸均为(c/2)×h×w,e1-1,...,e1-16的尺寸均为(c/32)×h×w,e1’的尺寸为(c/2)×h×w,合并e1、e1’、e2后得到的特征图的尺寸为(3c/2)×h×w,e’的尺寸为c×h×w。

41、根据本发明第二方面的系统,所述加权融合以如下公式进行表征:

42、加权融合的项数为2时,

43、加权融合的项数为3时,

44、其中,w0和w1表示加权融合的项数为2时的权重,ε表示调节参数,relu表示激活函数,conv表示卷积运算,us1、us2、us3表示要进行加权融合的项,w’0、w’1和w’2表示加权融合的项数为3时的权重。

45、根据本发明第二方面的系统,对于每个检测单元:

46、输入的融合特征经残差模块后分为完全相同的三张特征图f1、f2、f3,对f1进行横向平均池化得到pool(f1),对f2进行纵向平均池化得到pool(f2),将pool(f1)和pool(f2)进行拼接后得到拼接特征;

47、所述拼接特征先后经卷积层、归一化层和非线性处理层后,进行横向和纵向的分割处理,得到横向分割特征和纵向分割特征,所述横向分割特征和所述纵向分割特征分别经过卷积层和激活函数层后,通过加权融合得到注意力特征,所述检测单元通过对所述注意力特征进行检测来获取所述真实场景图像中包含的若干目标;

48、其中,所述输入的融合特征、三张特征图f1、f2、f3的尺寸均为c×h×w,pool(f1)的尺寸为c×h×1,pool(f2)的尺寸为c×1×w,所述拼接特征的尺寸为c×1×(w+h),c表示通道数,h表示高,w表示宽;

49、其中,所述拼接特征经卷积层后尺寸变为(c/r)×1×(w+h),r=16,经所述归一化层和所述非线性处理层后尺寸保持不变,所述横向分割特征的尺寸为(c/r)×h×1,所述纵向分割特征的尺寸为(c/r)×1×w;

50、其中,所述横向分割特征经过所述卷积层后尺寸恢复为c×h×1,经所述激活函数层后尺寸保持不变;所述纵向分割特征经过所述卷积层后尺寸恢复为c×1×w,经所述激活函数层后尺寸保持不变;

51、其中,所述注意力特征的尺寸为c×h×w;所述检测单元通过对所述注意力特征进行检测来获取所述真实场景图像中包含的若干目标。

52、本发明第三方面提出一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现办发明第一方面所述的一种注意力驱动自适应特征融合轻量级目标检测方法中的步骤。

53、综上,本发明的特征融合导向目标检测方法解决了上述技术挑战,通过创新性地设计特征融合模块和优化的计算流程,提高了小目标检测的准确性,并且确保了方法在有限的计算资源上的适用性。

54、本发明提出一种特征融合模块,通过提高对小目标的特征表达能力提高无人机对小目标的检测精度;本发明还基于注意力机制设计注意力检测头,用于提高无人机在复杂背景中关注注意力区域的能力,提高无人机城市巡逻的可靠性;本发明针对无人机城市巡逻场景的特点设计完整的目标检测网络,可以在保证实时性的同时有效提高对无人机图像的检测性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1