一种基于不确定感知网络的双光车辆检测方法及装置

文档序号:26174456发布日期:2021-08-06 18:19阅读:422来源:国知局
一种基于不确定感知网络的双光车辆检测方法及装置

本发明涉及多模态目标检测领域,尤其涉及包括基于无人机的双光车辆检测数据集(dronevehicle)的构造以及通过不确定感知网络来改善多模态目标检测任务的方法及装置。



背景技术:

近年来,基于无人机的计算机视觉技术在智慧城市建设与救灾中发挥着极其重要的作用。配备有摄像头的无人机能够以一种更加宽阔的视野来收集图像,通过这种方式更有利于捕捉地面上的物体。然而,上述收集得到的图像都是鸟瞰图,具有高度复杂的背景和变化程度极大的照明。因此,基于无人机图像的对象检测在计算机视觉领域是一种重要但具有挑战性的任务。

目前已经有一些具有影响力的工作来研究基于无人机图像的对象检测任务。但是,这些研究都只在单一的rgb模式下进行。通常,在弱光条件下(如夜晚),物体在rgb图像中很难被识别,但是由红外感知得到的图像能够使物体显示比rgb图像更清晰。因此,如何发挥好rgb模态图像和红外感知模态图像的优势来联合提高目标检测任务的性能受到了社会的广泛关注。

在基于rgb–infrared(rgb-红外线)双模态图像的目标检测领域,一些研究者已经进行了深入的研究来探究多模态融合的方法。这些研究工作对这一领域的发展有很好的促进作用,但是这些研究工作通常只在城市街道上采集数据集,在航空场景上仍然存在着一些新问题。目前仍然没有大规模的空中场景数据集可以用于多模态目标检测的研究。



技术实现要素:

本发明提供了一种基于不确定感知网络的双光车辆检测方法及装置,本发明构造了一个大规模的基于无人机的rgb-红外双模态的数据集dronevehicle,提出了不确定感知模块uam,并且设计构造了uanet不确定感知网络来解决双光车辆检测问题,详见下文描述:

第一方面,一种基于不确定感知网络的双光车辆检测方法,所述方法包括:

收集并构建一基于无人机的rgb-红外线的车辆检测数据集;

构建一不确定感知网络,所述不确定感知网络包括:不确定感知模块和特征融合框架;

通过所构造的车辆检测数据集来训练所提出的不确定感知网络,得到分类与回归的预测结果然后计算损失以此更新网络中的参数;

通过训练后的模型对双光车辆进行检测。

在一种实施方式中,所述不确定感知模块将rgb红外图像对的标签信息作为先验知识,利用交并比软化对应模态的标签信息,通过软化得到不确定权重;

所述特征融合框架用于学习模态融合特征的表示,同时学习红外与rgb模态各自的特征表示。

在一种实施方式中,所述利用交并比软化对应模态的标签信息具体为:

使用交并比来评估rgb和红外图像中目标标记方块的重叠,并且完成两种模态不确定性的量化。

在一种实施方式中,所述特征融合框架具体为:

输入为一对rgb-infrared图像对,分别输入到特征提取器中,模型的参数不共享;在框架中,对于混合感知层输出的相应尺度上的红外特征和rgb特征,将二者直接应用到元素自增操作获得融合特征,被送到检测头分支用于训练。

在一种实施方式中,在训练阶段,所述不确定感知模块作用于红外模态的检测头、rgb模态的检测头以及双模态的检测头;在测试阶段,仅使用融合分支。

第二方面,一种基于不确定感知网络的双光车辆检测装置,所述装置包括:

数据集模块,用于收集并构建一基于无人机的rgb-红外线的车辆检测数据集;

不确定感知网络模块,用于构建一不确定感知网络,所述不确定感知网络包括:不确定感知模块和特征融合框架;

训练模块,用于通过所构造的车辆检测数据集来训练所提出的不确定感知网络,得到分类与回归的预测结果然后计算损失以此更新网络中的参数;

检测模块,用于通过训练后的模型对双光车辆进行检测。

第三方面,一种基于不确定感知网络的双光车辆检测装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的所述的方法步骤。

第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的所述的方法步骤。

本发明提供的技术方案的有益效果是:

1)本发明构造了一个大规模的基于无人机的rgb-infrared数据集dronevehicle(包含有来自各类场景的31,064幅图像,含有将近441,642物体实例),与其他基于无人机的数据集相比,本发明的数据集是首次且是最大规模的能够用于rgb-infrared车辆检测问题研究的数据集;

2)本发明提出了不确定感知模块uam(一种用于衡量模态不确定度的方法,可以用于多模态目标检测任务),通过先验知识,uam可以有效地衡量双模态之间的不确定度,而且,uam可以灵活地应用于各类多模态目标检测算法中;

3)本发明提出了不确定感知网络uanet,首次将图像模态交叉的不确定度信息融入到模型训练中,在所构造的数据集dronevehicle上,提出的方法的性能优于现有技术中最优的方法,并且本发明没有增加任何计算消耗,满足了实际应用中的多种需要。

附图说明

图1为整体网络的结构示意图;

图2为dronevehicle数据集中的一些样本图像的示意图;

图3为rgb模态与红外模态的不确定性的示意图;

图4为uam的示意图;

图5为不确定感知网络架构图;

图6为dronevehicle数据集上的可视化结果的示意图;

图7为一种基于不确定感知网络的双光车辆检测装置的结构示意图;

图8为不确定感知网络模块的结构示意图;

图9为一种基于不确定感知网络的双光车辆检测装置的另一结构示意图。

具体实施方式

表1为dronevehicle数据集与现有数据集的比较;

表2为在dronevehicle数据集上的实验结果;

表3为在dronevehicle数据集上的消融研究结果;

表4为在dronevehicle数据集上不同融合机制的实验结果。

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

第一方面,本发明实施例提供了一种基于不确定感知网络的双光车辆检测方法,参见图1,其中下文的双光车辆均指代的是图像的两种模态,本方法以rgb模态与红外模态为例进行说明,该方法包括以下部分:

一、构建数据集本发明实施例收集并构建了一个大规模的基于无人机的rgb-infrared车辆检测数据集dronevehicle。收集了四类在无人机应用中经常使用的目标物体(汽车、公共汽车、卡车、货车)并且采用441,642个目标检测方块标记这些类别中的目标物体实例。dronevehicle数据集与其他目标检测数据集的对比如表1所示。

表1为dronevehicle数据集与现有数据集的比较

(1)数据收集

dronevehicle数据集包含有31,064张图像,15,532对rgb-infrared双模态图像对。dronevehicle数据集通过各式各样的无人机摄像机采集,覆盖了大范围的场景(不同的城市街道、居民区、停车场、高速公路等),同时有多个目标物体类别(汽车、公交车、卡车、货车等)。dronevehicle数据集是通过无人机平台在不同的场景、不同的光照条件下收集的。dronevehicle数据集中一共有441,642个人工标注的边界框。数据集中的一些数据样本如图2所示。

(2)数据标记

数据集中的航拍图像是在不同的方位条件下拍摄的,本发明实施例精准地使用带有方位的边界框标记目标物体。

(3)数据统计

在dronevehicle数据集中标记了汽车、卡车、公共汽车、以及货车。其中,在rgb图像中一共有193,183个汽车标记,6,483个卡车标记,5,056个公共汽车标记以及4,649个货车标记。在红外感知图像中有209,167个汽车标记,7,107个卡车标记,5,431个公共汽车标记以及5,530个货车标记。显然红外感知图像比rgb图像拥有更多的标记。主要的原因在于数据集中许多数据都是在夜晚采集的。数据集中的每幅图像中平均含有14.2辆车辆,其中最多的图像中含有206辆车辆。总的来说,dronevehicle数据集包含大量的rgb图像以及与之相对应的红外图像,是一个非常先进的基准数据集。

二、使用所构造的dronevehicle数据集来训练不确定感知网络模型uanet

正如图3(a)所示,在航拍场景中可能存在rgb图像完全失光的情况。此时,每个物体的确切位置是不确定的,但对应的红外图像可以补充rgb图像中的不确定物体。然而,在一些光照条件比较好的白天时,红外图像缺少如颜色和外观细节等信息。如图3(b)所示,红外图像中有一些物体看起来很像车辆,但并不是车辆。此外,由于红外成像期间的热交叉现象,在红外图像中没有车辆的位置有可能会出现“鬼影”。在使用红外图像进行目标检测时,这些问题都会造成较强的不确定性,最终会影响目标监测模型的精度。另外,由于两台相机在图像采集过程中存在方位上的细微差异,红外图像和rgb图像之间可能存在一定的像素错位,这也带来了多模态的不确定性。

考虑到多模态的不确定性,本发明实施例想探究是否可以通过数据样本的先验信息来量化两个模态的不确定性,使模型从不确定性中获得性能改进。

本发明实施例提出了一种基于目前流行的目标检测方法的不确定感知网络(uanet)。该不确定感知网络uanet包括:一个不确定感知模块(uam)和一个特征融合框架。uam将rgb红外图像对的标签信息作为先验知识,利用iou(交并比)方法来软化对应模态的标签信息。通过软化得到的不确定权重将会在模型的训练阶段发挥重要作用。

特征融合框架使uanet不仅能够学习模态融合特征的表示,同时还能学习红外与rgb模态各自的特征表示。

不确定感知网络(uanet)的模型架构:

正如上文所提到的,单一的模态总会存在不确定性,所以希望利用这种不确定性来提升多模态模型的性能。模型的总体架构如图1所示。不确定感知网络(uanet)由两部分构成:不确定感知模块与特征融合架构。

(1)不确定感知模块(uam)

不确定性可以用来评价不同模态之间的可信度。而对于不确定性的量化,前人的一些工作更注重于构建一个数学分布,将不确定性量化以数学的方式进行评价,例如:使用方差、标准差等指标。但在多模态的目标检测任务中,本发明实施例希望以任务驱动的方式量化不确定性。所提出的不确定感知模块如图4所示。

iou是一种非常流行的评估目标定位质量的方法。在不确定性感知模块中,使用iou(intersectionoverunion)来评估rgb和红外图像中目标标记方块的重叠并且完成两种模态不确定性的量化。brgb表示rgb图像中的标记方块,binfrared表示红外图像中的标记方块。area是计算多边形面积的函数。计算公式如下:

在uam中,首先计算rgb图像和红外图像的标记方块之间的iou。理想情况下,两者之间的iou计算结果应该接近1。但是,rgb图像中能见度较低的对象缺少标注。因此,红外模态下的一些标记方块在rgb模态下很难找到相应的位置。但是在rgb图像中这些缺失的物体是真实存在的,所以需要补充。正如前面所提到的,这些丢失的目标物体是不确定的,所以设置一个不确定权重wrgb,wrgb被分配给这些丢失的目标对象以及丢失的标记边界框。红外图像中的物体往往具有混淆的外观,人工标注时很容易错过标注。在这种情况下,还需要利用rgb图像中相应物体的标记方块来补充红外图像中缺失的物体。当rgb图像中标注的目标数量多于红外图像中标注的目标数量时,将rgb模态下的标记方块和红外模态下的不确定性权重分配给红外模态下缺失的目标物体。在本文中,设置winfrared为1。

由于在图像采集过程中很难保证两种模态的图像在对应的像素位置上完全对齐,因此iou计算结果可能不等于1。将对齐阈值设置为q。当iou的计算结果小于q或者不等于0,将红外模态图像中的目标位置作为真实值,将iou计算结果作为不确定权重同时将权重赋予rgb模态中目标物体的标记方块。

在训练过程中,不确定权重能够实现不确定目标物体的标记方块回归损失函数的软化。这将引导模型更多地关注两种模态中具有歧义性的目标物体,而避免模型过多地关注两种模态中具有不确定性的目标物体。uam中的不确定权重w计算公式如下:

其中,wrgb为rgb模态的不确定权重,rgb为rgb模态,winfrared为红外模态的不确定权重,iou为iou测量标准。

(2)特征融合框架

选择roitransformer(已有模型名称,本领域技术人员所公知,本发明实施例对此不做赘述)作为基础的目标检测模型,将roitransformer模型改造成双模态模型架构。特征融合框架的输入为一对rgb-infrared图像对,分别输入到特征提取器中,模型的参数是不共享的。在框架中,对于fpn(混合感知层)层输出的相应尺度上的红外特征和rgb特征,模型将二者直接应用到元素自增操作(本领域技术人员所公知,本发明实施例对此不做赘述)获得融合特征,然后被送到检测头分支用于训练。同时,考虑到红外模态和rgb模态各有特点,所以在训练阶段,仍然保留红外模态和rgb模态的独立检测头分支。本发明实施例提出的uam(不确定感知模块)也作用于这三个检测头分支(即红外模态的检测头、rgb模态的检测头以及双模态的检测头)。如图5所示,在测试阶段,只使用中间的融合分支。

在检测头分支中,uam分别作用于rpn模块和roitransformer模块。rpn模块负责产生horizontalproposals,roitransformer模块将horizontalproposals转换为带有方向的边界框,并进行精细的分类和回归。uam可以重新校准这两个模块中涉及的目标对象边界框回归的权值,软化某些目标对象的回归损失函数。引入uam后,框架能够更加有引导性地被训练。在uanet中,目标对象的边界框回归的损失函数lloc计算如下:

其中,i∈{x,y,w,h,θ},tu表示预测的结果,u表示真实的类别,v代表真实的标记方块的回归目标值,w表示不确定性权值。(x,y)表示预测结果的中心点,(w,h)表示预测结果的宽和高,smoothl1为软化函数,l1为正则化。

以rgb模态分支为例,使用了多任务损失lrgb将分类与标记框回归训练合并:

lrgb(p,u,tu,v,w)=lcls(p,u)+λ[u≥1]lloc(tu,v,w)(4)

其中,lcls使用交叉熵损失函数,p代表每个类别的预测概率大小。当u≥1时,括号指示函数[u≥1]的值为1否则为0。按照惯例,包含所有物体的背景类标记为u=0。超参数λ控制两个任务之间的损失平衡。在所有的实验中λ=1。在uanet中,总的损失函数计算包含三个分支,将这些损失进行加权求和:

l=αlrgb+βlinfrared+γlfusion(5)

其中,α,β,γ是超参数,linfrared为红外感知模块的损失,lfusion为混合模态的损失。在所有的实验中这些超参数的值均设置为1。

三、模型训练

按照上述所描述的模型架构,通过所构造的dronevehicle数据集来训练所提出的不确定感知网络(uanet),由模型得到分类与回归的预测结果然后计算损失以此来更新网络中的参数由此训练网络。

四、模型的使用细节(训练与测试)

提出的uanet模型使用resnet50-fpn作为骨干网络,该模型已经预先在imagenet数据集上训练过。数据集中的每幅图像以0.5的概率随机水平翻转以增加数据多样性。整个模型通过sgd优化算法进行学习,学习率设置为0.005,一个batch的大小的4。权重衰减与动量分别设置为0.0001与0.9。在uanet网络中,设置rgb模态的不确定度wrgb为0.05,设置红外模态的不确定度winfrared为1。将对齐阈值q设置为0.8。

五、将提出的模型与现有的模型在所构造的数据集上进行对比(针对双光车辆检测问题)。

为了验证本发明实施例所提出的基于不确定感知网络的双光车辆检测方法的有效性,选取了目前最好的方法作为baseline方法与之进行对比。

检验策略:使用map(meanaverageprecision)评价指标来评估基于无人机的双光车辆检测方法。map评价指标衡量了测试集中边界框的质量(如果预测与真实标签的iou计算值大于0.5则将预测视为正确)。

实验结果:

在相同的设置下,将所提出的方法与目前最优的方法在dronevehicle数据集上进行比较,实验结果如表2所示。所提出的uanet在每一个类别中均达到最高的ap值。进行比较的所有算法都是在rgb模态和红外模态下独立训练的。所有的结果均在双模态融合后得到的标签下进行评估。

为了进行公平性比较,往比较算法roitransformer中引入了的元素添加操作,赋予其融合能力。与单模态结果相比,具有元素添加的roitransformer有了显著的改进。rgb模态的结果提高了4.78%,红外模态的结果则提高了5.77%。所比较的方法与uanet的主要区别是缺少uam模块,这使得结果降低了4.4%。这也说明了uam模块在uanet中的有效性。

表2为在dronevehicle数据集上的实验结果

为了验证uam的有效性,选择roitransformer作为baseline,直接将uam加入到baseline上,分别训练rgb模态下目标检测模型和红外模态下的目标检测模型。如表3所示,uam可以有效地提高两种模态的map值。其中,rgb模态增加了3.13%,红外模态增加了2.78%。另外,在baseline中加入了元素自增操作,使用了与uanet相同的训练设置,map仍然比uanet低4.4%,这也证明了uam的有效性。值得一提的是,本发明提出的uam可以为单模态模型或融合模型产生收益,而增加的计算成本可以忽略不计。

表3在dronevehicle数据集上的消融研究结果

为了验证uanet中元素自增操作的有效性,从表3中可以看出,在rgb模态下uanet的map比baseline(uam)模型高6.05%,在红外模态下比baseline(uam)模型高7.39%。此外,还为实验的baseline模型添加了元素自增操作。在测试集上,其map值比rgb模态训练的baseline模型高5.77%,比红外模态训练的baseline模型高4.78%。上述的实验结果表明元素自增操作是非常有效的。

在不同的多模态特征融合方法中,本发明的目标是使用最简单的方法来实现特征级的融合,即元素加操作。为了验证uam对其他融合方法的影响,使用连接操作而不是元素自增操作,然后使用1*1的卷积核来保证通道数量的一致性。还做了两个比较实验,分别为baseline(cat)和baseline(ewa),区别只在于是否有uam模块,模型其余的配置是相同的。从表4可以看出,uanet(cat)的map比baseline(cat)的map高1.16%。这也证明了本发明所提出的uam模块是有效的,并且可以嵌入到其他rgb-infrared融合框架中而不需要额外的成本。

表4为dronevehicle数据集上不同融合机制的实验结果

此外,还发现,在使用uam模块之后,元素添加操作相较于连接操作使模型的map值提升更高,并且不引入任何模型参数。因此,选择元素自增操作作为uanet中的特征融合方法。在同一场景中,baseline模型有一些明显的漏检和错误检测。相比之下,本发明提出的uanet具有更高的检测精度。如果baseline使用uam可以缓解漏检和错误检测的问题。

第二方面,本发明实施例提供了一种基于不确定感知网络的双光车辆检测装置,参见图6,该装置包括:

数据集模块1,用于收集并构建一基于无人机的rgb-红外线的车辆检测数据集;

不确定感知网络模块2,用于构建一不确定感知网络,参加图7,不确定感知网络包括:不确定感知子模块21和特征融合框架22;

训练模块3,用于通过所构造的车辆检测数据集来训练所提出的不确定感知网络,得到分类与回归的预测结果然后计算损失以此更新网络中的参数;

检测模块4,用于通过训练后的模型对双光车辆进行检测。

其中,该不确定感知子模块21用于将rgb红外图像对的标签信息作为先验知识,利用交并比软化对应模态的标签信息,通过软化得到不确定权重;

该特征融合框架22用于学习模态融合特征的表示,同时学习红外与rgb模态各自的特征表示。

在一种实施方式种,利用交并比软化对应模态的标签信息具体为:

使用交并比来评估rgb和红外图像中目标标记方块的重叠,并且完成两种模态不确定性的量化。

其中,特征融合框架22具体为:

输入为一对rgb-infrared图像对,分别输入到特征提取器中,模型的参数不共享;在框架中,对于混合感知层输出的相应尺度上的红外特征和rgb特征,将二者直接应用到元素自增操作获得融合特征,被送到检测头分支用于训练。

在训练阶段,该不确定感知子模块21作用于红外模态的检测头、rgb模态的检测头以及双模态的检测头;在测试阶段,仅使用融合分支。

这里需要指出的是,以上实施例中的装置描述是与上述方法实施例描述相对应的,本发明实施例在此不做赘述。

上述各个模块、单元的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。

基于同一发明构思,本发明实施例还提供了一种基于不确定感知网络的双光车辆检测装置,参见图8,该装置包括:处理器5和存储器6,存储器6中存储有程序指令,处理器5调用存储器6中存储的程序指令以使装置执行实施例中的以下方法步骤:

收集并构建一基于无人机的rgb-红外线的车辆检测数据集;

构建一不确定感知网络,不确定感知网络包括:不确定感知模块和特征融合框架;

通过所构造的车辆检测数据集来训练所提出的不确定感知网络,得到分类与回归的预测结果然后计算损失以此更新网络中的参数;

通过训练后的模型对双光车辆进行检测。

在一种实施方式中,不确定感知模块将rgb红外图像对的标签信息作为先验知识,利用交并比软化对应模态的标签信息,通过软化得到不确定权重;

所述特征融合框架用于学习模态融合特征的表示,同时学习红外与rgb模态各自的特征表示。

在一种实施方式中,利用交并比软化对应模态的标签信息具体为:

使用交并比来评估rgb和红外图像中目标标记方块的重叠,并且完成两种模态不确定性的量化。

在一种实施方式中,特征融合框架具体为:

输入为一对rgb-infrared图像对,分别输入到特征提取器中,模型的参数不共享;在框架中,对于混合感知层输出的相应尺度上的红外特征和rgb特征,将二者直接应用到元素自增操作获得融合特征,被送到检测头分支用于训练。

在一种实施方式中,在训练阶段,不确定感知模块作用于红外模态的检测头、rgb模态的检测头以及双模态的检测头;在测试阶段,仅使用融合分支。

这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。

上述的处理器5和存储器6的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。

存储器6和处理器5之间通过总线7传输数据信号,本发明实施例对此不做赘述。

基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1