本发明涉及无人机航拍目标检测问题,具体涉及结合场景透视信息的无人机航拍目标检测方法。
背景技术:
无人机凭借着卓越的灵活性和便携性,广泛应用于农业、影视、测绘、监控、快递、户外搜救等领域。为了应对航拍数据的智能识别这一需求,无人机目标检测成为了当下的研究热点。
不同于普通图像,无人机航拍图像中的目标表现出更显著的尺度多样性:不仅不同图像中的相同目标存在巨大尺寸差异,即使是同一图像中处于不同位置的相同目标尺寸差异依然明显。这导致了现有的深度学习方法在无人机航拍目标检测任务上表现的不尽人意。以最大的通用目标数据集coco和近期的大型无人机航拍数据集visdrone为例,coco检测精度最高的五个方法平均准确率是51.88%,而同一评价标准下的visdrone结果仅为27.81%。
无人机航拍图像中的目标尺度变化虽然剧烈,但却符合一定的规律:1)由于无人机具备一定的飞行高度,故所有目标均和镜头有一定距离,拍摄出的目标不会有严重的目标间遮挡或镜头畸变的情况;2)无人机在拍摄若干张图像时通常使用相同的镜头参数,拍摄出的图像场景符合严格的透视关系;3)只要确认无人机的镜头参数、姿态以及飞行高度,场景的形态则完全确定。通过确定场景的透视关系,可以换算出图像中各个位置应有的目标尺度,进而指导目标检测流程。
综上,改善无人机目标检测的关键是结合并利用场景透视信息。本发明提出结合场景透视信息的无人机航拍目标检测方法:使包括以下步骤:使用主干网络提取图像特征金字塔;通过当前无人机传感器获取动态透视估计参数;通过其他已检测航拍图像集计算静态透视估计参数;使用透视估计参数计算图像场景透视估计图;构建区域生成网络,筛除透视适配性差的锚点,生成感兴趣区域;计算各个感兴趣区域符合透视关系的区域特征;执行分类和定位,输出目标检测结果。
本发明涉及到以下现有技术:
现有文献1:hekaiming,etal."deepresiduallearningforimagerecognition."proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2016.
现有文献2:ren,shaoqing,etal."fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks."advancesinneuralinformationprocessingsystems.2015.
现有文献3:lin,tsungyi,etal."featurepyramidnetworksforobjectdetection"proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2016.
现有文献1提出残差网络,利用残差链接降低深层网络的训练难度,得出具有强大表征/分类能力的主干特征。现有文献2提出区域生成网络,直接在主干特征上利用预设锚点生成感兴趣区域。现有文献3介绍了特征金字塔,增强了对于不同尺度目标的特征表达能力。本发明使用现有文献1的技术提取主干特征;使用现有文献2的技术作为目标分类和定位的框架;使用现有文献3的技术构建特征金字塔。
技术实现要素:
本发明旨在改善无人机航拍目标检测的速度和精度,从而更好的完成基于无人机视觉的监控、搜索、作业等任务。为了达到上述目的,根据本发明提供结合长镜头是信息的无人机航拍目标检测方法,通过无人机和已检测数据计算当前场景透视估计图,并通过透视估计图指导筛除适配性差的锚点来生成感兴趣区域,计算各个感兴趣区域符合透视的区域特征,最终执行分类和定位,输出目标检测结果。
本发明的目的至少通过如下技术方案之一实现。
结合场景透视信息的无人机航拍目标检测方法,包括以下步骤:
s1、输入当前无人机航拍图像,使用主干网络提取图像特征金字塔;
s2、通过当前无人机传感器获取动态透视估计参数;
s3、通过其他已检测航拍图像集计算静态透视估计参数;
s4、使用动态透视估计参数以及静态透视估计参数计算图像场景透视估计图;
s5、构建区域生成网络,筛除透视适配性差的锚点,生成感兴趣区域;
s6、计算各个感兴趣区域符合透视关系的区域特征;
s7、执行分类和定位,输出目标检测结果。
进一步地,步骤s1中,所述主干网络为五阶的残差网络,每一阶包括若干个串联的残差模块,同阶的各个残差模块的特征尺寸相同,相邻各阶之间特征尺寸缩小两倍;所述特征金字塔为主干网络二阶至五阶每阶最后一张特征图,从高阶到低阶依次进行特征融合后的集合;
所述特征融合包括以下步骤:
s1.1、对每一阶特征图使用1*1大小的卷积核进行卷积运算,降低通道维度至和低阶特征图相同;
s1.2、使用最近邻上采样方法将高阶特征图放大到低阶特征图的尺寸;
s1.3、将放大后的高阶特征图与低阶特征图进行元素相加,用相加后的特征图替代原有的低阶特征图。
进一步地,步骤s2中,所述当前无人机传感器,包括无人机携带的相机、海拔计和陀螺仪;
所述动态透视估计参数,为通过当前无人机传感器可直接获得的,检测每张图像时均不同的参数,具体包括:
一、当前无人机的飞行高度hi,通过海拔计获得;
二、当前无人机的俯仰角
三、当前无人机相机的像素间距μi和镜头焦距fi;
各参数中的下标i表示当前图像。
进一步地,步骤s3中,所述其他已检测航拍图像集,为当前无人机已拍摄并包括检测结果的其他图像的集合;所述包括检测结果指图像中待检测目标已包括目标类别和包裹框信息,该检测结果可来源于人工标注或其他方法检测;
所述静态透视估计参数,为通过图像集计算得到的,检测不同图像时均相同的参数,具体包括图像集中所有目标的数量nb、各个目标的类别cb、各个目标包裹框以像素为单位的宽wb和高hb;
所述步骤s3,在使用相同无人机进行拍摄和检测时,只需执行一次。
进一步地,步骤s4中,所述透视估计图用语估计图像中每个位置应有的目标尺度,由式(1)计算得到:
其中,pes代表透视估计图,i代表当前图像;j代表当前图像中的某一位置,j的像素坐标为(xj,yj);λ代表调整因子,
其中,θi表示步骤s2中获取的动态透视估计参数,即包括hi、
其中,wi和hi分别为图像i的宽度和高度。
进一步地,所述透视数据拟合方法的实现包括以下步骤:
s4.1、将式(1)和式(2)联立并调整为线性方程的形式,调整后线性方程如式(4)所示:
y=fθ(x1,x2)=β1x1+β2x2+β3;(4)
其中,β1、β2和β3为线性方程待求解参数,x1、x2和y为将式(2)中各变量换元得到,换元方法如式(5)所示:
s4.2、计算参考尺度
其中,nb、wb和hb为步骤s3中的静态透视估计参数;wc为类别可靠性权重,用以描述目标b所处的类别c在不同视角下的姿态稳定性,wc∈(0,1],值越大代表可靠性越强,计算方法如式(7)所示:
其中,σc代表类别c中所有目标包裹框长宽比的标准差;minσ代表所有类别的σc中的最小值;
s4.3、用数据拟合权重的形式间接计算调整因子λ,各条目标包裹框数据λb的拟合权重计算方法如式(8)所示:
其中,
s4.4、带入数据并求解式(4)中的待求解参数,拟合数据时使用均方误差作为损失函数,如式(9)所示:
式(9)存在解析解,如式(10)所示:
[β1,β2,β3]=(xtλbx)-1xtλby;(10)
将解得参数带入式(4)并转换回式(1),即可直接计算所述尺度估计图pes。
进一步地,步骤s5中,所述区域生成网络在经典的区域生成策略中添加了锚点筛除机制;区域生成网络的实现包括以下步骤:
s5.1、使用经典区域生成策略生成预设置锚点;将步骤s1中得到的特征金字塔最后一阶下采样为0.5倍尺寸,并串联在原特征金字塔后,记为{p2,p3,p4,p5,p6};在每一层特征图中,以每一个像素为中心设置宽高比分别为{1∶2,1∶1,2∶1}的三个预设值锚点区域;从浅到深每一层特征图中,预设值锚点区域大小分别为ai={322,642,1282,2562,5122};
s5.2、调整透视估计图尺寸;对于每一层特征图,单独计算该尺寸的透视估计图,记为pesi,然后将后四层特征图对应的透视估计图通过最近邻插值法放大到和第一层特征图对应的透视估计图相同的尺寸;
s5.3、计算锚点区域尺寸和透视估计图尺寸最适配层;对于透视估计图上的每一个像素位置j,均存在一对透视估计图pesi和预设锚点区域尺寸ai的值最为接近,由式(11)计算得到:
对于每一个位置j,均存在唯一的层数i和其对应,将该层记为
s5.4、对于每一层的每个像素构造筛选步长,由式(12)计算得到:
s5.5、筛除透视适配性差的锚点;将步骤s5.3中标记为
若筛除标记值ηij为0,则该处的预设置锚点框进行筛除;否则保留并送入区域头部网络生成感兴趣区域。
进一步地,步骤s6中,所述符合透视关系的区域特征是依据透视估计图在特征金字塔各层中挑选得到,其实现包括以下步骤:
s6.1、计算各感兴趣区域在原图的透视加权尺寸;将感兴趣区域映射回原图,其宽高记为w0和h0,其中心点坐标处的透视估计图值记为pes0,则透视加权尺寸由式(14)计算得到:
s=αk·w0h0+(1-αk)·pes0;(14)
其中αk为权重因子;
s6.2、计算区域特征对应的最佳特征层;在特征金字塔[p2,p3,p4,p5]中,当前区域特征对应的最佳特征层为pk层,由式(15)计算得到:
其中,k0=5,表示最大层;
s6.3、将感兴趣区域映射到pk层上,取对应区域池化成固定大小,作为区域特征。
进一步地,步骤s7中,所述执行分类和定位分别通过分类头部网络和定位头部网络来实现;所述分类头部网络包括两层全连接层,输入区域特征后输出n个类别的分类得分,n为类别个数,并通过softmax算法确定该目标的最终类别;所述定位头部网络包括两层全连接层,输入区域特征后输出4个包裹框回归系数,并使用包裹框回归系数调整目标框的最终位置;最终输出每个包裹框中物体的类别和包裹框的位置。
与现有的技术相比,本发明的有益效果为:
本发明通过结合场景透视信息,同时提高了无人机航拍目标检测的精度和速度。
附图说明
图1为本发明实施例中结合场景透视信息的无人机航拍目标检测方法的流程图。
具体实施方式
提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解,但是这些被认为仅仅是示例性的。因此,本领域的普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本发明描述的各种实施例进行各种改变和修改。另外,为了清楚和简明,可以省略对公知功能和结构的描述。
在下面的描述和权利要求中使用的术语和词语不限于书面含义,而是仅由发明人使用使得能够清楚和一致地理解本公开。因此,本领域技术人员应该清楚,提供本公开的各种实施例的以下描述仅用于说明的目的,而不是为了限制由所附权利要求及其等同物限定的本公开。
实施例:
结合场景透视信息的无人机航拍目标检测方法,如图1所示,包括以下步骤:
s1、输入当前无人机航拍图像,使用主干网络提取图像特征金字塔;
所述主干网络为五阶的残差网络,每一阶包括若干个串联的残差模块,同阶的各个残差模块的特征尺寸相同,相邻各阶之间特征尺寸缩小两倍;所述特征金字塔为主干网络二阶至五阶每阶最后一张特征图,从高阶到低阶依次进行特征融合后的集合;
所述特征融合包括以下步骤:
s1.1、对每一阶特征图使用1*1大小的卷积核进行卷积运算,降低通道维度至和低阶特征图相同;
s1.2、使用最近邻上采样方法将高阶特征图放大到低阶特征图的尺寸;
s1.3、将放大后的高阶特征图与低阶特征图进行元素相加,用相加后的特征图替代原有的低阶特征图。
s2、通过当前无人机传感器获取动态透视估计参数;
所述当前无人机传感器,包括无人机携带的相机、海拔计和陀螺仪;
所述动态透视估计参数,为通过当前无人机传感器可直接获得的,检测每张图像时均不同的参数,具体包括:
一、当前无人机的飞行高度hi,通过海拔计获得;
二、当前无人机的俯仰角
三、当前无人机相机的像素间距μi和镜头焦距fi;
各参数中的下标i表示当前图像。
s3、通过其他已检测航拍图像集计算静态透视估计参数;
所述其他已检测航拍图像集,为当前无人机已拍摄并包括检测结果的其他图像的集合;所述包括检测结果指图像中待检测目标已包括目标类别和包裹框信息,该检测结果可来源于人工标注或其他方法检测;
所述静态透视估计参数,为通过图像集计算得到的,检测不同图像时均相同的参数,具体包括图像集中所有目标的数量nb、各个目标的类别cb、各个目标包裹框以像素为单位的宽wb和高hb;
所述步骤s3,在使用相同无人机进行拍摄和检测时,只需执行一次。
s4、使用动态透视估计参数以及静态透视估计参数计算图像场景透视估计图;
所述透视估计图用语估计图像中每个位置应有的目标尺度,由式(1)计算得到:
其中,pes代表透视估计图,i代表当前图像;j代表当前图像中的某一位置,j的像素坐标为(xj,yj);λ代表调整因子,
其中,θi表示步骤s2中获取的动态透视估计参数,即包括hi、
其中,wi和hi分别为图像i的宽度和高度。
所述透视数据拟合方法的实现包括以下步骤:
s4.1、将式(1)和式(2)联立并调整为线性方程的形式,调整后线性方程如式(4)所示:
y=fθ(x1,x2)=β1x1+β2x2+β3;(4)
其中,β1、β2和β3为线性方程待求解参数,x1、x2和y为将式(2)中各变量换元得到,换元方法如式(5)所示:
s4.2、计算参考尺度
其中,nb、wb和hb为步骤s3中的静态透视估计参数;wc为类别可靠性权重,用以描述目标b所处的类别c在不同视角下的姿态稳定性,wc∈(0,1],值越大代表可靠性越强,计算方法如式(7)所示:
其中,σc代表类别c中所有目标包裹框长宽比的标准差;minσ代表所有类别的σc中的最小值;
s4.3、用数据拟合权重的形式间接计算调整因子λ,各条目标包裹框数据λb的拟合权重计算方法如式(8)所示:
其中,
s4.4、带入数据并求解式(4)中的待求解参数,拟合数据时使用均方误差作为损失函数,如式(9)所示:
式(9)存在解析解,如式(10)所示:
[β1,β2,β3]=(xtλbx)-1xtλby;(10)
将解得参数带入式(4)并转换回式(1),即可直接计算所述尺度估计图pes。
s5、构建区域生成网络,筛除透视适配性差的锚点,生成感兴趣区域;
所述区域生成网络在经典的区域生成策略中添加了锚点筛除机制;区域生成网络的实现包括以下步骤:
s5.1、使用经典区域生成策略生成预设置锚点;将步骤s1中得到的特征金字塔最后一阶下采样为0.5倍尺寸,并串联在原特征金字塔后,记为{p2,p3,p4,p5,p6};在每一层特征图中,以每一个像素为中心设置宽高比分别为{1∶2,1∶1,2∶1}的三个预设值锚点区域;从浅到深每一层特征图中,预设值锚点区域大小分别为ai={322,642,1282,2562,5122};
s5.2、调整透视估计图尺寸;对于每一层特征图,单独计算该尺寸的透视估计图,记为pesi,然后将后四层特征图对应的透视估计图通过最近邻插值法放大到和第一层特征图对应的透视估计图相同的尺寸
s5.3、计算锚点区域尺寸和透视估计图尺寸最适配层;对于透视估计图上的每一个像素位置j,均存在一对透视估计图pesi和预设锚点区域尺寸ai的值最为接近,由式(11)计算得到:
对于每一个位置j,均存在唯一的层数i和其对应,将该层记为
s5.4、对于每一层的每个像素构造筛选步长,由式(12)计算得到:
s5.5、筛除透视适配性差的锚点;将步骤s5.3中标记为
若筛除标记值ηij为0,则该处的预设置锚点框进行筛除;否则保留并送入区域头部网络生成感兴趣区域。
s6、计算各个感兴趣区域符合透视关系的区域特征;
所述符合透视关系的区域特征是依据透视估计图在特征金字塔各层中挑选得到,其实现包括以下步骤:
s6.1、计算各感兴趣区域在原图的透视加权尺寸;将感兴趣区域映射回原图,其宽高记为w0和h0,其中心点坐标处的透视估计图值记为pes0,则透视加权尺寸由式(14)计算得到:
s=αk·w0h0+(1-αk)·pes0;(14)
其中αk为权重因子;
s6.2、计算区域特征对应的最佳特征层;在特征金字塔[p2,p3,p4,p5]中,当前区域特征对应的最佳特征层为pk层,由式(15)计算得到:
其中,k0=5,表示最大层;
s6.3、将感兴趣区域映射到pk层上,取对应区域池化成固定大小,作为区域特征。
s7、执行分类和定位,输出目标检测结果。
所述执行分类和定位分别通过分类头部网络和定位头部网络来实现;所述分类头部网络包括两层全连接层,输入区域特征后输出n个类别的分类得分,n为类别个数,并通过softmax算法确定该目标的最终类别;所述定位头部网络包括两层全连接层,输入区域特征后输出4个包裹框回归系数,并使用包裹框回归系数调整目标框的最终位置;最终输出每个包裹框中物体的类别和包裹框的位置。
本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。