一种偏振高光谱低空侦察图像典型目标检测方法与流程

文档序号:15983606发布日期:2018-11-17 00:37阅读:295来源:国知局

本发明隶属于偏振成像探测和计算机视觉领域,涉及一种新的目标检测新方法,适用偏振高光谱低空侦察图像典型目标检测。

背景技术

近年来,无人机运用于战场侦察、打击的规模越来越大,对战场目标的快速自动识别是无人机领域重要的性能指标和发展趋势之一,在目标图像的质量不断提升的同时,对目标检测算法进行研究改进,可以进一步提升无人机等低空平台的目标检测效能。

由于深卷积神经网络(convolutionneuralnetwork,cnn)的发展和训练数据集规模的不断增加,目标检测近年来产生了突破性进展。最先进的目标检测方法一般采用基于区域的cnn框架,该框架包括三个组成部分:候选区域,特征提取和目标类别分类。到目前为止,已经提出了很多候选区域方法和深度cnn架构,但目标类别分类方法比较单一,主要以svm/softmax分类器为主,虽然提高了目标检测的精度和鲁棒性,但仍然是直接从cnn特征中学习到一个最佳映射,缺乏显式挖掘深层特征的复杂结构的能力。

辨别字典学习(dictionarypairlearning,ddl)在近十年来取得了巨大的成功,而ddl的目的是学习一个字典并考虑其表示精度和判别能力,因此更适合作为目标类别分类的分类器。现有的ddl方法的存在两个主要不足:第一,使用的是常规手提特征的方法(例如,sift和hog);第二,涉及繁重的“l0”或“l1”范数正则化以生成稀疏编码向量,限制了其在具有高特征维度和大量数据的场景中的运用。针对该问题,有学者提出投影双字典学习(projectivedictionarypairlearning,p-dpl)方法,大大提高了计算效率,本发明在p-dpl方法的模型基础上,设计了双字典分类器层(dictionarypairclassifierlayer,dpcl)用于目标检测,由深层cnn生成dpcl需要的深层特征,通过cnn框架和dpcl的结合来提高无人侦察平台的图像分类和目标检测性能。

在低空典型目标的分类识别问题方面,目前有基于主成分分析(principalcomponentsanalysis,pca)白化的卷积神经网络结构来处理军事目标的大规模图像分类问题;有学者基于深度学习提出了自动目标识别技术思路,结合深度特征和空间金字塔池化技术实现军事目标的自动检测。但以上所使用的目标图像均为传统的可见光彩色图像,偏振高光谱探测能够将获取图像的信息扩展到多维度,同时增大目标和背景的对比度,更加有利于目标的检测工作,因此高光谱偏振图像在军事侦察领域具有更好的前瞻性和广泛的应用前景。



技术实现要素:

基于此,本发明提出了一种偏振高光谱低空侦察图像典型目标检测方法,包括如下步骤:

步骤一、采集多场景下的图像样本集,所述图像样本集包括测试样本集和训练样本集;

步骤二、将所述样本集发送到优化系统进行处理;

步骤三、由所述优化系统输出检测结果。

所述采集多场景下的图像样本集包括利用偏振高光谱低空目标检测模拟平台进行样本集的采集;

所述优化系统包括深卷积神经网络cnn模块和双字典分类器层dpcl模块,所述cnn模块由卷积层、池化层和全连接层构成,用于提取图像特征,评估分数判断是否为目标,所述dpcl模块基于cnn提取的图像特征进行目标的分类和定位,分为目标dpcl和类别dpcl,用于计算作为特定目标类别的得分。

所述将所述样本集发送到优化系统进行处理,包括,

步骤2.1、采用特征学习和分类器学习联合训练机制,优化cnn参数和dpcl;

步骤2.2、通过cnn提取特征,并对所述特征进行复制,同时传递给目标dpcl层和类别dpcl层;

步骤2.3、计算目标类别得分,并判定目标类别;

步骤2.4、通过边界框回归计算目标边界框的位置。

所述采用特征学习和分类器学习联合训练机制,优化cnn参数和dpcl,包括,

首先,定义dpcl如下:

其中,λ>0,κ>0,是标量常数,表示xk的互补数据矩阵,为约束项;

其次,对双字典(dk,pk)分别优化,

{pk,dk}的偏导数定义为:

根据得出xk的偏导数:

获得所有之后,执行反向传播更新cnn参数。

所述通过cnn提取特征,并对所述特征进行复制,同时传递给目标dpcl层和类别dpcl层,包括:

给定测试图像上一个候选区域i,首先从i提取cnn特征x,然后定义第k类别的重构残差:

dpcl的分类规则如下:

当y≠0时,进一步使用边界框回归调整目标最初定位的位置,通过cnn层提取特征后,特征被复制并同时传递给目标dpcl层和类别dpcl层。

所述计算所述目标类别得分,并判定目标类别,包括:

首先,输入区域特征x的目标分数q(x)被定义为:

其中t控制检测的精度和检测背景召回率,本发明根据验证集经验设置为0.5,并基于q(x)是否为0来识别背景;

其次,类别分数s(x,k)被定义为:

其中,k是目标类别的数量,β设置为0.003,最后使用乘法定则来融合目标分数和类别分数,x属于第k类的类别分数定义为:

设置φ表示cnn层函数,ii表示带有类别标签yi的输入区域,特征x=φ(i,ω),则最终分类损失定义为:

其中|∈{0,1}是指标函数,r{ω,d,p}表示关于cnn的参数和两个dpcl的正则化项。

所述通过边界框回归计算目标边界框的位置,包括,

是候选区域i的预测和地面实况边界框,其中k表示i属于第k个目标类别,然后将边界框回归损失定义为:

其中h1(z)是huber损失,对异常值具有鲁棒性:

根据求和规则,合并lcls和lloc,多任务损失定义为:

其中是表示ii是否为目标的指标。

最后,输出目标检测结果。

本发明的有益效果:

可以结合不同的cnn框架,灵活性较高,能够增强偏振高光谱图像目标和背景的对比度,在一定程度上降低了背景的复杂程度,使得目标更为突出,有助于检测结果的,对于提高偏振成像目标探测和识别具有重要意义。

附图说明

图1为本发明的目标检测框架图

图2为本发明的模型检测过程流程图

图3为本发明的图像采集设备和缩比模型

图4为fasterr-cnn框架下两种图像的检测效果对比

图5为本发明的cnn+dpcl检测效果图

图6为本发明的模拟不同场景下所获取的目标图像

具体实施方式

下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

目标检测的框架如图1所示,整个过程分图像数据采集、网络模型训练、目标样本检测等三个阶段。在图像数据采集阶段,利用偏振高光谱低空目标检测模拟平台,获得目标在多场景下的图像训练样本集;第二阶段,采用采用特征学习和分类器学习联合训练机制,并以dpbp算法实现端到端优化cnn+dpcl框架;在第三阶段,则通过cnn提取特征被复制并同时传递给dpcl,完成目标类别判定,得到检测结果。

模型框架由cnn模块和dpcl模块两个部分组成。其中,cnn模块由卷积层、池化层和全连接层构成,用于提取图像特征,dpcl模块基于cnn提取的图像特征进行目标的分类和定位,分为目标dpcl和类别dpcl,前者评估分数判断是否为目标,而后者计算作为特定目标类别的得分。3×1网格内的三个值对应于三个输入区域,每个图像区域的最后得分是目标和类别的组合,检测过程如图2所示。

首先,采集多场景下的图像样本集,所述图像样本集包括测试样本集和训练样本集;在本发明中,利用偏振高光谱低空目标检测模拟平台进行样本集的采集,

其次,将所述样本集发送到优化系统进行处理,在本发明中,优化系统包括深卷积神经网络cnn模块和双字典分类器层dpcl模块,所述cnn模块由卷积层、池化层和全连接层构成,用于提取图像特征,评估分数判断是否为目标,所述dpcl模块基于cnn提取的图像特征进行目标的分类和定位,分为目标dpcl和类别dpcl,用于计算作为特定目标类别的得分。

对于输入图像区域i,令x=[x0,...,xk,...,xk](nk为第k类别的训练样本的数量)表示一组先前层的来自k+1个类别的d维输出。dpcl旨在找到一个具类分析字典p=[p0,...,pk,...,pk]∈rm(k+1)×d(pk∈rm×d)和具类合成字典d=[d0,...,dk,...,dk]∈rd×m(k+1)(dk∈rd×m)来分析编码和重建特征x,其中m是字典原子的数量。子字典pk和dk形成用于第k个类别的双字典。给定pk和dk,编码系数ak可以以ak=pkxk的方式获得。相比大多数现有的ddl方法使用繁琐的l0范数或l1范数非线性稀疏编码操作,求解dpl中表示xk的编码ak更为高效。学习这样的分析字典p和合成字典d的dpl模型公式为:

其中,y表示在x中样本的类别标签矩阵,φ{p,d,x,y}是一些判别项用来提升d和p的判别能力。

原始dpl没有考虑不同的训练样本在训练辨别模型中可能会发生差异的重要性,因此引入对角权重矩阵wk到第k类训练样本,wk的引入是为了改善定位性能,模型使用的是结合第k个物体类别的候选区域与真实区域边界的窗口的交集比并集的比值(iou,intersectionoverunion,)来定义wk,给具有更好定位的样本分配更高的权重,较高权重的样本预期具有较低的重构残差,可以采用重构残差找到更好的定位。

在本发明中,目标检测框架由网络训练和目标检测两部分组成,使用预先训练的网络初始化cnn参数,从而优化lmt,在获得lmt对db、pb、do、po、dk、pk、xk的偏导数之后,扩展dpbp微调cnn+dpcl来更新双字典、cnn参数和边界框回归。用双字典学习算法来初始化双字典,用dpbp算法进一步端到端的优化cnn+dpcl,目标检测算法如下:

算法1:模型学习过程

算法2:目标检测算法

具体的,采用特征学习和分类器学习联合训练机制,优化cnn参数和dpcl,包括,对dpcl定义如下:

其中λ>0和κ>0是标量常数,表示xk的互补数据矩阵。为了避免pk=0的无效解,增加了一个额外的约束项

采用交替最小化算法,结合编码系数矩阵a实现双字典学习,公式如下:

其中τ是标量常量。在上述目标函数的所有项都以frobenius范数的平方为特征,因此等式(3)可以通过交替最小化算法有效求解。通过用单位frobenius范数随机矩阵初始化p和d,将方程(3)通过以下三个步骤进行交替最小化:

(1)固定{d,p,x},更新a:

(2)固定{d,a,x},更新p:

其中常数γ根据验证集的经验设置为0.0001。

(3)固定{a,p,x},更新d:

对于{a,p,d},由于所有步骤都具有闭合解,第3步最小化是非常有效的。当两个相邻迭代的差值小于阈值时停止迭代,本发明将阈值设置为0.01。

模型提出dpbp算法,从而实现以端到端的方式获取dpcl和cnn联合学习参数。dpcl模型的双字典(dk,pk)可以分别优化,因此公式(2)可以分解成以下k+1个子问题:

在dpbp中,{dk,pk}的偏导数定义为:

根据得出xk的偏导数:

获得所有之后,执行反向传播更新cnn参数。

给定测试图像上一个候选区域i,首先从i提取cnn特征x,然后定义第k类别的重构残差:

dpcl的分类规则如下:

当y≠0时,进一步使用边界框回归调整目标最初定位的位置。

dpcl是一个类别分类方法,但并不适合用于完成定位任务。为了提高定位性能,可以采用多任务损失来平衡分类和定位。在这种方法中,每个候选区域都被分为背景或其中一个目标类别,这可能不能很好地从目标类别中区分背景。为了解决这个问题,新的模型进一步将分类任务分解为两个相关问题,如图2所示,通过cnn层提取特征后,特征被复制并同时传递给目标dpcl层和类别dpcl层。

模型将目标定义为覆盖任何类别目标的目标分数。为了测量输入区域内的目标,目标双字典(odp)层使用两个双字典{do,po}和{db,pb}来分别表示任意一个类别和背景的目标。如果区域特征x可以更好地被背景双字典{db,pb}表示,则在图像区域里很可能没有目标。odp没有根据公式(11)直接识别背景,而是使用阈值t来区分有大范围背景的区域,进一步的进行目标检测。结合公式10定义的重建残差,输入区域特征x的目标分数q(x)被定义为:

其中t控制检测的精度和检测背景召回率(t越大,精度越高,召回率越低),本发明根据验证集经验设置为0.5。因此,模型基于q(x)是否为0来识别背景。

类别分数s(x,k)表示特征x属于第k类的可能性。为了计算目标的类别,类别双字典(cdp)层由k个双字典组成,其中k是目标类别的数量。给定输入区域的特征x后,cdp将在k个类别特定双字典{dk,pk}上编码x,并输出每个双字典的重构残差,本发明使用重建残差来定义类别s(x,k):

根据经验将常数β设置为0.003。

最后使用乘法定则来融合目标分数和类别分数,x属于第k类的类别分数定义为:

令φ表示cnn层函数,ii表示带有类别标签yi的输入区域,则特征x=φ(i,ω)。结合分类评分最终分类损失定义为:

其中|∈{0,1}是指标函数,r{ω,d,p}表示关于cnn的参数和两个dpcl的正则化项。

边界框的回归损失。模型定义的多任务损失很容易附加其他相关的损失,例如鲁棒性损失[12]。令是候选区域i的预测和地面实况边界框,其中k表示i属于第k个目标类别。然后将边界框回归损失定义为:

其中h1(z)是huber损失,对异常值具有鲁棒性:

根据求和规则,合并lcls和lloc,多任务损失定义为:

其中是表示ii是否为目标的指标。

本发明还给出了几个实施检测实例,实验中选择偏振高光谱相机以及目标缩比模型作为模拟实验设备,在全场景仿真实验室内模拟某型无人机平台对地面军事目标进行低空侦察,获取图像数据并进行实验验证,如图3所示。实验环境为戴尔precisiontower5810工作站,具体参数为:inter(r)xeon(r)e5-1660v43.2ghz,32.0gbram,8gbsgram,windows7专业版+matlab(r2016a)。

采集的数据样本分为三类,分别是坦克、运兵车和突击车,模拟不同场景下的目标图像采集。为降低数据规模和复杂度,选取了较为单一的姿态场景进行实验验证,如图6所示。在所获得4500图像样本中随机选取4200个样本用于模型训练,300个样本用于测试。实验采用zf模型用于网络参数的初始化,获得图像样本后,结合zf网络提取特征导出特征文件,利用特征文件进行模型训练,并使用练好的模型进行目标检测。

在本发明实验中,将{τ,λ,κ,β,γ,t,m}设置为{0.01,0.01,0.001,0.003,0.0001,0.5,64}。结合fasterr-cnn和zf作为基线模型,cnn参数是首先在imagenet上预训练,在本发明制作的地面车辆的voc训练和验证集上微调,在此基础上更换softmax分类层为本发明提出的dpcl,启动dpbp对网络进行微调,学习速率设定为0.00001,动量设定从0.9开始。微调中,所有iou<0.5的区域被视为背景,视iou≥0.5的区域相应的目标类别为正,这些正的区域的权重由其与真实图像边界框的iou来定义。

实验首先验证偏振高光谱图像的特点对检测效果的影响,使用fasterr-cnn框架分别对普通rgb图像目标和偏振高光谱图像目标进行检测;每种目标分10组、每组10个样本进行检测,如图4所示。

图中可以看出,偏振高光谱图像增强了目标和对比的对比度,在一定程度上降低了背景的复杂程度,使得目标更为突出,这种情况下检测得分总体高于rgb图像。表2中展示了实验的总体正确率和各类别的正确率,结果表明偏振高光谱图像的高对比度特性有助于检测结果的提升。其次针对相同的偏振高光谱目标,使用改进后的cnn+dpcl模型进行测试,cnn+dpcl模型的检测情况如图5所示。

表2两种图像的检测结果比较

从图中可以看出,cnn+dpcl对边界框的标定更为准确,并且目标的得分也普遍提高。表3对比了两种模型的检测结果。和采用softmax分类器的fasterr-cnn相比,cnn+dpcl在本次实验的检测效果上取得了小幅的提高。

表3两种模型的偏振高光谱图像检测结果比较

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1