基于互信息和局部频谱抑制的运动目标定位方法及装置与流程

文档序号:14176638阅读:344来源:国知局
基于互信息和局部频谱抑制的运动目标定位方法及装置与流程

本发明涉及一种定位方法及装置,属于机器视觉领域,具体涉及一种基于互信息和局部频谱抑制的运动目标定位方法及装置。



背景技术:

作为计算机视觉领域的一项重要内容,红外运动目标定位一直是一个充满挑战的课题。在相机固定的情况下,很多运动目标定位方法已经成功应用到现实生活中。但是对于相机运动的情况,存在相机运动带来的场景变化、图像模糊、拍摄距离远、目标较小等问题。

红外运动目标定位的任务是在图像中快速准确找到运动目标位置,为后续的目标跟踪提供信息基础。到目前为止,研究者针对运动目标定位提出了大量的理论和方法,根据所用信息的不同,大致可以分为两类:基于运动信息的目标定位方法和基于空间特征的目标定位方法。

在具体应用时,上述两种方法都存在当目标较小、信噪比较低时,目标的位置不能精确定位的问题,因而环境适应性差,难以能够满足红外视频帧间配准的要求,难以精确定位目标位置和大小。



技术实现要素:

本发明主要是解决现有技术所存在的环境适应性差,当目标较小、信噪比较低时难以实现目标位置的精确定位的技术问题,提供了一种基于互信息和局部频谱抑制的运动目标定位方法及装置。

本发明的上述技术问题主要是通过下述技术方案得以解决的:

一种基于互信息和局部频谱抑制的运动目标定位方法,包括:

图像配准步骤,采用基于互信息的快速图像配准方法去掉视频的全局运动得到配准后的帧图像;

区域确定步骤,获得前向运动历史图像并采用形态学和联通域分析获得候选运动区域;

谱峰定位步骤,在上一步骤获得的候选运动区域中构造估计函数,同时将该候选运动区域的时域图像通过傅里叶变换转换为对数幅度谱和相位谱,并使用估计函数确定对数幅度谱的锐利尖峰;

频谱抑制步骤,采用局部频谱滤波抑制对数幅度谱中的锐利尖峰,联合相位谱和局部滤波后的幅度谱进行傅里叶反变换得到用于红外运动定位的显著图。

优化的,上述的一种基于互信息和局部频谱抑制的运动目标定位方法,所述图像配准步骤中,互信息的讲算基于以下公式:

式中,pa(a)和pb(b)为图像帧a和图像帧b的像素灰度概率函数,pab(a,b)为二者的联合概率分布函数。

优化的,上述的一种基于互信息和局部频谱抑制的运动目标定位方法,图像配准步骤中,基于powell加速互信息快速图像配准方法具体为:

a)根据寻优精度设定图像配准系统允许误差ε(ε>0),作为迭代的停止条件,设定初始点位置的互信息值为x(0)和n个线性无关的搜索方向d(1,1),d(1,2),d(1,3),…,d(1,n),并置s=1;

b)设置每一轮的初始位置点x(s,0)=x(s-1),然后从x(s,0)点出发,依次沿着方向d(s,1),d(s,2),…,d(s,n)完成一维搜索,并得到每个方向的最优解位置点x(s,1),x(s,2),…,x(s,n)最后再从x(s,n)出发,沿着方向d(s,n+1)=x(s,n)-x(s,0)作一次一维搜索,得到本轮搜索的最佳位置点x(s),即最佳图像配准点;

c)判断是否继续迭代,若||x(s)-x(s-1)||<ε,则认为误差满足要求,停止搜索,得到点x(s),否则,更新搜索方向d(s+1,j)=d(s,j+1),j=1,2,...,n,s=s+1,重复步骤(b)。

优化的,上述的一种基于互信息和局部频谱抑制的运动目标定位方法,所述区域确定步骤中,前向运动历史信息的获得基于下式:

其中为第k帧图像在像素位置(x,y)处的前向运动历史图像像素值,ck(x,y)表示第k帧图像的差分图像,t为分割阈值,d为衰减因子。

优化的,上的一种基于互信息和局部频谱抑制的运动目标定位方法,所述尖峰定位步骤中,对数幅度谱的计算基于以下公式:

l(u,v)=log(a(u,v))

式中,(u,v)为幅度谱或对数幅度谱的像素横坐标和纵坐标,l(u,v)为对数幅度谱在(u,v)处的幅值,a(u,v)为幅度谱。

优化的,上述的一种基于互信息和局部频谱抑制的运动目标定位方法,谱峰定位步骤中,锐利尖峰的获得包括:

定义r={-1,0,1}和c={-1,0,1},构造估计函数为:

如果下述不等式成立:

那么对应的函数值为该区域的极大值点,即对数幅度谱的尖峰。

优化的,上述的一种基于互信息和局部频谱抑制的运动目标定位方法,所述频谱抑制步骤中,

将对数幅度谱表示为:

式中,锐利尖峰区域si(i=1,2,3...),其余为非处理区域b;

通过模板卷积来完成局部频谱滤波:

si'=si*hn(f)(3.19)

其中:

通过局部频谱滤波将尖峰抑制,即抑制空域图像中的重复性较高的部分,得到滤波后的对数幅度谱:

优化的,上述的一种基于互信息和局部频谱抑制的运动目标定位方法,所述频谱抑制步骤中,基于下式计算显著性图g(x,y):

g(x,y)=f-1{l'(u,v)ei·p(u,v)}

式中p(u,v)为相位谱。

a(u,v)。

一种基于互信息和局部频谱抑制的运动目标定位装置,包括:

图像配准模块,采用基于互信息的快速图像配准方法去掉视频的全局运动得到配准后的帧图像;

区域确定模块,获得前向运动历史图像并采用形态学和联通域分析获得候选运动区域;

谱峰定位模块,在候选运动区域中构造估计函数,确定对数幅度谱的锐利尖峰;

频谱抑制模块,采用局部频谱滤波抑制对数幅度谱中的锐利尖峰,联合存储的相位谱和局部滤波后的幅度谱进行傅里叶反变换得到用于红外运动定位的显著图。

因此,本发明具有如下优点:

1.采用运动历史图完成运动区域定位,快速稳定并具有较高的环境适应性,能够满足红外视频帧间配准的要求;

2.使用局部滤波方法来抑制对数幅度谱中的锐利尖峰区域,可以明显提高目标的信杂比增益(scrg)和背景抑制算子(bsf);

3.融合运动区域和基于局部频谱抑制的显著图快速、精确定位目标位置和大小。

附图说明

图1-1为红外图像示意图;

图1-2是图1-1对应的直方图;

图2-1是红外图像与自身的联合直方图;

图2-2是两帧红外图像联合直方图;

图3是平移旋转和互信息关系图;

图4-1是输入的原始图像;

图4-2是幅度谱;

图4-3是对数幅度谱;

图4-4是幅度谱的3dmesh显示图像;

图4-5是对数幅度谱的3dmesh图像;

图5是3*3邻域的模板;

图6:对数幅度谱的两种区域

图7-1是单目标运动区域定位时的前一帧红外图像;

图7-2是单目标运动区域定位时的当前帧红外图像;

图7-3是单目标运动区域定位时的帧间配准差分图像;

图7-4是单目标运动区域定位时的历史运动图;

图7-5是单目标运动区域定位时的形态学处理结果;

图7-6是单目标运动区域定位时的运动区域定位;

图8-1是多目标运动区域定位时的前一帧红外图像;

图8-2是多目标运动区域定位时的当前帧红外图像;

图8-3是多目标运动区域定位时的帧间配准差分图像;

图8-4是多目标运动区域定位时的历史运动图;

图8-5是多目标运动区域定位时的形态学处理结果;

图8-6是多目标运动区域定位时的运动区域定位;

图9是目标和背景区域示意图。

具体实施方式

下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。

实施例:

本发明提出的基于互信息和局部频谱抑制的红外目标定位方法主要是由两部分构成,分别是:基于互信息和运动历史图的运动区域定位方法和基于局部频谱抑制的红外目标定位方法,下面分别介绍。

一、基于互信息和运动历史图的运动区域定位方法

本发明第一部分为基于互信息和运动历史图的运动区域定位方法,其步骤如下:

(1)红外图像的互信息计算;

(2)powell优化

(3)运动区域定位

下面,对每个步骤分别进行详细说明:

1、红外图像的互信息计算

图像的信息熵可以用图像中每个像素灰度值在0-255之间出现的随机概率来描述,则图像的信息熵可以通过图像的归一化直方图获得。两个图像之间的联合信息熵就对应待配准的两幅图像的归一化联合直方图,则两幅图像的互信息值可以通过三个归一化直方图计算出来。

红外图像及其对应的直方图如图1所示,现有两帧待配准图像,对两帧图像的直方图进行归一化处理,可以得其对应的像素灰度概率函数为pa(a)和pb(b),若设两幅图像的联合概率分布函数为pab(a,b),则pab(a,b)可以通过两幅图像的归一化联合直方图计算。

由边缘概率分布可知:

由联合概率分布可知:

其中hab(a,b)=n(a,b),表示由两幅图像构成的同一灰度级值对(a,b)出现了n次,这正好对应两幅图像的联合直方图。图2-1为红外图像与自身的二维联合直方图,图2-2为两帧红外图像的二维联合直方图。从图中可以看出,当图像两幅的图像完全相同时,其联合直方图中的点集中分布在斜率为-1的对角线上,随着图像a和b的相似性降低,直方图中的点会更加分散的分布在对角线的周边。

两幅图像的互信息计算公式:

对上式进行简化可以表示为:

从图3中可以看到随着平移或者旋转角度的增加,图像互信息在减小,两幅图像的相关性也在逐步减小;当两幅图像没有经过任何平移和旋转的时候这两幅图像的互信息值最大,也就是最佳匹配,实验结果与理论相符合。

(2)powell优化

互信息是一个基于图像灰度概率分布的统计特征,互信息的计算函数与浮动图像相对原始图像的平移、旋转等变换参数没有直接关系,只与图像灰度的概率分布相关。不存在一个互信息函数和变换参数之间的明确关系表达式,也无法使用常规的求导、求梯度的最优化计算方法来完成互信息的最大值求取和确定图像的旋转和平移参量,以便完成快速图像配准,将视频的全局运动去掉。

方向加速法(powell)是一种直接求取最值的方法,该方法不需要目标函数和影响参数之间有明确的函数表达式,也不需要计算目标函数的导数。它可以仅通过每次移动迭代参数然后计算并比较目标函数的数值大小来寻找极值点。对目标函数的寻优,powell方法与其他直接法不同,它有自己一套完整的理论体系。powell对目标函数的寻优采用多次的一维搜索,并且是逐步搜索方式而不是跳远探测步。powell法的搜索方向不一定是下降方向,其计算效率高于其他的直接法。

powell算法的本质是以正定二次函数为背景,以共轭方向为基础。其基本思想是:根据给定的允许误差,powell把整个求解过程分成若干轮迭代计算,每一轮迭代的次数由目标函数中参数个数决定。如果目标函数的参数个数为n,则构成了n个搜索方向,每一轮需要进行n+1次一维搜索。在每轮迭代中,首先从起始位置开始,依次沿着这n个方向进行n次一维搜索,每次搜索到该方向的最优解,得到一个最好的点x;下一次搜索则将x点作为起始位置,出发沿着上一次的初始位置与x的连线的方向在进行一次一维搜索得到这一轮搜索的最优点。下一轮一维搜索要以这个最优点作为起始点,并重新生成搜索方向,然后重复搜索迭代。

powell方法的具体实现步骤如下:

d)根据寻优精度,设定系统允许误差ε(ε>0),作为迭代的停止条件。设定初始点位置为x(0)和n个线性无关的搜索方向d(1,1),d(1,2),d(1,3),…,d(1,n),并置s=1。

e)设置每一轮的初始位置点x(s,0)=x(s-1),然后从x(s,0)点出发,依次沿着方向d(s,1),d(s,2),…,d(s,n)完成一维搜索,并得到每个方向的最优解位置点x(s,1),x(s,2),…,x(s,n)最后再从x(s,n)出发,沿着方向d(s,n+1)=x(s,n)-x(s,0)作一次一维搜索,得到本轮搜索的最佳位置点x(s)

f)判断是否继续迭代,若||x(s)-x(s-1)||<ε,则认为误差满足要求,停止搜索,得到点x(s),否则,更新搜索方向d(s+1,j)=d(s,j+1),j=1,2,...,n,s=s+1,重复步骤-2。

(3)运动区域定位

采用基于互信息的快速图像配准方法,将视频的全局运动去掉,得到配准后的图像,然后将配准后的两帧图像进行帧差:

ck(x,y)=|imgk(x,y)-imgk-1(x,y)|(3.6)

其中,ck(x,y)表示第k帧图像的差分图像,imgk(x,y)表示第k图像,imgk-△(x,y)表示第k-1帧。

假设累计计算15幅差分图像,红外相机的帧频50hz/s,那么计算当前帧图像的后向运动历史图像,总的延迟时间为t=20ms*15=300ms,这对于实时目标跟踪来说延迟时间过长,且在后期硬件实现阶段,需要对15帧图像进行存储,加重了嵌入式系统的存储负担。基于此种考虑,本发明采用前向运动历史信息对运动区域进行定位。前向运动历史图像可以通过下述公式计算:

其中为第k帧图像在像素位置(x,y)处的前向运动历史图像像素值,ck(x,y)表示第k帧图像的差分图像,t为分割阈值,d为衰减因子。获得前向运动历史图像后,最终采用形态学和联通域分析技术获得候选运动区域。

2)基于局部频谱抑制的红外目标定位方法

本发明第二部分为基于互信息和运动历史图的运动区域定位方法,其步骤如下:

(1)对数幅度谱的计算;

(2)定位锐利尖峰;

(3)局部频谱抑制。

下面,对每个步骤分别进行详细说明:

(1)对数幅度谱的计算

给定一幅红外图像f(x,y),分辨率为m×n,那么该图像的频谱为:

为了方便分析幅度谱和相位谱,f(u,v)在极坐标系下的表示为:

f(u,v)=|a(u,v)|exp(-jp(u,v))(3.9)

由于幅度谱的动态范围较大,尤其是零频分量的值较高,本发明引入对数幅度谱,对数变换可以很好地压缩动态范围,便于更好的分析幅度谱。幅度谱的对数变换为:

l(u,v)=log(a(u,v))(3.10)

本发明将对数变换后的幅度谱定义为对数幅度谱。

如图4所示,图4-1表示输入的原始图像,图4-2为幅度谱,图4-3为对数幅度谱,图4-4是幅度谱的3dmesh显示图像,图4-5是对数幅度谱的3dmesh图像。3dmesh图像可以直观的反应图像的动态变化,通过观察可知,幅度谱的3dmesh由于零频分量较大,导致周围其他点的频率值很难直观反映,而在对数幅度谱的3dmesh中可以观察频率值的变化情况。

(2)定位锐利尖峰

在对数幅度谱中进行局部滤波,首先将锐利尖峰的位置进行定位,本发明采用facet模型来进行寻找对数幅度谱中的极值点位置。对于给定的对称数集r,通过使用构造技术和张量乘积可以在二维邻域构造离散正交多项式。

在二维对称r×c数据集s上面,d(r,c)表示(r,c)∈s处的观察值,另外{p0(r,c),p1(r,c),...,pn-1(r,c)}是二维离散正交多项式基函数。那么,观察值d(r,c)可以通过下面公式进行拟合:

该拟合问题可以转换为求得系数a0,a1,...,ak,k≤n-1,使得下述误差最小化:

对于m=0,1,...,k,通过最小二成拟合将上述公式等价转化为:

通过上述公式可知,拟合系数等于权值wm与d(r,c)乘积,其中wm为:

图5是3×3邻域上面离散正交多项式对应的权值模板。

确定拟合系数ak,k=1,2,...,k后,那么就可以得到估计函数为:

上述介绍了在二维邻域上面由正交多项式构造估计函数方法,借助这一思想,本发明在对数幅度谱的3×3邻域上面构造估计函数,那么该函数的极大值点就可以确认为局部尖峰。定义r={-1,0,1}和c={-1,0,1},那么估计函数为:

该函数的二阶偏导数为:

其中ak等于离散正交多项式对应的权值模板wm与对数幅度谱的卷积。这里:

根据极值理论,如果下述不等式成立:

那么对应的函数值为该区域的极大值点,即对数幅度谱的尖峰。

(3)局部频谱抑制

在定位了锐利尖峰的位置后,对数幅度谱l(u,v)上划分出锐利尖峰区域si(i=1,2,3...),其余为非处理区域b,两种区域关系如图6所示。

整个对数幅度谱便可以表示为:

然后通过模板卷积来完成局部频谱滤波:

si'=si*hn(f)(3.19)

其中:

通过局部频谱滤波将尖峰抑制,即抑制空域图像中的重复性较高的部分,那么显著性目标便可得到增强。滤波后的对数幅度谱为:

最后,联合存储的相位谱和局部滤波后的幅度谱进行傅里叶反变换,便可以得到显著性图g(x,y):

g(x,y)=f-1{l'(u,v)ei·p(u,v)}(3.21)

通过融合运动区域和显著图,最终完成红外运动定位。

下面结合附图中的具体实施例来对上述方法进一步说明。

对基于互信息和局部频谱抑制的红外目标定位方法进行实验分析,在vivid红外数据集pktest01和pktest02上进行了验证试验,pktest01的红外成像距离较近,地面公路在图像中的比例较大,车辆周围区域较为平坦;pktest02的红外成像距离较远,公路两侧的数目会对运动目标造成频繁遮挡。实验分别选取同一序列中的图像相邻帧进行互信息配准,并对比了帧间差分法和前向运动历史图法的运动区域定位结果。

pktest01图像序列的单目标运动区域定位结果如图7所示,其中图7-1和图7-2分别为前一帧图像和当前帧图像,图7-3为图像配准后两帧图像帧差结果,图7-4为图像配准后基于运动历史图的帧差累计结果,通过对比可以发现图7-3中干扰要大于图7-4,这里的干扰主要是指非目标区域差分后的残留部分,产生这些干扰的主要原因是机载对地成像除了会发生平移、旋转和比例缩放外,还会有一定程度的仿射变换,本发明的配准算法只针对前者进行帧间配准,通过前向运动历史图的累计可以削弱这些干扰并能增强运动目标区域,但是累计前向运动历史图会给运动区域与运动目标造成一定的位置和大小差异,需要后续基于显著性的目标检测来弥补这一缺点。图7-5是对运动历史图进行二值化和形态学处理的结果,最后通过连通域分析完成运动区域定位如图7-6所示。

为了验证算法的鲁棒性,在pktest02红外图像序列上进行了验证,图8是场景较为复杂的多目标运动区域定位的实验结果。

图像配准是运动区域定位的基础,所以图像配准算法的性能可以通过运动区域检测的结果的来体现,本发明将通过统计运动区域检测的漏检数、检测数和虚警数来分析基于互信息的图像配准和基于前向运动历史图的定位算法的性能。

首先对评价参数进行说明,如果图像序列中共有100个待检运动区域,最后检测出的区域个数是90个,其中正确的运动区域是80个,错误的运动区域是10个,那么该算法的漏检数为100-80=20个,检测数是正确检测的个数80个,虚警数是错误检测的个数10个。本文的算法在累计运动历史图后,需要经过二值化阈值分割、形态学处理和连通域分析来得到最终的目标检测结果。如果由于帧间差分的空洞问题导致将一个运动区域分成了两个区域,那么这两个区域均为虚警区域。另外,图像中的真实运动区域由人工标注得到,是按照运动目标大小进行标定,如果检测出的运动区域包含标注区域的50%以上,则认为检测正确。

基于以上评价准则,本发明分别在vivid数据集的pktest01(共1459帧图像)、pktest02(共1594帧图像)和pktest03(共2010帧图像)三个序列上面随机选取相邻帧图像进行图像配准和运动区域检测,电脑仿真环境:matlab2011b,处理器是intelcorei5-4460,内存3.88gb,操作系统win764位。

实验结果如下表所示:

表1pktest01上的检测结果

表2pktest02上的检测结果

表3pktest03上的检测结果

从上述数据可知,在不进行图像配准的情况下,直接帧间差分进行运动区域检测会有很高的虚警率和漏检率,虽然耗时最短,但是检测效果太差。图像配准+帧间差分算法在pktest01序列上正确检测率可以达到78%,但是在pktest02和pktest03上面均低于60%,原因是pktest01图像背景较为平坦,且目标尺寸较大,而pktest02和pktest03中有大量的遮挡和光照不均的情况,且目标尺寸较小,直接通过两帧图像进行帧差无法获得较好的差分图像。图像配准+前向运动历史图算法在pktest01上可以达到92.6%的检测率,且虚警率只有1.8%,这是因为帧间累计可以有效去除噪声或背景干扰,并能增强目标区域。但是在pktest02和pktest03上面由超过12%的漏检率,经过分析发现,这些漏检大部分是同一帧图像中存在多个目标时发生的,这与前向运动历史图的拖尾现象相关。

为了更好地评价改发明所提出的方法,现采用两种常用的评价指标,即信号杂波比增益scrgain和背景抑制因子bsf(backgroundsuppressionfactor),定义分别如下:

其中μt表示目标的平均灰度值,μb和σb分别表示背景区域的平均灰度值和标准差。背景区域是指以目标为中心的图像区域,如果目标的大小为a×b,那么背景区域的大小为(a+2d)×(b+2d),本发明中d=20个像素,背景区域与目标关系如图9所示。

背景抑制因子bsf定义如下:

其中cin和cout分别表示目标检测前后背景区域的标准差。

在vivid红外数据集中对5种目标定位算法(top-hat、bhpt、facet、pft以及本发明所提出的方法)进行测试,部分结果如表4所示,通过对比scr增益、bsf和算法耗时,其中绿色和蓝色标注的数字分别代表在bsf和scr增益指标中最好的结果,通过分析可知,本发明所提方法具有较好的信杂比增益和背景抑制能力。

表4评价指标对比

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1