一种运动目标视频跟踪方法及系统与流程

文档序号:17540222发布日期:2019-04-29 14:29阅读:227来源:国知局
一种运动目标视频跟踪方法及系统与流程

本发明实施例涉及目标跟踪技术领域,更具体地,涉及一种运动目标视频跟踪方法及系统。



背景技术:

目标跟踪是计算机视觉领域的一个研究热点,随着视频摄像机的普及化,视频跟踪有着广泛的应用前景,在人机交互、智能监控、目标识别等领域都有重要的应用。

近年来有大量的跟踪算法涌现,现有的跟踪算法在整个跟踪过程中一般采用单一的分类器将目标与背景进行分离,然而在运动目标的视频跟踪过程中,容易出现由目标运动引起的目标形变和目标遮挡等问题,导致运动目标外观发生变化,因此单一的分类区很难准确地将运动目标与背景进行分离,最终导致跟踪结果的准确度不高。

此外,现有的跟踪算法一般适用于处理清晰度较高且时程较短的视频,然而,现有大部分的运动目标监控视频的清晰度普遍偏低,且时程往往长达几十分钟,采用现有的跟踪算法处理这类视频容易出现跟踪失败的情况。

有鉴于此,亟需提供一种运动目标视频跟踪方法及系统,以使得其能够适应运动目标外观变化,以提高跟踪结果的准确度,并能够有效避免出现跟踪失败的情况。



技术实现要素:

本发明实施例为了克服现有技术中跟踪算法无法适应运动目标外观变化导致目标跟踪结果的准确度不高且容易出现跟踪失败的问题,提供一种运动目标视频跟踪方法及系统。

第一方面,本发明实施例提供一种运动目标视频跟踪方法,包括:

根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频;

对于任意一个当前子视频,从所述当前子视频的前一子视频中选取目标帧图像,根据所述目标帧图像对前一子视频对应的分类器进行更新,获得所述当前子视频对应的分类器,根据所述当前子视频对应的分类器获取所述当前子视频的第一帧图像中的目标子图像;

将所述当前子视频中位于所述第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从所述待跟踪图像中选取多个样本子图像,计算每个样本子图像与所述待跟踪图像的前一帧图像中的目标子图像之间的距离,根据每个样本子图像对应的距离确定每个样本子图像对应的后验概率,将最大后验概率对应的样本子图像确定为所述待跟踪图像中的目标子图像。

第二方面,本发明实施例提供一种运动目标视频跟踪系统,包括:

视频划分模块,用于根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频;

目标识别模块,用于对于任意一个当前子视频,从所述当前子视频的前一子视频中选取目标帧图像,根据所述目标帧图像对前一子视频对应的分类器进行更新,获得所述当前子视频对应的分类器,根据所述当前子视频对应的分类器获取所述当前子视频的第一帧图像中的目标子图像;

目标跟踪模块,用于将所述当前子视频中位于所述第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从所述待跟踪图像中选取多个样本子图像,计算每个样本子图像与所述待跟踪图像的前一帧图像中的目标子图像之间的距离,根据每个样本子图像对应的距离确定每个样本子图像对应的后验概率,将最大后验概率对应的样本子图像确定为所述待跟踪图像中的目标子图像。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的运动目标视频跟踪方法及系统,基于聚散熵将待跟踪视频划分为至少两个子视频,并针对不同的子视频更新获得不同的分类器,然后利用每个子视频对应的分类器初始化每个子视频的第一帧图像中的目标位置,最终利用目标跟踪算法对每个子视频中除了第一帧图像之外的其他帧图像中的目标进行跟踪。该方法及系统基于聚散熵对待跟踪视频进行有效划分,以将长时程的视频划分为短时程的视频,有利于提高视频跟踪的准确度,并能够有效避免出现跟踪失败的情况;同时针对不同的子视频更新获得不同的分类器,使得每个子视频对应的分类器能够适应运动目标跟踪过程中目标的外观变化,并能够有效解决遮挡问题,有利于提高目标跟踪结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的运动目标视频跟踪方法的流程示意图;

图2为本发明实施例提供的运动目标视频跟踪系统的结构示意图;

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的运动目标视频跟踪方法的流程示意图,如图1所示,本发明实施例提供一种运动目标视频跟踪方法,包括:

s1,根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频;

具体地,首先,通过视频采集装置进行视频采集获得待跟踪视频,一般情况下,所采集的待跟踪视频的时程往往长达几十分钟,而长时程的视频跟踪容易出现跟踪失败的情况。有鉴于此,针对待跟踪视频,本发明实施例根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频。其中,时序指的是待跟踪视频中每帧图像采集的先后顺序;每一帧图像对应的聚散熵反映了每一帧图像的聚散程度。

需要说明的是,当像素点在画面中分散程度越大,则说明图像所携带信息的平均不确定性越大,信息量越少,相应的聚散熵就越大;反之,当像素点较为集中,说明信息不确定性小,信息量大,相应的聚散熵就越小。也就是说,若某一帧图像对应的聚散熵越大,则该帧图像中存在目标的概率越小;若某一帧图像对应的聚散熵越小,则该帧图像中存在目标的概率越大。因此,本发明实施根据每一帧图像对应的聚散熵即可确定每一帧图像中存在目标的概率,并以此作为视频划分的依据,以确保能够在每个子视频内有效实现运动目标跟踪。

s2,对于任意一个当前子视频,从当前子视频的前一子视频中选取目标帧图像,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,根据当前子视频对应的分类器获取当前子视频的第一帧图像中的目标子图像;

具体地,在将待跟踪视频划分为至少两个子视频的基础上,针对第一个子视频,首先通过人工标注的形式选取一定数量的目标图像和背景图像分别作为正样本和负样本,将正样本和负样本输入预设分类器进行训练,即可获得第一个子视频对应的分类器。

在上述技术方案的基础上,除第一个子视频之外,对于任意一个当前子视频,从当前子视频的前一子视频中选取目标帧图像,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器。也就是说,对于第一个子视频之后的任意一个子视频而言,需在该子视频的前一子视频中选取目标帧图像,根据目标帧图像重构正负样本,以利用重构的正负样本训练新的分类器作为该子视频对应的分类器。举例来说,对于第二个子视频而言,需在第一个子视频中选取目标帧图像,根据目标帧图像重构正负样本,以利用重构的正负样本训练新的分类器作为第二个子视频对应的分类器,由此,第二个子视频对应的分类器在第一个子视频对应的分类器的基础上进行了更新。

进一步地,在获得当前子视频对应的分类器的基础上,再根据当前子视频对应的分类器将当前子视频的第一帧图像中的目标和背景分离,获得当前子视频的第一帧图像中的目标子图像,该目标子图像即为当前子视频的第一帧图像中的目标。由此,即可在当前子视频的第一帧图像中定位出目标。

需要说明的是,由于待跟踪视频中的运动目标在间隔一定帧数的图像之后,运动目标的外观往往存在变化。可以理解的是,运动目标指的是非静止的目标,即目标本身存在运动。有鉴于此,本发明实施例中,针对每个子视频更新其对应的分类器,以使得更新后的分类器能够有效适应运动目标的外观变化。

s3,将当前子视频中位于第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从待跟踪图像中选取多个样本子图像,计算每个样本子图像与待跟踪图像的前一帧图像中的目标子图像之间的距离,根据每个样本子图像对应的距离确定每个样本子图像对应的后验概率,将最大后验概率对应的样本子图像确定为待跟踪图像中的目标子图像。

具体地,在获得当前子视频的第一帧图像中的目标子图像的基础上,对于当前子视频中除第一帧图像之外的各帧图像,则可采用以下方法步骤在各帧图像中进行目标跟踪,具体过程如下:

将当前子视频中位于第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从该待跟踪图像中选取多个样本子图像。其中,样本子图像指的是待跟踪图像中的图像块。需要说明的是,在从当前待跟踪图像中选取多个样本子图像之前,当前待跟踪图像的前一帧图像中的目标子图像已经确定,由此可结合目标的运动速度和相邻两帧图像的间隔时间初步估算出目标在相邻两帧图像中的移动距离。假设移动距离为s,则可在前一帧图像中目标子图像所在位置和距离其s的范围内选取多个样本子图像。此外,所选取的样本子图像的大小和当前子视频的第一帧图像中的目标子图像的大小相同,样本子图像的数量可以根据实际需求进行设置,此处不做具体限定。

进一步地,由于该待跟踪图像的前一帧图像中的目标子图像已经确定,在此基础上,计算每个样本子图像与该待跟踪图像的前一帧图像中的目标子图像之间的距离,所计算的距离可以根据实际需求进行设置,如巴氏距离,此处不做具体限定。可以理解的是,针对每个样本子图像计算的距离可以用于衡量样本子图像与目标子图像的相似度,在此基础上,利用正态分布的思想,根据每个样本子图像对应计算的距离可确定每个样本子图像对应的后验概率,并比较出最大后验概率,进而可将最大后验概率对应的样本子图像确定为该待跟踪图像中的目标子图像。

在上述技术方案的基础上,为了进一步确保能够在每帧待跟踪图像中更加准确地定位出目标子图像。针对每帧待跟踪图像,在通过上述方法步骤得到最大后验概率对应的样本子图像之后,可在距最大后验概率对应的样本子图像一定距离范围内重新选取多个样本子图像,然后重新根据上述方法步骤从多个样本子图像中获取最大后验概率对应的样本子图像,重复执行上述方法步骤,直至所获得的最大后验概率对应的样本子图像的位置不存在变化,则将最大后验概率对应的样本子图像作为待跟踪图像中的目标子图像。

为了便于理解上述方法步骤,现结合相关公式对上述方法步骤进行如下说明:

本发明实施例中,对于当前子视频中位于第一帧图像之后的任意一帧图像,采用粒子滤波作为目标定位算法,利用基于瑞利分布的动态模型替代传统粒子滤波高斯分布以适应目标的快速移动。二维瑞利分布定义为:

其中x为x轴方向的位置,y为y轴上的位置,μ是模型参数。在基于瑞利分布的动态模型中,粒子在半径为μ的圆周分布的粒子较多,因此需要控制μ的大小,使尽最多的粒子分布在真实的目标周围。本发明实施例主要根据目标的速度来定义μ的大小:

对于当前子视频中第t帧图像(t>1)的目标跟踪算法步骤具体包括:

(1)粒子初次采样:如果t=2,需要进行初次非均匀取样,其中粒子分布在圆周内的概率是不在圆周内的2倍(以粒子中心是否在圆周内作为判断依据);

(2)粒子重采样:根据上面给出的二维瑞利分布定义,对粒子进行重采样:

1)首先,根据权重大小产生n个服从r2(x,y)分布的粒子{(γj):j=1,2,3,…,n};

2)然后,通过下面的粒子状态转移方程得到新的粒子集,以每个粒子为中心,根据粒子的状态参数采集图像样本,即可获得样本子图像,其中,每个粒子即为一个样本子图像。其中,粒子状态转移方程如下式:

xt=xt-1+γx

yt=yt-1+γy

其中,γx代表粒子的水平坐标,γy代表粒子的垂直坐标,x和y分别代表粒子的水平坐标和垂直坐标两个状态分量。

(3)计算各粒子的观测概率,即样本子图像与目标图像之间的距离,具体计算公式如下:

其中,ht为目标图像的特征直方图,hb为样本子图像的特征直方图,b为二者的巴氏距离。

根据每个粒子的观测概率并结合bhattacharyya系数(即相似性度量)和正态分布函数来估计目标的最大后验概率:

其中,p(h)为没训练数据h的先验概率,p(d)为训练数据d的先验概率,p(d|h)代表h成立的前提下观察到d的概率。

(4)根据下面公式计算当前t帧各粒子的权重用作下一个t+1帧的重采样权重:

其中,bi为每个样本子图像与目标图像之间的距离。

最终,执行(1)→(3)→(4)→(2)→(3)完成对当前子视频中第2帧图像的跟踪,最大后验概率最大的粒子即为跟踪目标。然后依次反复执行(4)→(2)→(3)即可完成对其他帧图像中目标的动态跟踪。

本发明实施例提供的运动目标视频跟踪方法,基于聚散熵将待跟踪视频划分为至少两个子视频,并针对不同的子视频更新获得不同的分类器,然后利用每个子视频对应的分类器初始化每个子视频的第一帧图像中的目标位置,最终利用目标跟踪算法对每个子视频中除了第一帧图像之外的其他帧图像中的目标进行跟踪。该方法基于聚散熵对待跟踪视频进行有效划分,以将长时程的视频划分为短时程的视频,有利于提高视频跟踪的准确度,并能够有效避免出现跟踪失败的情况;同时针对不同的子视频更新获得不同的分类器,使得每个子视频对应的分类器能够适应运动目标跟踪过程中目标的外观变化,并能够有效解决遮挡问题,有利于提高目标跟踪结果的准确性。

基于上述任一实施例,提供一种运动目标视频跟踪方法,根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频,之前还包括:基于log算子的透射率优化算法对待跟踪视频进行清晰化处理,获得清晰化的待跟踪视频;相应地,根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频,具体为:根据清晰化的待跟踪视频中每一帧图像对应的聚散熵将清晰化的待跟踪视频按时序划分为至少两个子视频。

需要说明的是,户外雾天等恶劣天气、视频采集的摄像头像素偏低、跟踪目标运动等因素,都会导致视频的前景模糊,极大影响运动目标的视频跟踪效果。有鉴于此,本发明实施例在根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频之前,基于log算子的透射率优化算法对待跟踪视频进行清晰化处理,获得清晰化的待跟踪视频,具体实现过程如下:

(1)获取图像的亮度通道

将视频分解成单帧的图像,通常情况下,认为图像是由rgb三个通道组成,分别为红色(r)通道、绿色(g)通道、蓝色(b)通道,而在不清晰的图像中,该图的三个通道强度值的最小值是一个很小的数字。其亮度通道的数学定义为:

j为任意的输入图像,jc为图像的每个通道,ω(x)为以像素x为中心的一个窗口。

(2)基于log算子的透射率优化

基于图像成像原理,要从模糊图像逆推得到清晰化图像,首先需要知道图像的透射率t与环境大气光值a。在利用暗原色先验理论求解得到清晰化图像时:1)利用暗原色先验理论求解出当前图像的暗原色图;2)假设大气光值a为一个已知值,通过暗原色图预估出图像透射率t的值,再利用暗原色估计大气光值,此时a和t都有了估值,即可根据图片成像模型求出其对应的清晰化图像。在两边同时除以a,有:

式中ic是测量到的光强大小,为t的估值,对式中rgb三通道进行取最小值操作,有:

根据前面的亮通道,有:

将暗原色先验得出的(4)式代入(1)式,由于大气光值a始终为正值,则透射率的初始估计值为

ac为rgb任一个颜色通道内的像素值。但是由于其中的ω(x)是用正方形划分的,会存在块状化效应,原因是在景深突变区域两边的透射率差异较大,所以本发明在此基础上采用log算子进行像素点的平滑处理。

1)首先对图像做高斯滤波处理,去除噪声,高斯卷积函数定义为:

其中(x,y)是图像坐标,σ是概率分布的标准差。离算子中心越远的像素影响越小,离中心超过3的像素影响可以忽略不计。

2)求其拉普拉斯(laplacian)二阶导数,即图像f(x,y)与高斯拉普拉斯算子g(x,y)进行卷积运算,得到平滑图像i(x,y):

i(x,y)=g(x,y)*f(x,y)

3)通过检测滤波结果的零交叉可以获得图像的边缘:

4)区别与传统的图像去雾算法中要特意保留少许雾的存在,本发明为了接下来视频追踪的考量,设定透射率t(x)的阈值t0为0.01,即尽量减少雾等因素的干扰。最终的图像清晰化公式为:

在上述技术方案的基础上,在将待跟踪视频进行清晰化处理,获得清晰化的待跟踪视频之后,根据清晰化的待跟踪视频中每一帧图像对应的聚散熵将清晰化的待跟踪视频按时序划分为至少两个子视频。

本发明实施例提供的运动目标视频跟踪方法,在根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频之前,基于log算子的透射率优化算法对待跟踪视频进行清晰化处理,获得清晰化的待跟踪视频。该方法能够在对待跟踪视频进行目标跟踪之前,对待跟踪视频进行清晰化处理,有利于提高了目标跟踪结果的准确性,并能够有效避免出现跟踪失败的情况。

基于上述任一实施例,提供一种运动目标视频跟踪方法,根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频,具体为:计算待跟踪视频中每一帧图像对应的聚散熵,将聚散熵不大于第一阈值的帧图像作为关键帧图像;利用预设优化算法根据每一帧图像对应的聚散熵将待跟踪视频划分为至少两个子视频,以使得每个子视频的第一帧图像为关键帧图像且每个子视频所包含的图像帧数不小于第二阈值且各个子视频所包含的关键帧图像数量的标准差最小。

需要说明的是,现有的视频划分方式一般均匀间隔一定数量的帧进行一次划分,但这种视频划分方式大都基于一个重要的前提假设,其必须假设目标一直出现在视频中。但是在真实的运动目标视频跟踪环境下,目标短暂或长期离开视频的情况时有发生,极大地影响了视频跟踪的准确性。有鉴于此,本发明实施根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频,以确保能够在每个子视频内有效实现运动目标跟踪。具体实现过程如下:

首先,计算待跟踪视频中每一帧图像对应的聚散熵,将聚散熵不大于第一阈值的帧图像作为关键帧图像。可以理解的是,某帧图像对应的聚散熵越小,则说明该帧图像越有价值,故将聚散熵不大于第一阈值的帧图像作为关键帧图像。本发明实施例中,第一阈值可以为各帧图像对应的聚散熵的均值。在其他实施例中,第一阈值也可以根据实际需求进行设置,此处不做具体限定。

进一步地,利用预设优化算法根据每一帧图像对应的聚散熵将待跟踪视频划分为至少两个子视频,在划分过程中需满足如下约束条件:1)每个子视频的第一帧图像为关键帧图像;2)每个子视频所包含的图像帧数不小于第二阈值;3)各个子视频所包含的关键帧图像数量的标准差最小。其中,预设优化算法可以为遍历算法、贪心算法和遗传算法等,可以根据实际需求进行设置,此处不做具体限定。

需要说明的是,针对约束条件1),可以理解的是,由于在对各个子视频进行目标跟踪时,均是先利用各个子视频对应的分类器获取各个子视频的第一帧图像中的目标子图像,在此基础上,再对各个子视频中的其他帧图像中的目标子图像进行跟踪。因此,需确保各个子视频的第一帧图像中目标出现的概率相对较高,即各个子视频的第一帧图像对应的聚散熵应不大于第一阈值,也即各个子视频的第一帧图像应为关键帧图像。

针对约束条件2),可以理解的是,由于待跟踪视频所包含的帧图像的数量是确定的,若每个子视频所包含的图像帧数较小,则所划分的子视频的数量就会相应增大,若每个子视频所包含的图像帧数较大,则在单个子视频内出现跟踪失败的可能性就越大。有鉴于此,每个子视频所包含的图像帧数需在合理的范围内,本发明实施例中,每个子视频所包含的图像帧数不小于第二阈值,其中第二阈值可以为50,也可以根据实际需求进行设置,此处不做具体限定。

针对约束条件3),可以理解的是,为了确保能够在每个子视频内有效实现运动目标跟踪,应尽量将待跟踪视频中所包含的关键帧图像均匀分布在各个子视频内,即划分后的每个子视频中所包含的关键帧图像的数量基本相同。有鉴于此,本发明实施例中,在进行视频划分的过程中应使得各个子视频所包含的关键帧图像数量的标准差最小。

此外,需要说明的是,本发明实施例中所划分出的各个子视频所包含的图像帧数是不均匀的,也就是说,每个子视频所包含的图像帧数不尽相同。在上述约束条件2)的基础上,为了进一步提高视频划分的效率,可以进一步约束所划分出的子视频的总数量,若划分出的子视频的总数量为n,则可以约束n的取值范围为[nmin,nmax],其中nmin和nmax可以根据实际需求进行设置,此处不做具体限定。

本发明实施例提供的运动目标视频跟踪方法,计算待跟踪视频中每一帧图像对应的聚散熵,将聚散熵不大于第一阈值的帧图像作为关键帧图像;利用预设优化算法根据每一帧图像对应的聚散熵将待跟踪视频划分为至少两个子视频,以使得每个子视频的第一帧图像为关键帧图像且每个子视频所包含的图像帧数不小于第二阈值且各个子视频所包含的关键帧图像数量的标准差最小。该方法以每一帧图像的聚散熵为依据,将待跟踪视频划分为至少两个子视频,以将长时程的视频划分为短时程的视频,有利于提高视频跟踪的准确度,并能够有效避免出现跟踪失败的情况,以确保能够在每个子视频内有效实现运动目标跟踪。

基于上述任一实施例,提供一种运动目标视频跟踪方法,从当前子视频的前一子视频中选取目标帧图像,具体包括:获取当前子视频的前一子视频中每一帧图像对应的聚散熵;选取聚散熵最小的帧图像作为目标帧图像。

具体地,由于待跟踪视频中的运动目标在间隔一定帧数的图像之后,运动目标的外观往往存在变化。有鉴于此,本发明实施例中,针对每个子视频更新其对应的分类器,以使得更新后的分类器能够有效适应运动目标的外观变化。对于当前子视频而言,需先从当前子视频的前一子视频中选取目标帧图像,再根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器。为了确保所选取的目标帧图像能够对分类器进行有效更新,本发明实施例中通过如下方式从当前子视频的前一子视频中选取目标帧图像:

首先,获取当前子视频的前一子视频中每一帧图像对应的聚散熵,由于聚散熵反映了每一帧图像的聚散程度,若某一帧图像对应的聚散熵越大,则该帧图像中存在目标的概率越小;若某一帧图像对应的聚散熵越小,则该帧图像中存在目标的概率越大。可以理解的是,为了适应目标外观的实时变化,所选取的目标帧图像中必须包含所需跟踪的目标,即目标帧图像中存在目标的概率应较大。有鉴于此,本发明实施例中,在获得当前子视频的前一子视频中每一帧图像对应的聚散熵之后,从中选取聚散熵最小的帧图像作为目标帧图像,以确保目标帧图像中包含所需跟踪的目标,进而确保所选取的目标帧图像能够对分类器进行有效更新。

本发明实施例提供的运动目标视频跟踪方法,获取当前子视频的前一子视频中每一帧图像对应的聚散熵;选取聚散熵最小的帧图像作为目标帧图像。该方法通过选取当前子视频的前一子视频中聚散熵最小的帧图像作为目标帧图像,以根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,使得当前子视频对应的分类器能够有效适应运动目标跟踪过程中目标的外观变化,有利于提高目标跟踪结果的准确性。

基于上述任一实施例,提供一种运动目标视频跟踪方法,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,之前还包括:从第一个子视频的第一帧图像中获取训练样本;提取训练样本对应的hog特征、siltp特征和harr-like特征,将训练样本对应的hog特征、siltp特征和harr-like特征进行级联,获得训练样本对应的特征向量;根据训练样本对应的特征向量对预设分类器进行训练,获得第一个子视频对应的分类器。

具体地,本发明实施例中,在根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器之前,需先获得第一个子视频对应的分类器,具体实现过程如下:

对于待跟踪视频中的第一个子视频,首先通过人工标注的方式从第一个子视频的第一帧图像中获取训练样本。其中,训练样本包括多个正样本和多个负样本,正样本代表的是图像中的目标,负样本代表的是图像中的背景。

进一步地,提取训练样本对应的hog特征、siltp特征和harr-like特征,将训练样本对应的hog特征、siltp特征和harr-like特征进行级联形成统一的特征向量,即可获得训练样本对应的特征向量。再将训练样本对应的特征向量输入预设分类器,根据训练样本对应的特征向量对预设分类器进行训练,获得第一个子视频对应的分类器。

本发明实施例中,利用级联强分类器将训练样本对应的hog特征、siltp特征和harr-like特征进行级联形成统一的特征向量,其中级联强分类器的策略是将若干个强分类器由简单到复杂排列,经过训练使每个强分类器都有较高检测率,同时可以降低误识率。采用添加特征法,对于第一个分类器,只用少数几个特征,之后的每个分类器都在上一个的基础上添加特征,直到满足该级的要求。

本发明实施例中,所选用的预设分类器为学习机(extremelearningmachine)elm,elm是一种求解单隐层神经网络的算法,elm可以随机初始化输入权重和偏置并得到相应的输出权重。elm最大的特点是对于传统的神经网络,尤其是单隐层前馈神经网络(slfns),在保证学习精度的前提下学习算法速度更快。elm的目标是寻找一个对所有训练数据具有最小误差的函数f(xi),即:

其中,分别表示连接第i个隐层节点和输入层的权重量和连接第i个隐层节点和输出层的输出量。此外,bl是第i个隐层节点的阀值;l为隐层节点个数;g(x)是激活函数,使得n0个训练样本的误差接近于0,即

本发明实施例中,针对训练样本,分别提取训练样本对应的hog特征、siltp特征和harr-like特征,现通过如下内容具体描述hog特征、siltp特征和harr-like特征的具体提取过程。

(1)hog特征的具体提取过程如下:

1)标准化gamma空间和颜色空间

首先,将整个图像进行规范化(归一化),因为在图像的纹理强度中局部的表层曝光贡献的比重较大,所以压缩处理能有效减少局部的阴影与光照的变化。gamma压缩公式如下(可以取gamma=1/2):

i(x,y)=i(x,y)gamma

2)计算图像梯度大小和方向

首先用[-1,0,1]梯度算子对原图像做卷积运算,得到x方向上的梯度分量gradscalx,然后用[-1,0,1]t梯度算子对原图像做卷积运算,得到y方向上的梯度分量gradscaly,最后分别求得该像素点的梯度大小和方向,具体计算公式如下:

3)为每个单元格构建梯度方向直方图

将图像分为若干个单元格,对单元格内的每个像素沿梯度方向在直方图中进行加权投影,将单元格的梯度方向360°分成9个方向块,此像素梯度方向所在的方向块的计数加上投影权值(梯度大小),可得到这个单元格的梯度方向直方图。

4)收集hog特征

首先把单元格组合成大的块(block),然后将块内所有单元格的特征向量串联起来得到该block的hog特征,最后将检测窗口中所有重叠的块进行hog特征的收集,并将它们结合成最终的特征向量。

(2)siltp特征的具体提取过程如下:

1)对经过2×2局部均值池化的图像建立三层金字塔;

2)通过步长为5像素,大小为10×10的滑动窗口获得重叠矩形块;

3)在每一个矩形块中计算局部直方图和两种尺度的纹理特征;

4)将每一层上的特征串联起来形成最后的siltp特征。

(3)harr-like特征的具体提取过程如下:

harr-like特征的计算利用积分图的方法来实现,积分图是一种能够描述全局信息的矩阵表示方法。积分图的构造方式是位置(i,j)处的值ii(i,j)是原图像(i,j)左上角方向所有像素的和,如下式所示:

ii(i,j)=∑k≤i,l≤jf(k,l)

对上式进行遍历求解,具体过程如下:

1)用s(i,j)表示行方向的累加和,初始化s(i,-1)=0;

2)用ii(i,j)表示一个积分图像,初始化ii(-1,i)=0;

3)逐行扫描图像,递归计算每个像素(i,j)行方向的累加和s(i,j)和积分图像ii(i,j)的值;

s(i,j)=s(i,j-1)+f(i,j)

ii(i,j)=ii(i-1,j)+s(i,j)

4)扫描图像一遍,直到到达图像右下角像素,构造的积分如下表所示:

其中以a为例,设a的四个顶点分别为α、β、γ和δ,则a的像素和可以表示为:

asum=ii(α)+ii(β)-(ii(γ)+ii(δ))

对矩阵a,b,c,d的像素和两两做差,遍历图像一遍,求得所有窗口的特征值即为harr-like特征。

此外,在其他实施例中,也可以采用其他方式提取训练样本对应的hog特征、siltp特征和harr-like特征,可以根据实际需求进行设置,此处不做具体限定。

本发明实施例提供的运动目标视频跟踪方法,从第一个子视频的第一帧图像中获取训练样本,提取训练样本对应的hog特征、siltp特征和harr-like特征,将训练样本对应的hog特征、siltp特征和harr-like特征进行级联,获得训练样本对应的特征向量;根据训练样本对应的特征向量对分类器进行训练,获得第一个子视频对应的预设分类器。该方法通过训练获得第一个子视频对应的分类器,从而为其他子视频对应的分类器的更新提供基础,其中结合训练样本的多个特征对预设分类器进行训练,能够应对多种场景条件下的目标跟踪问题,有利于提高目标跟踪结果的准确性。

基于上述任一实施例,提供一种运动目标视频跟踪方法,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,具体包括:提取目标帧图像的harr-like特征和siltp特征;基于增量学习方法根据目标帧图像的harr-like特征和siltp特征对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器。

具体地,在视频跟踪过程中,对于任意一个当前子视频(除第一个子视频之外),在当前子视频内进行目标跟踪之前,利用增量学习方法基于前一子视频中所获取的目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,具体实现过程如下:

本发明实施例中的目标帧图像为前一子视频中聚散熵最小的帧图像,在此基础上,采用增量学习方法基于前一子视频中聚散熵最小的帧图像测量候选样本与训练字典之间的相似程度(所谓训练字典即用第一个子视频的第一帧的训练样本组成的一部完备的字典)。使用目标模板和琐碎模板的线性组合重构目标样本,其中目标模板是由前一子视频中聚散熵最小的帧图像的跟踪结果的特征基向量组成(下式中的u);琐碎模板是单位矩阵(下式中的i)。然后选择重构误差最小的候选样本来更新正负样本集合,进而实现分类器的更新,能较好地处理运动目标外观变化与遮挡等因素造成的不良影响。

以前一子视频中聚散熵最小的帧图像的目标harr-like特征和siltp特征与正样本集执行增量学习方法,得到特征基向量构成的矩阵u、特征基向量系数q,则可对目标建模如下:

式中,为观测向量,e为中被遮挡的像素。由于遮挡引起的误差是随机且稀疏的,可将该问题看成以下正则化最小二乘问题:

式中,λ为正则化参数。求解上式可得到q和e,则被更新的正样本以重构对象代替。然后在前一子视频中聚散熵最小的帧图像中抽取若干负样本和harr-like特征、siltp特征,结合hog特征得到新的正负样本,重新用elm进行训练以供后面的追踪算法使用。其中,hog特征体现的是目标关键点的特征,所以一般是不会有太大变化的,故而不需要进行样本更新。

本发明实施例提供的运动目标视频跟踪方法,提取目标帧图像的harr-like特征和siltp特征;基于增量学习方法根据目标帧图像的harr-like特征和siltp特征对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器。该方法利用增量学习方法针对不同的子视频更新获得不同的分类器,使得每个子视频对应的分类器能够适应运动目标跟踪过程中目标的外观变化,并能够有效解决遮挡问题,有利于提高目标跟踪结果的准确性。

基于上述任一实施例,提供一种运动目标视频跟踪方法,将训练样本对应的hog特征、siltp特征和harr-like特征进行级联,获得训练样本对应的特征向量,之后还包括:利用交叉二次判别分析算法对训练样本对应的特征向量进行降维,获得训练样本对应的降维后的特征向量;对应地,根据训练样本对应的特征向量对预设分类器进行训练,具体为:根据训练样本对应的降维后的特征向量对预设分类器进行训练。

具体地,由于训练样本对应的特征向量是通过级联训练样本对应的hog特征、siltp特征和harr-like特征获得的,故而训练样本对应的特征向量的维度较高。有鉴于此,本实施例中,在获得该训练样本对应的特征向量之后,利用交叉二次判别分析算法(xqda)对训练样本对应的特征向量进行降维,获得训练样本对应的降维后的特征向量。在此基础上,将训练样本对应的降维后的特征向量输入预设分类器,根据训练样本对应的降维后的特征向量对预设分类器进行训练。由此,可有效降低分类器在训练过程中所存在的信息冗余性,有利于提高分类器的训练效率。

需要说明的是,交叉二次判别分析算法利用交叉视图数据学习特征子空间,同时在新的特征子空间内学习用于相似度量的距离函数。对原始特征xi,xj∈rd,交叉二次判别分析算法通过学习映射矩阵w∈rd×r(r<d),将原始特征映射到低维子空间,距离函数如下式:

其中,当两个特征xi,xj对应的样本标签一致时,则将该两个特征之间的差值称为类内差值ωi;当两个特征xi,xj对应的样本标签不一致时,则将该两个特征之间的差值称为类间差值ωe。上式中,∑'i为类内差值对应的协方差矩阵,称为类内协方差矩阵;∑'e为类间差值对应的协方差矩阵,称为类间协方差矩阵。

此外,在其他实施例中,还可以采用其他降维算法对训练样本对应的特征向量进行降维,可以根据实际需求进行设置,此处不做具体限定。

本发明实施例提供的运动目标视频跟踪方法,利用交叉二次判别分析算法对训练样本对应的特征向量进行降维,根据训练样本对应的降维后的特征向量对预设分类器进行训练;可有效降低分类器在训练过程中所存在的信息冗余性,有利于提高分类器的训练效率。

图2为本发明实施例提供的运动目标视频跟踪系统的结构示意图,如图2所示,该系统包括:视频划分模块21、目标识别模块22和目标跟踪模块23,其中:

视频划分模块21用于根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频;

具体地,首先,通过视频采集装置进行视频采集获得待跟踪视频,一般情况下,所采集的待跟踪视频的时程往往长达几十分钟,而长时程的视频跟踪容易出现跟踪失败的情况。有鉴于此,针对待跟踪视频,本发明实施例利用视频划分模块21根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频。其中,时序指的是待跟踪视频中每帧图像采集的先后顺序;每一帧图像对应的聚散熵反映了每一帧图像的聚散程度。

需要说明的是,当像素点在画面中分散程度越大,则说明图像所携带信息的平均不确定性越大,信息量越少,相应的聚散熵就越大;反之,当像素点较为集中,说明信息不确定性小,信息量大,相应的聚散熵就越小。也就是说,若某一帧图像对应的聚散熵越大,则该帧图像中存在目标的概率越小;若某一帧图像对应的聚散熵越小,则该帧图像中存在目标的概率越大。因此,本发明实施根据每一帧图像对应的聚散熵即可确定每一帧图像中存在目标的概率,并以此作为视频划分的依据,以确保能够在每个子视频内有效实现运动目标跟踪。

目标识别模块22用于对于任意一个当前子视频,从当前子视频的前一子视频中选取目标帧图像,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,根据当前子视频对应的分类器获取当前子视频的第一帧图像中的目标子图像;

具体地,在将待跟踪视频划分为至少两个子视频的基础上,针对第一个子视频,首先通过人工标注的形式选取一定数量的目标图像和背景图像分别作为正样本和负样本,将正样本和负样本输入预设分类器进行训练,即可获得第一个子视频对应的分类器。

在上述技术方案的基础上,除第一个子视频之外,对于任意一个当前子视频,利用目标识别模块22从当前子视频的前一子视频中选取目标帧图像,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器。也就是说,对于第一个子视频之后的任意一个子视频而言,需在该子视频的前一子视频中选取目标帧图像,根据目标帧图像重构正负样本,以利用重构的正负样本训练新的分类器作为该子视频对应的分类器。举例来说,对于第二个子视频而言,需在第一个子视频中选取目标帧图像,根据目标帧图像重构正负样本,以利用重构的正负样本训练新的分类器作为第二个子视频对应的分类器,由此,第二个子视频对应的分类器在第一个子视频对应的分类器的基础上进行了更新。

进一步地,在获得当前子视频对应的分类器的基础上,再利用目标识别模块22根据当前子视频对应的分类器将当前子视频的第一帧图像中的目标和背景分离,获得当前子视频的第一帧图像中的目标子图像,该目标子图像即为当前子视频的第一帧图像中的目标。由此,即可在当前子视频的第一帧图像中定位出目标。

目标跟踪模块23用于将当前子视频中位于第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从待跟踪图像中选取多个样本子图像,计算每个样本子图像与待跟踪图像的前一帧图像中的目标子图像之间的距离,根据每个样本子图像对应的距离确定每个样本子图像对应的后验概率,将最大后验概率对应的样本子图像确定为待跟踪图像中的目标子图像。

具体地,在获得当前子视频的第一帧图像中的目标子图像的基础上,对于当前子视频中除第一帧图像之外的各帧图像,则可利用目标跟踪模块23采用以下方法步骤在各帧图像中进行目标跟踪,具体过程如下:

将当前子视频中位于第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从该待跟踪图像中选取多个样本子图像。需要说明的是,在从当前待跟踪图像中选取多个样本子图像之前,当前待跟踪图像的前一帧图像中的目标子图像已经确定,由此可结合目标的运动速度和相邻两帧图像的间隔时间初步估算出目标在相邻两帧图像中的移动距离。假设移动距离为s,则可在前一帧图像中目标子图像所在位置和距离其s的范围内选取多个样本子图像。此外,所选取的样本子图像的大小和当前子视频的第一帧图像中的目标子图像的大小相同,样本子图像的数量可以根据实际需求进行设置,此处不做具体限定。

进一步地,由于该待跟踪图像的前一帧图像中的目标子图像已经确定,在此基础上,计算每个样本子图像与该待跟踪图像的前一帧图像中的目标子图像之间的距离,所计算的距离可以根据实际需求进行设置,如巴氏距离,此处不做具体限定。可以理解的是,针对每个样本子图像计算的距离可以用于衡量样本子图像与目标子图像的相似度,在此基础上,利用正态分布的思想,根据每个样本子图像对应计算的距离可确定每个样本子图像对应的后验概率,并比较出最大后验概率,进而可将最大后验概率对应的样本子图像确定为该待跟踪图像中的目标子图像。

在上述技术方案的基础上,为了进一步确保能够在每帧待跟踪图像中准确定位出目标子图像。针对每帧待跟踪图像,在通过上述方法步骤得到最大后验概率对应的样本子图像之后,可在距最大后验概率对应的样本子图像一定距离范围内重新选取多个样本子图像,然后重新根据上述方法步骤从多个样本子图像中获取最大后验概率对应的样本子图像,重复执行上述方法步骤,直至所获得的最大后验概率对应的样本子图像的位置不存在变化,则将最大后验概率对应的样本子图像作为待跟踪图像中的目标子图像。

本发明实施例提供的运动目标视频跟踪系统,具体执行上述各方法实施例流程,具体请详见上述各方法实施例的内容,在此不再赘述。

本发明实施例提供的运动目标视频跟踪系统,基于聚散熵将待跟踪视频划分为至少两个子视频,并针对不同的子视频更新获得不同的分类器,然后利用每个子视频对应的分类器初始化每个子视频的第一帧图像中的目标位置,最终利用目标跟踪算法对每个子视频中除了第一帧图像之外的其他帧图像中的目标进行跟踪。该系统基于聚散熵对待跟踪视频进行有效划分,以将长时程的视频划分为短时程的视频,有利于提高视频跟踪的准确度,并能够有效避免出现跟踪失败的情况;同时针对不同的子视频更新获得不同的分类器,使得每个子视频对应的分类器能够适应运动目标跟踪过程中目标的外观变化,并能够有效解决遮挡问题,有利于提高目标跟踪结果的准确性。

图3为本发明实施例提供的电子设备的实体结构示意图。参照图3,所述电子设备,包括:处理器(processor)31、存储器(memory)32和总线33;其中,所述处理器31和存储器32通过所述总线33完成相互间的通信;所述处理器31用于调用所述存储器32中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频;对于任意一个当前子视频,从当前子视频的前一子视频中选取目标帧图像,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,根据当前子视频对应的分类器获取当前子视频的第一帧图像中的目标子图像;将当前子视频中位于第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从待跟踪图像中选取多个样本子图像,计算每个样本子图像与待跟踪图像的前一帧图像中的目标子图像之间的距离,根据每个样本子图像对应的距离确定每个样本子图像对应的后验概率,将最大后验概率对应的样本子图像确定为待跟踪图像中的目标子图像。

此外,上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:根据待跟踪视频中每一帧图像对应的聚散熵将待跟踪视频按时序划分为至少两个子视频;对于任意一个当前子视频,从当前子视频的前一子视频中选取目标帧图像,根据目标帧图像对前一子视频对应的分类器进行更新,获得当前子视频对应的分类器,根据当前子视频对应的分类器获取当前子视频的第一帧图像中的目标子图像;将当前子视频中位于第一帧图像之后的每一帧图像作为待跟踪图像,对于任意一帧待跟踪图像,从待跟踪图像中选取多个样本子图像,计算每个样本子图像与待跟踪图像的前一帧图像中的目标子图像之间的距离,根据每个样本子图像对应的距离确定每个样本子图像对应的后验概率,将最大后验概率对应的样本子图像确定为待跟踪图像中的目标子图像。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1