基于视频的行人自动检测与跟踪方法与流程

文档序号:14099074阅读:179来源:国知局

本发明涉及智能视频图像监控和视频图像分析领域,特别涉及一种基于视频的行人自动检测与跟踪方法。



背景技术:

智能监控系统中的行人检测问题一直都是学术界的研究热点问题,同时行人检测问题在机器学习,虚拟现实技术等领域中有着广泛的应用,也是计算机视觉和模式识别领域的重要研究方向的,由于不同行人的身材,姿势,视角,衣着和光照等方面都存在着极大的变化,加之复杂的背景场景以及摄像头自身的移动或者晃动等问题都是影响行人检测问题的重要因素,如何有效并准确的在图像或者视频中将行人检测出来,依旧是一个研究热点。行人检测的目的是在于根据所获得视频或者图片信息,利用图形处理和计算机视觉相关算法,从图像中判断是否有行人,找到行人的最终位置和大小,更进一步可以识别或者分析行人的动作,姿态或者行为,可以说,基于计算机视觉的行人检测是一个重要的研究领域,一方面,行人检测研究涉及到传感,机器学习,自动化与控制,信息融合,计算智能等领域,是一个多学科交叉的研究热点问题,另一方面行人检测在计算机视觉,虚拟现实技术,智能交通,智能监控系统等系统中有着广泛的应用前景。

目前,国内基于视频的行人自动检测与跟踪研究主要包括以下几种现有技术:1、梯度直方图特征和支持向量机相结合的行人检测算法,梯度直方图特征是目前使用最为广泛的行人特征描述子;2、基于Haar小波特征的方法,Viola等在Haar小波特征的基础上引入了积分图的概念,加快了Haar小波特征的提取速度,并将该方法结合人体运动和外观模式,应用到行人检测中,建立了行人检测系统,取得了很好的检测效果;3、基于人体部位的方法,该类方法的基本思想是把人体分成几个组成部分,然后对图像中每部分分别检测,最后将检测结果按照一定的约束关系进行整合,最终判断是否存在行人。尽管行人检测与跟踪的研究已经取得了一定的研究成果,但是由于行人外表、运动本身的复杂性,目前还没有一个通用、有效的方法,尤其是在检测的基础上实现后续的跟踪问题。



技术实现要素:

本发明的目的是提供一种基于视频的行人自动检测与跟踪方法,用于实现快速有效的行人检测与运行路线标注。

为了实现上述目的,本发明采用如下技术方案:

基于视频的交通事故自动识别处理方法,其特征在于,具体包括以下步骤:

步骤S10:采集在不同姿态、背景、场景、光照等条件下的行人图像序列;

步骤S11:对采集到的图像序列裁剪、归一化技术手段处理,建立行人数据库;

步骤S12:基于梯度直方图的行人特征描述;

步骤S13:基于网格寻优方式的参数优化;

步骤S14:基于Libsvm平台的若干弱分类器的训练;

步骤S15:基于误差率归一化系数的强分类器形成;

步骤S16:基于强分类器的新视频图像序列中行人的自动检测和框定;

步骤S17:基于框定行人的实时跟踪和运行轨迹显示;

本发明进一步的改进在于:所述步骤S10中所采集的行人样本都是建立在假设行人处于直立或者近似直立的状态下获得的,同时,采集的图像序列是在行人不同姿势、背景、场景、光照等条件下进行的,进一步可以对不同行人进行采集时考虑各种因素,包括:

S101)采集不同年龄阶段的行人图像序列;

S102)采集各种状态下的行人图像序列;

S103)采集个性特征极其明显的各种行人图像序列;

S104)采集各种种族的行人图像序列;

S105)采集各种角度和不同程度遮挡状态下的行人图像序列。

本发明进一步的改进在于:所述步骤S11中是对采集到的图像序列裁剪、归一化等技术手段处理,建立行人数据库;进一步可以融合现有的各种行人数据库。

本发明进一步的改进在于:所述步骤S12是对所建立的行人数据库采用梯度直方图特征对各个图像序列进行描述。

本发明进一步的改进在于:所述步骤S13是网格参数寻优,由于使用支持向量机都需要对参数进行设置,通常而言,比较重要的参数是gamma(-g)和cost(-c),交叉检验参数cross validation(-v)的常用默认值为5,对于一个给定的问题,事先不知道C和g取多少最优,因此需要进行模型选择即参数搜索,网格搜索就是尝试各种可能的(C,g)对值,然后进行交叉验证,找出使交叉验证精确度最高的(C,g)对,使得分类器能够精确地预测未知的数据,比如测试集,其主要步骤包括:

S131)对梯度直方图特征描述子数据进行缩放;

S132)在线性核函数、多项式核函数、径向基核函数中选择核函数;

S133)采用交叉验证选择最佳参数对(C,g)。

本发明进一步的改进在于:所述步骤S14是使用已经获得的最佳参数对(C,g),对整个训练集进行训练获取支持向量机模型,其算法步骤包括:

S141)采用最佳参数C和g,对整个训练集进行训练获取支持向量机模型;

S142)使用软件包自带的数据heart_scale.mat进行学习;

S143)使用网格寻优函数SVMcgForClass得到的参数训练模型model。

本发明进一步的改进在于:所述步骤S15是针对不同弱分类器的分类误差率,对分类误差率进行归一化,选择归一化系数对各个分类器进行组合,形成最终的强分类器,其算法算法步骤包括:

S151)各个分类器误差率的计算;

S152)误差率的归一化计算;

S153)各个分类器权重和分类的线性组合,形成强分类器。

本发明进一步的改进在于:所述步骤S16是对新视频图像序列中行人的自动检测和框定,算法主要步骤包括:

S161)使用强分类器对新图像序列进行行人检测;

S162)对检测到的行人进行框定标注显示;

本发明进一步的改进在于:所述步骤S17是对框定的行人进行实时跟踪,其算法步骤包括:

S171)对框定行人目标进行自适应分块;

S172)对各个分块进行直方图特征描述;

S173)使用Mean Shift算法进行跟踪;

S174)根据跟踪结果标注显示行人运行轨迹。

附图说明

图1是本发明基于视频的行人自动检测与跟踪方法的流程图;

图2是自适应分块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,结合以下附图及实施例,对本发明基于视频的行人自动检测与跟踪系统进行进一步详细说明。此处所述的具体实施仅用以解释本发明,并不用于限定本发明。

本发明的基于视频的行人自动检测与跟踪方法,通过对视频监控图像的分析,实现对行人的自动检测与跟踪运行路线的标注。

下面详细描述本发明的基于视频的行人自动检测与跟踪方法,如图1所示,包括采集在不同姿态、背景、场景、光照等条件下的包括行人在内的图像序列和非行人在内的图像序列,并对其进行裁剪、归一化等技术手段处理,建立行人数据库;基于梯度直方图的行人特征描述;基于网格寻优方式的参数优化;基于Libsvm平台的若干分类器的训练;基于误差率归一化系数的强分类器形成;基于强分类器的新视频图像序列中行人的自动检测和框定;基于框定行人的实时跟踪显示。其处理步骤具体如下:

S10,通过摄像头采集在不同姿态、背景、场景、光照条件下的包括行人在内的正样本图像序列和不包含行人的负样本图像序列;

S11,对采集到的图像序列裁剪、归一化、灰度化处理技术手段处理,建立行人数据库;

S12,基于梯度直方图的行人特征描述:对所建立的行人数据库采用梯度直方图特征对各个图像序列进行描述;具体过程包括以下步骤:

(1)使用模板[-1,0,1]对数据库中经过处理后的行人图像序列计算图像中各点的梯度值:

Gx(x,y)=I(x+1,y)-I(x-1,y)

Gy(x,y)=I(x,y+1)-I(x,y-1)

式中x,y表示图像中像素点的坐标,I(x,y)表示图像的灰度值,Gx(x,y)和Gy(x,y)分别表示图像在x,y方向上的梯度值,当输入的是彩色图像时,各点的梯度值取各通道的最大值。

(2)计算各点的梯度强度M(x,y)和梯度方向θ(x,y)

为了提高HOG的抗噪性,在此将θ(x,y)限定在[0,π]区间中。

(3)把区间[0,π]均分成9各区间(bins),采用三线性插值将每个梯度方向角按照三线性插值分配到其最邻近的区间中,在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计,得到一个9维的特征向量。

(4)采用二范数进行归一化处理消除光照、噪声的影响,每相邻的4个单元构成一个块(block),把一个块内的特征向量联起来得到36维的特征向量,表示为Bi=(f1,f2,...,f36)。

(5)用块对样本图像进行扫描,扫描步长为一个单元,串联每个检测窗口中所有的特征向量,最后生成人体特征,即HOG特征向量表示为:F=(B1,B2,...,B105)。

S13,网格寻优方式的参数优化,由于使用支持向量机都需要对参数进行设置,重要参数是gamma(-g)和cost(-c),交叉检验参数cross validation(-v)的选取值为5,网格搜索就是尝试各种可能的(C,g)对值,然后进行交叉验证,找出使交叉验证精确度最高的(C,g)对,使得分类器能够精确地预测未知的数据。

其主要步骤包括:

S131)对梯度直方图特征描述子数据进行缩放;

S132)在线性核函数、多项式核函数、径向基核函数中选择核函数;

S133)采用交叉验证选择最佳参数对(C,g)。

S14,使用已经获得的最佳参数对(C,g),获取支持向量机模型,其具体包括以下步骤:

(1)采用最佳参数C和g,获取支持向量机模型;

支持向量机是Vapnik等人根据统计学习理论提出的一种新的机器学习方法,已成功地应用于图像处理及生物信息学等多个领域的目标分类问题,并且由于其出色的学习性能已经成为当前研究的热点。其基本思想是通过一个非线性变换将输入空间中的不可分的数据x映射到一个可分的高维空间中,在此高维空间中求解最优线性分类面,这个非线性变换通过核函数K(xi,yi)来实现,最后的分类判别函数为:

式中sgn()是符号函数,b*是分类阈值,由于非支持向量对应的ai均为0,因此上式中只对支持向量进行求和。

常见的核函数有以下几种形式:

1)线性核函数:K(x,y)=x,y

2)多项式核函数:K(x,y)=(x,y+1)d d=1,2,...

3)径向基核函数(RBF):K(x,y)=exp(-γ||x-y||2)

4)Sigmoid核函数:K(x,y)=tanh(b(x,y)-c)

相对而言,线性核函数具有运算速度快的优势,尽管一些实验结果表明核函数的形式对分类效果的影响较小,但是核函数的形式以及其参数的确定决定了分类器的种类与复杂程度,显然它应该作为影响分类器特性的方法。

(2)使用Matlab软件包自带的数据heart_scale.mat进行学习;

(3)使用网格寻优函数SVMcgForClass得到的参数训练模型model。

S15,针对弱分类器的分类误差率,对分类误差率进行归一化,选择归一化系数对各个分类器进行组合,形成最终的强分类器,其方法步骤包括:

(1)初始化数据的概率分布,刚开始为均匀分布:D1=(w11,w12,...,w1N),其中w1i=1/N,i=1,2,...,N。N表示初始数据数量,m表示迭代次数,Dm表示在第m轮迭代开始前,训练数据的概率分布(或权值分布),wmi表示在第i个样本的权值,

(2)对m=1,2,...,M,M表示总迭代次数。

(a)使用具有权值分布Dm的训练数据集进行学习(任意一种模型都是可以的,如决策树,SVM等,并且每一轮迭代都可以是不同的模型),得到一个弱分类器:Gm(x)=X→{-1,+1}

(b)计算Gm(x)在训练数据集上的分类误差率:

(c)计算弱分类器Gm(x)的系数:

(d)更新训练数据的权值分布:

Dm+1=(wm+11,wm+12,...,wm+1N),其中i=1,2,...,N,Zm是规范化因子:

这样这使得Dm+1成为一个概率分布。

(3)将M个基本分类器进行线性组合得到最终的分类器:

S16,对新视频图像序列中行人的自动检测和框定,主要步骤包括:

(1)计算图片的梯度直方图特征,产出一个400×3780的矩阵A1,给每行数据添加类别标签{-1,+1}得400×3781维矩阵A;

(2)使用网格寻优函数SVMcgForClass进行参数寻优,即超平面参数C和g;

(3)使用最优参数及训练数据(矩阵A)进行训练,得到model;

(4)使用得到的model进行预测分类;

(5)计算分类误差率em

(6)计算分类器系数αm

(7)得到最后的组合强分类器G(x);

(8)使用得到的分类器对新图像序列进行自动检测分类;

(9)对检测得到的行人进行框定标注。

S17,对框定的行人进行实时跟踪,步骤包括:

(1)目标的自适应分块

在矩形目标区域表示的情形下,定义一个函数:

其中w,h分别表示的是矩形的宽度和高度,定义一个默认参数k0=2,自适应分割如图2。分割准则为:当k>k0,即w>2h时,矩形如A1所示,那么目标区域就均等划分为前后两个部分,如A2和A3所示;当0.5k0<k<k0时,运动目标如B1所示,那么目标区域就均等分割为上下两部分,如B2和B3所示,当0<k<0.5k0时,运动目标如C1所示,那么目标区域就均等分割成上下两部分,如C2和C3所示,其中B6的宽度和高度分别是原始矩形的一半,B7的宽度和高度分别是原始矩形宽度和高度的一倍。

(2)目标的表示

目标通常框定为一个矩形或者椭圆形区域,目前,由于颜色直方图具有尺度、选择和部分遮挡的不变性,使得颜色直方图成为一种普遍的表示方式。假设框定的目标区域有n个像素点,{xi},i=1,2,...,n构成,式中xi=(xi,yi)为像素坐标,直方图的bin的个数为m,则目标的核直方图模型为:

式中:δ为Kronecker delta函数,窗口的带宽矩阵为h,用来限定要考虑的候选目标的像素个数,b(xi)为将像素xi所对应的特征值映射到相应的bin值的量化函数,Ch为归一化系数,所以:

由此,建立了目标的核直方图模型,q={qu}u=1,2,...,m

同理,相应的,位于位置y的候选目标的模型定义为:

由此,建立了候选目标的核直方图模型,p(y)={pu(y)}u=1,2,...,m

由于归一化系数的存在,保证了:

当分别用qu和pu(y)表示目标图像和候选目标图像后,需要选择合适的相似性度量函数。采用Bhattacharyya系数来度量目标模型和候选区域间的相似性程度:

(3)Mean Shift算法

目标跟踪的关键是在图像平面中找到位置y,使得目标与候选目标在所选特征的距离空间内取得最小距离,等价于使得Bhattacharyya系数ρ[p(y),q]取得最大值。给定目标在当前帧的初试位置y0,利用一阶泰勒展开线性地将ρ[p(y),q]近似为:

将目标模型和候选目标模型带入,整理,得到:

根据泰勒展开的条件,其前提是假设当前目标的外观p(y)与当前帧p(y0)变化不大,这在视觉跟踪应用中常常满足该条件,得到:

式中:由此,上式第一项是常数项,要使得ρ(y)取得最大值,等价于第二项取得最大值。所以:

式中:g(·)=-k'(·)为核函数的负导数,则只需要上式的第一乘积项为0,则梯度为0,ρ(y)取得最大值。当前迭代停止位置为:

(4)对跟踪确定位置框定显示。

本发明中,能够实现对视频图像序列中行人的自动检测,相比传统行人检测方法检测准确率和可信度有很大的提高,并达到很高的精确度;自适应目标分块表示的跟踪方法,该方法根据未接矩形的长宽比例系数决定目标的自适应分块方式,使用加权Bhattacharyya系数判断各个分块之间的相似性,并进行组合决定最终的相似性,其跟踪效果有很大的提高。

以上对本发明的具体实施例进行了描述及说明,这些实施例仅为示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1