基于时空多尺度统计匹配模型的动作检测方法与流程

文档序号:13910217阅读:425来源:国知局
基于时空多尺度统计匹配模型的动作检测方法与流程

本发明属于视频目标检测识别领域,涉及一种基于时空多尺度统计匹配模型的动作检测方法。



背景技术:

在过去的20年中,级联分类和贝叶斯法则等方法逐渐被提了出来。为了确定分类器的参数,传统的目标检测方法需要大量的训练,这就造成了实时性差的问题。近年来,有人提出了一种新的无训练方法。

2007年,h.takeda提出了经典核回归来恢复图像的高频信息,这可以用来降噪。2009年,p.milanfar研究出了自适应核回归的方法来去除噪声,提高图像的细节和目标检测。同年,h.j.seo和p.milanfar作出了进一步的努力,并提出了局部自适应回归核的方法,这是一种用于目标检测的非参数方法。几年后,h.j.seo致力于从不同方面提高回归核的鲁棒性。其中,在2011年,h.j.seo和p.milanfar采用时空自适应局部回归核(3dlark,3d即时空)。3dlark可以很好地捕捉视频的局部结构特征。然而,h.j.seo在中提出的匹配算法(以下简称为““seo算法”)并不适用于非紧凑的目标,如人的动作。采用带背景的完整模板和测试视频相匹配,这限制测试视频场景的选择。识别精度依赖于模板与测试视频的背景相似度。只有当测试视频的背景与模板非常相似时,结果才能是令人满意的。相反,当视角改变或场景复杂时,结果总是令人失望。2007年,wang通过方法模板图像并将其分割成多个部分来检测人脸。当中,模板只包含人脸,这给了一些去除背景的灵感。采用无背景模板来缓解场景限制。此外,当动作部分被场景遮挡时,那么完整模板的匹配也不能识别到它。

因此,需要一种基于时空多尺度统计匹配模型的动作检测方法以解决上述问题。



技术实现要素:

本发明的目的是针对现有技术的缺陷,提供一种基于时空多尺度统计匹配模型的动作检测方法。

为实现上述发明目的,本发明基于时空多尺度统计匹配模型的动作检测方法可采用如下技术方案:

一种基于时空多尺度统计匹配模型的动作检测方法,包括以下步骤:

1)、构建新的局部glark特征;

式中,k(·,·)为局部自适应回归核核值,l∈[1,…,p2],p2是以感兴趣像素为中心的局部窗口中像素的总数;δxl=[dx,dy]t,dx和dy分别表示空间图像表面x轴微分和y轴微分;

式中,ωl代表时空分析窗口,m∈ωl,zx(m)和zy(m)分别为空间图像表面m处x轴和y轴高斯差分梯度矩阵,zt(m)为m处时间维上的梯度;

2)、根据步骤1)得到的局部glark特征得到模板视频序列和测试视频序列的特征矩阵fq和特征矩阵fq和分别包括列向量计算列向量夹角的余弦值,得到余弦相似性矩阵ρ3dglk(:,:,k):

式中,k=1,2,……,tt,ρij为列向量夹角的余弦值,其中,i=1,2,……,mt,j=1,2,……,nt;

3)、取余弦相似性矩阵ρ3dglk(:,:,k)每一行的最大值,记录fq中和这个最大值对应的列向量的位置,并记为索引矩阵indexglk(:,k):

4)、选择一个p×p×t的局部窗口遍历indexglk(:,k)矩阵,并记录窗口内不重复索引值的个数num。

更进一步的,步骤4)中局部窗口的大小为p×p×t,其中,p为局部窗口的长度或宽度,t为局部窗口的时间尺度。

更进一步的,步骤2)中模板视频序列中模板图像的大小分别为模板图像的0.5倍、1倍和1.5倍。这样就形成了包含三个模板序列的多尺度拼接模板集,多尺度模板集增加了对视频序列中尺度变化的动作完整检测的可能性,并且解除了lark对待检测目标场景的限制。

有益效果:本发明的基于时空多尺度统计匹配模型的动作检测方法,注重目标的局部结构信息,高斯差分子算子增强了局部弱边缘,解决了背景干扰带来的弱边缘漏检问题,特别是对有被遮挡的动作也能很好的检测到;时空统计匹配过程平衡了局部小窗口glark结构和局部大窗口邻域结构之间的关系,提升了多尺度匹配效率。

附图说明

图1是本发明方法原理图;

图2是神经元细胞感受野图;

图3是高斯核卷积;

图4是帽子边缘glark特征图;

图5是由相似度图到检测结果过程图;

图6、图7和图8是多场景中本发明方法和seo方法实验结果对比图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

请参阅图1所示,本发明的基于时空多尺度统计匹配模型的动作检测方法,包括以下步骤:

1)、构建新的局部glark特征;

式中,k(·,·)为局部自适应回归核核值,l∈[1,…,p2],p2是以感兴趣像素为中心的局部窗口中像素的总数;δxl=[dx,dy]t,dx和dy分别表示空间图像表面x轴微分和y轴微分;

式中,ωl代表时空分析窗口,m∈ωl,zx(m)和zy(m)分别为空间图像表面m处x轴和y轴高斯差分梯度矩阵,zt(m)为m处时间维上的梯度;

2)、根据步骤1)得到的局部glark特征得到模板视频序列和测试视频序列的特征矩阵fq和特征矩阵fq和分别包括列向量计算列向量夹角的余弦值,得到余弦相似性矩阵ρ3dglk(:,:,k):

式中,k=1,2,……,tt,ρij为列向量夹角的余弦值,其中,i=1,2,……,mt,j=1,2,……,nt;步骤2)中模板视频序列中模板图像的大小分别为模板图像的0.5倍、1倍和1.5倍。这样就形成了包含三个模板序列的多尺度拼接模板集,多尺度模板集增加了对视频序列中尺度变化的动作完整检测的可能性,并且解除了lark对待检测目标场景的限制。

3)、取余弦相似性矩阵ρ3dglk(:,:,k)每一行的最大值,记录fq中和这个最大值对应的列向量的位置,并记为索引矩阵indexglk(:,k):

4)、选择一个p×p×t的局部窗口遍历indexglk(:,k)矩阵,并记录窗口内不重复索引值的个数num。其中,步骤4)中局部窗口的大小为p×p×t,其中,p为局部窗口的长度或宽度,t为局部窗口的时间尺度。

本发明的基于时空多尺度统计匹配模型的动作检测方法,注重目标的局部结构信息,高斯差分子算子增强了局部弱边缘,解决了背景干扰带来的弱边缘漏检问题,特别是对有被遮挡的动作也能很好的检测到;时空统计匹配过程平衡了局部小窗口glark结构和局部大窗口邻域结构之间的关系,提升了多尺度匹配效率。

实施例1

结合图1,本发明提出的基于时空多尺度统计匹配模型的动作检测方法的步骤如下:

步骤一:构建新的局部glark特征。

对于局部galrk的问题,本发明首先分析传统lark所存在的问题:传统局部自适应回归核定义公式如下。

协方差矩阵cl是根据图像简单地梯度信息计算得来的。事实上,很难用简单的梯度去描述目标的具体的结构特征。更糟糕的是,当目标边缘的对比度比较小时,seo算法很容易忽略目标的弱边缘。因此会造成漏检。为了弥补这一缺陷,本发明充分挖掘lark特征,引入高斯差分(dog)算子,生成一个新的glark特征描述子来增强弱边缘的结构信息。这个高斯差分算子主要是由图2中的神经元感受野启发而来(经典感受野具有中央和周围区域相互拮抗的结构,非经典感受野是经典感受野之外的较大区域,它消除了对经典感觉野的抑制)。传统高斯核算子定义如下。

然后重建高斯差分梯度矩阵:对于二维图像,本发明采用不同的高斯卷积核作为多尺度因子,来对每个像素点的梯度信息作卷积。如式(3)(4)。

z(x,y,σ,k)=d(x,y,kσ)-d(x,y,σ).(4)

这里,代表卷积,(x,y)是空间坐标;z(x,y)是图像梯度矩阵,它有两种表现形式:zx(x,y)和zy(x,y);z(x,y,σ,k)是高斯差分梯度矩阵:zx和zy.图3是一个3×3区域的梯度矩阵。假设有一个3×3的高斯核算子g={123;456;789},并且采用以下公式进行卷积计算。

之后以3×3区域的中心点(2,2)作为一个例子:

在本发明中,3dglark的第三个维度是时间,δx=[dx,dy,dt]。然后能够得到一个新的cglk。

这里ωl代表时空分析窗口。

最后,可以得到新的glark特征。

图4给出了glark特征图。从图4中可以看出,glark更好的描述了弱边缘的图形走势。

步骤二:时空局部结构统计匹配过程。

首先,根据glark特征可以得到模板和测试视频序列的特征矩阵:fq、然后下面就是基于“矩阵余弦相似性的测量规则”。

1、计算列向量夹角的余弦值,可以得到余弦相似性矩阵,如式(9)。

2、取ρ3dglk(:,:,k)每一行的最大值,记录fq中和这个最大值对应的列向量的位置,并记为索引矩阵indexglk,如式(10)。

3、选择一个p×p×t的局部窗口遍历indexglk矩阵,并记录窗口内不重复索引值的个数,num代表了当前区域和感兴趣目标的相似度。这个相似度代表了测试视频序列中和模板相似的所对应的结构。不重复索引值个数越多,说明局部窗口内的结构越和模板相似。基于这个相似度,采用非极大值抑制方法就可以得到一个相似度图,如图5所示。

表1本发明方法和一些监督学习方法在不同场景下的性能对比(%)

为说明本发明在视频目标检测方面的优势,因为本发明方法中的glark特征对复杂场景具有一定的适应性,所以先给本发明实验选定3种不同的场景,分别为单人场景、快速动作场景、多人和多尺度行人场景,并和seo方法做出了对比实验。如图6所示,测试视频序列为597帧,分辨率为352×288,本发明方法对被景物遮挡的行人动作检测的鲁棒性比较好;如图7,测试视频序列为160帧的滑冰场景和84帧的冲浪场景,从实验结果能够看出,本发明方法对动作多尺度的鲁棒性很好;图8为多人场景的实验结果,对于具有弱边缘的动作,本发明方法可以很好地检测出来。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1