一种基于全局特征和稀疏表示分类的人体行为识别方法与流程

文档序号:13887901阅读:157来源:国知局

本发明涉及视频监控图像与视频处理技术领域,尤其涉及一种基于全局特征和稀疏表示分类的人体行为识别方法。



背景技术:

近年来,随着智能视频监控系统的高速发展,运动目标检测作为智能视频监控系统中重要环节,成为了当前计算机视觉的热点研究问题。运动目标检测是从视频序列帧中将前景运动区域从背景图像中分割提取出来。在智能视频监控系统中,运动目标检测效果对后期目标跟踪、行为理解、目标分类等有着决定性的作用。目前,视频运动目标检测方法主要包括光流法、帧间差分法、背景减除法等,其中,背景减除法由于计算量小、实时性好、运行效率高等特点,成为当前运动目标检测最常用的方法。

背景减除法的关键在于背景模型的建立与实时更新,只有保证背景模型的准确性,才能较好地检测出运动目标。在实际复杂环境中,背景模型抗干扰能力较差,易受外界光照变化,摄像机抖动等因素影响,导致背景模型与实际背景产生偏差,易将一些伪目标判定为目标对象。

近年来,随着机器学习、模式识别与计算机视觉技术的不断融合,基于视频内容的理解近年来逐渐成为视频图像处理领域的研究热点。人体行为识别是在细致和准确地提取运动目标特征后,通过有效的分类识别算法进行人体行为识别。在特征提取阶段,全局特征主要基于人体的全部轮廓来描述人体的运动信息。而在识别阶段。稀疏表示理论目前被广泛地应用于图像压缩编码、图像复原和图像分类等问题,其功能同人脑视觉神经方面的能力和学习能力有一定的相似性,实质上是对庞大数据集的一种降维表示分类。基于稀疏表示的分类算法计算速度快,一般要先收集来自于不同类别的样本的特征以建立字典。类别一致的k次矩阵奇异值分解法用于构造稀疏表示中过完备字典,可以得到一个小巧的、统一的字典以及简单的线性多类分类器,在实际复杂环境中模型抗干扰能力强,成为当前最常用的构建稀疏表示字典的方法。

目前人体行为识别领域存在一些问题,如视频中场景的复杂性、行为的类内差异性、行为的类间相似性和缺乏全面准确的运动特征表示,导致在实际复杂环境中,特征表示易受外界环境变化影响,分类模型抗干扰能力较差,人体行为识别准确率较低。

本发明提出了一种基于全局特征和稀疏表示分类的人体行为识别方法,适用于安防监控、基于内容的视频检索、人机交互及虚拟现实等等科学领域。



技术实现要素:

本发明针对现有技术中的上述问题,结合目前在模式识别领域表现优异的基于稀疏表示的分类方法,本发明提出一种基于全局特征和稀疏表示分类的人体行为识别方法,该方法能全面表示场景中行为的运动特征,提高分类模型的鲁棒性和人体行为识别的准确率,适用于安防监控、基于内容的视频检索、人机交互及虚拟现实等等科学领域。

为了达到上述目的,本发明采用的技术方案如下:

本发明涉及一种基于全局特征和稀疏表示分类的人体行为识别方法,包括以下步骤:

步骤(1)、获取人体行为视频,对视频帧进行高斯核卷积滤波预处理;

步骤(2)、差分法提取运动前景像素;

步骤(3)、根据参数在时空维度对像素值采样确定运动区域;

步骤(4)、调整视频帧的大小进行初步降维,将每帧视频按列拼接成向量,然后将多帧向量组合起来得到特征向量;

步骤(5)、将全部特征向量按列拼接构成特征矩阵,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维;

步骤(6)、第二次降维后的特征矩阵构成了最初的特征字典,对特征字典进行初始化操作,初始化结束后采用类别一致的k次矩阵奇异值分解法进行字典学习,得到期望的字典、线性分类器;

步骤(7)、输入测试样本,求得其在步骤(6)得到的字典下的稀疏编码,将得到的稀疏编码送入分类器,然后根据步骤(6)得到的线性分类器来估算输入的测试样本的行为类别;

步骤(8)、统计结果、调整特征提取、字典学习参数;再返回步骤2;

本发明的有益效果是,该方法在使用简单易得的行为特征构造字典的情况下,还能保证识别准确率,对实时行为识别有一定的参考价值。

附图说明

下面结合附图和实施例对本发明进一步说明:

图1为本发明实施例的总体流程图;

图2为本发明实施例特征提取窗口示例;

图3为本发明实施例字典学习窗口示例;

图4为本发明实施例行为识别窗口示例;

图5为本发明实施例采集视频上的识别结果示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明,以下实施例不构成对本发明的限定。

如图1所示,本发明方法的实施流程具体包括以下步骤:

s1010:获取人体行为视频,采用matlab内置的视频读取函数将得到的每个视频片段转换为一个h×w×f的三维矩阵,h为视频帧的高度,w为视频帧的宽度,第三维f的数值代表了视频的帧数,h×w为视频的每一帧的大小。

s1110:在视频预处理阶段,先通过高斯核对视频的每一帧进行高斯卷积滤波。

s1120:对视频帧图像使用差分法获取包含运动前景信息的前景图像,对前景图像进行均值滤波以平滑噪声。

s1130:根据参数(h,w,patchwin,srs,trs,tprlen)在时空维度对像素值采样确定运动区域,其中,h为视频帧的高度,w为视频帧的宽度,srs为采样点的空间分布,例如,srs=5代表在每行及每列均每隔5个像素点进行一次采样,trs为采样点在时间维度的分布,例如trs=5代表每隔5帧进行一次采样,patchwin决定了采样点周围立方体的长和宽,tprlen决定了采样点周围立方体的帧数跨度;为了获得更显著的运动响应,将每一帧及其前后两帧的像素累加作为当前帧的运动区域;在确定运动区域时,采用采样的方式,采样间隔分为空间间隔与时间间隔,在某个采样点上的运动累计(像素值的累加)若是超过了设定的阈值,则将该采样点周围由参数patchwin和tprlen决定的的视频立方体的像素值标记为运动块,若某个采样点上的像素值的累加小于设定阈值则该采样点周围由参数patchwin和tprlen决定的视频立方体像素值被置为零,否则不做改变。

s1140:在通过时空像素值采样统计完运动区域后,将视频帧调整大小以降低拼接特征的维数进行初步降维,具体操作为:将每一帧图像按列拼接成向量,n帧图像的向量首尾相接组合成一个特征向量。

s1150:将视频帧图像全部特征向量按列拼接构成特征矩阵,来自不同类别的特征数量一致且位置相邻,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维。该特征提取方法类似于基于人体轮廓的运动能量图,提取速度快,计算量小。因此,特征向量的维数就由确定运动区域的参数来决定,而时空像素值采样的频率也会影响特征的质量。上述特征提取的参数包含6项内容:h、w、patchwin、srs、trs、tprlen,。

如图2所示,在特征提取时,首先点击“输入视频”按钮,选择输入视频的文件路径,然后在参数设置中填入特征提取时的参数,各个参数的含义如上所介绍。接着确定特征文件存放的位置,点击“选择文件位置”按钮设置特征存储位置。最后点击“开始提取特征”进行特征提取。在输入视频时可选择多个文件,以便于视频批量处理,减少手动操作次数。

s1160:第二次降维后的特征矩阵构成了最初的特征字典。该字典还要通过类别一致的k次矩阵奇异值分解法去学习,来产生兼具重构性能与分类性能的字典以及一个简单的分类矩阵。

在通过类别一致的k次矩阵奇异值分解法对字典学习之前,还有一个特征字典初始化的过程。初始化的输入参数为之前求得的特征字典、特征的类别、迭代次数和迭代阈值,输出为初始化的字典d、线性变换矩阵a、线性分类参数w以及训练特征的最优编码矩阵。

字典初始化过程中,采用多元岭回归模型以及二次平方损失和l2范数正则化项初始化线性变换矩阵a线性分类参数w,公式如下:

a=(xxt+λ1i)-1xqt

w=(xxt+λ1i)-1xht

其中,x表示输入样本在特征字典下的稀疏编码矩阵;q是训练样本的类别矩阵,其列数等于训练样本数,行数等于字典原子数;h为输入样本的类别矩阵,其列数等于训练样本数,行数等于类别数;λ1是正则化参数,i表示单位矩阵,t表示对矩阵转置。岭回归是对最小二乘法的改良,最小二乘法(又称最小平方法)是一种通过最小化误差的平方和寻找数据的最佳函数匹配优化方法。当未知模型具有多元自变量,且自变量的相关系数较高时,岭回归就是为了解决最小二乘法的回归系数误差特别大的问题。例如矩阵中某些数据列可以由其余的数据列近似地线性表示时,|x′x|≈0,因此设想为x′x加上一个正常数矩阵ki(k>0),则x′x+ki接近奇异的程度会比x′x的程度小得多。在字典初始化的过程中,主要是根据给定的迭代次数和迭代阈值,对每个类别的子字典分别进行初始化,然后将不同类别的子字典拼接在一起作为初始化的字典。

在字典初始化过程结束后,进入字典学习阶段,有两种类别一致的的字典学习方法可以生成兼具信号重构性能及信号分类性能的字典,第一种类别一致的k次矩阵奇异值分解法(记作lcd1),按照公式(1)对字典进行学习,第二种类别一致的k次矩阵奇异值分解法(记作lcd2),按照公式(2)对字典进行学习,公式(1)和公式(2)具体如下:

其中,d表示初始化的字典,w表示线性分类参数,x表示所有输入样本在特征字典下的稀疏编码矩阵,a表示线性变换矩阵,y表示输入样本,t0表示稀疏编码的稀疏度、α表示稀疏编码误差项的贡献系数、β表示分类器的误差项的贡献系数,xi表示第i个输入样本在特征字典下的稀疏编码。

这两种字典学习方法和传统字典学习方法只计算重构误差的不同之处在于,公式(1)的方法加入了具有判别功能的稀疏编码误差项用于约束使得q与ax近似。而q之所以具有判别性是因为它使来自于同一类别的字典元素和输入信号具有相同的稀疏编码,这个编码在整个字典学习过程中是固定的,虽然在字典训练过程中,字典元素是在不断更新的。。

在字典学习过程中,还有几个重要的参数需要通过反复实验来确定其最佳取值。它们是:稀疏编码的稀疏度t0、稀疏编码误差项的贡献系数α、分类器的误差项的贡献系数β、字典初始化时的迭代次数以及字典学习时的迭代次数。这些值的确认虽然可以参照以往的实验,但是更多地还是要根据实验数据的情况去反复测量以取得最佳取值。为提高公式(2)求解的效率,将其改写为:

其中,

则公式(2)学习的目标为:

通过得到期望得到的字典变换参数以及线性分类器其中,k表示类别数目,a={a1...ak}为线性变换矩阵,d={d1...dk}为初始化的字典,w={w1...wk}为线性分类参数,ak表示第k个线性变换向量,dk表示第k个字典向量,wk表示第k个线性分类向量。

在字典学习的过程结束后,得到的数据为字典以及线性分类器对于新输入的测试样本y,首先求得其在字典下的稀疏编码,然后将该稀疏编码送入线性分类器,得到的向量中最大元素所在的位置即为样本y的类别。

在实验过程中,还要将采集到的特征分成训练集和测试集两部分。为了更充分地利用样本以及更充分地覆盖样本,因此采用k折交叉验证法进行测试实验。k折交叉验证是指:(1)将全部样本集合s分成k个不相交的子集,假设s中的训练样例个数为m,那么每一个子集有m/k个样本,相应的子集记作{s1,s2,...,sk};(2)每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作为训练集;(3)根据训练集训练出模型或者假设函数;(4)把这个模型放到测试集上,得到分类率;(5)计算k次求得的分类率的平均值,作为该模型或者假设函数的真实分类率。该方法的实验次数多、实验时间久、计算任务重,需要训练k次,测试k次。但是该方法充分利用了所有样本,得到的结果更接近真实值,因此采用k折交叉验证的方式对样本集进行实验。

如图3所示,在特征提取结束后,点击左上角“字典学习”菜单,进入字典学习界面。首先选择特征文件和字典存储的位置,然后设置字典学习的参数。最后点击“开始字典学习”按钮进行字典的学习。

s1170:输入信号稀疏编码,编码送入分类器,输出行为类别;

如图4所示,在字典学习结束后,点击系统左上角“行为识别”菜单,进入行为识别界面。首先需要选择字典文件和输入视频文件,然后点击“开始识别”按钮,接下来系统就会读入视频、抽取特征,然后利用已经选择的字典和分类器,来求解并输出测试样本的行为类别。对于输入样本y,首先求得它在字典下的稀疏编码表示:

然后将公式(3)表示的稀疏编码送入到线性分类器使用线性分类器来估算输入样本y的类别标签j:

其中,l∈rm是类别标签向量。

s1180:统计结果、调整特征提取、字典学习参数;再次进行识别分类。

在kth数据集的实验中,为了更充分地将采集样本用于字典训练,采用10折交叉验证法。样本特征数据选择其中的90%作为训练样本,10%作为测试样本。共进行10次实验,取10次结果的平均值作为最终结果。在分割样本特征数据时,由于相邻帧的动作具有连续性,因此没有采取传统的随机分割法,而采取等距离采样法。

以下表格数据为在kth数据集上,采用lcd1方法学习字典时基于稀疏表示的分类识别结果的混淆矩阵。其中每一行的数据和为100。

以下表格数据为在kth数据集上,采用lcd2方法学习字典后,基于稀疏表示的分类识别结果的混淆矩阵。

以下表格数据为本文框架中的lcd1和lcd2算法的识别结果的对比。

由上述统计结果可以看出,最高识别率出现在打拳行为中,分类准确率为100%;最低分类率为87%,出现在慢跑行为中。有70%的动作种类的识别率在90%以上。分类正确率较低的动作,集中在走路、慢跑、跑步三种行为,原因在于这三种行为的轮廓特征相似,只是动作的频率不同。在同其他识别方法的横向对比中可以看出,本文提出的识别方法的识别率和经典方法基本持平。甚至略高于经典算法。

在ucfsports数据集实验中,同样采用10折交叉验证方式统计平均识别结果。

以下表格为在ucfsports数据集上,采用lcd2方法进行字典学习后,在基于稀疏表示的算法框架下的实验结果。

在该数据集上的实验结果lcd2优于lcd1。实验结果可以看出,有90%的动作类别的识别正确率高于80%。

以下表格为ucfsports数据集上,本发明所述方法的实验结果对比。

可以看出,本发明所述的方法在ucfsports数据上的结果略低于kth数据的结果,原因可能在于ucfsports数据集中的视频场景较为复杂,还需要改进特征提取的方式以抽取出更具鲁棒性的行为特征。

s1190:进行验证得出识别的行为类别。

如图5所示,为了进一步验证该行为识别算法,采集了4段同学在走廊中走路的视频、4段拍手的视频作为补充验证。将采集到的视频进行压缩后送入基于matlab的人体行为识别系统,经验证得到了正确的行为类别。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1