一种基于稀疏低秩的人体行为识别方法

文档序号:10512682阅读:165来源:国知局
一种基于稀疏低秩的人体行为识别方法
【专利摘要】本发明属于数字图像处理技术领域,涉及计算机视觉、模式识别、机器学习和数据挖掘等相关理论知识。本发明首先利用光流直方图对相邻两帧图片提取光流特征,并对单帧图像提取梯度直方图信息,获得监测场景内的运动特征信息,采用低维空间的特征信息并按照[动作1|动作2|动作3|……]的方式排列;然后用K均值的方式聚类,得到聚类中心后,将聚类中心作为过完备字典,求解测试样本在过完备字典下的稀疏低秩表达,得到表达矩阵;最后根据表达矩阵中的最大值求解出该测试样本所属的行为类别。本发明采用基于低秩稀疏的人体动作识别,采用交叉验证的方法,识别率92.3~98.79%,误识率1.21~7.6%。本发明具有低秩特点,且识别率上达到92.3~98.79%,误识率1.21~7.6%。
【专利说明】
一种基于稀疏低秩的人体行为识别方法
技术领域
[0001] 本发明属于数字图像处理技术领域,涉及计算机视觉、模式识别、机器学习和数据 挖掘等相关理论知识。
【背景技术】
[0002] 视频人体动作的分析与表示是计算机视觉领域的一个研究热点,其主要任务是从 视频中检测、提取和表示人体运动信息,它涉及图像处理、机器学习、应用物理、数学等多个 学科,具有重要的理论和实际应用价值。由于人体运动的复杂性和多样性,尽管经历了十几 年的研究,视频人体动作识别仍然难以应用于实际环境。作为人体动作识别的核心,动作表 示和识别仍然存在大量亟待解决的问题。
[0003] 人体动作识别通常可以分为两个步骤:行为描述(表示)和行为分类,行为分类问 题通常采用支持向量机(SVM),最近邻分类法(KNN),但根据不同的行为特征提取方法,行为 描述也相应的有不同的表示方法,行为描述方法涉及行为特征的排列组合,聚合与抽象,因 此行为描述的是否恰当直接影响行为识别的优劣。
[0004] 行为描述存在的问题有:
[0005] 1、当视频画面中存在较大人体运动信息时,这时运动信息的初级特征会呈现快速 膨胀,这就意味着需要消耗大量时间和内存资源进行聚类运算,而且聚类中心个数的确定 也是一个较难处理的问题,尤其是在数据集容量很大的情况下。
[0006] 2、在复杂背景环境下,人体行为既存在大量遮挡,同时光照强度的频繁变化都不 利于对人体行为进行正确的描述。
[0007] 当前行为表达主要有以下几种方法:
[0008] 一、基于特征袋模型(Bag-of-Features,B0F)结合局部时空形状信息用于动作描 述,然后对这些动作描述子进行聚类,形成可视化的聚类中心,因此可将不同的行为以不同 的聚类中心进行表达,最后应用K近邻法,计算行为描述子与聚类中心的距离,根据距离大 小进行图像分类的方法,获得很好的识别率。这种方法的将完整的运动图像割裂为等长排 列的向量,忽略了运动信息的时空特性,因此对于"跳跃"和"奔跑"等相近动作识别效果不 佳。
[0009] 二、基于低秩的行为表达,这种表达方法首先提取不同动作的行为特征,然后用这 些特征建立过完备字典,并假定待分类的动作可以用过完备字典进行线性表达,并且这种 线性表达存在低秩性质,也即过完备字典中的某些列向量对表示待分类样本起作用,而其 他列向量不起作用,同样这种行为描述法也取得了很好的效果,但这种方法,忽略了表达的 稀疏性,因此表达存在信息冗余。
[0010] 目前行为识别算法主要是采用图像分类的处理方法,即先将训练样本中的运动视 频提取特征,然后将这些特征按照时间顺序依次排列,从而得到若干时空立方体,为了保证 有保留视频中的局部信息的往往将这些立方体分割成小的立方体,然后将这些立方体向量 化,同样按照时间顺序依次排列,对每个动作视频都采用上述方式进行处理后,得到一个样 本字典,接下来对样本字典进行聚类,聚类的结果是得到特征均值,相当于得到了训练样本 的模板,最后对测试样本同样采用提取特征,分割的处理后,得到测试视频的样本集,最后 计算测试样本集与模板之间的距离,根据距离大小判定测试样本所属的类别。这种方法由 于采用了向量化的处理方法,忽略了运动特征的时空分布特性,因此存在明显的信息损失, 而且这种方法需要大量的距离运算,运算复杂度较高,同时聚类中心的数目也对识别结果 产生很大的影响。

【发明内容】

[0011] 针对上述存在问题或不足,本发明提出了一种基于稀疏低秩的人体行为识别方 法。
[0012] 该基于稀疏低秩的人体行为识别方法,包括场景特征提取,特征聚类,低秩稀疏表 达和行为识别四个步骤。如图1所示,具体步骤如下:
[0013] 步骤1、视频图像灰度转换并提取场景特征
[0014] 步骤1-1:首先接收监测设备采集到的视频流,对得到的单帧图像进行灰度化处 理。
[0015] 步骤1-2:将每帧图片归一化成96*48的大小;每个cell的大小为8*8的像素点,每 个block中包含2*2个cell即16*16的像素点;相邻block有一半的区域是重叠的;梯度方向 分为9个方向,得到的一张图片的梯度直方图H0G特征向量为1980维。
[0016]对连续两帧灰度图像在3*3的网格中提取光流直方图特征H0F,即每3*3的网格求 出一个光流特征向量,根据视频帧的不同大小可以得到N个光流特征向量,将光流范围0~2 π等分成32个子空间,构建32维的直方图B,在统计直方图时,根据角度值对应位置投票,投 票所得结果作为权值,因此得权值向量11=[11 1{]氺={1,2,3-,1(},其中1^为每个网格的索引 值,K是网格总数,hk为第k个网格中3 2维直方图B对应的权值。
[0017] 步骤2、特征聚类
[0018]设光流特征向量x=[xi],i = {l,2,3…,m},对于每一个特征向量,动作类型计算 公式:

[0020] 对于每类动作Cu)j,计算该类质心 ,这里K表示聚类中心,取值 500~2000。
[0021]步骤3、低秩稀疏表达
[0022] 步骤3-1:将聚类中心构成的字典0=[(^]^={1,2,3~,11},贝収为一个(13\11的矩 阵,ds为特征维度,识别样本集X= [xk],k= {1,2,3…,n},X中的任意一列xi都可以用D进行 线性表达,将这种关系式写为:X = DZ+E,其中Z的每一列表示X的对应列用D进行线性表达的 系数,矩阵Z称之为表达子,E为由噪声引起的误差。
[0023]步骤3-2:据此建立目标方程:
[0024] argminz,E| |Ζ| |*+β| |Ζ| |ι+γ | |E| |is.t.X = DZ+E式 1
[0025] 其中β和γ分别表示各项的关注因子,它们的值越大,表示相关项越受关注。这里β =2, γ =2,公式中分别用核范数和L1范数求解低秩和稀疏问题。
[0026] 步骤3-3:求解步骤3-2中的式1,这里用到了增广拉格朗日乘数法,得到目标函数 后分别对各个参数进行迭代优化,则参数的迭代过程为:
[0031 ] Yi)k+i = Yi,k+yk(X-DZk+i-Ek+i),
[0032] Y2;k+i = Y2>k+yk(Zk+i-ffK+i),
[0033] yk+i = pyk,
[0034] 其中函数J和Θ分别表示奇异值压缩算子和压缩算子,τ|Η|β|||,ρ= 1.1,各参量的 初始值为
[0035] 步骤4、行为识别
[0036] 步骤4-1、通过步骤3求得的稀疏低秩矩阵Z,其中Z的每一列就是待识别样本在D中 的线性表达,现在只需要找出表达最大的那个系数即可知道待识别样本所属的类别,采用 最大池化法,即找出矩阵Z中每一行的最大值。令yi=max( |zii|,|zi2|,…|z|in),i = l,2^·· 1〇
[0037] 步骤4-2、得到矩阵Ζ中每一行的最大值yi,取最大值中的前十个,分别找出这十个 值所对应的相应类别,并计算该类别在矩阵Z中对应的系数,并把相同类别的系数叠加起 来,得到的最大值所对应的类别即为最终的识别结果。相应的计算公式如下:
[0038] yi=max( | zu |,| Zi21,…| Zin| ),i = 1,2,…丁
[0039] 上式表示取Z中行向量中最大值的前T个。
[0040] 分别找出对应的Pj = Ci (yi),i = 1,2,…Τ,其中Ci(yi)为步骤2的聚类结果。
[0041 ] PrcCsar'gmaXjSLiMj = i)y(i),i = .U …T,j e f),其中 δ( ·)是Dirac Delta 函 数,PreC即为最终的识别结果,T取5~10。
[0042] 所述步骤4-1中最大池化法是指:选择图像区域的最大值作为该区域池化后的值, 所谓池化,是指对图像中不重合区域的聚合操作。
[0043] 本发明首先利用光流直方图对相邻两帧图片提取光流特征,并对单帧图像提取梯 度直方图信息,获得监测场景内的运动特征信息,为了保持场景分析的时空一致性,因而采 用低维空间的特征信息,对特征信息按照[动作1 I动作2 |动作3 |……]的方式排列;然后用Κ 均值的方式聚类,得到聚类中心后,将聚类中心作为过完备字典,求解测试样本在过完备字 典下的稀疏低秩表达,得到表达矩阵;最后根据表达矩阵中的最大值求解出该测试样本所 属的行为类别。本发明采用基于低秩稀疏的人体动作识别,采用交叉验证的方法,识别率 92.3~98.79%,误识率1.21 ~7.6%。
[0044] 本发明通过使用基于稀疏低秩表达的行为识别方法,该方法的主要特点是,模板 字典的建立并不是特征向量的堆叠而是采用聚类中心为过完备字典,字典具有更好的凝聚 作用,并且在字典于测试样本的距离计算上,并不是采用欧式距离直接计算,而是找出测试 样本在字典下的线性表达,通过线性表达具有的稀疏性与低秩性,以此来表征行为类别的 距离。
[0045] 综上所述,本发明具有具有低秩特点,且识别率上达到92.3~98.79%,误识率 1.21 ~7.6%〇
【附图说明】
[0046] 图1为稀疏低秩表达的人体行为识别总体流程示意图;
[0047] 图2为当T = 10时,不同聚类数目下的识别率;
[0048] 图3为聚类中心数Κ = 2000时,不同Τ值的识别率;
[0049]图4分别为:图4Α运用词袋法,图4Β运用低秩表示和图4C运用稀疏低秩表示的在实 际拍摄视频中得到的混淆矩阵;
[0050]图5为低秩稀疏表达流程伪代码。
【具体实施方式】
[0051 ]实现语言:Matlab
[0052] 硬件平台:Intel i3 2120+4G DDR RAM
[0053] 本发明方法通过在Mat lab上进行直观、有效的算法验证。
[0054] 通过在学校广场采集行人活动对词袋法,低秩法以及本专利描述的方法进行测 试,行人活动主要包括:弯腰、跌倒、拍手、挥手、跑步、蹲下、走路7种行为,测试结果,如图4 所示。相比之下,运用本专利描述的方法取得了较好的识别效果。其中运用词袋法(图4A)识 别效果明显低于低秩表示法和本专利所述方法,而低秩表示法在弯腰,跌倒动作上和低秩 稀疏表示法基本持平,但在其他动作识别上要略低于本专利所述方法。
[0055] 图2为当T = 10时,不同聚类数目下的识别率。
[0056] 图3为聚类中心数Κ = 2000时,不同Τ值的识别率。
[0057]图5为低秩稀疏表达流程伪代码。
[0058]通过大量的有效测试,与传统的异常行为检测算法相比较,本发明的方法具很高 的正确识别率以及在简单环境中具有很好的鲁棒性。
【主权项】
1. 一种基于稀疏低秩的人体行为识别方法,具体步骤如下: 步骤1、视频图像灰度转换并提取场景特征 步骤1-1:首先接收监测设备采集到的视频流,对得到的单帧图像进行灰度化处理。 步骤1-2:将每帧图片归一化成96*48的大小;每个cell的大小为8*8的像素点,每个 block中包含2*2个cell即16*16的像素点;相邻block有一半的区域是重叠的;梯度方向分 为9个方向,得到的一张图片的梯度直方图HOG特征向量为1980维; 对连续两帧灰度图像在3*3的网格中提取光流直方图特征H0F,即每3*3的网格求出一 个光流特征向量,根据视频帧的不同大小得到N个光流特征向量,将光流范围0~2π等分成 32个子空间,构建32维的直方图Β,在统计直方图时,根据角度值对应位置投票,投票所得结 果作为权值,因此得权值向量11=[11 1{]氺={1,2,3-,1(},其中1^为每个网格的索引值,1(是网 格总数,hk为第k个网格中32维直方图Β对应的权值; 步骤2、特征聚类 设光流特征向量X = [xi ],i = {1,2,3…,m},对于每一个特征向量,动作类型计算公式:对于每类动作Cu)j,计算该类质;^这里K表示聚类中心,取值500~ 2000; 步骤3、低秩稀疏表达 步骤3-1:将聚类中心构成的字典0=[(^]^={1,2,3'",11},则乂为一个(^11的矩阵,(13 为特征维度,识别样本集乂=[^]氺={1,2,3-,11}4中的任意一列11都可以用0进行线性表 达,将这种关系式写为:X = DZ+E,其中Z的每一列表示X的对应列用D进行线性表达的系数, 矩阵Z称之为表达子,E为由噪声引起的误差; 步骤3-2:据此建立目标方程: argminz,E| | Z | |*+β| | Z | 11+γ | |E | 11 s.t.X = DZ+E式 1 其中β和γ分别表示各项的关注因子,它们的值越大,表示相关项越受关注,这里β=2, γ = 2,公式中分别用核范数和L1范数求解低秩和稀疏问题; 步骤3-3:求解步骤3-2中的式1,这里用到了增广拉格朗日乘数法,得到目标函数后分 别对各个参数进行迭代优化,则参数的迭代过程为:Yl,k+l = Yl,k+yk(X_DZk+l_Ek+l), Y2,k+l = Y2,k+lik(Zk+l-ffK+l), y-k+i 一 py-k, 其中函数J和θ分别表示奇异值压缩算子和压缩算子,??=丨|β,ρ = ?. 1,各参量的初始 值为 Zq=Wq = E() = Y1,() = Y2,() = 0; 步骤4、行为识别 步骤4-1、通过步骤3求得的稀疏低秩矩阵Z,其中Z的每一列就是待识别样本在D中的线 性表达,现在只需要找出表达最大的那个系数即可知道待识别样本所属的类别,采用最大 池化法,即找出矩阵Z中每一行的最大值;令yi=max( |zii|,|zi2|,··· |z|in),i = l,2,…1; 步骤4-2、得到矩阵Z中每一行的最大值yi,取最大值中的前十个,分别找出这十个值所 对应的相应类别,并计算该类别在矩阵Z中对应的系数,并把相同类别的系数叠加起来,得 到的最大值所对应的类别即为最终的识别结果,相应的计算公式如下: y?-max(|zii|,|zi2|,···|zin|),i - 1,2,···Τ 上式表示取z中行向量中最大值的前T个; 分别找出对应的Pi = Ci (Vi),i = 1,2,…!1,其中Ci (Vi)为步骤2的聚类结果;其中δ( ·)是Dirac Delta函数, PreC即为最终的识别结果,T取5~10。2.如权利要求1所述基于稀疏低秩的人体行为识别方法,其特征在于:所述步骤4-1中 最大池化法是指:选择图像区域的最大值作为该区域池化后的值;所谓池化,是指对图像中 不重合区域的聚合操作。
【文档编号】G06K9/00GK105868711SQ201610184336
【公开日】2016年8月17日
【申请日】2016年3月28日
【发明人】解梅, 程石磊, 王博, 周扬
【申请人】电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1