基于核稀疏编码的人体行为识别方法

文档序号:10570348阅读:284来源:国知局
基于核稀疏编码的人体行为识别方法
【专利摘要】本发明公开了一种基于核稀疏编码的人体行为识别方法,属于数字图像处理技术领域。本发明首先将输入视频分成固定长度且相互重叠的视频段,再对每个视频段提取梯度与光流特征协方差或者形状特征协方差,并采用对称正定矩阵降维方法对协方差矩阵进行降维。在Stein核的基础上,提出一种稀疏最大化的对阵正定矩阵空间字典学习,并将黎曼流形嵌入再生核希尔伯特空间提出一种黎曼稀疏求解器。本发明用于视频的人体行为识别,处理简单,计算复杂度低,对行为差异、视角变化、低分辨率具有很好的鲁棒性。
【专利说明】
基于核稀疏编码的人体行为识别方法
技术领域
[0001] 本发明属于数字图像处理技术领域,涉及计算机视觉、模式识别等相关理论知识, 尤其是基于协方差矩阵的人体行为识别。
【背景技术】
[0002] 人体行为识别是计算机视觉领域的研究热点和难点,其核心是利用计算机视觉技 术自动从视频序列中检测、跟踪、识别人并对其行为进行理解和描述。人体运动分析和行为 识别方法是人体行为理解的核心内容,主要包括对视频人体检测,跟踪运动人体,获取人体 行为的相关参数,最终达到理解人体行为的目的。
[0003] 人体行为识别方法主要运用于智能监控系统,主动、实时地分析视频中人体行为, 及时报告可疑行为;基于内容的视频检索,对视频内容进行分析和理解,简历结构和索引; 还广泛应用于人体交互、机器人、智能房间和看护中心。
[0004] 人体行为识别主要由人体行为表示和人体行为识别分类两个基本步骤构成,它们 对人体行为识别率有显著的影响。当前人体行为识别方法主要有:
[0005] -基于时空兴趣点云的行为识别。从不同的时间尺度提取兴趣点积累成点云, 并避免对背景和静态前景检测。采用近邻分类或者支撑向量机SVM进行识别分类。该方式可 以捕获平滑运动,对视角改变具有鲁棒性,遮挡处理代价小,详见文献"Matteo Bregonzio, Shaogang Gong and Tao Xiang.Recognising Action as Clouds of Space-Time Interest Points.IEEE Conference on Computer Vision and Pattern Recognition (CVPR)June 2009.";
[0006] 二):基于深度轨迹的行为识别。对每帧像素进行深度采样,并利用深度光流场中 位移信息跟踪特征点。基于一机遇运动边界直方图的描述子,对相机运动具有鲁棒性。深度 轨迹对不规则运动以及镜头边界具有鲁棒性,能很好的提取视频中的运动信息。实验结果 表明比大部分特征描述方法具有更好的识别准确率,详见文献"Heng Wang,Klaser,A., Schmid,C?,Cheng-Lin Liu.Action Recognition by Dense Trajectories.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2011.'';
[0007] 三):基于协方差的行为识别方法。提取连续视频序列中的协方差特征,转换到对 数欧式空间,使用对数欧式空间距离度量方式。采用最近邻分类方法或者稀疏线性估计方 法进行识别分类。该方式框架简单,计算复杂度低,能很好的应对人体行为差异、视角变换 以及低分辨率等问题,并且识别准确率极高,详见文献"Kai Guo,Prakash Ishwar,Janusz Konrad.Action Recognition from Video Using Feature Covariance Matrices.IEEE Transactions on Image Processing,Mar 2013."。
[0008] 人体行为识别在实现时由于受到人体行为的类间变化和类内变化、行为执行环境 和摄像机位置和人体行为在时空中的变化等因素的影响,大大限制了识别准确率的提升。 行为表征中往往不能有效融合不同特征,降低特征表征力度,减少外界干扰。

【发明内容】

[0009] 本发明的发明目的在于:针对上述存在的问题,提供一种基于核稀疏编码的人体 行为识别方法。
[0010] 本发明的基于核稀疏编码的人体行为识别方法,包括下列步骤:
[0011]步骤1:提取输入视频的行为特征:
[0012] 将输入视频分成长度固定且相互重叠的视频段;分别对各视频段的像素点进行特 征提取,得到像素点(x,y,t)的像素点特征f(x, y,t),其中(X,y)表示像素点的平面坐标,t 表示像素点的视频帧信息;
[0013] 特征提取的方式为梯度光流特征或者形状协方差特征:
[0014] 当采用梯度光流特征时,分别计算像素点(x,y,t)的像素值沿x、y方向的一阶、二 阶梯度绝对值:I Ix|,I Iy|,I IXX|,I Iyy|,沿X,y,t方向的光流U,V,W,以及U,V,W对时刻t求偏 导数,贝时(叉,7,1:) = |^,〇],其中)
[0015] 当采用形状特征时,提取当前视频块的前景图像,再在前景图像中,分别计算坐标 位置(x,y)到前景图像的轮廓边界的水平与垂直四个方向的距离咖,心,(1 5,如,坐标位置(^ y)至I」前景图像的轮廓的最小外接矩形的顶点的距离d NE,d S w,d S e,d NW;计算像素点(X,y,t)所 在视频帧与当前视频段的起始帧、结束帧的间隔帧数d t-、d t +,贝f (x,y,t) = [ x,y,t,d e,d w, ds, dN, dNE, dsw, dsE, dNW, cIt+ , cIt-];
[0016]基于每个视频段的行为特征向量f (x, y, t)构建n*n维(取决于f (x, y, t)的维度)协 方差矩阵
'其中
; 表示视频段的不同视频帧的图像区域,|S|表示图像区域S的像素点数目;
[0017] 步骤2:将协方差矩阵F转换到再生核希尔伯特空间,对行为特征向量进行核稀疏 编码;
[0018] 步骤3:基于核稀疏编码,完成对各视频段的人体行为分类学习及识别。
[0019] 优选的,在将协方差矩阵F转换到再生核希尔伯特空间之前,先采用对称正定矩阵 降维方法对协方差矩阵F进行降维处理。即将矩阵F转换为F = WTXW,其中X为n*n维协方差矩 阵,WSn*m维满秩矩阵,降维后,将协方差矩阵F的变为m*m维对称矩阵,即m*m维协方差矩 阵。
[0020] 步骤2中,将协方差矩阵F转换到再生核希尔伯特空间,对行为特征向量进行核稀 疏编码可基于黎曼流行实现。即利用Stein核,在对称正定矩阵空间(步骤1得到的协方差矩 阵F,或者经对称正定矩阵降维处理后的将协方差矩阵F),利用稀疏最大化方法进行字典D (黎曼字典)学习。利用Stein核,将黎曼流形(即步骤1得到的协方差矩阵F,或者经对称正定 矩阵降维处理后的将协方差矩阵F)嵌入再生核希尔伯特空间(RKHS)进行核稀疏编码,其具 体步骤为:
[0021 ]步骤2-1:基于预设值初始化字典D,其中字典D包括n个字典原子Di,i = 1,2,…,N, 且字典原子Di属于维黎曼空间点集,其中字典D的初始值可以是随机选择的T个样本,也可 以是Karchar均值聚类中心;
[0022] 步骤2-2:基于字典D的当前取值,当前视频段对应的m*m维的协方差矩阵F,查找使 得||0(/) - Sf=iK0〇^)||2 + MNIIi取得最小的稀疏向量Vi,其中Vi为N维行向量;将m个核 稀疏向量Vi构成核稀疏编码V,其中RN表示1*N维实矩阵,函数0(〇表示将括号中的对象转换 到再生核希尔伯特空间,A表示预设系数;
[0023] 步骤2-3:对核稀疏编码V、字典D进行迭代更新:
[0024] 固定核稀疏编码V,更新字典D:基于当核前稀疏编码V、当前视频段对应的协方差 矩阵F,查找使得||0CF:) - + ilhlk取得最小的字典原子Di,其中Di属于维 黎曼空间点集;
[0025] 固定字典D,更新核稀疏编码V:基于当前字典D、当前视频段对应的协方差矩阵F, 查找使得||0(F) - + Whlli取得最小的核稀疏向量Vi,其中Vi为N维行向 量;
[0026] 基于当前和上一次V、D更新结果,分别计算:供)f + 若两次计算结果的差小于或等于预设阈值,则停止迭代更新,输出当前核稀疏编码V。
[0027] 其中,||0(X) - =? - 2i/rK^,Z),.) + v7'K(D,L〇r,X对应步 骤 2-1 ~2-3 中描述的 F 或 Fj,其中 k(Di,Di)。其中函数k(X,Y)表示Stein核:用…,XN}表示黎曼流形的非空集合,函 数(p: Q X Q =尺+是黎曼核,若识(足K) = <p(K, ;〇,且匕产内免(七\)2()(;1叫表示任意实 向量,Xi,Xj表示黎曼空间的点),则函数
其中,函数 k(X,Y)的输入参数X,YG Q,S(X,Y)表示stein距离,〇表示预设系数,det( ?)表示矩阵行列 式。即上述1^,01)、(01,01)基于函数1^,¥)进行求解。
[0028] 综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0029] a)提出两种全局协方差特征描述方法,梯度光流协方差可以表征运动信息,形状 协方差可以表征运动形状变化信息。
[0030] b)在对称正定矩阵空间对协方差进行降维,不仅可以降低特征维数并且可以提高 特征类内聚合度以及类间离散度,从而提高计算速度和识别准确率。
[0031 ] c)在Stein核的基础上,采用稀疏最大化进行黎曼字典学习,从黎曼空间嵌入再生 核希尔伯特空间进行稀疏编码。
【附图说明】
[0032]图1是【具体实施方式】的处理流程图。
【具体实施方式】
[0033]为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发 明作进一步地详细描述。
[0034]参见图1,本发明的实现包括下列步骤:
[0035] 步骤S01:输入视频。
[0036]步骤S02:提取输入视频的协方差特征,即提取行为特征向量f(s)。
[0037]首先,将输入视频分成长度为L帧(一个完整的人体行为大约为0.4s~0.6s,L的长 度至少设置为涵盖完整人体行为,通常L可取20)且相互重叠的视频段。提取视频段的移动 步长可根据实际情况调整(如设置为8帧)。
[0038]对视频段的像素点进行特征提取,得到像素点(x,y,t)的行为特征向量f(x,y,t), 令f ( s ) = f ( x,y,t ),对行为特征向量f ( s )进行组合计算协方差矩阵F,即
:.,其中
,其中cov(F)表 示协方差矩阵F,S表示视频段的不同时空立方块对应的区域,|S|表示时空立方块S中像素 点总数目,s表示区域S中的像素点。若对像素点(x,y,t)采用梯度光流特征进行行为特征向 量提取时,则可得到12*12维的协方差矩阵F;若对像素点(x,y,t)采用形状特征进行行为特 征向量提取时,则可得到13* 13维的协方差矩阵F。
[0039]采用对称正定矩阵降维方法对cov(F)进行降维,得到降维后的协方差矩阵F',其 中F为n*n维协方差矩阵。
[0040] 步骤S03:基于协方差矩阵K,将协方差矩阵F转换到再生核希尔伯特空间,对行为 特征向量进行核稀疏编码,即基于字典D和核稀疏编码的迭代更新,得到对应的核稀疏编码
[0041] 步骤S04:基于核稀疏编码,完成对各视频段的人体行为分类及识别。在对训练样 本进行人体行为分类处理时,可以采用直接分类方法,利用残差对行为特征向量进行分类; 也可以采取欧式空间分类学习方法对编码后的行为特征向量进行分类学习,例如SVM、kNN (K近邻分类)等。
[0042]将本反用于标准人体行为数据库Weizmann、KTH、ADL进行人体行为识别实验,表明 本发明提出的技术方案相较于传统方案具有更好的识别准确率,并对视角变化、人体行为 差异以及低分辨率具有良好的鲁棒性。
[0043]以上所述,仅为本发明的【具体实施方式】,本说明书中所公开的任一特征,除非特别 叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方 法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
【主权项】
1. 一种基于核稀疏编码的人体行为识别方法,其特征在于,包括下列步骤: 步骤1:提取输入视频的行为特征: 将输入视频分成长度固定且相互重叠的视频段;分别对各视频段的像素点进行特征提 取,得到像素点(X,y,t)的像素点特征f(x,y,t),其中(x,y)表示像素点的平面坐标,t表示 像素点的视频帧信息; 特征提取的方式为梯度光流特征或者形状协方差特征: 当采用梯度光流特征时,分别计算像素点(X,y,t)的像素值沿X、y方向的一阶、二阶梯 度绝对值:| IX|,| Iy |,| Ixx|,| Iyy |,沿X,y,t方向的光流U,V,W,以及U,V,W对时刻t求偏导数,当采用形状特征时,提取当前视频块的前景图像,再在前景图像中,分别计算坐标位 置(X,y)到前景图像的轮廓边界的水平与垂直四个方向的距离办,心,(15,如,坐标位置 (X,y )到前景图像的轮廓的最小外接矩形的顶点的距离dNE,dsw,dsE,dNW;计算像素点 (X,y,t )所在视频帧与当前视频段的起始帧、结束帧的间隔帧数4,则 [(χ.\\?)-\χ.\\?.?Ι Λ?^Μκ,?Ιχ.?Ι^} ,dsn .dt <」; 基于每个视频段的行为特征向量f ( X,y,t )构建协方差矩阵F :4表示视频 段的不同视频帧的图像区域,|s|表示图像区域S的像素点数目; 步骤2:将协方差矩阵F转换到再生核希尔伯特空间,对行为特征向量进行核稀疏编码; 步骤3:基于核稀疏编码,完成对各视频段的人体行为分类及识别。2. 如权利要求1所述的方法,其特征在于,还包括采用对称正定矩阵降维方法对协方差 矩阵F进行降维处理后再转换到再生核希尔伯特空间。3. 如权利要求1或2所述的方法,其特征在于,对行为特征向量进行稀疏编码的过程为: 步骤2-1:基于预设值初始化字典D,其中字典D包括η个字典原子Di,1 = 1,2,一,1且字 典原子〇,属于维黎曼空间点集; 步骤2-2:基于字典D的当前取值,当前视频段对应的m*m维的协方差矩阵F,查找使得 ||0(F) - Sf=j_A0C^)|r + Jbilli取得最小的核稀疏向量Vi,其中Vi为N维行向量;将m个稀 疏向量Vi构成核稀疏编码V,其中RN表示1*N维实矩阵,函数0:(·)表示将括号中的对象转换到 再生核希尔伯特空间,λ表示预设系数; 步骤2-3:对核稀疏编码V、字典D进行迭代更新: 固定核稀疏编码V,更新字典D:基于当前核稀疏编码V、当前视频段对应的协方差矩阵 F,查找使得||:0Ci〇 - + Akilli取得最小的字典原子Di,其中Di属于维黎曼 空间点集; 固定字典D,更新核稀疏编码V:基于当前字典D、当前视频段对应的协方差矩阵F,查找 使得||0(/〇 - + 得最小的核稀疏向量Vi,其中Vi为N维行向量;基 于当前和上一次V、D更新结果,分别计算,若两 次计算结果的差小于或等于预设阈值,则停止迭代更新,输出当前核稀疏编码V。
【文档编号】G06K9/46GK105930790SQ201610241121
【公开日】2016年9月7日
【申请日】2016年4月19日
【发明人】解梅, 黄成挥, 程石磊, 刘伸展
【申请人】电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1