基于htg-hog和stg特征的人体行为识别方法

文档序号:10656096阅读:256来源:国知局
基于htg-hog和stg特征的人体行为识别方法
【专利摘要】本发明涉及新的人体行为识别。首先分别从深度图中提取出了HTG?HOG特征和STG特征。第一种特征提取的是视频序列的时空局部特征,对视频序列的每一帧图像分别提取HTG特征,融合为2维矩阵。再对该矩阵提取HOG特征。第二种特征提取的是整个视频序列的全局特征。对于每个输入视频序列,选取加权动态能量值较大的前K帧图像作为该视频序列的关键帧。根据关键帧提取出视频序列的STG特征。再将两种特征融合成一个超大的向量。最后采用随机决策森林来对该向量进行分类判别。该发明识别机制结构简单易行,适用于老年人监护、智能视频监控等实时处理。
【专利说明】
基于HTG-HOG和STG特征的人体行为识别方法
技术领域
[0001 ] 本发明属人工智能和模式识别领域,具体设及基于HTG-HOG(Histograms of Temporal Gradient and Histograms of Oriented Gradient)特征和STG(Scale of TemporaI Gradient)特征的人体行为识别技术。
【背景技术】
[0002] 在大数据时代,随着人们对高速、高质量视频信息的需求日益增长,智能视频分析 技术显得越来越重要。人体行为识别是智能视频分析的关键技术之一,是模式识别研究领 域的重要课题之一,具有非常大的研究价值和意义,其广泛的应用于智能视频监控、老年人 监护、虚拟现实、运动分析等领域。随着价格低廉的Kinect设备的出现,针对深度数据的人 体行为识别研究已经成为人工智能和模式识别领域新兴的研究热点。
[0003] 视频是由一帖一帖的图像组成,故对视频中的人体行为进行分析也就是对图像序 列进行处理进而提取出特征进行分类判别的过程。根据研究思维的结构,我们可W将特征 分为全局特征和局部特征。全局特征是将研究对象当做一个整体进行研究,是一种从上到 下的研究思维。该法虽然能包含较多的人体信息,但是也太依赖于底层视觉的处理,容易受 到噪音、遮挡等因素得影响。近年来,常见的全局特征有形状特征、颜色特征等等。而局部特 征则是把人体中相对独立的图像块看做研究对象,是一种从下到上的研究思维。该法对噪 音、遮挡等具有较强的稳定性,但是容易受到特征点个数变化的影响。常见的局部特征有 H0G(Histograms of Temporal Gradient)、STIP(Spatio Temporal Interest Point)等 等。
[0004] 综上所述,全局特征和局部特征各有其优缺点。因此在本发明中,结合全局特征与 局部特征的特点,形成了基于全局特征(STG特征)和局部特征化TG-HOG特征)的行为识别机 审IJ。目前,国内外还没有关于结合运两种特征的公开文献和专利申请。

【发明内容】

[0005] 本发明是针对视频信息进行的人体行为识别方法。能够有效的节省劳动力,降低 劳动强度,与此同时还能提高工作效率和识别精度。
[0006] 为达到上述发明目的,本发明采用的技术方案是一种基于HTG-HOG和STG特征的人 体行为识别机制。包括如下步骤:
[0007] ( - ) STG特征的提取:
[000引(1)根据加权差值图的动态能量值提取出视频的关键帖;
[0009] (2)对(1)中所提取的关键帖计算其非零区域的长度和宽度;
[0010] (3)计算原始输入视频的非零区域的长度和宽度;
[0011] (4)分别计算每帖关键帖中(2)和(3)中长度和宽度的比值;并将所有关键帖的比 值联接成行向量;
[0012] (二)HTG-HOG 特征的提取:
[0013] (I)对每帖图像提取HTG特征;
[0014] (2)在时间上,将视频中每帖图像提取的HTG特征的列向量合成为一个2维矩阵;
[0015] (3)对W上(2)中产生的2维矩阵提取HOG特征,生成HTG-HOG的行向量;
[0016] (=)两大特征融合成超大向量:
[0017] 将步骤(一)和步骤(二)所生成的行向量联结成超大的行向量,然后再转置为超大 的列向量。
[0018] (四)使用随机决策森林对输入视频进行人体行为的类别判定。
[0019] 由于上述技术方案运用,本发明与现有技术相比具有W下优点:
[0020] 本发明融合了全局特征和局部特征,能够自动检测输入视频中人体行为的种类, 利用随机决策森林对动作识别的准确性进行检测,实验结果表明,本发明能达到很高的动 作识别精度。
【附图说明】
[0021] 图1为本发明识别系统的具体框架图
[0022] 图2为本发明识别系统在MSRAction3踐的屆集上的混淆矩阵
[0023] 图3为本发明识别系统在MS畑ailyActivity3D数据集上的混淆矩阵
[0024] 图4为本发明识别系统在MSRAct ionPair3D数据集上的混淆矩阵
【具体实施方式】
[0025] 下面结合附图及实施案例对本发明进行进一步描述:
[0026] 实施案例一:本案例中,对=个不同的数据集中的视频样本进行行为的判别。参见 附图1所示,一种人体行为识别方法包括W下步骤:
[0027] ( - ) STG特征的提取:
[0028] (1)若输入视频为N*M*L维的视频(N*M代表视频中每帖图像是由N行M列的像素点 构成,L代表该视频含有L帖图像),在提取关键帖时,先计算前后两帖图像之间的差值,则得 到一个维数为N*M*a-l)的差值图序列。对于每一帖差值图,按照每个像素点的大小,对该 像素点的值进行相应的加权处理。像素点值大的权值就大,相应的像素值小的权值就小。按 此方法对差值图序列进行处理W后将生成新的加权差值图序列。最后对于加权差值图序列 中的每帖图进行动态能量统计,动态能量最高的前K帖即选作关键帖。
[0029] (2)如附图1所示,选取出关键帖W后,对该K帖关键帖进行STG特征的提取工作。先 计算出关键帖序列(维数为N*M*K)中每帖图像的非零区域的长度和宽度的值。
[0030] (3)求得原始输入视频序列中第一帖图像的非零区域的长度和宽度的值。
[0031] (4)求取(3)和(4)的比值作为该关键帖的STG特征。最后将K帖图像的STG特征联接 成一个长度为2K的行向量。
[0032] (二)HTG-HOG 特征的提取: 1 (1)对于原始输入视频先提取HTG特征,根巧

>计算得视频中第t张图像的HTG特征,其中f (i,j,t)表示 视频序列中第t帖图像位于点Q,j)处的像素值。Gt,Gx,Gy分别表示的是该像素点在时间、X 方向、y方向上的梯度值。算得每个像素点的梯度值W后,再根巧

分别计算出该像素点处的梯度方向和梯度幅值。t,y方向上的梯度 方向和梯度幅值的计算方法跟W上的计算方法一样。最后在每个像素点的梯度幅值按照该 点的梯度方向值的大小统计其直方图,则最终得到名为HTG的行向量。
[0034] (2)在时间上对视频中的每一帖图像提取HTG特征,按照动作发生的时间顺序将每 帖产生的行向量整合成2维的矩阵。
[0035] (3)对W上(2)中所得的矩阵再次提取册G特征。其计算方法与(1)中的方法类似, 但是计算的是x,y方向上的梯度幅值和梯度方向,然后再将其直方图化得到该视频最终的 HTG-HOG行向量特征。
[0036] (=)将步骤(一)和(二)中所提取的两大特征进行联结。将每个视频产生的两个行 向量特征连在一起形成一个超大的行向量,然后再将其转置为超大的列向量。
[0037] (四)识别精度检测是采用的随机决策森林对每段视频中的人体行为动作进行分 类判别。采用已经训练好的分类器对位置行为进行分类判别,其实验结果见表1所示。由表1 可知,本发明对于输入视频中动作种类判别的识别精度高达97.09%。能对输入视频中的绝 大部分动作做出正确的类别判定。附图2-4分别为在=个数据集上的混淆矩阵。
[00;3引 表1
【主权项】
1. 本发明是针对视频信息进行的人体行为识别方法。能够有效的节省劳动力,降低劳 动强度,与此同时还能提高工作效率和识别精度。 为达到上述发明目的,本发明采用的技术方案是一种基于HTG-HOG和STG特征的人体行 为识别机制。包括如下步骤: (一) STG特征的提取: (1) 根据加权差值图的动态能量值提取出视频的关键帧; (2) 对(1)中所提取的关键帧计算其非零区域的长度和宽度; (3) 计算原始输入视频的非零区域的长度和宽度; (4) 分别计算每帧关键帧中(2)和(3)中长度和宽度的比值;并将所有关键帧的比值联 接成行向量; (二) HTG-HOG特征的提取: (1) 对每帧图像提取HTG特征; (2) 在时间上,将视频中每帧图像提取的HTG特征的列向量合成为一个2维矩阵; (3) 对以上(2)中产生的2维矩阵提取HOG特征,生成HTG-HOG的行向量; (三) 两大特征融合成超大向量: 将步骤(一)和步骤(二)所生成的行向量联结成超大的行向量,然后再转置为超大的列 向量。 (四) 使用随机决策森林对输入视频进行人体行为的类别判定。2. 根据权利要求1所述的针对视频信息进行的人体行为识别方法,其特征在于:在步骤 (一)中 STG特征的提取过程: (1) 关键帧提取时所运用的方法是计算连续图像之间的加权动态能量值,并选择其值 最大的前K帧作为该视频的关键帧。此处动态加权能量值的计算如下所示:先计算;连续图 像之间的差值F(t)=f(i,j,t+l)-f(i, LthfXi, j,t)代表的是视频中第t帧图像在点(i, j)处的像素值。然后再对F(t)进行加权得Fw(t)=F(tMt),最后算的第_mFw(t)上所有像 素点的值之和。最后选取和值最大的前K帧F(t)图像作为该视频的关键帧。 (2) 选取出关键帧以后,对该K帧关键帧进行STG特征的提取工作。先计算出关键帧序列 (维数为N*M*K)中每帧图像的非零区域的长度和宽度的值。然后分别将该值与原始输入视 频序列中第一帧图像的非零区域的长度和宽度求取其比例值为该关键帧的STG特征。最后 将K帧图像的STG特征联接成一个长度为2K的行向量。3. 根据权利要求1所述的针对视频信息进行的人体行为识别方法,其特征在于:在步骤 (一)HTG-HOG特征的提取过程: (1)对于原始输入视频先提取HTG特征,根据和卜算得视频中第t张图像的HTG特征,其中f (i,j,t)表示 视频序列中第t帧图像位于点(i,j)处的像素值。Gt,Gx,Gy分别表示的是该像素点在时间、X 方向、y方向上的梯度值。在实际操作中,是将每张图片划分成8*8的单元,然后用[-1,01]作 为模板对图像进行卷积处理即可得其每个单元中每点像素值的梯度值。该方法能迅速高效 的求得图像中每个像素点的梯度值。算得每个单元中每个像素点的梯度值以后,再根据别计算出该单元中该像素点处的梯度方 向和梯度幅值。t,y方向上的梯度方向和梯度幅值的计算方法跟以上的计算方法一样。最后 对每个单元中的所有像素点的梯度幅值按照该点的梯度方向值的大小统计其直方图,此处 将20度划为一个方向。故总共将360度划分为18个梯度方向类型,并按照此方向类型对其方 向梯度值进行统计最终得到直方图。则将8*8个单元的直方图联接在一起将最终得到名为 HTG的行向量。 (2) 在时间上对视频中的每一帧图像提取HTG特征,按照动作发生的时间顺序将每帧产 生的行向量整合成2维的矩阵。 (3) 对以上(2)中所得的矩阵再次提取HOG特征。其计算方法与(1)中的方法类似,但是 计算的是x,y方向上的梯度幅值和梯度方向,然后再将其直方图化得到该视频最终的HTG-HOG行向量特征。4.根据权利要求1所述的针对视频信息进行的人体行为识别方法,其特征在于: 将步骤(一)和(二)中所提取的两大特征进行联结。将每个视频产生的两个行向量特征 连在一起形成一个超大的行向量,然后再将其转置为超大的列向量。并采用随机决策森林 对以上步骤中所提取出的特征进行分类判别。
【文档编号】G06K9/00GK106022310SQ201610420591
【公开日】2016年10月12日
【申请日】2016年6月14日
【发明人】张汗灵
【申请人】湖南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1