一种基于运动历史图与r变换的人体行为识别方法

文档序号:6541276阅读:227来源:国知局
一种基于运动历史图与r变换的人体行为识别方法
【专利摘要】本发明公开一种基于运动历史图与R变换的人体行为识别方法。该方法使用深度视频作为识别依据,首先通过前景分割技术计算出人体运动的最小包围矩,之后在最小包围矩所限定的深度视频区域提取运动历史图,随后在提取的运动历史图上施加运动强度约束,得到运动能量图,最后在得到的运动能量图上计算R变换,从而得到可以用于行为识别的特征向量。训练和识别过程采用了支持向量机的方法。本发明采用人体行为运动的最小包围矩预处理,加速行为特征提取;采用运动历史图序列的方法,减小了深度图中噪声的影响;在能量图上进行R变换提取特征,使得计算速度快。
【专利说明】—种基于运动历史图与R变换的人体行为识别方法
【技术领域】
[0001]本发明涉及计算机视觉和图像处理领域,尤其涉及一种基于运动历史图与R变换的人体行为识别方法。
【背景技术】
[0002]视频监控是当今视觉领域研究的热点与重点问题,在安防领域和人机交互等领域,源源不断地产生着数量众多的视频数据,这些数据动辄以G的单位来衡量,仅凭人工判别无疑会耗费巨大的人力.视频内容丰富,大部分时候我们仅关注视频中的某些部分,比如说人体行为,如果能够自动高效地进行识别,将解放大量的人力。当前的行为识别研究成果主要集中于RGB视频的行为识别研究上。
[0003]RGB视频是视频最常见的一种形式,来源广泛,多年来有较多研究成果,目前基于RGB视频的行为识别方法主要分为时空分析方法(Space-timeapproach )、序列分析方法(Sequential approach)及层次化分析方法(Hierarchical approach)三大类。经过多年的发展,基于RGB视频的人体行为识别方面的研究瓶颈日益凸显,原因是RGB视频作为人体行为识别的数据源时背景干扰难以去除。更重要的事,RGB视频仅利用了二维平面信息,用二维信息来描述三维人体行为显然损失了很多关键信息。
[0004]随着技术的进步,近年来出现了一种廉价的配有深度传感器的摄像头一 Kinect。微软的这款Kinect摄像头能在获取正常的RGB图像的同时,获取质量可以接受的深度信息。摄像头中已经集成了骨骼学习的算法,能够获取三维场景中正常人体的骨骼信息。目前深度图的特征提取主要还是在借鉴以往在RGB上提取特征的经验。与此同时,不少公共数据集已经提出,极大地方便了深度图上特征提取的研究。Zicheng Liu等人提出了基于三维数据轮廓(A bag of3D words)的方法,他将深度图看作为三维数据,然后在笛卡尔空间内从上、左和前三个方向投影并得到投影轮廓,这之后在投影轮廓上下采样出固定个数的点作为特征,得出的特征置入Action Graph模型中进行识别。Bingbing Ni独立采集了一个称之为RGBD-HuDaAct的深度数据集,并首次将3D_MHIs的思想用在了深度图序列特征提取上。这些方法都有各自的局限性:A bag of3D words的方法识别准确率较高,但由于需要在人体轮廓上均匀采样,要求得到的深度数据十分纯净,无法在实际场景的人体行为识别中运用;直接应用3D-MHIS的方法速度够快,但是识别准确率不够;DMM-H0G在保证识别准确率的同时对复杂背景的行为识别也比较有效,但是该方法太过耗时,无法实现实时人体行为识别。

【发明内容】

[0005]本发明针对现有技术的不足,提出了一种基于运动历史图与R变换的人体行为识别方法。该方法使用深度视频作为识别依据,将运动历史图和R变换的概念应用到了行为特征提取过程之中,并利用支持向量机的方法进行行为识别的训练和识别过程。
[0006]该方法包括离线训练阶段和在线识别阶段,具体步骤如下:[0007]步骤(1).离线训练阶段
[0008]所述的离线训练阶段目的是获得一个人体行为识别模型,其步骤如下:
[0009]步骤1-1.将待训练的深度视频S切割为时间长度相同的多个深度视频片段,然后按照各个深度视频片段的不同行为类别打上不同的行为标记,由此获得了人体行为识别的
训练集T。
[0010]所述的训练集T为不同的行为标记的各深度视频片段的集合;
[0011]所述的时间长度为在线识别阶段定义的待识别视频片段的时间长度;
[0012]步骤1-2.运用“前景分割技术”获得各个深度视频片段中人体行为运动的最小包围矩,并将深度视频片段中最小包围矩限定的视频内容缩放到统一大小。
[0013]所述的“前景分割技术”操作如下:
[0014]a)对于训练集T给定的一个深度视频片段V,它由若干帧深度图的,P2, , PJ构成,其中i表示第i帧深度图;对于其中任意一张深度图Pi,将Pi中像素点根据像素点位置的深度值进行k-means 二值聚类,得到前景像素集合与背景像素集合;所述的前景像素比背景像素的平均深度值小。
[0015]b)在深度图Pi上找出一个矩形框Ri,使得步骤a)得到的所有前景像素均包括在这个矩形框Ri内,Ri由
【权利要求】
1.一种基于运动历史图与R变换的人体行为识别方法,其特征在于该方法包括离线训练阶段和在线识别阶段,具体步骤如下: 步骤(1).离线训练阶段: 步骤1-1.将待训练的深度视频S切割为时间长度相同的多个深度视频片段,然后按照各个深度视频片段的不同行为类别打上不同的行为标记,由此获得了人体行为识别的训练集T; 所述的训练集T为不同的行为标记的各深度视频片段的集合; 步骤1-2.运用“前景分割技术”获得各个深度视频片段中人体行为运动的最小包围矩,并将深度视频片段中最小包围矩限定的视频内容缩放到统一大小; 所述的“前景分割技术”操作如下: a)对于训练集T给定的一个深度视频片段V,它由若干帧深度图(P1,P2,, PJ构成,其中i表示第i帧深度图;对于其中任意一张深度图Pi,将?1中像素点根据像素点位置的深度值进行k-means 二值聚类,得到前景像素集合与背景像素集合;所述的前景像素比背景像素的平均深度值小; b)在深度图Pi上找出一个矩形框Ri,使得步骤a)得到的所有前景像素均包括在这个矩形框Ri内,Ri由Rf、Kght、Kp和Rf构成,其中Rf、Kght、R和分别表示Ri的左边界、右边界、上边界和下边界的像素坐标;然后将矩形框Ri按照横向分为等宽的两部分,若矩形框Ri的左半部分像素点个数比右半部分多,且若if#向左移动K个像素后新的矩形框内的像素点个数大于最原始矩形框Ri内个数的Π %,其中K为常数,50〈 η〈100,则将i?产"向左调 整K个像素,若移动边界之后新矩形框内的像素点个数小于最原始矩形框Ri内像素点个数的H %,则右边界调整完成;若矩形框Ri的右半部分的像素点比左半部分多,且将i?广向右移动K个像素后矩形框内的像素点个数大于最原始矩形框Ri内个数的η%,则将向右调整K个像素,若移动边界之后新矩形框内的像素点个数小于最原始矩形框Ri中像素点个数的η %,则左边界调整完成;若矩形框Ri的左右两半部分像素点中像素个数相差不超过ε,ε为阈值参数,则判断将左右边界同时向中心靠拢Κ/2个像素时新矩形框内剩余的像素点个数是否大于原始矩形框Ri内全部像素的Π %,如果成立,则将矩形框Ri按照左右边界各收拢Κ/2个像素进行调整,之后重复步骤(b),直至新矩形框内剩余的像素点个数小于原始矩形框Ri内全部像素的H % ;采用上述同样的方法对矩形框Ri的上下边界进行调整; c)深度视频片段V是由横坐标X,纵坐标y和时间坐标t三个维度描述的三维空间体,此三维空间体经过步骤b)调整后,深度视频片段V中任意一帧Pi的前景像素被分割出来,该前景像素范围由Ri进行描述;设深度视频S中人体行为的最小包围矩R的四个上边界Rup、下边界RdOTn、左边界Rleft和右边界Lght分别可以用按照公式(I)计算:
Rup = min R1;'', RM'wn = max R:hwn,Rleft = min R1:'丨1,Rright = max 公式(I); 步骤1-3.深度视频片段V中从时刻j开始任意时间窗口长度为τ的一段子序列Sj,可以求出一张运动历史图〃丨,其计算方式如下:
【文档编号】G06K9/46GK103886293SQ201410106957
【公开日】2014年6月25日 申请日期:2014年3月21日 优先权日:2014年3月21日
【发明者】肖俊, 李潘, 庄越挺 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1