一种基于运动历史图与r变换的人体行为识别方法

文档序号：6541276阅读：227来源：国知局

一种基于运动历史图与r变换的人体行为识别方法
【专利摘要】本发明公开一种基于运动历史图与R变换的人体行为识别方法。该方法使用深度视频作为识别依据，首先通过前景分割技术计算出人体运动的最小包围矩，之后在最小包围矩所限定的深度视频区域提取运动历史图，随后在提取的运动历史图上施加运动强度约束，得到运动能量图，最后在得到的运动能量图上计算R变换，从而得到可以用于行为识别的特征向量。训练和识别过程采用了支持向量机的方法。本发明采用人体行为运动的最小包围矩预处理，加速行为特征提取；采用运动历史图序列的方法，减小了深度图中噪声的影响；在能量图上进行R变换提取特征，使得计算速度快。
【专利说明】—种基于运动历史图与R变换的人体行为识别方法
【技术领域】
[0001]本发明涉及计算机视觉和图像处理领域，尤其涉及一种基于运动历史图与R变换的人体行为识别方法。
【背景技术】
[0002]视频监控是当今视觉领域研究的热点与重点问题，在安防领域和人机交互等领域，源源不断地产生着数量众多的视频数据，这些数据动辄以G的单位来衡量，仅凭人工判别无疑会耗费巨大的人力.视频内容丰富，大部分时候我们仅关注视频中的某些部分，比如说人体行为，如果能够自动高效地进行识别，将解放大量的人力。当前的行为识别研究成果主要集中于RGB视频的行为识别研究上。
[0003]RGB视频是视频最常见的一种形式，来源广泛，多年来有较多研究成果，目前基于RGB视频的行为识别方法主要分为时空分析方法(Space-timeapproach )、序列分析方法(Sequential approach)及层次化分析方法(Hierarchical approach)三大类。经过多年的发展，基于RGB视频的人体行为识别方面的研究瓶颈日益凸显，原因是RGB视频作为人体行为识别的数据源时背景干扰难以去除。更重要的事，RGB视频仅利用了二维平面信息，用二维信息来描述三维人体行为显然损失了很多关键信息。
[0004]随着技术的进步，近年来出现了一种廉价的配有深度传感器的摄像头一 Kinect。微软的这款Kinect摄像头能在获取正常的RGB图像的同时，获取质量可以接受的深度信息。摄像头中已经集成了骨骼学习的算法，能够获取三维场景中正常人体的骨骼信息。目前深度图的特征提取主要还是在借鉴以往在RGB上提取特征的经验。与此同时，不少公共数据集已经提出，极大地方便了深度图上特征提取的研究。Zicheng Liu等人提出了基于三维数据轮廓(A bag of3D words)的方法，他将深度图看作为三维数据，然后在笛卡尔空间内从上、左和前三个方向投影并得到投影轮廓，这之后在投影轮廓上下采样出固定个数的点作为特征，得出的特征置入Action Graph模型中进行识别。Bingbing Ni独立采集了一个称之为RGBD-HuDaAct的深度数据集，并首次将3D_MHIs的思想用在了深度图序列特征提取上。这些方法都有各自的局限性:A bag of3D words的方法识别准确率较高，但由于需要在人体轮廓上均匀采样，要求得到的深度数据十分纯净，无法在实际场景的人体行为识别中运用；直接应用3D-MHIS的方法速度够快，但是识别准确率不够；DMM-H0G在保证识别准确率的同时对复杂背景的行为识别也比较有效，但是该方法太过耗时，无法实现实时人体行为识别。

【发明内容】

[0005]本发明针对现有技术的不足，提出了一种基于运动历史图与R变换的人体行为识别方法。该方法使用深度视频作为识别依据，将运动历史图和R变换的概念应用到了行为特征提取过程之中，并利用支持向量机的方法进行行为识别的训练和识别过程。
[0006]该方法包括离线训练阶段和在线识别阶段，具体步骤如下:[0007]步骤(1).离线训练阶段
[0008]所述的离线训练阶段目的是获得一个人体行为识别模型，其步骤如下:
[0009]步骤1-1.将待训练的深度视频S切割为时间长度相同的多个深度视频片段，然后按照各个深度视频片段的不同行为类别打上不同的行为标记，由此获得了人体行为识别的
训练集T。
[0010]所述的训练集T为不同的行为标记的各深度视频片段的集合；
[0011]所述的时间长度为在线识别阶段定义的待识别视频片段的时间长度；
[0012]步骤1-2.运用“前景分割技术”获得各个深度视频片段中人体行为运动的最小包围矩，并将深度视频片段中最小包围矩限定的视频内容缩放到统一大小。
[0013]所述的“前景分割技术”操作如下:
[0014]a)对于训练集T给定的一个深度视频片段V，它由若干帧深度图的，P2, , PJ构成，其中i表示第i帧深度图；对于其中任意一张深度图Pi,将Pi中像素点根据像素点位置的深度值进行k-means 二值聚类，得到前景像素集合与背景像素集合；所述的前景像素比背景像素的平均深度值小。
[0015]b)在深度图Pi上找出一个矩形框Ri,使得步骤a)得到的所有前景像素均包括在这个矩形框Ri内，Ri由
【权利要求】
1.一种基于运动历史图与R变换的人体行为识别方法，其特征在于该方法包括离线训练阶段和在线识别阶段，具体步骤如下: 步骤(1).离线训练阶段: 步骤1-1.将待训练的深度视频S切割为时间长度相同的多个深度视频片段，然后按照各个深度视频片段的不同行为类别打上不同的行为标记，由此获得了人体行为识别的训练集T; 所述的训练集T为不同的行为标记的各深度视频片段的集合；步骤1-2.运用“前景分割技术”获得各个深度视频片段中人体行为运动的最小包围矩，并将深度视频片段中最小包围矩限定的视频内容缩放到统一大小；所述的“前景分割技术”操作如下: a)对于训练集T给定的一个深度视频片段V，它由若干帧深度图(P1,P2,, PJ构成，其中i表示第i帧深度图；对于其中任意一张深度图Pi,将？1中像素点根据像素点位置的深度值进行k-means 二值聚类，得到前景像素集合与背景像素集合；所述的前景像素比背景像素的平均深度值小； b)在深度图Pi上找出一个矩形框Ri,使得步骤a)得到的所有前景像素均包括在这个矩形框Ri内，Ri由Rf、Kght、Kp和Rf构成，其中Rf、Kght、R和分别表示Ri的左边界、右边界、上边界和下边界的像素坐标；然后将矩形框Ri按照横向分为等宽的两部分，若矩形框Ri的左半部分像素点个数比右半部分多，且若if#向左移动K个像素后新的矩形框内的像素点个数大于最原始矩形框Ri内个数的Π %，其中K为常数，50〈 η〈100，则将i?产"向左调整K个像素，若移动边界之后新矩形框内的像素点个数小于最原始矩形框Ri内像素点个数的H %，则右边界调整完成；若矩形框Ri的右半部分的像素点比左半部分多，且将i?广向右移动K个像素后矩形框内的像素点个数大于最原始矩形框Ri内个数的η%，则将向右调整K个像素，若移动边界之后新矩形框内的像素点个数小于最原始矩形框Ri中像素点个数的η %，则左边界调整完成；若矩形框Ri的左右两半部分像素点中像素个数相差不超过ε，ε为阈值参数，则判断将左右边界同时向中心靠拢Κ/2个像素时新矩形框内剩余的像素点个数是否大于原始矩形框Ri内全部像素的Π %，如果成立，则将矩形框Ri按照左右边界各收拢Κ/2个像素进行调整，之后重复步骤(b)，直至新矩形框内剩余的像素点个数小于原始矩形框Ri内全部像素的H % ;采用上述同样的方法对矩形框Ri的上下边界进行调整； c)深度视频片段V是由横坐标X，纵坐标y和时间坐标t三个维度描述的三维空间体，此三维空间体经过步骤b)调整后，深度视频片段V中任意一帧Pi的前景像素被分割出来，该前景像素范围由Ri进行描述；设深度视频S中人体行为的最小包围矩R的四个上边界Rup、下边界RdOTn、左边界Rleft和右边界Lght分别可以用按照公式(I)计算:
Rup = min R1;'', RM'wn = max R:hwn,Rleft = min R1:'丨1,Rright = max 公式(I); 步骤1-3.深度视频片段V中从时刻j开始任意时间窗口长度为τ的一段子序列Sj,可以求出一张运动历史图〃丨，其计算方式如下:
【文档编号】G06K9/46GK103886293SQ201410106957
【公开日】2014年6月25日申请日期:2014年3月21日优先权日:2014年3月21日
【发明者】肖俊, 李潘, 庄越挺申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖俊;李潘;庄越挺
技术所有人：浙江大学
我是此专利的发明人

上一篇：一种非cache一致性协议加解锁报文处理方法
上一篇：无纸化网络办公系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。