基于多视图和多模态特征的自适应动作识别方法

文档序号:6509570阅读:931来源:国知局
基于多视图和多模态特征的自适应动作识别方法
【专利摘要】一种基于多视图和多模态特征的自适应动作识别方法。具体包括:视频预处理;目标运动变化过程多视图描述;等级金字塔特征提取;多视图深度和RGB模型构建;多视图模型选择,推断及多模态特征结果融合。本发明首先针对可见光图像动作识别常遇到的光照变化和阴影等困难,提出基于多视图和多模态特征进行动作识别;其次本发明针对单一视图的局限性,提出了目标运动变化过程多视图描述,它能够比较全面的捕获深度和RGB图像序列中目标的变化过程;再次本发明公开的等级金字塔特征既有空间分辨能力也有细节描述能力,具有非常好的鲁棒性和区分性;最后,根据环境光线的变化情况,自适应的进行多模态特征的融合,进一步提高动作识别方法的性能和稳定性。
【专利说明】基于多视图和多模态特征的自适应动作识别方法
【技术领域】
[0001]本发明属于计算机视觉和模式识别【技术领域】,设计了一种基于多视图和多模态特征的自适应动作识别方法,解决利用可见光图像进行动作识别的困难,并提高动作识别的准确性和鲁棒性,可以用于对监控视频中人体目标的动作识别,实现对监控视频的智能化管理。
【背景技术】
[0002]随着计算机技术和信息技术的发展,对基于视频的人体动作分析的需求越来越迫切,在诸如智能监控、家居安全、智能机器人、运动员辅助训练等系统中,动作分析起到了越来越重要的作用。然而早期的人体动作识别大多是利用普通的RGB图像序列进行动作分析,这样会受到光照、阴影、色度、环境变化等因素的干扰。
[0003]利用深度图像进行人体动作识别是近年来兴起的技术。这主要得益于深度图摄像机的成本降低,特别是微软推出Kinect设备。与可见光图像不同,深度图像像素值仅与物体空间位置有关,不会受光照、阴影、色度、环境变化等因素的干扰,能够有效地突破可见光图像识别遇到的问题和瓶颈。在一定的空间范围内,深度图像可以用来进行3D空间中的动作识别,代替可见光摄像机的双目视觉。因为人体运动分析在高级人机交互、视频会议、安全监控、医疗诊断、基于内容的图像存储和检索等方面,具有潜在的经济价值和广泛的应用前景,因此利用深度图像进行动作分析得到国内外广大机器视觉研究者们的关注。
[0004]在计算机视觉和模式识别相关研究领域中,提高人体动作识别的准确性和稳定性一直是最活跃的研究问题之一,并且能够设计出一种鲁棒的动作描述法也是一个重点和难点。由于利用可见光图像会受到光照、阴影、色度、环境变化等因素的干扰,在识别目标的动作时,基于可见光的方法常常失败,当光线发生较大变化时,例如,夜晚,其性能将急剧下降。因此,近些年利用深度图像进行动作识别成为该领域主流方法,但是由于目标差异较大,同时,即使相同目标的动作也存在差异,这给人体动作识别带来了很大困难。

【发明内容】

[0005]本发明的目的是解决基于可见光的动作识别方法识别性能不稳定,当光线发生较大变化时,例如,夜晚,其性能将急剧下降的问题,同时,由于观察视角的不同,从某个观察视角,不能全面的捕获目标运动历史变化过程,因此,本发明提出一种基于多视图和多模态特征的自适应动作识别方法,用于对视频监控中目标动作进行识别,以实现对监控视频的智能分析。
[0006]本发明提供的基于多视图和多模态特征的自适应动作识别方法,克服了现有技术的不足并提高了动作识别的准确性,能够很好的应用于现实生活中。该方法具体包含以下步骤:
第1、视频预处理
预处理包括对输入的深度图像和RGB图像序列滤波去噪,同时,通过Kinect设备的红外装置,可以测出目标与摄像头的近似距离,在该距离值的基础上,增加0.5米获得对应的大阈值,减去I米获得对应的小阈值。当某像素的深度值大于大阈值或小于小阈值时,将该像素标记为O,否则标记为1,这样,能够移除背景对目标的干扰;
第2、目标运动变化过程多视图描述
由于环境光线的变化,将对RGB图像序列有较大的影响,同时,由于观察视角的不同,从某个观察视角,不能全面地捕获目标运动历史变化过程,因此,提出了基于RGB图像和深度图像的多视图目标运动历史变化过程,捕获目标的运动变化,即:
(1)捕获深度视频序列人体变化过程,获得对应的多视图深度运动历史图像;
(2)捕获RGB视频序列人体运动变化过程,获得对应的深度限制RGB图的多视图运动历史图像;
第3、等级金字塔特征提取
在第2步获得的多视图深度运动历史图像和深度限制RGB图的多视图运动历史图像的基础上,分别寻找图像中非零像素,从而获得对应的人体历史运动的矩形区域,并在该区域内,提取等级金字塔特征描述对应的人体动作,其中人体动作包括:(I)弯腰鞠躬,(2)原地起跳且手抬起,(3)跳远,(4)单手挥手,(5)原地跳起手不动,(6)跑步,(7)侧移,
(8)单脚走路,(9)双手挥手,(10)双脚走路,(11)鼓掌,(12)甩胳膊,(13)踢腿,(14)网球、羽毛球等发球,(15)闻尔夫摇杆击球,(16)拳击,(17)太极z?手。
[0007]第4、多视图深度模型构建和多视图RGB模型构建
网路中公共的动作数据集DHA中每个样本都包括RGB和深度图像序列,同时,该数据集被划分为训练数据集和测试数据集,按照第3步的方法,为DHA训练数据集中的每个样本分别提取深度图像序列和RGB图像序列上的多视图的等级金字塔特征,并将每个样本的不同视图的特征串联,然后,在训练数据集上,分别训练基于深度的多视图等级金字塔特征和基于RGB的多视图等级金字塔特征的支持向量机模型;
第5、多视图模型选择,模型推断以及多模态特征结果融合
在公共动作数据集DHA中测试数据集上,按照第3步的方法,提取深度和RGB运动历史图像上的多视图的等级金字塔特征,同时,计算RGB矩形区域内平均亮度,根据其光线的亮暗情况,自适应的选择已经训练好的模型。当环境光线较暗时,RGB图像序列非常模糊,无法进行动作识别,因此,采用基于深度的多视图等级金字塔特征的支持向量机模型,反之,则采用基于深度和RGB融合的多视图,多模态特征的支持向量机模型。即将测试样本中提取基于深度的多视图特征和基于RGB的多视图特征分别输入到模型中,模型将自动地对样本的动作类别进行判断,并给出对应的属于某个动作类别的概率,最后,融合多模态特征的结果。
[0008]本发明方法首先针对可见光图像动作识别常遇到的困难,例如,光照变化、阴影和遮挡等变化,引入基于深度图的动作识别方法,同时,针对观察视角的不同,从某个观察视角,不能全面的捕获目标运动历史变化过程,因此,本发明提出了目标运动变化过程多视图描述,它能够比较全面的捕获深度图像序列和RGB图像序列中人体动作的变化过程;再次本发明公开的等级金字塔特征既有空间分辨能力也有细节描述能力,且具有非常好的鲁棒性和区分性;最后、根据环境光线的变化情况,自适应的进行多模态特征的融合,进一步的提高动作识别方法的性能和稳定性。[0009]本发明的优点和有益效果:
I)通过引入基于深度图像的动作识别方法,解决由于光照、阴影、色度、环境变化等因素带来的影响;2)本发明公开的目标运动变化过程多视图描述,能够比较全面的捕获深度图像序列和RGB图像序列中人体动作的变化过程,克服由于观察视角的不同,从某个观察视角,不能全面的捕获目标运动历史变化过程的困难;3)本发明公开的等级金字塔特征既具有空间分辨能力也具有细节描述能力,且具有很好的鲁棒性和区分性,很大程度上提高动作识别的准确性。4)根据环境光线的变化情况,自适应的进行多模态特征的融合,进一步的提高动作识别方法的性能和稳定性。
[0010]
【专利附图】

【附图说明】
[0011]图1为本发明的流程图。
[0012]图2从左至右分别为“单手挥手”动作的(a) RGB图像和(b)深度图像。
[0013]图3从左至右分别为“高尔夫摇杆击球”动作的(a) RGB图像和(b) RGB图人体剪
影图像。
[0014]图4从左至右分别为基于深度图的“鞠躬”动作的(a)正视图,(b)俯视图和(C)左视图的运动历史过程。
[0015]图5从左至右分别为基于RGB图的“单手挥”动作的(a)正视图,(b)俯视图和(C)左视图的运动历史过 程。
[0016]图6为“双手挥动”的正视图下等级金字塔特征的提取过程。
[0017]
【具体实施方式】
[0018]下面结合附图对本发明作进一步的描述。
[0019]实施例1
如图1所示,为本发明基于多视图和多模态特征的自适应动作识别方法的操作流程图,该方法的操作步骤包括:
步骤01视频预处理
对输入的深度图像和RGB图像序列滤波去噪,同时,通过Kinect设备的红外装置,可以测出目标与摄像头的大概距离,根据该距离值,加上0.5米获得大阈值,减去I米获得小阈值,例如,在本实施例中,目标与摄像头的距离大约为2米,则大阈值为2.5米,小阈值为I米。当某像素的深度值大于大阈值或小于小阈值时,将该像素标记为0,否则标记为1,这样,可以移除背景对目标的干扰;其结果如图2 Ca)和(b)所示。具体定义为:.ο5>Thres\ or 其中代表深度图像中像素的深度值,代表两个不同的阈值,
且1&1§2;1>11?|16*0,实施例中,113|18?1=2.5, Ihredl =10其中图像去噪采用均值滤波方法。[0020]步骤02目标运动历史变化过程多视图描述
(I)深度运动过程多视图描述:
任意长度的N帧视频,例如N=23、31、54,由于观察视角的不同,从某个观察视角,不能全面的捕获目标运动历史变化过程,因此,本发明提出了基于多视图的目标运动历史变化过程,具体包括正视图、俯视图和左视图的目标运动历史变化过程。下面依次介绍不同视图的目标运动历史变化过程:
(a)正视图下的目标运动历史变化过程
为了描述连续运动序列的深度变化过程,针对每个非零像素,计算N帧中该像素位置的最大值和最小值,获得对应的最大值和最小值图像,将这两幅图像做差,并取绝对值,获得对应的正视图下的目标运动历史变化过程,其效果图如图3 (a)所示,具体定义如下所示:
【权利要求】
1.一种基于多视图和多模态特征的自适应动作识别方法,该方法具体包含以下步骤: 第1、视频预处理 预处理包括对输入的深度图像和RGB图像序列滤波去噪,同时,通过Kinect设备的红外装置,测出目标与摄像头的近似距离,在该距离值的基础上,增加0.5米获得对应的大阈值,减去I米获得对应的小阈值;当某像素的深度值大于大阈值或小于小阈值时,将该像素标记为O,否则标记为1,这样,能够移除背景对目标的干扰; 第2、目标运动变化过程多视图描述 由于环境光线的变化,将对RGB图像序列有较大的影响,同时,由于观察视角的不同,从某个观察视角,不能全面地捕获目标运动历史变化过程,因此,提出了基于RGB图像和深度图像的多视图目标运动历史变化过程,捕获目标的运动变化,即: (1)捕获深度视频序列人体变化过程,获得对应的多视图深度运动历史图像; (2)捕获RGB视频序列人体运动变化过程,获得对应的深度限制RGB图的多视图运动历史图像; 第3、等级金字塔特征提取 在第2步获得的多视图深度运动历史图像和深度限制RGB图的多视图运动历史图像的基础上,分别寻找图像中非零像素,从而获得对应的人体历史运动的矩形区域,并在该区域内,提取等级金字塔特征描述对应的人体动作,其中人体动作包括:(I)弯腰鞠躬,(2)原地起跳且手抬起,(3)跳远,(4)单手挥手,(5)原地跳起手不动,(6)跑步,(7)侧移,(8)单脚走路,(9)双手挥 手,(10)双脚走路,(11)鼓掌,(12)甩胳膊,(13)踢腿,(14)网球、羽毛球等发球,(15)闻尔夫摇杆击球,(16)拳击,(17)太极z?手; 第4、多视图深度模型构建和多视图RGB模型构建 网络中公开的动作数据集DHA中每个样本都包括RGB和深度图像序列,同时,该数据集被划分为训练数据集和测试数据集,按照第3步的方法,为DHA训练数据集中的每个样本分别提取深度图像序列和RGB图像序列上的多视图的等级金字塔特征,并将每个样本的不同视图的特征串联,然后,在训练数据集上,分别训练基于深度的多视图等级金字塔特征和基于RGB的多视图等级金字塔特征的支持向量机模型; 第5、多视图模型选择,模型推断以及多模态特征结果融合 在公共动作数据集DHA中测试数据集上,按照第3步的方法,提取深度和RGB运动历史图像上的多视图的等级金字塔特征,同时,计算RGB矩形区域内平均亮度,根据光线的亮暗情况,自适应的选择已经训练好的模型;当环境光线较暗时,RGB图像序列非常模糊,无法进行动作识别,因此,采用基于深度的多视图等级金字塔特征的支持向量机模型,反之,则采用基于深度和RGB融合的多视图,多模态特征的支持向量机模型,即将测试样本中提取基于深度的多视图特征和基于RGB的多视图特征分别输入到模型中,模型将自动地对样本的动作类别进行判断,并给出对应的属于某个动作类别的概率,最后,融合多模态特征的结果O
2.根据权利要求1所述的方法,其特征在于该方法首先针对可见光图像动作识别常遇到的光照变化、阴影和遮挡困难,引入基于深度图的动作识别方法,同时,针对观察视角的不同,从某个观察视角,不能全面的捕获目标运动历史变化过程,因此,本发明提出了目标运动变化过程多视图描述,它能够比较全面的捕获深度和RGB图像序列中人体动作的变化过程;再次本发明公开的等级金字塔特征既有空间分辨能力也有细节描述能力,且具有非常好的鲁棒性和区分性;最后、根据环境光线的变化情况,自适应的进行多模态特征的融合,进一步的提高动 作识别方法的性能和稳定性。
【文档编号】G06K9/00GK103473530SQ201310386606
【公开日】2013年12月25日 申请日期:2013年8月30日 优先权日:2013年8月30日
【发明者】高赞, 张桦, 徐光平, 薛彦兵, 申晓霞, 宋健明 申请人:天津理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1