一种基于多模态序列融合的动作识别方法

文档序号:6620226阅读:381来源:国知局
一种基于多模态序列融合的动作识别方法
【专利摘要】本发明公开了一种基于多模态序列融合的动作识别方法,包括以下步骤:获得原始视频多种模态下的信息,并进行预处理获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的特征向量;根据得到的RGB-LBP、D-LBP特征向量序列,以及骨架特征序列,通过多视角判别模型来进行动作识别。本发明能够将多种模态的序列信息进行互补融合,能够有效提高动作识别准确率。
【专利说明】一种基于多模态序列融合的动作识别方法

【技术领域】
[0001] 本发明涉及计算机视觉、人体动作识别领域,尤其涉及一种基于多模态序列融合 的动作识别方法。

【背景技术】
[0002] 人体动作识别在智能视频监控、人机交互、视频检索等领域中具有广阔的应用前 景,已逐渐成为计算机视觉领域的研究热点。现有技术中的很多研究工作主要是利用普通 RGB摄像机获得的图像序列来进行动作识别,并在一些经典的数据库上验证了其有效性。然 而,由于光照变化、人体外形的多样性、遮挡等因素的干扰,人体动作识别仍然是一项具有 挑战性的工作。
[0003] 近年来,将深度图像序列引入人体动作识别领域成为了一个新兴的热点问题。这 主要是由于深度摄像机的成本大大降低,尤其是微软推出的3D体感摄影机Kinect,其成本 低廉、所摄取的图像分辨率高。与彩色图像相比,深度图像能直接反映物体表面的三维特 征,且不受光照变化、阴影、环境变化等因素的干扰。此外,深度图像表示物体在3D空间中 的坐标,可以很好的克服遮挡或重叠问题。人体骨架可以用来有效地表征人体区域及轮廓 信息,它能反映出人体运动的轨迹,包含很多运动信息,骨架信息能够直接反映人体的位置 信息,且不会受到光照、阴影、遮挡等因素的干扰。
[0004] RGB信息、深度信息、骨架信息、热传感信息等分别代表着同一个场景的不同形式, 通过将这些不同模态的信息融合进行序列建模,可以提升动作识别的准确率。但是由于不 同模态的信息于不同的流形空间且值域不同,直接将其融合并不能得到最佳效果。所以,如 何进一步多模态序列进行互补融合,是人体动作识别中亟待解决的问题。


【发明内容】

[0005] 本发明提供了一种基于多模态序列融合的动作识别方法,本发明实现了 RGB信息 与深度信息的互补,显著地提高了动作识别的准确率,详见下文描述:
[0006] -种基于多模态序列融合的动作识别方法,所述方法包括以下步骤:获得原始视 频多种模态下的信息,并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进 行预处理,获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;
[0007] 对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区 域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;
[0008] 在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度 模态下的特征向量;
[0009] 根据步骤103中得到的RGB-LBP、D-LBP特征向量序列,以及步骤101中得到的骨 架特征序列,通过多视角判别模型来进行动作识别。。
[0010] 所述根据RGB-LBP、D-LBP特征向量,以及骨架特征序列,通过多视角判别模型来 进行动作识别的步骤具体为: toon] (1)多视角判别模型的表示:
[0012] 多视角判别模型的条件概率模型可以表示为:
[0013]

【权利要求】
1. 一种基于多模态序列融合的动作识别方法,其特征在于,所述方法包括以下步骤: 获得原始视频多种模态下的信息,并进行预处理,获取初始RGB图像序列、初始深度图 像序列,以及获取骨架特征序列; 对所述初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区 域外接矩形,同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形; 在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态 下的RGB-LBP、D-LBP特征向量序列; 根据所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模 型来进行动作识别。
2. 根据权利要求1所述的一种基于多模态序列融合的动作识别方法,其特征在于,所 述根据所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模型 来进行动作识别的步骤具体为: (1) 所述多视角判别模型的表示: 多视角判别模型的条件概率模型可以表示为:
其中,X是观测序列,Y是序列标记,Η是隐状态变量,Θ是权重向量,且θ = {θ1; θ2}, 91和θ2表示权重,Τ表示转置,Φ(Υ,Χ,Η)是特征函数,表示由图模型中节点位置以及节 点之间的关联而决定的序列特征,Ζ是归一化的分配函数,用来进行概率归一化; (2) 所述多视角判别模型的学习: 目标函数为:
其中,Xi表示观测样例,Yi表示观测样例真实的标注,使得上式取得最小值的Θ值,即 是最优参数Θ ; (3) 所述多视角判别模型的判断:在所述多视角判别模型参数已经确定之后,判断观 测序列X的分类最优标记Y%确定动作类别,

【文档编号】G06K9/66GK104156693SQ201410337744
【公开日】2014年11月19日 申请日期:2014年7月15日 优先权日:2014年7月15日
【发明者】刘安安, 苏育挺, 马莉 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1