一种基于多模态序列融合的动作识别方法

文档序号：6620226阅读：381来源：国知局

一种基于多模态序列融合的动作识别方法
【专利摘要】本发明公开了一种基于多模态序列融合的动作识别方法，包括以下步骤：获得原始视频多种模态下的信息，并进行预处理获取初始RGB图像序列及初始深度图像序列，以及获取骨架特征序列；对初始RGB图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取初始深度图像序列上相应位置的第二人体区域外接矩形；在第一、第二人体区域外接矩形上分别提取人体动作特征，得到RGB模态和深度模态下的特征向量；根据得到的RGB-LBP、D-LBP特征向量序列，以及骨架特征序列，通过多视角判别模型来进行动作识别。本发明能够将多种模态的序列信息进行互补融合，能够有效提高动作识别准确率。
【专利说明】一种基于多模态序列融合的动作识别方法

【技术领域】
[0001] 本发明涉及计算机视觉、人体动作识别领域，尤其涉及一种基于多模态序列融合的动作识别方法。

【背景技术】
[0002] 人体动作识别在智能视频监控、人机交互、视频检索等领域中具有广阔的应用前景，已逐渐成为计算机视觉领域的研究热点。现有技术中的很多研究工作主要是利用普通 RGB摄像机获得的图像序列来进行动作识别，并在一些经典的数据库上验证了其有效性。然而，由于光照变化、人体外形的多样性、遮挡等因素的干扰，人体动作识别仍然是一项具有挑战性的工作。
[0003] 近年来，将深度图像序列引入人体动作识别领域成为了一个新兴的热点问题。这主要是由于深度摄像机的成本大大降低，尤其是微软推出的3D体感摄影机Kinect，其成本低廉、所摄取的图像分辨率高。与彩色图像相比，深度图像能直接反映物体表面的三维特征，且不受光照变化、阴影、环境变化等因素的干扰。此外，深度图像表示物体在3D空间中的坐标，可以很好的克服遮挡或重叠问题。人体骨架可以用来有效地表征人体区域及轮廓信息，它能反映出人体运动的轨迹，包含很多运动信息，骨架信息能够直接反映人体的位置信息，且不会受到光照、阴影、遮挡等因素的干扰。
[0004] RGB信息、深度信息、骨架信息、热传感信息等分别代表着同一个场景的不同形式，通过将这些不同模态的信息融合进行序列建模，可以提升动作识别的准确率。但是由于不同模态的信息于不同的流形空间且值域不同，直接将其融合并不能得到最佳效果。所以，如何进一步多模态序列进行互补融合，是人体动作识别中亟待解决的问题。

【发明内容】

[0005] 本发明提供了一种基于多模态序列融合的动作识别方法，本发明实现了 RGB信息与深度信息的互补，显著地提高了动作识别的准确率，详见下文描述：
[0006] -种基于多模态序列融合的动作识别方法，所述方法包括以下步骤：获得原始视频多种模态下的信息，并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进行预处理，获取初始RGB图像序列及初始深度图像序列，以及获取骨架特征序列；
[0007] 对初始RGB图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取初始深度图像序列上相应位置的第二人体区域外接矩形；
[0008] 在第一、第二人体区域外接矩形上分别提取人体动作特征，得到RGB模态和深度模态下的特征向量；
[0009] 根据步骤103中得到的RGB-LBP、D-LBP特征向量序列，以及步骤101中得到的骨架特征序列，通过多视角判别模型来进行动作识别。。
[0010] 所述根据RGB-LBP、D-LBP特征向量，以及骨架特征序列，通过多视角判别模型来进行动作识别的步骤具体为： toon] (1)多视角判别模型的表示：
[0012] 多视角判别模型的条件概率模型可以表示为：
[0013]

【权利要求】
1. 一种基于多模态序列融合的动作识别方法，其特征在于，所述方法包括以下步骤：获得原始视频多种模态下的信息，并进行预处理，获取初始RGB图像序列、初始深度图像序列，以及获取骨架特征序列；对所述初始RGB图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形；在第一、第二人体区域外接矩形上分别提取人体动作特征，得到RGB模态和深度模态下的RGB-LBP、D-LBP特征向量序列；根据所述RGB-LBP、D-LBP特征向量序列，以及所述骨架特征序列，通过多视角判别模型来进行动作识别。
2. 根据权利要求1所述的一种基于多模态序列融合的动作识别方法，其特征在于，所述根据所述RGB-LBP、D-LBP特征向量序列，以及所述骨架特征序列，通过多视角判别模型来进行动作识别的步骤具体为： (1) 所述多视角判别模型的表示：多视角判别模型的条件概率模型可以表示为：
其中，X是观测序列，Y是序列标记，Η是隐状态变量，Θ是权重向量，且θ = {θ1; θ2}， 91和θ2表示权重，Τ表示转置，Φ(Υ，Χ，Η)是特征函数，表示由图模型中节点位置以及节点之间的关联而决定的序列特征，Ζ是归一化的分配函数，用来进行概率归一化； (2) 所述多视角判别模型的学习：目标函数为：
其中，Xi表示观测样例，Yi表示观测样例真实的标注，使得上式取得最小值的Θ值，即是最优参数Θ ; (3) 所述多视角判别模型的判断：在所述多视角判别模型参数已经确定之后，判断观测序列X的分类最优标记Y%确定动作类别，
。
【文档编号】G06K9/66GK104156693SQ201410337744
【公开日】2014年11月19日申请日期:2014年7月15日优先权日:2014年7月15日
【发明者】刘安安, 苏育挺, 马莉申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘安安;苏育挺;马莉
技术所有人：天津大学
我是此专利的发明人

上一篇：一种基于MySQL数据库的查询优化方法
上一篇：基于xml的网络数据传输方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。