基于协同表示和判别准则的多视角联合动作词典学习方法

文档序号:6627690阅读:158来源:国知局
基于协同表示和判别准则的多视角联合动作词典学习方法
【专利摘要】本发明公开了一种基于协同表示和判别准则的多视角联合动作词典学习方法,实现对多视角场景内在关系的挖掘。具体包含以下步骤:(1)视频预处理,(2)时空特征提取,(3)基于图模型的多视角特征融合,(4)基于“词袋”方法的特征归一化,(5)基于协同表示和判别准则的多视角联合动作词典学习,(6)基于多视角联合动作词典和稀疏表示的动作识别。本发明的优点是通过基于协同表示和判别准则的多视角联合动作词典学习,充分挖掘多视角场景中人体动作特征的内在关联特性,从而为实现多视角人体动作的高效识别提供帮助。
【专利说明】基于协同表示和判别准则的多视角联合动作词典学习方法

【技术领域】
[0001] 本发明属于计算机视觉和模式识别【技术领域】,涉及一种基于协同表示和判别准则 的多视角联合动作词典学习方法,用于挖掘多视角监控场景中人体动作特征内在的关联 性,在人体动作识别领域,验证了多视角联合动作词典学习方法的有效性。

【背景技术】
[0002] 基于视觉的人体动作识别是计算机视觉和模式识别领域的一个极具挑战性的研 究热点,并因其在智能监控、便捷的人机交互、数字娱乐等领域的潜在应用受到学术界和工 业界的密切关注。早期的人体动作识别大多是在可人为控制的特定实验环境下进行,即通 过固定或控制光照、视角、距离和被关注对象位置等外因来简化问题,从而提高动作识别的 准确率。但是,随着应用的不断推广,在可控环境下的现有研究成果往往无法适应于实际的 多样化需求。当前的真实应用系统往往存在严重的遮挡、视角变化和被关注对象位置变化 等多种外因带来的影响,常常通过多摄像头监控系统的搭建来采集多视角信息,从而为准 确的人体动作识别提供帮助。因此,挖掘人体动作的视觉特性,融合多视角信息,研究多视 角下的人体动作识别方法成为当前研究热点。
[0003] 在计算机视觉和模式识别相关研究领域中,多视角人体动作分析一直是最活跃的 研究领域之一。由于三维空间往往较二维图像包含更多的视觉信息,因此早期研究多是通 过多视角采集的视差图像进行三维空间的重建,并在三维空间进行人体动作识别。由于三 维重建计算复杂度高,并且理想的三维重建本身存在很强的挑战性,因此,近些年通过二维 视觉信息的表征和复杂人体动作模型的构建成为该领域主流方法。但是由于目标差异较 大,同时,即使相同目标的动作也存在差异,这给人体动作识别带来了很大困难。


【发明内容】

[0004] 本发明的目的是针对多视角动作识别中,常用方法无法充分地挖掘多视角场景下 的人体动作的内在关联性,因此,本发明提供了 一种1?效的基于协同表不和判别准则的多 视角联合动作词典学习方法,用于充分地挖掘多视角场景下人体动作的内在关联,并在人 体动作识别中进行了验证。
[0005] 本发明提供的基于协同表示和判别准则的多视角联合动作词典学习方法,用于挖 掘多视角监控场景中人体动作特征内在的关联性,从而为高效的人体动作识别提供帮助。 该方法具体包含以下步骤: 第1、视频预处理 第1.1、根据真实标注信息,对所有多视角视频进行分割,保证每个分割后的视频中仅 包含一个动作,并且将多个视角下的视频和动作进行对齐; 第1. 2、针对多视角视频中的所有图像序列,通过中值滤波进行噪声过滤; 第2、时空兴趣点提取 针对不同视角和不同动作的视频,采用MoSIFT分别提取时空兴趣点,并保存对应的结 果; 第3、基于概率图模型的多视角时空兴趣点融合 针对不同视角下相同动作的时空兴趣点的提取结果,使用概率图模型的方法对多视角 特征进行融合,挖掘多视角特征的内在一致性;具体步骤包括: 第3. 1、分别基于MoSIFT算法提取相邻视角下相同动作的时空兴趣点; 第3. 2、针对相邻视角,以每个时空兴趣点为节点,并以两个视角下时空兴趣点的余弦 相似性为边,构建图模型; 第3. 3、针对某个视角下每个点,根据其与另一个视角下点的相似性和预先设定的阈 值,找出最为相似的几个点,从而以这几个点的中心为替代点,其它点将被剔除; 第4、基于"词袋"的特征归一化 针对第2步提取的时空兴趣点以及第3步处理后的时空兴趣点,采用"词袋"方法对这 些时空兴趣点进行归一化,并保存对应的结果,作为对应动作的最后特征; 第5、基于协同表不和判别准则的多视角联合动作词典学习 在第4步归一化特征的基础上,根据协同表示和判别准则制定相应的正则项,构建多 视角联合动作词典,并对其进行学习,完成相应词典的构建;具体步骤包括: 第5. 1、在所有视角提取特征的基础上,为了挖掘多视角内在的关联特性,制定多视角 联合保真项、基于图模型的融合保真项、组稀疏正则项和具有结构化的判别正则项; 第5. 2、在3. 1的基础上,构建基于协同表不和判别准则的多视角联合动作词典学习模 型,用于学习对应的词典; 第5. 3、针对该模型的联合非凸性,无法直接求解,但是当其中某个变量固定时,该模型 又变为凸函数,因此,通过坐标下降法对该目标函数进行求解迭代,获得对应的多视角动作 联合词典; 第6、基于多视角联合动作词典和稀疏表示的动作识别 为了验证多视角动作联合词典构建方法的有效性,在多视角人体动作识别中进行了验 证,实现目标动作的识别。
[0006] 本发明的优点和有益效果; 1)充分分析多视角场景中人体动作特征的内在关联特性,设计通过概率图模型的方 法,剔除多余的冗余点,保留其一致性,2)根据分析结果,设计协同表示和判别准则正则项, 构建多视角联合动作词典目标函数,充分挖掘它们内在的关联特征。
[0007]

【专利附图】

【附图说明】
[0008] 图1为本发明的流程图。
[0009] 图2为多摄像头布局的示意图。
[0010] 图3为具体过滤前后的图像对比,A为过滤前的图像,B为噪声过滤后的图像。
[0011] 图4为不同动作下提取的时空兴趣点示意图,其中(a)拳击、(b)鼓掌、(c)双手挥 动、(d)慢跑、(e)正常跑步、(f)走路、(g)弯腰、(h)捡东西、(i)投掷、(j)原地起跳。
[0012] 图5为基于概率图模型的多视角特征融合。
[0013] 图6为基于"词袋"方法对时空兴趣点的投影和归一化流程。
[0014] 图7为待表征样本的重建系数的前后分布情况,说明模型构建的合理性。
[0015]图8为本发明在多视角动作数据集上评估性能以及与其它算法的比较,其中 C1+C2+C3表示不同视角下的样本直接叠加,增加训练样本,C1_C2_C3表示不同视角下的样 本特征直接连接,构建高维特征,而C1/C2/C3表示本发明采用的词典学习算法。
[0016]

【具体实施方式】
[0017] 下面结合附图对本发明作进一步的描述。
[0018] 实施例1 如图1所示,为本发明的一种基于协同表示和判别准则的多视角联合动作词典学习方 法的操作流程图,图2为多摄像头布局的示意图,该方法的操作步骤包括: 步骤10视频预处理 首先,根据真实标注信息,对所有多视角视频进行分割,保证每个分割后的视频中仅包 含一个动作,并且将多个视角下的视频和动作进行对齐;其次,针对多视角视频中的所有图 像序列,通过中值滤波器对图象进行噪声过滤,其具体为:首先,针对图像中的每个像素,获 取其周围5*5模板内的所有像素,并对这些像素进行排序,取排序后的中间值代替这个像 素值;然后,依次遍历图像中的所有像素,过滤前后的图像对比如图3所示; 步骤20时空兴趣点特征提取 针对不同视角和不同动作的视频,采用MoSIFT分别提取时空兴趣点,并保存对应的结 果;提取时空兴趣点特征,具体包括以下步骤: (1) 首先通过不同尺度的高斯函数对原始图像进行滤波,并计算相邻尺度的滤波图像 的差,然后,对原始图像进行下采样,同样进行高斯滤波,从而构成金字塔图像; (2) 在金字塔图像上,寻找空间极值点,同时,过滤不稳定的极值点; (3) 进一步地,计算每个极值点的光流,判断光流大小,从而决定空间极值点是否为时 空兴趣点; (4) 针对所有时空兴趣点,分别计算对应H0G和H0F特征,从而形成最终的特征描述。
[0019] 图4给出了检测出的时空兴趣点特征,其具体方法参考:Ming-yu Chen and Alex Hauptmann, MoSIFT: Recognizing Human Actions in Surveillance Videos, CMU-CS-09-161. 〇
[0020] 步骤30基于概率图模型的多视角特征的融合 首先,根据步骤20,提取相邻视角下相同动作的时空兴趣点; 其次,为了挖掘多视角特征的内在一致性,并剔除冗余点,为这些点构建图模型,即以 这些时空兴趣点为节点,并以时空兴趣点的余弦相似性为边,构建图模型; 然后,针对某个视角下每个点,根据其与另一个视角下点的相似性和预先设定的经验 阈值(实验中阈值采用〇. 75 ),找出最为相似的几个点,从而以这几个点的中心为替代点,其 它点将被剔除。这样,不仅能够最大限度的保留和融合这些点,并剔除了很多干扰点。
[0021] 其连接示意图如图5所示,具体概率图模型构建方法参考:张宏毅,王立威,陈瑜 希,概率图模型研究进展综述,软件学报,2013, 24 (11) : 2476-2497。
[0022] 步骤40基于"词袋"的特征归一化 在步骤20中已经为每个视角下动作都提取了时空兴趣点,同时,步骤30中也已经 对这些点进行了融合和剔除。在步骤20的基础上,采用K-Means方法,为所有视角构建 码字大小为1000的共有码书,然后,针对融合前的每个视角下的时空兴趣点和融合后的 所有点,采用"词袋"方法,分别将这些时空兴趣点特征投影到共有码书上,并采用各个 视角下各自动作的兴趣点数目进行归一化,实现对其动作的描述。其过程如图6所示, 具体方法见 Jun Yang, Yu-Gang Jiang, Alexander G. Hauptmann etc, Evaluating bag-〇f-visual-words representations in scene classification[C], International Multimedia Conference, MM' 07, 2007, 197-206. 步骤50基于协同表示和判别准则的多视角联合动作词典学习 多视角方法虽然可能解决视频监控中由于遮挡、光照、视角变化等因素带来的难题,然 而如何有效的对多视角特征进行融合直接影响到该方法的成败。因此,为了解决该问题,拟 通过基于协同表示和判别准则的制定,挖掘多视角场景中人体动作特征的内在关联特性, 实现高效的多视角人体动作识别。其具体定义为:

【权利要求】
1. 一种基于协同表示和判别准则的多视角联合动作词典学习方法,用于挖掘多视角视 频监控中目标动作的内在关联,以实现对多视角场景的动作识别,其特征在于该方法具体 包含以下步骤: 第1、视频预处理 第1.1、根据真实标注信息,对所有多视角视频进行分割,保证每个分割后的视频中仅 包含一个动作,并且将多个视角下的视频和动作进行对齐; 第1. 2、针对多视角视频中的所有图像序列,通过中值滤波进行噪声过滤; 第2、时空兴趣点提取 针对不同视角和不同动作的视频,采用MoSIFT分别提取时空兴趣点,并保存对应的结 果; 第3、基于概率图模型的多视角时空兴趣点融合 针对不同视角下相同动作的时空兴趣点的提取结果,使用概率图模型的方法对多视角 特征进行融合,挖掘多视角特征的内在一致性; 第4、基于"词袋"的特征归一化 针对第2步提取的时空兴趣点以及第3步处理后的时空兴趣点,采用"词袋"方法对这 些时空兴趣点进行归一化,并保存对应的结果,作为对应动作的最后特征; 第5、基于协同表不和判别准则的多视角联合动作词典学习 在第4步归一化特征的基础上,根据协同表示和判别准则制定相应的正则项,构建多 视角联合动作词典,并对其进行学习,完成相应词典的构建; 第6、基于多视角联合动作词典和稀疏表示的动作识别 为了验证多视角动作联合词典构建方法的有效性,在多视角人体动作识别中进行了验 证,实现目标动作的识别。
2. 根据权利要求1所述的方法,其特征在于第3步所述基于概率图模型的多视角时空 兴趣点融合步骤包括: 第3. 1、分别基于MoSIFT算法提取相邻视角下相同动作的时空兴趣点; 第3. 2、针对相邻视角,以每个时空兴趣点为节点,并以两个视角下时空兴趣点的相似 性为边,构建图模型; 第3. 3、针对某个视角下每个点,根据其与另一个视角下点的相似性和预先设定的阈 值,找出最为相似的几个点,从而以这几个点的中心为替代点,其它点将被剔除。
3. 根据权利要求1所述的方法,其特征在于第5步所述基于协同表示和判别准则的多 视角联合动作词典学习,其步骤包括: 第5. 1、在所有视角提取特征的基础上,为了挖掘多视角内在的关联特性,制定多视角 联合保真项、基于图模型的融合保真项、组稀疏正则项和具有结构化的判别正则项; 第5. 2、在3. 1的基础上,构建基于协同表不和判别准则的多视角联合动作词典学习模 型,用于学习对应的词典; 第5. 3、针对该模型的联合非凸性,无法直接求解,但是当其中某个变量固定时,该模型 又变为凸函数,因此,通过坐标下降法对该目标函数进行求解迭代,获得对应的多视角动作 联合词典。
【文档编号】G06K9/66GK104268592SQ201410484437
【公开日】2015年1月7日 申请日期:2014年9月22日 优先权日:2014年9月22日
【发明者】高赞, 张桦, 宋健明, 薛彦兵, 徐光平 申请人:天津理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1