一种基于语义特征自动学习与筛选的人类行为识别方法

文档序号：6552414阅读：529来源：国知局

一种基于语义特征自动学习与筛选的人类行为识别方法
【专利摘要】本发明公开了一种高效的基于语义特征自动学习与筛选的人类行为识别方法，包括从运动视频中检测时空兴趣点，提取时空兴趣点周围的运动和表观信息；在时空兴趣点特征基础上设计包含时空上下文信息的底层特征，描述一个局部区域的所有时空兴趣点特征，并且记录兴趣点之间的相对时空位置关系；在底层特征基础上，利用基于图模型的非负矩阵分解算法来自动生成高层语义特征；建立基于L2，1范数的组稀疏来选择各个行为类别中具有代表性和区分性的高层语义，通过模型的优化，将各个行为类别中具有代表性的语义特征保留下来，同时只采用优化后来自同一个行为类别的语义特征来训练分类器。本发明大幅提升了人类行为识别的智能化水平。
【专利说明】-种基于语义特征自动学习与筛选的人类行为识别方法

【技术领域】
[0001] 本发明涉及计算机应用【技术领域】，特别涉及一种基于语义特征自动学习与筛选的行为识别方法。

【背景技术】
[0002] 视觉是人类观察和认识世界的重要途径。随着计算机处理能力的不断提高，我们希望计算机能够具有人类的部分视觉功能，帮助甚至代替人眼和大脑对外界事物进行观察和感知。伴随着计算机硬件处理能力的提高和计算机视觉技术的出现，人们对计算机的这一期望有可能成为现实。
[0003] 基于视频的人类行为分析的目的是理解和识别人的个体动作，人与人之间的交互运动，人与周围环境的交互关系等。它利用计算机技术，在不需要人为干预或者尽量少的人为干预的条件下，实现基于视频的人体检测、人体跟踪，及对人类的行为的理解。尽管这对于人类的认知系统而言是一件很简单的本能反映，但对于计算机系统来说，考虑到周围环境的复杂性，人类的体态、运动习惯等方面的差异性，准确理解和分析视频中的人类行为具有很大的挑战性。
[0004] 传统的人类行为识别方法主要采用视频的底层特征，如：表观特征、形状特征、光流特征以及时空兴趣点特征等。其中，时空兴趣点特征结合词包模型的方法最为流行，该方法的优点在于，模型简单而且具有较高的识别准确率，而且对于噪声、遮挡和形变具有较强的稳定性，不需要对目标进行跟踪。
[0005] 在 "X. Burgos，P. Dollar，D. Lin，D. Anderson，P. Perona，Social behavior recognition in continuous video, in ：Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2012"（参考文献 1)中米用归一化后的像素亮度、梯度以及光流特征来描述每个时空兴趣点周围的区域，进而描述运动行为，并且在多个运动行为数据集上取得了很好的识别结果，其中梯度特征的效果最好。该方法将时空兴趣点周围各个子区域内提取的特征向量连接在一起，构成一个柱状图特征，这种方法的不足是对于光照等外界因素的变化比较敏感。在"I. Laptev, T.Lindeberg，Local descriptors for spatio-temporal recognition，Spatial Coherence for Visual Motion Analysis，2006"（参考文献2)中尝试对兴趣点周围区域进行多种分割和特征组合来提高识别准确率，光流和梯度的组合取得了最好的识别效果。在"A. Klaser，M. Marszalek， C. Schmid, A spatio-temporal descriptor based on3D_gradients, in ：Proceedings of the British Machine Vision Conference"（参考文献3)中建立一个稳定且计算简单的三维时空特征，它利用规则的多面体将空间量化成20个方向。该方法仍然通过建立梯度方向的柱状图来描述局部时空兴趣点特征。
[0006] 近年来，人们发现传统的底层特征对于运动行为的描述具有很大的局限性，不能有效地描述运动目标的时间和空间信息，所以人们试图在底层特征的基础上建立中层以及高层的语义特征来更准确地描述运动行为。在"J. Liu, M. Shah, B. Kuipers，S. Savarese， Cross-view action recognition via view knowledge transfer, in ：Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，pp. 3209-3216， 2011"（参考文献4)中采用互信息最大化技术来学习出一个紧凑的中层字典。他们将字典中具有相似分布的多个视觉单词融合为一个视觉单词，并且利用时空金字塔匹配的方法来挖掘时间信息° 在"J. Liu，Y. Yang，I. Saleemi，M. Shah，Learning semantic features for action recognition via diffusion map, Computer Vision and Image Understanding, Vol. 116，N〇.3，pp. 361-377, 2012"（参考文献5)中利用扩散映射自动地从大量中层特征中学习出高层语义词汇表，其中每个中层特征被表示成互信息的向量形式。但是算法产生的多个词汇表对应不同的类别，因此产生的词汇表缺乏普遍性，限制了该算法的实际应用。
[0007] 跟传统的底层特征相比，高层语义特征更能够准确描述运动行为的时间和空间属性。但是也存在一些不足，比如：绝大多数基于学习的高层属性都是建立在底层特征的基础上，视频中提取的底层特征既包含前景特征也包含大量的背景特征，这些背景特征会影响算法自动学习出来的高层语义属性的判别性。

【发明内容】

[0008] (一）要解决的技术问题
[0009] 本发明的目的是克服现有的行为识别方法在高层语义学习方面的不足，从而提出一种基于语义特征自动学习与筛选的行为识别方法。
[0010](二）技术方案
[0011] 本发明在传统兴趣点特征的基础上建立时空上下文特征，然后利用基于图模型的非负矩阵分解算法生成高层语义特征，接着设计出一种基于组稀疏的高层特征筛选算法来提取出对于各个行为类别具有代表性的高层语义特征。
[0012] 本发明提出的基于语义特征自动学习与筛选的人类行为识别方法包括：
[0013] 步骤S1、从视频中检测时空兴趣点；
[0014] 步骤S2、提取所述时空兴趣点的周围区域的视频底层特征；
[0015] 步骤S3、根据所述视频底层特征建立时空上下文特征；
[0016] 步骤S4、采用基于图模型的非负矩阵分解算法，根据所述视频底层特征生成高层语义特征；
[0017] 步骤S5、利用基于L2>1范数的组稀疏在高层语义特征基础上筛选出具有代表性和区分性的高层语义；
[0018] 步骤S6、利用筛选出的高层语义特征来训练分类器，利用训练好的分类别对视频进行分类。
[0019] 一种实施方式是，所述步骤S2包括：利用梯度柱状图特征来提取时空兴趣点周围区域的表观特征；利用光流柱状图特征来提取时空兴趣点周围区域的运动特征。
[0020] 一种实施方式是，所述的步骤S3包括：以单个时空兴趣点为中心，搜索出距离中心时空兴趣点最近的N个相邻兴趣点；设计一种时空上下文特征，可以同时描述局部区域内N+1个时空兴趣点特征以及它们之间的相对位置关系；用一个权重向量来约束不同的相邻兴趣点特征，距离中心兴趣点越近的邻近兴趣点被赋予的权重越大。
[0021] 一种实施方式是，所述的步骤S4包括：采用基于图模型的非负矩阵分解将每个样本分解成为一组基向量的线性表示，并且线性表示中的加权系数都为正数；运用该算法将人类运动行为分解成基于部分的表示，同时使得相似的人类运动行为在新的基向量的表示下仍然是相似的。
[0022] -种实施方式是，所述的步骤S5包括：
[0023] 采用矩阵和向量的联合组稀疏模型，促使属于同一类别的运动行为由相似的语义特征来重构；保留各个行为类别中具有代表性的语义特征，抑制那些只在个别类内样本中出现的特征；采用优化后来自同一个行为类别的语义特征来重构测试样本。
[0024] (三）有益效果
[0025] 本发明通过设计时空上下文特征建立稳定的底层特征，在此基础上利用基于图模型的非负矩阵分解算法学习出描述性更强的高层语义特征，接着，采用组稀疏的方法筛选出各个行为类别中具有较强代表性和区分性的高层语义，利用这些筛选出来的语义信息进行分类。这种基于高层语义的方法可以更好地学习出不同类别行为的本质属性特征，可以取得更好地识别效果。

【专利附图】

【附图说明】
[0026] 图1为本发明的人类行为识别方法的流程图；
[0027] 图2A和图2B为本发明的一个实施例的高层语义特征示意图。

【具体实施方式】
[0028] 为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。
[0029] 图1为本发明的人类行为识别方法的流程图。如图1所示，本发明的方法包括如下步骤：
[0030] 步骤S1、从视频中检测时空兴趣点。
[0031] 所谓时空兴趣点是指通过三维空间的角点检测或者滤波得到的空间中的关键点。本发明中检测的时空兴趣点是通过对空间域采用高斯滤波，对时间域采用Gabor滤波所得到的视频中的关键点。
[0032] 步骤S2、提取所述时空兴趣点的周围区域的视频底层特征。
[0033] 所述"周围"是指以时空兴趣点所在位置的中心的一个立方体区域。本发明中提取的视频底层特征是能够表征时空兴趣点周围区域的运动特征和表观特征。
[0034] 在【具体实施方式】中，可提取多尺度的时空兴趣点，例如采用光流柱状图和梯度柱状图这两种特征分别描述时空兴趣点周围区域的运动特征和表观特征。
[0035] 步骤S3、根据所述视频底层特征建立时空上下文特征。
[0036] 所述时空上下文特征是指相邻的多个时空兴趣点共同构成的整体特征，体现了更多的上下文信息。
[0037] 该步骤S3包括以单个时空兴趣点为中心，计算出距离中心时空兴趣点最近的N个相邻兴趣点，然后设计一种时空上下文特征，可以同时描述局部区域内N+1个时空兴趣点特征以及它们之间的相对位置关系。
[0038] 同时，用一个权重向量来约束不同的相邻兴趣点特征，距离中心兴趣点越近的邻近兴趣点被赋予的权重越大。这样，对于运动行为视频中提取出来的任意一个时空兴趣点，都可以获取与它相邻的兴趣点特征以及空间位置信息。

【权利要求】
1. 一种基于语义特征自动学习与筛选的人类行为识别方法，其特征在于，该方法包括：步骤S1、从视频中检测时空兴趣点；步骤S2、提取所述时空兴趣点的周围区域的视频底层特征；步骤S3、根据所述视频底层特征建立时空上下文特征；步骤S4、采用基于图模型的非负矩阵分解算法，根据所述视频底层特征生成高层语义特征；步骤S5、利用基于L2>1范数的组稀疏在高层语义特征基础上筛选出具有代表性和区分性的高层语义；步骤S6、利用筛选出的高层语义特征来训练分类器，利用训练好的分类别对视频进行分类。
2. 根据权利要求1所述的基于语义特征自动学习与筛选的人类行为识别方法，其特征在于，所述的步骤S2包括：利用梯度柱状图特征来提取时空兴趣点周围区域的表观特征；利用光流柱状图特征来提取时空兴趣点周围区域的运动特征。
3. 根据权利要求1所述的基于语义特征自动学习与筛选的人类行为识别方法，其特征在于，所述的步骤S3包括：以单个时空兴趣点为中心，搜索出距离中心时空兴趣点最近的N个相邻兴趣点；设计一种时空上下文特征，可以同时描述局部区域内N+1个时空兴趣点特征以及它们之间的相对位置关系；用一个权重向量来约束不同的相邻兴趣点特征，距离中心兴趣点越近的邻近兴趣点被赋予的权重越大。
4. 根据权利要求1所述的基于语义特征自动学习与筛选的人类行为识别方法，其特征在于，所述的步骤S4包括：采用基于图模型的非负矩阵分解将每个样本分解成为一组基向量的线性表示，并且线性表示中的加权系数都为正数；运用该算法将人类运动行为分解成基于部分的表示，同时使得相似的人类运动行为在新的基向量的表示下仍然是相似的。
5. 根据权利要求1所述的基于语义特征自动学习与筛选的人类行为识别方法，其特征在于，所述的步骤S5包括：采用矩阵和向量的联合组稀疏模型，促使属于同一类别的运动行为由相似的语义特征来重构；保留各个行为类别中具有代表性的语义特征，抑制那些只在个别类内样本中出现的特征；采用优化后来自同一个行为类别的语义特征来重构测试样本。
【文档编号】G06K9/66GK104063721SQ201410319126
【公开日】2014年9月24日申请日期:2014年7月4日优先权日:2014年7月4日
【发明者】胡卫明, 王浩然, 原春锋申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡卫明;王浩然;原春锋
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。