一种基于稀疏时空特征的行为识别方法

文档序号:9217557阅读:518来源:国知局
一种基于稀疏时空特征的行为识别方法
【技术领域】
[0001] 本发明涉及一种行为识别方法,具体涉及一种基于稀疏时空特征的行为识别方 法,可以自动获取视频中人体行为特征用于人体行为的识别。
【背景技术】
[0002] 人体行为识别是通过分析视频序列中人体图像的相关性和视觉外观特征,确定人 体的行为模式。行为识别的过程主要包括运动信息提取和行为识别两个部分,而在模型的 运用不出差错的情况下,提取的行为特征决定了整个模型的能力上限,模型的识别或预测 只是为了更好的接近这个上限。
[0003]自动获取与人体行为相关的信息,在许多领域成为一个亟待解决的问题。在计算 机视觉领域,人体行为识别广泛应用于智能监控、人机交互、虚拟现实、医疗看护等领域。具 体的说,日常生活中比较常见的视频监控,单纯依靠人力监控效率往往比较低,而且人类对 于监控视频的注意力往往会随着时间降低,所以长时间的视频监控会使得丢失报警率偏 高。倘若采用智能的视频监控,则可以自动的对视频进行建模和分析,实时的识别人体行 为,更加准确及时的进行安全预警,也大量减少了人力、物力和财力的投入,在交通场所、机 场车站等公共场所都有着巨大的应用价值和前景。另外,正确快速的识别视频中的行为对 于视频搜索、自动视频标注等也具有十分重要的意义,因此人体行为识别的研宄既具有理 论意义同时兼备实际应用价值,值得进一步的研宄。
[0004] 行为识别主要包括两个方面:从视频中提取行为特征,建立特征与行为类别高层 语义信息之间的对应关系。从视频中提取有效的特征是行为识别中重要的环节,它直接影 响到之后语义映射即识别的准确率和鲁棒性。传统的行为识别方法根据应用场景以及所关 心的行为类别的不同,通常要选用不同类型的特征;而深度学习的方法能够自动学习到样 本数据的行为特征,多层的抽象表达可以覆盖底层更多的变化,得到更优的识别效果。
[0005] 传统的行为特征提取方法主要有:(1)基于底层跟踪或姿态估计的特征提取方 法,主要是静态特征,如形状、轮廓,或者基于运动信息的动态特征提取,如轨迹、运动速度。 这类特征往往直观性好,具有明确的时间特性和速度特性;但是它们的有效性需要依赖于 目标跟踪和人体姿态估计的准确性。而真实的场景中,由于背景比较杂乱、运动目标多,进 行准确的目标跟踪和人体姿态估计是具有很大的挑战,所以这类特征往往鲁棒性较差。(2) 基于图像处理技术的特征提取方法,这类方法主要有基于光流的动态特征以及时空特征。 这类特征一定程度上提高了行为识别的鲁棒性;但通常是对图像或时空立方体的局部运动 描述,计算量较大,容易受噪声干扰,且缺乏行为模式的整体性考虑和全局性的分析。(3)基 于学习的方法提取特征,一般学习的是目标的中层语义特征。这类特征虽然利用了视频中 丰富的中层语义信息,但是因为涉及到人为定义的问题,存在主观性和非完整性,从而导致 行为识别性能下降。
[0006] 深度学习方法模拟人脑的层次处理结构,自动学习多层的抽象概念,它是一种高 度非线性的模型,具有超强的数据拟合能力和学习能力,表达能力强,更能刻画数据丰富的 内在信息。深度学习的概念起源于人工神经网络的研宄,由于反向传播算法在神经网络层 数增多时参数训练容易陷入局部优化,也容易过拟合,所以很长一段时间只是有一层隐藏 结点的浅层模型受到广泛应用。直到2006年由Geoff Hinton等提出贪心逐层训练算法, 使得参数初始化在比较接近全局最优的位置,缓解了深层网络训练中非凸函数优化问题, 至此深层网络模型的学习才又开始进入人们的视野。深度学习的多层结构可以更好的对 视觉信息进行建模从而能理解视频的内容,这种方式学习到的特征也符合人类感知世界的 机理,而且具有一定的语义特征,所以很适合人体行为识别。最近几年深度学习的方法也 开始慢慢被应用到视频中进行人体行为的识别。2010年Taylor等人提出了卷积门限的 限制玻尔兹曼机(Convolutional Gated RBM, convGRBM)来学习视频中相邻两帧的时空 特征,之后使用三维时空滤波器构建传统卷积网络有监督的学习中层时空特征。实验结果 表明,该模型在行为识别数据库上可以获得与人工设计特征相类似的精度。传统的深度学 习的方法在进行视频处理的时候,通常将视频看作独立的时空小块的无序集合,从而放弃 了全局几何信息,于是Chen等人提出了时空的深度置信网络(ST-DBN),尝试把局部和全局 时空信息包含到一个分层结构中,通过使用卷积限制玻尔兹曼机在空间维度和时间维度上 交错地进行建模,从而获得视频的时空特征。在行为识别数据库上,ST-DBN从空间和时间 上获得信息,显示了优越的区分能力,而且该模型还可以应用于图像修复和降噪。其它的 人体行为识别的模型还有Le等人提出的独立的子空间分析方法(Independent Subspace Analysis,ISA),在KTH,Hollywood2, UCF和YouTube行为识别数据库上都获得了优于之 前提出方法(不论是人工设计的特征还是学习的特征)的结果。Baccouche等人提出的稀 疏的卷积自动编码网络,该模型能从局部的显著信息中学习到稀疏的平移不变的表达,在 KTH和GEMEP-FERA数据库上都获得了突出的实验结果。之前的人体行为识别方法都是基 于一些苛刻的应用场景假设(如小尺度变化、小的视觉变化等),考虑用深度学习的方法在 非限制的环境中完全自动识别人体行为,Shui等人提出了三维卷积神经网络(3D CNN),在 TRECVID(TREC Video Retrieval Evaluation)数据集和KTH数据集上的实验结果表明,三 维卷积神经网络更适合现实世界的行为识别,且三维卷积神经网络识别效果要优于二维的 卷积神经网络。
[0007] 基于深度学习方法的行为识别,主要存在的问题为: 1、确定的理论基础。尽管深度学习在工程应用上由于准确率的显著提高广受关注,但 深度学习自身还缺乏理论基础,深度学习理论中包含了大量说不清的东西。例如,深度学 习的多层学习机构通常是用大脑信息处理的层次机制来解释的,但大脑信息处理结构是神 经科学都无法完全理解的存在,而且具体的层次内部以及层次之间的信息处理方式是怎样 的,我们都无法确定的说明。深度学习模型存在太多的经验,多少层的模型、每层的结点数 为多少、怎样的技巧适合训练深度模型等等都没有明确的解释。目前深度学习的研宄还处 于起步阶段,深度学习相关的理论还有待进一步的研宄和证明。
[0008] 2、行为特征描述。虽然运用深度学习的方法可以自动地学习人体行为特征,在行 为识别领域也取得了很好的成绩,但还是无法匹敌人类的识别效果,那我们是否可以通过 深度学习的特征进一步提高识别率。训练更深层次的深度学习模型,或者对于给定的深度 学习框架尝试融合不同属性的特征,还是有其它的技巧可以增强给定的深度学习框架以改 进其鲁棒性,这些都是我们需要解决的问题。
[0009] 3、计算复杂度。深度学习算法是建立在大量输入数据的前提下的,只有在提供大 量的数据支持下,深度学习才能对数据规律进行无偏的估计。从计算量的角度来看,对于大 模型和大数据,深度学习算法的时间和空间复杂度急剧上升,需要更高的并行技巧以及更 好的硬件支持。而且深度学习的模型在不断的迭代优化中并不能保证得到全局的最优解, 这需要未来进一步的探索。

【发明内容】

[0010] 本发明的发明目的是提供一种基于稀疏时空特征的行为识别方法,通过尺度空间 的构建输入深度网络联合学习多尺度的特征,提高行为识别的性能,并引入空间金字塔的 思想,对池化输出进行多级扩充,结合稀疏编码进行金字塔多级特征的融合,进一步高进原 有网络的性能,提尚彳丁为识别率。
[0011] 为达到上述发明目的,本发明采用的技术方案是:一种基于稀疏时空特征的行为 识别方法,包括如下步骤: 步骤一、对于输入视频采用时空Gabor与原输入视频进行卷积构造尺度空间; 步骤二、将不同尺度的表达作为时空深度置信网络不同通道的值,联合学习多尺度的 特征; 步骤三、对行为特征进行识别分类。
[0012] 上述技术方案中,所述步骤一中,从7个不同尺度的表达中,根据不同尺度表达间 信息的损失,基于熵选择3个损失最小的尺度作为输入视频的多尺度表达。
[0013] 上述技术方案中,所述步骤二中,对于多尺度的输入
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1