基于稀疏子空间聚类的视频人体行为识别方法

文档序号:8412865阅读:374来源:国知局
基于稀疏子空间聚类的视频人体行为识别方法
【技术领域】
[0001] 本发明属于计算机视觉模式识别和视频图像处理方法,特别是一种采用稀疏子空 间(SSC)聚类、细分及将层数较多的基于深度学习的神经网络,拆分为几个层数较少的较 浅的基于深度学习的神经网络的视频行为识别方法。
【背景技术】
[0002] 基于视频的人体行为识别是近几年来计算机视觉领域的热点问题,作为典型的视 频理解问题,通过分析视频图像序列中的人体动作特征,识别判定人体行为模式。更具体而 言,是从视频图像序列中提取能够描述行为的特征信息,利用机器学习等技术对其进行理 解,采用分类器进行分类,以达到识别人体行为的目的。
[0003] 随着现代信息技术的发展和社会公共安全需求的提高,对日常生活中人体行为的 理解已成为日益需求。人体行为识别在智能视频监控、视频内容检索、新型人机交互、虚拟 现实、视频编码与传输、游戏控制等多方面具有广阔的应用场景,备受关注。视频人体行为 识别包括:基于时空法的人体行为识别、基于序列法的人体行为识别和基于深度学习的人 体行为识别三类。
[0004] 其中:1.基于时空法的人体行为识别,是将3D视频看成由2D图像在时间尺度上 排列所形成的立体,并进行时空表示,又包括:基于三维时空的人体行为识别,基于三维时 空局部特征的人体行为识别和基于轨迹的人体行为识别;此类方法存在人体行为特征大多 是人工手动设计,受设计者经验影响较大,计算量大或自适应性差等缺陷;
[0005] 2.基于序列的人体行为识别,是对视频的每一帧图像提取特征向量,将相关的特 征向量组成特征序列,最终表征该视频的人体行为,在此基础上进行识别分类。常见的方法 是基于状态模型序列的人体行为识别,将视频表征为状态序列,对人体静态姿势定义为一 个状态,不同的状态之间通过概率相联系,人体连贯的行为可以看作这些静态姿势的不同 状态间的迀移;通过此理论,生成概率模型,利用相似度进行识别,隐马尔可夫模型(Hidden Markov models, HMMs)是此方法的典型代表。
[0006] 3.基于深度学习的人体行为识别方法,则是借鉴于生物神经学理论,是机器学习 中的一个热门新领域,其动机在于建立并模拟人脑神经网络,即模拟人脑的大脑皮层对数 据进行层次化解读。近几年来,深度学习已在人体行为识别领域得到广泛应用。该方法从 原始数据中直接自动学习获取特征,与传统的特征提取不同,该类特征无需人工手动设计 干预,具有较高的自适应性、通用性和不变性(如平移不变性、尺度不变性和旋转不变性)。 3D卷积神经网络(3D Convolutional Neural Networks, 3D CNNs)是该方法的典型代表,它 将传统卷积神经网络从图像2维空间扩展到时域,直接从原始视频序列中自动学习时空特 征,取代了传统的时空兴趣点和描述子,能对简单的人体行为如鼓掌、挥手等获得较好的识 别率。该方法虽然是目前最流行且有效的人体行为识别方法,但是容易出现神经网络中常 存在的过拟合现象;另外随着基于深度学习的神经网络的层数增加,误差反向传播进行参 数调优时容易出现梯度扩散问题,影响训练过程,且目前在较复杂场景下(如不同背景、不 同镜头角度和不同上下文环境等)的人体行为识别方面效果不佳。
[0007] 在公开号为CN103955671A、发明名称为《基于快速判别公共向量算法的人体行为 识别方法》的专利文献中公开了一种基于快速判别公共向量的人体行为识别方法,以快速 判别公共向量算法提高分类速率,并解决人体行为识别中的小样本问题。首先对输入的视 频序列进行分帧处理、灰度处理和去噪处理;然后采用时间差分法对分帧后的图像进行运 动人体目标检测,提取目标前景;而后对目标区域大小进行归一化处理;再采用k-means聚 类的方法得到行为序列的关键帧;最后采用快速判别公共向量对行为进行分类。该方法 虽然能一定程度的地提高识别效率,解决了人体行为识别中的小样本问题,在理想环境下 (即简单背景,无明显噪声干扰等)的人体行为识别准确率较高,但该方法主要利用传统的 图像处理手段,提取到的特征局限性大,易受外界环境影响,在较复杂场景下的人体行为识 别方面效果较差。
[0008] 在公开号为CN103810496A、发明名称为《基于图像深度信息的3D高斯空间人体行 为识别方法》的专利文献中公开了一种基于图像深度信息的3D高斯空间人体行为识别方 法,首先提取深度信息中的人体骨骼3D坐标并对其进行归一化操作,过滤对人体行为识别 率低的关节及冗余关节;然后针对各个行为构建兴趣关节群,基于高斯距离核对人体动作 空间特征进行AP聚类,获得行为特征单词表并对其进行数据清理;最后构建人体行为条件 随机场识别模型,据此实现对人体行为的分类。该方法虽然对人体具体方向、骨骼尺寸、空 间位置都具有较强的抗干扰性,具一定程度的泛化能力,可应用于较理想环境下的人体行 为识别,但是需使用成本较高的3D深度摄像机,另外该方法的算法较为复杂,且在较复杂 场景下人体行为识别方面的效果仍不理想。

【发明内容】

[0009] 本发明的目的是针对【背景技术】存在的缺陷,研宄设计一种基于稀疏子空间聚类的 视频人体行为识别方法,该方法能自动提取出更具有判别性、自适应性、通用性和不变性的 人体行为特征,降低神经网络中的过拟合现象和梯度扩散问题,以达到有效提高复杂环境 下(如不同背景、不同镜头角度和不同上下文环境等)人体行为识别准确率,可广泛运用于 现场视频监控和视频内容检索等目的。
[0010] 本发明的解决方案是
[0011] 本发明针对镜头远近、不同的上下文环境、各异的背景等诸多因素影响,在较复杂 场景下(如不同背景、不同镜头角度和不同上下文环境等)的同一类人体行为的特征往往 具备细分的可行性;在对输入的人体行为视频样本完成特征提取之后、即将样本空间映射 到特征空间后,利用稀疏子空间聚类(Sparse Subspace Clustering:SSC)对同一类人体行 为的特征进行聚类、细分为若干子行为,然后更新相应人体行为类别标签并重新学习训练; 同时将层数较多的基于深度学习的神经网络,拆分为几个层数较少的较浅的基于深度学习 的神经网络,以提升神经网络性能,缓解过拟合和梯度扩散问题;在识别时将若干子行为的 识别结果重新归类到原始行为进行识别率统计。本发明即以此将一个基于深度学习的行为 识别算法的识别率在原有的基础上进一步提高,最终达到对较复杂场景下的人体行为具较 高识别准确率的要求,从而实现其发明目的。因而本发明方法包括:
[0012] A.建立视频人体行为识别的模型:
[0013] Al.建立三维时空子帧立方体:将用于学习的人体行为数据库的同一类别人体行 为视频上的每一帧划分为相同大小的子帧,然后将组成相应人体行为视频的部分连续帧的 时间序列长度作为其厚度,以建立三维时空子帧立方体,并对所得各子帧立方体在原人体 行为视频相同的类别标签;
[0014] A2.建立人体行为特征空间:将步骤Al所建各三维时空子帧立方体连同其人体 行为视频的类别标签输入到基于深度学习的神经网络、进行第一次训练,以提取超过人体 行为数据库中给定行为类别50%的用于分类的特征,建立第一次训练后的人体行为特征空 间;
[0015] A3.聚类处理:对步骤A2所建人体行为特征空间,利用稀疏子空间聚类(SSC)方 法分别对行为特征空间中的每一类人体行为特征进行聚类(细分)处理,以将同一类人体 行为特征再细分为子类行为特征;行为特征子类的个数根据稀疏子空间聚类(SSC)方法自 动确定;
[0016] A4.标签的更新:根据步骤A3中稀疏子空间聚类方法细分的结果,在原人体行为 视频相同的类别标签下分别对聚类细分后的各行为特征子类视频赋予其子标签,得更新标 签后的样本;
[0017] A5.建立视频人体行为识别模型:将步骤A4所得更新标签后的样本输入到与步骤 A2相同的基于深度学习的神经网络进行第二次训练,以进一步提取人体行为特征,然后将 提取出的行为特征输入分类器进行分类处理,从而建立用于视频人体行为识别的模型;并 保存第二次训练后神经网络参数,待用;
[0018] B.人体行
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1