一种基于稀疏时空特征的行为识别方法_2

文档序号:9217557阅读:来源:国知局
首先采用卷积限制玻尔兹曼 机进行时间维的特征学习,然后采用空间维的卷积限制玻尔兹曼机学习不同大小的多级特 征输出。
[0014] 进一步技术方案,将所述卷积限制玻尔兹曼机的池化层的输出扩充为多级较小的 特征,采用稀疏编码进行所述多级特征的融合。
[0015] 上述技术方案中,所述步骤三中采用支持向量机进行行为分类,所述支持向量机 的核函数为径向基核函数。
[0016] 由于上述技术方案运用,本发明与现有技术相比具有下列优点: 本发明通过尺度空间的构建输入深度网络联合学习多尺度的特征,提高行为识别的性 能,针对池化操作的信息损失问题,引入空间金字塔的思想,对池化输出进行多级扩充,并 结合稀疏编码进行金字塔多级特征的融合,降低了池化层输出的特征维度,进一步改进了 原有网络的性能,提高了行为识别率。
【附图说明】
[0017] 图1是实施例一中本发明的方法框架构图。
[0018] 图2是实施例一中卷积限制玻尔兹曼机模型结构示意图。
[0019] 图3是实施例二中不同尺度下拳击行为的运动信息表达。
[0020] 图4是实施例二中时间域CRBM的特征映射示例。
[0021] 图5是实施例二中空间域CRBM的特征映射示例。
[0022] 图6是实施例二中不同输出大小下KTH上行为的识别率。
[0023] 图7是实施例二中KTH上不同字典数目和稀疏度对行为识别率的影响。
【具体实施方式】
[0024] 下面结合附图及实施例对本发明作进一步描述: 实施例一:参见图1所示,一种基于稀疏时空特征的行为识别方法,包括如下步骤: 步骤一、对于输入视频采用时空Gabor与原输入视频进行卷积构造尺度空间; 步骤二、将不同尺度的表达作为时空深度置信网络不同通道的值,联合学习多尺度的 特征; 步骤三、对行为特征进行识别分类。
[0025] 所述步骤一中,考虑到模型训练的复杂度,从7个不同尺度的表达中,根据不同尺 度表达间信息的损失,基于熵选择了 3个损失最小的尺度作为输入视频的多尺度表达,输 入深度模型进行多尺度的特征学习。
[0026] 本实施例中,对于简单细胞的感受野响应使用Gabor函数进行拟合,对于视频输 入(亮度分布)的响应可以表示为输入与感受野函数卷积的半波整流,即
角度参数获决定了运动的优选方向和滤波器的空间优选方向;参数F是余弦函数的相 位速率,决定了运动的优选速率;變表示滤波器在空间上相对于运动中心的对称性。由于尺 度参数= 0.561= I. 这里我们使用速度参数,描述尺度变化。
[0027] 复杂细胞的感受野可以由简单细胞的输出非线性组合而成,即:
为了弱化背景边缘,同时保持运动目标的轮廓和区域边界,尺度空间的构建加入了环 绕抑制模型。对于空间上的任意一点它的抑制项是该点的运动能量 与环绕抑制权重函数j,l+)的卷积,即
该点的环绕抑制运动能量为:
其中参数a用于控制环绕抑制的强度。
[0028] 为了获得不同速度P(尺度)下的运动信息,将初级视觉皮层中复杂细胞的N个不 同方向的响应,加入环绕抑制得到的环绕抑制运动能量进行组合,提取运动信息。即不同尺 度下的运动信息为:
对于输入数据不同尺度的描述,细尺度体现的是目标对象的细节信息,粗尺度描述的 是整体轮廓概貌。尺度空间就是对输入信号越来越平滑、简化的表达,在尺度上是一个由细 到粗的变化过程,从视觉信息角度出发体现的就是细节信息的不断丢失。考虑到模型训练 的复杂度,为了选择合适的尺度对输入视频进行描述,使得输入尽量保留多的细节信息,选 择不同尺度间信息量损失最小的3个尺度作为该输入的描述尺度。不同尺度间视频的信息 损失量定义为:
这里定义为Kullback - Leibler divergence,即相对爐,可以用来衡量两个概率 分布的差异情况,/Q为不同尺度下运动信息的亮度统计值。本实施例计算了 7 个不同尺度的信息损失,损失量较小的3个尺度就为该视频的描述尺度。
[0029] 所述步骤二中,考虑到某些行为类别在空间维度上比较类似,而在时间维度上 区别性较大,比如慢跑和跑步,同时也为了方便时空深度置信网络最后一层空间维金字 塔的多级特征输出,对于多尺度的输入首先采用卷积限制玻尔兹曼机(Convolutional Restricted Boltzmann Machine, CRBM)进行时间维的特征学习,然后采用空间维CRBM学 习不同大小的多级特征输出。为了融合不同大小的时空特征,也为了降低输出的维度,采用 稀疏编码进行了多级特征的融合。
[0030] 参见图2所示,一个基本的CRBM模型主要包括三层,即可见层节点P、隐藏层节点 論及池化层节点输入节点冒和隐节点毚之间通过个卷积滤波器#相连,隐节点之间共享 隐藏层偏差|?,可见节点之间共享可见层偏差G。池化层采用的是概率的最大值池化操作, 只有在对应的隐藏层节点中至少有一个是被激活状态时才会被激活。
[0031] 对于二值的可见层单元,该卷积限制玻尔兹曼机的能量函数定义为:
这里是对原始的滤波器If进行上下和左右的倒置变换,#表示卷积操作,4表示汇总 单元节点所对应的隐藏层节点局部邻域。
[0032] 由于CRBM模型只有不同层之间有连接,同一层单元之间是没有连接的,因此条件 概率的计算如下所示:
[0033] CRBM模型学习的是输入的过完备表达,通常过完备的模型存在着学习到平凡解 (trivial solution)的风险,所以在训练模型的时候加入了稀疏正则项,使得对于一个给 定的激励只有很小的一部分单元是被激活的,即概率最大值池化层中非零值接近一个很小 的常数F。对于稀疏正则项的梯度计算,遵循以下更新规则:
整个模型的训练过程如表1所示,首先根据可见层的输入计算得到隐藏层的分布,然 后通过隐藏层的分布来重构可见层分布,再根据此分布生成新的隐藏层分布。重构的可见 层分布和隐藏层分布就是对输入的一次采样,多次采样得到的分布就可以看成是输入数据 分布的一种近似,根据这些样本概率值就可以对参数进行更新,最终求解出参数值。
[0034]表1卷积限制玻尔兹曼机的训练过程
本发明米用时空深度置信网络(Temporal-Spatial Deep Belief Network,TS-DBN), 由CRBM在时间域和空间域上分别进行时间域特征和空间域特征的学习,行为在时间上的 演变要比空间维的变化更加重要,该模型第一层使用的是时间域CRBM,第二层为空间域 CRBM,依次这样堆叠起来自动进行时空特征的学习。不同于传统单一尺度的特征学习,本发 明将不同尺度的信息输入TS-DBN,联合学习多尺度的特征。具体的说,多尺度的TS-DBN是 将输入视频不同尺度的表达作为不同通道的值输入时空深度置信网络,联合学习不同尺度 的时空特征。时间域CRBM的输入是图像上位置为的像素在时间维度上形成的向量,即 长度为的时间序列,f|是视频通道的个数,这里就是不同的尺度信息,?tF是视 频的长度。通过crbm模型的学习,输出j]w|x/irxl]的序列,|||为滤波器的个数,为输出 视频长度,最后将时间维的输出重新安排到空间维的分布上。空间域CRBM的输入为时间域 CRBM的输出= 与空间域滤波器-卷积,通过概率的最大值池化操作输出响应 F。
[0035] 传统的池化策略在固定池化比率系数下,输出的特征大小跟输入大小成正比,当 输入图片或者视频的分辨率很大的时候,池化后的特征维度往往也会很高。解决的方法有 进一步深层网络的堆叠,这样多层池化后输出的特征维数必然下降,但深度学习中网络的 层数往往是个经验值,也并不是网络的层数越多模型的性能就越好。所以本发明从横向的 宽度考虑,引入了空间金字塔的思想,将池化层的输出扩充为多级较小的特征,采用稀疏编 码进行多级特征的融合,降低了池化层输出的特征维度。对于稀疏的金字塔池化策略的每 一级,我们都要实现CRBM的概率最大值池化操作,最后将不同级的特征进行连接作为稀疏 编码的输入,进行字典学习获得输入的稀疏表达。
[0036] 对于金字塔多级输出,将卷积后的特征映射进行不同比率的池化操作,这里的池 化是概率的最大值池化策略,池化比率等参数根据已知输入的大小预
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1