一种基于稀疏时空特征的行为识别方法_3

文档序号：9217557阅读：来源：国知局

先计算出来，这样就可以获得多级的特征输出用于稀疏融合。设空间卷积操作后得到的特征映射大小为3 Xfl ，某级金字塔大小为R ，则对应的池化操作的池化比率为[W ??|，步长为[fl，》」，这里[.]和
[J分别对应向上取整和向下取整的操作。当时，池化区域和区域之间会出现重叠，而传统的池化方法之间则不会，重叠的池化方法可以提高深度网络的性能，本发明采用的空间金字塔池化策略就是重叠的池化。稀疏编码模拟了初级视觉皮层中感受野对视觉感知信息产生的一种稀疏表达，在计算机视觉中通过一个线性变化，(也称为学习字典）描述输入数据JI的一个潜在表达。为了保证稀疏性，稀疏编码会加入一个约束，如1|范式代价函数，使得潜在表达中只有很少几个值是远大于零的。稀疏编码是一种非监督的学习方法，可以自动地从非标记的数据中学习到好的基向量以及对应的稀疏表达，其代价函数定义为：
丨）这里的稀疏惩罚项就是i|范式，本实施例中也限制了基向量的取值防止稀疏惩罚变得很小。稀疏编码对基向量的学习是通过迭代地解决两个凸规划问题求解的，本发明采用的快速的稀疏编码方法，采用特征符号搜寻方法解决i|范式正则化最小二乘法问题，使用拉格朗日对偶函数的方法求解^范式约束的最小二乘问题，对原有的稀疏编码进行了有效的加速，使得学习大数据的编码成为可能。
[0037] 所述步骤三中，采用支持向量机（Support Vector Machine，SVM)进行行为分类，所述支持向量机的核函数为径向基核函数，所述核函数的参数是通过训练集上的五折交叉验证获得的。
[0038] 实施例二：本实施例采用的行为数据库为KTH(Kungliga Tekniska h5gskolan，瑞典皇家理工学院），包括六类行为：拳击（boxing)、拍手（handclapping)、挥手 (handwaving)、慢跑（jogging)、跑步（running)和行走（walking)，每种行为被25个演员在四种不同环境下重复多次。数据集中9个演员（演员2,3,5,6,7,8,9，10和22)组成测试集，剩下的16个演员平分为训练集和验证集。实验硬件环境：Linux，Intel (R) Xeon(R) CPU E5-2620 v2@2. lGHz，62. 9G 内存，IT 硬盘。代码运行环境是：MATLAB 2013a。
[0039] 参见图3所示，给出了 KTH上拳击行为在不同尺度上的运动信息，每一列对应该视频中的不同帧，从图中可知，随着尺度(这里用F表示)不断变大，背景信息被不断抑制，目标轮廓越来越模糊，不同尺度显示了目标不同的运动信息，选择不同的尺度进行融合更有利于行为的表达。
[0040] 参见图4和5所示，分别为两层TS-DBN模型在卷积层第5个滤波器下第2个演员进行拳击、拍手、挥手、慢跑、跑步和行走行为的时间域特征映射和空间域特征映射，每一列对应时间维的输出。从图中可以看出对于不同的行为，时间域CRBM和空间域CRBM的响应位置是不一样的，CRBM学习到的特征很好的区分了不同的行为。
[0041] 为了验证不同池化区域对行为识别性能的影响，本实施例采用不同池化比率构建三级金字塔，生成空间大小分别为的特征，KTH数据库上每类行为的识别率以及所有类别的平均识别率参见图6所示。从图中可以发现，池化比率值不能设置的太大使得学习到的特征过小，这样就无法进行合理区域的特征概括从而降低行为的识别率。在池化比率值合适的情况下，轻微改变池化比率的大小对行为识别的结果影响不大。另外，在不同池化区域下，每类行为的识别率是不太一样的，不同的区域对于不同的行为有一定的偏向性，这也使得之后金字塔多级特征的稀疏编码融合更合理化了。
[0042] 关于稀疏编码字典中基向量的个数和稀疏程度对行为识别率的影响，参见图7所不。从图中可以看出，当稀疏度识别率最尚，而字典数目为130的时候识别率最尚，最尚的识别率达到了 89. 4%。当字典数目小于100的时候识别率变化比较大，字典数目大于100之后识别率的变化相对平缓，所以特征提取过程中稀疏编码的字典数目不能设置的太小。对于稀疏度的设置不能太大也不能太小，太小使得学习的特征不够精细，太大则会过学习，不利于行为特征的分类。
[0043] 表2在KTH数据库进行了稀疏金字塔池化策略与概率最大值池化策略的比较。本实施例训练了两层的时空置信网络，首先是时间域进行特征学习，然后才是空间域的特征学习，池化策略仅改进最后一层空间CRBM的，分别比较了概率最大值池化、金字塔池化以及稀疏金子塔池化，同时也引入了多尺度的输入进行了样本数据的扩充。从表2中可以发现相比于单一尺度的特征学习，多尺度的输入都可以学习到更丰富的特征，多尺度特征更利于行为识别的分类；稀疏的金字塔池化策略是要优于传统的概率最大池化策略的；而相比于三层的网络，从横向宽度上进行的金字塔池化策略，其识别效果毫不逊色于更深一层的深层网络结构。而相比于金字塔池化策略，通过稀疏编码进行高层特征的融合，其识别效果显然要更好。
[0044] 表2稀疏金字塔池化与概率最大值池化的比较
表3给出了 KTH数据库上使用不同方法的识别率比较结果，从中可以发现自动学习的特征在行为识别领域可以获得与人工设计特征相匹配的识别率，与传统的时空深度置信网络相比，本发明的方法提高了 2. 8%，与其它的深度学习模型相比，本发明只进行了两层的模型训练，而且只将输入视频的前100帧作为模型的输入，所以实验结果相较于其它的学习方法要差一点。但在某些类别上，本发明提出的模型还是显示了其优越性，比如拳击类本文的识别率达到了 100%，这是以前的方法无法达到的；之前的行为特征对于慢跑和跑步这两类的区分能力都不高，TS-DBN模型首先进行的时间域特征学习很好的区分了这两个类别；对于行走类别识别率不高，可能是因为时间域CRBM池化层输出太小从而无法与慢跑和跑步类别区分开。
[0045]表3在KTH数据库上使用不同方法识别率的比较
【主权项】
1. 一种基于稀疏时空特征的行为识别方法，其特征在于，包括如下步骤：步骤一、对于输入视频采用时空Gabor与原输入视频进行卷积构造尺度空间；步骤二、将不同尺度的表达作为时空深度置信网络不同通道的值，联合学习多尺度的特征；步骤三、对行为特征进行识别分类。2. 根据权利要求1所述的一种基于稀疏时空特征的行为识别方法，其特征在于：所述步骤一中，从7个不同尺度的表达中，根据不同尺度表达间信息的损失，基于熵选择3个损失最小的尺度作为输入视频的多尺度表达。3. 根据权利要求1所述的一种基于稀疏时空特征的行为识别方法，其特征在于：所述步骤二中，对于多尺度的输入首先采用卷积限制玻尔兹曼机进行时间维的特征学习，然后采用空间维的卷积限制玻尔兹曼机学习不同大小的多级特征输出。4. 根据权利要求3所述的一种基于稀疏时空特征的行为识别方法，其特征在于：将所述卷积限制玻尔兹曼机的池化层的输出扩充为多级较小的特征，采用稀疏编码进行所述多级特征的融合。5. 根据权利要求1所述的一种基于稀疏时空特征的行为识别方法，其特征在于：所述步骤三中采用支持向量机进行行为分类，所述支持向量机的核函数为径向基核函数。
【专利摘要】本发明公开了一种基于稀疏时空特征的行为识别方法，包括如下步骤：步骤一、对于输入视频采用时空Gabor与原输入视频进行卷积构造尺度空间；步骤二、将不同尺度的表达作为时空深度置信网络不同通道的值，联合学习多尺度的特征；步骤三、对行为特征进行识别分类。本发明通过尺度空间的构建输入深度网络联合学习多尺度的特征，提高行为识别的性能，针对池化操作的信息损失问题，引入空间金字塔的思想，对池化输出进行多级扩充，并结合稀疏编码进行金字塔多级特征的融合，降低了池化层输出的特征维度，进一步改进了原有网络的性能，提高了行为识别率。
【IPC分类】G06K9/00, G06K9/62
【公开号】CN104933417
【申请号】CN201510362048
【发明人】龚声蓉, 王露, 刘纯平, 王朝晖, 朱桂墘, 葛瑞
【申请人】苏州大学
【公开日】2015年9月23日
【申请日】2015年6月26日

完整全部详细技术资料下载

当前第3页1 2 3