基于相似性权值的半监督字典学习的人体行为识别方法_3

文档序号:9376242阅读:来源:国知局
[0085]
[0086]
[0087] 5b3)计算第t次迭代编码矩阵中的每个元素值句^,得到该视频样本的编码 矩阵軻、
[0088] 步骤6 :更新字典,得到每一次的迭代字典。
[0089] 6a)得到求解第t+Ι次的迭代字典D(t+1)的目标函数,如公式〈4>所示:
[0090]
[0091] 其中,||(1>Γ?巧+1)t是对类别字典的相似性约束项,用以增加类别字典间的判 另IJ性,(十表示转置运算,叱+11表示第t+ι次迭代第i类的类别字典,人3是相似性约束项 的参数;
[0092] 6b)通过公式〈4>对第t+Ι次迭代字典D(t+1)中第r个字典原子广 1i进行求导且 令其结果等于零,得到下式:
[0093]
<5>
[0094] 其中,fiTf1) e 对+1>,r e {1,2,…,m},i e {1,2,…,c},局部字典 M 是字典 D(t) 剔除第i个类类别字典后所形成的局部字典,B
1表示转置运算,(·)1表示矩阵的求逆运算,

[0095] 6c)通过计算第t+Ι次迭代字典D(t+1)中的每个字典原子,得到第t+Ι次的迭 代字典D(t+1)。
[0096] 步骤7 :重复步骤(4)-(6),直到目标函数收敛或达到最大迭代次数,得到最终字 典D0
[0097] 二、视频编码
[0098] 步骤8:使用最终字典D,通过优化下式的目标函数得到每个视频样本的编码矩阵 Bg:
[0099]
[0100] 其中,11 · I If表示F范数,M · I U1表示2,1范数,上式第一项是视频样本编码 的重构误差项,I |Bg| I2il是对编码矩阵Bg的组稀疏约束项,γ为组稀疏约束项的参数。
[0101] 步骤9 :将每个编码矩阵向量化,得到每个样本的最终表示编码向量。
[0102] 9a)利用max pooling算法对将步骤7中得到的每个视频样本的编码矩阵Bg的每 一行取最大值:
[0103]
[0104] 其中,g = 1,2, . . .,h,k = 1,2, . . .,m,Bg|ki表示第g个视频样本编码矩阵Bg的第 k行第i列,K表示这个视频的局部特征个数;
[0105] 9b)用编码矩阵每一行的最大值4组成一个列向量:Z" = [H...4,-...2* k = 1,2, ...,m,这样每个视频样本就被表示成一个m维的编码向量Z'
[0106] 三、视频分类
[0107] 步骤10 :利用训练样本组建分类字典焱。
[0108] 设训练样本中有标签样本的个数为N1= w*c,利用训练样本中所有有标签样本的 编码向量组成分类字j
表示第i类分类类别字典,i = 1,2, ...,c,m是字典原子个数,c是字典类别总数。
[0109] 步骤11 :利用分类字典办依次对步骤(10)得到的每个测试样本编码向量#进行 稀疏编码,得到测试样本在分类字典上的编码系数β :
[0110]
[0111] 其中,11 · 112表示向量的2范数,11 · 11 i表示向量的1范数,Tl是用于平衡重建 误差和编码稀疏性的参数,η取值范围为〇~1。
[0112] 步骤12 :利用编码系数依次计算每个测试样本在每个分类类别字典上的残差
[0113]
[0114] 其中,β i是当前测试样本在第i类分类类别字典4上的编码系数。
[0115] 步骤13 :根据测试样本在每个分类类别字典上的残差,对测试样本进行分类。
[0116] 根据测试样本在每个分类类别字典上的残差Q(i),找到产生最小残差的分类类 别字典A,将该分类类别字典爲的类标i作为测试样本的类标,i e & 2, · · ·,W。
[0117] 本发明的效果可以通过以下仿真实验进一步说明:
[0118] 1.仿真条件
[0119] 仿真实验在 AMD A6-6310CPU、主频 I. 80GHz,内存 4G,Windows 7 平台上的 MATLAB 7. 14上进行。本实验分别在Weizmann数据集和KTH数据集上利用本发明方法进行测试,并 与Y. Sun, Q. Liu, J. Tang,D. Tao,Learning Discrimination Dictionary for Group Sparse Representation,Image Processing.文中的有监督字典学习方法进行对比。实验使用的 数据集为Weizmann数据集和KTH数据集。其中:
[0120] Weizmann数据集包含93个视频,所有视频来自于9个不同的人动作,每个人演示 不同的10个行为动作,即c = 10,该数据集视频的部分样本帧截图如图2所示。这些动作 包含:walk, run, jump, side, bend, waveone,wavetwo, p jump, jac,和 skip,由于有一个人演 示了两次walk, run and skip这三种行为,从这个人的walk, run and skip三种行为中分 别去除一个视频样本,使用剩余的90个视频样本进行仿真实验。仿真实验中选择其中5个 人的行为动作作为训练样本,η = 50,剩余的视频样本作为测试样本h-n = 40 ;
[0121] KTH数据集包含600个视频,该数据集视频的部分样本帧截图如图3所示。该 数据集是由25个人在4个不同的场景下完成的,包括6个行为动作,即c = 6,分别是: walk,jog,run,box,hwav and hclap,视频的背景是固定的,只有一小部分视频中视角有一 些轻微的变化。仿真实验中按照作者的建议,选取其中8个人的行为动作作为训练样本, 即第11-18个人的行为动作,η = 192 ;选取其中10个人的行为动作作为测试样本,即第 2, 3, 5-10, 22个人的行为动作,h-n = 216。
[0122] 2.仿真内容与结果
[0123] 仿真1,在Weizmann数据集上使用本发明方法进行识别测试的仿真实验。
[0124] 随着训练样本中的每类有标签样本个数w的变化,用本发明方法和现有的有监督 方法对Weizmann数据集进行识别,其结果如表1。
[0125] 表1.本发明与现有的有监督方法在Weizmann数据集上的分类结果对比
[0126]
[0127] 从表1可以看出,本发明的识别效果整体上是优于现有的有监督方法的。现有的 有监督方法在字典学习时只引入了对有标签样本的重构误差和有标签样本的信息,而本发 明方法不仅引入了对有标签样本的重构误差,还加入了稀疏性约束和类别字典相似性约 束,并且同时引入了无标签样本的信息,从而能够提升测试样本的识别正确率。实验结果证 明,本发明方法能够得到更具判别性的字典,从而可以对人体行为动作进行有效的表示,并 在有效表示的基础上达到了较好的人体行为识别效果。
[0128] 当w = 4时,使用本发明方法对Weizmann数据集分类结果的混淆矩阵图,如图4 所示。从图4中可以看出,本发明方法对Weizmann数据集中的所有人体行为动作均取得了 很好的识别率。
[0129] 仿真2,随着训练样本中的每类有标签样本个数w的变化,使用本发明方法和现有 的有监督方法对KTH数据集进行识别,其结果如表2。
[0130] 表2.本发明与现有的有监督方法在KTH数据集上的分类结果对比
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1