一种基于ap聚类词袋建模的行为识别方法

文档序号:10471526阅读:514来源:国知局
一种基于ap聚类词袋建模的行为识别方法
【专利摘要】一种基于AP聚类词袋建模的行为识别方法,包括:视频的时空兴趣点检测;对检测得到的所有时空兴趣点使用3D HOG和3D HOF描述子进行描述得到联合的特征向量;对所有的特征向量进行AP聚类生成视觉词典,并用视觉词典重新描述特征向量;用视觉词典描述测试视频的特征向量;用支持向量机对前两步得到的特征进行学习和分类,得到测试视频的行为类别。本发明可以一次性获取合适的视觉词典容量,不需要像传统的词袋模型那样进行多次试验,可以极大地减少聚类时间,且该方法对联合描述的多种局部特征的聚类效果更佳,有利于提高行为识别率。
【专利说明】
-种基于AP聚类词袋建模的行为识别方法
技术领域
[0001] 本发明设及图像处理、视频处理、模式识别等领域,尤其设及基于视频的人体行为 识别领域。
【背景技术】
[0002] 目前,在基于视频的人体行为识别领域,基于局部时空兴趣点的方法因其对各种 干扰都具有较好的鲁棒性而成为目前主流的方法。运种方法通过直接对视频序列进行时空 兴趣点检测并从中提取底层特征来进行行为描述,在分类和识别阶段一般会使用经典的词 袋模型进行行为的建模和分类。为了提高行为识别率,当前许多基于局部特征的行为识别 方法在特征提取阶段一般会联合使用多种时空兴趣点描述子,因此提取的局部时空特征往 往数量庞大。所W,将词袋模型应用于视频处理时,不可能把所有的描述子矢量都看成词 汇,一般将描述视频特征的某些描述子矢量看成是词汇。为了达到运个目的,通常的做法都 是将所有的描述子矢量进行K-Means聚类,聚类后每个簇的中屯、就代表一个词汇。当使用K- Means聚类词袋模型时,为了获取最佳的词典容量进而提高识别率,一般需要进行多次试 验,最后也无法确定得到的词典容量是否最优;且利用K-Means对联合描述的多种局部特征 进行聚类,算法本身是否最佳也值得考虑。

【发明内容】

[0003] 为了克服现有词袋模型在多种局部特征联合描述后建模和行为识别时效率低且 识别率不高的问题,本发明提出一种基于AP聚类词袋建模的行为识别方法。该方法在特征 提取阶段获得多种局部特征后,采用AP聚类算法构建视觉词典,相比传统的基于K-Means聚 类算法的词袋建模方法,该方法不需要进行多次试验就能获取合适的视觉词典容量,且该 方法对联合描述的多种局部特征的聚类效果更佳,有利于提高行为识别率。
[0004] 本发明解决其技术问题所采用的技术方案是:
[0005] -种基于AP聚类词袋建模的行为识别方法,所述行为识别方法包括W下步骤:
[0006] 步骤1,对视频进行兴趣点检测,得到时空兴趣点集;
[0007] 步骤2,对检测得到的所有时空兴趣点使用3D册G和3D册F描述子进行描述得到 联合特征向量;
[000引步骤3,用训练视频的联合特征向量构建词袋模型,对训练视频的联合特征向量进 行AP聚类生成视觉词典,并用视觉词典重新描述特征向量;
[0009]构建词袋模型的过程为:将所有训练视频的特征向量组合在一起,构建一个特征 向量矩阵并进行AP聚类,若获取的聚类中屯、个数为K,则构建了一个具有K个单词的视觉词 典,目化个关键特征,为每个训练视频分配一个K维的向量,且初始化为0,运个向量的每一维 对应着视觉词典中的每个单词,计算每个训练视频对应的特征向量距离K个关键特征的距 离,假定与第i个关键特征的距离最近,则在对应初始化为0的K维向量的第i个位置加1,运 样就得到一个K维的特征向量,并用该特征向量表征输入视频的特征,将所有通过词典重新 描述过的视频对应的特征向量进行标记,在每一类别的最后一维后面添加一维用于标记该 视频的类别;
[0010] 步骤4,使用步骤3聚类生成的词典重新描述测试视频的特征向量;
[0011] 步骤5,使用步骤3得到的训练特征向量训练支持向量机分类器,用已训练的支持 向量机分类器对步骤4得到的测试视频特征向量分类,得到测试视频行为类别。
[0012]进一步,所述步骤1中,采用化egonzio兴趣点检测算法对视频进行兴趣点检测。 [OOU]再进一步,所述步骤帥,使用3D HOG和3D H0F描述子进行联合描述的过程为:令 步骤1得到的时空兴趣点为(x,y,t),其中x,y表示兴趣点在每一帖上的坐标位置,t表示当 前所在帖的时间,W每一个时空兴趣点(X,y,t)为中屯、构建空间立方体化tch,简称P,其大 小为化,W,T),H、W、T分别表示立方体的高、宽、长,分别用3D HOG和3D H0F特征描述子进行 描述,得到时空特征向量L,W空间立方体P的8个顶点为中屯、,分别构建跟P相同大小的空间 立方体Pi,P2,…,P8,同样,分别采用3D册G和3D H0F特征描述子进行描述,得到时空特征向 量Li,L2,· · ·,Ls,将得到的时空特征向量L跟Li,L2,· · ·,Ls拼接在一起,得SJ9个空间立方体的 3D HOG和3D册F特征,作为兴趣点(x,y,t)的时空描述子。
[0014] 本发明的有益效果主要表现在:提出的基于AP聚类的词袋建模方法可W-次性获 取合适的视觉词典容量,不需要像传统的K-Means聚类词袋建模进行多次试验,因而可W极 大地减少聚类时间;该方法对联合描述的多种局部特征的聚类效果更佳,有利于提高行为 识别率。
【附图说明】
[0015] 图1为本发明的一种基于AP聚类词袋建模的行为识别方法流程图。
【具体实施方式】
[0016] 下面结合附图和实施例对本发明作进一步说明。
[0017] 参照图1,一种基于AP聚类词袋建模的行为识别方法,采用目前公认的经典的行为 识别算法测试数据集KTH进行验证,该视频存在光照变化、尺度变化、噪声影响、摄像头抖动 等情况。对数据集中所有视频进行了实验,并与传统的基于K-Means聚类的词袋模型进行对 比,依次取基于K-Means聚类的词袋模型的视觉词典容量大小为300,400,500,800,1000, 1500进行对比。对行为数据集采用leave-one-out的交叉验证方法,即对每个动作类,随机 取其中的80 %个视频当作训练集,剩余的20 %作为测试集。
[0018] 基于AP聚类词袋建模的行为识别方法的实施流程包括5个步骤,如图1所示,具体 过程为:
[0019] 1)、采用化egonzio兴趣点检测算法对视频进行兴趣点检测,得到时空兴趣点集。
[0020] 2)、对检测得到的所有时空兴趣点使用3D册G和3D册F描述子进行描述得到联合 特征向量,最终分别得到训练视频和测试视频的基于时空兴趣点的局部特征集合。具体方 法如下:
[0021] 第2.1步:令步骤1)得到的时空兴趣点为(x,y,t),其中x,y表示兴趣点在每一帖上 的坐标位置,t表示当前所在帖的时间,W每一个时空兴趣点(x,y,t)为中屯、,构建空间立方 体化tch,简称P,其大小为化,W,T),H、W、T分别表示立方体的高、宽、长,并分别采用3D HOG、 3D册F特征描述子进行描述,得到时空特征向量L
[0022]第2.2步:W空间立方体P的8个顶点为中屯、,分别构建跟P相同大小的空间立方体 Pi,P2,…,P8;同样,分别采用3D HOG、3D H0F特征描述子进行描述,得到时空特征向量^, L2, ...,L8;
[00剖第2.3步:将得到的时空特征向量L跟Li,L2,...,L8拼接在一起,得到9个空间立方体 的3D H0G、3D册F特征,作为兴趣点(x,y,t)的时空描述子;
[0024] 第2.4步:确定联合描述子的维度。通常一个化tch包含18个胞体积,胞体积对应二 维册G和二维册F中细胞单元的概念。对于HOG和册F中每个细胞单元的描述,分别选取长度 为4个区间和5个区间的直方图。所W对应的3D册G特征维度为18 X 4 = 72维,3D册F特征维 度为18 X 5 = 90维,单个Patch的联合描述子的维度为72+90 = 162维,特征向量L的维度为 162X9 = 1458维。
[0025] 3)、用训练视频的联合特征向量构建词袋模型,对训练视频的联合特征向量进行 AP聚类生成视觉词典,并用视觉词典重新描述特征向量。具体步骤如下:
[0026] 第3.1步,将所有训练视频的特征向量组合在一起,构建一个特征向量矩阵并进行 AP聚类,若获取的聚类中屯、个数为K,则构建了一个具有K个单词的视觉词典,目化个关键特 征;
[0027] 第3.2步,为每个视频分配一个K维的向量,且初始化为0,其中运个向量的每一维 对应着视觉词典中的每个单词;
[0028] 第3.3步,计算每个训练视频对应的特征向量距离K个关键特征的距离,假定与第i 个关键特征的距离最近,则在对应初始化为0的K维向量的第i个位置加1,运样就得到一个K 维的特征向量;
[0029] 觀.4步,用觀.3步得到的K维特征向量重新表征输入视频的特征;
[0030] 第3.5步,将所有通过词典重新描述过的视频对应的特征向量进行标记,在每一类 别的最后一维后面添加一维用于标记该视频的类别,为接下去的模型训练做准备。
[0031] 4)、使用步骤3)聚类生成的词典重新描述测试视频的特征向量。
[0032] 5)、使用步骤3)得到的训练特征向量训练支持向量机分类器,用已训练的支持向 量机分类器对步骤4得到的测试视频特征向量分类,得到测试视频行为类别。
[0033] 表1为本发明方法与传统的基于K-Means聚类的词袋模型的对比结果,其中IGP值 是一种评价聚类算法性能的指标,该值越大,说明聚类的效果越好。从表1中看出,在传统的 基于K-Means聚类的词袋模型试验中,随着视觉词典容量的增大,IGP的值先增大后减小,相 应的识别率也先提高后降低,也就是最佳的聚类数目即视觉词典容量应该在300~400之间 获得。而采用本发明的AP聚类算法获取视觉词典容量不需反复试验,一次试验即可获得词 典容量大小为379,正好位于区间300~400内,得到的IGP值为0.4145,明显大于使用K- Means聚类算法的IGP值,行为识别率也提高到了 95.75%。从实验运行时间的角度,由表1可 W看出,基于AP聚类词袋建模方法的单次运行时间远小于基于K-Means聚类的方法,运也验 证了 AP聚类算法适合于对高维度和大数据量数据进行聚类。
[0034]
[0036] 表 1
[0037] 为了验证AP聚类算法对联合描述的多种局部特征的聚类效果,运里在相同词典容 量下分别使用AP聚类算法和K-Means聚类算法作为词袋模型的聚类算法,并指定词典容量 大小为379,得到的平均识别率、IGP值和运行时间结果如表2所示。
[00;3 引
[0039] 表 2
[0040] 从表2可见,在相同词典容量下,K-Means聚类算法的IGP值小于AP聚类算法;使用 K-Means聚类算法得到的识别率为95.10%,低于使用AP聚类算法构建词袋模型在相同的词 典容量下的识别率95.75%。运两方面都说明了对于联合描述的多种局部特征,AP聚类算法 本身的聚类效果要优于K-Means聚类算法。
[0041] 因此,采用本发明的基于AP聚类词袋建模的行为识别方法,一方面可W有效减少 试验次数,降低词袋模型的构建时间,获取合理的视觉词典容量从而提高识别率,另一方 面,在相同词典容量下,对于联合描述的多种局部特征,AP聚类算法本身的聚类效果也要优 于K-Means算法,可获得更高的行为识别率。
[0042] 显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可W 有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求 书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。
【主权项】
1. 一种基于AP聚类词袋建模的行为识别方法,其特征在于:所述行为识别方法包括以 下步骤: 步骤1,对视频进行兴趣点检测,得到时空兴趣点集; 步骤2,对检测得到的所有时空兴趣点使用3D HOG和3D HOF描述子进行描述得到联合 特征向量; 步骤3,用训练视频的联合特征向量构建词袋模型,对训练视频的联合特征向量进行AP 聚类生成视觉词典,并用视觉词典重新描述特征向量; 构建词袋模型的过程为:将所有训练视频的特征向量组合在一起,构建一个特征向量 矩阵并进行AP聚类,若获取的聚类中心个数为K,则构建了一个具有K个单词的视觉词典,BP K个关键特征,为每个训练视频分配一个K维的向量,且初始化为0,这个向量的每一维对应 着视觉词典中的每个单词,计算每个训练视频对应的特征向量距离K个关键特征的距离,假 定与第i个关键特征的距离最近,则在对应初始化为〇的K维向量的第i个位置加1,这样就得 到一个K维的特征向量,并用该特征向量表征输入视频的特征,将所有通过词典重新描述过 的视频对应的特征向量进行标记,在每一类别的最后一维后面添加一维用于标记该视频的 类别; 步骤4,使用步骤3聚类生成的词典重新描述测试视频的特征向量; 步骤5,使用步骤3得到的训练特征向量训练支持向量机分类器,用已训练的支持向量 机分类器对步骤4得到的测试视频特征向量分类,得到测试视频行为类别。2. 如权利要求1所述的一种基于AP聚类词袋建模的行为识别方法,其特征在于:所述步 骤1中,采用Bregonzio兴趣点检测算法对视频进行兴趣点检测。3. 如权利要求1或2所述的一种基于AP聚类词袋建模的行为识别方法,其特征在于:所 述步骤2中,使用3D HOG和3D H0F描述子进行联合描述的过程为:令步骤1得到的时空兴趣 点为(x,y,t),其中x,y表示兴趣点在每一帧上的坐标位置,t表示当前所在帧的时间,以每 一个时空兴趣点(x,y,t)为中心构建空间立方体Patch,简称P,其大小为(H,W,T),H、W、I^ V 别表示立方体的高、宽、长,分别用3D HOG和3D HOF特征描述子进行描述,得到时空特征向 量L,以空间立方体P的8个顶点为中心,分别构建跟P相同大小的空间立方体Pi,P2,…,P8,同 样,分别采用3D HOG和3D H0F特征描述子进行描述,得到时空特征向量Li,L2,…,L8,将得到 的时空特征向量L跟Li,L 2,…,L8拼接在一起,得到9个空间立方体的3D HOG和3D H0F特征, 作为兴趣点(x,y,t)的时空描述子。
【文档编号】G06K9/00GK105825240SQ201610216759
【公开日】2016年8月3日
【申请日】2016年4月7日
【发明人】宦若虹, 郭峰, 王楚
【申请人】浙江工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1