一种基于特征优选与多种特征融合的人体行为识别方法

文档序号：25088552发布日期：2021-05-18 19:10阅读：97来源：国知局

1.本发明涉及图像处理、视频处理、模式识别等领域，具体的说是一种基于特征优选与多种特征融合的人体行为识别方法。

背景技术：

2.人类行为识别有着广泛的应用前景，如智能视频监控、视频摘要、智能接口、人机交互、体育视频分析、视频检索等。通常，行为识别涉及两个重要问题，其一是如何从原始视频数据中提取有用的运动信息，其二是如何建立运动参考模型，使训练和识别方法能有效地处理空间和时间尺度变化的类内类似行为。行为识别可以利用各种因素，如人体姿势、光流、运动轨迹或轮廓、时空特征等，近年来，一些适合于行为识别的特征算法被提出，如局部二值模式(lbp)、方向梯度直方图(hog)、尺度不变特征变换(sift)等方法。单一特征往往受到人体外观、环境、摄像机设置等因素影响，无法准确全面地描述人体运动，从而限制了行为识别准确度的提高。dalai等提出将表征图像局部区域内结构信息的hog特征与 lbp特征进行融合的算法中，可以有效提高识别率，但同时存在hog特征维度过大，复杂度高，耗时长等问题。所以，如何在提高识别率的同时又将计算复杂度控制在一定范围内，就成为了当前研究行为识别的焦点之一，而如何降低特征的维度，减少算法运行时间，降低复杂度就需要用尽可能少的维数提取足够多的有效特征，将高维数据转化为低维数据分析，避免出现“维度灾难”问题。

技术实现要素：

3.本发明提出了基于特征优选与多种特征融合的人体行为识别方法，使用 hog
‑
surf融合特征提取人体行为特征，并通过对特征的二次降维方法进行特征的优选来识别人类行为，实验结果证明了提出方法的有效性和鲁棒性。
4.为了实现上述目的，本发明是通过以下技术方案来实现的：
5.本发明是种基于特征优选与多种特征融合的人体行为识别方法，包括以下步骤：
6.步骤1，读取视频帧图像并进行去噪预处理，采用高斯滤波器对图像序列进行降噪处理，增强图像质量；
7.步骤2，对完成预处理的视频帧图像分别提取hog特征与surf特征；
8.步骤3，利用pca算法对hog特征进行降维处理；
9.步骤4，对pca降维后的hog特征应用pearson相关系数、spearman相关系数和kendall系数进行二次降维处理；
10.步骤5，将surf特征向量与二次降维后的hog特征向量进行特征融合，利用支持向量机进行分类识别。
11.本发明的进一步改进在于：步骤2中提取hog特征具体过程为：s2.1.1,按照差分公式计算图像梯度大小矩阵和梯度方向矩阵，将360度(2π)分割成n个bins，每个bin包含
度s2.1.2，根据每个像素点的梯度方向，找到对应的bin，并且在bin值所在的维度加上梯度大小，得到一个n维的直方图；s2.1.3，对图像进行分块处理，得到许多个小cells，针对每个小cell，统计其梯度方向直方图，将多个小cell构成一个block，每个block的梯度方向直方图为每个cell的梯度方向直方图的级联，级联所有block的梯度方向直方图得到整个图像的hog特征直方图。
12.本发明的进一步改进在于：步步骤2中提取surf特征的具体过程为：s2.2.1，采用hessian矩阵行列式来检测特征点；s2.2.2，构建图像的尺度空间，在尺度空间中实现特征点定位；s2.2.3，确定特征点的方向；s2.2.4，构建surf特征向量，在特征点周围取一个4
×
4的矩形区域块,每个子区域统计25个像素的水平和垂直方向的haar小波特征，把haar小波值作为每个子块区域的特征向量,所以一共有4
×4×
4＝64维向量作为surf特征向量。
13.本发明的进一步改进在于：步骤3中将高维n维特征映射到低维k维特征上，具体过程如下：假设有m个样本，对应特征向量为x
i
,x
i
的维数为n，则由向量构成的样本可表示为一个n行m列的矩阵x＝{x1,x2...,x
m
}，则该样本的平均向量为求出协方差矩阵c为对矩阵c求特征值与对应的特征向量，然后将特征向量按对应特征值大小从上到下按行列排列成矩阵，取前k行组成矩阵p，则y＝px即为降维到k维后的矩阵。
14.本发明的进一步改进在于：步骤4具体过程为：s4.1，采用sobel算子检测提取图像的边缘，计算边缘像素梯度幅值、梯度方向，将360度(2π)分割成n个bins，每个bin包含度然后根据像素点的梯度方向，找到对应的bin，并且在bin值所在的维度加上梯度幅值，得到一个n维的边缘方向直方图；s4.2，通过相关系数公式计算帧图像间的边缘方向直方图相似度；s4.3，根据相似度值的大小确定特征维度进行特征筛选，实现二次降维。
15.本发明的进一步改进在于：步骤5具体为：s5.1，对视频中存在人体动作的部分进行分割：提取每一帧的surf特征，将有效特征数大于一定数量的帧视为有效帧；设定一个时间窗口，在有效帧之间进行特征点的匹配，对相邻两帧之间进行特征匹配，将与前后两帧的匹配特征均大于一定数量的帧视为关键帧，即，匹配特征的置信概率大于90％；若在时间窗口之内，关键帧数量大于设定好的阈值，则将该窗口分割出来，作为一个视频片段；s5.2，对每个分割好的视频片段计算特征，对片段内每帧计算hog特征，并进行降维后，将特征串联，同时对每帧计算surf特征，取每帧前n个最显著的特征点，并将其转换为特征向量，将特征向量串联后，再与降维的hog特征串联，形成分类所需的融合的特征向量； s5.3，采用支持向量机svm进行训练识别，svm采用rbf核函数
16.本发明的有益效果是：本发明结合了经pca+pearson等相关系数的降维技术优化的hog特征和表征图像兴趣点的surf特征，通过二次降维和特征融合技术，去除冗余特征，
降低计算的复杂度，提高识别的准确率，具有超越生成模型的优势。本发明不仅能够准确地识别测试数据集上随尺度、位置、轮廓等人员变化的人类行为，而且对噪声和其它影响因素鲁棒性强，具有很好的实用性。
附图说明
17.图1是行为识别流程示意图。
18.图2是hog特征提取算法流程示意图。
19.图3是surf特征提取算法流程示意图。
20.图4是pca的分类准确率折线图。
21.图5是三种降维方法的分类精度对比图。
22.图6是不同算法分类精度比较图。
具体实施方式
23.以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。
24.下面结合附图对本发明的技术方案做进一步的详细说明：
25.本发明是一种基于特征优选与多种特征融合的人体行为识别方法，包括以下步骤：步骤1，读取视频帧图像并进行去噪预处理，采用高斯滤波器对图像序列进行降噪处理，增强图像质量；
26.步骤2，对完成预处理的视频帧图像分别提取hog特征与surf特征；
27.其中，步骤2中提取hog特征具体过程为：s2.1.1,按照差分公式计算图像梯度大小矩阵和梯度方向矩阵，将360度(2π)分割成n个bins，每个bin包含度s2.1.2，根据每个像素点的梯度方向，找到对应的bin，并且在bin值所在的维度加上梯度大小，得到一个n维的直方图；s2.1.3，对图像进行分块处理，得到许多个小cells，针对每个小cell，统计其梯度方向直方图，将多个小cell 构成一个block，每个block的梯度方向直方图为每个cell的梯度方向直方图的级联，级联所有block的梯度方向直方图得到整个图像的hog特征直方图；步骤2中提取surf特征的具体过程为：s2.2.1，采用hessian矩阵行列式来检测特征点；s2.2.2，构建图像的尺度空间，在尺度空间中实现特征点定位；s2.2.3，确定特征点的方向；s2.2.4，构建surf特征向量，在特征点周围取一个4
×
4的矩形区域块,每个子区域统计25个像素的水平和垂直方向的haar小波特征，把 haar小波值作为每个子块区域的特征向量,所以一共有4
×4×
4＝64维向量作为 surf特征向量。优选的，提取hog特征，如图2所示，具体过程如下：
28.(1)使用一维梯度模板[
‑
1,0,1]与[1,0,
‑
1]
t
计算x轴和y轴方向的梯度g
x
、g
y
；
[0029]
(2)实验中采用160
×
120像素的视频帧图片，将图像划分为若干个8
×
8像素大小的cell，将每个cell的梯度方向平均划分为9个区间(bin)，统计每个cell中的梯度直方图信息，生成一个9维向量；
[0030]
(3)组合2
×
2个cell形成一个block像素，这样一个block就形成36维的特征向量，
再利用l2
‑
范数对整个block进行归一化处理，得到最终的特定向量；
[0031]
(4)将所有block的特征进行串联，得到19
×
14
×4×
9＝9576维的hog特征向量；
[0032]
提取surf特征，如图3所示，具体过程如下：
[0033]
(1)构建hessian矩阵，生成所有兴趣点，每一个像素点都可求出一个hessian 矩阵
[0034][0035]
其中l(x,δ)是图像i经过高斯滤波器和二阶微分在点x＝(x,y)取值。hessian矩阵为
[0036]
det(h)＝d
xx
*d
yy
‑
d
xy
*d
xy
[0037]
det(h)表示点x附近区域的的盒式滤波响应值，surf使用盒式滤波器 (box filter)来近似高斯滤波器,卷积运算后的值分别为d
xx
、d
yy
、d
xy
，当判别式取得局部极大值时，判定当前点是比周围邻域内其他点更亮或更暗的点，定位关键点位置；
[0038]
(2)构建图像尺度空间，进行特征点定位。尺度空间由o组l层组成，同一组间不同层面使用相同尺寸的滤波器；在不同尺度特征点的响应图像上采用邻域非极大值抑制，将每个像素点与二维图像空间和尺度空间邻域内的26个点进行比较，选出特征点候选点；再利用三维线性插值法对候选点进行定位，获得亚像素级别的特征点；
[0039]
(3)确定特征点方向。统计特征点领域内的haar小波特征，即在特征点领域内，统计60度扇形内所有点的水平、垂直haar小波特征总和，总和即为该扇形对应的响应值，将响应值分别加起来，形成矢量，其中最长的矢量方向为最终特征点的主方向。
[0040]
(4)构建surf特征向量。在特征点周围取一个4
×
4的矩形区域块,所取得矩形区域方向是沿着特征点的主方向，每个子区域统计25个像素的水平方向、垂直方向、水平绝对值方向和垂直绝对值方向的haar小波特征.。把haar小波值作为每个子块区域的特征向量，一共有4
×4×
4＝64维向量。
[0041]
步骤3，利用pca算法对hog特征进行降维处理；
[0042]
其中，pca算法的核心思想是通过一个特殊的特征向量矩阵z，将高维n维特征映射到低维k维特征上，具体过程如下：假设有m个样本，对应特征向量为 x
i
,x
i
的维数为n，则由向量构成的样本可表示为一个n行m列的矩阵 x＝{x1,x2...,x
m
}，则该样本的平均向量为求出协方差矩阵c为对矩阵c求特征值与对应的特征向量，然后将特征向量按对应特征值大小从上到下按行列排列成矩阵，取前k行组成矩阵p，则 y＝px即为降维到k维后的矩阵。本实验中，对原始9576维hog特征进行pca 降维后，再经过svm分类识别。
[0043]
步骤4，对pca降维后的hog特征应用pearson相关系数、spearman相关系数和kendall系数进行二次降维处理；通过实验数据对比选择出降维效果最佳的一个方法，从而实现特征优选。具体过程如下：
[0044]
(1)采用sobel算子检测提取图像的边缘，计算边缘像素梯度幅值、梯度方向，将边缘像素方向角均匀的量化为θ1,θ2,...,θ
12
，即将360度分割成12个bins，每个bin包含30度；然后根据像素点的梯度方向，找到对应的bin，并且在bin 值所在的维度加上梯度幅值，得
到一个12维的边缘方向直方图；
[0045]
(2)根据三种相关系数计算帧图像间的边缘方向直方图的相似度，相关系数
[0046][0047]
根据相似度值的大小确定特征维度进行特征筛选，达到二次降维目的；
[0048]
(3)对二次降维的hog特征应用svm分类器训练，进行实验。
[0049]
(4)本发明采用标准数据集kth进行测试训练，该数据集共有600个视频，包含6类动作，每个视频的分辨率为160
×
120，数据集包括光照变化、尺度变化、噪声影响、摄像头抖动等冗余因素影响，可以检测算法的鲁棒性。
[0050]
(5)为了验证pca降维和特征优选二次降维技术在减少特征数量，提高人体动作的分类精度等方面的作用。首先选取特征长度为20～200，步距20的分类精度，然后比较先对9576维的hog特征进行pca降维处理，再经过不同特征长度的pearson或spearman或kendall相关系数后的二次降维处理。实验对比 pca、pca+pearson、pca+spearman、pca+kendall四种降维方法对动作识别率的影响，选取出一组最佳降维的方法：pca+pearspn。对原始9576维hog特征进行pca降维后，再经过svm分类识别后的分类精度如下表所示：
[0051]
表1.pca降维时特征长度对行为分类精度的影响
[0052]
特征长度20406080100120140160180200精度(％)42.581.083.685.385.886.685.287.490.090.1
[0053]
由表1和图4可以看出，经过svm分类识别后发现当特征长度为200时， pca降维后的动作分类精度达到最高，达到90.1％。故本文方法第一次降维是把图像的9576维降至200维，表1的分类结果如图4所示。
[0054]
在上述结果上再做特征选择，在特征长度为5～120，步距为5范围内运用 pearson或spearman或kendall相关系数的特征选择技术，并且比较其分类精度，
[0055]
由图5和表2所示，当特征长度选定为120维时，pca+pearson和pca+spearman两类降维方法的识别率达到最高，分别为94.8％、93.3％； pca+kendall降维在特征长度为65时，分类精度达到最高，为88.4％。由图4 可知，pca降维方法在特征长度为200维时，达到最高分类精度90.1％。因此， pca+pearson和pca+spearman两类降维方法的分类精度均高于pca降维， pca+pearson又高于pca+spearman。故选取pca+pearson降维方法对hog特征进行降维处理，并将降维后的hog特征与surf特征进行融合。
[0056]
步骤5，将surf特征向量与二次降维后的hog特征向量进行特征融合，利用支持向量机进行分类识别。
[0057]
(1)对视频中存在人体动作的部分进行分割，分割方法：提取每一帧的 surf特征，将有效特征数大于一定数量的帧视为有效帧。设定一个时间窗口，实验中取16帧为一个窗口，在有效帧之间进行特征点的匹配，对相邻两帧之间进行特征匹配，将与前后两帧的匹配特征均大于一定数量的帧视为关键帧，其中，匹配特征置信概率大于90％，若在时间窗口之内，关键帧数量大于设定好的阈值，实验中阈值取10，则将该窗口分割出来，作为一个视频片段；
[0058]
(2)对每个分割好的视频片段计算特征，首先对片段内每帧计算hog特征，并进行降维后，将特征串联，同时对每帧计算surf特征，取每帧前n个最显著的特征点，并将其转换
为特征向量，将特征向量串联后，再与降维的hog 特征串联，形成分类所需的融合的特征向量。
[0059]
(3)得到的特征向量输入到支持向量机分类器得到分类结果，得出实验数据进行统计。svm采用rbf核函数
[0060][0061]
使用kth数据库进行实验，如表3所示。数据集包括慢跑、跑步、散步、挥手、拍手、拳击6种不同行为，用来系统地检测行为识别实现的有效性。采用 leave
‑
one
‑
out的交叉验证方法，即对每个动作类，每次随机提取其中的75％个视频当做训练集，剩余的25％作为测试集进行测试。实验结果如表3所示。和其它方法比较实验结果如表4所示。
[0062]
表3.六类动作的分类精度
[0063]
动作散步跑步慢跑拳击拍手挥手精度％95.694.894.697.595.995.6
[0064]
由表3可知，将降维后的hog特征与surf特征进行融合后，输入到svm 之后识别率比之前仅用hog特征进行训练的方法识别率得到了一定的提高，仅用hog特征方法训练识别率最高达到94.8％，而融合特征之后六类动作的平均识别率达到了95.7％。
[0065]
表4.本发明与现有人体动作识别算法分类精度比较
[0066][0067]
由表4和图6可知，本发明采用的特征优选和多种特征融合方法在现有框架中拥有一定的优势，识别率高于经典方法。本发明提供的多种特征融合算法相比单一hog特征算法，更能准确完整的表征人体的动作，识别率也得到了提高。
[0068]
表5.本发明与其他算法计算复杂度比较
[0069][0070]
由表5可知，其他一些经典算法中特征虽然经过pca降维，但是其计算复杂度、运行时间仍很高，达不到高效的地步。本发明采取特征的二次降维算法的时间计算复杂度是其他算法的十分之一不到，在保证行为识别率不降低的前提下很大程度上缩短了运行时间，
提高了动作识别的效率，具有很好的实用性。本发明提出的一种基于特征优选方法，即对hog特征进行二次降维，降低特征维度，减少冗余特征，降低计算复杂度，在一定程度上提高识别精度。同时，将两种单一特征进行融合，使得本发明方法在复杂场景下对摄像机的视角变化、距离变化具有较强的鲁棒性，有利于提高真实环境下行为识别的正确率。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：单义冬;赵君喜;宋琳
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：一种水轮机转轮叶片动水压力分析方法与流程
上一篇：一种制备高性能铁磁性靶材的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。