基于行为部件时空关系的行为识别方法与流程

文档序号：14911736发布日期：2018-07-10 23:36阅读：250来源：国知局

本发明属于视频图像处理技术领域，特别涉及一种人体行为识别方法，可用于视频监控和安全防御。

背景技术：

近年来，人体行为识别与视频分类日益重要的学术价值、经济效益和社会价值引起了众多学者的普遍关注和青睐，成为计算机视觉领域具有挑战性的研究课题，已成功应用于视频摄像监控、多媒体语义标注与索引、行人跟踪和人机互动等诸多领域。

随着行为识别领域研究工作的不断深入，海量视频异构数据的陆续涌现，研究者发现，底层局部特征对于行为视频的描述能力非常有限，而较大行为类内变化以及复杂背景等，使得底层特征对视频中行为的表示能力和判别能力受到较大程度的限制。为此，众多学者致力于挖掘底层新特征，并在此基础上提炼和挖掘包含更丰富信息的行为部件表示，取得了不菲的研究成果。

目前已提出的部件构建方法主要有：

(1)Q.Zhao,H.I.Horace.Unsupervised approximate-semantic vocabulary learning for human action and video classification[J].Pattern Recognition Letters,2013,Vol.34,No.15,pp.1870-1878.文章提出了一种无监督的上下文谱聚类框架以获取行为视频的部件表示，语义相近的视觉单词能够被划分在同一个聚类簇中，从而增强了聚类方法的精确度，然而该方法并没有对部件的纯粹性作进一步的约束，使得部件的表达能力得不到有效保证。

(2)F.Chen,N.Sang,C.Gao,et al.Discovering distinctive action parts for action recognition[C].Image Processing(ICIP),2014IEEE International Conference on.IEEE,2014:1520-1524.文章通过从训练视频中学习和自动挖掘判别性部件检测器，并利用白化的HOG3D特征和部件检测器进行聚类，但是忽略了人体行为部件间的结构关系，对部件间的关系表达不完整，而这些部件间的关系对于行为识别来说是非常重要的属性。

技术实现要素：

本发明目的在于针对上述已有技术的不足，提出了一种基于行为部件时空关系的行为识别方法，以充分利用人体行为部件之间的结构关系，获取行为部件及部件间的时空关系，从而获取具有较强的表达性和判别性的特征表示，提高行为识别的准确率。

本发明的技术思路是：通过对行为视频提取稠密轨迹，计算HOG和HOF特征，并串接作为底层特征实现层次聚类，以获取行为部件；在行为部件基础上，构造行为视频的行为部件表示，并进一步计算行为部件间的时空交互关系描述子；结合行为视频的行为部件表示和行为部件间的时空交互关系描述子，获取更丰富的行为表示，以实现行为识别。

根据上述思路，本发明的技术方案包括如下：

(1)对行为视频提取稠密运动轨迹，得到轨迹点的3D坐标，并计算稠密轨迹的方向梯度直方图HOG和光流方向直方图HOF，作为底层特征；

(2)利用步骤(1)获得的底层特征进行层次聚类，以获取行为部件；

(3)对获取的行为部件训练分类器，获取部件分类器集合SVM_Set，进一步获取行为部件表示GFeat；

(4)计算行为部件之间的时空交互关系：

4a)挖掘成对行为部件的相对位置关系和相对运动关系，用Xu,v表示成对行为部件(Xu,Xv)，其中，Xu和Xv分别表示两个不同的行为部件，利用如下公式计算Xu,v的相对空间位置Lq,r(t)：

其中，Tq为第q条底层轨迹，Tr为第r条底层轨迹，和分别是Tq和Tr在时刻t处的运动角点坐标，o(Tq,Tr)表示Tq和Tr的时域重叠区间；

4b)利用如下公式计算成对行为部件Xu,v的相对运动Mq,r(t)：

Mq,r(t)＝Lq,r(t)-Lq,r(t-1),t∈o(Tq,Tr)，

其中，Lq,r(t)表示第t时刻Xu,v的相对空间位置，Lq,r(t-1)表示第t-1时刻的Xu,v的相对空间位置；

4c)量化编码Xu,v的相对位置Lq,r(t)和相对运动Mq,r(t)，以获取Xu,v的相对位置特征和相对运动特征

4d)串接相对位置特征和相对运动特征得到Xu,v的时空交互关系直方图描述子：最终获得所有成对行为部件的时空交互关系直方图描述子：F^st；

4e)将时空交互关系直方图描述子F^st划分成正负样本集合，训练获取所有成对行为部件的时空交互关系分类器集合SVM_Set_ST；

4f)将各行为视频的时空交互关系直方图描述子输入到SVM_Set_ST中，获取时空交互关系描述子M^st＝[hi,1,...,hi,n,...,hi,N]^T，其中，hi,n表示第c类行为视频V^c在第n个时空交互关系分类器中的判分值，N表示所有成对行为部件的数目。

(5)将数据集中所有行为视频划分为训练集和测试集，将视频的行为部件表示GFeat和行为部件的时空交互关系描述子M^st分别作为隐变量，根据隐变量GFeat和M^st，构造LSVM分类器的权系数向量目标函数，采用坐标下降算法对LSVM分类器进行训练，最后把测试集中行为视频的行为部件表示和行为部件的时空交互关系描述子输入到训练好的LSVM分类器中，进行行为识别。

本发明与现有技术相比具有以下优点：

1)本发明在行为部件的基础上，获取了成对行为部件间的时空交互关系描述子，即行为部件间的相对运动和相对位置关系，进一步增强了行为部件的描述能力，最后结合行为视频的行为部件表示和行为部件的时空交互关系描述子，进行行为视频识别，提高了行为识别的准确率。

附图说明

图1是本发明的实现流程图。

具体实施方式

参照图1，本发明的基于行为部件时空关系的行为识别方法，步骤如下：

步骤1，获取行为视频的方向梯度直方图HOG特征和光流方向直方图HOF特征。

通过追踪稠密采样点，获得输入行为视频的稠密运动轨迹，得到轨迹点的3D坐标，同时计算基于稠密轨迹的HOG和HOF特征，并作为行为视频的底层特征。

步骤2，对轨迹的底层特征进行层次聚类，以获取行为部件。

本步骤的具体实现如下：

2a)将行为视频的轨迹作为层次聚类的输入，并将每条轨迹作为一个初始聚类簇，利用轨迹底层特征之间的欧氏距离作为聚类簇之间的距离；

2b)选择最小距离对应的两个聚类簇进行合并，获得一个新的聚类簇；

2c)更新步骤2b)获得的新聚类簇底层特征，并计算新聚类簇与其他聚类簇之间的距离；

2d)重复步骤2b)和步骤2c)，当聚类簇个数达到预先设定值时，停止循环，输出最终的聚类簇，其中每一个聚类簇对应一个行为部件。

步骤3，在步骤2获得的行为部件基础上，获取行为部件表示。

本步骤的具体实现如下：

3a)对获取的行为部件训练分类器，获取部件的分类器集合SVM_Set；

3b)将行为视频的底层轨迹特征输入到部件分类器集合SVM_Set中，获取其在每类行为视频的行为部件下的判分和；

3c)串接所有行为类别下的判分和，得到行为视频的行为部件表示GFeat＝[sc,1,...,sc,k,...,sc,K]^T，sc,k表示行为视频在第k类行为中所有行为部件的判分和，表示第c类任一行为视频，K表示行为类别总数，T表示矩阵转置运算。

步骤4，在步骤2获得的行为部件基础上，计算行为部件之间的时空交互关系描述子。

本步骤的具体实现如下：

其中，Tq为第q条底层轨迹，Tr为第r条底层轨迹，和分别是Tq和Tr在时刻t处的运动角点坐标，o(Tq,Tr)表示Tq和Tr的时域重叠区间；

4b)利用如下公式计算成对行为部件Xu,v的相对运动Mq,r(t)：

Mq,r(t)＝Lq,r(t)-Lq,r(t-1),t∈o(Tq,Tr)，

其中，Lq,r(t)表示第t时刻Xu,v的相对空间位置，Lq,r(t-1)表示第t-1时刻的Xu,v的相对空间位置；

4c)在获得Xu,v的相对位置Lq,r(t)和相对运动Mq,r(t)基础上，将一个完整的圆均等分成8个部分，每个部分占据45°，代表一个方向，将Xu,v的相对位置Lq,r(t)和相对运动Mq,r(t)分别在8个不同方向上进行量化编码，得到Xu,v的相对位置特征和相对运动特征

4d)串接相对位置特征和相对运动特征得到Xu,v的时空交互关系直方图描述子：最终获得所有成对行为部件的时空交互关系直方图描述子：F^st；

4e)将时空交互关系直方图描述子F^st划分成正负样本集合，训练获取所有成对行为部件的时空交互关系分类器集合SVM_Set_ST；

步骤5，训练LSVM分类器，进行行为识别。

5a)将数据集中所有行为视频划分为训练集和测试集，将视频的行为部件表示GFeat和行为部件的时空交互关系描述子M^st分别作为隐变量；

5b)根据两个隐变量GFeat和M^st构建LSVM分类器目标函数如下：

其中，表示为权系数向量，Φ(Vn,y)表示为行为视频Vn与行为类别y之间关系的联合特征向量，y表示为行为视频类别标签；

5c)根据LSVM分类器目标函数，利用如下目标函数学习第c类行为视频的权系数向量Wc：

其中，yc∈{-1,+1}是第c类行为训练集中的行为视频的二进制标签，ξ是一个约束系数，用来控制正则项的相关权重；

5d)采用坐标下降算法对LSVM分类器进行训练，最后把测试集中行为视频的行为部件表示和行为部件的时空交互关系描述子输入到训练好的LSVM分类器中，进行行为识别。

为了验证本发明的有效性，在常用的人体行为数据库KTH和UCF-Sports上，利用本发明进行人体行为识别；

识别结果为：在数据库KTH上的识别率为96.16％，在数据库UCF-Sports上的识别率为95.17％。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基础于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：同鸣;郭志强;陈逸然;田伟娟
技术所有人：西安电子科技大学
我是此专利的发明人

上一篇：手语翻译方法、移动终端及计算机可读存储介质与流程
上一篇：制砖模具快速夹紧装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。