基于部件因果关系的视频行为识别方法与流程

文档序号:14871827发布日期:2018-07-07 00:41阅读:389来源:国知局

本发明属于视频处理技术领域,特别涉及一种视频行为识别方法,可用于人机交互。



背景技术:

视频人体行为识别是计算机视觉研究领域的关键问题,随着社会媒体共享的快速发展,人们需要及时处理大量的多媒体数据,尤其是包含人体行为的视频数据,人体行为识别作为视频分析和理解的关键技术,重要的学术价值、广泛的应用前景以及潜在的商业价值和社会价值,使其成为计算机视觉研究的研究热点。早期的行为识别方法通常只专注于底层特征的优化设计,虽取得了一定成就,但通常只表示了行为视频的底层视觉信息,表达能力非常有限,而中层特征涵盖了丰富的语义信息,越来越受到研究者的重视和青睐。目前比较主流的中层语义的提取方法主要包括以下两种,一种是基于深度学习的中层语义挖掘,另一种是基于部件的中层语义挖掘。基于深度学习的中层语义挖掘虽能挖掘到更抽象的特征信息,但需要较大的计算消耗。然而,以上两种方法构建的中层语义,虽然对底层特征进行了较好的提炼和总结,但并没有进一步挖掘中层语义间存在的较为复杂的交互关系,如因果关系等,而这种关系能够增强中层语义的表现力,进一步提高行为识别的准确率。

目前已提出的基于部件的中层语义表示方法主要有以下两种:

(1)j.zhu,b.wang,x.yang,w.zhang,z.tu等人于2013年在ieeeinternationalconferenceoncomputervision提出了“利用actons进行行为识别的方法”,这种方法将池化思想引入中层语义中,通过对轨迹描述子的局部软量化编码特征进行池化,获取中层语义actons,实现了有效的行为识别,然而,该方法忽略了actons之间的因果相互关系,使中层语义的表达能力和识别效果受到限制。

(2)lant,zhuy,roshanzamir等人于2015年在proceedingsoftheieeeinternationalconferenceoncomputervision提出了“一种利用中层行为元素进行行为识别的方法”,这种方法在轨迹特征的基础上,分别在时间和空间上对行为进行精细分割,使用线性svm对谱聚类后获得的聚类簇进行判别式约束,筛选出差异性较大的聚类簇作为中层行为元素。该方法虽然考虑了中层行为元素之间的层次关系,但未准确描述各个中层行为元素之间存在的因果关系,阻碍了行为识别结果的进一步提高。



技术实现要素:

本发明目的在于针对上述已有方法的不足,提出一种基于部件因果关系的视频行为识别方法,通过挖掘部件之间的因果关系,增强中层语义表示对行为的描述能力,进一步提高视频行为识别的准确率。

为实现上述目的,本发明包括:

(1)对所有行为视频提取稠密轨迹,获取所有轨迹点的3d坐标,并构建方向梯度直方图hog和光流方向直方图hof,将hog和hof进行串接后作为轨迹的底层特征;

(2)利用轨迹点的3d坐标,对轨迹进行k-means聚类,以获取行为部件;

(3)将行为视频v所属行为类别中的任意两个不同的行为部件表示为xu和xv,构成成对的部件表示(xu,xv),利用xu和xv对应轨迹的底层特征,来训练(xu,xv)对应的部件分类器获取行为视频v在下的判分score(v,(xu,xv)),其中,u,v∈[1,b]且u≠v,b为行为视频v所属行为类别中的部件个数;

(4)利用格兰杰因果关系方法,计算两个部件的因果关系比率,其中包括xu对xv的因果关系比率cru,v,以及xv对xu的因果关系比率crv,u,并计算视频v在成对部件(xu,xv)下,xu对xv的因果关系强度以及xv对xu的因果关系强度

(5)将视频v在其所属类别中,所有成对部件下的因果关系强度进行串接,得到视频v的部件间因果关系描述子mfeat_cas(v),并将其作为中层语义表示;

(6)将获取的中层语义表示进行pca降维,获取降维后的中层语义表示;

(7)将所有行为视频分为训练集和测试集,利用训练集对应降维后的中层语义表示,训练中层语义的svm分类器,将测试集对应降维后的中层语义表示,输入到训练好的svm分类器中进行测试,获取行为识别的结果。

本发明与现有技术相比具有以下优点:

本发明通过获取行为部件,将身体各个部位的运动分离出来,不仅对各个部件的运动分别进行了描述,而且考虑了各个部件之间存在的因果关系,能够获取更加丰富的语义信息,提高了对视频行为的描述能力,进一步提高了行为识别的准确率。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图,对本发明的实施进一步详细描述。

参照图1,本发明的基于部件因果关系的行为识别方法,步骤如下:

步骤1,对所有行为视频提取稠密轨迹,并获取所有轨迹点的3d坐标和轨迹的底层特征。

本步骤使用wangh等人于2013年在proceedingsoftheieeeinternationalconferenceoncomputervision上发表的actionrecognitionwithimprovedtrajectories一文中的方法来提取稠密轨迹,其步骤如下:

(1.1)对视频进行稠密采样获取特征点,对特征点进行跟踪,得到长度为l=15的稠密轨迹,获取所有轨迹点的3d坐标;

(1.2)以轨迹为中心,在轨迹周围提取n×n像素的子空间区域,得到随轨迹弯曲的轨迹立方体,n=32;

(1.3)在得到的轨迹立方体中,分别提取方向梯度直方图hog和光流方向直方图hof特征,将这两个特征进行串接后作为轨迹的底层特征。

步骤2,分别对每类视频的轨迹进行k-means聚类,以获取行为部件。

在聚类过程中,为了保证轨迹之间的空间位置相近,采用空间距离进行相似性度量,具体步骤如下:

(2.1)对于每类视频中的任意两条轨迹tf和tm,其时域重叠区间为o(tf,tm),轨迹tf与tm间的空间距离为dfm计算如下:

其中,其中tf表示第f条轨迹,tm表示第m条轨迹,分别表示轨迹tf和tm在第t帧上的轨迹点坐标,avg(·)表示求取平均值,||·||2表示求取欧氏距离,f,m∈[1,b]且f≠m,b为轨迹的数目;

(2.2)利用轨迹间的空间距离,对每类视频的轨迹进行k-means聚类,获取k个聚类簇,也就是k个行为部件。

步骤3,训练成对部件(xu,xv)对应的分类器获取视频v在下的判分score(v,(xu,xv))。

将视频v所属类别中的任意两个行为部件表示为xu和xv,构成的成对部件表示为(xu,xv),利用xu和xv所对应的轨迹底层特征,训练成对部件(xu,xv)对应的分类器并获取视频v在下的判分score(v,(xu,xv)),代表部件xu和xv同时在视频v中发生的概率,其中,u,v∈[1,b]且u≠v,b为视频v所属类别中的部件个数。

步骤4,利用格兰杰因果关系方法,计算部件xu对xv的因果关系比率cru,v,以及xv对xu的因果关系比率crv,u,并计算视频v在成对部件(xu,xv)下xu对xv的因果关系强度以及xv对xu的因果关系强度

在一个运动周期内,运动主体的各运动部件之间通常具有丰富的因果关系,可通过部件间因果关系强度来描述,捕捉这种关系能够更好地描述视频行为,具体步骤如下:

(4.1)根据格兰杰因果关系方法,将两个信号分别表示为pt和qt,对pt进行预测有以下两种方式,一种方式是,只利用pt过去的样本来预测pt,表示如下:

另一种方式是,利用pt和qt过去的样本共同预测pt,表示如下:

其中,b表示只利用pt过去的样本来预测pt时,pt过去的样本对应的预测系数矩阵;

e表示利用pt和qt过去的样本共同预测pt时,pt过去样本对应的预测系数矩阵;

r表示利用pt和qt过去的样本共同预测pt时,qt过去样本对应的预测系数矩阵;

ε1表示只利用pt过去的样本来预测pt产生的预测误差,其方差为σ1;

ε2表示利用pt和qt过去的样本共同预测pt产生的预测误差,其方差为σ2;

表示pt延时了h的m阶信号,表示qt延时了h的m阶信号,即:

其中,m=3,h=3;

(4.2)利用ε1的方差σ1和ε2的方差σ2,来计算qt对pt的因果关系比率crq,p=trace(∑1)/trace(∑2),trace(·)表示矩阵求迹;

(4.3)分别对部件xu和xv内的轨迹求平均,得到平均轨迹视为两个信号,利用(4.1)~(4.2)中的方法,分别计算的因果关系比率以及的因果关系比率

(4.4)利用以下公式,分别计算部件xu对xv的因果关系比率cru,v,以及xv对xu的因果关系比率crv,u:

其中,nu表示部件xu中轨迹的数目,nv表示部件xv中轨迹的数目;

(4.5)利用以下公式,分别计算视频v在成对部件(xu,xv)下,xu对xv的因果关系强度以及xv对xu的因果关系强度

步骤5,将视频v在其所属类别中所有成对部件下的因果关系强度进行串接,得到视频v的部件间因果关系描述子mfeat_cas(v),并将其作为中层语义表示。

步骤6,将获取的中层语义表示进行pca降维,获取降维后的中层语义表示。

常见的降维方法有pca、ica、lda,lle和kda等,本实例选用pca进行降维。

步骤7,利用所有视频降维后的中层语义表示,获取行为识别的结果。

(7.1)将所有的视频分为训练集和测试集,利用训练集对应降维后的中层语义表示,来训练中层语义的svm分类器,在训练过程中学习svm分类器的参数,得到训练好的svm分类器;

(7.2)将测试集对应降维后中层语义表示,输入到训练好的svm分类器中进行测试,获取行为识别的结果。

本发明的效果可通过以下实验结果进一步说明;

用本发明在标准人体行为数据库kth和ucf-sports上进行行为识别实验,能够分别得到95.65%和95.33%的识别正确率,实验结果证明了本发明的有效性。

以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都有可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是,这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1