一种用于视频分析的人机交互主题动作挖掘方法

文档序号:8381345阅读:419来源:国知局
一种用于视频分析的人机交互主题动作挖掘方法
【技术领域】
[0001] 本发明涉及一种用于视频分析的人机交互主题动作挖掘方法,属于图像处理技术 领域。
【背景技术】
[0002] 最近几年,网络的日趋流行,更多的视频片段信息呈现出来。相比于文字,视频中 有更多的信息,也更难以人为主观的加以区分和概括。用户如何能根据自身的主观意图去 挖掘视频中的内在信息,是视频动作挖掘的主要难点。
[0003] 已有技术中,文献[Interest point detection and scale selection in space-time, Ivan Laptev and Tony Lindeberg]使用时空兴趣点特征描述子来检测视频 中运动剧烈部分,在动作识别中得到了较为广泛的应用,并结合词袋模型取得了较好的效 果。该方法并不依赖于预处理过程,识别过程对于噪声、背景混乱和光照的改变都具有较好 的鲁棒性,但所识别的动作很难满足不同主观性。已有技术中,文献[User-driven topic modeling based on interactive nonnegative matrix factorization, Choo J,Lee C,Reddy C K,et al. UTOPIAN]公开了一种利用非负矩阵分解方法,通过交互的方式,来挖 掘文本中的主题摘要文字。对于文本信息而言,一段文本有明确的主题摘要,但对于视频来 说,由于用户的主观性,很难找到一个最为精准的主题,不同的用户获得的主题摘要完全依 赖于自身的主观意图。

【发明内容】

[0004] 本发明的目的是提出一种用于视频分析的人机交互主题动作挖掘方法,以针对人 机交互用户的主观意图来挖掘视频中用户感兴趣的主题动作,更具有针对性和准确性。
[0005] 本发明提出的用于视频分析的人机交互主题动作挖掘方法,包括以下步骤:
[0006] (1)提取待分析视频序列的特征矩阵V,具体过程如下:
[0007] (1-1)设待分析视频序列为I (X,y,t),其中X,y为第t帧图像中的像素点在该图 像中的坐标,对视频序列I进行1?斯卷积,得到1?斯卷积后的视频图像序列L :
【主权项】
1. 一种用于视频分析的人机交互主题动作挖掘方法,其特征在于该方法包括以下步 骤: (1)提取待分析视频序列的特征矩阵V,具体过程如下: (1-1)设待分析视频序列为I(X,y,t),其中X,y为第t帧图像中的像素点在该图像中 的坐标,对视频序列I进行_斯卷积,得到_斯卷积后的视频图像序列L:
其中,g(T,)?,/;<,A为时空高斯平滑滤波器:
其中,Oph分别为高斯平滑滤波器中空间和时间维度的标准差; (1-2)根据上述步骤(1-1)的L,按照下式计算得到待分析视频序列的时空二阶矩矩阵u
其中"为L在x方向上的偏导,Ly为L在y方向上的偏导,Lt为L在t方向上的偏导; (1-3)利用上述步骤(1-2)得到的时空二阶矩矩阵y,构造一个判别函数R: R=入i入2入3_k(入入2+入3)2, 其中,入i,入2,入3为时空二阶矩矩阵ii的三个特征值,k为常数,取值范围为0.1~ 10 ; (1-4)计算上述判别函数R在时间和坐标上的所有正极大值点,所有正极大值点在待 分析视频序列中的位置,即为时空兴趣点集合{xk,yk,tk, 〇 k,tk},k= 1,2,…M,其中,M为 时空兴趣点个数; (1-5)提取上述步骤(1-4)的时空兴趣点的特征描述子,具体步骤如下: (1-5-1)在上述时空兴趣点的四周得到一个长方体区域(Ax,Ay,At),Ax=Ay = 2〇1,At=2Tp〇1,Tl分别为上述高斯平滑滤波器中空间和时间维度的标准差,对长方 体区域(Ax,Ay,At)进行归一化处理,得到长方体区域(Ax,Ay,At)的方向梯度直方图 HOG描述子和光流直方图HOF描述子; (1-5-2)将方向梯度直方图HOG描述子和光流直方图H0F描述子拼接成为H0G/H0F联 合描述子,作为时空兴趣点的特征描述子q; (1-6)重复上述步骤(1-5),遍历时空兴趣点集合{xk,yk,tk,〇k,Tk}中的所有时空兴 趣点,提取特征描述子,得到所有时空兴趣点特征描述子集合Q= [^,q2,…,qd],其中,d为 特征描述子个数; (1-7)利用K-均值方法,对上述特征描述子集合Q进行聚类,得到N个聚类中心向量, 并得到聚类中心向量矩阵B:B= ,…,BN]; (1-8)根据步骤(1-6)的时空兴趣点特征描述子和步骤(1-7)的聚类中心向量,按照如 下公式计算编码向量ci:
?f于任意i,满足约束条件IICiI|Q= 1,IIciII1,c0, 得到编码矩阵CNXd:C=[cc2,…,cd]; (1-9)利用上述编码矩阵CNXd,得到待分析视频的特征矩阵V:V=CT,特征矩阵V为dXN的非负矩阵,其中,CT为编码矩阵CNXd的转置; (2)利用上述步骤(1)得到的待分析视频的特征矩阵V,提取待处理视频中的主题动 作,具体步骤如下: (2-1)对特征矩阵V= [Vl,v2,…,Vi,…,vN],按照公式进行归一化处理,得到归 一化后的特征矩阵V' =[v' 1>V'2,…,v'i,…,v'N],V'为dXN的非负矩阵,其中,N为 聚类数,即为待分析视频聚类后的片段个数,d为上述特征描述子个数,令V=V' ; (2-2)设定一个N维向量m,m= [nii,m2,…,nii,…,mN],N为待分析视频聚类后的片段个 数,定义一个边缘权值矩阵Pw:
其中,Np(mi)为与叫距
离为P的所有点的集合,设P= 1,得到边缘权值矩阵 ,Pw 为NXN的方阵; (2-3)利用上述边缘权值矩阵Pw,定义一个对角矩阵PD,使A,=LA,PD为NXN的对 角阵; (2-4)设非负矩阵V~WH,其中W为dXr的非负矩阵,H为rXN的非负矩阵,d为特征 描述子个数,N为待分析视频聚类后的片段个数,r为人机交互中用户设定的主题动作数, 利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H,具体步骤如下: (2-4-1)初始化非负矩阵W为一个dXr的随机矩阵,每个元素值取为0到1之间的随 机数,初始化非负矩阵H为rXN的随机矩阵,每个元素值取为0到1之间的随机数; (2-4-2)设定一个约束系数入,0<入<50,按照如下迭代规则分别对W、H进行更新, 得到更新后的非负矩阵W和H:
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1