一种用于视频分析的人机交互主题动作挖掘方法

文档序号：8381345阅读：419来源：国知局

一种用于视频分析的人机交互主题动作挖掘方法
【技术领域】
[0001] 本发明涉及一种用于视频分析的人机交互主题动作挖掘方法，属于图像处理技术领域。
【背景技术】
[0002] 最近几年，网络的日趋流行，更多的视频片段信息呈现出来。相比于文字，视频中有更多的信息，也更难以人为主观的加以区分和概括。用户如何能根据自身的主观意图去挖掘视频中的内在信息，是视频动作挖掘的主要难点。
[0003] 已有技术中，文献[Interest point detection and scale selection in space-time, Ivan Laptev and Tony Lindeberg]使用时空兴趣点特征描述子来检测视频中运动剧烈部分，在动作识别中得到了较为广泛的应用，并结合词袋模型取得了较好的效果。该方法并不依赖于预处理过程，识别过程对于噪声、背景混乱和光照的改变都具有较好的鲁棒性，但所识别的动作很难满足不同主观性。已有技术中，文献[User-driven topic modeling based on interactive nonnegative matrix factorization, Choo J，Lee C，Reddy C K，et al. UTOPIAN]公开了一种利用非负矩阵分解方法，通过交互的方式，来挖掘文本中的主题摘要文字。对于文本信息而言，一段文本有明确的主题摘要，但对于视频来说，由于用户的主观性，很难找到一个最为精准的主题，不同的用户获得的主题摘要完全依赖于自身的主观意图。

【发明内容】

[0004] 本发明的目的是提出一种用于视频分析的人机交互主题动作挖掘方法，以针对人机交互用户的主观意图来挖掘视频中用户感兴趣的主题动作，更具有针对性和准确性。
[0005] 本发明提出的用于视频分析的人机交互主题动作挖掘方法，包括以下步骤：
[0006] (1)提取待分析视频序列的特征矩阵V，具体过程如下：
[0007] (1-1)设待分析视频序列为I (X，y，t)，其中X，y为第t帧图像中的像素点在该图像中的坐标，对视频序列I进行1?斯卷积，得到1?斯卷积后的视频图像序列L :
【主权项】
1. 一种用于视频分析的人机交互主题动作挖掘方法，其特征在于该方法包括以下步骤： (1)提取待分析视频序列的特征矩阵V，具体过程如下： (1-1)设待分析视频序列为I(X，y，t)，其中X，y为第t帧图像中的像素点在该图像中的坐标，对视频序列I进行_斯卷积，得到_斯卷积后的视频图像序列L:
其中，g(T,)?,/;<，A为时空高斯平滑滤波器：
其中，Oph分别为高斯平滑滤波器中空间和时间维度的标准差； (1-2)根据上述步骤（1-1)的L，按照下式计算得到待分析视频序列的时空二阶矩矩阵u
其中"为L在x方向上的偏导，Ly为L在y方向上的偏导，Lt为L在t方向上的偏导； (1-3)利用上述步骤（1-2)得到的时空二阶矩矩阵y，构造一个判别函数R: R=入i入2入3_k(入入2+入3)2，其中，入i，入2，入3为时空二阶矩矩阵ii的三个特征值，k为常数，取值范围为0.1~ 10 ； (1-4)计算上述判别函数R在时间和坐标上的所有正极大值点，所有正极大值点在待分析视频序列中的位置，即为时空兴趣点集合{xk,yk,tk, 〇 k,tk}，k= 1,2,…M,其中,M为时空兴趣点个数； (1-5)提取上述步骤（1-4)的时空兴趣点的特征描述子，具体步骤如下： (1-5-1)在上述时空兴趣点的四周得到一个长方体区域（Ax，Ay，At)，Ax=Ay = 2〇1，At=2Tp〇1，Tl分别为上述高斯平滑滤波器中空间和时间维度的标准差，对长方体区域（Ax，Ay，At)进行归一化处理，得到长方体区域（Ax，Ay，At)的方向梯度直方图 HOG描述子和光流直方图HOF描述子； (1-5-2)将方向梯度直方图HOG描述子和光流直方图H0F描述子拼接成为H0G/H0F联合描述子，作为时空兴趣点的特征描述子q; (1-6)重复上述步骤（1-5)，遍历时空兴趣点集合{xk，yk，tk，〇k，Tk}中的所有时空兴趣点，提取特征描述子，得到所有时空兴趣点特征描述子集合Q= [^，q2，…，qd]，其中，d为特征描述子个数； (1-7)利用K-均值方法，对上述特征描述子集合Q进行聚类，得到N个聚类中心向量，并得到聚类中心向量矩阵B:B= ，…，BN]; (1-8)根据步骤（1-6)的时空兴趣点特征描述子和步骤（1-7)的聚类中心向量，按照如下公式计算编码向量ci:
?f于任意i，满足约束条件IICiI|Q= 1，IIciII1，c0，得到编码矩阵CNXd:C=[cc2，…，cd]; (1-9)利用上述编码矩阵CNXd，得到待分析视频的特征矩阵V:V=CT，特征矩阵V为dXN的非负矩阵，其中，CT为编码矩阵CNXd的转置； (2)利用上述步骤（1)得到的待分析视频的特征矩阵V，提取待处理视频中的主题动作，具体步骤如下： (2-1)对特征矩阵V= [Vl，v2，…，Vi，…，vN]，按照公式进行归一化处理，得到归一化后的特征矩阵V' =[v' 1>V'2，…，v'i，…，v'N]，V'为dXN的非负矩阵，其中，N为聚类数，即为待分析视频聚类后的片段个数，d为上述特征描述子个数，令V=V' ； (2-2)设定一个N维向量m，m= [nii，m2,…，nii,…，mN],N为待分析视频聚类后的片段个数，定义一个边缘权值矩阵Pw:
其中，Np(mi)为与叫距
离为P的所有点的集合，设P= 1，得到边缘权值矩阵，Pw 为NXN的方阵； (2-3)利用上述边缘权值矩阵Pw，定义一个对角矩阵PD，使A,=LA，PD为NXN的对角阵； (2-4)设非负矩阵V~WH，其中W为dXr的非负矩阵，H为rXN的非负矩阵，d为特征描述子个数，N为待分析视频聚类后的片段个数，r为人机交互中用户设定的主题动作数，利用非负矩阵分解法，分别得到非负矩阵W和非负矩阵H，具体步骤如下： (2-4-1)初始化非负矩阵W为一个dXr的随机矩阵，每个元素值取为0到1之间的随机数，初始化非负矩阵H为rXN的随机矩阵，每个元素值取为0到1之间的随机数； (2-4-2)设定一个约束系数入，0<入<50,按照如下迭代规则分别对W、H进行更新，得到更新后的非负矩阵W和H:

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘华平;滕辉;孙富春;
技术所有人：清华大学;
我是此专利的发明人

上一篇：可见光与近红外人脸图像的相互转换方法
上一篇：一种基于模板匹配的芯片定位方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。