基于张量表示的多模态视频语义概念检测方法

文档序号:6460358阅读:222来源:国知局
专利名称:基于张量表示的多模态视频语义概念检测方法
技术领域
本发明涉及一种基于张量表示的多模态视频语义概念检测方法。该方法将视频镜头表示为3阶张量,并寻找有效的降维方法将其投影到低维语义空间, 从而通过训练分类器模型实现对视频张量镜头的语义概念检测,属于视频语义 分析与理解领域。
技术背景随着各种数字影像设备的发展和普及,以及电影电视行业、计算机技术、 通信技术、多媒体处理技术、压縮编码技术和互联网等的飞速发展,在新闻、 电影、历史文献和监控等领域产生了大量的视频数据。视频数据蕴含了任务、 场景、对象和事件等丰富的语义,同时视频又是时序数据,视频中存在图像、 音频和文本三种媒质数据,并呈现时序关联共生特性。同时,多种模态的融合 与协作对于减小底层特征与高层语义之间的"语义鸿沟"也起到重要的作用。 如何有效利用视频的多模态及时序特性来挖掘其语义信息,从而支持视频的有 效检索,发挥视频数据的资源共享优势,是一个具有挑战性的研究问题。对于如何表达视频中多模态媒质,传统的方法是将图像、音频及文本特征 用拼接向量来表示。不过这种高维向量往往会导致"维数灾难"的问题,并且 视频中多种模态间的时序关联共生的关系也会被忽略。近年来,多线性几何一 即高阶张量已经广泛应用到计算机视觉、信息检索及信号处理等领域。张量是 对向量和矩阵的一种自然的扩展和延伸,并且张量几何已经定义了一系列基于 向量空间集合的多线性运算。同时,以张量作为输入的有监督张量学习框架采 用交替投影优化步骤来求解最优解,是凸优化和多线性几何运算的结合。基于 有监督张量学习框架,可以将传统的支持向量机扩展到支持张量机,实现分类 器模型的训练和应用。 发明内容本发明的目的是提供一种基于张量表示的多模态视频语义概念检测方法。 包括如下步骤1) 对训练集合及测试集合中的视频镜头均提取图像、音频、文本三种模态 的底层特征,每个视频张量镜头由这三种底层特征形成3阶张量来表达;2) 根据视频张量镜头集合的流形空间本征结构,通过寻找转换矩阵实现对 原始高维张量的维度降低及子空间嵌入;3) 采用支持张量机对降维后的视频张量镜头集合建立分类器模型;4) 对于测试镜头,由训练集合计算得到的转换矩阵进行投影后,再通过分 类器模型进行语义概念检测。所述的对训练集合及测试集合中的镜头均提取图像、音频、文本三种模态 的底层特征每个镜头中选取一个关键帧作为代表图像,然后提取颜色直方图、 纹理和Canny边界作为图像特征;将镜头对应的一段音频提取出作为一个音频 例子,并将音频例子分成含迭加的短时音频帧,提取每个短时音频帧特征,包 括MFCC、质心、衰减截止频率、频谱流量及过零率,来形成帧特征向量,然 后把短时音频帧特征向量的统计值作为镜头的音频特征;从视频中经过识别的 转录文本提取TF*IDF值作为文本特征。所述的视频张量镜头的表达基于视频中提取的图像、音频、文本底层特 征,将每个视频镜头用一个3阶张量SeR^^来表示。其中,A,/2和/3分别是图像特征、音频特征及文本特征的维数。那么每个元素s,^的值定义为s^uG^^^A)为图4象牛寺征的1直,52,,2,2(^'2《/2)为音步员牛寺征的<直,S3,3,,3(lS^^/3)为文本特征的值,其它元素的值均初始设为零。所述的根据视频张量镜头的流形空间本征结构,通过寻找转换矩阵实现对原始高维张量的维度降低及子空间嵌入的方法为给定空间R^A^上的镜头数 据集合I^^^,X2,L X",根据张量镜头的流形空间本征结构以及谱图理论, 为Z上的每个张量镜头XJ^寻找三个转换矩阵力x^维的l^、 ^x/2维的《及 /3x/3维的T;,使之映射这iV个数据点到空间1^"2"3 W^, ^《2, Js《3)上的r—Y^2,L Yj,满足Y,《产X^Tf 2Tf 3Tf ,以此实现对原始高维 张量的维度降低及子空间嵌入;当求取T/I^时,通过求解广义特征向量问题 (D厂WJV,义D^i计算得到最优化的中间转换矩阵V。其中,= 2>,,.U|ur , Wf/ 二 Sw^U;Uf ,且w是根据训练集合义所构建的最近 邻图的'权重矩阵,D是W'fe对角矩阵即D,.,:&V^, Ul是对X,」^的一模展开 矩阵mode-l unfolding matrix即X&进行SVD分解得到的左矩阵,那么最终可以计算转换矩阵^ V卩Ui eR/'x/';用同样方法求取《与T。所述的采用支持张量机对降维后的视频张量镜头集合建立分类器模型的方法为分类器模型的输入是经过子空间嵌入及降维得到的低维张量Y ,. £尸X , If 2 If 3 Tf e R7'""以及相应的类别标识^ e{+l,—1},输出 是分类器模型的张量超平面参数wt ^eR力和6eR;通过迭代求解最优化问题^々掘(w,, 。=* i" l+《《<9丄得到w^ L和6,其中参数y从i循环到3,并且c是常量,^是松弛因子,7=n=>:。。所述的对于测试镜头,由训练集合计算得到的转换矩阵进行投影后,再通过分类器模型进行语义概念检测训练集合外的新数据X , eR^/2X/'由转换矩阵 T/ = V卩Ui e R"7'"1 、 T=V^Ui e R/2"2及T( = V3TU, e R^"3映射为低维子空间 中的Y , = X f If 2 Tf 3 Tf e R^AA ,然后通过分类器模型进行类别检测, 即计算z^Wg"(Yt lWl 2w2 3w3) + 6 ,来得到测试数据的类别标识 ^{+1,-1}。 本发明的有益效果1) 本发明用张量取代了传统的视频的向量表达方式,能有效减小"维数灾 难"带来的问题;2) 本发明考虑了视频中的多种模态图像、音频和文本,以及视频数据的 时序关联共生特性,基于此特性的多种模态的融合与协作对于减小底层特征与 高层语义之间的"语义鸿沟"起到重要的作用;3) 本发明根据保持张量镜头集合的流形空间本征结构以及谱图理论,所提 出的张量镜头子空间嵌入和降维方法,不仅有效地解决了高维度带来的困难, 而且由于是线性方法,对于训练集外的新数据可以直接进行投影映射;4) 本发明采用支持张量机来训练分类器模型,具有良好的类别检测能力。


图1是基于张量表示的多模态视频语义概念检测方法流程图;图2是本发明对语义概念"Explosion (爆炸)"的检测结果,分别与ISOMAP和PCA两种方法进行比较,表示为ROC曲线图;图3是本发明对语义概念"Sports(体育运动)"的检测结果,分别与ISOMAP和PCA两种方法进行比较,表示为ROC曲线图。
具体实施方式
基于张量表示的多模态视频语义概念检测方法。包括如下步骤1) 对训练集合及测试集合中的视频镜头均提取图像、音频、文本三种模态 的底层特征,每个视频张量镜头由这三种底层特征形成3阶张量来表达;2) 根据视频张量镜头集合的流形空间本征结构,通过寻找转换矩阵实现对 原始高维张量的维度降低及子空间嵌入;3) 采用支持张量机对降维后的视频张量镜头集合建立分类器模型;4) 对于测试镜头,由训练集合计算得到的转换矩阵进行投影后,再通过分 类器模型进行语义概念检测。所述的对训练集合及测试集合中的镜头均提取图像、音频、文本三种模态 的底层特征底层特征是指直接从视频源数据中提取的特征,有别于语义概念 所代表的高层特征。我们从每一个视频镜头中分别提取底层特征,包括图像、 音频和文本特征。图像特征镜头是基本处理单元,每个镜头中选取一个关键帧作为代表图 像,然后提取关键帧的颜色直方图、纹理和Canny边界作为图像特征;音频特征将镜头对应的一段音频提取出作为一个音频例子(audio clip), 并将音频例子分成含迭加的短时音频帧,提取每个短时音频帧特征,包括MFCC、 质心、衰减截止频率、频谱流量及过零率,来形成帧特征向量,然后把短时音 频帧特征向量的统计值(均值或方差)作为镜头的音频特征;文本特征我们从视频中经过识别的转录(transcript)文本提取特征。由于文 本特征的维数远大于其他模态特征,并且文本中包含了丰富的语义信息,可以 先采用隐含语义分析(Latent Semantic Analysis, LSA)对文本作降维处理。所述的视频张量镜头的表达基于视频中提取的图像、音频、文本底层特 征,将每个视频镜头用一个3阶张量SeR"^来表示。其中,A,/2和/3分别是图像特征、音频特征及文本特征的维数。那么每个元素s,^的值定义为S^UG^^A)为图像特征的值,S2,,2,2d^2"2)为音频特征的值,S3,M3(l&'3《/3)为文本特征的值,其它元素的值均初始设为零。所述的根据视频张量镜头的流形空间本征结构,通过寻找转换矩阵实现对原始高维张量的维度降低及子空间嵌入的方法为给定空间RA",A上的镜头数 据集合Z-^^X2,L X",根据张量镜头的流形空间本征结构以及谱图理论, 为X上的每个张量镜头X,.I:寻找三个转换矩阵力x^维的T/、 ^x/2维的Ti及力x/3维的《,使之映射这7V个数据点到空间R々^" J2〈/2,J^/3)上的集合r—Y^2,L Yj,并满足Y^产X,.(8),Tf 2Tf 3lf ,那么低维数据集合 y便反映了集合Z的流形空间的本征几何拓扑结构;同时,这个映射也保持了线 性特征,也就是说对于训练集合外的数据点X,,可以直接由预先训练得到的转换矩阵来计算它在低维子空间中的映射。令X q A^"3代表一个3阶张量镜头,给定分布在W个张量镜头流形空间M eR^A上的数据集合JT"Xi,X2,AXj,我们可以构建一个最近邻图C7来模拟M的局部几何结构。定义(7的权重矩阵W如下|x,-x,『 当X,是X/,的k近邻或X/是&的k近邻;0 其它。W = ,,y其中c是一个常量。对于每个张量镜头X, (B/^AO,根据高阶奇异值分解(Higher-Order Singular Value Decomposition, HOSVD),我们可以分别对X,.的A: 模展开矩阵 (mode J unfolding matrix)X纟),X&,X(^进行奇异值SVD分解,来计算得到左矩阵 U(,U〖,U、。举例来说,Uj是对X,.的一模展开矩阵(mode-l unfolding matrix)X&) 进行SVD分解得到的左矩阵。现在已有UieR^'(lS"7V),我们想找到Ax力维的矩阵V,将Ui映射到 If eR^1,也就是使得1/=^7^|£议々/'。我们将从两个角度来考虑这个问 题。 一方面,要保持流形的本征结构,需要求取下面这个目标函数的最优解minSlviru;_viru/2W..也就是说,最小化Sl《u卜《u/lw^能确保当i^和u/是"相近"的话,那么vfui和vfu/也是"相近"的。D是W的对角矩阵,即D;; ^J^Wy ;并且对于一个矩阵A,它的"迹(trace)"|A|2=/r(AAD,那么有粉(V/(DrW")V!)其中D^二ZDaUiui , Wy二SW"UiU/ 。从上面的推导可以看出,若想求解mvinZ|ViTUi _ VfUjfW(/ ,需要最小化^(V卩(Dy - Wy)VO 。另一方面,除了要保持流形的图结构,还需要最大化流形空间上的全局方差。 一般地, 一个随机变量X的方差为var(x)= ( (x-//)2dP(x), //=丄xdP(x)其中M是数据的流形,//是期望值,dP是概率密度函数。根据谱图理论(spectral graph theory), dP可以由样本点的对角矩阵D (D,7 = J]y W"离散化的估计得到。 那么我们有如下推导var(T;) 粉(V卩D^)由以上两个方面的约朿条件,我们得到了以下的最优化问题
显然,Vi的最优解是(Du-W^DJ的广义特征向量。因此我们可以计算下 面的广义特征向量问题来获得最优化的V,:
当计算得到V,后,由U;、j A"'(1S/SA0,可以求取T^VfUJei 。 同理,对于音频以及文本这两种模态的中间转换矩阵V2和V3也可以用同样的方 法来计算,那么由l^q ^2(1^"A0和V2便可以求取T^VfU^i々、以 及由l4ej ^"l"SA0和V3可以求取X;、VfU;ei力"。这样低维空间的视频 张量镜头集合r中的数据Y ^=X ,■ A If 2 Tf 3 If e R""A 。
下面是张量镜头的子空间嵌入和维度降低的算法。 输入原始训练张量镜头集合义—X"X2,L X"gRA々、
输出映射后的低维张量镜头集合J^仏,Y2,LY"eR^2x、中间转换矩阵
Vj e R/lXjl 、 V2 e和V3 e R;3"3 ,以及转换矩阵T(' = V^U; g j 、
"=V2rU'2 e i 和Tj = V3rU; e i人",且满足Y ,. |二= X ;if 2 if 3 if ;
算法描述
骤l:构建一个最近邻图G; 骤2:计算权重矩阵W; 骤3: For A:=lto3 骤4: For /-ltoTV
骤5: 计算X,的A模展开矩阵X^的SVD分解的左矩阵U");
骤6: End;
步骤7: D" = 2>,7l^)Ui/ ;
步步步步步步步骤8: <formula>formula see original document page 11</formula>
步骤9: 求解下列广义特征向量问题以得到最优化的Vfc: <formula>formula see original document page 11</formula>
步骤10: <formula>formula see original document page 11</formula>
步骤11: <formula>formula see original document page 11</formula>
步骤12: end
步骤13: end
步骤14: <formula>formula see original document page 11</formula>
步骤15: <formula>formula see original document page 11</formula>
步骤16: end。
所述的采用支持张量机对降维后的视频张量镜头集合建立分类器模型的方 法为在这一步中,我们采用支持张量机来训练张量镜头的分类器。训练模型 的输入就是上一步经过子空间嵌入及降维得到的低维张量Y,,而不是原始的 这样的处理不仅能提高精确度,而且能提高训练和分类的效率。
支持张量机训练分类器的算法如下。
输入映射后的低维张量镜头集合Y,.ir-产X,^lf 2Tf 3lf eR,"^,及
相应的类别标识乃£{+1,-1}; 输出分类器模型的张量超平面参数w^L eR力和6e R ;
算法描述
步骤l:设置W^^为R々中的随机单位向量; 步骤2:重复步骤3-5直至收敛; ;:For= 1 to 3
步骤4:
通过求解最优化问题
<formula>formula see original document page 11</formula>得到w,r^和6,其中c是常量,g是松弛因子,^rt:ih。;
步骤5: End;
步骤6:检査是否收敛如果
<formula>formula see original document page 12</formula>
那么计算得到的
<formula>formula see original document page 12</formula>
已经收敛。这里w^是当前的投影向量,w、^是前一个投影 步骤7: End。
所述的对于测试镜头,由训练集合计算得到的转换矩阵进行投影后,再通 过分类器模型进行语义概念检测在这一步中,我们将根据前面训练得到的分 类器模型来对训练集外的新数据进行检测。因为我们的降维方法是线性的,所 以对于新数据可以直接映射到低维子空间,然后通过分类器进行类别检测。
令x,作为一个训练集合外的检测例子,下面的算法给出检测过程。 输入待检测镜头X,eRAA^,中间转换矩阵Vi、 V2、 V3,分类器参数<formula>formula see original document page 12</formula>
输出X,的类别标识Z, e {+1,-1}; 算法描述
For A = 1 to 3;
计算Xf的t模展开矩阵X&)的SVD分解的左矩阵;
步骤l:
步骤2:
步骤3: 步骤4:
End;
步骤6: 步骤7:
计算<formula>formula see original document page 12</formula>计算<formula>formula see original document page 12</formula>End。
权利要求
1.一种基于张量表示的多模态视频语义概念检测方法,其特征在于包括如下步骤1)对训练集合及测试集合中的视频镜头均提取图像、音频、文本三种模态的底层特征,每个视频张量镜头由这三种底层特征形成3阶张量来表达;2)根据视频张量镜头集合的流形空间本征结构,通过寻找转换矩阵实现对原始高维张量的维度降低及子空间嵌入;3)采用支持张量机对降维后的视频张量镜头集合建立分类器模型;4)对于测试镜头,由训练集合计算得到的转换矩阵进行投影后,再通过分类器模型进行语义概念检测。
2. 根据权利要求1所述的一种基于张量表示的多模态视频语义概念检测方法,其特征在于所述的对训练集合及测试集合中的镜头均提取图像、音频、文本三种模态的底层特征每个镜头中选取一个关键帧作为代表图像,然后提取颜色直方图、纹理和Canny边界作为图像特征;将镜头对应的一段音频提取出 作为一个音频例子,并将音频例子分成含迭加的短时音频帧,提取每个短时音 频帧特征,包括MFCC、质心、衰减截止频率、频谱流量及过零率,来形成帧 特征向量,然后把短时音频帧特征向量的统计值作为镜头的音频特征;从视频 中经过识别的转录文本提取TF*IDF值作为文本特征。
3. 根据权利要求1所述的一种基于张量表示的多模态视频语义概念检测方 法,其特征在于所述的视频张量镜头的表达基于视频中提取的图像、音频、 文本底层特征,将每个视频镜头用一个3阶张量SeRA^"3来表示。其中,7/,/2和A分别是图像特征、音频特征及文本特征的维数。那么每个元素s,&的值定 义为s,^(l^/^A)为图像特征的值,、,2(l"^/2)为音频特征的值, s^(l^^/3)为文本特征的值,其它元素的值均初始设为零。
4. 根据权利要求1所述的一种基于张量表示的多模态视频语义概念检测方 法,其特征在于所述的根据视频张量镜头的流形空间本征结构,通过寻找转换 矩阵实现对原始高维张量的维度降低及子空间嵌入的方法为给定空间R""A 上的镜头数据集合了 = ^ i,X 2,L X ",根据张量镜头的流形空间本征结构以及 谱图理论,为义上的每个张量镜头X,I仏寻找三个转换矩阵^X/,维的1^、J2X/2 维的《及J3x/3维的《,使之映射这iV个数据点到空间R々^"3 (力a, ^《2, A《3)上的r^Yi,Y2,L Yj,满足Y,C^X,.(^lf (8)2Tf 3Tf ,以此实现对原始高维张量的维度降低及子空间嵌入;当求取T/I^时,通过求解广义特征向量问 题(D^-W^)V,:义^V,计算得到最优化的中间转换矩阵V1;其中, =SD,,uiur , W"=ZW(/Uiu/7 ,且W是根据训练集合^所构建的最近邻图的'权重矩阵,D是W'fej对角矩阵即D广&W^., Uj是对X |^的 一模展开矩阵mode-l unfolding matrix即X&)进行SVD分解得到的左矩阵,那么最终可以计算转换矩阵^ V^UJ eR/'x/';用同样方法求取《与T^。
5.根据权利要求1所述的一种基于张量表示的多模态视频语义概念检测方法,其特征在于所述的采用支持张量机对降维后的视频张量镜头集合建立分类器模型的方法为分类器模型的输入是经过子空间嵌入及降维得到的低维张量Y , £1= X ,if 2 Tf 3 if eR々力"以及相应的类别标识乃e {+1,-1},输出是分类器模型的张量超平面参数WA ^eR力和6eR;通过迭代求解最优化问题gg々掘l +《《—1乂[々,rt w乂+州""化^得到W4 L和6,其中参数乂从1循环到3,并且c是常量,g是松弛因子,/7=n=3ik4
6.根据权利要求1所述的一种基于张量表示的多模态视频语义概念检测方法,其特征在于所述的对于测试镜头,由训练集合计算得到的转换矩阵进行投影后,再通过分类器模型进行语义概念检测训练集合外的新数据X,eR71々73由转换矩阵T( = V/"U! e R/'x/' 、 ; = V2W2 e及T
=V3『U; e 映射为低维子空间中的Y , = X , , Tf 2 Tf 3 Tf e R々^力,然后通过分类器模型进行类别检测,即计算z,"Zg"(YtAw^2W2^W3) + 6,来得到测试数据的类 别标识z, e{+l,-l}。
全文摘要
本发明公开了一种基于张量表示的多模态视频语义概念检测方法。包括如下步骤1)对训练集合及测试集合中的视频镜头均提取图像、音频、文本三种模态的底层特征,每个视频张量镜头由这三种底层特征形成3阶张量来表达;2)根据视频张量镜头集合的流形空间本征结构,通过寻找转换矩阵实现对原始高维张量的维度降低及子空间嵌入;3)采用支持张量机对降维后的视频张量镜头集合建立分类器模型;4)对于测试镜头,由训练集合计算得到的转换矩阵进行投影后,再通过分类器模型进行语义概念检测。本发明充分利用视频中的多模态数据,将视频镜头表示为3阶张量,并基于此种表达提出了一种子空间嵌入的降维方法,实现了视频镜头的语义概念检测,对视频语义进行了较好的分析与理解。
文档编号G06K9/62GK101299241SQ20081005912
公开日2008年11月5日 申请日期2008年1月14日 优先权日2008年1月14日
发明者刘亚楠, 飞 吴, 庄越挺, 郭同强 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1