基于感兴趣区域和聚类相结合的视频指纹方法

文档序号:6550424阅读:181来源:国知局
基于感兴趣区域和聚类相结合的视频指纹方法
【专利摘要】本发明涉及一种基于感兴趣区域和聚类相结合的视频指纹方法,其技术特点是包括以下步骤:在视频指纹提取阶段,将视频感兴趣区域作为提取视频指纹的基本单元,采用基于聚类算法去除视频指纹的时域冗余特征;在视频指纹匹配阶段,采用多个视频指纹距离平均值方法的进行视频指纹匹配。本发明从抵御空域和时域视频处理两方面来提升视频指纹的鲁棒性,一方面通过使用感兴趣区域作为视频指纹提取基本单元,获得空域上对于多种空域视频处理鲁棒性并降低了视频指纹提取时间;另一方面对同一视频镜头之内帧的特征进行聚类,在获得对于多种时域视频处理的鲁棒性的同时减小了视频指纹的数据量,同时,从提高余弦相似度判决阈值的稳定性上来提高匹配精度。
【专利说明】基于感兴趣区域和聚类相结合的视频指纹方法
【技术领域】
[0001]本发明属于视频指纹【技术领域】,尤其是一种基于感兴趣区域和聚类相结合的视频指纹方法。
【背景技术】
[0002]视频指纹是将一个视频片断与其它视频片断区分开的特征向量,视频指纹的目标是通过测量数据库中所要检索的指纹和数据库中各个指纹的距离以确定一个给定的视频。为了有效地识别视频,视频指纹应满足以下性质:(I)感知性:根据人类视觉系统(HVS),拥有相同感知内容的视频具有相同的视频指纹特征,即使这些视频受到如亮度变化,旋转等视频处理的影响。(2)鲁棒性:视频指纹应能够抵抗不同种类的视频处理。(3)唯一性:感知上不同的视频应该具有不同的视频指纹。(4)效率:视频指纹的数据量要小,以便有效地在庞大的数据库中进行查询操作。
[0003]近年来,视频指纹技术发展迅速。总体来说,它们可以被分成两个方面:其一是基于整个视频帧的方法,其二是基于视频感兴趣区域的方法。对于第一类方法,这些特征主要从整个视频帧提取,例如,对于整帧图像提取其梯度方向的质心特征(Lee S,Yoo⑶.Videofingerprinting based on centroids of gradient orientat1ns[C]//Acoustics, Speechand Signal Processing, 2006.1CASSP 2006Proceedings.2006 IEEE Internat1nalConferenceon.1EEE, 2006, 2:11-11.)和尺度不变特征(Sarkar A, Ghosh P, Moxley E, etal.Video fingerprinting:features for duplicate and similar video detect1n andquery-based video retrieval [C] //Electronic Imaging2008.1nternat1nal Society forOptics and Photonics, 2008:68200E-68200E-12.)作为视频指纹,大多数属于该类的视频指纹对于一般的视频处理鲁棒性比较强,但是它们计算复杂,并且对于感知不变的视频处理的鲁棒性较低(感知不变的视频处理技术是指该类视频处理对于视频表达的主要内容并不影响,即对视频的感兴趣区域几乎不造成影响)。基于以上原因,第二类以视频感兴趣区域作为基本单元提取视频指纹的技术逐渐受到关注,例如,Yang等(Yang R, Tian Y, HuangT.DCT-Based Videoprinting on Saliency-Consistent Reg1ns for Detecting VideoCopies with Text Insert1n[M]//Advances inMultimedia Informat1n Processing-PCM2009.Springer Berlin Heidelberg, 2009:797-806)利用感兴趣区域的连续性来估计潜在的文本插入位置,并使用离散余弦变换(DCT)系数作为视频指纹,该方法对于空域感知不变视频处理具有很好的鲁棒性,但是对于时域感知不变视频处理例如帧率改变等视频处理较为敏感。另外,Liu等(Visual Attent1n Based Temporally Weighting Method for VideoHashing)提出了一种将时空域视频感兴趣区域作为视频指纹提取基本单元,由于该方法将时空域感兴趣区域进行了结合,对于如加入图标之类的空域感知不变视频处理较为敏感。插入的图标与周围像素点差异较大,根据中心-周围的视觉机理,图标可能会成为视频空域显著性区域的一部分,从而提取的视频指纹特征与原视频指纹特征差异较大。
[0004]综上所述,现有视频指纹方法中,基于整帧图像提取特征的视频指纹技术存在时间复杂度较高,并且对感知不变视频处理比较敏感等问题;基于视频显著性区域提取特征的视频指纹技术,未能够针对空域与时域的感知不变视频处理做出相应的处理,因此,空域与时域鲁棒性不能够兼得。

【发明内容】

[0005]本发明的目的在于克服现有技术的不足,提供一种基于感兴趣区域和聚类相结合的视频指纹方法,可有效地提高视频指纹对于空时域感知不变的视频处理的鲁棒性和降低视频指纹的复杂度。
[0006]本发明解决现有的技术问题是采取以下技术方案实现的:
[0007]—种基于感兴趣区域和聚类相结合的视频指纹方法,包括以下步骤:
[0008]步骤1、在视频指纹提取阶段,将视频感兴趣区域作为提取视频指纹的基本单元;
[0009]步骤2、采用基于聚类算法去除视频指纹的时域冗余特征;
[0010]步骤3、在视频指纹匹配阶段,采用多个视频指纹距离平均值作为判决阈值的方法进行视频指纹匹配。
[0011]而且,所述步骤I的具体处理过程为:
[0012]首先,对输入的视频进行预处理操作,包括调整大小至QCIF,并对视频进行高斯平滑滤波;
[0013]然后,按照下述步骤进行视频感兴趣区域提取:
[0014](I)对每帧视频在四个方向上进行采样,包括对角线采样、反对角线采样、垂直和水平采样,将整个视频所有帧的四个方向采样值分别组合成四幅视频韵律图像;
[0015](2)对于每个方向的采样,利用当前帧和前一帧的采样差异,分别获得各视觉韵律图像的变化图;
[0016](3)通过计算视觉韵律变化图像的历史差异来增强视觉韵律图像的差异强度;
[0017](4)使用二值化处理和形态学操作融合的方法,进一步增强差异图像;
[0018](5)结合四个视觉韵律差异图像,确定每帧图像的感兴趣区域。
[0019]而且,所述步骤2的具体处理过程为:
[0020]首先,按以下方法进行视频指纹提取:
[0021](I)对于每帧图像的感兴趣区域提取FREAK特征;
[0022](2)对上述特征进行归一化处理以消除不准确的感兴趣区域提取:
[0023]NF = N(Glf)
[0024]式中,Glf代表当前帧的特征矢量,N(X)是归一化函数,NF是归一化的结果;
[0025]然后,利用谱聚类算法来对视频指纹特征进行聚类,从而去除视频指纹的时域冗余特征,具体包括几个步骤:
[0026](I)假定FN为提取的特征数量,利用这FN个特征来构造相似图,并用W来表示相似图的加权邻接矩阵;
[0027](2)用下式计算非标准化图拉普拉斯矩阵L
[0028]L = D-W
[0029]式中D是度矩阵;
[0030](3)计算L的前K个最小的特征向量,K为聚类数目;[0031](4)重新组合此K个特征向量成FXK矩阵,F是特征向量的维数,把每一行作为K维空间的一个向量,并使用K均值聚类算法对这些特征进行聚类;
[0032](5)对每个类中的视频指纹特征进行取均值操作,形成最终的视频指纹。
[0033]而且,所述步骤3视频指纹匹配采用下式进行判决:
[0034]设S= <i(I) / ,且
[0035]S < T 匹配
[0036]S>=T 不匹配
[0037]其中T是预先定义的阈值,]为多个视频指纹距离平均值。
[0038]而且,所述的预先定义的阈值T = 0.83XTgfe, Tg是原始方法的阈值,Tg设置为0.8;所述的^等于d(2)~d(n+l)的平均值,η为最后一个距离索引值。
[0039]而且,所述的视频感兴趣区域为矩形区域,该矩阵四个顶点的坐标分别由四幅视觉韵律差异图像中对应采样线确定。
[0040]本发明的优点和积极效果是:
[0041]本发明在视频指纹提取阶段,从抵御空域和时域视频处理两方面来提升视频指纹的鲁棒性,一方面通过使用感兴趣区域作为视频指纹提取基本单元,获得空域上对于多种空域视频处理鲁棒性的同时降低了视频指纹提取时间;另一方面对同一视频镜头之内帧的特征进行聚类,在获得对于多种时域视频处理的鲁棒性的同时减小了视频指纹的数据量。在视频指纹匹配阶段,通过将原始由单一值所决定的阈值改为多个值所决定的阈值,在视频指纹匹配精度上获得了提升。
【专利附图】

【附图说明】
[0042]图1是本发明的处理流程示意图;
[0043]图2是本发明中感兴趣区域的提取示例图。
【具体实施方式】
[0044]以下结合附图对本发明实施例做进一步详述。
[0045]一种基于感兴趣区域和聚类相结合的视频指纹方法,如图1所示,包括以下步骤:
[0046]步骤1、在视频指纹提取阶段,将视频感兴趣区域作为提取视频指纹的基本单元,本步骤的处理方法能够提高对空域感知不变视频处理的鲁棒性。
[0047]本步骤首先对输入的视频进行预处理操作,包括调整大小至QCIF(176xl44),并对视频进行高斯平滑滤波。上述操作的目的是为了减少由噪声引起的攻击,以及从不同的原始视频解码的影响。
[0048]然后,按照下述方法进行感兴趣区域提取:
[0049](I)对每帧视频在四个方向上进行采样,以获得视觉韵律图像。包括对角线取样、反对角线取样、中心垂直和中心水平采样,将整个视频的所有帧的四个方向采样值分别组合成四幅视频韵律图像。上述四个方向为人眼视觉系统的主要关注方向。以对角线采样为例,下式为通过对角线采样获得的一帧图像的采样向量。
【权利要求】
1.一种基于感兴趣区域和聚类相结合的视频指纹方法,其特征在于包括以下步骤: 步骤1、在视频指纹提取阶段,将视频感兴趣区域作为提取视频指纹的基本单元; 步骤2、采用基于聚类算法去除视频指纹的时域冗余特征; 步骤3、在视频指纹匹配阶段,采用多个视频指纹距离平均值作为判决阈值的方法进行视频指纹匹配。
2.根据权利要求1所述的基于感兴趣区域和聚类相结合的视频指纹方法,其特征在于:所述步骤I的具体处理过程为: 首先,对输入的视频进行预处理操作,包括调整大小至QCIF,并对视频进行高斯平滑滤波; 然后,按照下述步骤进行视频感兴趣区域提取: (1)对每帧视频在四个方向上进行采样,包括对角线采样、反对角线采样、垂直和水平采样,将整个视频所有帧的四个方向采样值分别组合成四幅视频韵律图像; (2)对于每个方向的采样,利用当前帧和前一帧的采样差异,分别获得各视觉韵律图像的变化图; (3)通过计算视觉韵律变化图像的历史差异来增强视觉韵律图像的差异强度; (4)使用二值化处 理和形态学操作融合的方法,进一步增强差异图像; (5)结合四个视觉韵律差异图像,确定每帧图像的感兴趣区域。
3.根据权利要求1所述的基于感兴趣区域和聚类相结合的视频指纹方法,其特征在于:所述步骤2的具体处理过程为: 首先,按以下方法进行视频指纹提取: (1)对于每帧图像的感兴趣区域提取FREAK特征; (2)对上述特征进行归一化处理以消除不准确的感兴趣区域提取:
NF = N(Glf) 式中,Glf代表当前帧的特征矢量,N(x)是归一化函数,NF是归一化的结果; 然后,利用谱聚类算法来对视频指纹特征进行聚类,从而去除视频指纹的时域冗余特征,具体包括几个步骤: (1)假定FN为提取的特征数量,利用这FN个特征来构造相似图,并用W来表示相似图的加权邻接矩阵; (2)用下式计算非标准化图拉普拉斯矩阵L L = D-W 式中D是度矩阵; (3)计算L的前K个最小的特征向量,K为聚类数目; (4)重新组合此K个特征向量成FXK矩阵,F是特征向量的维数,把每一行作为K维空间的一个向量,并使用K均值聚类算法对这些特征进行聚类; (5)对每个类中的视频指纹特征进行取均值操作,形成最终的视频指纹。
4.根据权利要求1所述的基于感兴趣区域和聚类相结合的视频指纹方法,其特征在于:所述步骤3视频指纹匹配采用下式进行判决:
i^S = d(\)/d,且S < T匹配 S >= T不匹配 其中T是预先定义的阈值,d为多个视频指纹距离平均值。
5.根据权利要求4所述的基于感兴趣区域和聚类相结合的视频指纹方法,其特征在于:所述的预先定义的阈值T = 0.83X1^1,T是原始方法的阈值,T设置为0.8 ;所述的;等于d(2)~d(n+l)的平均值,η为最后一个距离索引值。
6.根据权利要求1至5任一项所述的基于感兴趣区域和聚类相结合的视频指纹方法,其特征在于:所述的视频感兴趣区域为矩形区域,该矩阵四个顶点的坐标分别由四幅视觉韵律差异图像中 对应采样线确定。
【文档编号】G06F17/30GK104036280SQ201410282739
【公开日】2014年9月10日 申请日期:2014年6月23日 优先权日:2014年6月23日
【发明者】郭晓强, 李敬娜, 夏治平, 周芸, 王辉淇, 于洋 申请人:国家广播电影电视总局广播科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1