一种基于紧凑视频表征的视频拷贝检测方法与流程

文档序号:11155411阅读:462来源:国知局
本发明属于数字媒体领域,主要涉及一种基于紧凑视频表征的视频拷贝检测方法。
背景技术
::随着视频版权问题受到越来越多的重视,如何快速甄别一段视频是否是另一段视频的拷贝,已成为数字媒体领域的一个关键性技术。拷贝视频可以是原视频,可以是原视频中截取的小片段,也可以是原视频中的一个片段与其他无关视频拼接。同时,拷贝视频可能被插入无关遮挡(字幕、台标等)、改变长宽比、改变颜色与亮度、改变分辨率、画中画、重新摄录等多种变形手段。使用一种有效的表征对视频进行描述,从而使得计算机能够快速准确地判断出一段查询视频是否是库视频的拷贝,并定位出拷贝的起始时间,是解决该问题的关键。在视频拷贝检测问题中,目前有基于局部点特征和基于图像特征两种表征方式。为了避免过量的特征带来性能负担,两种方法的第一步都稀疏地对视频进行关键帧提取,例如,一秒视频采集一到两帧图像作为该视频片段的代表。之后,第一种方法会探查图像中有代表性的点,并提取特征加以描述,通过比对查询视频与库视频中点特征的相似度,将点映射回图像,图像映射回视频的方式,得到查询结果。第二种方法会对每幅关键帧提取一个图像特征进行描述,然后比对查询视频与库视频中的图像特征的相似度,映射回视频的时间轴,得到查询结果。针对不同的方法,国内外学者进行了一些深入的研究。如基于图像的后置时空滤波(参考MatthijsDouze,HerveJ′egou,CordeliaSchmid在IEEETransactionsonMultimedia2010年第12卷第4册的257-266页发表的文章“Animage-basedapproachtovideocopydetectionwithspatio-temporalpost-filtering”)、SCNN(参考YugangJiang,JiajunWang在IEEETransactionsonBigData2016年第2卷第1册的32-42页发表的文章“Partialcopydetectioninvideos:Abenchmarkandanevaluationofpopularmethods”)等方法被应用到视频拷贝检测中来。出于对内存和查询时间代价的考虑,以上所提到的表征方式,均需要稀疏地对视频进行关键帧采样。然而,同一秒钟的帧图像,尽管相似但又有着不同的细节,若仅仅使用其中的一到两帧来表示该一秒钟片段,会损失掉部分信息,使得特征的描述能力降低,造成结果准确性下降。若进行稠密采样,则会使得相同视频得到的特征数量大大增加,导致计算时长大大增加,脱离实用性。技术实现要素:本发明利用了深度学习与稀疏编码来解决现有技术存在的问题。本发明提供一种基于紧凑视频表征的视频拷贝检测方法,在提升特征描述能力的情况下,保证其紧凑性,即用一段短小紧凑的特征,就能很好描述一小段视频的信息。在本发明中,将稠密采集视频的关键帧,并对每张关键帧提取图像特征,之后使用特征融合的方式,将一个视频片段内的所有图像特征融合成一个对该片段的紧凑表征。为了达到上述目的,本发明的技术方案为:一种基于紧凑视频表征的视频拷贝检测方法,首先对库视频稠密地提取关键帧,使用卷积神经网络提取关键帧的特征,并对特征进行降维,即提取视频的帧特征。再对帧特征进行稀疏编码,之后对从属于同一秒的帧特征进行特征融合,得到一个描述该一秒长度片段的紧凑表征,并对所有的库视频的紧凑表征建立一个索引。其次,对查询视频,重复上述步骤,得到查询视频的紧凑表征。最后,使用查询视频的每个紧凑表征,查找索引中相似的库视频紧凑表征,并进一步找出最相似的视频片段。具体包括以下步骤:第一步,提取库视频中关键帧的帧特征1.1)稠密并等间隔地提取库视频的关键帧,按照关键帧出现的先后顺序,编号Ii∈[1,...,N]。1.2)采用卷积神经网络计算步骤1.1)得到的关键帧的fc层特征,即网络中的全连接层特征。1.3)将步骤1.2)得到的fc层特征采用主成分分析-白化算法进行降维,每个图像得到低维度的n维特征,即得到关键帧的帧特征。第二步,使用池化(pooling)方式,将第一步得到的库视频的帧特征基础上进行融合,获取紧凑视频表征2.1)使用k-奇异值分解(k-singularvaluedecomposition,ksvd)算法,对步骤1.3)得到的n维特征进行训练,得到一个n*m维的字典。2.2)对步骤1.3)中的每个n维特征,使用正交匹配追踪(orthogonalmatchingpursuit,omp)算法计算其在步骤2.1)中的字典上的稀疏表示,得到一个m维的稀疏特征,用于表示一副关键帧。2.3)以秒为单位,对关键帧进行划分,所有Ii∈ts的关键帧被划分为同一类,即属于同一秒的关键帧归为一类,ts表示从视频开始处的第s秒。2.4)对同一类的所有关键帧的稀疏特征采用池化方式进行融合,池化时,选择离零值最远的值作为该维度的代表,即绝对值最大的值带上其符号位作为该值的代表,以与图像稀疏特征具有相等维度的紧凑表征作为该一秒视频的特征表示;具体为:对m维的稀疏特征中的每一维mi(i∈[1,...,m])做横向对比,即该类中的所有特征的第mi维做比较,选取绝对值最大的数值mi_max,加上该数值的符号sign(+/-),作为第mi维的代表,即选取与0差值最大的值作为第mi维的代表。串联所有的sign*mi_maxi∈[1,...,m],得到一个长度为m的特征向量cs,cs即为第ts秒视频的特征表示。第三步,对所有的库视频的紧凑视频表征建立一个索引3.1)使用kd树,将所有的紧凑视频表征整合为一个快速索引结构。kd树是一种索引结构,用于快速匹配与查询表征最相似的若干条表征。第四步,获取查询视频的紧凑视频表征4.1)对查询视频,重复第一步和第二步,得到查询视频的紧凑视频表征。其中,步骤2.1)不需要进行,即用库视频训练好的字典来计算查询视频的稀疏特征,并进行池化,得到查询视频的紧凑视频表征。第五步,找出最相似的视频片段步骤5.1)使用查询视频的每个紧凑视频表征cqt,在第三步建立的索引中进行搜索,找到最相似的k个库视频的紧凑视频表征。步骤5.2)对一个查询视频的所有紧凑视频表征集{cqt,t∈[1,...,tq]},其中tq是查询视频的长度,单位为秒;以及它们的tq*k个最相似的库紧凑视频表征,使用TemporalNetwork算法,找出最相似的视频片段。TemporalNetwrok算法将每个库紧凑视频表征当做是图中的一个节点,遵从查询视频关键帧的时间序以及库视频关键帧的时间序,找出图中最大权值的路径,该路径串联了库视频关键帧的紧凑视频表征节点,表示找出的与查询视频最相似的库视频片段。本发明的有益效果是:本发明能够保留视频中大部分帧的信息,又能够避免因为特征数量过多带来的性能负担,使得结果更为可靠。本发明能够有效提高视频拷贝检测的准确性和召回率,并使得特征数量显著降低。附图说明图1是本发明视频拷贝检测的流程图。图2是对同一类关键帧的稀疏特征进行池化的示意图。具体实施方式以下结合技术方案和附图详细叙述本发明的具体实施例。实施例:复杂数据库的视频拷贝检测1.提取库视频中所有的帧作为关键帧。2.使用卷积神经网络,并采用预训练好的公开模型VGG-16模型,对步骤1得到的关键帧进行计算,提取fc6层的4096维特征。3.采样10万条特征向量,进行主成分分析算法以及ksvd算法中字典的训练,其中,主成分分析的字典维度是256*4096,ksvd的字典维度是256*1024,即n=256,m=1024。4.使用训练好的主成分分析的字典,对步骤2中的所有特征进行降维,并进行白化(whitening)处理,得到256维的帧特征。5.使用omp算法及ksvd的字典,对步骤4中得到的帧特征进行计算,每个帧特征计算得到一个1024维的稀疏特征。6.将视频的关键帧按秒进行划分,即从属于同一秒的关键帧被划分为同一类。由于本例中提取了视频的所有帧,所以每类中的帧数量与视频的帧率值相同。如图2所示,将视频以秒为单位进行划分,将属于同一秒钟的关键帧的稀疏特征做池化,得到一个紧凑表征,用于描述该一秒钟长度的视频。7.对同一类帧的稀疏特征,将每一维做池化,即对1024维的每一维,比较同一类稀疏特征的该维,得到与0差值最大的那个值,作为该维池化的结果。于是,池化后的紧凑视频表征的长度也是1024维。8.使用kd树,将库视频的所有紧凑视频表征建树,用于快速检索。同时,用一个表格table保存特征id与视频编号及时间戳的联系。9.对查询视频,与库视频的处理类似,首先提取视频中的所有帧,使用相同的卷积神经网络提取fc6层的特征。10.与步骤4-7相同,对4096维的fc6层特征,先使用主成分分析-白化算法进行降维,得到256维的帧特征,再使用ksvd算法得到的字典计算1024维的稀疏特征。最后,使用池化的方式得到查询视频的紧凑视频表征。11.将查询视频的紧凑视频表征按时间顺序编号为cqt。对每个cqt,查找其在索引中最相似的200个库视频的紧凑视频表征,即k=200。12.使用TemporalNetwork算法。其中每个查询视频的紧凑视频表征cqt关联的200个库紧凑视频表征为算法中的N集。根据table中记录的信息,将视频编号相同,并且时间戳符合算法要求的N集节点连接,作为E集。13.根据TemporalNetwork的计算结果,设定阈值,得分大于阈值的库视频片段认为是查询视频的拷贝源;得分小于阈值的不认为其是拷贝。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1