基于变形敏感的软级联模型的视频拷贝检测方法及系统的制作方法

文档序号：6373108阅读：284来源：国知局

专利名称：基于变形敏感的软级联模型的视频拷贝检测方法及系统的制作方法
技术领域：
本发明提供了一种基于变形敏感的软级联模型的视频拷贝检测方法及系统，可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝，在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。本发明属于计算机网络技术领域。
背景技术：
随着经济文化发展和技术进步，全球影视行业近年来一直稳步增长。仅2011年，我国电影票房就超过131亿人民币，较2010年增长28. 93%，而全球电影总票房更是创下326亿美元的新高。影视产业已经成为很多国家的支柱产业之一，比如美国的影视产业仅在2009年就创造了 1370亿美元的产值，提供了 220万个工作岗位。在影视资源日益丰富的同时，随着视频复制和网络传输技术的发展，盗版视频也愈加泛滥。据统计，全球超过23%的因特网流量用于传输侵犯知识产权的内容，其中大部分为盗版影视节目。如此大规模的盗版视频严重危害了影视作品创作者和广大消费者的利益。仅在2005年，盗版电影就导致全球电影产业损失了约205亿美元。同时，视频盗版问题也引发了越来越多的法律纠纷，比如Viacom媒体公司就曾于2007年起诉YouTube播放盗版视频，并索赔10亿美元。视频盗版问题正引起全社会的关注，各个国家纷纷出台相应法规打击盗版，比如美国通过了《反网络侵权与盗版法案》，大力制裁提供盗版视频的网站。打击盗版视频，保护数字版权，已经成为社会各界的共识。但是爆炸式增长的视频数量给版权保护带来了巨大的困难。2012年I月的统计数据表明，每分钟上传到YouTube的视频长度已超过60小时。面对海量视频内容，传统的人工审查制度显然力不从心，必须依靠自动的数字版权管理DRM(Digital Rights Management)技术。现有的DRM技术主要包括加密(Encryption)、数字水印(Digital Watermarking)和基于内容的拷贝检测CBO)(Content-Based Copy Detection)。其中，加密是指将他人容易理解的明文信息编码成难以理解的形式。目前，基于加密的DRM技术有诸多缺陷成熟的文本加密技术不能直接应用于视频数据；不同的DRM系统使用不同的加密方法，导致系统缺乏互用性和兼容性；加密技术限制了合法用户的使用权，妨碍了大众获得版权失效的视频内容；加密技术大大增加了发布数字视频的成本；加密技术面临模拟陷阱(AnalogHole)，即可以通过模拟方式翻录视频，然后重新数字化以绕过加密保护。数字水印是指向数字作品中嵌入特定信号，该信号可以被检测或提取出来，从而对作品的版权进行认定。数字水印同样面临诸多挑战嵌入的水印不够健壮，难以抵御如压缩之类的变形；嵌入水印会导致视频质量下降；数字水印不具备完备性，即任何人都可以向视频中加入自己的水印；数字水印同样面临模拟陷阱。上述问题限制了加密技术和数字水印在视频版权保护中的应用，作为两者的替代方案，基于内容的拷贝检测吸引了越来越多的关注。所谓拷贝(Copy)，是指从一段参考视频(Refe rence Video)经过某些音视频变形(Audio-Visual Transformation)后得到的视频。这里的“参考视频”可以看作受到版权保护的原始视频，比如影视节目，“拷贝”可以看作盗版视频，“音视频变形”是指在制作拷贝的过程中有意或无意加入的修改，比如在电影院偷录电影时会引入噪声和颜色失真。基于内容的拷贝检测CBCD (Content-Based Copy Detection),是指对于给定的参考视频库(Reference Video Data Base)和任意查询视频(Query Video),通过分析查询视频的内容来判断它是否包含来自参考视频库的拷贝片段，如果是的话，还要找出该片段在查询视频和参考视频库中的位置。拷贝检测可以有效克服基于加密和数字水印的DRM技术的缺陷。但是，拷贝检测也面临一系列技术难点。首先，拷贝视频可能经受了某些音视频变形，比如模糊、Gamma变换等质量下降，甚至是画中画、插入模式等内容改变(如图I所示)，这使得从拷贝视频和原始的参考视频中提取出不变的音视频特征(Audio-Visual Feature)变得困难，即要求特征具有很高的健壮性(Robustness)。其次,有一些非拷贝查询视频(Non-Copy Query)与参考视频非常相似(如图2所示)，为了准确地排除这些查询视频，需要特征具有很高的区分性(Discriminability)。再次，实际应用中的参考视频库规模很大，比如一家大型电影公司的所有电影，为了快速比对查询视频和参考视频，需要特征具有很高的紧致性 (Compactness)。最后，对于基于关键帧和索引的拷贝检测方法，需要合适的时域投票方法(Temporal Voting Approach)将巾贞层次的检索结果转化为视频层次的拷贝检测结果。为了解决上述难点，现有拷贝检测方法主要关注音视频特征、时域投票和多特征融合三个方面。音视频特征现有的音视频特征可以分成局部视觉特征、全局视觉特征和音频特征三类。局部视觉特征描述了一帧图像中的局部区域，或连续多帧图像中的时空立方体，比如 SIFT (Scale Invariant Feature Transform) > SURF (Speeded Up Robust Features)和STIP (Space-Time Interest Points),等等。全局视觉特征描述了一巾贞或连续多巾贞图像的整体统计信息，比如颜色直方图(Color Histogram)和序数度量(Ordinal Measure)。音频特征描述了视频音轨的时域和/或频域统计信息，比如健壮音频哈希(Robust AudioHashing)和 MFCC(Mel-Frequency Cepstral Coefficients)。当前的音视频特征都不是“包打天下”的，即没有一种特征能够抵御所有音视频变形。总体来说，局部视觉特征对部分内容改变的视觉变形(Partial Content-AlteredVisual Transformation)具有较好的健壮性，因为当图像或视频中的部分区域被改变时，仍然能够从未被改变的区域提取出不变的局部特征。但是对于一些内容保持的视觉变形(Content-Preserved Visual Transformation),比如模糊和加噪，局部视觉特征的健壮性不如全局视觉特征。此外，局部视觉特征的时空代价远高于全局视觉特征。全局视觉特征与局部视觉特征具有鲜明的互补性，它对于内容保持的视觉变形具有较高的健壮性，并且具有紧致性高、匹配速度快的优点。全局视觉特征的缺点在于对部分内容改变的视觉变形不够健壮，比如当视觉关键帧中最暗的区域被一个很亮的电视台标志挡住的时候，它的序数度量就会发生很大的改变。音频特征能够很好地抵御内容保持的音频变形(Content-Preserved Audio Transformation),并且也具有紧致性高、匹配速度快的优点。但是音频特征对于内容改变的音频变形(Content-Altered Audio Transformation),比如混合语音，仍然不够健壮。时域投票利用一种视觉特征或音频特征，可以为查询视频的视觉关键帧或音频帧找到最相近的参考视频的视觉关键帧或音频帧。然而拷贝检测需要的是为一个查询视频找到最相近的参考视频，这就引入了时域投票(Temporal Voting)的问题。时域投票可以利用视频的时域特性检测经过严重变形的拷贝，同时排除与参考视频相似的非拷贝，因此对于拷贝检测系统非常重要。目前已经有多种时域投票方法。霍夫变换(Hough Transform)是一种适用于所有音视频特征的时域投票模型，它的出发点是两个视频之间相互匹配的视觉关键帧或音频帧应该是对齐的，即所有匹配具有相似的时间差。几何一致性匹配(Geometrically Consistent Matching)以及时空验证(Spatio-Temporal Verification)都是针对局部视觉特征的时域投票模型，两者的出发点都是限制查询视频和参考视频的特征匹配符合某个全局变换模型(Global Transform Model)。基于维特比算法的巾贞融合(Viterbi-based Frame Fusion)也是一种适用于所有音视频特征的时域投票模型,该方法将时域投票过程转化为隐马尔科夫模型(Hidden Markov Models)的解码问题，并利用一个修改的维特比算法(Viterbi Algorithm)进行快速求解。上述几种时域投票方法都存在一定的问题。霍夫变换对帧层次匹配施加了很强的时域一致性约束，虽然能较好地排除非拷贝，但也容易漏掉一些经过严重变形的拷贝；几何一致性匹配和时空验证都是为局部视觉特征设计的，在计算全局变换模型时需要使用局部视觉特征的位置等信息，因此不适用于全局视觉特征和音频特征；基于维特比算法的帧融合使用的模型复杂，计算速度慢。多特征融合方法如前所述，目前还没有“包打天下”的特征，因此越来越多的拷贝检测方法开始利用多种特征，即使用几个相互独立的检测器(Detector)，每个检测器利用一种特征得到一个单独的拷贝检测结果，最后将几个检测器的结果融合成为最终的拷贝检测结果。竞争型结果融合模型就是一个典型的例子，该模型将几个检测器的结果进行竞争，胜出的作为最终结果。重排序型结果融合模型类似于元搜索引擎中使用的重排序(Re-ranking)策略，即每个检测器分别返回若干个与查询视频最相似的参考视频，对这些参考视频进行合并同时重新计算相似度，取相似度最高的参考视频作为最终结果。校验型结果融合模型将几个检测器的结果相互校验，若保持一致则成为最终结果，否则采用额外的方法重新计算。分工型结果融合模型首先对查询视频进行变形识别，根据它经受的变形调用相应的检测器进行处理。上述结果层融合方法虽然都取得了比单一检测器好的效果，但仍然存在一定的问题。对竞争型、重排序型和校验型融合方法来说，因为要执行所有检测器，所以处理时间至少是各个检测器的运行时间之和，检测效率低下。分工型融合方法每次只需要执行一个检测器，相对于使用单一检测器来说，仅仅增加了变形识别的时间；但是它的总体性能严重依赖于变形识别的效果，对于经受复杂变形的查询视频，变形识别很可能失败，这时系统会选择不合适的检测器，影响检测效果。

发明内容
本发明针对较大规模、包含复杂变形的视频拷贝检测问题，提出了一种基于变形敏感的软级联TSSC(Transformation_Sensitive Soft Cascade)模型的视频拷贝检测方法及系统。一种基于变形敏感的软级联模型的视频拷贝检测方法，包括以下步骤预处理步骤，从查询视频中提取出格式一致的视觉关键帧和音频帧；变形识别步骤，判定所述查询视频经受的变形的类别，并将它传递给该类别对应的级联检测器链；检测步骤，所述级联检测器链中的检测器依次处理所述查询视频，直到其中一个检测器判定它为拷贝，或者所有检测器判定它为非拷贝。每个检测器首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，然后利用时域金字塔匹配TPM(Temporal Pyramid Matching)将巾贞层次的检索结果整合为视频层次的拷贝检测结果。所述预处理步骤用于从格式千差万别的视频中提取出格式一致的视觉关键帧和音视帧。预处理的第一步是提取视觉关键帧，第二步是提取音频帧，第三步是针对特定的变形进行额外的处理。作为预处理方案的优选，本发明的实施例针对画中画和左右翻转变形，采取了额外处理。
所述变形识别步骤将音视频混合变形分成若干类别，并根据查询视频的音频帧和视觉关键帧的分类结果来判定查询视频经受的变形的类别。其中，对音视频混合变形进行分类的依据有两点第一，各个类别具有较大的类间差异和较小的类内差异，可以被有效地区分开。第二，同一个类别中的变形可以被相同的级联检测器链处理。作为变形识别方案的优选，本发明的实施例将音视频混合变形分为三类，第一类指“包含音频，并且经受内容保持的音频变形”，第二类指“静音或经受内容改变的音频变形，并且经受内容保持的视觉变形”，第三类指“静音或经受内容改变的音频变形，并且经受内容改变的视觉变形”。本发明利用WASF特征来判断视频是否是静音的，利用WASF特征与支持向量机SVM来判断视频是否经受了内容改变的音频变形，利用稠密彩色SIFT词袋(Dense Color SIFT Bag-of-ffords, DCSIFT Boff)特征与SVM来判断视频是否经受了内容改变的视觉变形。所述检测器通过处理查询视频的视觉关键帧或音频帧，来判定查询视频是否是给定参考视频库的拷贝。在某一个检测器内部，首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到最相似的参考视频的视觉关键帧或音频帧，然后利用时域金字塔匹配TPM将这些帧层次的检索结果整合为视频层次的拷贝检测结果。所述视觉特征和音频特征有多种，每一种特征对应一个检测器。具体说来，应该包含一种局部视觉特征，用于抵御内容改变的视觉变形(Content-Altered VisualTransformation),比如摄录、画中画和后处理；应该包含一种全局视觉特征，用于抵御内容保持的视觉变形(Content-Preserved Visual Transformation),比如压缩、Gamma 变换和加噪；还应该包含一种音频特征，用于抵御内容保持的音频变形(Content-PreservedAudio Transformation),比如MP3压缩和多带扩展。作为特征的优选，本发明的实施例采用了一种局部视觉特征DCSIFT BoW，一种全局视觉特征DCT，以及一种音频特征WASF。所述TPM用于将帧层次的检索结果整合为视频层次的拷贝检测结果。TPM包含以下步骤第一步，对帧层次匹配集合进行霍夫变换，得到若干视频匹配的假设，每个假设指明了一个查询视频片段和一个参考视频片段。第二步，对于第一步中得出的每一个假设，将其中指定的查询视频片段和参考视频片段分割为越来越精细的子段，并在多个粒度上计算视频之间的相似度。在每一个粒度上，只有位于对应子段的帧层次匹配被保留下来，并参与相似度的计算。各个粒度上的相似度的加权和构成最终的视频相似度，每一个假设及对应的相似度就构成了一个视频匹配。第三步，从第二步计算出的视频匹配中挑选出相似度最大的那一个作为最终输出，并根据它的相似度判定查询视频是否为拷贝若相似度大于等于某个预先设定的阈值，则判定它是拷贝视频。所述级联检测器链有多条，每一条链处理一类音视频混合变形。构造级联检测器链的依据有两点第一，要充分利用各个检测器对不同变形的健壮性。第二，要保留一定的冗余处理能力，以应对变形识别错误的情况。作为级联检测器链的优选，本发明的实施例为第一类和第二类变形构建了一个快速的级联检测器链，其中包含WASF检测器和DCT检测器，为第三类变形构建了一个健壮的级联检测器链，包含WASF检测器、DCT检测器以及DCSIFT检测器。所述级联检测器链包含一个相似度阈值向量，其中每一个阈值对应一个检测器，用于判定查询视频是否是拷贝。所述TSSC模型使用阈值学习算法，自动为级联检测器链选择出最优的相似度阈值向量。所述阈值学习算法定义了检测器在一个训练视频集上的错误率，用于衡量检测器在训练视频集上的检测效果。所述错误率是检测器在所有训练视频上的检测代价的加权和。训练视频的权重是不同的，而且可以根据视频重要性的变化进行调整。检测代价与检测器使用的相似度阈值有关，对于相同的视频匹配，不同的阈值会导致不同的拷贝判定结果，继而导致不同的检测代价。因此，对于给定的检测器和训练视频集，错误率取决于检测器使用的相似度阈值以及训练视频的权重分配。所述阈值学习算法的依据有两点第一，最优阈值应该在减少假正检FP(FalsePositive)和减少假负检FN(False Negative)之间取得合适的折衷,为此需要在一系列阈值上计算检测器的错误率，阈值的取值范围是检测器为所有训练视频返回的视频匹配的相似度，与最小错误率相对应的相似度就被选作最优阈值。第二，后面的检测器应该重点关注前面的检测器检测错误的训练视频，从而充分发挥检测器之间的互补性。为此，在执行后面的检测器时，要修改训练视频的权重，使得之前被正确检测的视频的权重减小。一种基于变形敏感的软级联模型的视频拷贝检测系统，包括以下模块预处理模块，从查询视频中提取出格式一致的视觉关键帧和音频帧；变形识别模块，判定所述查询视频经受的变形的类别；多个检测器模块，每个检测器首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到帧层次匹配的集合，然后利用时域金字塔匹配TPM处理帧层次匹配的集合，得到一个视频匹配；TSSC模块，根据变形识别结果以及用户的配置，调用一组检测器模块依次处理查询视频，直到其中一个检测器判定它为拷贝，或者所有检测器判定它为非拷贝；用户配置与结果展示模块，允许用户选择系统使用的预处理操作和检测器，并将拷贝检测结果展示给用户。每一个检测器模块包括以下子模块帧层次检索子模块，利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到最相似的参考视频的视觉关键帧或音频帧，查询视频的视觉关键帧或音频帧与检索到的参考视频的视觉关键帧或音频帧构成帧层次匹配的集合；时域金字塔匹配TPM子模块，利用时域金字塔匹配TPM处理帧层次匹配的集合，得到与查询视频最相似的参考视频，以及两者的相似度，查询视频与返回的参考视频构成一个视频匹配。与现有技术相比，本发明的创新点和优势主要包括I、利用预处理排除了视频格式不同造成的影响；在保持视频主要的视觉内容的同时丢弃了大部分视频帧，降低了帧层次检索的时空代价；通过针对画中画和翻转变形的额外处理，提高了拷贝检测效果。2、挑选了多种互补的音视频特征，每种特征都能有效抵御一类变形，通过TSSC模型对这些特征进行结果层融合，可以抵御绝大部分变形。3、利用TPM将帧层次的检索结果整合为视频层次的拷贝检测结果。TPM充分利用了视频的时域特性，提高了拷贝检测效果，并且模型简单，计算快速。4、利用变形识别判断出查询视频经受的变形的类别，并为每一类变形“量身订做”了一条级联检测器链，充分利用多个检测器的互补优势，大大提高了拷贝检测效果。5、对于绝大部分查询视频，TSSC模型只需要执行一到两个非常快速的检测器，仅仅对于少数经受复杂变形的查询视频，TSSC模型才需要执行慢速的检测器。总体说来，TSSC模型节省了大部分处理时间，大大提高了拷贝检测速度。6、TSSC模型利用阈值学习算法，自动选择最优的相似度阈值。这样一方面充分发挥了检测器之间的互补特性，使系统达到最优的检测效果和速度，另一方面避免了人工调整阈值的麻烦，提高了系统的通用性。7、本发明可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝，在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。

图I拷贝视频经受的视觉变形示例中心是原始的参考视频，周围是拷贝视频；图2与参考视频非常相似的非拷贝查询视频示例(a)是在不同的球队在同一个冰球场打球，(b)是不同的嘉宾接受同一个主持人采访；图3基于变形敏感的软级联模型的视频拷贝检测方法的流程图；图4变形识别过程的流程图；图5检测器的框架；图6利用DCS I FT Boff特征检索视觉关键帧的过程；图7 DCT特征的能量子带分布；图8 WASF特征提取过程；图9 TPM预处理过程示意图；图10 —个L = 2的TPM的示例；图11基于变形敏感的软级联模型的视频拷贝检测系统的框架。
具体实施例方式下面结合实施例和附图，对本发明进行详细的描述。一种基于变形敏感的软级联模型的视频拷贝检测方法，其整体流程参见图3。其中，预处理操作包括以下步骤
步骤11 :提取视觉关键巾贞；本发明按照每秒3巾贞的频率，等间隔地提取视觉关键帧。每秒3帧的采样率可以在保持视频主要视觉内容的同时丢弃大部分视频帧，节约了视觉帧检索的时空代价。步骤12 :提取音频帧；为此，首先要将视频的音轨分割成90毫秒的音频字，相邻音频字之间有60毫秒的重叠，然后，连续198个音频字构成一个6秒长的音频帧，相邻音频帧共用178个音频字，即有5. 4秒的重叠。步骤13 :对于查询视频，采取了额外的预处理措施，以便更好地应对画中画和左右翻转变形；具体说来，利用二维霍夫变换来检测两组平行线，继而检测和定位出画中画的区域；对于包含画中画的视频，要分别对整个视觉关键帧和画中画部分进行检测，只要有一个结果判定它是拷贝，就确认它是拷贝；此外，为应对潜在的左右翻转变形，所有判定为非拷贝的查询视频都要翻转过来重新进行拷贝检测。变形识别模块将音视频混合变形分为三类，第一类指“包含音频，并且经受内容保持的音频变形”，第二类指“静音或经受内容改变的音频变形，并且经受内容保持的视觉变形”，第三类指“静音或经受内容改变的音频变形，并且经受内容改变的视觉变形”。变形识别过程参见图4，包括以下步骤步骤21 :从查询视频的音频帧中提取WASF特征，WASF特征提取过程参见步骤61。若某一个WASF特征向量全部由0组成，则说明对应的音频帧是静音的。如果超过10%的音频帧是静音的，则判断该视频是静音的；如果查询视频是静音的，则执行步骤23，否则执行步骤22。步骤22 :将查询视频的WASF特征依次送入一个支持向量机SVM(Support VectorMachine)，判断对应的音频帧是否经受了内容改变的音频变形。通过对所有音频帧的结果进行投票，判断该视频是否经受了内容改变的音频变形。如果查询视频没有经受内容改变的音频变形，则判定它属于第一类变形，并终止变形识别过程；否则执行步骤23。步骤23 :对查询视频进行画中画检测，如果包含画中画，则判定它属于第三类变形，并终止变形识别过程；否则执行步骤24。步骤24 :从查询视频的视觉关键帧中提取DCSIFT BoW特征，DCSIFT BoW特征提取过程参见步骤41 ;将这些特征依次送入第二个SVM，判断对应的视觉关键帧是否经受了内容改变的视觉变形。通过对所有视觉关键帧的结果进行投票，判断该视频是否经受了内容改变的视觉变形。如果查询视频经受了内容改变的视觉变形，则判定它属于第三类变形，否则判定它属于第二类变形。终止变形识别过程。本发明采用的检测器的框架参见图5，检测过程包括步骤31 :在离线处理阶段，从所有参考视频的视觉关键帧(音频帧)中提取某种视觉特征(音频特征)，然后存储在合适的索引结构中。步骤32 :在查询阶段，检索查询视频的视觉关键帧(音频帧)。为此，首先使用步骤31中的特征提取方法，从查询视频的视觉关键帧(音频帧)中提取出特征，然后在参考特征索引中进行搜索，为每一个查询视频的视觉关键帧(音频帧)找出最相似的Kf个参考视频的视觉关键帧(音频帧)，得到一个帧层次匹配的集合FM，其中包含一系列帧层次匹配fm = <q, t (q), r, t (r), fs>(I)
其中，q和r分别表示查询视频和参考视频的ID，t (q)和t (r)分别表示查询视频的视觉关键巾贞(首频巾贞)和参考视频的视觉关键巾贞(首频巾贞)的时间戮，fs表不两个视觉关键帧(音频帧)的相似度；fm表示q位于t(q)时刻的视觉关键帧(音频帧)匹配上了r位于t(r)时刻的视觉关键帧(音频帧)，两帧之间的相似度为fs。Kf代表为每个查询视频的视觉关键帧(音频帧)检索出的最相似的参考视频的视觉关键帧(音频帧)的数目，其取值范围是5 < Kf < 100，本发明的实施例使用Kf = 20。步骤33 :在查询阶段，对帧层次匹配集合FM进行时域金字塔匹配TPM(TemporalPyramid Matching),得到最相似的视频层次匹配 vm (q) = <q, tB (q), tE(q), r, tB (r), tE (r), vs>(2)其中，q和r分别表示查询视频和参考视频的ID，tB (q)和tE (q)表示查询视频q中的拷贝片段的起止时间戳，tB(r)和tE(r)表示该拷贝片段对应的参考视频r中的片段的起止时间戳，vs表示查询视频q与参考视频r的相似度。vm(q)表示q的片段[tB(q), tE(q)]匹配到了 r的片段[tB(r)，tE(r)]，两个视频之间的相似度为vs。然后，根据vs和一个预先设定的相似度阈值0判定查询视频是否为拷贝，若vs ^ 0 ,则输出C (q, tB (q), tE (q), r, tB (r), tE (r))(3)表明q是r的拷贝，简记作C(q，r)。其中公式(3)中各个参数的含义与公式(2)相同。否则输出⑷表明q不是拷贝。本发明利用三种互补的音视频特征，即DCSIFT Boff,DCT和WASF，构建了三个相互独立的检测器desiFT、dDCT和dWASF，每个检测器都按照步骤31 33进行拷贝检测。利用DCSIFT Boff特征检索视觉关键帧的过程参见图6，其过程包括步骤41 :在离线处理阶段，从所有参考视频的视觉关键帧中提取出稠密彩色SIFT (Dense Color SIFT，DCSIFT)特征，量化为词袋 BoW(Bag-of-Words)表达方式，并存储在倒排索引中。具体地，DCSIFT与传统SIFT的区别在于稠密(Dense)和彩色(Color)。所谓稠密，是指抛弃了 SIFT的兴趣点检测模块，转而使用多尺度稠密采样(Multi-Scale DenseSampling)将图像划分为多个区域，将其中的单色区域抛弃后，为剩下的每个区域计算一个局部特征。所谓彩色，指的是描述子并不是从灰度图像中提取的，而是从LAB彩色图像的3个通道中提取，然后拼接在一起。具体地，本发明使用优化的BoW方法对DCSIFT特征进行量化，并使用倒排索引存储量化后的DCSIFT BoW特征。由于向量量化会削弱描述子的区分性，本发明考虑了特征的位置、尺度和主方向信息，以弥补描述子量化时损失的区分性。具体说来，首先随机选择出10，000，000个参考视频的描述子，利用KMeans算法将其聚成800个簇，之后每一个描述子都可以量化为一个簇ID。特征的位置、尺度和主方向也依次量化为4、2和16个格子。于是，扩展后的视觉词典(Visual Vocabulary)包含800X4X2X16 = 102，400个视觉单词(Visual Word)。每一个视觉关键帧可以表示为一系列视觉单词的集合，简称为词袋B0W(Bag-Of-Words)。为了加快特征匹配，使用倒排索引来存储所有参考视频的DCSIFT Boff特征。步骤42 :在查询阶段，利用相同的特征提取与量化方法，从查询视频的视觉关键帧中提取出DCSIFT BoW特征，并对参考视频库的DCSIFT BoW倒排索引进行搜索，得到帧层次匹配的集合FM。利用DCT特征检索视觉关键帧的过程包括步骤51 :在离线处理阶段，从所有参考视频的视觉关键帧中提取出DCT特征，并存储在局部敏感哈希 LSH(Locality Sensitive Hashing)中。具体地，DCT特征是根据相邻图像块的DCT系数的关系计算出来的，其过程包括I.将图像转变为灰度图，并归一化为64X64像素；2.将图像等分为64个子块，子块编号为0 63，每个子块包含8X8个像素；
·
3 对每一个子块进行离散余弦变换DCT (Discrete Cosine Transform),得到8X8的系数矩阵；4.计算出每个系数矩阵的前4个子带的能量，前4个子带的编号为0 3，分布如图7所示；5.根据相邻子块的子带能量的大小关系，生成一个256维的特征F256
权利要求
1.一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于包括以下步骤预处理步骤，从查询视频中提取出格式一致的视觉关键帧和音频帧；变形识别步骤，判定查询视频经受的变形的类别，并将它传递给该类别对应的级联检测器链；检测步骤，级联检测器链中的检测器依次处理所述查询视频，直到其中一个检测器判定它为拷贝，或者所有检测器判定它为非拷贝。
2.根据权利要求I所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述变形识别步骤，利用WASF特征来判断查询视频是否是静音的，利用WASF特征与支持向量机SVM来判断查询视频是否经受了内容改变的音频变形，利用DCSIFT BoW特征与SVM来判断查询视频是否经受了内容改变的视觉变形。
3.根据权利要求I所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于每一个检测器包括以下检测步骤帧层次检索步骤，利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到最相似的参考视频的视觉关键帧或音频帧，查询视频的视觉关键帧或音频帧与检索到的参考视频的视觉关键帧或音频帧构成帧层次匹配的集合；时域金字塔匹配TPM步骤，利用时域金字塔匹配TPM处理帧层次匹配的集合，得到与查询视频最相似的参考视频，以及两者的相似度，查询视频与返回的参考视频构成一个视频匹配。
4.根据权利要求3所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述视觉特征和音频特征至少包含一种效果好的局部视觉特征、一种速度快的全局视觉特征以及一种速度快的音频特征，每种特征对应一个检测器。
5.根据权利要求3所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述时域金字塔匹配TPM将查询视频和参考视频分割为越来越精细的子段，并在多个粒度上计算视频之间的相似度；在每一个粒度上，只有位于对应子段的帧层次匹配被保留下来，并参与该粒度上的相似度的计算；各个粒度上的相似度的加权和构成最终的相似度。
6.根据权利要求I所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述检测步骤，级联检测器链上的检测器依次处理查询视频，每一个检测器返回与查询视频最相似的参考视频及相似度，若相似度大于等于某个预先设定的阈值，则判定查询视频是拷贝，并终止运行，否则执行下一个检测器；仅当所有检测器全部判定查询视频为非拷贝时，系统才会接受它为非拷贝视频。
7.根据权利要求6所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于使用阈值学习算法，自动为级联检测器链选择出最优的相似度阈值向量；每一个相似度阈值对应一个检测器，用于判定查询视频是否是拷贝。
8.根据权利要求7所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述阈值学习算法定义了检测器在一个训练视频集上的错误率；对于给定的检测器和训练视频集，所述错误率取决于检测器使用的相似度阈值以及所有训练视频的权重。
9.根据权利要求7所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述阈值学习算法在为一个检查器挑选最优阈值的时候，将阈值设定为一系列值并分别计算检测器的错误率，与最小错误率相对应的阈值就被选作最优阈值；阈值的取值范围是检测器为所有训练视频返回的视频匹配的相似度的集合。
10.根据权利要求7所述的一种基于变形敏感的软级联模型的视频拷贝检测方法，其特征在于所述阈值学习算法在为一个检查器挑选出最优阈值之后，会减小该检测器检测正确的训练视频的权重；权重减小的程度取决于检测器的最小错误率，最小错误率越小，权重减小的程度越大。
11.一种基于变形敏感的软级联模型的视频拷贝检测系统，其特征在于包括以下模块预处理模块，从查询视频中提取出格式一致的视觉关键帧和音频帧；变形识别模块，判定所述查询视频经受的变形的类别；多个检测器模块，每个检测器首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到帧层次匹配的集合，然后利用时域金字塔匹配TPM处理帧层次匹配的集合，得到一个视频匹配； TSSC模块，根据变形识别结果以及用户的配置，调用一组检测器模块依次处理查询视频，直到其中一个检测器判定它为拷贝，或者所有检测器判定它为非拷贝；用户配置与结果展示模块，允许用户选择系统使用的预处理操作和检测器，并将拷贝检测结果展示给用户。
12.根据权利要求11所述的一种基于变形敏感的软级联模型的视频拷贝检测系统，其特征在于每一个检测器模块包括以下子模块帧层次检索子模块，利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，得到最相似的参考视频的视觉关键帧或音频帧，查询视频的视觉关键帧或音频帧与检索到的参考视频的视觉关键帧或音频帧构成帧层次匹配的集合；时域金字塔匹配TPM子模块，利用时域金字塔匹配TPM处理帧层次匹配的集合，得到与查询视频最相似的参考视频，以及两者的相似度，查询视频与返回的参考视频构成一个视频匹配。
全文摘要
本发明提供了基于变形敏感的软级联模型的视频拷贝检测方法及系统。包括以下步骤预处理步骤，从查询视频中提取出格式一致的视觉关键帧和音频帧；变形识别步骤，判定所述查询视频经受的变形的类别，并将它传递给该类别对应的级联检测器链；检测步骤级联检测器链中的检测器依次处理查询视频，直到某个检测器判定它为拷贝，或者所有检测器全部判定它为非拷贝，在某一个检测器内部，首先利用一种视觉特征或音频特征检索查询视频的视觉关键帧或音频帧，然后利用时域金字塔匹配TPM将帧层次的检索结果整合为视频层次的拷贝检测结果。本发明可以准确、快速地鉴定查询视频是否是给定参考视频库的拷贝，在数字版权管理、广告跟踪、视频内容过滤等领域都有重要的应用。
文档编号G06F17/30GK102737135SQ20121023855
公开日2012年10月17日申请日期2012年7月10日优先权日2012年7月10日
发明者姜梦林, 田永鸿, 黄铁军申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田永鸿;姜梦林;黄铁军
技术所有人：北京大学
我是此专利的发明人

上一篇：便携式终端的用户界面对象的布置方法及装置的制作方法
上一篇：分块的图形结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。