一种基于视频重构的重复片段定位方法

文档序号：7852887阅读：248来源：国知局

专利名称：一种基于视频重构的重复片段定位方法
技术领域：
本发明涉及数字媒体挖掘、版权保护技术领域，尤其涉及一种基于视频重构的重复片段定位方法。
背景技术：
随着图像和视频采集设备的广泛普及以及互联网技术的飞速发展，人们可以方便地通过一些流行的图像/视频分享网站来分享自己的数字作品，这使得多媒体信息资源空前丰富。比如，著名的图像分享网站Flickr和视频分享网站YouTube存储了数以十亿计的图像/视频文件。通常，这些共享视频是一些用户自制的个性化视频，除了纯原创作品外，很大一部分作品是通过视频编辑软件加工合成一系列现有视频片段构成，特别是网上流行的视频片段被不同视频作品频繁引用。从多媒体数据挖掘的角度来说，既然多个不同视频作品包含同一视频片段，那就说明它们之间在语义上存在着某种联系，比如这些视频可能都是在讲述关于同一主题的故事等。如果能根据视频片段的重复出现性来寻找视频数据库中视频间存在的一些语义关联，并将这些关联信息融合到多媒体搜索之中，就可以有效地减少系统相似性度量和用户感知的不一致性，进而提高多媒体搜索引擎的搜索质量。从数字媒体版权保护的角度，被引用视频片段的原创单位或个人需要知道其作品被哪些视频使用，进而维护其数字媒体的知识产权。无论是多媒体数据挖掘还是数字媒体版权保护，其核心问题是如何准确地判断、并精确地定位出多媒体中重复出现的视频片段。由于被引用视频片段并不是原封不动的被插入到新视频作品中，而是经过一定的视频编辑之后才被使用，所以重复片段定位的主要挑战是如何快速精确地在视频作品中定位这些经过视频变换的片段。最近几年，重复视频片段检测吸引了众多研究机构的目光，并且产生了大量的成果。在早期的研究中，待检测的视频通常是一个比较短的视频片段，我们称之为查询视频，重复检测的目标是判断此查询视频片段是否和引用视频中某等长片段一致。较为常见的检测模式是基于模板匹配的方法，其分三步进行(I)首先，抽取查询视频片段和引用视频片段的关键帧并提取特征；(2)其次，查询视频通过一个滑动窗来顺序地匹配引用视频上所有和其等长的子视频，这种匹配是通过累积查询视频帧和引用子视频帧的视觉相似程度来获得的；(3)最后，通过相似度阈值判断，来确定查询视频片段是否和对应的子视频是重复的。这种方法的一个明显不足是，查询视频片段被当成一个整体来进行判断，要么全部和某段引用子视频重复，要么全部不重复。也就是说，如果查询片段中只有一小部分和引用视频重复，基于模板匹配的方法就会产生很大偏差甚至失效。一种可能的改进措施是将查询片段重新分解成所有可能的子片段，对每一个子片段再应用上述方法进行检测。然而，如果查询片段很长，那么这种方法将极大增加系统的时间开销，影响系统的响应效率。另一种可选的方法是使用基于视频重构的重复片段定位方法。这种方法主要包括四个主要步骤
(I)首先，抽取查询视频片段和引用视频片段的关键帧；(2)其次，为每一幅关键巾贞提取视觉特征；(3)然后，通过视觉特征的相似性计算，为每个查询帧从所有引用视频关键帧中搜索一个最相似的引用关键巾贞列表。(4)最后，利用时间上的一致性约束来从相似引用关键帧列表中重构引用视频片段，进而判断查询中是否有重复片段出现。由于这种方法不再直接将查询序列和引用视频序列进行直接窗口匹配，所以它能更加灵活地处理查询视频中子片段的重复检测问题。然而，当前的重构算法大都是以一种批处理的方式来重构引用视频片段。也就是说，它们要求事先一次性为所有查询关键帧都返回一个相似引用帧列表，然后成批地处理所有列表以判断查询视频中是否有重复片段出现。对于小段查询视频，这种方法不仅形式简单，而且检测效果也很好。但是，如果查询视频太长，这种批处理方式就会面临高计算复杂度和高内存空间的问题，限制了其在实际媒体环境中的应用。

发明内容
本发明的目的在于提供一种基于视频重构的重复片段定位方法来解决传统方法中存在的问题。通过有效地利用重复片段之间的时间一致性信息来自动判断长查询视频和长引用视频中是否有重复片段出现，并精确地定位出其出现位置。为了达到以上目的，本发明公开了一种基于视频重构的重复片段定位方法，包括以下步骤(I).去除查询视频序列和引用视频序列中视频帧与视频帧之间存在的大量冗余，为时间临近、内容一致的小段视频抽取具有代表性的视频关键帧，实现数据的精简处理；(2).利用伪文本文档来描述视频关键帧内容；(3).将视频关键帧之间的视觉相似性计算转化为伪文本文档之间的相似性度量，对查询视频关键帧和引用视频关键帧之间的相似性进行度量，进而为每一幅查询关键帧返回一系列相似引用关键帧；(4).综合利用重复视频片段的时间一致性约束及不重复片段之间的时间不连续性来重构引用视频片段、确定重复视频片段的边界信息。进一步，作为一种优选，所述步骤(I)中通过一种基于镜头边界约束的均匀采样方法来抽取视频的关键帧序列。进一步，作为一种优选，上述具体的关键帧提取步骤如下首先，利用镜头检测方法，将引用数据库中视频分割成一个个视频镜头；然后，在每一个视频镜头内均匀采样，获得一系列可以表示此镜头的关键帧；最后，将镜头的时间边界信息和镜头内采样的关键帧关联起来。进一步，作为一种优选，所述步骤(2)采用词包技术将局部SIFT描述子量化视觉词，并显式地将视觉词包转化为一个伪文本文档。进一步，作为一种优选，所述伪文本文档具体的提取流程如下首先,使用Hessian-Affine Region Extractor来为每一幅关键巾贞提取一系列仿射不变的关键点；
其次，为每一个关键点计算一个128维的SIFT描述子；然后，采用词包(Bag-of-Words)技术将每一幅关键帧中的所有局部SIFT描述子量化为视觉词；最后，为每幅关键巾贞中的唯一视觉词显式地对于一个唯一的、随机产生的文本词，所有的伪文本词构成一个伪文本文档。进一步,作为一种优选,所述步骤(3)中直接采用文本搜索领域的0kapiBM25相似性度量函数来测量查询帧和引用帧对应伪文本文档的相似度。本发明和现有技术相比具有以下有益效果本发明并不特定于短查询视频的重复检测，也不依赖于特定的阈值选择方法，而是采用一种在线的(on-line)方式来检测重复片段。在这种在线方式下，对于每一个到达的查询关键帧，都要做出一个判断，这不仅判断此查询关键帧是否和某引用帧重复，还断定此查询视频帧是否是重复片段的起始或终止位置。

当结合附图考虑时，通过参照下面的详细描述，能够更完整更好地理解本发明以及容易得知其中许多伴随的优点，但此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，其中图I是本发明定位方法流程图；图2查询视频关键帧相似性搜索示意图；图3时间一致性约束示意图；图4引用视频序列重构示意图。
具体实施例方式参照图I至图4对本发明的实施例进行说明。为使上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式
对本发明作进一步详细的说明。如图I所示，一种基于视频重构的重复片段定位方法，包括以下步骤SI、去除查询视频序列和弓I用视频序列中视频帧与视频帧之间存在的大量冗余，为时间临近、内容一致的小段视频抽取具有代表性的视频关键帧，实现数据的精简处理；S2、利用伪文本文档来描述视频关键帧内容；S3、将视频关键帧之间的视觉相似性计算转化为伪文本文档之间的相似性度量，对查询视频关键帧和引用视频关键帧之间的相似性进行度量，进而为每一幅查询关键帧返回一系列相似引用关键帧；S4、综合利用重复视频片段的时间一致性约束及不重复片段之间的时间不连续性来重构引用视频片段、确定重复视频片段的边界信息。以下对发明各部分进行详细说明I.关键帧提取目前，普遍使用的关键帧提取方法主要有两种。一种是先通过镜头检测算法将视频分割成内容一致的镜头，然后选择一帧来作为此镜头的关键帧。另一种是直接通过均匀采样来获取视频的关键帧。事实上，这两种方法各有优缺点。基于镜头的关键帧提取方法可以最大程度的降低数据量，但丢失了太多的时间信息。而基于均匀采样的提取方法可以通过加大采样密度来获取更多时间信息，但采集的数据量比较大。本发明将两种关键帧提取算法融合成一个方法，提出了一种基于镜头边界约束的均匀采样方案，其具体的关键帧提取步骤如下(I).首先，利用镜头检测方法，将引用数据库中视频分割成一个个视频镜头；(2).然后，在每一个视频镜头内均匀采样，获得一系列可以表示此镜头的关键帧。本发明每秒采样3帧；(3).最后，将镜头的时间边界信息和镜头内采样的关键帧关联起来。这种关键帧提取方法的主要特征是，每一幅均匀采样的关键帧都对应一个镜头边界。利用关键帧的镜头边界信息，就可以很好地缓解由视频变换或特征的不完美性造成的匹配偏移问题。另外，这个边界信息对于定位拷贝的起源位置也很有帮助。2.伪文本特征提取本发明也采用了伪文本文档来描述视频关键帧的内容，其具体的提取流程如下(I).首先,使用Hessian-Affine Region Extractor来为每一幅关键巾贞提取一系列仿射不变的关键点；(2).其次，为每一个关键点计算一个128维的SIFT描述子；(3).然后，采用词包(Bag-of-Words)技术将每一幅关键帧中的所有局部SIFT描述子量化为视觉词；(4).最后，为每幅关键巾贞中的唯一视觉词显式地对于一个唯一的、随机产生的文本词，所有的伪文本词构成一个伪文本文档。3.视频关键帧的相似性度量由于本发明将每一幅视频关键帧转化为一个伪文本文档，所以视频关键帧直接的相似性计算可以转化为伪文本文档之间的相似性计算。因此，我们可以直接利用文本搜索领域中许多成熟的索引方法及相似性度量方法来快速地进行视频关键帧的相似性度量。本发明采用了文本搜索领域的0kapiBM25相似性度量函来测量查询帧和引用帧的相似度。4.引用视频片段的重构基于引用视频片段重构的重复片段定位方法的具体流程(I).如图2所示，通过关键帧相似性搜索，本发明首先为每一幅查询视频关键帧返回一系列相似的引用视频关键帧；其中S1-S7为查询帧，Y11-Y74为引用帧，S2、S3、S4分别和Y22、Y31和Y43相似。(2).根据时间一致性约束条件来融合这些返回的引用帧，重构时间连续的引用视频片段。如图3所示，时间一致性约束条是指如果某段查询视频和某段引用视频重复，那么它们的对应视频帧应该是连续相似的，例如查询子片段Q和引用子片段R连续相似。(3).如图4所示，对于某个查询子片段Q，比如S2、S3和S4，如果我们能从它的相似引用帧中找到时间连续的三个引用帧，比如Y22、Y31和Y43三帧。那么这三个引用帧就可以重构出一个时间连续的引用视频片段，也就可以断定查询子片段Q和此重构的引用视频片段是重复的。
(4).以上三个步骤只能判断查询视频片段Q是否和某段引用视频重复，但并没有解决如何定位Q在查询流中的起始终止位置的问题。本发明利用不重复片段之间的时间不连续性来确定重复视频的边界。如果t时刻的查询帧的相似引用帧h不能从其后At个时刻引用帧中找到一个时间连续的帧，那么查询序列的时刻位置t很可能就是一个重复片段的结束位置。重复片段的开始位置可以采用类似的方法确定。由于重复视频的判断、边界的定位是以一种在线的(On-Line)的方式进行，其可以处理长查询视频或无边界查询视频流的情况，为后续的长视频间语义关联挖掘、版权保护打下基础。
如上所述，对本发明的实施例进行了详细地说明，但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形，这对本领域的技术人员来说是显而易见的。因此，这样的变形例也全部包含在本发明的保护范围之内。
权利要求
1.一种基于视频重构的重复片段定位方法，其特征在于，包括以下步骤 (1).去除查询视频序列和引用视频序列中视频帧与视频帧之间存在的大量冗余，为时间临近、内容一致的小段视频抽取具有代表性的视频关键帧，实现数据的精简处理； (2).利用伪文本文档来描述视频关键帧内容； (3).将视频关键帧之间的视觉相似性计算转化为伪文本文档之间的相似性度量，对查询视频关键帧和引用视频关键帧之间的相似性进行度量，进而为每一幅查询关键帧返回一系列相似引用关键巾贞; (4).综合利用重复视频片段的时间一致性约束及不重复片段之间的时间不连续性来重构引用视频片段、确定重复视频片段的边界信息。
2.根据权利要求I所述的一种基于视频重构的重复片段定位方法，其特征在于，所述步骤(I)中通过一种基于镜头边界约束的均匀采样方法来抽取视频的关键帧序列。
3.根据权利要求2所述的一种基于视频重构的重复片段定位方法，其特征在于，其具体的关键帧提取步骤如下首先，利用镜头检测方法，将引用数据库中视频分割成一个个视频镜头；然后，在每一个视频镜头内均匀采样，获得一系列可以表示此镜头的关键帧；最后，将镜头的时间边界信息和镜头内采样的关键帧关联起来。
4.根据权利要求I所述的一种基于视频重构的重复片段定位方法，其特征在于，所述步骤(2)采用词包技术将局部SIFT描述子量化视觉词，并显式地将视觉词包转化为一个伪文本文档。
5.根据权利要求4所述的一种基于视频重构的重复片段定位方法，其特征在于，所述伪文本文档具体的提取流程如下首先，使用Hessian-Affine Region Extractor来为每一幅关键巾贞提取一系列仿射不变的关键点；其次，为每一个关键点计算一个128维的SIFT描述子；然后，采用词包技术将每一幅关键帧中的所有局部SIFT描述子量化为视觉词；最后，为每幅关键巾贞中的唯一视觉词显式地对于一个唯一的、随机产生的文本词，所有的伪文本词构成一个伪文本文档。
6.根据权利要求I所述的一种基于视频重构的重复片段定位方法，其特征在于，所述步骤(3)中直接采用文本搜索领域的0kapiBM25相似性度量函数来测量查询帧和引用帧对应伪文本文档的相似度。
全文摘要
本发明公开了一种基于视频重构的重复片段定位方法，包括以下步骤去除查询视频序列和引用视频序列中视频帧与视频帧之间存在的大量冗余，为时间临近、内容一致的小段视频抽取具有代表性的视频关键帧，实现数据的精简处理；利用伪文本文档来描述视频关键帧内容；将视频关键帧之间的视觉相似性计算转化为伪文本文档之间的相似性度量，对查询视频关键帧和引用视频关键帧之间的相似性进行度量，进而为每一幅查询关键帧返回一系列相似引用关键帧；综合利用重复视频片段的时间一致性约束及不重复片段之间的时间不连续性来重构引用视频片段、确定重复视频片段的边界信息。可用于数字媒体挖掘、版权保护。
文档编号H04N21/232GK102750339SQ201210182770
公开日2012年10月24日申请日期2012年6月5日优先权日2012年6月5日
发明者朱振峰, 赵耀, 韦世奎申请人:北京交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦世奎;赵耀;朱振峰
技术所有人：北京交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。