用于同步视频数据的方法和设备的制作方法

文档序号：7897315阅读：261来源：国知局

专利名称：用于同步视频数据的方法和设备的制作方法
技术领域：
几乎每一个包含多于一个相同场景的视频的应用都需要记录的同步。可在例如体育赛事的数字电视传输中发现这些应用。这里，可通过一种被称为“画中画”的格式来从不同视点同步地观测感兴趣的场景。然而，这些服务需要复杂的和校准的基础结构 (infrastructure)以通过使用外置时钟来触发照相机而按时间地排列视频流。尽管在专业电影制作中对视频同步的需求与场记板一样古老，这仍然是电影剪辑的重要参考。因为数字3D动画的整合，时间参考获得越来越多的关注。直到现在，这些应用都是通过说明专门的专业领域的复杂同步硬件来解决的。然而，易于同步的能力不仅意味着专业电视或电影制作的增强，并且尤其促进了基于新机构的服务。随着能够记录高质量视频的照相手机的共享的持续增加，用户生成的内容数量达到允许用户寻找任何感兴趣位置的媒体的临界规模。这里，可通过GPS标签的帮助来预过滤查询。不仅是位置，还有时间上的查询允许搜索已由多个生产消费者(在同一时间制作和消费内容的用户)所记录的事件。因此，可用媒体丰富的巨大空间可以基于多个视频记录的可用性，如果他们可被及时地匹配的话。一个简单的例子就是在观看例如街头表演、交谈或本地体育赛事的特定事件时的视点偏移。这还可以包括时间缝合(stitching)应用，其可以从单独的位置匹配的镜头中生成电影。这里，多个记录器中的一个的音频数据可与其他生产消费者的视频数据相混合，导致了协作的场景记录。此外，通过将计算机视觉领域的公知算法扩展到视频处理，冗余视频信息的可用性可被用于重构三维风景，减去背景、前景或创建不同视点的组合。一个明显的例子可以是消除遮挡(occlusions)以促进街头表演的无干扰记录。然而，使用环境的三维结构的强大信息，可以发展复杂的扩张逼真应用。另外，可以在空间域和时间域内生成超分辨率视频，其允许平滑的慢动作及缩放。然而，视频序列的同步是所有这些应用的先决条件。过去几年已经提出了多种解决视频同步的问题的方案。一可能的分类公开为 C. Lei和Y. H. Yang.具有子帧优化的基于三焦距张量的多视频同步.IEEE Transactions on Image Processingl5 (9) :24731480, 2006，其对基于特征的，基于强度的和基于照相机运动的算法进行区分。之后的种类包括具有严格联系的照相机的极专业的场景。当然，这是一种极有限制的假设。基于特征的方案是同步方法中的最大分支。这里，其假设可在视频帧中检测那些所谓的图像特征，也就是高区分性的点或边缘，并且这些图像特征可与其他序列中的相应特征相关联。基本的想法是不同照相机之中的相应于相同3D点的帧特征的运动互相关联。这类算法的主要缺点在于需要贯穿序列的特征的可靠检测、匹配和追踪。这一重要问题还未得到满意的解决。最终，基于强度分类的同步算法关注建立从一个视频中的每个像素到第二个视频中的一个像素的映射。在某些方案中，不仅估计两个视频之间的时间偏移，还估计两个图像之间的几何失真。然而，关于失真的知识对于精确的同步来说是必需的，这使得任务更加复杂。一般来说，基于强度的方法无法处理运动照相机。所有现有方案的共同问题在于视觉方向的限制。超过30度的不同观测方向差别通常得不到支持。即使基于硬件的同步系统允许最大稳健性和精确度，但因其复杂性和对基础结构的需求，当前其不适用于最终用户设备。到目前为止，几乎不会使用具有时间戳的媒体内容的标签，其可能基于单独的内部设备时钟，这些时钟可能具有无限制的差异。此外，基于硬件和时间戳的方案并不适用于追溯已经存在的视频。在另一方面，即使最新的基于软件的方案也意味着高的计算复杂度。这是因为这一事实基于强度的技术处理帧像素，并且由此在极高规模上执行算术操作。基于特征的方法提取帧的兴趣点以降低维度，则因此计算时间反而需要提取时间。基于照相机运动的方案相对较快；然而，其假设照相机的严格的安装和基线。因此其不适用于上述的应用。然而，基于强度和基于特征的算法需要依从特定的假设。当前发展的一个主要的挑战就是观测角度的限制。基于强度的方法几乎无法应对相应的失真，而基于特征的技术可以应对典型的高达30度的角度，尽管其性能相当有限。进一步的，这两个种类采用照相机性能的知识，例如焦点长度，或者至少需要使用相同类型的照相机。另一个相当重要的挑战，特别对于基于强度的方案来说，就是照相机运动的限制。然而，用手操作的及轻质的照相机电话不可避免地导致改变观察方向，即使增强了图像稳定技术。因为基于特征的算法执行兴趣点的连续追踪，其容易受到纹理改变的影响，例如在衣服上就是如此。进一步的，场景的部分遮挡是对现有特征追踪器的挑战。视频同步是由Stein 倡导的(例如参见 GP Stein, Tracking from multiple view points Self-calibration of space and time, Computer Vision and Pattern Recognition, 1999, IEEE Computer Society Conference，卷 1，1999。),他为所有后继的基于特征的方法提供了基础。从此不同的方案得到了融合。然而，这些所有的方案都利用了对极几何(Epipiolar Geometry)的概念，其提供的约束条件可应用于同步。在2004年， Tuytelaars等人发表了基于特征的算法，其通过检测光线的距离以非常自然的方式得到时间偏移(例如参见 T. Tytelaar 禾口 L. Va Gool, Synchronizing video sequence, Computer Vision and Pattern Recognition,2004, CVPR 2004， Proceeding of the 2004 IEEE Computer Society Conference on,卷 1)。依赖于特征的方案也被称为轨迹至轨迹对准(trajectory-to-trajectory alignment)，与其相反，基于强度的方案有时也被描述为序列至序列对准 (sequence-to-sequence alignment)。 Caspi 等人仓ij造了这个术i吾。他^、]关于时空对准方面的工作成就了该领域的基础(例如参见Y. Caspi和M. Irani，A step towards sequence-to-sequence alignment, IEEE Conference on Computer Vision and Pattern Recognition, 2000, Proceedings,卷 2,2000)。同样还有一些基础的基于强度的算法已被提出。M.Ushizaki，Τ. Okatani以及 K.Deguchi, Video synchronization based on co-occurrence of appearance changes in video sequences, Proceedings of the 18th International Conference on Pattern Recognition-卷 3，第 71-74 页，IEEE computer Society Washington, DC, USA, 2006 描述了一个例子，其中通过简单的累加从一个帧到下一帧的强度改变来获取在视频中的一般亮度改变。其给出了随时间的“亮度改变简档(brightness change profile) ”的分类，其可
5以在相同的整体方向上与其他观察相同场景的(静态)照相机相比较。然而，总而言之，当前视频同步方案需要许多假设，给基于视频数据的同步的大多数应用的大规模市场使用造成了障碍。

发明内容
根据一个实施例，其提供了一种确定第一视频序列和第二视频序列之间的时间关系的方法，所述方法包括从所述第一视频序列获得第一参数，所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；从所述第二视频序列获得第二参数，所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；匹配所述第一参数随时间的演变和所述第二参数随时间的演变，其中通过计算所述第一参数随时间的演变和所述第二参数随时间的演变之间的相关函数来执行所述第一和所述第二参数随时间的演变的匹配，从而确定所述两个视频序列之间的时间关系。通过这样的方案，为两个视频序列分别确定了“指纹”，其基于两个视频序列的熵或熵随时间的变化。其代表了或相应于编码视频序列所必需的信息量，因此其是视频序列复杂度的测度。得到的作为时间的函数的参数相应于导出该参数的视频序列，接着通过尝试匹配作为时间的函数的两个参数，可以确定他们的时间关系，进而确定两个视频序列的时间关系。通过这样的方案，特别的，视频序列中的对象的移动贡献了熵，此外，他们对熵的影响一定程度上独立于视线，甚至照相机的运动。因此，即使从不同角度或使用运动的照相机来拍摄视频，该方案也能出乎意料的顺利工作。由此，根据一个实施例，其使用表示参数随时间的演变的函数，以及通过计算两个时间演变函数的相关函数，来匹配各个视频信号的两个相应函数随时间的演变。通过这种方式，可以匹配这两个函数以确定他们的时间关系。根据一个实施例，所述第一和所述第二参数分别是以下的一个熵、条件熵、块熵或任何相关的熵、或从各个帧的所述第一或所述第二视频序列或者所述第一和第二视频序列的一组帧导出的基于熵的参数；从编码或解码所述第一或第二视频序列的视频编解码器获得的比特率或帧大小。熵、条件熵或块熵是对视频序列的帧组的一个帧的信息内容的直接测度。一个特别方便的方案是使用视频编解码器，这是因为其压缩和运动估计能力产生比特率(或帧大小)直接地相应于视频序列的熵的输出数据流。如果序列复杂并且具有许多不同运动着的对象，则熵增加，从而编码器产生的比特率(或帧大小)也增加。在另一方面，静止的或几乎静止的序列具有低的熵和低的比特率。因此，视频编解码器的输出可直接用于获取与熵相关的参数及其随时间的演变。可替代地，从文件读取的已被编码的视频序列可被处理以获得作为时间的函数的比特率，并且接着使用它来匹配另一个序列和其比特率。
根据一个实施例，执行一种预处理，其包括以下一个或多个获得用来表示所述第一和第二视频序列的熵随时间的变化的所述参数的差分值；应用一个函数，该函数将较高权重分配给较低强度值，将较低权重分配给较高强度值；应用一个过滤函数以执行平滑。获得差分值降低了连续照相机运动的影响，并且增强了实际场景变化的影响。通过应用与较高强度值相比对较低强度值作出更多关注的函数，相对于其他随时间发生的更加逐渐的变化或事件来说，强烈影响熵的单个事件(例如新人物进入场景)的影响可被降低。通过应用过滤函数，可以执行平滑。通过这样的预处理，可以增强两个视频序列的熵相关的参数的匹配的整体稳健性。根据一个实施例，该方法进一步包括执行动态时间扭曲(warping)以执行所述第一和所述第二视频序列之间的非线
性匹配。这使得可以考虑以不同速度拍摄或回放的视频。根据一个实施例，该方法进一步包括减去各个帧的块或像素的一个子集对指示所述第一或第二视频序列的熵随时间的变化的演变的参数的贡献。例如，如果减去了相应于帧的边缘的块，则可以降低展现图像边缘处的新纹理的照相机运动的影响，并且得到的与熵相关的参数变得更加依赖场景内对象的实际运动。同样的，可以从与熵相关的参数中减去帧的其他块或像素的贡献，以进一步增强参数的精确性和稳健性。根据一个实施例，该方法进一步包括通过计算相关函数，尤其是互相关，来执行所述第一和所述第二参数的所述演变的匹配。这样，可以轻松便利的确定两个序列之间的时间关系。根据一个实施例，该方法进一步包括在所述第二视频序列的一定长度的所有可能的选择上重复所述第一视频序列的第一参数的相关，并且采用例如最大相关值的中值或平均值的组合值作为结果。这样，可以进一步提高确定最大相关结果的稳健性。根据一个实施例，其提供了一种用于确定第一视频序列和第二视频序列之间的时间关系的设备，所述设备包括用于从所述第一视频序列获得第一参数的模块，所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；用于从所述第二视频序列获得第二参数的模块，所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；用于匹配所述第一参数随时间的演变和所述第二参数随时间的演变的模块，其中
通过计算所述第一参数随时间的演变和所述第二参数随时间的演变之间的相关函数来执行匹配所述第一和所述第二参数随时间的所述演变，从而确定两个视频序列之间的时间关系。这样，可以实现用于实现视频同步方法的设备。根据一个实施例，该设备进一步包括一个或多个模块，用于执行本发明任何进一步实施例的方法的步骤。根据一个实施例，其提供了一种包括计算机程序码的计算机程序，当在计算机中执行该计算机程序时，使得所述计算机执行根据本发明一个实施例的方法。

图1示意性地表示一个场景及其运动补偿。图2示意性地表示另一个场景及其运动补偿。图3示意性地表示本发明一个实施例。图4示意性地表示使用本发明一个实施例来同步的两个场景。图5示意性地表示图4的场景的比特率。图6示意性地表示图4的场景的相关结果。图7示意性地表示两个其他场景的比特率。图8示意性地表示图7的场景的相关结果。图9示意性地表示使用本发明一个实施例来同步的两个场景。图10示意性地表示两个其他场景的比特率。图11示意性地表示图10的场景的相关结果。图12示意性地表示使用本发明一个实施例来同步的两个场景。
具体实施例方式—些目前发展水平的视频同步方案试图重构尽可能多的场景信息以仿效人类检测两个序列的时间不匹配的方式。然而，本发明所提出的方案目的在于完全不同的高水平的指纹，以在时域内对准视频。根据本发明一个实施例，计算了视频序列的帧或视频序列的帧组的熵或与熵相关的参数(或其近似值)。接着该参数随时间演变，因为可以计算视频序列的不同帧或不同帧组的参数，并且通过这种方法，其可被认为是视频序列的一种“指纹”。如果有两个需要被匹配或同步的视频序列，则计算两个视频序列的参数而得到两个参数序列，一个用于第一视频序列，一个用于第二视频序列。进而序列中的单个参数可相应于视频序列的其对应的单个帧或者一个视频帧组。接着，可以匹配这两个参数序列，例如，执行导致时间关系(时间差异或帧数量的差异)的互相关或任何其他操作，，并通过这种方式，可以确定第一视频序列需要在时间上被偏移多少以匹配第二视频序列。现在让我们转向作为与熵相关的参数的“参数”的计算和确定。在一个实施例中，其可仅仅通过使用熵的公知定义来计算单个视频帧的熵，公式如下
权利要求
1.一种用于确定第一视频序列和第二视频序列之间的时间关系的方法，所述方法包括从所述第一视频序列获得第一参数，其中所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；从所述第二视频序列获得第二参数，其中所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；匹配所述第一参数随时间的演变和所述第二参数随时间的演变，其中通过计算所述第一参数随时间的演变和所述第二参数随时间的演变之间的相关函数来匹配所述第一参数和所述第二参数随时间的演变，从而确定这两个视频序列之间的时间关系。
2.根据权利要求1所述的方法，其中所述第一参数和所述第二参数分别是以下之一针对所述第一视频序列和第二视频序列的各个帧或帧组，从所述第一视频序列或第二视频序列导出的熵、条件熵、块熵、任何与熵有关的参数、或任何基于熵的参数；从编码或解码所述第一视频序列或第二视频序列的视频编解码器获得的比特率或帧大小。
3.根据权利要求1所述的方法，其中还执行预处理，所述预处理包括以下的一个或多个获得所述参数的差分值，所述差分值被用来表示所述第一视频序列和第二视频序列随时间的熵变化；应用对较低强度值赋予较高权重而对较高强度值赋予较低权重的函数；应用滤波函数以执行平滑。
4.根据权利要求1所述的方法，进一步包括执行动态时间扭曲来执行所述第一视频序列和所述第二视频序列之间的非线性匹配。
5.根据权利要求1所述的方法，进一步包括减去各个帧的块或像素的一个子集对表示所述第一视频序列或所述第二视频序列随时间的熵变化的演变的参数的贡献。
6.根据权利要求1所述的方法，进一步包括通过计算互相关来执行所述第一参数和所述第二参数的所述演变的匹配。
7.根据权利要求1所述的方法，进一步包括重复所述第一视频序列的所述第一参数在所述第二视频序列的特定长度的所有可能的选择上的相关，并且使用相关最大值的中值或平均值作为结果。
8.一种用于确定第一视频序列和第二视频序列之间的时间关系的设备，所述设备包括用于从所述第一视频序列获得第一参数的模块，其中所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；用于从所述第二视频序列获得第二参数的模块，其中所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；用于匹配所述第一参数随时间的演变和所述第二参数随时间的演变的模块，其中通过计算所述第一参数随时间的演变和所述第二参数随时间的演变之间的相关函数来匹配所述第一参数和所述第二参数随时间的演变，从而确定这两个视频序列之间的时间关系。
9.根据权利要求8所述的设备，其中所述第一参数和所述第二参数分别是以下之一针对所述第一视频序列和第二视频序列的各个帧或帧组，从所述第一视频序列或第二视频序列导出的熵、条件熵、块熵、任何与熵相关的参数或任何基于熵的参数；从编码或解码所述第一视频序列或第二视频序列的视频编解码器获得的比特率或帧大小。
10.根据权利要求8所述的设备，其中还执行预处理，所述预处理包括以下的一个或多个获得所述参数的差分值，所述差分值被用来表示所述第一视频序列和第二视频序列随时间的熵变化；应用对较低强度值赋予较高权重而对较高强度值赋予较低权重的函数；应用滤波函数以执行平滑。
11.根据权利要求8所述的设备，进一步包括用于执行动态时间扭曲以执行所述第一视频序列和所述第二视频序列之间的非线性匹配的模块。
12.根据权利要求8所述的设备，进一步包括用于减去各个帧的块或像素的一个子集对表示所述第一视频序列或所述第二视频序列随时间的熵变化的演变的参数的贡献的模块。
13.根据权利要求8所述的设备，进一步包括用于重复所述第一视频序列的所述第一参数在所述第二视频序列的特定长度的所有可能的选择上的相关，并且使用相关最大值的中值或平均值作为结果。
14.一种计算机程序，其包括计算机程序代码，当在计算机上执行所述计算机程序代码时，使得所述计算机执行根据权利要求1所述的方法。
全文摘要
本发明涉及用于同步视频数据的方法和设备。一种用于确定第一视频序列和第二视频序列之间的时间关系的方法，所述方法包括从所述第一视频序列获取第一参数，所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；从所述第二视频序列获取第二参数，所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；匹配所述第一参数随时间的演变和所述第二参数随时间的演变，从而确定这两个视频序列之间的时间关系。
文档编号H04N5/08GK102075668SQ201010608740
公开日2011年5月25日申请日期2010年11月12日优先权日2009年11月13日
发明者E·斯坦贝克, F·舒维格, G·舒罗斯, M·法迈尔, M·艾科霍恩, W·克勒雷尔申请人:株式会社Ntt都科摩

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｆ.舒维格;Ｍ.艾科霍恩;Ｇ.舒罗斯;Ｅ.斯坦贝克;Ｍ.法迈尔;Ｗ.克勒雷尔
技术所有人：株式会社ＮＴＴ都科摩
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。