视频结构对齐方法和系统与流程

文档序号：16089090发布日期：2018-11-27 22:47阅读：220来源：国知局

本发明实施例涉及图像处理技术领域，更具体地，涉及一种视频结构对齐方法和系统。

背景技术：

视频匹配技术是计算机图形学领域非常重要的工具，能够帮助用户快速检索符合需要的视频内容。自2002年视频时空对齐被提出以来，视频匹配技术被广泛研究，但已有技术基于局部特征匹配或者颜色匹配，用于快速检索完全相同或视觉相似的场景的视频内容，如VideoSnapping系统，能够基于时间线上部分场景匹配的时间区间，预测出未匹配场景时间区间内的对齐。然而，不同的场景间的视频对齐是一项挑战，其原因在于：首先，不同场景间的视频内容不存在鲁棒的局部特征供匹配；其次，不同的场景间的视频的匹配需要满足视觉上的结构信息对齐。

图像的边缘检测是计算机视觉和图形学领域的基础问题。自1983年Sobel算子和1986年Canny边缘检测算法提出以来，大量工作相继被提出，如统计边缘方法和gPb方法。近年随着深度学习技术的发展，一些基于卷积神经网络的方法被提出，例如基于N⁴域的边缘检测和整体嵌套的边缘检测等。然而，对于从视频中如何提取显著边缘以实现不同的场景间的视频结构对齐，已有工作鲜有研究。

技术实现要素：

针对如何匹配视频的显著性边缘特征以对齐视频的结构的技术问题，本发明实施例提供一种用视频结构对齐方法和系统。

本发明实施例提供一种视频结构对齐方法，包括：将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，其中，所述显著性边缘特征图层自顶层到底层分辨率逐层升高；基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，并选择所述预设个数的对齐结果中的任一对齐结果进行视频结构的对齐。

本发明实施例提供一种视频结构对齐系统，包括：获取模块，用于将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；构建模块，用于对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，其中，所述显著性边缘特征图层自顶层到底层分辨率逐层升高；匹配模块，用于基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，并选择所述预设个数的对齐结果中的任一对齐结果进行视频结构的对齐。

本发明实施例提供一种视频结构对齐设备，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述对齐方法。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述对齐方法。

本发明实施例提供的视频结构对齐方法和系统，通过设置获取输入视频的显著性边缘特征图层，能够方便后续的匹配视频的显著性边缘特征以对齐视频。通过设置基于相关性的匹配度量进行视频的显著性边缘特征匹配搜索对齐结果，避免了边缘计算检测等带来的复杂的计算代价，能够高效、快速地做到获取对齐结果进而对齐视频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明视频结构对齐方法实施例的流程图；

图2为本发明视频结构对齐系统实施例的模块图；

图3为本发明实施例中的视频结构对齐设备的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明视频结构对齐方法实施例的流程图，如图1所示，包括：S101、将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；S102、对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，其中，所述显著性边缘特征图层自顶层到底层分辨率逐层升高；S103、基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，并选择所述预设个数的对齐结果中的任一对齐结果进行视频结构的对齐。

具体地，步骤S101中，输入视频的结构边缘信息图包含输入视频的主要内容的边缘信息。所述梯度信息图包括所述任一输入视频的梯度幅值分量和梯度方向分量，梯度方向分量用角度表示。所述任一输入视频的显著性边缘特征图包含所述任一输入视频的强度信息与角度信息。

进一步地，步骤S101为将任一输入视频的结构边缘信息图和任一输入视频的梯度信息图融合，获取任一输入视频的显著性边缘特征图，其表示将包含任一输入视频的梯度幅值分量和梯度方向分量的信息图和其对应的主要内容的边缘信息图相融合，获取了包含强度信息与角度信息的结构边缘信息图，将这个包含强度信息与角度信息的结构边缘信息图称为显著性边缘特征图。需要说明的是，图像融合是一种常规的图像处理手段，图像融合(Image Fusion)是指将多源信道所采集到的关于同一目标的图像数据经过图像处理和计算机技术等，最大限度的提取各自信道中的有利信息，最后综合成高质量的图像。

进一步地，步骤S101结束后，已获得两个输入视频的显著性边缘特征图，本发明实施例需要解决的问题是如何匹配视频的显著性边缘特征以对齐视频，至此引出步骤S102，步骤S102的目的是获取任一输入视频的显著性边缘特征图的层级结构，即用层级结构表示的任一输入视频的显著性边缘特征图。对于任一输入视频的显著性边缘特征图，包含时间维度和空间维度，包含时间维度是指显著性边缘特征图是针对视频文件的，视频文件包含时间信息；包含空间维度是指对于输入视频均会包含不同层次的内容，本发明实施例中的步骤S102对于包含时间维度和空间维度的任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，获取任一输入视频的显著性边缘特征图的层级结构，不同层级代表不同的分辨率。需要说明的是，降采样是指降低特定信号的采样率的过程。

进一步地，通过步骤S102，已获得任一输入视频的显著性边缘特征图的层级结构，通过对两个输入视频的显著性边缘特征图层进行匹配，可以获得匹配后的显著性边缘特征图层，具体表示为：两个输入视频的显著性边缘特征图的层级结构的层数相等，一个输入视频的显著性边缘特征图层的对应的层与另一输入视频的显著性边缘特征图层的对应的层相匹配，最后会获得一个匹配后的显著性边缘特征图层。通过遍历匹配后的显著性边缘特征图层，在每一层均会获取若干个层对齐结果，整合所有的层对齐结果，获取预设个数的层对齐结果作为对齐结果。需要说明的是，本发明实施例中的匹配是基于相关性的匹配度量的，视频的特征图层的匹配是需要基于匹配量度的，本发明实施例采用相关性的匹配量度进行匹配。

本发明实施例优选设置将所有层对齐结果按照对齐效果由好到差降序排列，并从第一个层对齐结果开始，依次序获取预设个数的对齐结果。

需要说明的是，对齐结果是指：若将两个输入视频对齐后获得的结果。

进一步地，在获取了预设个数的对齐结果后，选择其一进行两个输入视频的对齐，本发明实施例优选选择对齐效果最好的对齐结果进行最后的对齐操作。对齐效果最好是指，将两个视频对齐后，出现的差异最小。

还需说明的是，本发明实施例中的两个输入视频属于相同或者不同场景。

进一步地，本发明实施例提出的视频结构对齐方法，具体可应用于影视制作的场景切换，两个输入视频属于影视上下承启的两个场景的视频，运用本发明实施例提供的视频结构对齐方法，能够高效对齐视频，以使得影视制作承启连贯。本发明实施例提出的视频结构对齐方法还可用于视频的搜索，在视频池中搜索与一视频对齐效果最好的视频。除此之外，本发明实施例提出的视频结构对齐方法还可应用于包括但不限于视频结构对齐可视化和视频内容制作统一风格化。

本发明实施例提供的视频结构对齐方法，通过设置获取输入视频的显著性边缘特征图层，能够方便后续的匹配视频的显著性边缘特征以对齐视频。通过设置基于相关性的匹配度量进行视频的显著性边缘特征匹配搜索对齐结果，避免了边缘计算检测等带来的复杂的计算代价，能够高效、快速地做到获取对齐结果进而对齐视频。

基于上述实施例，所述步骤S101，即将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图，具体包括：获取所述两个输入视频中任一输入视频的二值化的结构边缘信息图；将所述任一输入视频的二值化的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；其中，若所述二值化的结构边缘信息图中的任一像素属于结构边缘，则为所述任一像素赋予二值中的第一值，若所述二值化的结构边缘信息图中的任一像素不属于结构边缘，则为所述任一像素赋予二值中的第二值。

具体地，本发明实施例中的输入视频的结构边缘信息图是二值化的，本发明实施例优选设置若二值化的结构边缘信息图中的任一像素属于结构边缘，则为所述任一像素G(p)赋予1，若所述二值化的结构边缘信息图中的任一像素不属于结构边缘，则为所述任一像素G(p)赋予0。

进一步地，用M＝(I,θ)表示浮点数梯度信息，其中，I表示任一像素的梯度幅值分量，θ表示任一像素的梯度方向分量，获取的任一像素的显著性边缘特征通过下式表示：

其中，M′(p)为任一像素的显著性边缘特征，M(p)为任一像素的梯度信息。

进一步地，本发明实施例中的任一像素属于结构边缘是指，任一像素显示的内容属于输入视频的主要内容的边缘信息。

进一步地，整合所有像素的显著性边缘特征为任一输入视频的显著性边缘特征图。

本发明实施例提供的视频结构对齐方法，设置将任一输入视频的二值化的结构边缘信息图和任一输入视频的梯度信息图融合获取任一输入视频的显著性边缘特征图，通过融合入梯度信息(梯度幅值分量和梯度方向分量)能够自动有效提取视频的显著性边缘特征以表达视频内容结构。

基于上述实施例，所述获取所述两个输入视频中任一输入视频的二值化的结构边缘信息图，具体包括：通过基于L0平滑的保持边缘图像滤波器，对所述两个输入视频中任一输入视频的每一帧进行平滑，获取平滑后的任一输入视频；通过三维均值平移算法计算获得所述平滑后的任一输入视频的结构边缘，并基于所述平滑后的任一输入视频的结构边缘获取所述任一输入视频的二值化的结构边缘信息图。

具体地，本实施例是一个预处理的过程，预处理包括两个步骤，第一个步骤是图像的平滑，第二个步骤是获取二值化的结构边缘信息图。

进一步地，图像的平滑是一种常规的图像处理技术，图像平滑是指受各种因素的影响，图像上会出现某些亮度变化过大的区域，或出现一些亮点(也称噪声)。这种为了抑制噪声，使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑实际上是低通滤波。

需要说明的是，基于L0平滑的保持边缘图像滤波器的滤波器平滑强度参数优选设置为0.05。

进一步地，均值平移算法是一种有效的统计迭代算法，已广泛应用于聚类分析、跟踪、图像分割、图像平滑、滤波、图像边缘提取和信息融合等方面。

具体地，通过三维均值平移算法计算获得所述平滑后的任一输入视频的结构边缘是指上述实施例中中指出的若所述二值化的结构边缘信息图中的任一像素属于结构边缘，则为所述任一像素赋予二值中的第一值，若所述二值化的结构边缘信息图中的任一像素不属于结构边缘，则为所述任一像素赋予二值中的第二值。

进一步地，基于所述平滑后的任一输入视频的结构边缘获取所述任一输入视频的二值化的结构边缘信息图是指将所有像素的赋予值整合获取的二值化的结构边缘信息图。

本发明实施例提供的视频结构对齐方法，通过设置图像平滑和二值化，能够方便后续的获取视频的显著性边缘特征。

基于上述实施例，所述步骤S102，即对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，具体包括：对所述任一输入视频的显著性边缘特征图在时间维度降采样到每秒预设帧数，并且，对所述任一输入视频的显著性边缘特征图在在空间维度构建预设层数的特征金字塔；基于在时间维度降采样到每秒预设帧数，以及在空间维度构建预设层数的特征金字塔的所述任一输入视频的显著性边缘特征图，获取所述任一输入视频的显著性边缘特征图层。

具体地，上述实施例中已经指出降采样是指降低特定信号的采样率的过程，应用于本实施例中表示为：对任一输入视频的显著性边缘特征图在时间维度降采样到每秒预设帧数，优选为对任一输入视频的显著性边缘特征图在时间维度降采样到1帧/秒。

进一步地，在上述实施例中已经指出所述显著性边缘特征图层自顶层到底层分辨率逐层升高，对所述任一输入视频的显著性边缘特征图在在空间维度构建预设层数的特征金字塔即为自顶层到底层分辨率逐层升高，优选构建9层，设置层间缩放比为√2/2，最顶层的长宽分别为原尺寸的1/16。

进一步地，在时间维度降采样到每秒预设帧数，以及在空间维度构建预设层数的特征金字塔后，所述任一输入视频的显著性边缘特征图层即构建完成。

基于上述实施例，所述步骤S103，即基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，具体包括：计算所述两个输入视频各自对应的显著性边缘特征图在任一组对齐参数下的相关性，将所述相关性作为相关性的匹配度量，其中，所述任一组对齐参数包括每一输入视频在全局三维坐标下的任一平移量；基于所述相关性的匹配度量，对所述两个输入视频的显著性边缘特征图层进行匹配，获取匹配后的显著性边缘特征图层；对所述匹配后的显著性边缘特征图层中的每一层进行所述任一组对齐参数的遍历，获取预设个数的对齐结果。

具体地，全局三维坐标是指两个输入视频共处的三维坐标。计算所述两个输入视频各自对应的显著性边缘特征图在任一组对齐参数下的相关性，具体用公式表示为：

其中，C(o1,o2)为相关性，o1为一视频在全局三维坐标下的任一平移量，o2为另一视频在全局三维坐标下的任一平移量，D为视频在时间和空间的三维维度大小，r代表遍历视频维度D的三维坐标点(x,y,z)，θ′为视频显著性边缘特征图的角度分量，I′为视频显著性边缘特征图的强度分量，ε为防止除0的辅助常量，ε＝0.01。

进一步地，在上述实施例中已说明，对所述匹配后的显著性边缘特征图层中的每一层进行遍历获取预设个数的对齐结果，本实施例具体指出是进行所述任一组对齐参数的遍历，获取预设个数的对齐结果。

上一实施例已经指出需要进行所述任一组对齐参数的遍历，获取预设个数的对齐结果，关于如何进行所述任一组对齐参数的遍历，本实施例将作出说明解释：所述对所述匹配后的显著性边缘特征图层中的每一层进行所述任一组对齐参数的遍历，获取预设个数的对齐结果，具体包括：以分辨率升高的顺序，对所述匹配后的显著性边缘特征图层中的每一层进行所述任一组对齐参数的遍历，获取每一层对应的一个层最优对齐结果和若干个层次优对齐结果；基于每一层对应的一个层最优对齐结果和若干个层次优对齐结果，获取预设个数的对齐结果。

具体地，以分辨率升高的顺序，对所述匹配后的显著性边缘特征图层中的每一层进行所述任一组对齐参数的遍历，获取每一层对应的一个层最优对齐结果和若干个层次优对齐结果可解释为：首先在分辨率最低的顶层进行任一组对齐参数的遍历，将会获取顶层的层最优对齐结果和若干个层次优对齐结果，层最优对齐结果和层次优对齐结果均为顶层的小区域。获取完顶层的层最优对齐结果和层次优对齐结果后，以顶层的层最优对齐结果的小区域对应的第二层的局部区域进行所述任一组对齐参数的遍历，相对应的也会获得第二层的层最优对齐结果和层次优对齐结果，以此方法依次遍历余下的层，最终获取每一层对应的一个层最优对齐结果和若干个层次优对齐结果。

进一步地，基于每一层对应的一个层最优对齐结果和若干个层次优对齐结果，获取预设个数的对齐结果，本发明实施例优选设置将所有层对齐结果按照对齐效果由好到差降序排列，并从第一个层对齐结果开始，依次序获取预设个数的对齐结果。

基于上述实施例，图2为本发明视频结构对齐系统实施例的模块图，如图2所示，包括：获取模块201，用于将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；构建模块202，用于对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，其中，所述显著性边缘特征图层自顶层到底层分辨率逐层升高；匹配模块203，用于基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，并选择所述预设个数的对齐结果中的任一对齐结果进行视频结构的对齐。

本发明实施例的计算系统，可用于执行图1所示的视频结构对齐方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

基于上述实施例，图3为本发明实施例中的视频结构对齐设备的框架示意图。请参考图3，本发明实施例提供一种视频结构对齐设备，包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和总线340，其中，处理器310，通信接口320，存储器330通过总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法，包括：将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，其中，所述显著性边缘特征图层自顶层到底层分辨率逐层升高；基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，并选择所述预设个数的对齐结果中的任一对齐结果进行视频结构的对齐。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的对齐方法，例如包括：将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，其中，所述显著性边缘特征图层自顶层到底层分辨率逐层升高；基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，并选择所述预设个数的对齐结果中的任一对齐结果进行视频结构的对齐。

基于上述实施例，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的对齐方法，例如包括：将两个输入视频中任一输入视频的结构边缘信息图和所述任一输入视频的梯度信息图融合，获取所述任一输入视频的显著性边缘特征图；对所述任一输入视频的显著性边缘特征图进行时间维度和空间维度的降采样，构建所述任一输入视频的显著性边缘特征图层，其中，所述显著性边缘特征图层自顶层到底层分辨率逐层升高；基于相关性的匹配度量对所述两个输入视频的显著性边缘特征图层进行匹配，获取预设个数的对齐结果，并选择所述预设个数的对齐结果中的任一对齐结果进行视频结构的对齐。

本领域普通技术人员可以理解：实现上述设备实施例或方法实施例仅仅是示意性的，其中所述处理器和所述存储器可以是物理上分离的部件也可以不是物理上分离的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡事民;汪淼;方晓楠;杨国炜
技术所有人：清华大学
我是此专利的发明人

上一篇：一种便于更换的核电中子吸收板的制作方法
上一篇：机械手提升装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。