视频镜头分割的方法、存储介质和移动终端与流程

文档序号：14777886发布日期：2018-06-26 07:46阅读：281来源：国知局

本发明涉及视频处理领域，特别是涉及一种视频镜头分割的方法、存储介质和移动终端。

背景技术：

随着互联网和数码技术的飞速发展，特别是移动智能手机和平板电脑的普及使得视频数量呈现爆炸式的增长，如何对视频进行有效的处理是计算机视觉领域的研究热点，也是物联网、搜索引擎等领域的研究重点。其中，视频镜头分割是视频处理中的基础问题，其目的是为了找到镜头边界，即切变帧和渐变帧，从而根据切变帧和渐变帧将视频分割为不同的镜头，该问题的有效解决将为后续的视频关键帧提取、特征提取、视频摘要、浓缩、检索等处理提供了强有力的保障。

然而，在视频中往往会出现物体移动、镜头移动和光线变化等情况，这些因素具有与镜头切换相似的特征，会影响到镜头分割的准确率。

技术实现要素：

本发明提供一种视频镜头分割的方法、存储介质和移动终端，用以解决现有技术的如下问题：在视频中往往会出现物体移动、镜头移动和光线变化等情况，这些因素具有与镜头切换相似的特征，会影响到镜头分割的准确率。

为解决上述技术问题，一方面，本发明提供一种视频镜头分割的方法，包括：通过Gabor滤波器获取预定视频中每帧图像的GIST(gist，用于表示图像的特征)特征值；根据所述每帧图像的GIST特征值确定所述预定视频的所有切变帧和所有候选渐变帧；利用SIFT算法对所述所有候选渐变帧进行处理，以将所述所有候选渐变帧中的伪渐变帧剔除，得到所述预定视频的所有渐变帧；根据所述所有切变帧和所述所有渐变帧对所述预定视频进行镜头分割。

可选的，根据所述每帧图像的GIST特征值确定所述预定视频的所有切变帧和所有候选渐变帧，包括：计算时间上连续的相邻两帧图像的GIST特征值的差值；第一帧图像和第二帧图像；在所述差值大于第一预设阈值的情况下，确定时间上靠后一帧图像为切变帧；在所述差值小于第一预设阈值且大于第二预设阈值的情况下，累计所述差值，并检测累计的差值之和是否达到第三预设阈值；在所述差值之和达到所述第三预设阈值的情况下，确定累计的所述差值之和对应的各帧图像为所述候选渐变帧。

可选的，利用SIFT(尺度不变特征变换，Scale-invariant feature transform)算法对所述所有候选渐变帧进行处理，以将所述所有候选渐变帧中的伪渐变帧剔除，得到所述预定视频的所有渐变帧，包括：选取所述所有候选渐变帧中每一帧图像相邻的前第M帧图像和后第N帧图像，其中，M和N均为大于0的正整数；分别计算所述前第M帧图像和所述后第N帧图像的SIFT特征值；将所述前第M帧图像的SIFT特征值与所述后第N帧图像的SIFT特征值进行匹配，以确定所述前第M帧图像和所述后第N帧图像中的景物是否匹配；在所述前第M帧图像的SIFT特征值与所述后第N帧图像的SIFT特征值匹配度未达到预设匹配度的情况下，确认当前候选渐变帧为渐变帧；在所述前第M帧图像的SIFT特征值与所述后第N帧图像的SIFT特征值匹配度达到预设匹配度的情况下，从所述所有候选渐变帧中剔除所述当前候选渐变帧。

可选的，分别计算所述前第M帧图像和所述后第N帧图像的SIFT特征值，包括：对所述前第M帧图像和所述后第N帧图像分别进行高斯平滑处理；对高斯平滑处理后的所述前第M帧图像和所述后第N帧图像分别利用SIFT算法提取SIFT特征值。

另一方面，本发明还提供一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：通过Gabor滤波器获取预定视频中每帧图像的GIST特征值；根据所述每帧图像的GIST特征值确定所述预定视频的所有切变帧和所有候选渐变帧；利用SIFT算法对所述所有候选渐变帧进行处理，以将所述所有候选渐变帧中的伪渐变帧剔除，得到所述预定视频的所有渐变帧；根据所述所有切变帧和所述所有渐变帧对所述预定视频进行镜头分割。

可选的，所述计算机程序在被所述处理器执行根据所述每帧图像的GIST特征值确定所述预定视频的所有切变帧和所有候选渐变帧的步骤时，具体实现如下步骤：计算时间上连续的相邻两帧图像的GIST特征值的差值；第一帧图像和第二帧图像；在所述差值大于第一预设阈值的情况下，确定时间上靠后一帧图像为切变帧；在所述差值小于第一预设阈值且大于第二预设阈值的情况下，累计所述差值，并检测累计的差值之和是否达到第三预设阈值；在所述差值之和达到所述第三预设阈值的情况下，确定累计的所述差值之和对应的各帧图像为所述候选渐变帧。

可选的，所述计算机程序在被所述处理器执行利用SIFT算法对所述所有候选渐变帧进行处理，以将所述所有候选渐变帧中的伪渐变帧剔除，得到所述预定视频的所有渐变帧的步骤时，具体实现如下步骤：选取所述所有候选渐变帧中每一帧图像相邻的前第M帧图像和后第N帧图像，其中，M和N均为大于0的正整数；分别计算所述前第M帧图像和所述后第N帧图像的SIFT特征值；将所述前第M帧图像的SIFT特征值与所述后第N帧图像的SIFT特征值进行匹配，以确定所述前第M帧图像和所述后第N帧图像中的景物是否匹配；在所述前第M帧图像的SIFT特征值与所述后第N帧图像的SIFT特征值匹配度未达到预设匹配度的情况下，确认当前候选渐变帧为渐变帧；在所述前第M帧图像的SIFT特征值与所述后第N帧图像的SIFT特征值匹配度达到预设匹配度的情况下，从所述所有候选渐变帧中剔除所述当前候选渐变帧。

可选的，所述计算机程序在被所述处理器执行分别计算所述前第M帧图像和所述后第N帧图像的SIFT特征值的步骤时，具体实现如下步骤：对所述前第M帧图像和所述后第N帧图像分别进行高斯平滑处理；对高斯平滑处理后的所述前第M帧图像和所述后第N帧图像分别利用SIFT算法提取SIFT特征值。

另一方面，本发明还提供一种移动终端，至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器在执行所述存储器上的计算机程序时实现上述视频镜头分割的方法的步骤。

本发明通过上述方法，能够准确的确定视频中的所有切边帧和所有渐变帧，并根据所有切变帧和所有渐变帧对视频进行镜头分割，镜头分割准确率较高，大大提升了系统性能，解决了现有技术的如下问题：在视频中往往会出现物体移动、镜头移动和光线变化等情况，这些因素具有与镜头切换相似的特征，会影响到镜头分割的准确率。

附图说明

图1是本发明第一实施例中视频镜头分割的方法的流程图；

图2是本发明第三实施例中视频镜头分割的方法的流程示意图；

图3是本发明第三实施例中高层建筑的空间包络示意图；

图4是本发明第三实施例中高速公路的空间包络示意图；

图5是本发明第三实施例中GIST特征提取示意图；

图6是本发明第三实施例中双阈值帧差法流程图；

图7是本发明第三实施例中物体/镜头移动示意图；

图8是本发明第三实施例中光线突变示意图。

具体实施方式

为了解决现有技术的如下问题：在视频中往往会出现物体移动、镜头移动和光线变化等情况，这些因素具有与镜头切换相似的特征，会影响到镜头分割的准确率；本发明提供了一种视频镜头分割的方法、存储介质和移动终端，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明第一实施例提供了一种视频镜头分割的方法，该方法的流程如图1所示，包括步骤S101至S104：

S101，通过Gabor滤波器获取预定视频中每帧图像的GIST特征值；

S102，根据每帧图像的GIST特征值确定预定视频的所有切变帧和所有候选渐变帧；

S103，利用SIFT算法对所有候选渐变帧进行处理，以将所有候选渐变帧中的伪渐变帧剔除，得到预定视频的所有渐变帧；

S104，根据所有切变帧和所有渐变帧对预定视频进行镜头分割。

本发明实施例通过上述方法，能够准确的确定视频中的所有切边帧和所有渐变帧，并根据所有切变帧和所有渐变帧对视频进行镜头分割，镜头分割准确率较高，大大提升了系统性能，解决了现有技术的如下问题：在视频中往往会出现物体移动、镜头移动和光线变化等情况，这些因素具有与镜头切换相似的特征，会影响到镜头分割的准确率。

在根据每帧图像的GIST特征值确定预定视频的所有切变帧和所有候选渐变帧时，具体可以：计算时间上连续的相邻两帧图像的GIST特征值的差值；第一帧图像和第二帧图像；在差值大于第一预设阈值的情况下，确定时间上靠后一帧图像为切变帧；在差值小于第一预设阈值且大于第二预设阈值的情况下，累计差值，并检测累计的差值之和是否达到第三预设阈值；在差值之和达到第三预设阈值的情况下，确定累计的差值之和对应的各帧图像为候选渐变帧。通过上述过程可以准确的确定预定预定视频的所有切变帧和所有候选渐变帧。

具体实现时，利用SIFT算法对所有候选渐变帧进行处理，以将所有候选渐变帧中的伪渐变帧剔除，得到预定视频的所有渐变帧，具体可以包括：选取所有候选渐变帧中每一帧图像相邻的前第M帧图像和后第N帧图像，其中，M和N均为大于0的正整数；分别计算前第M帧图像和后第N帧图像的SIFT特征值；将前第M帧图像的SIFT特征值与后第N帧图像的SIFT特征值进行匹配，以确定前第M帧图像和后第N帧图像中的景物是否匹配；在前第M帧图像的SIFT特征值与后第N帧图像的SIFT特征值匹配度未达到预设匹配度的情况下，确认当前候选渐变帧为渐变帧；在前第M帧图像的SIFT特征值与后第N帧图像的SIFT特征值匹配度达到预设匹配度的情况下，从所有候选渐变帧中剔除当前候选渐变帧。

其中，分别计算前第M帧图像和后第N帧图像的SIFT特征值，包括：对前第M帧图像和后第N帧图像分别进行高斯平滑处理；对高斯平滑处理后的前第M帧图像和后第N帧图像分别利用SIFT算法提取SIFT特征值。

通过上述过程可以准确的确定预定视频的所有渐变帧，为进行镜头分割做基础。

本发明第二实施例提供了一种存储介质，存储有计算机程序，计算机程序被处理器执行时实现如下步骤S1至S4：

S1，通过Gabor滤波器获取预定视频中每帧图像的GIST特征值；

S2，根据每帧图像的GIST特征值确定预定视频的所有切变帧和所有候选渐变帧；

S3，利用SIFT算法对所有候选渐变帧进行处理，以将所有候选渐变帧中的伪渐变帧剔除，得到预定视频的所有渐变帧；

S4，根据所有切变帧和所有渐变帧对预定视频进行镜头分割。

在计算机程序在被处理器执行根据每帧图像的GIST特征值确定预定视频的所有切变帧和所有候选渐变帧的步骤时，具体实现如下步骤：计算时间上连续的相邻两帧图像的GIST特征值的差值；第一帧图像和第二帧图像；在差值大于第一预设阈值的情况下，确定时间上靠后一帧图像为切变帧；在差值小于第一预设阈值且大于第二预设阈值的情况下，累计差值，并检测累计的差值之和是否达到第三预设阈值；在差值之和达到第三预设阈值的情况下，确定累计的差值之和对应的各帧图像为候选渐变帧。

在计算机程序在被处理器执行利用SIFT算法对所有候选渐变帧进行处理，以将所有候选渐变帧中的伪渐变帧剔除，得到预定视频的所有渐变帧的步骤时，具体实现如下步骤：选取所有候选渐变帧中每一帧图像相邻的前第M帧图像和后第N帧图像，其中，M和N均为大于0的正整数；分别计算前第M帧图像和后第N帧图像的SIFT特征值；将前第M帧图像的SIFT特征值与后第N帧图像的SIFT特征值进行匹配，以确定前第M帧图像和后第N帧图像中的景物是否匹配；在前第M帧图像的SIFT特征值与后第N帧图像的SIFT特征值匹配度未达到预设匹配度的情况下，确认当前候选渐变帧为渐变帧；在前第M帧图像的SIFT特征值与后第N帧图像的SIFT特征值匹配度达到预设匹配度的情况下，从所有候选渐变帧中剔除当前候选渐变帧。在计算机程序在被处理器执行分别计算前第M帧图像和后第N帧图像的SIFT特征值的步骤时，具体实现如下步骤：对前第M帧图像和后第N帧图像分别进行高斯平滑处理；对高斯平滑处理后的前第M帧图像和后第N帧图像分别利用SIFT算法提取SIFT特征值。

优选地，上述存储介质可以为存储器，设置在移动终端中，此处不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行上述实施例记载的方法步骤。可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本发明第三实施例提供了一种视频镜头分割的方法，该方法流程示意如图2所示，包括如下过程：首先，提取每个视频中每帧图像的GIST特征；其次，对每帧图像的前后邻近帧计算GIST特征差，并构建双阈值判定条件初步筛选出切变帧和渐变帧；第三，对筛选出来的候选帧进行基于SIFT特征的匹配判定，判断候选帧前后一定距离的两帧是否能够匹配，若匹配，则说明候选帧前后无镜头变化，该候选帧不是镜头边界，若不匹配，说明候选帧前后的画面发生了很大的变化，该候选帧处为镜头边界。具体算法如下：

1、视频GIST特征提取。

GIST特征是一种描述图像空间包络的特征，该特征旨在描述图像中场景中的摘要、要点，并以此对图像进行识别。GIST特征认为不同种类的物体或者图像具有不同的空间包络或者轮廓信息，如图3和图4中所示，高层建筑和高速公路的空间包络不同，其表面表达也不同，图中的3D曲面表示图像强度。GIST特征通过对图像进行多尺度多方向的Gabor滤波得到，如图5所示。

视频中图像的GIST特征提取流程时，输入为视频V，输出为视频V中图像I的GIST特征，算法如下：

1.针对视频V中大小为m×n图像I，将其划分成r×c的规则网格Si，i＝1,2,...,16；r＝c＝4；

2.利用p尺度、q方向的Gabor滤波器对每个网格Si进行卷积滤波，对每次滤波结果进行平均，作为特征中的一维，p＝4，q＝8，得到每个网格的GIST特征Gi，Gi为32维的特征向量；

3.将16个网格的GIST特征串联起来作为视频中图像I的GIST特征G＝[G1,G2,…，G16]；G维数为512维(16×32)，如图5所示；输出：G＝[G1,G2,...,G16]。

GIST算法中Gabor滤波器可对物体轮廓、纹理进行很好的保留，实质是利用Gabor滤波器对图像进行卷积滤波，对纹理进行凸显，对非纹理进行抑制，其二维表达公式为：

其中，(x,y)是像素点的坐标。σx、σy为高斯函数沿x轴和y轴的高斯包络线常数。f表示滤波器中心频率，是谐波因子的相位差。在GIST特征计算中，利用多尺度、多方向的Gabor滤波器对图像进行滤波，该多尺度、多方向的Gabor滤波器可表示如下：

hp,q(xφ,yφ)＝α^-mhp,q(xφ,yφ)；

其中，

φ＝qπ/(p+1)；

φ是滤波方向，p表示滤波尺度数，q表示滤波方向数，α^-m表示母小波膨胀的尺度因子。

通过多尺度、多方向的Gabor卷积滤波，我们可以得到视频中每个图像的GIST特征，这些特征将被用来进行双阈值帧差，以便得到视频镜头的初步分割结果。

2、双阈值判定条件，即根据双阈值判定条件得到切变帧和初步的渐变帧。

利用上节得到的GIST特征，本节将采用双阈值帧差法来区分出切变帧和渐变帧，算法流程为：首先，获取视频的每帧GIST特征；其次，计算连续两帧的GIST差值，若差值大于阈值T2，则说明后一帧发生了切变；若差值小于阈值T1，说明没有发生镜头切换；若差值大于T1并且小于T2，则继续统计后续帧的GIST特征差值，并将GIST差值进行累计，如果累计和大于T3，则判定为渐变帧。双阈值帧差法流程图如图6所示。

3、图像匹配判定条件，即利用基于SIFT特征的图像匹配判定条件得到最后的切变帧和渐变帧。

视频经过双阈值帧差法的处理后，可以得到很多的候选镜头边界，其中由于突变帧的内容变化剧烈，经过双阈值检测后已经得到较好的结果，不需进行进一步去噪，但是有些物/镜移动的画面可能被误认为是镜头发生了变化，如图7所示，其次，一些光线变化的画面可能被认定为镜头变化，如图8，这些情况都给视频镜头的分割带来了误差，特别是渐变帧的检测容易受到噪声的影响，因此，针对候选渐变帧，我们构造了基于SIFT特征的匹配条件来去除这些噪声的影响，提高镜头分割的准确率。下面对基于SIFT特征的图像匹配方法进行介绍：

(1)对上节得到的渐变帧候选帧I，分别得到其前15帧的图像I1和距离I后15帧的图像I2。

(2)利用SIFT特征提取算法分别计算I1和I2的SIFT特征。

利用尺度不变特征变换算法(SIFT)提取I1和I2帧的SIFT特征，对I1或I2进行高斯平滑处理，得到图像其中选取σn＝0.5，其中σn为平滑参数，表示平滑程度。对平滑后的图像利用尺度不变特征变换匹配算法提取SIFT特征，特征维数为128，具体方法为：选取不同的σ＝σ02^o+s/S与做卷积形成了一个图像金字塔GSSσ，其中s＝0,...S-1，o＝0,...O-1，S＝3，O＝min(log2row,log2col)，σ0＝1.5，row表示图像的垂直方向上像素点的个数，col表示图像的水平方向上像素点的个数。然后对相邻的GSSσ求差分得到DOGσ，对于DOGσ的每个像素点分别与上一尺度对应像素点及周围的八邻域像素点，当前尺度周围的八邻域像素点，以及下一尺度对应像素点及周围的八邻域像素点作比较，如果该像素点为极小值或者极大值点，则该像素点为图像显著点，其周围以σ为半径的区域为显著区域，由此可以得到一系列的图像显著点X，其相应的σ为其对应的尺度大小λ。对于每个图像显著点X，使的梯度图像与高斯核做卷积得到梯度图像其中σG＝1.5σ，并计算梯度图像中以显著点X的显著区域中的方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度进行累加，取方向直方图的区间个数L＝36，从方向直方图选取幅度超过其最大值80％的方向区域，确定为该特征区域主方向θ，如有多个方向区域，则该特征区域存在多个主方向θ。最后取图像显著点X的显著区域，按主方向及其垂直方向等分成16个区域，在每个小区域中分别统计方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度赋值进行累加，取方向直方图的区间个数L＝8，并将每个方向直方图的幅值量化到[0,255]之间，得到一个16*8＝128的SIFT特征F。

SIFT特征用于提取图像中的特征点，这些特征点不易受到光线干扰、形变影响，被用来判定两张图像中的景物是否匹配，从而判定I1和I2是否真的发生了渐变，若I1和I2有匹配上的特征点，则说明I1和I2中有相同的景物，I为伪渐变帧；反之，若I1和I2没有匹配上的特征点，则说明I1和I2中的景物已经发生了变化，I为渐变帧；对伪渐变帧进行剔除，将剩余的渐变帧和变化帧作为本发明算法得到的镜头分割结果。

本实施例为了计算视频中的切变帧和渐变帧，实现视频镜头的分割，为后续的关键帧提取、视频特征提取、视频摘要等应用提供基础，是视频处理中的一个重要环节。本实施例提出了一种基于GIST特征和条件判定的视频镜头分割方法，该方法首先提取了视频中图像的GIST特征，然后利用双阈值判定条件和GIST特征来得到初步的切变帧和渐变帧，最后利用基于SIFT特征的图像匹配来筛选候选帧，该匹配的目的是为了判断某帧前后一定距离内的帧是否具有显著差别，若有显著差别，则前后一定距离内的帧不匹配，说明该处为渐变帧，即前后的镜头内容发生了变化；若没有显著差别，即匹配，则说明该处不是渐变帧，从而判定得到最后的镜头分割位置，在OPENVIDEO数据库上的对比结果显示了本发明方法的优越性。

本发明在OPENVIDEO数据库上进行测试，OPENVIDEO数据库在视频处理测试中有广泛的应用，包含航天、教学等多类视频。本发明用于测试的视频包含航天、教学、讲演、历史和公共服务五类，每类包含4个视频，共20个视频。视频中除了包含渐变和切变镜头外，还具有物体/镜头移动(如图7所示)、光线突变(如图8所示)等。我们对20个视频中的切边帧和渐变帧进行了人工标注作为真值。切变帧和渐变帧标注是以发生时间点进行标注的，即切变帧和渐变帧发生在视频中的具体时间点，精确到秒。

评价指标采用图像处理中常用的查全率和查准率衡量。表示如下：

由于在视频的镜头分割中既需要检测出切变镜头，又需要检测出渐变镜头，所以在评价中这两类镜头类型将分别计算查全率和查准率。

我们将OPENVIDEO中的视频利用本发明的算法进行了镜头分割，分别找出视频中的切边帧和渐变帧，本发明中视频镜头分割结果输出为切变帧或者渐变帧的发生时间，计算方法如下：通过基于GIST特征和条件判定首先计算出切变帧和渐变帧在视频中的位置，即属于该视频的第几帧；然后，根据视频帧率和切变帧和渐变帧位置(第几帧)算出该帧发生在视频的具体时间，精确到秒；最后，将计算得到的切变帧时间和渐变帧时间与真值，即人工标注时间进行比对，通过查全率和查准率计算镜头分割的准确率，将每个视频的查全率和查准率进行平均，得出20个测试视频的平均查全率和平均查准率。此外，为了对比本发明算法的准确率，我们分别计算了传统的像素帧差法、直方图帧差法和基于颜色矩的镜头检测方法在该20个测试视频上的平均查全率和平均查准率。结果如表1(视频镜头分割准确率比较)所示。从表中可以看出，本发明提出的算法无论在查全率还是在查准率上都高于其余方法，显示了本发明算法的优越性。

表1

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张博;吉祥;杨云祥;郭静
技术所有人：中国电子科技集团公司电子科学研究院
我是此专利的发明人

上一篇：注射器用数据采集方法及自动采集刻度数据的注射器与流程
上一篇：一种空气处理装置及其控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。