一种基于稀疏时变图的幻灯片切换检测方法与流程

文档序号：13935240阅读：460来源：国知局

本发明涉及一种演讲视频幻灯片切换检测方法，尤其涉及一种基于稀疏时变图的幻灯片切换检测方法。

背景技术：

现在，在线学习已经成为了一种很重要的获取知识的方法。由于演讲视频的可视性、方便性以及能传递丰富的信息的特性，使它成为目前知识分享和学习的重要手段。人们能够通过网络免费获取演讲视频并进行学习。然而，由于消费类电子设备的普及以及互联网的发展，带来了视频数据的爆炸式增长。例如，视频分享网站youtube的视频总数据量已达到拍字节数量级(1pb＝106gb)，而且还在以每分钟300小时的上传量不断递增。如果对这些视频不加筛选与总结就直接呈现给用户，那么用户会把大把时间浪费在无用的信息上面。例如，当用户想要回顾之前演讲中的某一特定部分时，他可能会回去浏览整个演讲视频或者多次的向前、向后播放来寻找该部分的位置。因此为了让用户根据自己的喜好选择视频，有必要对视频进行基于内容的浓缩与提炼。此外，结构化的内容在形式上更加简洁，提取演讲视频内容后可以对该视频建立标签，关键词等特性，从而方便网站后台根据视频特征建立易于检索的数据库。

在演讲视频摘要问题中，幻灯片切换检测是很重要的研究课题。演讲视频分为多种，例如，通过单个ptz相机同时拍摄了包含了投影幻灯片和演讲者的视频，有的直接记录电脑屏幕作为视频，或者两者结合，从ptz相机直接切换到电脑屏幕。在记录过程中，幻灯片内容可能会发生切换，而用户不得不看整个视频才能发现这些切换点。有很多干扰会导致视频帧之间发生变化，如相机平移，相机转换和演讲者移动。因此很难从这些干扰中判断视频是否发生了幻灯片切换。

现有技术提出的方法通常是比较相邻帧之间的视觉相似度来提取幻灯片切换帧。通过比较图像特征，例如颜色直方图，sift特征和小波特征来描述外观相似度。如果视频中包含噪声干扰，如人物移动和相机移动，就会极大的影响到检测精度。为了客服这种干扰，很多改进算法被提出。例如一种追踪匹配特征点轨迹的方法检测幻灯片切换，但是这种方法无法处理相机切换的情况，应用受到限制。

技术实现要素：

本发明的目的在于克服现有技术的不足，提出一种基于推断稀疏时变图的方法检测演讲视频幻灯片切换。该方法能有效处理多镜头切换下的幻灯片切换检测问题。

为实现上述目的，本发明采用如下技术方案：

一种基于稀疏时变图的幻灯片切换检测方法，包括以下步骤：

步骤1：视频分段：提取各视频帧的sift特征点，将视频帧与当前段首帧的特征点匹配，若相似度高于m，则认为图像匹配，归于同一段；其中，m为判断两视频帧是否相似的阈值。通过特征点匹配将视频分段，视频分段后，用相同长度的稀疏矢量表示图像，矢量非零值位置表示图像属于该段；

步骤2：定义图i∈{1,…,n-1}，n是帧总数；图包括顶点集和边集ε，顶点集由步骤1产生的各视频段组成，边集中的非零值表示顶点集中各点相互转换；

步骤3：推断稀疏时变图：建立图模型并利用最大似然估计方法推断稀疏时变图；

步骤4：图全局优化：满足邻接矩阵需要满足最大似然估计，非零值有限，邻近帧时域一致这三个条件。

步骤5：幻灯片切换检测：每帧推断得到邻接矩阵aⁱ，aⁱ为第i帧下图的邻接矩阵。若幻灯片发生切换，邻接矩阵的非零值将出现在非对角线的位置。即，若diss≠0，则认为第i帧发生了切换。

所述步骤1中的确定相似度高于m的方法是：

计算全部视频帧特征点匹配相似度，并建立分布直方图；在直方图峰值附近使用mle方法估计一高斯分布n(μr,σr)，并定义m＝μr+3σr，其中，μr是高斯分布的均值，σr是高斯分布标准差。

所述步骤3中的推断稀疏时变图，利用最大似然估计方法推断稀疏时变图的方法是：

演讲视频经过视频分割后表示为基于马尔科夫假设序列的似然度定义为：

其中，f(xⁱ⁺¹|xⁱ)是从帧iⁱ到帧iⁱ⁺¹的条件转移似然模型，f(x¹)是第一帧的似然度，xⁱ是分段后的第i帧的矢量表示。若给定xⁱ，假设和条件独立，m,n∈{1,…,d}，每个矢量的维度是d；因此f(xⁱ⁺¹|xⁱ)表示为：

其中，是i+1帧矢量下第d维值；使用一个线性动态模型来简化转移模型：

xⁱ⁺¹＝aⁱxⁱ+ζζ～n(0,σ²i)

其中，ζ是零均值，σ²方差的高斯噪声；

总和各公式，转移似然变形为：

其中，表示邻接矩阵aⁱ的第d行；对数似然估计函数值最终表示为：

所述步骤4中的图全局优化，得到优化图的邻接矩阵的方法为：

期望得到图中的邻接矩阵需要满足以下三个准则：

(1)邻接矩阵要与mle解近似相同；假定临近的帧有相似的外观，将转移矩阵加到邻近的帧对(x^i+k,x^i-k+1)，k∈n⁺中来获取冗余约束；用公式表示为：

其中，权重因子用来约束邻近帧的邻接矩阵的相似度，σt是用来约束矢量对(xⁱ^+k,x^i-k+1)的权重，随着时间的推移，矢量对之间的关系变得越来越弱，σf是用来约束(x^i+k-x^i-k+1)和(x^i+k+1-x^i-k)差异的权重，设置较低值来规避噪声，k＝min(min(n-i-1,i-1),2σt)是邻近集的大小；

(2)邻接矩阵有较少的非零值；用l1正则化矩阵控制邻接矩阵的稀疏性，l1是范数规则下的l1范数；

(3)相邻帧的邻接矩阵要保持时域一致性，最小化控制时域一致；

应用优化准则得到最终邻接矩阵：

其中，λ和α分别是约束邻接矩阵稀疏度和平滑项的权重因子。

本发明与已有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

本发明是一种准确性更好的克服演讲视频中有镜头移动、演讲者移动和多个ptz镜头切换干扰的方法，利用每个时刻推断出的邻接矩阵，得到的检测结果没有出现检测到人以及人和幻灯片切换的问题。并且比现有方法精确度高，扩大了可处理的演讲视频种类的范围。另外本发明不需要附加的资料，如文本、语音、电子幻灯片等。

附图说明

图1为本发明的流程图。

图2为本发明实施例中输入的演讲视频。

图3为本发明实施例中幻灯片切换检测结果。

具体实施方式

以下结合附图对本发明的实施例作详细说明。本实施例以本发明的技术方案为前提进行实施，但本发明的保护范围不限于下述的实施例。

本发明实施例的应用环境如下：参见图2，输入演讲视频镜头可在演讲者和幻灯片之间切换。

参见图1，一种基于稀疏时变图的幻灯片切换检测方法，包括以下步骤：