视频关键帧提取方法与流程

文档序号:16520436发布日期:2019-01-05 09:55阅读:4864来源:国知局
视频关键帧提取方法与流程

本发明涉及视频图像处理方法技术领域,尤其涉及一种视频关键帧提取方法。



背景技术:

信息技术日新月异,正在改变着人们生活的方方面面。多媒体视频以其丰富的信息含量,多样的展现方式,便捷的传输、存储形式迅速取代着传统的纸质文本和现实课堂教学,形成了广泛传播的学术讲座视频。学术讲座视频因不受时间、空间限制而蓬勃发展,如网易公开课、超星学术视频、腾讯课堂、mooc、ted、allclasses等迅速崛起,视频数据量呈现井喷式增长。面对浩瀚如海的学术讲座视频,传统的快进、快退、关键字搜索等方式已无法满足现实需求,如何快速、准确地检索和浏览学术讲座视频已经成为当前亟待解决的难题。

关键帧提取作为一种可行的解决方案受到人们的普遍关注。关键帧是一种高效、精简的视频展现形式,用关键帧表征原始学术讲座视频可以极大的减小数据量,快速地进行检索和浏览。基于内容进行关键帧提取是当前的研究热点,但现有的算法大多在分析视频底层特征,提取结果无法准确、全面的表征视频的真实内容。学术讲座视频通常配有字幕,且字幕大多出现在视频下方,与字幕背景对比鲜明。字幕信息言简意赅,对视频内容有较好的概括作用,目前对视频字幕的提取通常只局限于空域信息,而忽视了时域信息,导致此类视频字幕检测和提取算法计算量很大。



技术实现要素:

本发明所要解决的技术问题是如何提供一种计算量小、处理速度快的视频关键帧提取方法。

为解决上述技术问题,本发明所采取的技术方案是:一种视频关键帧提取方法,其特征在于包括如下步骤:

提取具有字幕的视频的时空字幕;

计算提取的时空字幕视觉能量ssve;

根据提取的时空字幕视觉能量ssve,生成ssve曲线;

检测ssve曲线,并根据ssve曲线提取关键帧,所述关键帧是指视频中字幕出现时刻的视频帧。

进一步的技术方案在于,所述的视频时空字幕提取方法如下:

视频时空字幕是通过对视频进行时空采样得到的,对于视频v(x,y,t),其时空字幕s表示为:

式中:表示视频v中位置x=j,t=i,y取字幕高度中值处的像素,满足j∈[1,w],i∈[1,l],w表示视频帧的宽度,l表示视频的长度。

进一步的技术方案在于,所述视频时空字幕视觉能量的计算方法如下:

视频v(x,y,t)中第i帧的时空字幕视觉能量ssve由下式计算得到:

式中:

τ用于量度视频时空字幕的像素亮度,亮度值低于τ的像素将被视为干扰而去除掉,表示像素视觉能量。

进一步的技术方案在于,所述ssve曲线的生成方法如下:

视频时空字幕视觉能量曲线可以公式化为:

ssve=ssve(1)∪ssve(2)∪…ssve(i)…∪ssve(l)(4)

ssve(i)表示第i帧时空字幕视觉能量。

进一步的技术方案在于,根据ssve曲线提取关键帧的方法如下:

不同字幕之间会有时间空隙,新的字幕出现会使ssve瞬间增大;因此,通过检测ssve曲线的上升沿便可以得到字幕帧的出现时刻,所述ssve曲线的上升沿记为re,re定义为:

式中:w0表示新字幕帧与其前一字幕帧的ssve差异显著程度阈值,ssvemax为视频字幕帧的ssve最大值。

按照公式(5)计算得到re曲线,曲线峰值对应的视频字幕帧即为所要提取的关键帧;ssve(i+1)表示第(i+1)帧的时空字幕视觉能量。

进一步的技术方案在于,当需要的关键帧数目n已经给定,并且和re曲线峰值个数m不等时,做如下处理:

(1)如果n<m,对re曲线峰值做降序排列,提取前n个曲线峰值对应的视频字幕帧做为视频关键帧;

(2)如果n>m,采用插值算法得到额外的(n-m)个视频关键帧。

采用上述技术方案所产生的有益效果在于:所述方法通过时空字幕建模成视觉感知能量,最终通过检测ssve曲线上升沿来提取关键帧。实验结果证实所述方法的计算量较小,处理速度较快。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例中视频时空字幕的示例图;

图2是本发明实施例中所述方法的流程图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

总体的,如图2所示,本发明实施例公开了一种视频关键帧提取方法,包括如下步骤:

提取具有字幕的视频的时空字幕;

计算提取的时空字幕视觉能量ssve(spatiotemporalsubtitlevisualenergy,简称ssve);

根据提取的时空字幕视觉能量ssve,生成ssve曲线;

检测ssve曲线,并根据ssve曲线提取关键帧。

下面对以上步骤进行详细的说明

视频时空字幕:

传统的视频字幕检测方法计算量大、缺乏时间维度的信息辅助,难以满足高效视频浏览的需求。为此,所述方法通过分析视频时空字幕,检测视频字幕的改变来提取关键帧。视频时空字幕是通过对视频进行时空采样得到的,对于视频v(x,y,t),其时空字幕s可表示为:

式中:表示视频v中位置x=j,t=i,y取字幕高度中值处的像素,满足j∈[1,w],i∈[1,l],w表示视频帧的宽度,l表示视频的长度。

由式(1)可知视频时空字幕只提取字幕图像空间中的一行像素,保留了完整的视频时域信息,具有计算量低、抗干扰能力强等优点,而空域信息的匮乏对视频字幕改变检测的影响不大。视频时空字幕示例如图1所示,横向表征视频时域信息,为视频流长度;纵向表征视频空域信息,为字幕帧宽度。从图1可以看出:在视频时空字幕中,无字幕区域为纯黑色,字幕区域为白色;字幕持续时间长短、字幕长度等信息清晰可见;并且不同字幕的长度、纹理等区别特征鲜明。由此可知,采用视频时空字幕检测视频字幕的改变时刻是可行的。

基于时空字幕分析的视频关键帧提取:

学术讲座视频字幕通常会持续数秒以上,同一字幕对应的视频内容基本不变,字幕出现时刻最为吸引人的视觉注意力。基于此观测,所述方法定义字幕出现时刻的视频帧为关键帧,传统的视频字幕分析方法能够实现字幕出现时刻的检测,但通常计算复杂度高、消耗时间长。视频字幕的变化可以由视频ssve准确的反映出来,因此,所述方法基于视频时空字幕进行分析,计算出每一帧的ssve后生成ssve曲线,通过检测ssve曲线上升沿来得到视频字幕的出现时刻,最终实现关键帧提取。所提出的关键帧提取方法的基本架构如图2所示。

从图2可以看出:对于输入的视频序列进行了:1)时空字幕提取、2)ssve计算、3)ssve曲线生成、4)ssve曲线上升沿检测和5)提取关键帧五个步骤最终得到了视频关键帧。

根据公式(1)从输入视频序列中提取视频时空字幕s,时空字幕中的像素亮度表征着字幕的相对显著性,显著性越强则表示其具有的视觉能量越大。基于公式(1),视频v(x,y,t)中第i帧的时空字幕视觉能量ssve可由下式计算得到:

式中:

τ用于量度视频时空字幕的像素亮度,亮度值低于τ的像素将被视为干扰而去除掉,表示像素视觉能量。

根据公式(2),视频时空字幕视觉能量曲线可以公式化为:

ssve=ssve(1)∪ssve(2)∪…ssve(i)…∪ssve(l)(4)

ssve(i)表示第i帧时空字幕视觉能量。

不同字幕之间会有时间空隙,新的字幕出现会使ssve瞬间增大。因此,检测ssve曲线的上升沿(记为re)便可以得到字幕帧的出现时刻。为了简单起见,re定义为:

式中:w0表示新字幕帧与其前一字幕帧的ssve差异显著程度阈值,ssvemax为视频字幕帧的ssve最大值,ssve(i+1)表示第(i+1)帧的时空字幕视觉能量。

按照公式(5)计算得到re曲线,曲线峰值对应的视频字幕帧即为所要提取的关键帧。

在具体应用中,当需要的关键帧数目n已经给定,并且和re曲线峰值个数m不等时,可做如下处理:

(1)如果n<m,对re曲线峰值做降序排列,提取前n帧为视频关键帧;

(2)如果n>m,采用插值算法得到额外的(n-m)个视频关键帧。

实验与分析

为了验证所述方法的性能,将其与当前的主流方法进行了对比。对比实验在五种不同类型的学术讲座视频上进行,如表1所示:

表1实验视频信息

视频1为中国人民大学公开课,字幕文本为中文文本,字幕文本与背景分隔明显,镜头切换形式为突变形式;视频2为tedxsuzhou的一场演讲,字幕文本为中英混合文本,字幕与背景分隔明显,镜头切换形式为突变形式;视频3为浙江大学公开课,字幕文本为中文文本,字幕与背景分隔明显,镜头切换形式为突变与渐变结合;视频4为ted的一场演讲,字幕文本为英文文本,字幕在背景上,受背景影响较大,镜头切换形式为突变形式;视频5为牛津大学公开课,字幕文本为中英混合文本,与背景有交叉部分,镜头切换形式为突变与渐变结合,形式比较多样。验参数设置为:τ=20,w0=30。实验在通用型个人计算机上完成,基本配置为:intel(r)core(tm)i3m380@2.53gcpu和8gb内存。

对比从处理时间、召回率和准确率三方面进行。其中召回率rr的定义如下:

准确率ra的定义如下:

式中:fcz表示提取到的正确字幕帧帧数,fcs表示实际具有的字幕帧帧数,fct表示提取到的总字幕帧帧数。表2-表6中现有技术的方法是指:闫永军.基于内容的新闻视频摘要系统的研究与实现[d].东北大学,2010中采取的方法。

对比结果分别如表2、3、4、5、6所示:

表2对于视频1的方法比较

表3对于视频2的方法比较

表4对于视频3的方法比较

表5对于视频4的方法比较

表6对于视频5的方法比较

从上述实验结果可以看出,对于字幕文本与背景区分明显的学术讲座类视频,所述方法进行关键帧的提取基本不受镜头的多少与切换方式的影响,提取出来的关键帧数量较少且召回率和准确率高。而对于字幕文本背景复杂的学术讲座类视频,两种方法式均在一定程度上受到了背景的影响,但相对于上述现有技术的方法,由于本申请所提出的方法仅提取视频中的一行作为检测标准,其受影响程度较小,且计算复杂度低、计算量小,在计算时间上具有较为明显的优势。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1