一种高满意度视频摘要生成方法

文档序号：6400152阅读：186来源：国知局

专利名称：一种高满意度视频摘要生成方法
技术领域：
本发明涉及一种高满意度视频摘要生成方法，属于多媒体信息处理领域，具体来说，属于视频信息处理领域。
背景技术：
随着数字视频资源数量的迅速增加，表示、理解和提取视频结构来提供视频内容浏览和检索服务变得十分重要。其中，基于内容的视频分析技术就是其主要任务。基于内容的视频分析是指使用计算机对包含图像和声音的视频数据进行语义上的分析和理解。它的快速发展产生了很多新的相关技术研究成果和应用。在这些新兴的研究领域中，有一些应用和研究针对的问题是如何利用对视频内容的分析来减小视频存储、分类和索引的代价，以及如何提高视频的使用效率，可用性和可访问性。这就是视频摘要技术。视频摘要技术是以自动或半自动的方式对视频的结构和内容进行分析，从原视频中提取出有意义的部分，并将它们以某种方式进行组合，形成简洁的能够充分表现视频语义内容的概要。它是对长视频内容的简短总结，通常用一段静态或者动态的图像序列来表示，并对原始信息予以保留[2]。因此它可以提供给人们一个有关原始视频基本内容的较为精练的信息，其内容可以概括原始视频的主要内容，但其长度却要比原始视频短得多。目前视频摘要的生成方法大致可以分为四类:1.简单的生成方法。主要有两种。一是基于时间对视频进行采样，即每隔一段时间抽取一个代表帧或者一个片段；二是快速回放的方法，通过加快帧率达到缩短播放时间的目的。这两种方法比较简单，但完全没有基于视频的内容，效果很不可靠。2.基于视觉信息的生成方法。根据视频中颜色、纹理、形状、运动方向和强度等视觉信息，应用各种视频和图像处理技术，进行镜头探测、关键帧提取、场景聚类、运动特征提取等一系列操作，最终生成具有代表性的关键帧序列或缩略视频。这种算法完全基于视觉特征，而忽略了音频、字幕等信息对表现视频所起的作用。美国Palo Alto实验室生成的故事板(漫画书)的研究是其中的典型代表。3.融合多特征的生成方法。该方法在基于视觉方法的基础上融入其它媒体提供的信息，来更准确的判断视频片段的重要程度。例如，采用人脸识别技术来探测新闻中重要人物的出现，采用音频处理技术来探测体育视频中的精彩片段等等。这种算法是目前研究的热点，当前大多数视频摘要方法都是基于这种思想的。4.基于视频句法语义的生成方法。该方法不追求用模式识别技术获取视频中的数据语义，而是从视频的句法结构分析入手，探寻镜头与镜头之间、场景与场景之间的结构规贝U，从中分析出编导人员试图借此表现的情感和氛围，并以此为基础，将视频的句法语义尽可能完整地保存到摘要当中。这种方法的典型代表是Columbia大学Harri等人提出的基于句法语义的效用模型。这是一种新的思路，在视频模式识别技术还远远不够完善的今天，这种方法不失为生成视频摘要的一个新途径。总的来说，视频摘要生成问题是十分复杂的，如果真正做到对环境不加任何限制，要想实现既实时快速又稳定高效的摘要生成系统是非常困难的。摘要生成技术研究比较早，从现有资料来看，还存在许多问题，没有一个实现稳定实时的实际系统，特别是从用户满意度的角度来看，满意度不足，仍是各种方法普遍存在的问题。

发明内容
本发明的目标是:实现一种基于镜头聚类的视频摘要系统，该系统主要功能包括:多类型视频文件的编解码和播放，镜头边界检测，关键帧提取，镜头聚类，静态视频摘要，用户输入时间动态摘要的生成等。本发明的技术方案是通过如下步骤实现的:(I)检测镜头；⑵提取每个镜头的关键帧；(3)将所有镜头按照视觉相似性分组；
(4)从镜头组中提取代表帧作为静态摘要；(5)在前3步基础上，首先确定各镜头组的重要程度，再为重要程度高的镜头组分配更多的帧数，最终使用从个镜头组选取的视频帧生成摘要视频，整体过程如

图1所示。上述处理流程的具体步骤为:步骤I，检测镜头，整体流程如图2所示，具体步骤为:步骤1.1图像预处理。即对图像进行中值滤波预处理，提高检测的准确度。步骤1.2闪光检测。采用基于亮度帧差的方法，整体过程如图2所示，具体方法如下:(I)在一个窗口中取16帧图像，计算得到15个相邻帧间的亮度帧间差；(2)计算这15个帧间亮度差值的平均值，记为VDiff_avl5 ；(3)获取闪光检测的阈值，T_flush= O XVDiff_avl5，选取 o =5.5 ;(4)依次比较帧间差与T_flush的大小；定义当前帧差为第n帧和第n+1帧的帧间差，若当前帧差大于T_f lush，且下一相邻帧差也大于T_f lush，则判定第n+1帧处有闪光发生；否则，没有闪光发生。步骤1.3切变检测。采用亮度帧差作为切变检测特征，具体过程描述如下:(I)在一个窗口中计算得到15个相邻帧间的亮度帧间差；(2)计算这15个帧间亮度差值的平均值VDiff_15av ；(3)计算15个亮度帧差到该视频段亮度帧差均值VDiff_15av的距离VDist⑴；(4)计算切变检测的高阈值(Th_shot)和低阈值(Tl_shot)；(5)依次比较当前相邻帧差与该视频段亮度帧差均值VDiff_15av，同时比较各VDist (i)与切变的高阈值Th_shot和低阈值Tl_shot，若满足判定条件，则发生切变，否则，移窗，转(I)。所述切变的判别条件为:(I)视频段中第j个亮度帧差大于该视频段亮度帧差均值，且第j_l和第j + 1个亮度帧差小于均值；(2)视频段中第j个亮度帧差到该视频段亮度帧差均值距离大于高阈值，且第j_l和第j+1个亮度帧差到均值距离小于低阈值。同时满足上述两个条件，则认为第j_l与第j帧之间发生了切变。步骤1.4渐变检测
渐变检测以步骤1.3切变检测的结果为基础，对连续两次切变之间的视频帧序列进行渐变检测。具体过程描述如下:(I)取两个切变镜头之间的所有帧，计算相邻帧间的颜色帧差；(2)统计该视频段中颜色帧差的数量级直方图，以直方图最大的颜色帧差数量级为基准值，对颜色帧差进行O、I量化；(3)对量化结果进行平滑，剔除毛刺；(4)根据判定依据确定渐变段、渐变起始帧号和终止帧号。渐变检测是在完成切变检测后，依据切变检测结果，依次读取相邻两次切变之间的视频帧序列进行渐变检测，直到源视频帧序列的末尾。步骤2，在步骤I的基础上，提取每个镜头的关键帧。整体流程如图3所示，具体过程如下:步骤2.1按时间将镜头分为子镜头，具体描述如下:(I)计算镜头内所有相邻帧间的颜色直方图距离的均值av_CDiff，公式如下。

权利要求
1.一种基于镜头聚类的高理解度视频摘要系统，其特征在于，所述方法包括以下步骤: 步骤I，镜头检测。
步骤2，提取每个镜头的关键帧。
步骤3，将所有镜头按照视觉相似性分组。
步骤4，从镜头组中提取代表帧作为静态摘要。
步骤5，动态摘要生成。
2.根据权利要求1所述的方法，其特征在于，所述镜头检测方法的具体步骤为: 步骤I图像预处理。即对图像进行中值滤波预处理，提高检测的准确度。
步骤2闪光检测。采用基于亮度帧差的方法，整体过程如图2所示，具体方法如下: (1)在一个窗口中取16帧图像，计算得到15个相邻帧间的亮度帧间差； (2)计算这15个帧间亮度差值的平均值，记为VDiff_avl5； (3)获取闪光检测的阈值，T_fIush=σ XVDiff_avl5，选取σ =5.5 ； (4)依次比较帧间差与T_flush的大小；定义当前帧差为第η帧和第η+1帧的帧间差，若当前帧差大于T_f lush，且下一相邻帧差也大于T_f lush，则判定第η+1帧处有闪光发生；否则，没有闪光发生。
步骤3切变检测。采用亮度帧差作为切变检测特征，具体过程描述如下: (1)在一个窗口中计算得到15个相邻帧间的亮度帧间差； (2)计算这15个帧间亮度差值的平均值VDiff_15av；(3)计算15个亮度帧差到该视频段亮度帧差均值VDiff_15av的距离VDist(i)； (4)计算切变检测的高阈值(Th_shot)和低阈值(Tl_shot)； (5)依次比较当前相邻帧差与该视频段亮度帧差均值VDiff_15av，同时比较各VDist (i)与切变的高阈值Th_shot和低阈值Tl_shot，若满足判定条件，则发生切变，否则，移窗，转(I) O 所述切变的判别条件为: (1)视频段中第j个亮度帧差大于该视频段亮度帧差均值，且第j-Ι和第j+ι个亮度帧差小于均值； (2)视频段中第j个亮度帧差到该视频段亮度帧差均值距离大于高阈值，且第j_l和第j+Ι个亮度帧差到均值距离小于低阈值。
同时满足上述两个条件，则认为第j_l与第j帧之间发生了切变。
步骤4渐变检测渐变检测以步骤1.3切变检测的结果为基础，对连续两次切变之间的视频帧序列进行渐变检测。具体过程描述如下: (1)取两个切变镜头之间的所有帧，计算相邻帧间的颜色帧差； (2)统计该视频段中颜色帧差的数量级直方图，以直方图最大的颜色帧差数量级为基准值，对颜色帧差进行O、I量化； (3)对量化结果进行平滑，剔除毛刺； (4)根据判定依据确定渐变段、渐变起始帧号和终止帧号。
渐变检测是在完成切变检测后，依据切变检测结果，依次读取相邻两次切变之间的视频帧序列进行渐变检测，直到源视频帧序列的末尾。
3.根据权利要求1所述的方法，其特征在于，所述每个镜头的关键帧的提取步骤具体包括: 步骤I按时间将镜头分为子镜头，具体描述如下: (1)计算镜头内所有相邻帧间的颜色直方图距离的均值av_CDiff，公式如下。
4.根据权利要求1所述的方法，其特征在于，所述将所有镜头按照视觉相似性分组的方法为: 步骤1，使用层次聚类确定初始分类 (I)计算视频内两两镜头相似度的均值av_Sim，公式如下；
5.根据权利要求1所述的方法，其特征在于，所述从镜头组中提取代表帧作为静态摘要的具体方法为: 从每个镜头组的关键帧集合中提取一帧作为代表帧；再集合所有代表帧，就可以得到静态视频摘要。所述镜头组代表帧的计算方法为:依次计算关键帧集合中每个元素与其余各元素的相似度之和，该值最大的关键帧即为本镜头组的代表帧。
6.根据权利要求5所述的方法，其特征在于，所述动态摘要的具体步骤为: 步骤1，剔除贡献度较小的镜头组确定各镜头组权重之前，先剔除那些对反映内容贡献很小的镜头组，算法如下: (1)计算每个镜头组包含的图像帧总数Fi； (2)计算阈值
全文摘要
本发明涉及一种高满意度视频摘要生成方法。本发明基于视频数据结构的特点，设计、实现了一种基于镜头聚类的视频摘要系统，该系统主要功能包括多类型视频文件的编解码和播放，镜头边界检测，关键帧提取，镜头聚类，静态视频摘要，用户输入时间动态摘要的生成等。本发明适合多媒体文件管理、视频检索、影视库建设等应用场合。
文档编号G06F17/30GK103150373SQ20131007514
公开日2013年6月12日申请日期2013年3月8日优先权日2013年3月8日
发明者罗森林, 谢尔曼, 潘丽敏, 马舒洁, 高晓芳, 吕英申请人:北京理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗森林;谢尔曼;潘丽敏;马舒洁;高晓芳;吕英
技术所有人：北京理工大学
我是此专利的发明人

上一篇：电子设备的壁纸显示方法、装置及电子设备的制作方法
上一篇：一种sar图像自动配准方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。