一种多特征融合的视频摘要生成方法与流程

文档序号:11207337阅读:616来源:国知局
一种多特征融合的视频摘要生成方法与流程

本发明涉及一种食品分析与图像处理技术,特别是一种多特征融合的视频摘要生成方法。



背景技术:

当前互联网技术和只能设备的迅猛发展使得人们获取视频和浏览视频的方式变得愈发多样化,同时面对的视频数据也越来越多,面对如此大量的视频数据,如何从中寻找到我们需要的视频数据或视觉信息是当前的一个研究热点,也是视频分析技术的研究内容。在对海量视频数据的研究基础之上,对视频数据的分析,处理和存储等方法存在缺失,导致用户在寻找有用视频数据时存在盲目性的缺点,另外现在大部分生成视频摘要的结果都不大理想,因为很多方法生成的视频摘要都是静态视频摘要,这种视频摘要不利于用户浏览,更不利于用户对视频内容的把握。因此需要对视频数据进行数据挖掘和图像处理得到一种实用性强的基于全局重要性和局部重要性的多特征融合的视频摘要生成方法。



技术实现要素:

本发明的目的在于提供一种基于全局重要性和局部重要性的多特征融合的视频摘要生成方法,包括以下步骤:

步骤1,获取视频并将视频作为输入数据;

步骤2,对输入的视频数据进行片段的分割,记录分割点和视频片段的个数;

步骤3,提取每个视频片段中的视频帧和视频帧中心块;

步骤4,分别对提取的视频帧和视频帧中心块进行特征和图像质量的计算;

步骤5,根据得到的特征进行全局重要性和局部重要性的计算;

步骤6,对得到的每一帧的全局重要性和局部重要性进行融合得到融合重要性;

步骤7,根据分割点对每个视频片段进行重要性的计算;

步骤8,根据得到的每个视频片段的重要性和设定阈值,对视频片段进行选择,选出一个优化的视频片段子集;

步骤9,根据选出的视频片段子集进行视频摘要的合成。

本发明利用了用户获取的多种视频数据,包括通过智能设备获取的和互联网上获取的视频数据等多种视频数据,这些获取的多种来源的视频数据,能够尽可能的涵盖网络上的所有种类的视频数据;本发明无需训练即可快速得到用户想要的视频摘要,为用户节约了大量的时间和精力;另外本发明还针对视频中是否具有音频信息动态地抽取视频中的音频信息放入视频摘要;本发明在呈现给用户视频摘要结果的时候,利用了视频分析和图像处理的技术,将原始视频分析处理得到浓缩的视频摘要,使用户能够快速得到想要浓缩视频,在很大程度上改进了用户的体验。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1是本发明基于全局重要性和局部重要性的多特征融合的视频摘要生成方法流程图。

图2是本发明从原始视频中提取的原始视频帧示意图。

图3是本发明提取的视频帧先分割成5x5的小块,然后提取中心部分的3x3的中心块用于计算局部重要性的示意图。

图4是本发明基于全局重要性和局部重要性的多特征融合的视频摘要生成系统演示的效果图。

具体实施方式

结合图1,一种基于全局重要性和局部重要性的多特征融合的视频摘要生成方法,包括以下步骤:

步骤1,获取视频并将视频作为输入数据;

步骤2,对输入的视频数据处理,得到一个个分割点和视频片段的个数;

步骤3,提取每个视频片段中的视频帧和视频帧中心块;

步骤4,分别对提取的视频帧和视频帧中心块进行特征和图像质量的计算;

步骤5,根据得到的特征进行全局重要性和局部重要性的计算;

步骤6,对得到的每一帧的全局重要性和局部重要性进行融合得到最终的融合重要性;

步骤7,根据分割点对每个视频片段进行重要性的计算;

步骤8,根据得到的每个视频片段的重要性,设定阈值进行视频片段进行选择,选出一个优化的视频片段子集;

步骤9,根据选出的视频片段子集进行视频摘要的合成。

步骤1中的视频数据可通过互联网和各种智能设备获取,获取视频的网站包括http://www.youku.com/,http://www.iqiyi.com/等网站,获取视频的智能设备包括各种智能手机、平板等。

步骤2中将获取的视频数据作为输入的视频,并对其进行片段的分割,使用超帧分割的方法结合视频的前景,背景和运动信息将视频分割成一个个小的视频片段,得到一个个分割点和视频片段的个数,对视频片段的剪切点和视频片段个数进行保存以便后期的计算。

步骤3中对于视频进行视频帧和视频帧中心块的提取,视频帧的提取使用常规的提取方法即可,但是对于视频帧中心块的提取需要先对视频帧进行分割,这里为了使得视觉内容得到很好的保留,将视频帧平均分成5x5的块,然后提取出中心部分的3x3的中心块用于计算局部重要性。

步骤4中对提取的视频帧和视频帧中心块进行图片特征和图像质量的计算,计算的特征包括视觉显著性曝光度,饱和度,色度,ruleofthirds,对比度,方向度,另外还需要计算视频帧和视频帧中心块的图像质量的计算;其中视觉显著性的计算公式为:

公式中,as为静态显著性,at为时间显著性,γ为一个非负的经验性参数,fa只是指代一个函数名而已,用来表示两种视觉显著性的融合;

曝光度的计算公式为:

其中x,y分别为提取的视频图像转换为hsv图像的长度和宽度,x,y分别为通道v中的像素位置,iv(x,y)为hsv图像的v通道。

色度的计算公式为:

其中x,y分别为提取的视频图像转换为hsv图像的长度和宽度,x,y分别为通道s中的像素位置,is(x,y)为hsv图像的s通道。

饱和度的计算公式为:

其中x,y分别为提取的视频图像转换为hsv图像的长度和宽度,x,y分别为通道v中的像素位置,ih(x,y)为hsv图像的v通道。

ruleofthirds的计算公式为:

其中x,y分别为提取的视频图像转换为hsv图像的长度和宽度,x,y分别为通道中的像素位置,ih(x,y)、is(x,y)、iv(x,y)为hsv图像的三个通道。f5、f6、f7是根据ruleofthirds计算得到的三个特征值,主要是用这三个特征值来反映图像中的主要信息位于图像的三分位附近。

对于对比度,方向度的计算,主要是利用tamura纹理特征来计算的,tamura图像纹理特征包括六种特征,分别为:粗糙度、对比度、方向度、线粒度、规则度和平滑度六种特征,这六种特征中的前三种特征对于图像检索领域来说具有非常重要的作用。

通过无参考图像的图像质量评价方法获取视频帧的图像质量和视频帧中心块的图像质量而图像质量主要用来恒量提取的视频帧和视频帧中心块的质量的,因为从视频中抽取的有的视频帧和中心块可能质量比较低,所以我们需要考虑这些失真的模糊的视频帧和中心块所计算的这些特征是否能够很好地表达视频,因为图像质量好坏对视频摘要的生成具有非常重要的作用。

步骤5中对于每帧视频帧全局重要性和局部重要性的计算,全局重要性的计算公式为:

其中k指第k帧视频,是视频帧的质量,fg_1~fg_9分别为要求4中计算的基于视频帧的九个特征的值。

局部重要性的计算公式为:

其中k指第k帧视频,是视频帧的质量,fl_1~fl_9分别为基于视频帧中心块的九个特征的值。

步骤6中对每帧视频帧进行融合重要性的计算,融合的重要性由两个部分组成:全局重要性和局部重要性。其计算公式为:

i_gk&lk=i_gk+i_lk(10)

其中i_gk和i_lk分别为视频帧的全局重要性和局部重要性。

步骤7中对每个视频片段重要性的计算,主要根据步骤2中所得到的视频片段的剪切点和步骤6中所得到的每一帧视频帧的融合重要性计算每个视频片段的平均融合重要性,这一重要性的计算主要为了对接下来的视频片段子集的选择做准备。

视频片段的计算公式为:

ic指视频片段的融合重要性之和,ij指视频片段的平均融合重要性,i指步骤2中得到的一个剪切点,next_i指下一个剪切点。视频片段的平均融合重要性ij作为接下来进行视频片段子集选择的依据。

步骤8中根据步骤7中计算得到的每个视频片段的融合重要性和设定的阈值对步骤2中分割所得到的视频片段集合进行子集的选择,这里阈值设定为视频摘要片段所占所有视频片段的比例,不能设定的比例过高或者过低,否则选择出来的视频片段或太多或太少必定会影响视频摘要的质量,例如设定比例为15%或者设定为20%比较合适。

选择子集的计算公式为:

其中{1,0}是一个决策函数,用来判断某个视频片段是否被选择出来作为视频摘要的一部分,如果选择出来作为视频摘要的一部分,该函数的值为1,否则为0。基于上面的公式我们就可以选择出一个合适的视频片段子集。

步骤9中根据步骤8中所选择出来的视频片段子集进行视频摘要的合成。所谓合成就是将所得到的视频片段子集中每一个视频片段按照原始视频中的顺序进行合并。视频摘要的合成时需要考虑该视频是否包含音频信息,如果包含音频信息,则在合成视频摘要的过程中也要把音频信息包含进去。如图4所示为视频摘要演示系统。这种视频摘要方法以一种简洁的方式将视频摘要结果呈现在用户面前,极大地改进了用户对视频数据的浏览体验和需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1