基于流形排序的视频摘要方法与流程

文档序号:12666846阅读:731来源:国知局

本发明涉及视频处理、分类,具体讲,涉及基于流形排序的视频摘要方法。



背景技术:

随着信息技术的快速发展,图像和视频等多媒体数据大量涌现,成为人们获取信息的重要途径之一。然而,由于视频数量的剧增,降低了用户浏览的效率,这就需要一种技术能够有效地管理视频数据,使用户更加有效地获取他们想要的信息。视频摘要定义为一组静止的或运动图片序列,它以一种简洁的方式将视频的主要内容呈现出来。

目前视频摘要技术主要从视频的冗余性,重要性和覆盖率三个方面考虑。冗余性指视频中存在多余的信息,在提取视频摘要时需要设计去除视频冗余信息的方法。重要性指提取视频摘要时需要提取视频的主要内容。覆盖性指设计视频摘要方法时要考虑提取的关键帧能够代表视频的主要内容,使视频摘要尽可能地覆盖视频的重要内容。

视频摘要技术主要有两种模式:基于关键帧的静态视频摘要和基于视频梗概的动态视频摘要。静态视频摘要模式通过一系列的关键帧组成相应的语义单元,概括表示镜头的内容。静态视频摘要生成摘要的速度比较快,表达形式直观简洁。动态视频摘要模式则是由小视频片段组成,保持了视频内容随时间变化的固有特征,易于用户的理解。

目前常用的视频摘要技术主要有基于聚类的方法,帧间最小相似度的方法,最小重构误差的方法以及基于对象或事件检测的方法。其中,基于聚类的视频摘要把视频中的帧看作是特征空间中的点,把每类中距离聚类中心点最近的点看作关键帧,形成静态视频摘要。由于聚类方法在数据分析领域大量使用,研究较为成熟,因此成为了一种常用的视频摘要方法。此外,聚类方法能够满足提取视频的全局特征,满足了视频摘要的覆盖率标准。但是,这种全局聚类不易对视频内容的重要性做出判断,较难满足重要性标准。另外,由于语义鸿沟的存在,要准确地实现有意义的聚类也较为困难。帧间最小相似度的方法目的是使关键帧之间的相似度最小,例如序列决定点过程(sequential determinal point process,seqDPP)相似度方法是其中的一个代表性方法。它可以用来生成低冗余度的视频摘要。最小重构误差的方法目的是使原始视频帧与关键帧插值得到的重构误差最小。基于对象或事件检测的方法使用视频中的语义信息来生成摘要,常用的信息有对象、动作、事件等。例如,对于体育视频,可以检测进球,犯规等重要事件,进行排序,组成摘要。

以上方法仅从视频摘要的某一个标准出发(如冗余性标准或重要性标准),而未综合考虑三个标准,使得视频摘要的效果并未达到理想效果。



技术实现要素:

为克服现有技术的不足,本发明旨在提出一种基于流形排序的视频摘要方法。由于传统的视频摘要方法主要利用欧式距离计算帧之间的相似性,忽略了视频的帧间数据的内在低维流形结构。本发明利用数据之间的内在流形结构,从数据的全局特征计算数据之间的相似性,对于现实世界的许多数据来讲,这种方法明显优于基于数据的局部欧氏距离的相似性计算方法,并同时结合视频的重要性、覆盖率以及冗余性三个标准,构造基于流形排序算法的视频摘要。本发明采用的技术方案是,基于流形排序的视频摘要方法,首先提取视频帧的视觉特征,并把视频帧看作空间中的点,然后利用流形排序算法对数据点进行排序;流形排序描述为以下过程:首先根据数据构造一个带权重的网络,将一个正的排序分数分配给与查询相关的点,将零排序分数分配给剩下的待排序的点;然后,所有的点通过权重网络将他们的分数传递给与他们邻近的点,重复这一传播过程直到整个网络达到稳定状态,此时所有的点均获得他们最后的排序分数。

流形排序的具体过程如下:

给定数据点集X={x1,x2,...,xn},xi∈Rm,假定x1作为查询帧,则其余的帧为待排序的帧,f:X→R表示排序函数,它分配每一个点xi相应的排序值,1≤i≤n,f=[f1,f2,...fn]T,此外,定义每一个数据点的初始排序分数y=[y1,y2,...,yn]T,若第j帧为查询帧则yj=1,否则yj=0,1≤j≤n,流形排序的代价函数如下:

式中,第一项是邻近点变化成本,是平滑性条件,第二项是初始分数分配变化成本,两者之间用参数μ来平衡之间的关系,其中,Wij=exp(-||xi-xj||2/(2σ2)),i≠j;Wij=0,i=j,D是对角矩阵,且D中的元素通过排序算法得到近似解为:f*=β(1-αS)-1y,其中α+β=1,S=D-1/2WD-1/2

其次计算视频帧的重要性,首先根据每一帧与其余各帧之间的相似性权重Wij,计算其与视频的平均相似向量I,并将其归一化,具体计算过程如下:

最后,计算视频的覆盖率,具体计算公式如下:

其中,Cov(S,V)表示摘要集S与原视频集V的相似性,d(xi,g)表示两者之间的欧式距离。

本发明的特点及有益效果是:

本发明主要是针对现有的视频摘要技术采用的方法主要是在欧式空间计算视频帧之间的关系并没有考虑视频数据特征之间内在的低维流形结构这一特点,设计适用于视频数据特点的视频摘要方法,使之在有限的数据信息下,充分地利用数据的特有性质。其优势主要体现在:

(1)新颖性:首次把流形排序算法引入到视频摘要技术中,并在此基础上消除视频的冗余信息,不仅考虑视频的冗余性,而且同时考虑了视频帧的重要性和摘要集的覆盖率等标准,设计了适用于视频数据特征的摘要方法。

(2)有效性:通过主观和客观实验证明了,与目前的某些视频摘要方法相比较,本发明设计的基于流形排序的视频摘要方法性能相对有所提高,因此更适用于视频摘要问题中。

(3)实用性:简单可行,可以用在多媒体邻域中的视频信息管理、视频预览,视频推荐等相关的领域。

附图说明:

图1是本发明的基于流形排序算法的视频摘要技术的流程图。

具体实施方式

本发明涉及一种面向多媒体信息检索领域的视频摘要技术,它针对多媒体视频数据的冗余性等特点,利用视频数据的性质,对现有的视频摘要技术的不足进行了改进,设计适用于视频数据特点的基于流形排序的视频摘要技术,提高了用户浏览视频的效率。

本发明所提供的方法在分析单视频摘要技术存在的缺陷的基础上,引入流形排序算法来计算视频帧之间的相关性,并同时考虑视频摘要中的冗余性、重要性和覆盖率三个标准,设计了适用于视频数据结构的视频摘要技术。下面将从三个方面阐述该技术方案。

为了去除视频数据之间的冗余性,首先提出了视频帧之间的相关性测量。流形排序算法是常用的排序算法,它根据数据内在的流形结构对数据进行排序。在流形排序算法中一般认为1)邻近的点更可能具有相同的排序分数;2)点在同一结构中(一般指的是一个类别或一个流形)更可能有相同的排序分数。基于此,流形排序可以简单地描述为以下过程:首先根据数据构造一个带权重的网络图,将一个正的排序分数分配给与查询相关的点,将零排序分数分配给剩下的待排序的点。然后,所有的点通过权重网络将他们的分数传递给与他们邻近的点,重复这一传播过程直到整个网络达到稳定状态,此时所有的点均获得他们最后的排序分数。本发明首先提取视频帧的视觉特征,并把视频帧看作空间中的点,然后利用流形排序算法对数据点进行排序。流形排序的具体过程如下:

给定数据点集X={x1,x2,...,xn},xi∈Rm,假定x1作为查询帧,则其余的帧为待排序的帧。f:X→R表示排序函数,它分配每一个点xi(1≤i≤n)相应的排序值,f=[f1,f2,...fn]T。此外,本发明还定义了每一个数据点的初始排序分数y=[y1,y2,...,yn]T,若第j帧为查询帧则yj=1,否则yj=0,(1≤j≤n)。流形排序的代价函数如下:

式中,第一项是邻近点变化成本,是平滑性条件。第二项是初始分数分配变化成本,两者之间用参数μ来平衡之间的关系。其中,Wij表示在权重网络图中第i个点和第j个点之间的权重系数,且Wij=exp(-||xi-xj||2/(2σ2)),i≠j;Wij=0,i=j,D是对角矩阵,且通过排序算法可得到近似解为:f*=β(1-αS)-1y,其中α+β=1,S=D-1/2WD-1/2,W是带权重图的权重矩阵。

其次计算视频帧的重要性。观察可以发现,一个视频中重复出现的帧,一般认为是视频中的重要内容。基于此,计算视频的每帧的重要性。首先根据每一帧与其余各帧之间的相似性权重Wij,计算其与视频的平均相似向量I,并将其归一化。具体计算过程如下:

最后,计算视频的覆盖率。本发明中通过计算视频摘要集与原视频集之间的相似性,来衡量视频摘要的覆盖率,一般认为两者之间相似性越大,说明视频摘要的覆盖率越大。具体计算公式如下:

其中,Cov(S,V)表示摘要集S与原视频集V的相似性,d(xi,g)表示两者之间的欧式距离。

该方案在满足冗余性、重要性两个标准下尽可能最大化摘要集和原视频集之间的相似性,即最大化覆盖率,从而生成视频摘要。

下面结合附图和实例进一步详细说明本发明。

图1描述了所提出的基于流形排序算法的视频摘要流程图,假设视频帧集合为X={x1,x2,...,xn},xi∈Rm表示视频帧的视觉特征信息。S表示摘要集,C表示候选摘要集,V表示视频集,且S∪C=V。

1)初始化摘要集,根据公式(4)选取视频摘要集的第一帧,则原视频中剩余的帧作为该视频的候选摘要集C。

2)并将该帧作为流形排序的查询帧,C集中的帧作为待排序的帧,利用流形排序的方法获取C中与该帧相关性较强的帧,并删除相关性大于一定阈值的帧,剩余的帧构成C1集合。

3)根据视频帧的重要性度量公式(2)获得每一帧的重要性.利用公式(3)计算摘要集的覆盖率Cov(S,V),结合视频帧的重要性I和覆盖率Cov(S,V)在C1中选取下一个帧构成摘要集,具体如下:

其中ρ∈(0,1)是平衡前后两项的权重系数。

4)将上一步选取的关键帧作为下一个查询帧,候选摘要集变为C=V\S,迭代2、3步直到C1的元素少于一定的阈值(比如阈值设定为10),此时完成视频的关键帧的提取。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1