基于超图主集聚类的多视频摘要方法与流程

文档序号：11276561阅读：193来源：国知局

本发明涉及视频摘要处理。特别是涉及对具有冗余性，交叉性等特点的多媒体视频数据，通过超图主集聚类方法对多视频关键镜头进行分析，再结合网页图片的辅助信息进行摘要获取的基于超图主集聚类的多视频摘要方法。具体讲，涉及基于超图主集聚类的多视频摘要方法。

背景技术：

随着技术的发展，在线视频的数量正以飞快的速度增长，用户也可以使用自己的移动设备方便地上传个人视频到共享网站。记录同一事件、同一场景的视频可能存在大量的冗余信息，这对用户捕捉重要信息带来了困难。因此对大量的视频集中提取出有意义的部分，使用户快速获取视频信息的重要内容的技术是迫切需求的。视频摘要是通过将一个或多个视频转换为精简视频来满足此要求的技术，引起了越来越多的研究人员的关注。多视频摘要技术旨在针对某个查询主题下的大量视频，提取出和检索主题内容相关的且有意义的部分，并以一定的逻辑形式呈现出来，目的是通过简洁而又涵盖主题内容的概要帮助用户更好地了解视频集的重要信息。视频摘要的方法也可以分为两类：基于关键帧的视频摘要和基于视频剪辑的视频摘要。不管是哪类方法，根本目的都是一样的，就是使用户在最短的时间获取原始视频中最大的信息量。多视频摘要需要满足的基本要求：1)最大信息覆盖率；2)重要性；3)主题相关性。最大信息覆盖率指的是所提取的视频内容能够覆盖同一主题下多个视频的主要内容。重要性指的则是根据某些先验信息提取视频集中重要的关键镜头，从而提取出多个视频中重要的内容。主题相关性指的是要保证获取的视频摘要并能准确的反映查询主题的内容。

对于单视频摘要，目前有很多实现方法。但是多视频数据集的处理就比较困难。一方面多视频数据集存在较大的冗余性：大量同性质的网站提供相同或者类似的视频资源，用户可以上传自己的视频数据。另一方面多视频数据集同一内容所表现出来的音频信息，文本信息和视觉信息可能存在较大差别。因此多视频摘要技术相对于单个视频摘要获取就存在比较大的困难。

作为一个更具挑战性的任务，研究学者针对多视频数据集提出了一些比较可行的方法。其中聚类的方法或者图模型法在原始搜索结果中分析和发现视觉相似的图像作为搜索样例原型是一种比较常用的方法。传统的聚类方法不能解决多视频数据集在同一主题下内容多样且冗余所带来的困难。只考虑视觉上的信息效果较差，需要结合多视频的多模态信息进行摘要的获取。

针对同一主题下的多视频数据集，利用视频的视觉共现特性(visualco-occurrence)实现多视频摘要是一种比较新颖的方法。该方法认为重要的视觉概念往往重复出现在同一主题下的多个视频中，并根据这一特点提出了最大二元组查找算法(maximalbicliquefinding)，提取多视频的稀疏共现模式，从而实现多视频摘要。但是该方法仅适用于特定的数据集，对于视频中重复性较小的视频集，该方法就失去了意义。

此外，相关学者利用多视频中的文本，音频等多模态信息，判断视频中的重要信息，生成多视频摘要。目前，由于多视频数据的复杂性，多视频摘要技术的方法还有待提升。因此，如何借助已有的多视频信息对数据集进行视频结构和内容的分析，更好地实现多视频摘要，成为目前相关学者研究的热点。

技术实现要素：

本发明所要解决的技术问题是：针对多媒体视频数据的冗余信息、重复信息较多等特点，提供一种能够结合视频的视觉信息和与主题相关的先验信息，利用超图主集聚类思想和最大边际相关思想的多视频摘要方法。

本发明所采用的技术方案是：基于超图主集聚类的多视频摘要方法，首先构建视频关键帧内容节点超图，通过二分类的主集聚类得到覆盖性强的候选关键帧集；然后利用网页图片与视频集在同一事件主题下的共性关系，得到与主题相关性程度高且冗余性小的关键帧集；最后通过视频帧在视觉上的连贯性对关键帧集进行排序，实现简洁且有意义的多视频摘要。

具体地，构建超图模型，关联矩阵h(v,e)定义如下：

as＝h*w*h'–dv(2)

其中a(i,j)＝exp(-dis(vi,vj))，vi是属于超边ej的任意顶点，vj是超边ej的中心点，dis(vi,vj)为顶点vi到超边中心点vj归一化后的距离，超边的权重w(ei)定义为w(ei)＝顶点的度定义为d(v)＝∑e∈ew(e)·h(v,e)，顶点的度和超边权重构成的对角线矩阵分别称为顶点度矩阵dv，超边权重矩阵w，as为(2)式中得到的邻接矩阵。

二分类的主集聚类是通过迭代求解二次方程将图划分为不同主集，具体表示如下：

maxf(x)＝x^tasx(3)

s.t.x∈δ(4)

其中,称作rⁿ上的标准单纯形，as为(2)式中得到的邻接矩阵，另外式(3)中的目标函数提供了一个集群的凝聚力的度量，f(x)表示相应簇的内聚性，向量x的支持集被定义为向量x中非零元素的下标集合，即σ(x)＝{x∈v:xi>0}，那么主集与二次型(3)的局部解之间就建立了联系，因此通过求解二次型的局部最大值来求解主集，最直接的求解方法就是繁殖方程法，其复制动态方程由(5)式表示：

网页图片和视频集在同一主题下存在共性关系，通过网页图片对聚类得到的候选关键帧进行选择得到主题相关性程度高且冗余性小的关键帧集，设计如下目标函数：

其中，m表示关键帧集合帧的个数，fm代表已选择的关键帧集合，q为同一主题查询的网页图片，保证了关键帧的主题相关性,g表示已经得到的关键帧集合中的某一帧，sim(si,g)代表要选定的帧和得到的关键帧集合中某一帧g的余弦相似性，保证关键帧集合fm的新颖性，λ是用来平衡这两项性质的参数。

二分类的主集聚类具体地，x＝{x1,x2,…,xn}表示给定事件的n帧的特征集，其中利用主集聚类对给定事件的视频帧集进行聚类：

1)输入超图g＝(v,e,h)及其得到的邻接矩阵as,v为特征集x的顶点集合，e为超边集合，h为超图关联矩阵。

2)初始化迭代次数t＝1并初始化向量x(t)＝[(1/n),(1/n),…,(1/n)]n×1,n表示的是n帧特征集。

3)计算

4)输出一个簇，其顶点是矢量x(t)的正分量xi(t)按降序排列，并让第一顶点代表这个簇。

5)从特征集x中删除这些顶点及其在超图中的亲和力关系。

6)转到步骤2)重复此过程直到将所有视频帧分类完毕，得到最终分类结果cluster1到clusterk。

得到候选关键帧的具体步骤是，同一个类别ci,中的视频帧具有相似的视觉或语义内容，因此首先从每类中选取一帧作为候选关键帧，其规则为从每类中选取距离该类平均特征向量距离最近的一帧作为候选关键帧，即：

其中表示ci,中视频帧的特征向量的中心值，a表示ci中任意一个特征向量，通过式(6)得到主集聚类得到的候选关键帧集合s＝{s1,s2,…,sk}。si表示第i类视频帧的聚类中心。

本发明的特点及有益效果是：

本发明针对现有的多视频摘要方法的缺点，结合多视频数据集冗余性、主题多样性、交叉性等特点，设计在超图链接上进行主集聚类的基础上结合网页图片的辅助信息提取摘要的方法，其优势主要表现在以下方面：

有效性：实验验证本发明得到的多视频摘要结果相比于传统的聚类具有较好的效果，并能够自适应得到摘要长度，性能较好，更适用于多视频摘要问题中。

新颖性：将超图模型应用于主集聚类算法中，充分利用了视频关键节点之间的关系得到最大覆盖性的候选关键帧。在此基础上通过网页图片进一步增强摘要的主题相关性。

实用性：简单可行，与传统聚类算法相比能够自动确定簇数，计算成本低，可以用在多媒体信息处理领域中。

附图说明：

图1是本发明提供的在超图链接上进行主集聚类的多视频摘要方法的流程图。

具体实施方式

本发明针对多媒体视频数据的冗余信息、重复信息较多等特点，结合视频的视觉信息和与主题相关的先验信息，利用主集聚类思想和最大边际相关思想对传统的多视频摘要方法进行了改进，最后利用视觉上的相似性进行摘要呈现，达到了有效利用视频主题相关信息、提高用户浏览视频效率的目的。

本发明的目的在于提供一种基于超图主集聚类的多视频摘要技术。针对多视频数据集冗余性高、交叉性强、主题多样性等特点，本发明首先构建视频关键帧内容节点超图，通过二分类的主集聚类得到覆盖性强的候选关键帧集。然后利用网页图片与视频集在同一事件主题下的共性关系，得到与主题相关性程度高且重要性强的关键帧集。最后通过视频帧在视觉上的连贯性对关键帧集进行排序，实现简洁且有意义的多视频摘要。

本发明所提供的方法为：设计适用于多视频摘要数据集特点的方法，通过在视频帧节点构建的超图上进行主集聚类得到候选关键帧(镜头)，然后利用网页图片的辅助信息构造目标函数来获取多视频的关键帧(镜头)，从而实现关键帧的提取，并在此基础上利用关键帧(镜头)在视觉上的连贯性对摘要结果进行呈现。

多视频摘要技术旨在依托对大量的视频集的视频结构和内容的分析，提取出和检索主题内容相关的且有意义的部分，并以一定的逻辑形式呈现出来，目的是通过简洁而又涵盖主题内容的概要帮助用户更好的了解视频集的重要信息。对于某一查询主题的视频集，费时、费力、毫无线索地去获取重要信息很容易产生“信息过载”的现象。而且多视频集具有主题多样性和重复性的特点，直接使用传统的聚类方法来解决问题，得到的结果不尽人意。为此本发明提供一种聚类和主题概念结合的多视频摘要技术。通过主集在超图上聚类得到候选关键帧，更好的满足同一事件主题的最大信息覆盖性。然后再利用结合网页图片的目标函数进行处理，一般来讲，查询的网页图片集没有视频集的嘈杂和语义上无意义的部分，能够反映用户对相同事件的理解和兴趣。所以，网页图片的辅助信息更好的保证获取的关键帧与主题的相关性程度。其方法原理如下：

(1)超图原理：

超图是对简单图的扩展，简单图的一条边只能包含2个顶点，而超图的超边可以包含任意的多个顶点。超图能够更好的描述视频帧节点之间关联性，关联矩阵h(v,e)定义如下：

as＝h*w*h′-dv(2)

其中a(i,j)＝exp(-dis(vi,vj))，vi是属于超边ej的任意顶点，vj是超边ej的中心点，dis(vi,vj)为顶点vi到超边中心点vj归一化后的距离。此外，超边的权重w(ei)定义为顶点的度定义为d(v)＝∑e∈ew(e)·h(v,e)。顶点的度和超边权重构成的对角线矩阵分别称为顶点度矩阵dv，超边权重矩阵w。

(2)主集聚类思想：

主集是图论中的一个组合概念，它将最大完全子图的概念推广到边缘加权图。它同时强调内部的同质性和外部的不均匀性，因此被认为是“集群”的一般定义。通过迭代求解二次方程将图划分为不同主集，具体表示如下：

maxf(x)＝x^tasx(3)

s.t.x∈δ(4)

其中,as为(2)式中得到的邻接矩阵。另外式(3)中的目标函数提供了一个集群的凝聚力的度量，f(x)表示相应簇的内聚性，向量x的支持集被定义为向量x中非零元素的下标集合，即σ(x)＝{x∈v:xi>0}，那么主集与二次型(3)的局部解之间就建立了联系，因此通过求解二次型的局部最大值来求解主集，最直接的求解方法就是繁殖方程法，其复制动态方程由(5)式表示：

下面结合附图和具体实施方式，进一步详细说明本发明。

图1描述了在超图链接上进行主集聚类的多视频摘要方法的流程图其具体步骤如下所述：

(1)提取视频特征：对海量视频进行预处理，对镜头检测得到的镜头或视频帧提取相关特征。

(2)构建k近邻超图模型得到邻接矩阵：本发明通过(1)式来对视频帧节点构建超图模型，并通过式(2)得到视频帧节点之间的邻接矩阵as。

(3)主集聚类得到聚类簇：

本发明中，x＝{x1,x2,…,xn}表示给定事件的n帧的特征集，其中利用主集聚类对给定事件的视频帧集进行聚类。

1)输入超图g＝(v,e,h)及其得到的邻接矩阵as,v为特征集x的顶点集合，e为超边集合，

h为超图关联矩阵。

2)初始化迭代次数t＝1并初始化向量x(t)＝[(1/n),(1/n),…,(1/n)]n×1,n表示的是n帧特征集。

3)计算

4)输出一个簇，其顶点是矢量x(t)的正分量xi(t)按降序排列，并让第一顶点代表这个簇。

5)从特征集x中删除这些顶点及其在超图中的亲和力关系。

6)转到步骤2)重复此过程直到将所有视频帧分类完毕，得到最终分类结果cluster1到clusterk。

与传统的聚类算法不同，主导集群自动确定簇数，计算成本低，能够自适应的满足最大信息覆盖，得到聚类簇c＝{c1,c2,…,ck}。

(4)得到候选关键帧：

同一个类别ci,中的视频帧具有相似的视觉或语义内容，因此首先从每类中选取一帧作为候选关键帧。其规则为从每类中选取距离该类平均特征向量距离最近的一帧作为候选关键帧，即：

其中表示ci,中视频帧的特征向量的中心值，a表示ci中任意一个特征向量，通过式(6)可以得到主集聚类得到的候选关键帧集合s＝{s1,s2,…,sk}。si表示第i类视频帧的聚类中心。

(5)关键帧的选择：

从候选关键帧中获取关键帧，本发明借助网页图片的信息，设计了如下目标函数，考虑摘要主题相关性和新颖性。

1)首先选定关键帧集合的第一帧其中代表si在候选关键帧集合s中的重要性。

2)按照如下迭代公式进行其它关键帧f+1：

fm+1＝fm∪{f+1}(8)

其中，m表示关键帧集合帧的个数，fm代表已选择的关键帧集合。q为同一主题查询的网页图片。保证了关键帧的主题相关性,g表示已经得到的关键帧集合中的某一帧，sim(si,g)代表要选定的帧和得到的关键帧集合中某一帧g的余弦相似性，保证关键帧集合fm的新颖性。λ是用来平衡这两项性质的参数。

3)当时，迭代停止。输出关键帧集合f。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冀中;张媛媛
技术所有人：天津大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。