一种基于稀疏自编码器的多视频摘要方法与流程

文档序号：14155763阅读：245来源：国知局

本发明涉及一种多视频摘要方法。特别是涉及一种基于稀疏自编码器的多视频摘要方法.

背景技术：

随着信息技术的快速发展，视频数据大量涌现，成为人们获取信息的重要途径之一。然而，由于视频数量的剧增，大量视频数据中出现冗余和重复的信息，这使用户快速获取所需信息变得困难。因此，在这种情况下，迫切需要一种能对同一主题下的海量视频数据进行整合、分析的技术，来满足人们想要快捷、准确地浏览视频主要信息的需求，提高人们获取信息的能力。多视频摘要技术作为解决上述问题的有效途径之一，在过去的几十年里引起了越来越多的研究人员的关注。多视频摘要技术是一种基于内容的视频数据压缩技术，旨在将同一事件下的相关主题的多个视频进行分析、整合，提取出多个视频中的主要内容，并将提取的内容按照某种逻辑关系呈现给用户。目前对于多视频摘要主要从三个方面进行分析：1)覆盖率；2)新颖性；3)重要性。覆盖率指的是所提取的视频内容能够覆盖同一主题下多个视频的主要内容。冗余性指的是去除多视频摘要中的重复的、冗余的信息。重要性指的则是根据某些先验信息提取视频集中重要的关键镜头，从而提取出多个视频中重要的内容。

尽管许多单视频摘要已经提出，但是对于多视频摘要方法的研究却较少，仍处于初步阶段。这主要有两个原因：1)一是由于同一事件下多个视频主题的多样性以及视频之间主题的交叉性。主题多样性指的是同一事件下的多个视频的信息侧重点不同，具有多个子主题。而主题交叉性是指同一事件下的视频之间内容具有交叉性，既有相似的内容，也有不同的信息内容。2)二是由于多视频数据对同一内容所表现出来的音频信息，文本信息和视觉信息可能存在较大差别。这些原因使得多视频摘要的研究难于传统的单视频摘要。

在过去的几十年中，人们针对多视频数据集的特点，提出了一些多视频摘要的方法。其中，基于复杂的图聚类的多视频摘要方法是一个比较经典的方法。该类方法通过提取视频相应脚本信息的关键词和视频的关键帧，构建复杂的图，并在此基础上利用图聚类算法实现摘要。但是该方法主要针对新闻视频，对于没有视频脚本信息的视频集该方法就失去了意义。另外由于同一主题下的多个视频包含的内容具有多样性和冗余性，仅用聚类的方法虽然满足了视频内容的最大覆盖条件，但只用视频的视觉信息聚类效果较差，结合其他模态虽有一定的帮助，但复杂度较大。

多视频摘要中存在多种模态的信息，如视频的文本信息、视觉信息、音频信息等。balancedav-mmr(balancedaudiovideomaximalmarginalrelevance)算法结合视觉、音频信息，在最大边距相关的思想下设计了迭代选择关键镜头的多视频摘要算法。

近年来，人们提出了一些新颖的方法。其中，利用视频的视觉共现特性(visualco-occurrence)实现多视频摘要是其中一个较新颖的方法。该方法认为重要的视觉概念(concepts)往往重复出现在同一主题下的多个视频中，并根据这一特点提出了最大二元组查找算法(maximalbicliquefinding)，提取多视频的稀疏共现模式，从而实现多视频摘要。但是该方法仅适用于特定的数据集，对于视频中重复性较小的视频集，该方法就失去了意义。

此外，为了利用更多的相关信息，相关研究者提出了利用手机上的gps和罗盘等传感器获取手机视频拍摄过程中的地理位置等信息，并由此辅助判断视频中的重要信息，生成多视频摘要。另外，在该领域提出了利用网页图片这一先验信息作为辅助信息，更好地实现多视频摘要。目前，由于多视频数据的复杂性，多视频摘要的研究并没有达到理想效果。因此，如何更好地利用多视频数据的信息，来更好地实现多视频摘要，成为目前相关学者研究的热点。为此，本文提出了利用稀疏自编器算法(sparseautoencoder)实现多视频摘要。稀疏自编码器是一种非监督的深度学习框架，具有三层网络结构。它通过非线性重构的思想使输出逼近输入，从而学习到输入数据的压缩表示。利用这种思想本发明设计了一种提取关键帧的算法，并对提取的关键帧设计一种自下而上的排序算法，使关键帧的呈现更具逻辑性，提高摘要的可读性。

技术实现要素：

本发明所要解决的技术问题是，提供一种能够有效利用视频主题相关信息、提高用户浏览视频效率的基于稀疏自编码器的多视频摘要方法。

本发明所采用的技术方案是：一种基于稀疏自编码器的多视频摘要方法，包括如下步骤：

1)提取视频帧的视觉特征，将视频帧的视觉特征表示为x＝{x1,x2,...,xi,...,xn},xi∈r^m；

xi表示第i帧的视觉特征；

2)将视频帧的视觉特征输入到稀疏自编码器，通过稀疏自编码器分别学习得到：视频帧的压缩表示即隐层的神经元的表征，输入层和隐层之间的连接权重w⁽¹⁾，以及隐层和输出层的连接权重w⁽²⁾；

3)利用获得的输入层和隐层之间的连接权重w⁽¹⁾生成权重曲线，即所述权重w⁽¹⁾的第j列取2范数，用公式表示为

4)选择权重曲线的各局部最大值作为关键帧集合；

5)对关键帧进行排序，实现摘要。

步骤1)所述的视频帧的视觉特征是深度特征、颜色特征和视觉词袋特征中的一种。

步骤4)所述的局部是指将权重曲线的横坐标对应的视频帧索引按照设定的间隔分成多个局部空间，并在每个局部空间内将权重曲线最大值对应的帧作为关键帧。

步骤5)包括：

(1)将包含k个元素的关键帧集合分成k个子集合；

(2)分别计算k个子集合中每两个子集合之间的时间相关度，得到k个子集合的时间相关度向量fchro；每两个子集合之间的时间相关度计算公式如下，即向量fchro的任意一个元素计算公式：

其中a和b表示k个子集合中的任意两个集合；al表示集合a中的最后一帧，b1表示集合b中的第一帧；t(al)表示帧al的时间，v(al)＝v(b1)表示帧al和帧b1属于同一个视频，v(al)≠v(b1)表示帧al和帧b1属于同一个视频，n(al)<n(b1)表示帧al在同一个视频中出现的顺序早于帧b1；fchro(a＞b)表示集合a排在集合b前面的时间相关度；

(3)计算k个子集合每两个子集合之间的话题紧密度，得到k个子集合的话题紧密度向量ftopic；每两个子集合之间的话题紧密度计算公式如下，即向量ftopic的任意一个元素计算公式：

其中sim(a,b)表示属于集合a中的任意帧a与属于集合b中的任意帧b之间的余弦相似度，ftopic(a＞b)表示集合a排在集合b前面的话题紧密度；

(4)将时间相关度向量与话题紧密度向量叠加得到k个子集合的相关度向量f，计算公式如下：

f＝fchro+ftopic

并根据k个子集合的相关度向量对关键帧进行排序：首先选出相关度最大的两个子集合合并成一个新的集合，然后再将剩余子集合之间按照相关度大小进行两两组合，形成多个新的集合；

(5)对所有生成的新的集合重复第(2)、(3)、(4)步的计算，直至所有的视频帧均包含在一个集合中，此时迭代结束；

(6)对第(5)步得到的一个集合中的视频帧按照视频帧的索引顺序进行排序，实现摘要。

本发明的一种基于稀疏自编码器的多视频摘要方法，针对现有的多视频摘要数据集的特点，设计适用于该特点的基于带权重的原型分析方法的多视频摘要技术，使之在有效的先验信息的辅助下，充分地利用数据的特有信息。其主要优势主要体现在：

(1)新颖性：首次将稀疏自编器方法应用于多视频摘要。并提出了一种自下而上的关键帧排序算法。

(2)有效性：通过实验证明了与典型的应用于单视频摘要的聚类方法和最小稀疏重构方法相比较，本发明设计的基于稀疏自编码器多视频摘要方法的性能明显优于两者，因此更适合于多视频摘要问题中。

(3)实用性：简单可行，可以用在多媒体信息处理领域中。

附图说明

图1是本发明一种基于稀疏自编码器的多视频摘要方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的一种基于稀疏自编码器的多视频摘要方法做出详细说明。

本发明的一种基于稀疏自编码器的多视频摘要方法，旨在获取输入视频帧的压缩表示，提供给用户简短的、主要的视频内容，提高用户视频浏览效率。而稀疏自编码器可看作获得输入数据的压缩表示的非线性重构过程。因此本发明将稀疏自编码器应用到多视频摘要中去，并根据学习到的压缩表示设计一种关键帧选择算法。这里输入层神经元表示视频帧集，隐藏层神经元表征需要学习的输入数据的压缩表示，也称为字典用于重构输入向量。输出层的神经元个数和输入层相同，表示输入层的近似表示。

本发明是将稀疏自编码器应用到多视频摘要中。所述稀疏自编码器是具有一个隐含层的三层神经网络，是一种非监督的深度学习算法。该算法尝试逼近一个恒等函数，即输入近似等于输出。为了尽可能使输出信号复现输入信号，自编码器就必须捕捉可以代表输入数据的最重要的因素，找到可以代表原信息的主要成分。这个过程可看作自动获取输入数据的压缩表示。

稀疏性可被简单地解释如下。如果当神经元的输出接近1时，则认为该神经元被激活，否则认为它被抑制，那么使得神经元大部分时间被抑制的限制称为稀疏性限制。

稀疏自编码器具体原理如下：

给定输入视频帧集x＝{x1,x2,....,xn},xi∈r^m表征视频帧视觉特征，w⁽¹⁾表示输入层和隐藏层的连接权重，w⁽²⁾表示隐藏层和输出层的连接权重，h(w,b)(x)表示输出。这里用表示第2层即隐层第i个神经元的输出：

这里的激活函数f是sigmoid函数，引入非线性元素，如公式(2)所示：

自编码器的目标是输出逼近输入，因此其目标函数是：

这里b表示偏置向量。

自编码器一般要求隐藏层单元的个数s2小于输入层神经云个数，但是隐藏层的数量有时较大，甚至大于输入层的神经元个数，这时在隐藏层添加稀疏性条件自编码器仍然可以学习输入数据的压缩表示。本发明采用kl散度来控制稀疏性，具体表达如下：

这里表示隐藏层第j个神经元的平均激活度，ρ是稀疏参数，是接近于零的常数。

则总的代价函数表达如下:

这里β是用于平衡前后两项的可调参数。

如图1所示，本发明的一种基于稀疏自编码器的多视频摘要方法，包括如下步骤：

1.一种基于稀疏自编码器的多视频摘要方法，其特征在于，包括如下步骤：

1)提取视频帧的视觉特征，将视频帧的视觉特征表示为x＝{x1,x2,...,xi,...,xn},xi∈r^m；

xi表示第i帧的视觉特征；所述的视频帧的视觉特征是深度特征、颜色特征和视觉词袋特征中的一种。

3)利用获得的输入层和隐层之间的连接权重w⁽¹⁾生成权重曲线，即所述权重w⁽¹⁾的第j列取2范数，用公式表示为

4)选择权重曲线的各局部最大值作为关键帧集合；

所述的局部是指将权重曲线的横坐标对应的视频帧索引按照设定的间隔分成多个局部空间，并在每个局部空间内将权重曲线最大值对应的帧作为关键帧。

5)对关键帧进行排序，实现摘要，包括：