面向网络查询基于多图融合视频主题分类与描述方法与流程

文档序号：12123918阅读：175来源：国知局

本发明属于视频处理技术领域。本发明针对多媒体领域存在大量的视频数据，不易于用户获取所需的信息等特点，提供了一种实现同一查询结果中多个视频的主题分类方法，并在此基础上对事件下的主题提取相应的关键词进行描述，实现面向网络查询的视频主题的分类与描述。

背景技术：

随着信息技术的快速发展，视频数据大量涌现，成为人们获取信息的重要途径之一。然而，由于视频数量的剧增，大量视频数据中出现冗余和重复的信息。面对大量的网页视频，用户想要获取正确的信息变得极其困难。当搜索相关事件的话题时，大部分用户感兴趣的是该话题的主要话题事件以及它们的发展。然而从大量的视频搜索结果中追踪事件的进展是非常难的。因此，在这种情况下，迫切需要一种能对同一主题下的海量视频数据进行整合、分析的技术，来满足人们想要快捷、准确地浏览视频主要信息的需求，提高人们获取信息的能力。

一般地，一个新闻话题是由发生在特定的时间、特定的地方、具有共同的关注点的一系列相关事件组成。而事件是由一些具有判别性、代表性的词所描述。在过去的几十年中，为了提高视频数据的管理效率，使用户能够快速、准确地获取他们想要的信息，相关研究者针对视频数据信息的性质，提出了一些对网络视频进行分类和描述的方法，但该技术仍处于初步阶段。这主要是由于以下原因：1)由于视觉特征存在语义鸿沟，较难从视觉上对事件进行分类，这就需要结合视频的文本信息实现视频事件的分类。然而由于用户上传的文本信息是有限的，而且通常有噪音的、模糊的、不完全的甚至是具有误导性的，因此利用文本信息对事件分类和描述时具有一定的误差。2)另外，tag信息只是针对整个视频进行描述，并不是对某一具体的视频场景或镜头进行描述，且对于较长的视频存在主题多样性的特点，这给视频的分类带来一定的困难。

近年来，随着多媒体技术的发展，相关研究者针对多视频主题分类与描述问题提出了一些应对方法。其中，探索网络视频的事件结构是一类经典方法。该方法首先利用共现分析(co-occurrence)模型分析视频的文本特征探索事件的文本模式。然后通过转移闭包分类事件，并且从文本的角度，给予事件描述。最后利用视频的近似重复帧检测检测视频的主要事件。并将具有相似的视觉和文本性质的事件融合，实现事件的探索和描述。尽管该方法在事件探索的效果上有了一定的提升，但该方法分别从视觉和文本的角度探索事件，没有同时利用多种模态检测事件的结构，在检测的过程中未利用视频的多模态信息相互补充的优势。

本发明提出了多图模型，通过多图融合，利用图割的方法实现视频分类。并利用tf-idf提取每类事件的关键词，对事件进行描述。在该方案中充分利用了视频多模态信息互补的优势，较好地实现面向网络查询的基于多图融合的视频主题分类与描述。

技术实现要素：

为克服现有技术的不足，本发明旨在提出一种面向网络查询的基于内容的视频主题分类与描述。根据多视频数据的特点，实现视频的事件检测，形成对事件的文本描述，实现面向网络查询的基于内容的视频主题分类与描述。本发明采用的技术方案是，面向网络查询基于多图融合视频主题分类与描述方法，步骤是，1)结合视频的文本信息和视觉信息，通过构建多图模型，利用图切方法实现事件的分类。2)利用词频tf-逆向文件频率idf或者文本深度表示模型word2vector提取视频事件的关键词，并对关键词利用来自维基百科等网站关于该话题的先验信息进行修改，使之完善，实现对事件的文本描述。

一个实例中的具体步骤是，

首先给定一个话题查询，然后从维基百科等相关网站上搜索相关内容，获取与该话题有关的先验信息：

给定同一事件下的M个视频，用T＝{t₁,t₂,...,t_M}来表示相应视频下的文本标签集合，t_i表示文本集合T中的第i个文本特征，V＝{v₁,v₂,...,v_M}，其中v_i表示第i个视频与M个视频的视觉相似度向量，且v_i(j)表示第i个视频与第j个视频的近似重复帧，v_i(i)＝0，构建多图模型G₁＝(T,E₁),G₂＝(V,E₂),其中T,V分别是两个图的顶点集，E₁,E₂是边集,分别从文本和视觉信息表示任意两个视频之间的关系其权重计算公式如下：

其中s_ij是视频i与视频j之间的平均镜头数，v_i(j)表示第i个视频与第j个视频之间的近似重复帧数，利用线性融合技术进行多图融合，其具体过程用公式表达如下：

其中α是介于(0,1)之间的正数，用来平衡前后两项的关系；

然后通过图割的方法实现视频事件分类，最后通过视频文件的文本特征提取每一类子主题下的关键词，并根据维基百科关于此事件的相关信息，对子主题的关键词集进行修改、扩充。

本发明的特点及有益效果是：

本发明主要是针对现有多视频的事件分类和描述存在的缺点，设计适用于多视频数据结构特点的面向网络查询的基于内容的视频主题分类与描述，使之充分地利用数据的特有信息。其优势主要体现在：

(1)新颖性：将多图模型应用于视频事件分类，充分地利用了视频的多模态信息，更好地实现了多视频集的事件检测。

(2)多模态性：在视频子主题检测过程中，一方面利用了视频的文本信息计算视频之间的相似性。另一方面利用视频的视觉信息检测出视频之间的近重复帧，以此计算视频之间的相似性。两方面结合共同实现视频的子主题检测。

(3)有效性：通过实验证明了与典型的应用于视频主题分类与描述的方法相比较，本发明设计的基于多图模型的视频主题分类与描述的方法的性能明显优于两者，因此更适合于面向网络查询的视频主题分类与描述。

(4)实用性：简单可行，可以用在多媒体信息处理领域中。

附图说明：

图1是本发明的基于多图模型的图割算法的视频主题检测与关键词提取过程的流程图。

具体实施方式

本发明的目的在于提供一种面向网络查询的基于内容的视频主题分类与描述。根据多视频数据的特点，首先，提出了利用视频的文本信息和视觉信息构建多图模型，通过图切等方法实现视频的聚类，即实现了视频的事件检测。然后，利用tf-idf或者文本深度表示模型word2vector等类似技术提取每类事件的关键词，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。形成对事件的文本描述，实现了面向网络查询的基于内容的视频主题分类与描述。

本发明所提供的方法主要分为两个过程：1)结合视频的文本信息和视觉信息，通过构建多图模型，利用图切等方法实现事件的分类。2)利用tf-idf或者word2vector等类似技术提取视频事件的关键词，并对关键词利用来自维基百科等网站关于该话题的先验信息进行修改，使之完善，实现对事件的文本描述。下面对其大概过程进行描述：

首先给定一个话题查询，然后从维基百科等相关网站上搜索相关内容，获取与该话题有关的先验信息。

给定同一事件下的M个视频，用T＝{t₁,t₂,...,t_M}来表示相应视频下的文本标签集合，t_i表示文本集合T中的第i个文本特征。这些文本标签与相应的视频是一一对应的。V＝{v₁,v₂,...,v_M}，其中v_i表示第i个视频与M个视频的视觉相似度向量，且v_i(j)表示第i个视频与第j个视频的近似重复帧，v_i(i)＝0。构建多图模型G₁＝(T,E₁),G₂＝(V,E₂),其中T,V分别是两个图的顶点集，E₁,E₂是边集,分别从文本和视觉信息表示任意两个视频之间的关系其权重计算公式如下：

其中s_ij是视频i与视频j之间的平均镜头数，v_i(j)表示第i个视频与第j个视频之间的近似重复帧数。利用线性融合技术进行多图融合，其具体过程用公式表达如下：

其中α是介于(0,1)之间的正数，用来平衡前后两项的关系。

然后通过图割的方法实现视频事件分类。最后通过视频文件的文本特征提取每一类子主题下的关键词。并根据维基百科关于此事件的相关信息，对子主题的关键词集进行修改、扩充。

图1描述了所提出的多视频的主题检测过程。假定同一事件下有M个视频，

首先，提取视频所对应文本的文本特征，T＝{t₁,t₂,...,t_M}表示M个视频所对应的文本集，t_i表示第i个视频所对应的文本特征。然后，提取视频帧的视觉特征，并基于此特征计算视频间的相似度。这里通过minhash等相似度检测算法检测任意两个视频之间的近似重复帧数。V＝{v₁,v₂,…v_M}，其中v_i表示第i个视频与M个视频的近重复帧数(near duplicate keyframes)所构成的向量，v_i(j)表示第i个视频与第j个视频的近重复帧数，且v_i(i)＝0。

最后，利用视频的文本信息和视觉信息分别构建多图模型G₁＝(T,E₁),G₂＝(V,E₂),其中T,V分别是两个图的顶点集,E₁,E₂是边集,分别从文本和视觉信息表示任意两个视频之间的关系即(1)、(2)式。再利用平均权系数融合技术进行多图融合，即(3)式。然后通过图割的方法实现子主题的检测。并根据tf-idf提取相应的子主题的关键词，实现了面向网络查询的基于内容的视频主题分类与描述。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冀中;马亚茹;
技术所有人：天津大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。