基于非监督学习和语义匹配特征交互式体育视频检索方法

文档序号:6573454阅读:158来源:国知局
专利名称:基于非监督学习和语义匹配特征交互式体育视频检索方法
技术领域
本发明涉及计算机应用技术领域,特别涉及多媒体检索技术。
技术背景随着多媒体技术和计算机网络的飞速发展,全世界包括数字图像、 音频、视频在内的多媒体数据正在以惊人的速度增长。每天新生成的数 千兆字节的多媒体数据,由于其分布的无序性,就如同泛滥的洪水般无 情的淹没了其中所包含的大量有用信息。面对如此丰富且散布在世界范 围内的海量多媒体资源,用户如何才能有效的利用信息及互联网新技术 实现对所需多媒体资源的快捷定位,方便获取和有效管理已成为一个十 分迫切问题,也使得多媒体检索技术逐渐成为一个非常活跃的研究领域。基于内容的多媒体检索是指对多媒体数据所蕴含的物理内容和语义 内容进行计算机分析和理解,以方便用户查询,其本质就是对无序的多 媒体数据流结构化,提取语义信息,保证多媒体内容能够被快速检索。 基于内容的视频检索和基于内容的图像检索是多媒体检索的两个最重要 的分支。近年来,由于编码、计算机多媒体处理和网络传输技术飞速发 展,用户可以通过高速互联网实时查询、欣赏和产生丰富多彩的视频数 据,如电影、动画、新闻和体育节目等,并利用计算机自动处理视频数 据流。视频已经成为人们传输和获取信息的主要途径之一。本质上,视 频是由连续的图像帧序列组成的连续数据流,是二维数字图象和时间维 度构成的三维对象。主要特点如下(1)视频数据较之于图像包含更多 的视觉信息和语义信息;(2)视频的数据量巨大;(3)视频的抽象化、结 构化程度低,对其进行有效的管理和方便的检索存在着很大的困难。因 此,基于内容的视频检索已成为计算机应用技术和模式识别领域最热门 的研究课题之一,具有十分广阔的应用前景。视频数据本质上就是图像序列,视频检索中所用的视频特征也是由图像帧的底层特征组成,同时图像检索中所用到的检索机制和思想也为 视频检索的发展奠定了坚实的基础。因此图像检索的基本技术可以说是一个必修环节。基于内容的图像检索(CBIR, Content-based Image Retrieval)是指直接采用图像内容进行图像信息查询的检索技术。其主要 思想是根据图像所包含的色彩、纹理、形状以及对象的空间关系等低层 图像特征来分析图像信息,建立图像的特征向量作为索引;用户检索时一 般是提供样例图像,系统抽取该样例图像的相应特征向量,然后同数据 库中所有被检索对象的特征向量进行比较,并将与样例特征相似的图像 返回给用户。基于内容的视频检索主要是依赖于视频的视觉特征和时空特征。常用 的检索方式是基于视频例子的检索,用户提交视频例子,检索系统从大型 视频数据库中返回用户需要的相似视频。视频数据是由二维空间和时间构 成的三维对象,如何定义视频之间的相似性量度是一个难点,需要解决以 下关键问题G)视频不是简单的帧序列集合,而是由场景一组一镜头一关键帧组 成的层次结构,视频间相似度衡量在哪个层次上进行是视频比较的前提;(2) 关键帧的视觉特征是整部视频视觉特征的基础,但每部视频都有 相当数量的关键帧;对于大型视频数据库而言,所有视频的各个关键帧视 觉特征的存储量和相互间比较次数都是很可观的;(3) 两部视频是否相似是一个很复杂的问题,不同用户有不同的理 解,掺杂着人为主观因素,要设计合理的视频比较算法必须尽量综合考虑 各种因素。基于镜头质心向量的视频检索系统引入镜头质心向量这一新概念, 计算镜头层次的相似度进而又产生视频层次的相似度;利用关键帧间的数 据冗余,通过牺牲一定的视频时空信息,大大降低了关键帧特征的存储量, 简化了系统的复杂程度,实现了基于内容的视频检索的基本方法。"iARM"系统使用基于模型的方法对视频的时空序列信息进行准确 的建模并将对象内容映射到事先生成的模型上去。该系统强调对视频时空 信息建模的准确性,因此其相关反馈分析仅仅需要有限次反馈和较少的训 练样本即可获得较小的检索时间和较好的检索性能。除上述技术外,基于图理论的非监督学习算法、图像检索相关反馈 技术和基于用户反馈的信息嵌入技术等都为本发明奠定了基础。发明内容本发明的目的是提出新的中层、高层视频特征,以反映视频的序列时空信息和语义主题;建立新的基于非监督学习的检索机制,以降低相 似度在线计算复杂度和减少检索时间;构建新的交互式检索界面,以在 线优化查询向量、在线校正语义标记、提高检索性能和扩充数据库,为此, 本发明提供一种基于非监督学习和语义匹配特征的交互式体育视频检索 方法。为实现上述目的,本发明提供基于非监督学习和语义匹配特征的交 互式体育视频检索方法,包括步骤如下步骤1:在视频数据库的视频图像帧层次提取图像底层特征; 步骤2:在图像底层特征的视频序列层次提取模型匹配序列特征; 步骤3:在图像底层特征的高级语义层次提取语义匹配特征; 步骤4:对提取模型匹配序列特征和语义匹配特征进行非监督学习,建立基于非监督学习的检索机制;步骤5:通过相关反馈技术形成交互检索界面,优化检索性能。 根据本发明的实施例,模型匹配序列特征包括加权T-Bin直方图和模型匹配相关图,用于反映视频对象的时空序列信息,加权T-Bin直方图包括每一维表示视频对象引用某一模型的频率,权重反映不同模型匹配序列的重要程度。根据本发明的实施例,模型匹配序列特征的提取步骤包括如下 步骤21:将整个数据库视为图像帧集合,对整个图像帧数据库进行下采样得到采样帧,将采样帧底层特征向量构造成矩阵形式生成训练集; 步骤22:采用竞争学习算法学习得到模型集; 步骤23:对视频对象中每一帧从模型集中找到N个最佳匹配模型,将视频的图像帧序列生成N条最佳匹配模型序列;步骤24:对N条最佳匹配模型序列提取加权T-Bin直方图和模型匹 配相关图。根据本发明的实施例,模型匹配相关图包括给定视频对象的最佳语义匹配序列为S,任意两序列成员为m,和m2ES,模型集为MS,模 型集所含模型数目为Num一MS,像素跨度为D;则该视频对象的模型匹 配相关图为Num一MSxD维的向量;对于第i个模型ModeljeMS和某 像素跨度kED,模型匹配相关图的第(i-l)xD+k维如下所述其物理意义为对于某视频对象的模型匹配序列S,给定任一使用Model—i的序列成员,MMC(k)M。deU (S)给出了 k个像素跨度以外的序列成 员也使用Modd一i的概率,MMC同时描述视频对象的模型引用频率信 息和序信息。根据本发明的实施例,语义匹配特征提取,包括如下步骤步骤2a:选取具有代表性的带标注的视频对象组成小规模训练集,该训练集表征在当前底层特征描述能力的条件下数据库所涵盖运动主题;步骤2b:使用训练集,将N条最佳模型匹配序列进一步映射到语义 标记层,得到了N条最佳标记序匹配列;步骤2c:对N条最佳标记匹配序列进行直方图提取并加权,得到视频对象的高层语义特征即语义匹配直方图。根据本发明的实施例,基于非监督学习的检索机制包括采用主导 集聚类算法对视频数据库进行非监督学习,将大部分相似度的计算转化 为离线操作,用一致性函数来衡量每个生成的主导集的质量和制约总的 主导集个数,其具体步骤包括步骤31:将视频数据库作为无向边权图,其中每个视频对象作为无 向边权图的结点,使用模型匹配相关图或语义匹配直方图,计算任意两 段视频的相似度作为此结点对的权值,并生成全相似度矩阵A;步骤32:利用主导集聚类算法,取局部最优解中非零分量的标号集 生成主导集;步骤33:将属于现有主导集的结点从当前图中删除,重复上述步骤直到结点图为空。根据本发明的实施例,交互式检索界面,用于对视频序列层次和语 义层次实施相关反馈,包括如下采用最优查询相关反馈技术通过人机 交互方式,用于帮助计算机了解用户需求,获得优化的査询向量,适用 于直接检索机制;采用关系矩阵相关反馈,用于调整各数据聚类间相互 关系来涵盖数据聚类间的全局语义关系,适用于基于非监督学习的检索 机制;语义校正相关反馈技术,用于对数据对象进行在线的语义校正、扩充数据库,适用于使用语义匹配直方图的检索过程。根据本发明的实施例,最优査询相关反馈技术,包括如下用户对 系统初始输出结果标记相关和不相关视频后,查询向量优化为式中fq为原查询向量,fR、 ft、 NR、 N,为用户标记的相关视频和不 相关视频及其个数,fq'为优化的查询向量,Wq、 WR、 W:为常系数。根据本发明的实施例,关系矩阵相关反馈为如下三个步骤 步骤a:初始关系矩阵,计算任意两聚类中心间的相似度得到初始 关系矩阵为Co/re/a"'ow — M敏/;c[f ][_;']=* cfo加ce(Cew的/d — /, Cw,'d —力)式中Centroid—i,CentroidJ为两聚类中心,distance()为某距离函数; 步骤b:更新关系矩阵,关系向量F(x)表示给定对象和各聚类中心的相似度为—.. exp(-l * c/z\ tan ce(;c, Ce旨o/d — /)) 式中x为视频对象特征向量,Centroid—i为某聚类中心,distance() 为某距离函数;关系矩阵公式按下式进行更新式中q为查询向量,fR、 fi、 NR、 Nf为用户标记的相关视频和不相 关视频及其个数,k为更新次数;步骤C:使用关系矩阵检索,对于某一查询请求,在关系矩阵中找到N个最相关聚类,再从中返回查询结果;在每次反馈后,相关矩阵的更新将被保存,使得性能提升得以累积。根据本发明的实施例,语义校正相关反馈技术的具体步骤如下 步骤d:根据用户反馈意见,得到相关视频集RS和不相关视频集IS;步骤e:对相关视频集RS和不相关视频集IS分别计算均值向量 RMV和均值向量IMV;步骤f:在均值向量RMV中找出最大数值的两个分量RD和RD2, 表示对应该视频最相关的两个主题;步骤g:在均值向量IMV中找到最大数值的分量ID,表示最不相关 的主题;步骤h:如果(ID = = RD1)RD = RD2,执行步骤i;步骤i:优化查询的语义匹配直方图Query一SMH[RD] = 1 , Query一SMH[ID] = 0;步骤j:将新的特征存入数据库,重新检索。本发明集成了视频的中层特征、高层特征、非监督学习检索机制和 交互机制,构成了一套新型完整的视频检索系统,精确的衡量了视频的 时空序列信息,发展了对体育视频主题的语义理解,降低了系统的在线 计算复杂度和检索时间,通过交互界面大幅度提高了系统的检索性能, 具有广阔的应用前景。


图1为本发明系统结构框图。图2为模型匹配序列特征中视频的模型匹配示意图。图3为语义匹配特征中视频的标记匹配示意图。图4为关系矩阵相关反馈技术中数据聚类全局语义关系示意图。图5为"CBVR一System"的程序界面示意图。图6为使用MMC的非监督学习检索模式对于排球查询的返回结果。 图7为使用SMH的直接检索模式对于排球查询的返回结果。 图8为直接检索结果和经过一次反馈后的结果的比较。
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实 施例仅旨在便于对本发明的理解,而对其不起任何限定作用。本发明的整体框架见图1。程序"CBVR—System"是实现本发明方法 的一个具体实例,采用一台计算机,用Visual 0++编程实现。本发明提 出的基于非监督学习和语义匹配特征的交互式体育视频检索方法主要包 括如下四个关键问题 (O模型匹配序列特征;(2) 语义匹配特征;(3) 基于非监督学习的检索机制;(4) 交互式检索界面。 本发明总体结构可分为离线操作和在线操作两个部分。离线操作部分由特征提取和非监督学习组成。首先在视频图像帧层次对数据库对象 提取图像底层特征;随后在视频序列层次提取模型匹配序列特征;在高 级语义层次提取语义匹配特征;对所提取的视频特征进行非监督学习, 建立基于非监督学习的检索机制;在线操作又分为检索机制和交互反馈。 检索机制提供五种检索模式使用TBH的直接检索、使用MMC的直接 检索、使用SMH的直接检索、使用MMC的非监督学习检索和使用SMH 的非监督学习检索;当收到查询请求时,系统按照用户选择模式进行检 索并返回结果;最后通过相关反馈技术形成交互界面完善系统性能。下 面详细给出该发明技术方案中所涉及的各个细节问题的说明。 (1)模型匹配序列特征本发明中的模型匹配序列特征是由图像帧底层特征生成的视频中层 特征,是在视频层次衡量时空信息的序列特征,又是依赖学习的基于模 型的特征。其关键问题在于模型集的获取及视频中层序列特征的选择。 模型集获取是序列特征提取的第一个关键, 一个"好"模型表示了视频数 据库内一帧极具代表性的广义图像,而"好"模型集就是由这样一组代表 性强而彼此相关性弱的模型组成。获得适当模型集后,通过对各视频帧 进行模型匹配,可将视频片断映射为一组最佳模型匹配序列。从最佳模型匹配序列中提取怎样的中层序列特征成为第二个关键问题,不同的特 征提取方法对相似度计算的影响巨大,从而很大程度上决定了检索的性 能。本发明中,对数据库提取底层特征之后,即可进行模型匹配序列特 征的提取。模型匹配序列特征是通过模型匹配的方法由图像帧底层特征 生成的视频中层序列特征,用以精确的反映视频对象的时空序列信息。 描述图像视觉信息的底层特征是检索系统的基础,但其并非本发明关注 的重点,采用何种底层特征不会影响本发明的结构及原理,所以本系统 简单的采用了颜色相关图。具体提取过程主要由训练集生成、模型生成、 模型匹配和特征提取四个步骤组成。步骤一训练集生成,将整个数据库视为图像帧集合而不是视频集 合;通过对整个图像帧数据库进行下采样得到采样帧,将采样帧底层特 征向量构造成矩阵形式作为训练集。步骤二模型生成,本发明采用竞争学习算法学习得到模型集。 首先,每次从训练集中随机选取一个样本^,按公式(1)为其在 现有模型集{附,=l…H中找到最佳匹配模型m,* ;k- |<lh-附」|, , = 1...[ (1),随后,按公式(2)实施竞争学习算法,其中m为迭代次数,/(w)为 随m递减的学习步长系数。当迭代次数m达到指定次数后,即得到模型 集。+ = m,*(m) + /(m)(xv —m"(m)); (2),步骤三模型映射,具体模型映射过程见图2:给定某视频帧序列 对象,为其每一帧从模型集中找到N个最佳匹配模型。从而给定视频的 图像帧序列就变为了 N条最佳匹配模型序列。步骤四特征提取,在最佳匹配模型序列的基础上,本发明定义了加权T-Bin直方图(WTH)和模型匹配相关图(MMC)。加权T-Bin直方图每一维表示某一模型被引用的频率,权重反映了 不同模型匹配序列的重要程度。WTH反映了相应模型被引用的频率信息 但忽略了序列的先后顺序。定义l.模型匹配相关图S为给定视频对象的最佳语义匹配序列,m,和m2ES为任意两序列成员,MS为模型集,模型集所含模型数目为 Num—MS, D为像素跨度;则该视频对象的模型匹配相关图定义为一个 Num一MSxD维的向量;对于第i个模型ModeljGMS和某像素跨度 kGD,模型匹配相关图的第(i-l)xD+k维如下定义MMC^二 ,(《 )□ 尸[W2 = M。de/」||wi —胎卜A] (3),对于某视频对象的模型匹配序列S,给定任一使用Model—i的序列 成员,MMC(k)M。deU (S)表示给出了 k距离以外的序列成员也使用Model—i 的概率。MMC同时描述出视频对象的模型引用频率信息和引用序信息。(2)语义匹配特征本发明定义了语义匹配特征即语义匹配直方图(SMH)。体育视频 可以简单的通过它们的体育项目名称对其主题进行索引,如篮球、橄榄 球和网球等。语义匹配直方图是在图像底层特征和视频中层特征的基础 之上,通过模型匹配和主动学习的方法生成的视频高层语义特征,用以 对体育视频对象进行主题标注。SMH给出某视频对象属于各个语义主题 的概率,并用最相关主题标记该视频。与中层特征相比,SMH—定程度 上反映出视频的语义内容,降低了特征向量维度,提高了检索性能。本 发明开发出模型匹配主动学习算法用以提取语义特征。该算法通过对标 记训练集进行主动学习得到一组带语义标记的模型集,继而应用该模型 集对视频对象进行模型匹配得到若干条最佳标记匹配序列,再对匹配序 列迸行直方图提取,最后得到语义匹配直方图(SMH)。具体提取方法 可分为如下三个步骤。步骤一训练集,训练集作为主动学习机制的监督信息来源,本系 统选取具有代表性的带标注的视频对象组成小规模训练集。也就是说, 训练集中的视频对象事先已人工标记了运动项目主题;相对于数据库来 说训练集规模较小;在当前底层特征描述能力的条件下训练集可以涵盖 尽可能多的运动主题。步骤二模型生成和映射,映射过程见图3,模型生成与模型匹配 序列特征的对应步骤相似,差别仅为使用了不同的训练集。(在图2中加入语义标记层形成图3),将N条最佳模型匹配序列进一步映射到语义标记层,得到了N条最佳标记序匹配列。步骤三生成语义匹配直方图(SMH),对N条最佳标记匹配序列 进行直方图提取并加权,得到视频对象的高层语义特征——SMH。 SMH 具有如下特点维度低,相当于训练集中监督信息的语义主题数目;物 理意义明确,其每一维表示视频对象属于某相应主题的概率,并用最相 关主题标记该对象;向量稀疏,大幅度减少存储空间和简化相似度计算。(3)基于非监督学习的检索传统的检索方法是相似度排序机制,该机制具有直接、灵活和易于 实现相关反馈等特点;但对于每一个查询对象,该方法都要重新在线计 算所有的相似度,同时遍历整个数据空间,因此需要承受很高的在线计 算复杂度;特别对于大型视频数据库而言,该机制几乎无法正常工作。本发明建立了基于非监督学习的检索框架用以代替传统的直接排序 检索机制。该机制通过对视频数据库进行非监督学习,使大部分相似度 的计算转化为离线操作,大幅度降低了在线计算的复杂度,同时实现对 数据库更加有效的管理。这样,检索过程可分为粗检索和细检索两部分, 粗检索实际就是一个将查询分到已有聚类的分类过程,而细检索则只需 要在线计算少量的相似度(査询和某聚类样本、查询和少量自由样本的 相似度)。本部分关键问题在于非监督学习算法的选择。聚类算法是基于 非监督学习检索机制的核心。聚类时间、聚类纯度和聚类个数严重影响 着检索系统的性能。本系统采用主导集聚类算法实现基于非监督学习的检索机制。主导 集聚类算法(Dominant Set Clustering)是图理论聚类算法的一种,该算 法存在一致性函数来衡量每个生成的主导集的质量和制约总的主导集个 数。与其他聚类算法相比,主导集聚类产生的聚类具有较高纯度,聚类 个数通过一致性阈值的设定可以自动确定,同时计算复杂度相对较小, 具体聚类算法可分为三个步骤。步骤一全相似度矩阵,将视频数据库视为无向边权图,其中每个 视频对象作为图的结点,使用模型匹配相关图或语义匹配直方图,计算 任意两段视频的相似度作为此结点对的权值,并组成全相似度矩阵A。步骤二迭代方程,主导集聚类算法等价于如下二次优化问题max /(u) = urAu s丄ueA, (4), 其中A^^uei^ :w,20a"t/2T=iM, = l} , A为全相似度矩阵(5),该问题的局部最优解可以通过如下迭代方程得到",(f + l) = W,(0(Au(0),/u(0rAu(0, t为迭代次数 (6),取局部最优解中非零分量的标号集生成主导集;步骤三将属于现有主导集的结点从当前图中删除,重复上述步骤直到结点图为空。(4)交互式检索界面相关反馈就是通过人机交互,让用户在线帮助计算机理解对象的语 义信息和人类的主观需要。视频的序列特性使用户反馈意见需要相对较 长的时间,所以视频检索的相关反馈技术发展十分有限。减轻用户使用 负担,如何通过最少的反馈获得最好的检索效果成为视频相关反馈的发 展趋势。在本系统中,使用模型匹配序列特征的检索模式由于其本身并没有 涉及视频的任何语义内容,所以其缺乏对检索对象语义的理解,同时忽 视了人类感知的主观性。类似地,使用语义匹配特征的检索模式可从监 督训练集中获取一定语义信息,然而此信息有时极为有限以至于不能始 终保证对体育视频主题的准确标注。为反映用户的个性需求、弥补语义 鸿沟以及在线补充有监督信息,本发明建立了一套交互式检索界面,分别于视频序列层次和语义层次实施了三种相关反馈技术最优查询相关 反馈技术、关系矩阵相关反馈技术和语义校正相关反馈技术,其中最优查询相关反馈技术通过TBH或MMC等特征表示的查询向量常常不能准确地描述出用户的真正需求,所以本发明应用最优査询相关 反馈技术通过人机交互方式,帮助计算机了解用户需求获得优化的查询R用户对于系统的初始检索结果进行简单的打分,标记出相关视频和非相关视频。根据用户反馈意见,最优查询向量可由公式(7)得到。这 样,用户可以帮助计算机更加准确理解査询要求,提高了检索的性能。<formula>formula see original document page 17</formula> (7)式中fq为原查询向量,fR、 fl、 NR、 Nt为用户标记的相关视频和不相关视频及其个数,fq'为优化的查询向量,Wq、 WR、 Wf为常系数。关系矩阵相关反馈技术最优查询机制仅仅优化指定査询而忽略了 整个数据库,所以通过交互而得到的性能提升总是在下一次检索时丢失, 而得不到持续积累。即对同一查询要求再次检索时,还要重复全部交互 过程。有鉴于此,本发明提出了关系矩阵相关反馈技术,通过调整各数据聚类间相互关系来涵盖数据聚类间的全局语义关系见图4,图4中,C,-Cn 表示数据库中的N个聚类中心,权重W表示各聚类间的相似关系。具体过程分为如下三个步骤步骤一初始关系矩阵。计算任意两聚类中心间的相似度得到初始 关系矩阵<formula>formula see original document page 17</formula> ( 8 )式中Centroid—i,CentroidJ为两聚类中心,distance()为某距离函数。 Correlation—Matrix表示各聚类之间的相似关系。步骤二更新关系矩阵。关系向量F(x)表示给定对象和各聚类中心的相似度<formula>formula see original document page 17</formula> (9 )式中x为视频对象特征向量,Centroid—i为某聚类中心,distance() 为某距离函数。关系矩阵按公式(10)进行更新.-Ccvre/aWow—Mzfr ix 4 = Con-e/a&oM 一 MzfrrJc i -1 + S= F(《)i70)—Z: F(《)F(/) (10)式中q为查询向量,fR、 fi、 NR、 Nj为用户标记的相关视频和不相 关视频及其个数,k为更新次数。矩阵2^^^W(A)"中的非零分量表示用户认为较相关的聚类对;同^ IT,尸(《)尸(,')"巾白勺^,^i^^S^^人力^才目《^,^7寸;皿^加强相关聚类对的相似关系、减弱不相关聚类对的相似关系,关系矩阵 得以更新。步骤三使用关系矩阵检索。对于某一查询请求,在关系矩阵中找 到N个最相关聚类,再从中返回查询结果。在每次反馈后,相关矩阵的 更新将被保存,使得性能提升得以累积。语义校正相关反馈技术用于对数据对象进行在线的语义校正、提 高检索性能同时扩充数据库,具体算法如下步骤一根据用户反馈意见,得到相关视频集RS和不相关视频集IS;步骤二对相关视频集RS和不相关视频集IS分别计算均值向量RMV和均值向量IMV;步骤三在RMV中找出最大数值的两个分量RD和分量RD2,表示对应该视频最相关的两个主题;步骤四在IMV中找到最大数值的分量ID,表示最不相关的主题; 步骤五If(ID = = RDl)RD = RD2;步骤六优化查询的语义匹配直方图Query一SMH[RD] = 1 , Query一SMH[ID] = 0;步骤七将新的特征存入数据库,重新检索。图5 —图8示出本发明的技术效果,其中-图5为"CBVR一System"的程序界面示意图。其中,右上显示区显示 数据库中视频的第一帧图像,使用按钮翻页,图片下方滑动条用于接收 反馈信息;左上播放区用于播放选中视频;单选框用于选择检索模式; 按钮区用于功能操作;状态栏实时显示程序运行信息。图6为使用MMC的非监督学习检索模式对于排球查询的返回结果。 使用单选框选择"使用MMC的非监督学习检索模式",显示区输出检索 结果的第一帧图像,单击图像可在播放区播放整段视频。状态栏显示检索耗时。图7为使用SMH的直接检索模式对于排球查询的返回结果。使用 单选框选择"使用SMH的直接检索模式",状态栏显示检索耗时和查询 对象的语义主题。图8为直接检索结果和经过一次反馈后的结果的比较。上图为"使用 THB的直接检索模式"的原始输出结果,用户使用滑动条提供反馈意见 (向右表示相关视频,向左表示不相关视频);下图为反馈后结果,性能 明显提高。以上所述,仅为本发明中的具体实施方式
,但本发明的保护范围并 不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理 解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发 明的保护范围应该以权利要求书的保护范围为准。
权利要求
1. 一种基于非监督学习和语义匹配特征的交互式体育视频检索方法,其特征在于,包括步骤如下步骤1在视频数据库的视频图像帧层次提取图像底层特征;步骤2在图像底层特征的视频序列层次提取模型匹配序列特征;步骤3在图像底层特征的高级语义层次提取语义匹配特征;步骤4对提取模型匹配序列特征和语义匹配特征进行非监督学习,建立基于非监督学习的检索机制;步骤5通过相关反馈技术形成交互检索界面,优化检索性能。
2、 根据权利要求1所述的检索方法,其特征在于,模型匹配序列 特征包括加权T-Bin直方图和模型匹配相关图,用于反映视频对象的 时空序列信息加权,T-Bin直方图包括每一维表示视频对象引用某一模型的频率,权重反映不同模型匹配序列的重要程度。
3、 根据权利要求1所述的检索方法,其特征在于,模型匹配序列特征的提取步骤包括如下步骤2h将整个数据库视为图像帧集合,对整个图像帧数据库进行 下采样得到采样帧,将采样帧底层特征向量构造成矩阵形式生成训练集;步骤22:采用竞争学习算法学习得到模型集;步骤23:对视频对象中每一帧从模型集中找到N个最佳匹配模型,将视频的图像帧序列生成N条最佳匹配模型序列;步骤24:对N条最佳匹配模型序列提取加权T-Bin直方图和模型匹 配相关图。
4、 根据权利要求2所述的检索方法,其特征在于,模型匹配相关图 包括给定视频对象的最佳语义匹配序列为S,任意两序列成员为mi 和m2GS,模型集为MS,模型集所含模型数目为Num一MS,像素跨度 为D;则该视频对象的模型匹配相关图为Num一MS^D维的向量;对于 第i个模型Model—iGMS和某像素跨度kGD,模型匹配相关图的第 (i-l)xD+k维如下所述其物理意义为对于某视频对象的模型匹配序列S,给定任一使用 Model—i的序列成员,MMC(k)M。delJ (S餘出了 k个像素跨度以外的序列成 员也使用Modd_i的概率,MMC同时描述视频对象的模型引用频率信 息和序信息。
5、 根据权利要求1所述的检索方法,其特征在于,语义匹配特征提 取,包括如下步骤步骤2a:选取具有代表性的带标注的视频对象组成小规模训练集, 该训练集表征在当前底层特征描述能力的条件下数据库所涵盖运动主 题;步骤2b:使用训练集,将N条最佳模型匹配序列进一步映射到语义标记层,得到了N条最佳标记序匹配列;步骤2c:对N条最佳标记匹配序列进行直方图提取并加权,得到视频对象的高层语义特征即语义匹配直方图。
6、 根据权利要求1所述的检索方法,其特征在于,基于非监督学习的检索机制包括采用主导集聚类算法对视频数据库进行非监督学习,将大部分相似度的计算转化为离线操作,用一致性函数来衡量每个生成的主导集的质量和制约总的主导集个数,其具体步骤包括步骤31:将视频数据库作为无向边权图,其中每个视频对象作为无向边权图的结点,使用模型匹配相关图或语义匹配直方图,计算任意两段视频的相似度作为此结点对的权值,并生成全相似度矩阵A;步骤32:利用主导集聚类算法,取局部最优解中非零分量的标号集生成主导集;步骤33:将属于现有主导集的结点从当前图中删除,重复上述步骤直到结点图为空。
7、 根据权利要求1所述的检索方法,其特征在于,交互式检索界面,用于对视频序列层次和语义层次实施相关反馈,包括如下采用最优查询相关反馈技术通过人机交互方式,用于帮助计算机了解用户需求,获得优化的查询向量,适用于直接检索机制;采用关系矩阵相关反馈,用于调整各数据聚类间相互关系来涵盖数据聚类间的全局语义关系,适用于基于非监督学习的检索机制;语义校正相关反馈技术,用于对数据对象进行在线的语义校正、扩 充数据库,适用于使用语义匹配直方图的检索过程。
8、 根据权利要求7所述的检索方法,其特征在于最优査询相关反 馈技术,包括如下用户对系统初始输出结果标记相关和不相关视频后, 查询向量优化为 j 〗式中fq为原査询向量,fR、 f,、 NR、 N!为用户标记的相关视频和不 相关视频及其个数,fq'为优化的查询向量,Wq、 WR、 W,为常系数。
9、 根据权利要求7所述的检索方法,其特征在于,关系矩阵相关反馈为如下三个步骤步骤a:初始关系矩阵,计算任意两聚类中心间的相似度得到初始 关系矩阵为式中Centroid—i,CentroidJ为两聚类中心,distance()为某距离函数; 步骤b:更新关系矩阵,关系向量F(x)表示给定对象和各聚类中心的相似度为= exp(-l * tan ce(x,Ce" ro/<i — 式中x为视频对象特征向量,Centroid—i为某聚类中心,distance() 为某距离函数; ' 关系矩阵公式按下式进行更新式中q为查询向量,fR、 ft、 NR、 N,为用户标记的相关视频和不相 关视频及其个数,k为更新次数;步骤C:使用关系矩阵检索,对于某一查询请求,在关系矩阵中找 到N个最相关聚类,再从中返回查询结果;在每次反馈后,相关矩阵的 更新将被保存,使得性能提升得以累积。
10、 根据权利要求7所述的检索方法,其特征在于,语义校正相关反馈技术的具体步骤如下步骤d:根据用户反馈意见,得到相关视频集RS和不相关视频集IS;步骤e:对相关视频集RS和不相关视频集IS分别计算均值向量 RMV和均值向量IMV;步骤f:在均值向量RMV中找出最大数值的两个分量RD和RD2, 表示对应该视频最相关的两个主题;步骤g:在均值向量IMV中找到最大数值的分量ID,表示最不相关 的主题;步骤h:如果(ID = = RD1)RD = RD2,执行步骤i;步骤i:优化查询的语义匹配直方图Query—SMH网=1 , Query一SMH[ID] = 0;步骤j:将新的特征存入数据库,重新检索。
全文摘要
本发明公开一种基于非监督学习和语义匹配特征的交互式视频检索方法,步骤包括在视频数据库的视频图像帧层次提取图像底层特征、提取模型匹配序列特征;在图像底层特征的高级语义层次提取语义匹配特征;对提取模型匹配序列特征和语义匹配特征进行非监督学习,建立基于非监督学习的检索和直接检索,通过相关反馈形成交互界面。本发明集成视频的中层特征、高层特征、非监督检索机制和交互机制,构成一套新型完整的视频检索系统,精确的衡量了视频对象的时空序列信息,达到良好的检索效果,发展了对体育视频主题的语义理解,降低了系统的在线计算复杂度和检索时间,最后通过交互界面大幅度提高了系统的检索性能。
文档编号G06F17/30GK101281520SQ200710065180
公开日2008年10月8日 申请日期2007年4月5日 优先权日2007年4月5日
发明者李华北, 胡卫明 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1