嵌入式多媒体基于关键帧的视频检索的实现方法

文档序号：7955799阅读：232来源：国知局

专利名称：嵌入式多媒体基于关键帧的视频检索的实现方法
技术领域：
本发明涉及嵌入式多媒体技术领域，特别是涉及一种嵌入式多媒体基于关键帧的视频检索的实现方法。
背景技术：
目前的信息量以每1.6年翻一倍的速度急剧增长。由于Intenet的普及和广播电视向数字化方向的发展，以数字视频、音频信息为代表的多媒体信息越来越多。多媒体信息具有信息量大、难描述的特点，因此，如何对这些海量信息进行组织、建库以达到快速、有效的检索成为当今人们需要迫切解决的问题。传统的数据类型主要是整型、实型、布尔型和字符型，其数据库技术可采用基于关键词的检索方式。而多媒体数据处理中，除了上述常规的数据类型外，还要处理图像、图形、音频及视频流等数据类型。如果将这种基于关键词的检索方法用于多媒体信息就会有困难，因为多媒体信息同文本、数值信息有着本质的区别。
基于内容的检索是一种新型的多媒体检索技术。它是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索，主要是利用媒体对象的语义、视觉和听觉特征来进行检索。它突破了传统的基于文本检索技术的局限，直接对图像、视频、音频内容进行分析、抽取特征，利用这些内容特征建立索引并进行检索，使得检索更加接近媒体对象。如利用图像中的颜色、纹理、形状，视频中的镜头、场景、镜头的运动，声音中的音调、响度、音色等。它的研究目标是提供在没有人类参与的情况下能自动识别或理解图像重要特征的算法。由此可见，基于内容的检索是一门涉及面很广的交叉学科，需要利用图像处理、模式识别、计算机视觉、图像理解等技术，是多种技术的合成，因而有着广泛的应用前景。
多媒体信息中，基本的信息种类有声、像、图、文四大类，不同的信息类型有不同的特点，同一类信息又有很多种特征，即便是提取同一特征也有很多不同的方法。比如对图像信息来说，其特征就有边缘、色彩、纹理等。虽然实现的难度很大，但目前世界上已经有一些基于内容检索的系统出现，比如IBM推出的O.BIC(Query By Image Content)系统，由中国科学院计算技术研究所和北京图书馆研制的‘基于特征的多媒体信息检索系统MIRES’等等。
如果我们在对媒体数据编码表示时就考虑到媒体的内容，即媒体包含其表示内容的信息，那么，对这些数据的内容进行检索就会更有效与准确。这意味着需要将基于内容的检索与编码结合起来考虑，在压缩数据中应有描述视频内容的信息，从而使对多媒体信息内容的访问可以直接针对压缩数据进行，这种压缩编码方法就叫作基于内容的压缩方法。
目前这方面的工作已经取得很大的进展，例如基于内容的编码标准MPEG一4和多媒体数据内容表示国际标准MPEG-7。
MPEG-4旨在将众多的多媒体应用集于一个完整的框架内，为不同性质的视音频数据制定通用、有效的编码方案，提出基于具体内容的视频对象的编码标准。基于对象编码的MPEG-4把支持基于内容的检索作为目标之一，但这种支持是有限的。为了克服MPEG-4的不足，MPEG启动了新的项目MPBG7。
MPEG-7的目标是建立一种多媒体内容描述接口(Multimedia ContentDescription Interface)进一步发展基于内容的描述和检索规范。如MPEG-7标准的视频部分提供视频码流和存储的图像的标准化描述，帮助用户识别、归类图像和视频，这样在视频检索中，可以通过描述目标的移动、摄像机运动或者目标之间的关系得到具有相似时间和空间关系的一组视频。在基于MPEG-7的视频检索中，每个镜头的关键帧和镜头的视觉特征被抽取并以MPEG一7标准描述存人数据库，对应的码流储存在视频数据库中，通过浏览检索结果能准确定位相应的码流。储存的视频可以根据视频内容以视频、片段、场景、镜头分层次管理、添加文本注释，以实现在不同层面范围内的检索，提高检索的速度和检索的准确率。
为了将现有的标准统一起来，MPEG又开始了新的项目MPEG-21。MPEG-21重点是创一个开放的多媒体传输和消费的框架，通过将不同的协议、标准和技术结合在一起，从而使用户对视频、音频的处理更加方便和有效，最终为多媒体信息的用户在全球范围内提供透明而有效的视频通信应用环境。
目前，MPEG系列国际标准已经成为影响最大的多媒体技术标准，并对相关产业产生了重大的影响。我们有理由相信随着MPEG系列标准的不断发展必将极大地推动多媒体通信领域向前更快地发展。
由于嵌入式移动终端的显示方式千差万别，运算能力也有较大的差距，一般来说，其CPU的运算速度从几MHz到几百MHz，用户对于检索速度、视频显示的要求不同，此外，由于网络带宽的限制，嵌入式移动终端的视频显示要受到带宽的影响，因此，相对于一般的基于关键帧的视频检索的实现方法，应用于嵌入式多媒体基于关键帧的视频检索的实现方法，其对关键帧的提取和检索有其不同的特点。对于嵌入式多媒体，关键帧的提取需要按照不同的嵌入式移动终端的要求，进行分类性的特征提取，比如对于响应速度要求高的终端，其特征的提取就要简化，以满足实时性为第一要务，而对于要求能够较快的进行精确匹配的终端，其特征的提取就要全面丰富，以便于能够快速的找到请求的媒体片段。
本发明的目的在于克服现有技术的不足，提供一种嵌入式多媒体基于关键帧的视频检索的实现方法。
本发明解决其技术问题采用的技术方案包括以下步骤(1)视频对象分割使用视频对象分割程序对存放于服务器端的视频数据进行视频分析并分割成各个镜头，以独立的镜头作为视频序列的基本结构单元和检索单元，并对每个镜头进行运动分析；(2)对视频数据进行特征提取完成镜头分割后，基于运动分析，服务器端的视频处理程序提取并跟踪镜头中的对象，同时在每个镜头的内部抽取有效代表该镜头内容的关键帧，进一步进行颜色、纹理和形状的底层特征提取，并建立索引；(3)输入用户描述在嵌入式设备终端，用户通过浏览，选择系统提供的关键帧实例或者由用户自己提供关键帧到系统中，将该信息通过无线网络传输到嵌入式设备的服务器端进行查询，然后再通过不断修改实例直至找到匹配目标；(4)基于关键帧的检索服务器收到查询请求和查询数据后，对代表视频镜头的关键帧进行静态图像检索，在检索到目标关键帧后将其所代表的视频数据传输到用户的嵌入式设备终端中。
作为本发明的一种改进，对于用户常用的视频片段，在服务器建立索引文件。
本发明与背景技术相比，具有的有益的效果是本发明的方法是经过视频分析，将视频数据分割成各个镜头，并对每个镜头进行运动分析，在镜头分割的基础上，基于运动分析，提取并跟踪镜头中的对象，同时在每个镜头的内部抽取有效代表该镜头内容的关键帧，以便进一步进行特征提取，以独立的镜头作为视频序列的基本结构单元和检索单元。本发明是一种相似度检索，存在一个反映信息库中的对象与检索要求相似程度的量，检索的结果是按照相似程度的大小顺序返回相似度最大的一组对象，同时要给出检索结果集合的大小限制，能够更有效的进行视频检索。

图1是本发明的实施过程示意图。
具体实施例方式
本发明是一种嵌入式多媒体基于关键帧的视频检索的实现方法，下面结合图1说明其具体实施过程。
1)视频对象分割经过视频分析，将视频数据分割成各个镜头，以独立的镜头作为视频序列的基本结构单元和检索单元，并对每个镜头进行运动分析。
通常一段视频数据可以划分为几个场景，每个场景又包含一个到多个镜头。而一个镜头是由一些连续图像帧组成的，用于表示一个场景中在时间上和空间上连续的动作。因此，视频可以看作是一个连续静态图像的序列，其中的每一幅静态图像就是图像帧，是组成视频的最小单位，而关键帧就是一幅能描述镜头主要内容的图像帧。根据内容的复杂程度，一个镜头可由一个或多个关键帧表示。正如文本索引使用关键词作为标识句子、段落、文档的指针一样，在视频流信息中，关键帧起着与关键词类似的作用，常用关键帧来标识场景、故事等高层语义单元。因此，视频结构分析重点也是提取具有代表性的关键帧，利用关键帧代表一个镜头来与检索图像进行相似度计算。
镜头分割主要是根据视频帧的物理特性来检测镜头间的边界。比如采用颜色直方图作为特征，研究它随着时间的变化特性，用以确定镜头的边界。镜头分割技术把一段视频分割为多个镜头，计算机可以基于镜头进行浏览。因此，基于镜头的分类和检索对于视频库的管理和查询非常重要。
2)对视频数据进行特征提取在镜头分割的基础上，基于运动分析，提取并跟踪镜头中的对象，同时在每个镜头的内部抽取有效代表该镜头内容的关键帧，以便进一步进行特征提取。这时对于关键帧的检索可以用静态图像检索的技术，主要是在提取视频的颜色、纹理、形状等低层特征之后，依据这些特征和一定的检索算法来检索。
由于关键帧中往往只有低层次的图像特征，并没有语义分析的能力，因此我们还必须利用视频中的文字或音频信息来获得高层的对象和语义信息。此外，视频特有的运动特性我们也可以通过目标识别、运动跟踪等技术获取。这样就可根据所提取的镜头、关键帧和对象的视觉特征等进行索引，然后利用相似性测度进行视频检索和查询。
各种视频处理技术正在不断发展，随着新技术的出现和完善，将会提取出更多的视频特征，为视频数据库的建立以及检索提供丰富的数据基础。目前已经有很多成熟的技术来进行镜头检测和关键帧的提取。而对象提取和跟踪，则是视频特征分析中最困难的部分，普遍的方法是利用运动信息进行处理先将每帧图像分割成具有相似视觉特征(颜色、纹理等)的区域，然后根据各个区域的运动特征，按照一定的约束(例如区域之间的连通性)，将它们合并成对象。国标标准MPEG-4便是以对象提取和合成作为焦点，提出了对视频对象进行索引。而MPEG-7便是提出对各种视频对象信息进行描述和查找。
3)输入用户描述通过浏览选择系统提供的实例或自己提供关键帧来查询，然后再通过不断修改实例直至找到匹配目标；4)基于关键帧的检索基于关键帧的检索，是对代表视频镜头的关键帧进行检索。这种方法通过分析给定的一段视频流中内容的变化以及摄像机和关键目标的运动来选取所需关键帧的数目，并按照一定的规则为镜头抽取关键帧。关键帧是用于描述一个镜头的关键图像，因此可以采用类似图像检索的方法来进行检索，一旦检索到目标关键帧，用户就可利用播放来看它代表的视频片段。
关键帧的选取应与镜头内容的变化有关，变化剧烈的镜头应以较多的关键帧表示。最简单的方法是选择镜头的第一帧和最后一帧两幅图像，例如将每个镜头的第一帧选作关键帧，这种方法的运算量小，非常适合于内容活动性小或保持不变的镜头，但对于摄像机不断运动的镜头，该方法抽取的关键帧无法有效地表达其主要内容。目前一般采用聚类算法进行关键帧选取，如在图像的累积颜色或运动变化大于某一阈值时，就多选取一个关键帧，而对于阈值则可采用非监督的聚类方法来自动选取或从统计的观点出发，假定镜头长度分布符合Weibull分布，以贝叶斯估计来获得自适应的阈值。
用几个关键帧来表示视频镜头，则颜色、纹理和形状等低级特征可直接从关键帧提取出来用于索引与检索。其中颜色就是一种很重要的视觉信息属性，与其它特征相比，颜色特征非常稳定，对于旋转、平移、尺度变化甚至各种形变都不敏感，并且计算简单，因此成为现有检索系统中应用最广泛的特征。如颜色特征的提取和检索主要是利用颜色空间直方图进行匹配(常见的颜色坐标空间有红绿蓝、色调、饱和度、亮度等)，颜色直方图简单来说，就是统计图像中具有某一特定颜色的象素点数目而形成的各颜色的直方图表示，不同的直方图代表不同图片的特征，通过与用户确定的图像颜色直方图的相似性匹配得到查询结果，或者将图像进行分割，形成若干子块，然后利用选择小块来确定图象中感兴趣的对象的轮廊，通过建立复杂的颜色关系来查询图像。
最后，还需要注意的是，以上列举的仅是本发明的具体实施例子。显然，本发明不限于以上实施例子，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。
权利要求
1.嵌入式多媒体基于关键帧的视频检索的实现方法，其特征在于，包括以下步骤(1)视频对象分割使用视频对象分割程序对存放于服务器端的视频数据进行视频分析并分割成各个镜头，以独立的镜头作为视频序列的基本结构单元和检索单元，并对每个镜头进行运动分析；(2)对视频数据进行特征提取完成镜头分割后，基于运动分析，服务器端的视频处理程序提取并跟踪镜头中的对象，同时在每个镜头的内部抽取有效代表该镜头内容的关键帧，进一步进行颜色、纹理和形状的底层特征提取，并建立索引；(3)输入用户描述在嵌入式设备终端，用户通过浏览，选择系统提供的关键帧实例或者由用户自己提供关键帧到系统中，将该信息通过无线网络传输到嵌入式设备的服务器端进行查询，然后再通过不断修改实例直至找到匹配目标；(4)基于关键帧的检索服务器收到查询请求和查询数据后，对代表视频镜头的关键帧进行静态图像检索，在检索到目标关键帧后将其所代表的视频数据传输到用户的嵌入式设备终端中。
2.根据权利要求1所述的嵌入式多媒体基于关键帧的视频检索的实现方法，其特征在于，对于用户常用的视频片段，在服务器建立索引文件。
全文摘要
本发明涉及嵌入式多媒体技术领域，旨在提供一种嵌入式多媒体基于关键帧的视频检索的实现方法。该方法包括视频对象分割、对视频数据进行特征提取、输入用户描述和基于关键帧的检索的步骤。本发明是一种相似度检索，存在一个反映信息库中的对象与检索要求相似程度的量，检索的结果是按照相似程度的大小顺序返回相似度最大的一组对象，同时要给出检索结果集合的大小限制，能够更有效的进行视频检索。
文档编号H04N7/26GK1851710SQ200610051628
公开日2006年10月25日申请日期2006年5月25日优先权日2006年5月25日
发明者陈天洲, 赵懿, 胡威, 谢斌申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈天洲;赵懿;胡威;谢斌
技术所有人：浙江大学
我是此专利的发明人

上一篇：一种手机防盗报警电路技术结构的制作方法
上一篇：一种基于全局缓存的与数据源保持高连通性的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。