对视频数据进行管理的方法和装置的制作方法

文档序号:6471154阅读:116来源:国知局
专利名称:对视频数据进行管理的方法和装置的制作方法
技术领域
本发明涉及图像处理领域,具体涉及一种对视频数据进行管理的方法和 装置。
背景技术
随着信息社会的发展,人们每天都要面临大量不同形式的信息。视频数
据由于其集^L觉、听觉和文本信息于一体的特点正在受到越来越多的关注, 成为人们传播和获取信息的 一种重要方式。
随着各种视频资料源源不断地产生,如何从越来越多的视频数据库中快 速、高效地检索得到所需要的视频,已成为人们的一个迫切需要。目前,现 有的视频检索技术大致可以分为两类基于文本的视频检索技术和基于内容 的视频检索技术。
基于文本的视频检索技术主要是在离线状态下通过人工注释对视频进行 文本描述,并将这些文本描述信息存储在视频数据库中供检索使用。由于人 工注释不仅耗费大量的人力和时间,而且带有很大的主观性,很多情况下不 能对视频内容做出客观的描述。因此,基于文本的视频检索技术的应用有很 大的局限性。
基于内容的视频检索技术不仅可以利用关键词进行检索,还可以利用低 层特征信息的客观测量(如颜色、紋理、形状等)作为描述视频内容的重要 手段,并构造合适的相似性度量模型。由于上述低层特征信息从不同角度更 加客观地反映了视频内容,这就使得基于内容的视频检索比基于文本的视频-险索有更广阔的应用前景。
尽管如此,和人的4企索能力相比,目前计算机的4企索效果还相差甚远。 这主要是因为人在比较不同事物之间的相似性时,主要使用高层语义信息, 而基于内容的视频检索目前还基本处于非语义的层面上。因此,如何从低层 特征信息得到高层语义信息,然后利用高层语义信息进行检索也就成了目前 视频检索领域最活跃的一个研究方向。
对视频图像合理的分割能够有利于上述高层语义信息的提取,视频图像 的深度信息的使用更有可能使视频图像的分割结果符合人的高层语义。在深 度信息的支持下,人们不仅能够获得有关物体的形状、大小和颜色等信息, 还能够根据所获得的物体空间方位等信息,正确判断自身与客观环境之间的 相对位置关系,从而形成更加接近于人的高层语义表示的感知结果。
现有技术中的 一种获取视频图像的深度信息的方法为从单视点视频序 列中恢复出视频图像的深度信息,并进而进行视频图像的分割。
在实现本发明的过程中,发明人发现上述现有技术存在如下的缺点由 于静止物体在相邻视频帧图像中不产生视差,也就无法恢复出深度信息,因 此,该方法不适用于静止场景。并且,该方法也没有涉及视频才企索。
现有技术中还没有一种基于视频图像的深度信息获取高层语义信息,并 对视频图像进行管理的方法。

发明内容
本发明实施例提出 一种对视频数据进行管理的方法和装置,以解决现有 技术不能获取静止场景的深度信息,不能基于视频图像的深度信息获取高层 语义信息的问题。
本发明实施例的目的是通过以下技术方案实现的
一种对视频数据进行管理的方法,包括
7用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场 景的多个视频片段,根据所述多个摄像机的位置关系信息计算出所述多个视
频片段中包含的帧图像的深度信息;
根据所述帧图像的深度信息,对由所述多个视频片段组成的视频数据进 行语义分析,提取出所述视频数据的语义特征,根据该语义特征对所述视频 数据进行管理。
一种对视频数据进行管理的装置,包括
深度信息获取模块,用于用多个摄像机从不同角度对同一个实际场景进 行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置关 系信息计算出所述多个视频片段中包含的帧图像的深度信息;
语义特征获取模块,用于根据所述帧图像的深度信息,对由所述多个视 频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,
视频数据管理模块,用于根据所述视频数据的语义特征对所述视频数据 进行管理。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例可以得 到实际场景对应的视频数据的帧图像的深度信息,从而可以基于该深度信息 提取出视频数据的高层语义信息,并基于高层语义信息对视频数据进行有效 地管理。


为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的 前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种对视频数据进行检索的方法的处理流程图2为本发明实施例一提供的视频数据的典型结构示意图3为本发明实施例一提供的两个摄像机(左摄像机C1和右摄像机C2 ) 的位置配置示意图4为本发明实施例二提供的 一种对视频数据进行管理的装置的结构示意图。
具体实施例方式
在本发明实施例中,用多个摄像机从不同角度对同一个实际场景进行拍 摄,得到所述实际场景的立体的多个视频片段,根据所述多个摄像机的位置 关系信息利用立体视觉算法计算出所述多个视频片段中包含的帧图像的深度 信息。然后,根据所述帧图像的深度信息,结合视频数据的其它低层特征信 息,对由所述多个视频片段组成的视频数据进行语义分析,提取出所述视频 数据的语义特征,根据该语义特征对所述视频数据进行进一步管理。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例 做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
该实施例提供的 一种对视频数据进行检索的方法的处理流程如图1所示, 包括如下处理步骤
步骤11、通过双摄像机采集立体的视频片段。
视频数据的典型结构示意如图2所示,从下到上依次是帧、镜头、场景、 视频。帧是视频数据的最小单元,是一幅静止的画面, 一个帧由多个像点组 成。镜头是视频数据的基本单位,其中包括通过摄像头一次连续的动作拍摄到的相邻地点上连续发生的多个帧。场景由内容相近的镜头组成,从不同的 角度描述同一个事件。而视频则由许多场景组成,叙述一个完整的故事,一
个一见频可以包括多个^L频片l殳。
传统的视频场景是用单摄像机采集得到的,该实施例采用双摄像机来采
集立体的视频片段,该两个摄像机(左摄像机C1和右摄像机C2)的位置配置 示意图如图3所示,该两个摄像机采用立体视觉中最常用的标准平行配置, 并用摄像机校正的方法对两个摄像机的位置进行校正,以使该两个摄像机能 够同时从不同角度对同 一个实际场景进行拍摄,得到立体的视频片段。
同一实际场景点在两个摄像机上分别形成的像点称为对应点。比如,空 间中的一个实际场景点为P,分别在左摄像机C1、右摄像机C2的图像平面上 形成像点P1和像点P2,上述像点P1和像点P2称为对应点。
上述两个摄像机在视频采集过程中尽量保持相对位置的固定,即使根据 拍摄需要必须改变其位置,也要将两摄像机之间的相对位置关系记录下来, 便于后续处理中根据此信息恢复每帧图像的深度信息。
上述实际场景可以包括静止场景,上述两个摄像机分别采集到的多个视 频片段便组成需要检索的视频数据。
步骤12、根据采集到的立体的视频片段计算出视频片段中包含的帧图像 的深度信息。
基于上述采集到的立体的视频片段,根据现有的立体视觉算法可以计算 出视频片段中包含的帧图像中的每个像点的深度信息,具体计算过程如下
对于左摄像机C1的图像平面上的每个点(如图2中点P1),利用立体视 觉的方法找出其在右摄像机C2的图像平面上的对应点(如图2中点P2),然 后根据这两个点的位置关系和两台摄像机的位置关系,计算出它们所对应的 实际场景中的点(如图2中点P)的深度信息,该深度信息也是上述像点P1和像点P2对应的深度信息。
根据上述立体视觉算法的处理过程,可以计算出帧图像中的所有像点的 深度信息,根据该所有像点的深度信息可以得到该帧图像的深度信息。上述 像点的深度信息是指图像上某个像点所对应的实际场景中的物点距离参考点 (一般指摄像机的光心)的距离,上述帧图像的深度信息由帧图像中每个像 点的深度信息组成。
在实际应用中,也可以根据需要只计算出部分帧图像的深度信息。
步骤13、基于帧图像的深度信息,对视频数据进行基于语义的分析,提 取出视频数据的语义特征。
基于上述计算出的每帧图像的深度信息,使用图像分割和分析算法对上 述视频数据进行基于语义的分析,获取视频数据的各个对象信息。然后,将 该各个对象信息和视频数据的其它低层特征信息(如颜色、紋理、形状等) 结合起来,对视频数据进行语义抽取,得到视频数据的各个语义特征。将该 各个语义特征进行保存。
例如,假如我们对一个足球比赛的视频片段进行分析,传统的图像、视 频分析方法可以得到视频内每帧图像的颜色、紋理、所包含的主要几何形状 以及主要物体的运动方向等低层信息。但是如果我们提取出语义信息之后, 就可以得到更高层次的描述,比如视频片段中有足球场,运动员,观众,此 视频片段记录了 一场足球比赛的情况等。
步骤14、基于视频数据的语义特征,对视频数据进行管理。
在获取了上述视频数据的语义特征后,可以基于该语义特征对视频数据 进行各种分割、浏览和检索等管理。
比如,可以根据上述视频数据的各个语义特征,对上述双摄像机采集到的立体的视频片段进行分割,并把相关联的镜头合并成不同的场景,从而给 上述视频建立了基于帧、镜头、场景的层次目录结构,并且每个场景对应一 个或多个语义特征。
当用户需要浏览视频数据中感兴趣的内容时,首先需要将上述视频数据 的各个语义特征展示给用户。然后,用户输入作为检索的依据的语义特征, 对视频数据进行检索,得到上述视频数据中的和输入的语义特征对应的场景。
当用户需要浏览某个或多个视频片段中感兴趣的内容时,首先需要将上 述视频数据的各个语义特征展示给用户。然后,用户输入作为检索的依据的 语义特征,对上述某个或多个视频片段进行检索,得到上述某个或多个视频 片段中的和输入的语义特征对应的场景。
在实际应用中,还可以用3个或4个等不止两个摄像机来釆集立体的视频 片段,并且同样采用上述处理流程,来提取出视频数据的语义特征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流 程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于 一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory, ROM )或随机存储记忆体(Random Access Memory, RAM )等。
实施例二
该实施例提供的 一种对视频数据进行管理的装置的结构示意图如图4所 示,包括如下模块
深度信息获取模块41,用于用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置 关系信息计算出所述多个视频片段中包含的帧图像的深度信息;
语义特征获取模块42,用于根据所述帧图像的深度信息,对由所述多个 视频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,
视频数据管理模块43,用于根据所述视频数据的语义特征对所述视频数 据进行管理。
所述深度信息获耳又^^莫块41具体包括
立体视频片段获取模块411 ,用于当所述多个摄像机为两个摄像机时, 使用所述两个摄像机同时从不同角度对同 一个实际场景进行拍摄,得到立体 的视频片段,所述两个摄像机采用立体视觉中的标准平行配置,并用摄像机 校正的方法对两个摄像机的位置进行校正;
深度信息计算模块412,用于找出所述实际场景中的像点分别在所述两 个摄像机釆集到的视频片段中包含的帧图像中的对应像点,根据所述对应像 点的位置关系和所述两台摄像机的位置关系,计算出所述对应像点的深度信 息;计算出所述视频片段中包含的帧图像中的所有像点的深度信息,根据该 所有像点的深度信息得到所述帧图像的深度信息。
所述语义特征获取模块42具体包括
对象信息获取模块421,用于基于所述帧图像的深度信息,使用图像分 割和分析算法对所述视频数据进行基于语义的分析,获取所述视频数据的各 个对象信息;
语义特征抽取模块422,用于将所述视频数据的各个对象信息和所述视 频数据的其它低层特征信息结合起来,对所述视频数据进行语义抽取,得到 所述视频数据的各个语义特征,将该各个语义特征进行保存。
所述视频数据管理模块43具体包括视频分割模块431,用于根据所述视频数据的各个语义特征,对所述多
个摄像机采集到的视频片段进行分割,将相关联的视频镜头合并成不同的场
景,每个场景对应相应的语义特征;
视频检索模块432,用于当用户需要检索所述视频数据时,将所述视频 数据的各个语义特征展示给该用户,根据用户输入的作为检索的依据的语义 特征,对所述视频数据进行检索,得到和所述输入的语义特征对应的场景或 视频片段,并展示给所述用户。
综上所述,应用本发明实施例,可以得到包括静止场景在内的各种实际 场景对应的视频数据的帧图像的深度信息,从而可以基于该深度信息提取出 视频数据的高层语义信息,并基于高层语义信息对视频数据进行有效地场景 分割。
本发明实施例可以实现在高层语义信息的层面上进行视频检索,有很高 的视频检索效率。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可 轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应该以权利要求的保护范围为准。
权利要求
1、一种对视频数据进行管理的方法,其特征在于,包括用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息;根据所述帧图像的深度信息,对由所述多个视频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,根据该语义特征对所述视频数据进行管理。
2、 根据权利要求1所述的方法,其特征在于,用多个摄像机从不同角度 对同一个实际场景进行拍摄,包括当所述多个摄像机为两个摄像机时,使用所述两个摄像机同时从不同角 度对同一个实际场景进行拍摄,得到立体的视频片段,所述两个摄像机采用 立体视觉中的标准平行配置,并用摄像机校正的方法对两个摄像机的位置进 行校正。
3、 根据权利要求1所述的方法,其特征在于,所述根据所述多个摄像机 的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息,包 括当所述多个摄像机为两个摄像机时,找出所述实际场景中的物点分别在 所述两个摄像机采集到的视频片段中包含的帧图像中的对应像点,根据所述 对应像点的位置关系和所述两台摄像机的位置关系,计算出所述对应像点的 深度信息;计算出所述视频片段中包含的帧图像中的所有像点的深度信息,根据该 所有像点的深度信息得到所述帧图像的深度信息。
4、 根据权利要求1或2或3所述的方法,其特征在于,所述根据所述帧图 像的深度信息,对由所述多个视频片段组成的视频数据进行语义分析,提取 出所述视频数据的语义特征,具体包括基于所述帧图像的深度信息,使用图像分割和分析算法对所述视频数据进行基于语义的分析,获取所述视频数据的各个对象信息,将该各个对象信 息和所述视频数据的其它低层特征信息结合起来,对所述视频数据进行语义 抽取,得到所述视频数据的各个语义特征,将该各个语义特征进行保存。
5、 根据权利要求4所述的方法,其特征在于,所述根据该语义特征对所 述视频数据进行管理,包括根据所述视频数据的各个语义特征,对所述多个摄像机采集到的视频片 段进行分割,将相关联的视频镜头合并成不同的场景,每个场景对应相应的 语义特征。
6、 根据权利要求5所述的方法,其特征在于,所述方法还包括当用户需要检索所述视频数据时,将所述视频数据的各个语义特征展示 给该用户,根据该用户输入的作为检索的依据的语义特征,对所述视频数据 进行检索,得到和所述输入的语义特征对应的场景或视频片段,并展示给所 述用户。
7、 一种对视频数据进行管理的装置,其特征在于,包括 深度信息获取模块,用于用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置关 系信息计算出所述多个视频片段中包含的帧图像的深度信息;语义特征获取模块,用于根据所述帧图像的深度信息,对由所述多个视 频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,视频数据管理模块,用于根据所述视频数据的语义特征对所述视频数据进行管理。
8、 根据权利要求7所述的对视频数据进行管理的装置,其特征在于,所 述深度信息获取模块具体包括立体视频片段获取模块,用于当所述多个摄像机为两个摄像机时,使用 所述两个摄像机同时从不同角度对同 一个实际场景进行拍摄,得到立体的视 频片段,所述两个摄像机采用立体视觉中的标准平行配置,并用摄像机校正 的方法对两个摄像机的位置进行校正;深度信息计算模块,用于找出所述实际场景中的物点分别在所述两个摄 像机采集到的视频片段中包含的帧图像中的对应像点,根据所述对应像点的 位置关系和所述两台摄像机的位置关系,计算出所述对应像点的深度信息; 计算出所述视频镜头中包含的帧图像中的所有像点的深度信息,根据该所有 像点的深度信息得到所述帧图像的深度信息。
9、 根据权利要求7所述的对视频数据进行管理的装置,其特征在于,所 述语义特征获耳又^f莫块具体包括对象信息获取模块,用于基于所述帧图像的深度信息,使用图像分割和 分析算法对所述视频数据进行基于语义的分析,获取所述视频数据的各个对 象信息;语义特征抽取模块,用于将所述视频数据的各个对象信息和所述视频数 据的其它低层特征信息结合起来,对所述视频数据进行语义抽取,得到所述 视频数据的各个语义特征,将该各个语义特征进行保存。
10、 根据权利要求7或8或9所述的对视频数据进行管理的装置,其特征 在于,所述视频数据管理模块具体包括视频分割模块,用于根据所述视频数据的各个语义特征,对所述多个摄 像机采集到的视频片段进行分割,将相关联的视频镜头合并成不同的场景,每个场景对应相应的语义特征;视频检索模块,用于当用户需要检索所述视频数据时,将所述视频数据 的各个语义特征展示给该用户,根据用户输入的作为检索的依据的语义特 征,对所述视频数据进行检索,得到和所述输入的语义特征对应的场景或视 频片段,并展示给所述用户。
全文摘要
本发明提供了一种对视频数据进行管理的方法和装置。该方法主要包括用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息;根据所述帧图像的深度信息,对由所述多个视频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,根据该语义特征对所述视频数据进行进一步处理。利用本发明,可以得到视频数据的帧图像的深度信息,从而可以基于该深度信息提取出视频数据的高层语义信息,并基于高层语义信息对视频数据进行有效地管理。
文档编号G06F17/30GK101430711SQ20081022661
公开日2009年5月13日 申请日期2008年11月17日 优先权日2008年11月17日
发明者汪增福, 琦 王 申请人:中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1