对视频数据进行管理的方法和装置的制作方法

文档序号：6471154阅读：116来源：国知局

专利名称：对视频数据进行管理的方法和装置的制作方法
技术领域：
本发明涉及图像处理领域，具体涉及一种对视频数据进行管理的方法和装置。
背景技术：
随着信息社会的发展，人们每天都要面临大量不同形式的信息。视频数
据由于其集^L觉、听觉和文本信息于一体的特点正在受到越来越多的关注，成为人们传播和获取信息的一种重要方式。
随着各种视频资料源源不断地产生，如何从越来越多的视频数据库中快速、高效地检索得到所需要的视频，已成为人们的一个迫切需要。目前，现有的视频检索技术大致可以分为两类基于文本的视频检索技术和基于内容的视频检索技术。
基于文本的视频检索技术主要是在离线状态下通过人工注释对视频进行文本描述，并将这些文本描述信息存储在视频数据库中供检索使用。由于人工注释不仅耗费大量的人力和时间，而且带有很大的主观性，很多情况下不能对视频内容做出客观的描述。因此，基于文本的视频检索技术的应用有很大的局限性。
基于内容的视频检索技术不仅可以利用关键词进行检索，还可以利用低层特征信息的客观测量(如颜色、紋理、形状等)作为描述视频内容的重要手段，并构造合适的相似性度量模型。由于上述低层特征信息从不同角度更加客观地反映了视频内容，这就使得基于内容的视频检索比基于文本的视频-险索有更广阔的应用前景。
尽管如此，和人的4企索能力相比，目前计算机的4企索效果还相差甚远。这主要是因为人在比较不同事物之间的相似性时，主要使用高层语义信息，而基于内容的视频检索目前还基本处于非语义的层面上。因此，如何从低层特征信息得到高层语义信息，然后利用高层语义信息进行检索也就成了目前视频检索领域最活跃的一个研究方向。
对视频图像合理的分割能够有利于上述高层语义信息的提取，视频图像的深度信息的使用更有可能使视频图像的分割结果符合人的高层语义。在深度信息的支持下，人们不仅能够获得有关物体的形状、大小和颜色等信息，还能够根据所获得的物体空间方位等信息，正确判断自身与客观环境之间的相对位置关系，从而形成更加接近于人的高层语义表示的感知结果。
现有技术中的一种获取视频图像的深度信息的方法为从单视点视频序列中恢复出视频图像的深度信息，并进而进行视频图像的分割。
在实现本发明的过程中，发明人发现上述现有技术存在如下的缺点由于静止物体在相邻视频帧图像中不产生视差，也就无法恢复出深度信息，因此，该方法不适用于静止场景。并且，该方法也没有涉及视频才企索。
现有技术中还没有一种基于视频图像的深度信息获取高层语义信息，并对视频图像进行管理的方法。

发明内容
本发明实施例提出一种对视频数据进行管理的方法和装置，以解决现有技术不能获取静止场景的深度信息，不能基于视频图像的深度信息获取高层语义信息的问题。
本发明实施例的目的是通过以下技术方案实现的
一种对视频数据进行管理的方法，包括
7用多个摄像机从不同角度对同一个实际场景进行拍摄，得到所述实际场景的多个视频片段，根据所述多个摄像机的位置关系信息计算出所述多个视
频片段中包含的帧图像的深度信息；
根据所述帧图像的深度信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，根据该语义特征对所述视频数据进行管理。
一种对视频数据进行管理的装置，包括
深度信息获取模块，用于用多个摄像机从不同角度对同一个实际场景进行拍摄，得到所述实际场景的多个视频片段，根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息；
语义特征获取模块，用于根据所述帧图像的深度信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，
视频数据管理模块，用于根据所述视频数据的语义特征对所述视频数据进行管理。
由上述本发明的实施例提供的技术方案可以看出，本发明实施例可以得到实际场景对应的视频数据的帧图像的深度信息，从而可以基于该深度信息提取出视频数据的高层语义信息，并基于高层语义信息对视频数据进行有效地管理。

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种对视频数据进行检索的方法的处理流程图2为本发明实施例一提供的视频数据的典型结构示意图3为本发明实施例一提供的两个摄像机(左摄像机C1和右摄像机C2 ) 的位置配置示意图4为本发明实施例二提供的一种对视频数据进行管理的装置的结构示意图。
具体实施例方式
在本发明实施例中，用多个摄像机从不同角度对同一个实际场景进行拍摄，得到所述实际场景的立体的多个视频片段，根据所述多个摄像机的位置关系信息利用立体视觉算法计算出所述多个视频片段中包含的帧图像的深度信息。然后，根据所述帧图像的深度信息，结合视频数据的其它低层特征信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，根据该语义特征对所述视频数据进行进一步管理。
为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。
实施例一
该实施例提供的一种对视频数据进行检索的方法的处理流程如图1所示，包括如下处理步骤
步骤11、通过双摄像机采集立体的视频片段。
视频数据的典型结构示意如图2所示，从下到上依次是帧、镜头、场景、视频。帧是视频数据的最小单元，是一幅静止的画面，一个帧由多个像点组成。镜头是视频数据的基本单位，其中包括通过摄像头一次连续的动作拍摄到的相邻地点上连续发生的多个帧。场景由内容相近的镜头组成，从不同的角度描述同一个事件。而视频则由许多场景组成，叙述一个完整的故事，一
个一见频可以包括多个^L频片l殳。
传统的视频场景是用单摄像机采集得到的，该实施例采用双摄像机来采
集立体的视频片段，该两个摄像机(左摄像机C1和右摄像机C2)的位置配置示意图如图3所示，该两个摄像机采用立体视觉中最常用的标准平行配置，并用摄像机校正的方法对两个摄像机的位置进行校正，以使该两个摄像机能够同时从不同角度对同一个实际场景进行拍摄，得到立体的视频片段。
同一实际场景点在两个摄像机上分别形成的像点称为对应点。比如，空间中的一个实际场景点为P,分别在左摄像机C1、右摄像机C2的图像平面上形成像点P1和像点P2,上述像点P1和像点P2称为对应点。
上述两个摄像机在视频采集过程中尽量保持相对位置的固定，即使根据拍摄需要必须改变其位置，也要将两摄像机之间的相对位置关系记录下来，便于后续处理中根据此信息恢复每帧图像的深度信息。
上述实际场景可以包括静止场景，上述两个摄像机分别采集到的多个视频片段便组成需要检索的视频数据。
步骤12、根据采集到的立体的视频片段计算出视频片段中包含的帧图像的深度信息。
基于上述采集到的立体的视频片段，根据现有的立体视觉算法可以计算出视频片段中包含的帧图像中的每个像点的深度信息，具体计算过程如下
对于左摄像机C1的图像平面上的每个点(如图2中点P1),利用立体视觉的方法找出其在右摄像机C2的图像平面上的对应点(如图2中点P2)，然后根据这两个点的位置关系和两台摄像机的位置关系，计算出它们所对应的实际场景中的点(如图2中点P)的深度信息，该深度信息也是上述像点P1和像点P2对应的深度信息。
根据上述立体视觉算法的处理过程，可以计算出帧图像中的所有像点的深度信息，根据该所有像点的深度信息可以得到该帧图像的深度信息。上述像点的深度信息是指图像上某个像点所对应的实际场景中的物点距离参考点 (一般指摄像机的光心)的距离，上述帧图像的深度信息由帧图像中每个像点的深度信息组成。
在实际应用中，也可以根据需要只计算出部分帧图像的深度信息。
步骤13、基于帧图像的深度信息，对视频数据进行基于语义的分析，提取出视频数据的语义特征。
基于上述计算出的每帧图像的深度信息，使用图像分割和分析算法对上述视频数据进行基于语义的分析，获取视频数据的各个对象信息。然后，将该各个对象信息和视频数据的其它低层特征信息(如颜色、紋理、形状等) 结合起来，对视频数据进行语义抽取，得到视频数据的各个语义特征。将该各个语义特征进行保存。
例如，假如我们对一个足球比赛的视频片段进行分析，传统的图像、视频分析方法可以得到视频内每帧图像的颜色、紋理、所包含的主要几何形状以及主要物体的运动方向等低层信息。但是如果我们提取出语义信息之后，就可以得到更高层次的描述，比如视频片段中有足球场，运动员，观众，此视频片段记录了一场足球比赛的情况等。
步骤14、基于视频数据的语义特征，对视频数据进行管理。
在获取了上述视频数据的语义特征后，可以基于该语义特征对视频数据进行各种分割、浏览和检索等管理。
比如，可以根据上述视频数据的各个语义特征，对上述双摄像机采集到的立体的视频片段进行分割，并把相关联的镜头合并成不同的场景，从而给上述视频建立了基于帧、镜头、场景的层次目录结构，并且每个场景对应一个或多个语义特征。
当用户需要浏览视频数据中感兴趣的内容时，首先需要将上述视频数据的各个语义特征展示给用户。然后，用户输入作为检索的依据的语义特征，对视频数据进行检索，得到上述视频数据中的和输入的语义特征对应的场景。
当用户需要浏览某个或多个视频片段中感兴趣的内容时，首先需要将上述视频数据的各个语义特征展示给用户。然后，用户输入作为检索的依据的语义特征，对上述某个或多个视频片段进行检索，得到上述某个或多个视频片段中的和输入的语义特征对应的场景。
在实际应用中，还可以用3个或4个等不止两个摄像机来釆集立体的视频片段，并且同样采用上述处理流程，来提取出视频数据的语义特征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory, ROM )或随机存储记忆体(Random Access Memory, RAM )等。
实施例二
该实施例提供的一种对视频数据进行管理的装置的结构示意图如图4所示，包括如下模块
深度信息获取模块41,用于用多个摄像机从不同角度对同一个实际场景进行拍摄，得到所述实际场景的多个视频片段，根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息；
语义特征获取模块42,用于根据所述帧图像的深度信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，
视频数据管理模块43，用于根据所述视频数据的语义特征对所述视频数据进行管理。
所述深度信息获耳又^^莫块41具体包括
立体视频片段获取模块411 ，用于当所述多个摄像机为两个摄像机时，使用所述两个摄像机同时从不同角度对同一个实际场景进行拍摄，得到立体的视频片段，所述两个摄像机采用立体视觉中的标准平行配置，并用摄像机校正的方法对两个摄像机的位置进行校正；
深度信息计算模块412,用于找出所述实际场景中的像点分别在所述两个摄像机釆集到的视频片段中包含的帧图像中的对应像点，根据所述对应像点的位置关系和所述两台摄像机的位置关系，计算出所述对应像点的深度信息；计算出所述视频片段中包含的帧图像中的所有像点的深度信息，根据该所有像点的深度信息得到所述帧图像的深度信息。
所述语义特征获取模块42具体包括
对象信息获取模块421,用于基于所述帧图像的深度信息，使用图像分割和分析算法对所述视频数据进行基于语义的分析，获取所述视频数据的各个对象信息；
语义特征抽取模块422，用于将所述视频数据的各个对象信息和所述视频数据的其它低层特征信息结合起来，对所述视频数据进行语义抽取，得到所述视频数据的各个语义特征，将该各个语义特征进行保存。
所述视频数据管理模块43具体包括视频分割模块431,用于根据所述视频数据的各个语义特征，对所述多
个摄像机采集到的视频片段进行分割，将相关联的视频镜头合并成不同的场
景，每个场景对应相应的语义特征；
视频检索模块432,用于当用户需要检索所述视频数据时，将所述视频数据的各个语义特征展示给该用户，根据用户输入的作为检索的依据的语义特征，对所述视频数据进行检索，得到和所述输入的语义特征对应的场景或视频片段，并展示给所述用户。
综上所述，应用本发明实施例，可以得到包括静止场景在内的各种实际场景对应的视频数据的帧图像的深度信息，从而可以基于该深度信息提取出视频数据的高层语义信息，并基于高层语义信息对视频数据进行有效地场景分割。
本发明实施例可以实现在高层语义信息的层面上进行视频检索，有很高的视频检索效率。
以上所述，仅为本发明较佳的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1、一种对视频数据进行管理的方法，其特征在于，包括用多个摄像机从不同角度对同一个实际场景进行拍摄，得到所述实际场景的多个视频片段，根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息；根据所述帧图像的深度信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，根据该语义特征对所述视频数据进行管理。
2、根据权利要求1所述的方法，其特征在于，用多个摄像机从不同角度对同一个实际场景进行拍摄，包括当所述多个摄像机为两个摄像机时，使用所述两个摄像机同时从不同角度对同一个实际场景进行拍摄，得到立体的视频片段，所述两个摄像机采用立体视觉中的标准平行配置，并用摄像机校正的方法对两个摄像机的位置进行校正。
3、根据权利要求1所述的方法，其特征在于，所述根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息，包括当所述多个摄像机为两个摄像机时，找出所述实际场景中的物点分别在所述两个摄像机采集到的视频片段中包含的帧图像中的对应像点，根据所述对应像点的位置关系和所述两台摄像机的位置关系，计算出所述对应像点的深度信息；计算出所述视频片段中包含的帧图像中的所有像点的深度信息，根据该所有像点的深度信息得到所述帧图像的深度信息。
4、根据权利要求1或2或3所述的方法，其特征在于，所述根据所述帧图像的深度信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，具体包括基于所述帧图像的深度信息，使用图像分割和分析算法对所述视频数据进行基于语义的分析，获取所述视频数据的各个对象信息，将该各个对象信息和所述视频数据的其它低层特征信息结合起来，对所述视频数据进行语义抽取，得到所述视频数据的各个语义特征，将该各个语义特征进行保存。
5、根据权利要求4所述的方法，其特征在于，所述根据该语义特征对所述视频数据进行管理，包括根据所述视频数据的各个语义特征，对所述多个摄像机采集到的视频片段进行分割，将相关联的视频镜头合并成不同的场景，每个场景对应相应的语义特征。
6、根据权利要求5所述的方法，其特征在于，所述方法还包括当用户需要检索所述视频数据时，将所述视频数据的各个语义特征展示给该用户，根据该用户输入的作为检索的依据的语义特征，对所述视频数据进行检索，得到和所述输入的语义特征对应的场景或视频片段，并展示给所述用户。
7、一种对视频数据进行管理的装置，其特征在于，包括深度信息获取模块，用于用多个摄像机从不同角度对同一个实际场景进行拍摄，得到所述实际场景的多个视频片段，根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息；语义特征获取模块，用于根据所述帧图像的深度信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，视频数据管理模块，用于根据所述视频数据的语义特征对所述视频数据进行管理。
8、根据权利要求7所述的对视频数据进行管理的装置，其特征在于，所述深度信息获取模块具体包括立体视频片段获取模块，用于当所述多个摄像机为两个摄像机时，使用所述两个摄像机同时从不同角度对同一个实际场景进行拍摄，得到立体的视频片段，所述两个摄像机采用立体视觉中的标准平行配置，并用摄像机校正的方法对两个摄像机的位置进行校正；深度信息计算模块，用于找出所述实际场景中的物点分别在所述两个摄像机采集到的视频片段中包含的帧图像中的对应像点，根据所述对应像点的位置关系和所述两台摄像机的位置关系，计算出所述对应像点的深度信息；计算出所述视频镜头中包含的帧图像中的所有像点的深度信息，根据该所有像点的深度信息得到所述帧图像的深度信息。
9、根据权利要求7所述的对视频数据进行管理的装置，其特征在于，所述语义特征获耳又^f莫块具体包括对象信息获取模块，用于基于所述帧图像的深度信息，使用图像分割和分析算法对所述视频数据进行基于语义的分析，获取所述视频数据的各个对象信息；语义特征抽取模块，用于将所述视频数据的各个对象信息和所述视频数据的其它低层特征信息结合起来，对所述视频数据进行语义抽取，得到所述视频数据的各个语义特征，将该各个语义特征进行保存。
10、根据权利要求7或8或9所述的对视频数据进行管理的装置，其特征在于，所述视频数据管理模块具体包括视频分割模块，用于根据所述视频数据的各个语义特征，对所述多个摄像机采集到的视频片段进行分割，将相关联的视频镜头合并成不同的场景，每个场景对应相应的语义特征；视频检索模块，用于当用户需要检索所述视频数据时，将所述视频数据的各个语义特征展示给该用户，根据用户输入的作为检索的依据的语义特征，对所述视频数据进行检索，得到和所述输入的语义特征对应的场景或视频片段，并展示给所述用户。
全文摘要
本发明提供了一种对视频数据进行管理的方法和装置。该方法主要包括用多个摄像机从不同角度对同一个实际场景进行拍摄，得到所述实际场景的多个视频片段，根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息；根据所述帧图像的深度信息，对由所述多个视频片段组成的视频数据进行语义分析，提取出所述视频数据的语义特征，根据该语义特征对所述视频数据进行进一步处理。利用本发明，可以得到视频数据的帧图像的深度信息，从而可以基于该深度信息提取出视频数据的高层语义信息，并基于高层语义信息对视频数据进行有效地管理。
文档编号G06F17/30GK101430711SQ20081022661
公开日2009年5月13日申请日期2008年11月17日优先权日2008年11月17日
发明者汪增福, 琦王申请人:中国科学技术大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪增福;王琦
技术所有人：中国科学技术大学
我是此专利的发明人

上一篇：基于线性和贝叶斯概率混合模型的人脸超分辨率处理方法
上一篇：一种快速载入虚拟场景的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。