传送数据流中的视频数据和相关联的元数据的方法

文档序号：7937545阅读：219来源：国知局

专利名称：：传送数据流中的视频数据和相关联的元数据的方法
技术领域：
：本发明涉及一种传送数据流中的视频数据和相关联的元数据的方法，所述元数据表示相关联的视频数据结构。本发明还涉及一种传送数据流中的视频数据和相关联的元数据的方法，所述元数据表示与所述视频数据结构相关联的指纹信息。
背景技术：
：嵌入视频比特流中的视频注释信息潜在地有利于许多应用-互联网视频搜索，-编辑素材搜索；-存储媒体索引和检索，-VOD、频道选择、PVR...中的视频浏览，-视频拷贝检测，-搜索结果群集。这些应用可以概括为三种类别-在视频文档中进行文本注释的需求-针对视觉相似性搜索的视觉特性的需求-针对视频导航的视频结构信息的需求随着对在压缩视频流中支持更多功能的需求越来越多，H.264/AVC(也称为ITU-TH.264标准)采用可以有助于主要与解码有关的处理的SEI(补充增强信息)消息。现在，该标准已定义了大约20种SEI语法来支持不同的应用。本发明提出了一种具有视频结构和指纹功能支持的视频编码的架构
发明内容根据第一方面，本发明涉及一种将与视频数据相关联的指纹信息传送到视频数据流中的方法。根据本发明的这一方面，所述方法包括以下步骤--确定与所述视频数据的至少一个帧相关联的指纹，-至少将包括所述指纹信息在内的消息插入视频流中。根据优选实施例，所述视频数据符合ITU-TH.264标准，并且所述指纹信息被封装入补充增强信息(SEI)消息中。根据优选实施例，数据结构包括多个节点，每个节点包括多个叶节点，每个块包括多个节点和叶节点。根据优选实施例，对所述视频数据进行编码，并且将所述块封装为编码的视频数据中的消息，所述块包括对块中包括的节点的描述，或包括指示所述描述被包括在下一块中的信息。根据优选实施例，所述视频数据是符合ITU-TH.264标准的编码的元数据，并且至少将所述元数据传送到补充增强信息(SEI)消息中。根据优选实施例，所述描述中包括的所述信息是在以下内容之间选择的-节点标识符，-指示所述信息中是否描述了所述节点的指示符，-以及，在当前信息中描述了所述节点的情况下-表示与所述节点相关联的视频信息的名称，-给出与所述节点相关联的视频信息的持续时间的时间码，-多个概要段，以及针对每个概要段-表示概要段的名称，-表示与所述概要段相关联的语义信息的类别，-键值描述，对在关键帧、片断或文本描述中选择的段类型进行描述，或者在这些信息的任何组合之间进行选择。根据本发明涉及的第二方面，本发明提出了一种用于传送数据流中的视频数据和相关联的元数据的方法，所述元数据表示相关联的视6频数据结构。根据本发明的这一方面，所述方法包括以下步骤-确定视频数据的结构，-以增量方式将所述结构分为块，-在与所述块相关的视频数据之前的时间间隔，在数据流中传送所述块。根据第三方面，本发明还涉及一种视频编码设备，包括-用于确定视频数据的结构的装置，-用于以增量方式将所述结构分为块的装置，-用于在与所述块相关的视频数据之前的时间间隔，将所述块插入数据流中的装置。根据第四方面，本发明还涉及一种视频编码设备，包括-用于确定与所述视频数据的至少一个帧相关联的指纹的装置，-用于至少将包括所述指纹信息在内的消息插入视频流中的装置。根据优选实施例，本发明还涉及一种根据第四方面并符合ITU-TH.264标准的视频编码设备，并且所述结构信息被封装入补充增强信息(SEI)消息中。根据优选实施例，所述视频编码设备符合ITU-TH.264标准，并且所述指纹信息被封装入补充增强信息(SEI)消息中。根据第五方面，本发明还涉及一种个人视频录像机，其特征在于包括-用于对编码的视频信息进行解码的装置，-用于对以增量方式插入编码的视频数据中的相关联视频数据结构进行解码的装置，-根据在运行时接收到的增量视频数据结构来对视频数据结构进行重建的装置。根据第六方面，本发明还涉及一种个人视频录像机，其特征在于包括-用于对编码的视频信息进行解码的装置，-用于对编码的视频数据中包括的指纹信息进行解码的装置，-用于对接收到的编码的视频数据进行存储的装置，-基于多个所记录的视频数据的指纹信息来对多个所记录的视频数据进行比较的装置。借助附图，通过对将要示意的本发明的非限制实施例的描述，本发明的其他特性和优点将变得显而易见。图l表示根据本发明优选实施例的视频的结构信息；图2表示根据本发明优选实施例的视频的增量分解。具体实施例方式视频结构描述在于任何视听文档的语义组织的描述。这种描述是提供了文档的自顶向下分解的分级结构。该信息可以用于显示文档的简短概要，或用于对文档进行快速导航。视频结构描述了分级构造。根据文档的类型，用于获得文档结构的方法可以不同。如果视频表示网球比赛，则其结构不同于足球比赛，如果视频表示电影，则其结构也不同。存在用于获得视频的结构的若干方法。图l示出了所获得的视频结构。该结构表示为由包括节点和叶节点在内的树来表示的视频的分级分解。节点和叶节点的数目取决于视频内容及其长度。典型地，树的深度取决于内容。树的最低级与结构分解的最高粒度相对应。例如，在网球比赛中，最低级可以与点相对应。如图1所示，树的最低级可以与片断(小段视频)相对应，或者直接与关键帧相对应。使用更低粒度，可以假设最低级可以与关于网球的比赛相对应。在广播域中，解码器可以在流的任何点处开始接收流。为了使解码器利用该结构信息，必须沿着流重复整个树描述。该方案的问题在于，这可能表现出一些冗余，并可能消耗太多带宽。因此，本发明提出了如图2所示将结构信息分为块。所提出的语法使得能够随着流的流动以增量方式来传送图形。这种思想是使用在时间连续的点处传送的多个块来分割树描述。假定在视频内容的相应部分之前传送每个块。在图2中，将树分为3块。节点id使得能够在解码器存储器中对整个树进行重构。在tl时刻，将指示下一输入视频的结构的消息插入流中。该结构在块1中表示。在t2时刻，将指示下一输入视频的结构的消息插入到流中。该结构在块2中表示。在t3时刻，将指示了下个输入视频的结构的消息插入到流中。该结构在块3中表示。当根据1丁11-丁11264对数据进行编码时，将结构信息封装入补充增强信息(SEI)消息中。在以下表中给出SEI消息的结构9<table>tableseeoriginaldocumentpage10</column></row><table>表l字段"reference"指示在当前消息中还是在未来消息中描述给定节点。根据本发明的另一实施例，还可以在广播的视频的起始处传送所有块。这使得在解码器中整个结构能够在广播的视频的起始处可用。在优选实施例中，在包括应用了所述SEI消息的视频在内的NAL之前，每个块在SEI消息中传送一次。每个SEI消息包括指示视频信息的绝对值的时间码(称为起始信息和结束信息)。为了对用户而言有意义，当导航到文档中时，每个段由名称表示，并且此外每个段可以由特定标识符(如，SHOT、SCENE、EVENT、NEWS—STORY)来标识，这给出了段的粒度。还可以使用表示视频内容的语义信息来标识每个段，例如，GOAL、MATCH、GAME、SET。这最后的元数据给出了视频索引应用的信息。键值描述字段也指示了段的粒度、是否是关键帧、视频片断、或段的文本描述，包括例如来自多年已知的重要人物的非常重要的宣言。由于树结构是递归的，因此SEI消息的语法是递归的。此外，给出了块中嵌入的分量的数目N。从而，当相继接收嵌入在数据流中的块时，根据在表l中描述的语法和节点标识符，由于每个块不互相独立而是完全联系，能够重建视频数据的整个结构。现在，将描述本发明的第二方面，本发明的第二方面提出了一种将指纹信息与视频一起传送的方法。视频指纹处理是一项能够检测2个视频文档可能包含相同内容或内容片段的技术。视频指纹处理能够处理已改变(有意或无意)的内容。这些改变包括-裁剪，压缩，旋转，某种图像改变(模糊…)。视频指纹处理的公知应用是检测文档的盗版。但是由于视频指纹处理提供了一种识别2个类似文档的可靠方式，其还具有其他应用，包括在视频集合中检测相似物，或在完整编辑的文档中检索片断。这些应用是基于不同形式的纯视觉相似度的、典型地支持"内容查询"的应用它们的目的是检索几乎精确匹配的2个拷贝。指纹处理技术依赖于从可由特定搜索应用有效处理的内容中提取描述信息。可以将该描述信息存储在元数据中，使其立即可用于搜索，而无需对视频内容进行解压和分析。根据优选实施例，根据ITU-TR264标准对视频数据进行编码。如下表所定义的，将指纹信息封装入SEI消息中。<table>tableseeoriginaldocumentpage12</column></row><table>表2指纹SEI消息可以在流中的任何位置处出现。存在任何数目的这种消息，每个帧中至多一个。典型地，每个镜头中存在一个指纹消息。指纹消息指定其所关联的、在表2中称为参考帧(从其中提取指纹消息)的确切的帧。这是需要考虑时间约束的指纹检查机制所需的。时间码以如下方式来描述小时、分钟、秒、与嵌入文档相应的帧编号。由3个字节和1个四位字节表示b(8)、b(8)、b(8)、n(4)。如果对文档进行编辑，则必须重新产生该元数据。"FingerprintalgorithmIndex"是用于描述该帧的视频指纹算法的索引。一些不同的视频指纹算法可以用来描述帧、镜头。在通过两个不同算法提取了两个视频指纹处理的情况下，直接的指纹比较是不可能的。在语法定义内，u(w)使用n个比特来表示无符号整数，b(8)表示具有任何比特串模式(8比特)的字节，p^/o6^SV^是整个video—annotation—SEI有效载荷的以字节为单位的大小。为了加速快速比特流解析，这里不使用可变长度编码。可以将指纹和视频结构的信息都组合到还包括其他视频注释信息在内的高级SEI消息中。例如，下表可以提出包括与视频注释相关的若干类型的元数据在内的SEI消息结构。video一annotation一SEI(payloadSize){C描述符metadataTypeu(8)if(metadataType&0x01==0x01)text—metadata(payloadSize)if(metadataType&0x02==0x02)motion_metadata()if(metadataType&0x04==0x04)colour—metadata0if(metadataType&0x08==0x08)texture—metadata()if(metadataType&0x10==0x10)fingerprint—metadata()if(metadataType&0x10==0x12)structure—metadata0在不背离本发明范围的前提下，还涉及一种视频编码设备，包括-用于确定视频数据的结构的装置，-用于以增量方式将所述结构分为块的装置，-用于在与所述块相关的视频数据之前的时间间隔，将所述块插入数据流中的装置。优选地，该编码设备符合ITU-TH.264标准，并且所述结构信息被封装入补充增强信息(SEI)消息中。本发明还涉及一种视频编码设备，包括-用于确定与所述视频数据的至少一个帧相关联的指纹的装置，-用于至少将包括所述指纹信息在内的消息插入视频流中的装置。优选地，该编码设备符合ITU-TH.264标准，并且所述指纹信息被封装入补充增强信息(SEI)消息中。本发明还涉及一种个人视频录像机，包括-用于对编码的视频信息进行解码的装置，-用于对以增量方式插入编码的视频数据中的相关联视频数据结构进行解码的装置，-根据在运行时接收到的增量视频数据结构来对视频数据结构进行重建的装置。本发明还涉及一种个人视频录像机，包括-用于对编码的视频信息进行解码的装置，-用于对编码的视频数据中包括的指纹信息进行解码的装置，-用于对接收到的编码的视频数据进行存储的装置，-基于多个所记录的视频数据的指纹信息来对多个所记录的视频数据进行比较的装置。权利要求1、一种将与视频数据相关联的指纹信息传送到视频数据流中的方法，其特征在于，所述方法包括以下步骤-确定与所述视频数据的至少一个帧相关联的指纹，-至少将包括所述指纹信息在内的消息插入视频流中。2、根据权利要求l所述的方法，其特征在于，所述视频数据符合ITU-TH.264标准，并且所述指纹信息被封装入补充增强信息SEI消息中。3、一种用于传送数据流中的视频数据和相关联的元数据的方法，所述元数据表示相关联的视频数据结构，其特征在于，所述方法包括以下步骤-确定视频数据的结构，-以增量方式将所述结构分为块，-在与所述块相关的视频数据之前的时间间隔，在数据流中传送所述块。4、根据权利要求3所述的方法，其特征在于，所述数据结构包括多个节点，每个节点包括多个叶节点，每个块包括多个节点和叶节点。5、根据权利要求4所述的方法，其特征在于，对所述视频数据进行编码，并且将所述块封装为编码的视频数据中的消息，所述块包括对块中包括的节点的描述，或包括指示所述描述被包括在下一块中的"(曰息。6、根据权利要求3所述的方法，其特征在于，所述视频数据是符合11!;-丁&264标准的编码的元数据，并且至少将所述元数据传送到补充增强信息SEI消息中。7、根据权利要求5所述的方法，其特征在于，所述描述中包括的所述信息是在以下内容之间选择的-节点标识符，-指示所述信息中是否描述了所述节点的指示符，-以及，在当前信息中描述了所述节点的情况下-表示与所述节点相关联的视频信息的名称，-给出与所述节点相关联的视频信息的持续时间的时间码，-多个概要段，以及针对每个概要段-表示概要段的名称，-表示与所述概要段相关联的语义信息的类别，-键值描述，对在关键帧、片断或文本描述中选择的段类型进行描述，或者在这些信息的任何组合之间进行选择。8、一种视频编码设备，包括-用于确定视频数据的结构的装置，-用于以增量方式将所述结构分为块的装置，-用于在与所述块相关的视频数据之前的时间间隔，将所述块插入数据流中的装置。9、一种视频编码设备，包括-用于确定与所述视频数据的至少一个帧相关联的指纹的装置，-用于至少将包括所述指纹信息在内的消息插入视频流中的装置。10、根据权利要求8所述的视频编码设备，其特征在于，所述视频编码设备符合ITU-TH,264标准，并且所述结构信息被封装入补充增强信息SEI消息中。11、根据权利要求9所述的视频编码设备，其特征在于，所述视频编码设备符合11!;-丁11.264标准，并且所述指纹信息被封装入补充增强信息SEI消息中。12、一种个人视频录像机，其特征在于，包括-用于对编码的视频信息进行解码的装置，-用于对以增量方式插入到编码的视频数据中的相关联视频数据结构进行解码的装置，-根据在运行时接收到的增量视频数据结构来对视频数据结构进行重建的装置。13、一种个人视频录像机，其特征在于，包括-用于对编码的视频信息进行解码的装置，-用于对编码的视频数据中包括的指纹信息进行解码的装置，-用于对接收到的编码的视频数据进行存储的装置，-基于多个所记录的视频数据的指纹信息来对多个所记录的视频数据进行比较的装置。全文摘要本申请涉及一种用于传送数据流中的视频数据和相关联的元数据的方法，所述元数据表示关联的视频数据结构。所述方法包括以下步骤确定视频数据的结构；以增量方式将所述结构分为块；在与所述块相关的视频数据之前的时间间隔，在数据流中传送所述块。本申请还涉及一种用于将与视频数据相关联的指纹信息传送到视频数据流中的方法。所述方法包括以下步骤确定与所述视频数据的至少一个帧相关联的指纹；至少将包括所述指纹信息在内的消息插入视频流中。文档编号H04N7/24GK101658034SQ200880012026公开日2010年2月24日申请日期2008年4月10日优先权日2007年4月17日发明者利昂内尔·瓦瑟,弗朗西斯科·勒克莱尔,弗雷德里克·勒菲弗,路易斯·舍瓦利耶申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：路易斯.舍瓦利耶;利昂内尔.瓦瑟;弗朗西斯科.勒克莱尔;弗雷德里克.勒菲弗
技术所有人：汤姆森许可贸易公司
我是此专利的发明人

上一篇：基站装置、用户装置以及通信控制方法
上一篇：用于移动通信系统的位置路由区域更新过程的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。