用信号传递多视角视频译码操作点的特性的制作方法

文档序号:7912861阅读:273来源:国知局
专利名称:用信号传递多视角视频译码操作点的特性的制作方法
技术领域
本发明涉及经编码的视频数据的传送。
背景技术
数字视频能力可并入到广泛装置中,包括数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、数码相机、数字记录装置、数字媒体播放器、 视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电传会议装置等。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H. 263或ITU-TH. 264/MPEG-4第 10部分先进视频译码(AVC)所定义的标准和此类标准的扩展版中描述的技术,以更有效地发射和接收数字视频信息。视频压缩技术执行空间预测和/或时间预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,可将视频帧或片段分割成宏块。每一宏块可经进一步分割。 帧内译码(I)帧或片段中的宏块使用相对于相邻宏块的空间预测来编码。帧间译码(P或 B)帧或片段中的宏块可使用相对于同一帧或片段中的相邻宏块的空间预测或相对于其它参考帧的时间预测。在已编码视频数据后,视频数据可由多路复用器来包化以供发射或存储。MPEG-2 包括“系统”部分,其定义用于许多视频编码标准的传送层。MPEG-2传送层系统可由MPEG-2 视频编码器或其它符合不同视频编码标准的视频编码器使用。举例来说,MPEG-4指定不同于MPEG-2的编码和解码方法的编码和解码方法,但实施MPEG-4标准的技术的视频编码器仍可利用MPEG-2传送层方法。一般来说,本发明中对“MPEG-2系统”的提及指代由MPEG-2所指定的视频数据的传送层。由MPEG-2所指定的传送层在本发明中也称为“MPEG-2传送流”或简称为“传送流”。 同样,MPEG-2系统的传送层还包括节目流。传送流和节目流通常包括用于传递类似数据的不同格式,其中传送流包含包括音频数据与视频数据两者的一个或一个以上“节目”,而节目流包括包含音频数据与视频数据两者的一个节目。已努力基于H. 264/AVC开发新的视频译码标准。一个此类标准为可调视频译码(SVC)标准,其为H.264/AVC的可调扩展。另一标准为多视角视频译码(MVC),其成为 H. 264/AVC的多视角扩展。MPEG-2系统规范描述可如何将经压缩的多媒体(视频和音频) 数据流与其它数据一起多路复用以形成适合于数字发射或存储的单一数据流。在2006年 5月的“信息技术-动画和相关联音频的一般译码系统,推荐H. 222.0 ;国际标准化组织, IS0/IEC JTC1/SC29/WG11 ;动画和相关联音频的译码 information Technology-GenericCoding of Moving Pictures and Associated Audio :Systems,Recommendation H. 222. 0 ; International Organisation for Standardisation, IS0/IEC JTC1/SC29/WG11 ;Coding of Moving Pictures and Associated Audio) ” 中指定 MPEG-2 系统的最新规范。MPEG 最近针对MPEG-2系统设计了 MVC的传送标准,且此规范的最新版本为“IS0/IEC 13818-1的研究MVC 的 2007/FPDAM4 传送(Study of IS0/IEC 13818-1 :2007/FPDAM4 Transport of MVC)”,MPEG doc. N10572, MPEG of IS0/IEC JTC1/SC29/WG11,美国夏威夷毛伊岛(Maui, Hawaii,USA),2009 年 4 月。

发明内容
大体来说,本发明描述用于改进MPEG-2 (动画专家组)系统中的多视角视频译码的技术。特定来说,本发明的技术针对用于MPEG-2系统位流的操作点的数据结构,其中所述数据结构用信号传递接收装置的呈现能力、接收装置的解码能力和(在一些实例中)操作点的位速率。所述数据结构可对应于包括于所述MPEG-2系统位流中的操作点描述符。为了适当解码并显示操作点的视频数据,接收装置应满足由在数据结构中用信号传递的呈现能力和解码能力所描述的性质。MPEG-2系统位流可包括对应于节目的各个视角的多个操作点。使用节目的不同操作点允许各种客户端装置执行调适。即,具有不同呈现和解码能力的客户端装置可从同一节目提取视角以显示二维或三维视频数据。客户端装置还可与服务器装置协商以检索具有变化的位速率的数据,以适合于具有各种带宽能力的传送媒体。在一个实例中,一种方法包括通过源装置构造对应于MPEG-2系统标准位流的多视角视频译码(MVC)操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值,且其中所述数据结构经包括作为所述位流的一部分;以及输出包含所述数据结构的所述位流。在另一实例中,一种设备包括多路复用器,其构造对应于MPEG-2系统标准位流的MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值,且将所述数据结构包括作为所述位流的一部分;以及输出接口,其输出包含所述数据结构的所述位流。在另一实例中,一种设备包括用于构造对应于MPEG-2系统标准位流的MVC操作点的数据结构的装置,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值,且其中所述数据结构经包括作为所述位流的一部分;以及用于输出包含所述数据结构的所述位流的装置。在另一实例中,一种计算机可读存储媒体包含指令,所述指令使源装置的处理器构造对应于MPEG-2系统标准位流的MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值,且其中所述数据结构经包括作为所述位流的一部分;且使输出接口输出包含所述数据结构的所述位流。在另一实例中,一种方法包括通过目的地装置接收对应于MPEG-2 (动画专家组) 系统标准位流的MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值;确定所述目的地装置的视频解码器是否能够基于通过所述数据结构用信号传递的所述解码能力而解码对应于所述MVC操作点的视角;确定所述目的地装置是否能够基于通过所述数据结构用信号传递的所述呈现能力而呈现对应于所述MVC操作点的所述视角;以及在所述目的地装置的所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时,将对应于所述MVC操作点的所述视角发送到所述目的地装置的所述视频解码器。在另一实例中,一种设备包括输入接口,其经配置以接收对应于MPEG-2系统标准位流的MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述 MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值;视频解码器, 其经配置以解码视频数据;以及多路分用器,其经配置以确定所述视频解码器是否能够基于通过所述数据结构用信号传递的所述解码能力而解码对应于所述MVC操作点的视角,确定所述设备是否能够基于通过所述数据结构用信号传递的所述呈现能力而呈现对应于所述MVC操作点的所述视角,且在所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时,将对应于所述MVC操作点的所述视角发送到所述视频解码器。在另一实例中,一种设备包括用于接收对应于MPEG-2系统标准位流的MVC操作点的数据结构的装置,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值;用于确定所述设备的视频解码器是否能够基于通过所述数据结构用信号传递的所述解码能力而解码对应于所述MVC 操作点的视角的装置;用于确定所述设备是否能够基于通过所述数据结构用信号传递的所述呈现能力而呈现对应于所述MVC操作点的所述视角的装置;以及用于在所述设备的所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时将对应于所述MVC 操作点的所述视角发送到所述设备的所述视频解码器的装置。在另一实例中,一种计算机可读存储媒体包含指令,所述指令使目的地装置的处理器进行以下操作接收对应于MPEG-2系统标准位流的MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、 描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述 MVC操作点的位速率的位速率值;确定所述目的地装置的视频解码器是否能够基于通过所述数据结构用信号传递的所述解码能力而解码对应于所述MVC操作点的视角;确定所述目的地装置是否能够基于通过所述数据结构用信号传递的所述呈现能力而呈现对应于所述 MVC操作点的所述视角;以及在所述目的地装置的所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时,将对应于所述MVC操作点的所述视角发送到所述目的地装置的所述视频解码器。附图和下文描述中阐述一个或一个以上实例的细节。其它特征、目标和优点将从描述内容和图式以及从权利要求书而显而易见。


图1为说明其中音频/视频(A/V)源装置将音频和视频数据传送到A/V目的地装置的实例系统的框图。图2为说明符合本发明的多路复用器的组件的实例布置的框图。图3为说明符合本发明的节目特定信息表的实例集合的框图。图4-6为说明可包括于操作点描述符中的数据的集合的各种实例的概念图。图7为说明实例MVC预测图案的概念图。图8为说明用于使用用信号传递操作点的特性的数据结构的实例方法的流程图。
具体实施例方式本发明的技术大体来说针对增强MPEG_2(动画专家组)系统(即,就传送层细节来说符合MPEG-2的系统)中的多视角视频译码(MVC)。举例来说,MPEG-4提供用于视频编码的标准,但通常假定遵从MPEG-4标准的视频编码器将利用MPEG-2传送层系统。因此,本发明的技术适用于符合 MPEG-2、MPEG-4、ITU-T H. 263,ITU-T H. 264/MPEG-4 或利用 MPEG-2 传送流和/或节目流(program stream)(也拼写为“节目流(programme stream),,)的任何其它视频编码标准的视频编码器。特定来说,本发明的技术可修改用于MPEG-2传送流和节目流的传送层处的语法元素。举例来说,本发明的技术包括描述符,其在传送流中发射以描述操作点的特征。举例来说,服务器装置可在MPEG-2传送层位流中提供各种操作点,所述操作点中的每一者对应于多视角视频译码视频数据的特定视角的相应子集。即,操作点大体上对应于位流的视角的子集。在一些实例中,操作点的每一视角包括在相同帧速率下的视频数据。目的地装置可使用包括于位流中的操作点描述符来选择待解码的操作点中的一者并最终向用户呈现(例如,显示)。目的地装置可仅将选定操作点的视角发送到视频解码器,而非在接收后将关于所有视角的数据传递到视频解码器。以此方式,目的地装置可丢弃将不被解码的视角的数据。目的地装置可基于位流的操作点中具有所支持的最高质量的一者来选择操作点。服务器装置可在单一传送流或节目流中发送多个子位流(所述子位流中的每一者可对应于一操作点)。虽然在各个部分中本发明可个别地提及“传送流”或“节目流”,但应理解,本发明的技术大体来说适用于MPEG-2传送流和节目流中的任一者或两者。大体上,本发明描述使用描述符作为实例数据结构来执行本发明的技术。描述符用以扩展流的功能性。本发明的描述符可由传送流与节目流两者使用以实施本发明的技术。虽然本发明主要聚焦于可用以用信号传递操作点的呈现能力值、操作点的解码能力值和操作点的位速率值的作为实例数据结构的描述符,但应理解,还可使用其它数据结构来执行这些技术。根据本发明的技术,源装置20可构造描述操作点的特性的操作点描述符。所述特性可包括(例如)哪些视角包括于操作点中以及所述操作点的所述视角的帧速率。操作点描述符可指定应由视频解码器支持以便接收并解码操作点的呈现能力、应由视频解码器支持以便接收并解码操作点的解码能力,以及操作点的位速率。
本发明的技术可大体上将每一操作点表示为似乎所述操作点为通过传送流中的节目映射表或节目流中的节目流映射来用信号传递的其自身的节目。或者,当节目含有多个操作点时,本发明的技术提供关于所述操作点应如何在操作点描述符中重新汇编的信息。操作点描述符可进一步用信号传递操作点的相依性,这可节省位。图1为说明其中音频/视频(A/V)源装置20将音频和视频数据传送到A/V目的地装置40的实例系统10的框图。图1的系统10可对应于视频电传会议系统、服务器/客户端系统、广播装置/接收器系统,或将视频数据从源装置(例如,A/V源装置20)发送到目的地装置(例如,A/V目的地装置40)的任何其它系统。在一些实例中,A/V源装置20和 A/V目的地装置40可执行双向信息交换。即,A/V源装置20和A/V目的地装置40可能能够编码与解码(以及发射和接收)音频和视频数据。在一些实例中,音频编码器沈可包含语音编码器,也称为声码器。在图1的实例中,A/V源装置20包含音频源22和视频源对。音频源22可包含 (例如)麦克风,其产生表示待由音频编码器26编码的所俘获音频数据的电信号。或者,音频源22可包含存储先前记录的音频数据的存储媒体、例如计算机化合成器等音频数据产生器,或任何其它音频数据源。视频源M可包含产生待由视频编码器观编码的视频数据的视频相机、编码有先前记录的视频数据的存储媒体、视频数据产生单元或任何其它视频数据源。原始音频和视频数据可包含模拟或数字数据。模拟数据可在由音频编码器沈和 /或视频编码器观编码之前经数字化。音频源22可在发言参与者发言的同时从所述发言参与者获得音频数据,且视频源M可同时获得发言参与者的视频数据。在其它实例中,音频源22可包含包括所存储的音频数据的计算机可读存储媒体,且视频源M可包含包括所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描述的技术可应用于直播串流实时音频和视频数据或应用于归档的预先记录的音频和视频数据。对应于视频帧的音频帧通常为含有与由视频源M俘获的含于视频帧中的视频数据同时由音频源22俘获的音频数据的音频帧。举例来说,在发言参与者通常通过发言而产生音频数据的同时,音频源22俘获音频数据,且视频源M同时(即,在音频源22正俘获音频数据的同时)俘获发言参与者的视频数据。因此,音频帧可在时间上对应于一个或一个以上特定视频帧。因此,对应于视频帧的音频帧通常对应于其中音频数据和视频数据被同时俘获且音频帧和视频帧分别包含同时被俘获的音频数据和视频数据的情境。在一些实例中,音频编码器沈可在每一经编码音频帧中编码时间戳,所述时间戳表示记录经编码音频帧的音频数据的时间,且类似地,视频编码器观可在每一经编码视频帧中编码时间戳,所述时间戳表示记录经编码视频帧的视频数据的时间。在此类实例中,对应于视频帧的音频帧可包含包括时间戳的音频帧和包含相同时间戳的视频帧。A/V源装置 20可包括内部时钟,音频编码器沈和/或视频编码器观可从所述内部时钟产生时间戳, 或音频源22和视频源M可使用所述内部时钟来分别使音频数据和视频数据与时间戳相关联。在一些实例中,音频源22可对应于记录音频数据的时间而将数据发送到音频编码器沈,且视频源M可对应于记录视频数据的时间而将数据发送到视频编码器观。在一些实例中,音频编码器26可在经编码音频数据中编码序列识别符以指示经编码音频数据的相对时间定序,而无需指示记录音频数据的绝对时间,且类似地,视频编码器28也可使用序列识别符来指示经编码视频数据的相对时间定序。类似地,在一些实例中,序列识别符可与时间戳映射或以其它方式与所述时间戳相关。本发明的技术大体来说针对经编码多媒体(例如,音频和视频)数据的传送,以及所传送多媒体数据的接收和随后解译以及解码。本发明的技术尤其适用于多视角视频译码 (MVC)数据(即,包含多个视角的视频数据)的传送。如图1的实例中所示,视频源对可将场景的多个视角提供到视频编码器观。MVC对于产生将由三维显示器(例如,立体或自动立体三维显示器)使用的三维视频数据可为有用的。A/V源装置20可将“服务”提供到A/V目的地装置40。服务通常对应于MVC数据的可用视角的子集。举例来说,MVC数据可用于定序为零到七的八个视角。一个服务可对应于具有两个视角的立体视频,而另一服务可对应于四个视角,且又一服务可对应于全部八个视角。大体上,一服务对应于可用视角的任何组合(即,任何子集)。一服务还可对应于可用视角以及音频数据的组合。操作点可对应于服务,以使得A/V源装置20可向由A/V 源装置20提供的每一服务进一步提供操作点描述符。根据本发明的技术,A/V源装置20能够提供对应于视角的子集的服务。通常,视角由视角识别符(也称为“View_id”)表示。视角识别符通常包含可用以识别视角的语法元素。当编码视角时,MVC编码器提供所述视角的View_id。View_id可由MVC解码器使用以用于视角间预测或由其它单元使用以用于其它用途(例如,用于呈现)。视角间预测是一种用于参考在共同时间位置处的一个或一个以上帧将帧的MVC 视频数据译码为不同视角的经编码帧的技术。图7(下文较详细论述)提供用于视角间预测的实例译码方案。通常,在空间上、在时间上和/或参考在共同时间位置处的其它视角的帧来预测性地编码MVC视频数据的经编码帧。因此,参考视角(从其预测其它视角)通常在参考视角充当其参考的视角之前被解码,以使得这些经解码的视角可在解码参考视角时用于参考。解码次序无需对应于view_id的次序。因此,使用视角次序索引描述视角的解码次序。视角次序索引为指示接入单元中的相应视角分量的解码次序的索引。每一个别数据流(无论是音频还是视频)被称为基本流。基本流为节目的单一经数字译码(可能经压缩)的分量。举例来说,节目的经译码视频或音频部分可为基本流。 基本流可在经多路复用成节目流或传送流之前转换成包化基本流(PES)。在同一节目内, 流ID用以区分属于一个基本流的PES包与其它包。基本流的数据的基本单位为包化基本流(PEQ&。因而,MVC视频数据的每一视角对应于相应基本流。类似地,音频数据对应于一个或一个以上相应基本流。可MVC译码的视频序列分离成若干子位流,所述子位流中的每一者为基本流。可使用MVC view_id子集来识别每一子位流。基于每一 MVC view_id子集的概念,定义MVC 视频子位流。MVC视频子位流含有在MVC View_id子集中所列出的视角的NAL单元。节目流大体上仅含有来自基本流的NAL单元的NAL单元。还设计使得任何两个基本流不能含有相同视角。在图1的实例中,多路复用器30接收包含来自视频编码器观的视频数据的基本流和包含来自音频编码器沈的音频数据的基本流。在一些实例中,视频编码器观和音频编码器沈可各自包括用于由经编码数据形成PES包的包化器。在其它实例中,视频编码器28和音频编码器沈可各自与用于由经编码数据形成PES包的相应包化器介接。在另外其它实例中,多路复用器30可包括用于由经编码音频和视频数据形成PES包的包化器。如本发明中所使用,“节目,,可包含音频数据与视频数据(例如,由A/V源装置20 的服务传递的音频基本流与可用视角的子集)的组合。每一 PES包包括识别PES包所属的基本流的streamed。多路复用器30负责将基本流汇编成构成性节目流或传送流。节目流和传送流为以不同应用程序为目标的两个交替多路复用流。通常,节目流包括一个节目的数据,而传送流可包括一个或一个以上节目的数据。 多路复用器30可基于所提供的服务、流将传递到的媒体、待发送的节目的数目或其它考虑因素来编码节目流或传送流中的一者或两者。举例来说,当待于存储媒体中编码视频数据时,多路复用器30可能更可能形成节目流,而当待经由网络、广播来串流或作为视频电话的一部分而发送视频数据时,多路复用器30可能更可能使用传送流。多路复用器30可倾向于使用节目流来存储和显示来自数字存储服务的单一节目。节目流希望用于无错误环境或对遭遇错误较不敏感的环境,因为节目流对错误相当敏感。节目流仅包含属于其的基本流,且通常含有具有可变长度的包。在节目流中,从组成性基本流导出的PES包经组织成“封装(pack)”。封装包含封装标头、可选系统标头和以任何次序从组成性基本流中的任一者取得的任何数目的PES包。系统标头含有节目流的特性的概述,例如节目流的最大数据速率、组成性视频和音频基本流的数目、进一步的定时信息, 或其它信息。解码器可使用系统标头中含有的信息来确定解码器是否能够解码节目流。多路复用器30可使用传送流来用于在可能易出错的信道上同时传递多个节目。 传送流为针对多节目应用(例如,广播)而设计的多路复用流,使得单一传送流可容纳许多独立节目。传送流可包含一连串传送包,其中所述传送包中的每一者为188字节长。短的固定长度包的使用致使传送流与节目流相比较不容易出错。此外,可通过经由标准错误保护过程(例如,里德-所罗门(Reed-Solomon)编码)来处理包而向每一 188字节长的传送包给出额外错误保护。举例来说,传送流的改进的错误恢复意味着其具有较好机会存活于广播环境中发现的易出错信道中。可能看起来传送流由于其增加的错误恢复和同时载运许多节目的能力而比节目流好。然而,传送流为比节目流更复杂的多路复用流,且因此与节目流相比更难以建立且多路分用时更复杂。传送包的第一字节可为具有值0x47 (十六进制47,二进制“01000111”、 十进制71)的同步字节。单一传送流可载运许多不同节目,每一节目包含许多包化基本流。 多路复用器30可使用13位包识别符(PID)字段来区分含有一个基本流的数据的传送包与载运其它基本流的数据的传送包。多路复用器负责确保每一基本流被授予唯一 PID值。传送包的最末字节可为连续性计数字段。多路复用器30使属于同一基本流的连续传送包之间的连续性计数字段的值递增。此使得解码器或目的地装置(例如,A/V目的地装置40)的其它单元能够检测传送包的损失或增益且有希望消除原本可能从此事件产生的错误。多路复用器30从音频编码器沈和视频编码器观接收节目的基本流的PES包,且由PES包形成相应网络抽象层(NAL)单元。在HJ64/AVC(高级视频译码)的实例中,经译码的视频区段被组织成NAL单元,其提供“网络友好”视频表示寻址应用,例如视频电话、存储、广播或串流。NAL单元可经分类成视频译码层(VCL)NAL单元和非VCL NAL单元。VCL 单元含有核心压缩引擎且可包含块、宏块和/或片段级。其它NAL单元为非VCLNAL单元。
多路复用器30可形成包含识别NAL所属的节目的标头以及有效负载(例如,音频数据、视频数据或描述NAL单元所对应的传送流或节目流的数据)的NAL单元。举例来说, 在H. 264/AVC中,NAL单元包括1字节标头和具有变化的大小的有效负载。在一个实例中, NAL 单7Π标头包含 priority—id 711素、temporal—id 711素、anchor_pic_flag 711素、view—id 元素、non_idr_flag元素,和inter_view_flag元素。在常规MVC中,保留由H. 264定义的 NAL单元,前置NAL单元和MVC译码的片段NAL单元(其包括4字节MVC NAL单元标头和 NAL单元有效负载)除外。NAL标头的priority_id元素可用于简单单程位流调适过程。temporaljd元素可用于指定相应NAL单元的时间层,其中不同时间层对应于不同帧速率。anCh0r_piC_flag元素可指示图片为锚定图片还是非锚定图片。锚定图片和以输出次序(即,显示次序)继其之后的所有图片可在不以解码次序(即,位流次序)解码先前图片的情况下被正确地解码,且因而可用作随机接入点。锚定图片与非锚定图片可具有不同的相依性,两者均在序列参数集合中以信号通知。将在本章的以下部分中论述并使用其它旗标。此锚定图片也可称为开放GOP (图片群组)接入点,而在n0n_idr_flag元素等于零时也支持封闭GOP接入点。n0n_idr_flag元素指示图片为瞬时解码器再新(IDR)图片还是视角IDR(V-IDR)图片。通常,IDR图片和以输出次序或位流次序继其之后的所有图片可在不以解码次序或显示次序解码先前图片的情况下被正确地解码。View_id元素可包含可用以识别视角的语法信息,其可用于MVC解码器内部的数据交互(例如,用于视角间预测)和解码器外部的数据交互(例如,用于呈现)。inter, view_flag元素可指定相应NAL单元是否被其它视角用于视角间预测。为传达基本视角的 4字节NAL单元标头信息(其可符合AVC),在MVC中定义前置NAL单元。在MVC的情形下, 基本视角接入单元包括视角的当前时间例项的VCL NAL单元以及其前置NAL单元,所述前置NAL单元仅含有NAL单元标头。H. 264/AVC解码器可忽略前置NAL单元。有效负载中包括视频数据的NAL单元可包含各种粒度级的视频数据。举例来说, NAL单元可包含视频数据的块、宏块、多个宏块、视频数据的片段,或视频数据的整个帧。多路复用器30可从视频编码器观接收呈基本流的PES包的形式的经译码的视频数据。多路复用器30可通过将streamed映射到相应节目(例如,在数据库或其它数据结构(例如节目映射表(PMT)或节目流映射(PSM))中)而使每一基本流与相应节目相关联。多路复用器30还可由多个NAL单元汇编接入单元。通常,接入单元可包含一个或一个以上NAL单元,其用于表示视频数据的帧以及音频数据可用时对应于所述帧的此音频数据。接入单元大体上包括针对一个输出时间例项的所有NAL单元,例如,针对一个时间例项的所有音频和视频数据。举例来说,如果每一视角具有20个帧/秒(fps)的帧速率,那么每一时间例项可对应于0. 05秒的时间间隔。在此时间间隔期间,可同时呈现同一接入单元(同一时间例项)的所有视角的特定帧。在对应于H. ^4/AVC的实例中,接入单元可包含在一个时间例项中的经译码的图片,其可作为主译码图片呈现。因此,接入单元可包含共同时间例项中的所有音频和视频帧,例如,对应于时间X的所有视角。本发明还将特定视角的经编码图片称为“视角分量”。即,视角分量可包含特定视角在特定时间的经编码图片(或帧)。因此,接入单元可定义为包含共同时间例项的所有视角分量。接入单元的解码次序未必需要与输出或显示次序相同。
多路复用器30还可将关于节目的数据嵌入在NAL单元中。举例来说,多路复用器 30可建立包含节目映射表(PMT)或节目流映射(PSM)的NAL单元。通常,PMT用以描述传送流,而PSM用以描述节目流。如下文关于图2的实例较详细地描述,多路复用器30可包含使从音频编码器26和视频编码器W接收的基本流与节目且因此与相应传送流和/或节目流相关联的数据存储单元或与所述数据存储单元交互。与大多数视频译码标准一样,H. 264/AVC定义无错误位流的语法、语义和解码过程,其中的每一者符合特定简档或层。H. 264/AVC不指定编码器,但编码器的任务为保证对于解码器来说所产生的位流为符合标准的。在视频译码标准的情形下,“简档”对应于算法、特征或工具和施加到其的约束的子集。举例来说,如由H. 264标准所定义,“简档”为由 H. 264标准指定的整个位流语法的子集。“层”对应于解码器资源消耗的限制,例如,与图片的分辨率、位速率和宏块(MB)处理速率有关的解码器存储器和计算。举例来说,H. 264标准认识到,在由给定简档的语法强加的界限内,依据由位流中的语法元素所采用的值(例如,经解码的图片的指定大小),仍有可能需要编码器和解码器的性能的大变化。H. 264标准进一步认识到,在许多应用中,实施能够处理特定简档内的语法的所有假定用途的解码器既不实用也不经济。因此,H. 264标准将“层”定义为对位流中的语法元素的值所强加的约束的指定集合。这些约束可为对值的简单限制。或者,这些约束可采用对值的算术组合(例如,图片宽度乘以图片高度乘以每秒所解码的图片的数目) 的约束的形式。H. 264标准进一步规定,个别实施方案可支持每一所支持的简档的不同层。符合简档的解码器通常支持所述简档中所定义的所有特征。举例来说,作为译码特征,B图片译码在H. 264/AVC的基线简档中未被支持,但在H. 264/AVC的其它简档中得以支持。符合层的解码器应能够解码不需要超出所述层中所定义的限制的资源的任何位流。 简档和层的定义可帮助实现可解译性。举例来说,在视频发射期间,针对整个发射会话的一对简档和层定义可经协商并实现一致。更具体来说,在HJ64/AVC中,层可定义(例如)对以下各项的限制需要经处理的宏块的数目、经解码的图片缓冲器(DPB)大小、经译码的图片缓冲器(CPB)大小、垂直运动向量范围、每两个连续MB的运动向量的最大数目,以及B块是否可具有小于8X8像素的子宏块分割区。以此方式,解码器可确定所述解码器是否能够适当地解码位流。参数集合大体上含有序列参数集合(SPS)中的序列层标头信息和图片参数集合 (PPS)中的偶尔改变的图片层标头信息。就参数集合来说,每一序列或图片的此偶尔改变的信息无需重复;因此,译码效率可改进。此外,参数集合的使用可致使能够带外发射标头信息,从而避免需要冗余发射来实现错误复原。在带外发射中,将参数集合NAL单元在与其它 NAL单元不同的信道上发射。MPEG-2系统标准借助“描述符”允许系统的扩展。PMT与PSM两者均包括描述符循环,一个或一个以上描述符可插入于描述符循环中。大体来说,描述符可包含可用以扩展节目和/或节目元素的定义的数据结构。本发明描述用于执行本发明的技术的操作点描述符。大体来说,本发明的操作点描述符通过描述操作点的呈现能力、解码能力和位速率来增强常规MVC扩展描述符。目的地装置(例如,A/V目的地装置40)可使用每一操作点的操作点描述符来选择待解码的位流的操作点中的一者。每一 PMT或PSM可包括描述操作点的特性的操作点描述符。举例来说,源装置20可提供操作点描述符以提供描述客户端装置40的呈现能力的呈现能力值。为了使客户端装置40适当呈现(例如,显示)操作点的视频数据,客户端装置40应满足呈现能力值用信号传递的呈现能力。呈现能力值可描述(例如)待显示的视角的数目(例如,以呈现为目标的视角的数目)和/或视角的视频数据的帧速率。因此,客户端装置40可确定,当客户端装置40的视频输出44能够在操作点描述符所指定的帧速率下显示操作点的视角的数目时,呈现能力得以满足。在其中源装置20使用多播或广播协议发射MVC位流的实例中,源装置20可将整个MVC位流包化成若干传送流,其可由具有各种呈现能力的客户端装置接收。举例来说,一些三维节目可具有不同数目个视角(例如,两个视角、四个视角、六个视角或八个视角),且各种装置可能能够使用一对视角与四对视角之间的任何地方。因此,每一客户端装置可基于可由客户端装置显示的视角的所支持数目而确定将使用哪一操作点。举例来说,客户端装置40可通过确定可由视频输出44显示的视角的数目和视频输出44能够显示视频数据的帧速率且确定基于视频输出44的呈现能力应使用操作点中的哪一者来确定将使用所述操作点中的哪一者。在源装置使用单播协议发射MVC位流的实例中,客户端装置40可通过检查在对应操作点描述符中所指定的呈现能力而建立对应于具有可接受数目个视角的节目的会话。类似地,在MVC位流经编码于计算机可读存储媒体中以供本地重放的实例中,客户端装置40 可通过检查PMT或PSM的操作点描述符中所指定的呈现能力而选择合适的节目。源装置20还可在操作点描述符中提供解码能力值。待解码的视角的数目可能未必与待显示的视角的数目相同。因此,操作点描述符可分别用信号传递操作点的待显示的视角的数目和操作点的待解码的视角的数目。此外,操作点描述符可特定识别对应于操作点的视角。特定客户端装置可(例如)基于检视角度而(针对各种目的)偏好于特定视角。 因此,客户端装置40可经配置以基于哪些视角可用于操作点中而选择操作点。在一些实例中,在操作点中用信号传递的解码能力可另外或替代地指定所述操作点所对应的简档和层。在源装置20使用多播或广播协议发射位流的实例中,具有不同解码能力的各种客户端装置可接收所述位流。举例来说,一些解码器可能仅能够在30fps下解码两个视角,而一些解码器可能够在60fps下解码四个视角。在源装置20使用单播协议发射位流的实例中,客户端装置40可在检查PMT中的描述符中所指定的解码能力之后建立合适的会话(针对特定三维节目)。类似地,针对本地重放,客户端装置40可通过检查PMT或 PSM的操作点描述符中所指定的解码能力而选择合适的节目。源装置20可另外在操作点描述符中用信号传递位速率信息。位速率信息可描述操作点的平均位速率和/或最大位速率中的任一者或两者。举例来说,当源装置20使用单播协议发射位流时,可在带宽方面限制用以发射所述位流的信道。因此,客户端装置40可选择具有通信信道的可容许最大或平均位速率的操作点。在一些实例中,源装置20可进一步在操作点描述符中指定操作点的帧速率。操作点的特定视角可具有与操作点的帧速率不匹配的帧速率。因此,客户端装置40可确定操作点的帧速率和此视角的帧速率以简化为实现显示视频数据的目的而重新汇编经解码的视频数据的过程。在各种实例中,当两个操作点的帧速率不匹配时,客户端装置40可丢弃来自具有较高帧速率的操作点的视角的帧或内插来自具有较低帧速率的操作点的视角的帧。
通常,基本、流包括旗标"no_sei_nal_unit_present,,禾口 "no_prefix_nal_unit_ present”,其分别描述所述基本流是否包括SEI消息和前置NAL单元。本发明提议客户端装置(例如,客户端装置40)推断SEI消息和/或前置NAL单元是否存在于操作点内,而非明确地用信号传递操作点的这些值。为了确定SEI消息是否存在于操作点中,客户端装置 40可确定所述操作点的基本流的n0_sei_nal_unit_present值的最大值是否等于一。类似地,为了确定前置NAL单元是否存在于操作点中,客户端装置40可确定所述操作点的基本流的no_prefix_nal_unit_present值的最大值是否等于一。上文所论述的实例已聚焦于针对MVC位流的每一操作点所包括的操作点描述符。 作为一替代方案,源装置20可提供用信号传递类似数据的MVC扩展描述符。举例来说,源装置20可使一个以上MVC扩展描述符与对应于基本流的MVC视频子位流相关联。源装置 20可在子位流的MVC扩展描述符中指定待显示的视角的帧速率、view_id子集以及待解码的视角的数目。源装置20可进一步用信号传递MVC扩展描述符与对应操作点之间的映射。例如ITU-T H. 26UH. 262,H. 263.MPEG-UMPEG-2 和 H. 264/MPEG-4 第 10 部分等视频压缩标准利用运动补偿时间预测来减少时间冗余。编码器使用根据一些先前编码的图片 (本文中也称为帧)的运动补偿预测来根据运动向量预测当前译码的图片。典型的视频译码中存在三种主要图片类型。其为帧内译码图片(“I图片”或“I帧”)、预测的图片(“P 图片”或“P帧”)和双向预测图片(“B图片”或“B帧”)。P图片按时间次序仅使用在当前图片之前的参考图片。在B图片中,B图片的每一块可从一个或两个参考图片而加以预测。 这些参考图片可按时间次序位于当前图片之前或之后。根据H. 264译码标准,作为一实例,B图片使用先前译码的参考图片的两个列表 (列表0和列表1)。这两个列表可各自含有按时间次序的过去和/或未来的译码图片。B 图片中的块可以以下若干方式中的一者来预测根据列表0参考图片的运动补偿预测、根据列表1参考图片的运动补偿预测或根据列表0与列表1参考图片两者的组合的运动补偿预测。为得到列表0与列表1参考图片两者的组合,分别从列表0和列表1参考图片获得两个运动补偿参考区域。其组合将用以预测当前块。ITU-T H. 264标准支持各种块大小(例如用于明度分量的16乘16、8乘8或4乘 4和用于色度分量的8X8)的帧内预测,以及各种块大小(例如用于明度分量的16X16、 16X8、8X16、8X8、8X4、4X8和4X4以及用于色度分量的相应按比例调整的大小)的帧间预测。在本发明中,“ X ”与“乘”可互换地使用以指代根据垂直尺寸和水平尺寸的块的像素尺寸,例如16 X 16像素或16乘16像素。通常,16 X 16块将具有垂直方向上的16个像素 (y = 16)和水平方向上的16个像素(χ = 16)。同样,NXN块通常具有垂直方向中的N个像素和水平方向中的N个像素,其中N表示非负整数值。块中的像素可布置成行和列。小于16乘16的块大小可称为16乘16宏块的分割。视频块可包含在像素域中的像素数据的块,或在变换域中的变换系数的块(例如,在将例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换等变换应用于表示经译码视频块与预测性视频块之间的像素差的残余视频块数据之后)。在一些状况下,视频块可包含变换域中的量化变换系数的块。较小视频块可提供较好分辨率,且可用于定位包括高阶细节的视频帧。通常,可将宏块和各种分割(有时称为子块)认为是视频块。另外,片段可被认为是多个视频块,例如宏块和/或子块。每一片段可为视频帧的可独立解码单元。或者,帧自身可为可解码单元, 或帧的其它部分可经定义为可解码单元。术语“经译码单元”或“译码单元”可指代视频帧的任何可独立解码单元,例如整个帧、帧的片段、也称为序列的图片群组(GOP)或根据可适用译码技术定义的另一可独立解码单元。术语宏块指代用于根据包含16X 16像素的二维像素阵列编码图片和/或视频数据的数据结构。每一像素包含色度分量和照度分量。因此,宏块可界定四个照度块(每一照度块包含8X8像素的二维阵列)、两个色度块(每一色度块包含16X 16像素的二维阵列) 和包含语法信息(例如经译码块型样(CBP)、编码模式(例如,帧内(I)或帧间(P或B)编码模式)、帧内编码块的分割的分割大小(例如,16X16、16X8、8X16、8X8、8X4、4X8或 4X4),或帧间编码的宏块的一个或一个以上运动向量)的标头。视频编码器观、视频解码器48、音频编码器沈、音频解码器46、多路复用器30和多路分用器38各自可实施为多种合适的编码器或解码器电路中的任一者(如果适用),例如,一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件,或其任何组合。视频编码器观和视频解码器48中的每一者可包括于一个或一个以上编码器或解码器中,所述一个或一个以上编码器或解码器中的任一者可集成为组合的视频编码器/解码器(CODEC)的一部分。同样,音频编码器26和音频解码器46中的每一者可包括于一个或一个以上编码器或解码器中,所述一个或一个以上编码器或解码器中的任一者可集成为组合的CODEC的一部分。包括视频编码器观、视频解码器48、音频编码器沈、音频解码器46、多路复用器30和/或多路分用器38的设备可包含集成电路、微处理器和/或无线通信装置(例如蜂窝式电话)。本发明的技术可提供某些优于用于MVC子位流的常规技术的优点,常规技术不能实现用信号传递操作点的特性。每一子位流可包括对应位流的一个或一个以上视角。在一些状况下,操作点可对应于不同位流的视角。本发明的技术提供识别对应操作点的视角的操作点描述符。在多路复用器30已从所接收的数据组合NAL单元和/或接入单元后,多路复用器 30将所述单元传递到输出接口 32以用于输出。输出接口 32可包含(例如)发射器、收发器、用于将数据写入到计算机可读媒体的装置,例如,光学驱动器、磁性媒体驱动器(例如, 软盘驱动器)、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口 32将NAL单元或接入单元输出到计算机可读媒体;34,例如,发射信号、磁性媒体、光学媒体、存储器、快闪驱动器或其它计算机可读媒体。最后,输入接口 36从计算机可读媒体34检索数据。输入接口 36可包含(例如) 光学驱动器、磁性媒体驱动器、USB端口、接收器、收发器或其它计算机可读媒体接口。输入接口 36可将NAL单元或接入单元提供到多路分用器38。多路分用器38可将传送流或节目流多路分用成构成性PES流,将PES流解包化以检索经编码的数据,并视经编码的数据为音频流的一部分还是视频流的一部分(例如,如流的PES包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46解码经编码的音频数据且将经解码的音频数据发送到音频输出42,而视频解码器48解码经编码的视频数据且将经解码的视频数据(其可包括流的多个视角)发送到视频输出44。视频输出44可包含使用场景的多个视角的显示器,例如,同时呈现场景的每一视角的立体或自动立体显示器。
特定来说,多路分用器38可选择所接收的位流的操作点。举例来说,多路分用器 38可比较所述位流的操作点的特性以选择待由A/V目的地装置40使用的适当操作点。大体来说,多路分用器38可试图选择所述操作点中的将向用户提供最高质量检视体验的可由视频解码器48解码的操作点。举例来说,多路分用器38可将视频解码器48的呈现能力和解码能力与位流的操作点描述符用信号传递的所建议呈现能力和解码能力进行比较。在多路分用器38确定可由视频解码器48适当解码的操作点中,多路分用器38可选择将提供最高质量视频数据(例如,最高帧速率和/或位速率)的操作点。在其它实例中,多路分用器38可基于其它考虑(例如,电力消耗)来选择所支持的操作点中的一者。图2为说明多路复用器30 (图1)的组件的实例布置的框图。在图2的实例中,多路复用器30包括流管理单元60、视频输入接口 80、音频输入接口 82、多路复用流输出接口 84和节目特定信息表88。流管理单元60包括NAL单元构造器62、PMT构造器64、流识别符(流ID)查找单元66和节目识别符(PID)指派单元68。在图2的实例中,视频输入接口 80和音频输入接口 82包括用于用经编码的视频数据和经编码的音频数据形成PES单元的相应包化器。在其它实例中,视频包化器和/或音频包化器可包括于多路复用器30外部的单元或模块中。关于图2的实例,视频输入接口 80可用从视频编码器观所接收的经编码的视频数据形成PES包,且音频输入接口 82可用从音频编码器26所接收的经编码的音频数据形成PES包。流管理单元60从视频输入接口 80和音频输入接口 82接收PES包。每一 PES包包括识别PES包所属的基本流的流ID。流ID查找单元66可通过查询节目特定信息表88而确定PES包所对应的节目。S卩,流ID查找单元66可确定所接收的PES包对应于哪一节目。 每一节目可包含多个基本流,而通常,一个基本流对应于仅一个节目。然而,在一些实例中, 基本流可包括于多个节目中。每一 PES包可包括于从多路复用器30输出的多个流中,因为各种服务可能各自包括可用音频和视频流的各种子集。因此,流ID查找单元66可确定PES 包是否应包括于一个或一个以上输出流(例如,一个或一个以上传送流或节目流)中,且特定来说确定在哪一输出流中包括所述PES包。在一个实例中,每一基本流对应于一节目。多路复用器30可负责确保每一基本流与特定节目(且因此,与节目ID(PID))相关联。当接收到包括多路复用器30不可辨识的流ID (例如,未存储于节目特定信息表88中的流ID)的PES包时,PID指派单元68在节目特定信息表88中建立一个或一个以上新条目以使新流ID与未使用的PID相关联。在确定PES包对应的节目后,NAL单元构造器62 (例如)通过封装具有NAL单元标头(包括PES包的流ID对应的节目的PID)的PES包而形成包含PES包的NAL单元。在一些实例中,NAL单元构造器62或流管理单元60的另一子单元可形成包含多个NAL单元的接入单元。PMT构造器64使用来自节目特定信息表88的信息而针对多路复用器30的相应输出流建立节目映射表(PMT)。在另一实例中,流管理单元60可包含用于针对由多路复用器30输出的节目流建立节目流映射的PSM构造器。在一些实例中,多路复用器30可包含 PMT构造器64与PSM构造器两者,且输出传送流和节目流中的任一者或两者。在图2的实例中,PMT构造器64可构造包括由本发明描述的新描述符(例如,操作点描述符)以及任何其它必要描述符的PMT和所述PMT的PMT数据。PMT构造器64可周期性地(例如,在某一时间周期后或在已发射某一数据量后)发送用于传送流的随后PMT。PMT构造器64可将所建立的PMT传递到NAL单元构造器62以用于(例如)通过封装具有相应NAL单元标头 (包括相应PID)的PMT而形成包含PMT的NAL单元。PMT构造器64可建立节目的每一操作点的数据结构(例如,操作点描述符)。由 PMT构造器64建立的数据结构可用信号传递以下各者描述接收装置使用所述操作点待满足的呈现能力的呈现能力值、描述接收装置使用所述操作点待满足的解码能力的解码能力值,以及描述所述操作点的位速率的位速率值。举例来说,PMT构造器64可基于由节目特定信息表88存储的信息或经由视频输入接口 80从视频编码器观接收的信息来确定操作点的待显示的视角的数目和操作点的视角的帧速率。PMT构造器64可使用数据结构的呈现能力值用信号传递操作点的视角的数目和操作点的视角的帧速率中的任一者或两者。PMT构造器64还可确定操作点的待解码的视角的数目和操作点的视角所对应的简档的层级值。举例来说,PMT构造器64可确定需要经处理的宏块的数目、经解码的图片缓冲器大小、经译码的图片缓冲器大小、垂直运动向量范围、每两个连续宏块的运动向量的最大数目,和/或B块是否可具有小于8 X 8像素的子宏块分割区,且使用这些确定来确定操作点的层。PMT构造器64可经由视频输入接口 80从视频编码器观接收此信息。PMT构造器64可接着使用操作点的解码能力值表示待解码的视角的数目和/或简档的层级值。PMT构造器64可进一步确定操作点的位速率值且将所述位速率值编码于数据结构中。位速率值可对应于操作点的平均位速率或最大位速率。PMT构造器64可计算操作点的位速率或从视频编码器观接收位速率的指示。多路复用流输出接口 84可从流管理单元60接收一个或一个以上NAL单元和/或接入单元,例如,包含PES包(例如,音频或视频数据)的NAL单元和/或包含PMT的NAL单元。在一些实例中,多路复用流输出接口 84可在从流管理单元60接收到NAL单元后由对应于共同时间位置的一个或一个以上NAL单元形成接入单元。多路复用流输出接口 84将 NAL单元或接入单元作为相应传送流或节目流中的输出而发射。多路复用流输出接口 84还可从PMT构造器64接收数据结构且包括所述数据结构作为位流的一部分。图3为说明节目特定信息表88的实例集合的框图。可基于传送包的PID值来确定所述传送包所属的基本流。为了使解码器正确地解码所接收数据,解码器需要能够确定哪些基本流属于每一节目。如包括于节目特定信息表88中的节目特定信息可明确地指定节目与组成性基本流(component elementary stream)之间的关系。在图3的实例中,节目特定信息表88包括网络信息表100、条件接入表102、节目接入表104和节目映射表106。 对于图3的实例,假定输出流包含MPEG-2传送流。在替代实例中,输出流可包含节目流,在所述状况下,节目映射表106可以节目流映射来替代。MPEG-2系统规范指定传送流中所载运的每一节目具有与其相关联的节目映射表 (例如,节目映射表106)。节目映射表106可包括关于节目和节目包括的基本流的细节。作为一个实例,节目(识别为节目编号幻可含有具有PID 33的视频基本流、具有PID57的英语音频流和具有PID 60的中文音频流。准许PMT包括一个以上节目。由MPEG-2系统规范所指定的基本节目映射表可以MPEG-2系统规范中所指定的许多描述符中的一些(例如,描述符108)来修饰。描述符108可包括MPEG-2系统规范所指定的描述符中的任一者或全部。通常,描述符(例如,描述符108)传达关于节目或其组成性基本流或子位流的更多信息。描述符可包括视频编码参数、音频编码参数、语言识别、摇摄和扫描信息、条件接入细节、版权信息或其它此类信息。广播员或其它用户可定义额外私用描述符。本发明提供一种用以描述符合MPEG-2系统的位流中的操作点的特性的操作点描述符。描述符108可包括对应位流的每一操作点的操作点描述符。如图3中所展示,描述符 108包括MVC扩展描述符110、分级结构描述符112和操作点描述符114。操作点描述符114 中的每一者可对应于位流的特定操作点,且用信号传递关于所述操作点的以下各者描述接收装置使用所述操作点待满足的呈现能力的呈现能力值、描述接收装置使用所述操作点待满足的解码能力的解码能力值,以及描述操作点的位速率的位速率值。在视频相关的组成性基本流中,也存在分级结构描述符,其提供信息以识别含有经分级结构式译码的视频、 音频和私用流的分量的节目元素。下表1提供包括于MVC扩展描述符110中的数据的一个实例。表1中所展示的各种字段和所述字段的位深度仅为一个实例。在一个实例中,每一 MVC视频子位流与MVC扩展描述符110中的一对应者相关联,所述相应MVC扩展描述符指定对应MVC视频子位流的特性。MVC视频子位流可需要汇编其它MVC视频子位流。即,为了解码并呈现特定子位流, 客户端装置可需要从包括两个子位流的共同位流的其它子位流提取并解码视频数据。表I-MVC扩展描述符
权利要求
1.一种方法,其包含通过源装置构造对应于MPEG-2 (动画专家组)系统标准位流的多视角视频译码MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值,且其中所述数据结构被作为所述位流的一部分而包括在内;以及输出包含所述数据结构的所述位流。
2.根据权利要求1所述的方法,其中构造所述数据结构包含构造所述数据结构以使得一个或一个以上二维显示装置和三维显示装置使所述位流适合于所述一个或一个以上二维显示装置和三维显示装置且使各种带宽的传送媒体适应所述一个或一个以上二维显示装置和三维显示装置。
3.根据权利要求1所述的方法,其中所述呈现能力值至少描述所述对应MVC操作点的以呈现为目标的视角的数目、所述对应MVC操作点的视频数据的帧速率和所述对应MVC操作点的时间识别符值。
4.根据权利要求1所述的方法,其中所述解码能力值至少描述所述对应MVC操作点的待解码的视角的数目、对应于所述MVC操作点的层级值和对应于所述MVC操作点的简档值。
5.根据权利要求1所述的方法,其中所述位速率值描述所述对应MVC操作点的平均位速率和所述对应MVC操作点的最大位速率中的一者。
6.根据权利要求1所述的方法,其中构造所述数据结构包含节目映射表数据结构中的操作点描述符,且其中所述位流包含MPEG-2传送流。
7.根据权利要求1所述的方法,其中构造所述数据结构包含节目流映射数据结构中的操作点描述符,且其中所述位流包含MPEG-2节目流。
8.根据权利要求1所述的方法,其中所述数据结构包含操作点描述符,且其中构造所述数据结构包含将帧速率值包括于所述操作点描述符中,所述帧速率值描述包括于所述MVC操作点的所述视角中的视频数据的最大帧速率;将所述MVC操作点的以呈现为目标的视角的视角识别符值包括于所述操作点描述符中,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;将所述MVC操作点的待解码的视角的视角识别符值包括于所述操作点描述符中,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及将时间识别符值包括于所述操作点描述符中,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
9.根据权利要求1所述的方法,其进一步包含构造包括于所述位流中的每一操作点的操作点描述符,其中输出所述数据结构包含输出所述经构造的操作点描述符中的每一者。
10.一种设备,其包含多路复用器,其构造对应于MPEG-2(动画专家组)系统标准位流的多视角视频译码 MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值、以及描述所述MVC操作点的位速率的位速率值;且将所述数据结构作为所述位流的一部分而包括在内;以及输出接口,其输出包含所述数据结构的所述位流。
11.根据权利要求10所述的设备,其中所述呈现能力值至少描述所述对应MVC操作点的以呈现为目标的视角的数目、所述对应MVC操作点的视频数据的帧速率和所述对应MVC 操作点的时间识别符值。
12.根据权利要求10所述的设备,其中所述解码能力值至少描述所述对应MVC操作点的待解码的视角的数目、对应于所述MVC操作点的层级值和对应于所述MVC操作点的简档值。
13.根据权利要求10所述的设备,其中所述位速率值描述所述对应MVC操作点的平均位速率和所述对应MVC操作点的最大位速率中的一者。
14.根据权利要求10所述的设备,其中所述多路复用器将所述数据结构构造为节目映射表数据结构中的操作点描述符,且其中所述位流包含MPEG-2传送流。
15.根据权利要求10所述的设备,其中所述多路复用器将所述数据结构构造为节目流映射数据结构中的操作点描述符,且其中所述位流包含MPEG-2节目流。
16.根据权利要求10所述的设备,其中所述多路复用器将所述数据结构构造为操作点描述符,其中所述MVC操作点对应于所述位流的视角的子集,且其中为了构造所述数据结构,所述多路复用器进行以下操作将帧速率值包括于所述操作点描述符中,所述帧速率值描述包括于所述MVC操作点的所述视角中的视频数据的最大帧速率;将所述MVC操作点的以呈现为目标的视角的视角识别符值包括于所述操作点描述符中,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;将所述MVC操作点的待解码的视角的视角识别符值包括于所述操作点描述符中,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及将时间识别符值包括于所述操作点描述符中,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
17.根据权利要求10所述的设备,其中所述多路复用器进一步经配置以构造包括于所述位流中的每一操作点的操作点描述符,其中输出所述数据结构包含输出所述经构造的操作点描述符中的每一者。
18.根据权利要求10所述的设备,其中所述设备包含以下各项中的至少一者集成电路;微处理器,以及包括所述多路复用器的无线通信装置。
19.一种设备,其包含用于构造对应于MPEG-2 (动画专家组)系统标准位流的多视角视频译码MVC操作点的数据结构的装置,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值,且其中所述数据结构被作为所述位流的一部分而包括在内;以及用于输出包含所述数据结构的所述位流的装置。
20.根据权利要求19所述的设备,其中所述呈现能力值至少描述所述对应MVC操作点的以呈现为目标的视角的数目、所述对应MVC操作点的视频数据的帧速率和所述对应MVC操作点的时间识别符值。
21.根据权利要求19所述的设备,其中所述解码能力值至少描述所述对应MVC操作点的待解码的视角的数目、对应于所述MVC操作点的层级值和对应于所述MVC操作点的简档值。
22.根据权利要求19所述的设备,其中所述位速率值描述所述对应MVC操作点的平均位速率和所述对应MVC操作点的最大位速率中的一者。
23.根据权利要求19所述的设备,其中所述数据结构包含操作点描述符,且其中所述用于构造所述数据结构的装置包含用于将帧速率值包括于所述操作点描述符中的装置,所述帧速率值描述包括于所述 MVC操作点的所述视角中的视频数据的最大帧速率;用于将所述MVC操作点的以呈现为目标的视角的视角识别符值包括于所述操作点描述符中的装置,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;用于将所述MVC操作点的待解码的视角的视角识别符值包括于所述操作点描述符中的装置,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及用于将时间识别符值包括于所述操作点描述符中的装置,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
24.一种包含指令的计算机可读存储媒体,所述指令在执行时使源装置的处理器进行以下操作构造对应于MPEG-2 (动画专家组)系统标准位流的多视角视频译码MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的一解码能力值,以及描述所述MVC操作点的位速率的位速率值,且其中所述数据结构经包括作为所述位流的一部分;以及使输出接口输出包含所述数据结构的所述位流。
25.根据权利要求M所述的计算机可读存储媒体,其中所述呈现能力值至少描述所述对应MVC操作点的以呈现为目标的视角的数目、所述对应MVC操作点的视频数据的帧速率和所述对应MVC操作点的时间识别符值。
26.根据权利要求M所述的计算机可读存储媒体,其中所述解码能力值至少描述所述对应MVC操作点的待解码的视角的数目、对应于所述MVC操作点的层级值和对应于所述MVC 操作点的简档值。
27.根据权利要求M所述的计算机可读存储媒体,其中所述位速率值描述所述对应 MVC操作点的平均位速率和所述对应MVC操作点的最大位速率中的一者。
28.根据权利要求M所述的计算机可读存储媒体,其中所述数据结构包含操作点描述符,且其中使所述处理器构造所述数据结构的所述指令包含使所述处理器进行以下操作的指令将帧速率值包括于所述操作点描述符中,所述帧速率值描述包括于所述MVC操作点的所述视角中的视频数据的最大帧速率;将所述MVC操作点的以呈现为目标的视角的视角识别符值包括于所述操作点描述符中,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;将所述MVC操作点的待解码的视角的视角识别符值包括于所述操作点描述符中,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及将时间识别符值包括于所述操作点描述符中,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
29.一种方法,其包含通过目的地装置接收对应于MPEG-2 (动画专家组)系统标准位流的多视角视频译码 MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值;确定所述目的地装置的视频解码器是否能够基于所述数据结构用信号传递的所述解码能力而解码对应于所述MVC操作点的视角;确定所述目的地装置是否能够基于所述数据结构用信号传递的所述呈现能力而呈现对应于所述MVC操作点的所述视角;以及在所述目的地装置的所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时,将对应于所述MVC操作点的所述视角发送到所述目的地装置的所述视频解码器。
30.根据权利要求四所述的方法,其中所述数据结构包含操作点描述符,且其中所述操作点描述符包含帧速率值,所述帧速率值描述包括于所述MVC操作点的所述视角中的视频数据的最大帧速率;所述MVC操作点的以呈现为目标的视角的视角识别符值,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;所述MVC操作点的待解码的视角的视角识别符值,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及时间识别符值,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
31.根据权利要求30所述的方法,其中确定所述视频解码器是否能够解码所述视角包含确定所述视频解码器是否能够在所述帧速率值所指示的所述帧速率下解码等效于视角解码数目值的数目的视角。
32.根据权利要求30所述的方法,其进一步包含 接收包括于所述位流中的每一操作点的操作点描述符;基于所述对应操作点描述符选择操作点,其中选择包含确定所述视频解码器能够解码并呈现对应于所述选定操作点的视角;以及将对应于所述选定操作点的所述视角发送到所述视频解码器。
33.根据权利要求四所述的方法,其中通过描述可由所述目的地装置呈现的视角的最大数目的最大视角呈现值和描述可由所述目的地装置显示的视频数据的最大帧速率的最大帧速率值来配置所述目的地装置,其中确定所述目的地装置是否能够呈现对应于所述 MVC操作点的所述视角包含将对应于所述MVC操作点的视角的数目与所述最大视角呈现值进行比较;以及将对应于所述MVC操作点的所述视角的帧速率与所述最大帧速率值进行比较, 其中将对应于所述MVC操作点的所述视角发送到所述视频解码器包含在对应于所述MVC操作点的视角的所述数目小于或等于所述最大视角呈现值时且在对应于所述MVC操作点的所述视角的所述帧速率小于或等于所述最大帧速率值时,将对应于所述MVC操作点的所述视角发送到所述视频解码器。
34.根据权利要求33所述的方法,其中所述最大视角呈现值与所述最大帧速率值成反比。
35.一种设备,其包含输入接口,其经配置以接收对应于MPEG-2 (动画专家组)系统标准位流的多视角视频译码MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值;视频解码器,其经配置以解码视频数据;以及多路分用器,其经配置以确定所述视频解码器是否能够基于所述数据结构用信号传递的所述解码能力而解码对应于所述MVC操作点的视角,确定所述设备是否能够基于所述数据结构用信号传递的所述呈现能力而呈现对应于所述MVC操作点的所述视角,且在所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时将对应于所述MVC操作点的所述视角发送到所述视频解码器。
36.根据权利要求35所述的设备,其中所述数据结构包含操作点描述符,且其中所述操作点描述符包含帧速率值,所述帧速率值描述包括于所述MVC操作点的所述视角中的视频数据的最大帧速率;所述MVC操作点的以呈现为目标的视角的视角识别符值,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;所述MVC操作点的待解码的视角的视角识别符值,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及时间识别符值,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
37.根据权利要求36所述的设备,其中为了确定所述视频解码器是否能够解码所述视角,所述多路分用器经配置以确定所述视频解码器是否能够在所述帧速率值所指示的所述帧速率下解码等效于视角解码数目值的数目的视角。
38.根据权利要求36所述的设备,其中所述多路分用器经配置以接收包括于所述位流中的每一操作点的操作点描述符;基于所述对应操作点描述符选择操作点,其中为了选择所述MVC操作点,所述多路分用器经配置以确定所述视频解码器能够解码并呈现对应于所述选定操作点的视角;且将对应于所述选定操作点的所述视角发送到所述视频解码器。
39.根据权利要求35所述的设备,其进一步包含计算机可读存储媒体,所述计算机可读存储媒体经配置以存储描述可由目的地装置呈现的视角的最大数目的最大视角呈现值和描述可由所述目的地装置显示的视频数据的最大帧速率的最大帧速率值,其中为了确定所述设备是否能够呈现对应于所述MVC操作点的所述视角,所述多路分用器经配置以将对应于所述MVC操作点的视角的数目与所述最大视角呈现值进行比较,且将对应于所述MVC操作点的所述视角的帧速率与所述最大帧速率值进行比较,且其中所述多路分用器经配置以在对应于所述MVC操作点的视角的所述数目小于或等于所述最大视角呈现值时且在对应于所述MVC操作点的所述视角的所述帧速率小于或等于所述最大帧速率值时,将对应于所述MVC操作点的所述视角发送到所述视频解码器。
40.根据权利要求39所述的设备,其中所述最大视角呈现值与所述最大帧速率值成反比。
41.根据权利要求35所述的设备,其中所述设备包含以下各项中的至少一者 集成电路;微处理器,以及包括所述多路分用器的无线通信装置。
42.一种设备,其包含用于接收对应于MPEG-2 (动画专家组)系统标准位流的多视角视频译码MVC操作点的数据结构的装置,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值,以及描述所述MVC操作点的位速率的位速率值;用于确定所述设备的视频解码器是否能够基于所述数据结构用信号传递的所述解码能力而解码对应于所述MVC操作点的视角的装置;用于确定所述设备是否能够基于所述数据结构用信号传递的所述呈现能力而呈现对应于所述MVC操作点的所述视角的装置;以及用于在所述设备的所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时将对应于所述MVC操作点的所述视角发送到所述设备的所述视频解码器的装置。
43.根据权利要求42所述的设备,其中所述数据结构包含操作点描述符,且其中所述操作点描述符包含帧速率值,所述帧速率值描述包括于所述MVC操作点的所述视角中的视频数据的最大帧速率;所述MVC操作点的以呈现为目标的视角的视角识别符值,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;所述MVC操作点的待解码的视角的视角识别符值,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及时间识别符值,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
44.根据权利要求43所述的设备,其中所述用于确定所述视频解码器是否能够解码所述视角的装置包含用于确定所述视频解码器是否能够在所述帧速率值所指示的所述帧速率下解码等效于视角的解码数目值的数目的视角的装置。
45.根据权利要求43所述的设备,其进一步包含用于接收包括于所述位流中的每一操作点的操作点描述符的装置; 用于基于所述对应操作点描述符选择操作点的装置,其中选择包含确定所述视频解码器能够解码并呈现对应于所述选定操作点的视角;以及用于将对应于所述选定操作点的所述视角发送到所述视频解码器的装置。
46.根据权利要求42所述的设备,其进一步包含用于存储描述可由目的地装置呈现的视角的最大数目的最大视角呈现值和描述可由所述目的地装置显示的视频数据的最大帧速率的最大帧速率值的装置,其中所述用于确定所述目的地装置是否能够呈现对应于所述 MVC操作点的所述视角的装置包含用于将对应于所述MVC操作点的视角的数目与所述最大视角呈现值进行比较的装置;以及用于将对应于所述MVC操作点的所述视角的帧速率与所述最大帧速率值进行比较的装置,其中所述用于将对应于所述MVC操作点的所述视角发送到所述视频解码器的装置包含用于在对应于所述MVC操作点的视角的所述数目小于或等于所述最大视角呈现值时且在对应于所述MVC操作点的所述视角的所述帧速率小于或等于所述最大帧速率值时将对应于所述MVC操作点的所述视角发送到所述视频解码器的装置。
47.一种包含指令的计算机可读存储媒体,所述指令在执行时使目的地装置的处理器进行以下操作接收对应于MPEG-2 (动画专家组)系统标准位流的多视角视频译码MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值, 以及描述所述MVC操作点的位速率的位速率值;确定所述目的地装置的视频解码器是否能够基于所述数据结构用信号传递的所述解码能力而解码对应于所述MVC操作点的视角;确定所述目的地装置是否能够基于所述数据结构用信号传递的所述呈现能力而呈现对应于所述MVC操作点的所述视角;以及在所述目的地装置的所述视频解码器经确定能够解码并呈现对应于所述MVC操作点的所述视角时,将对应于所述MVC操作点的所述视角发送到所述目的地装置的所述视频解码器。
48.根据权利要求47所述的计算机可读存储媒体,其中所述数据结构包含操作点描述符,且其中所述操作点描述符包含帧速率值,所述帧速率值描述包括于所述MVC操作点的所述视角中的视频数据的最大帧速率;所述MVC操作点的以呈现为目标的视角的视角识别符值,其中所述视角识别符值中的每一者对应于以呈现为目标的所述视角中的一者;所述 MVC操作点的待解码的视角的视角识别符值,其中所述视角识别符值中的每一者对应于待解码的所述视角中的一者;以及时间识别符值,所述时间识别符值对应于由所述MVC操作点的所述视角的所述视频数据汇编的视频流的帧速率。
49.根据权利要求48所述的计算机可读存储媒体,其中使所述处理器确定所述视频解码器是否能够解码所述视角的所述指令包含使所述处理器确定所述视频解码器是否能够在所述帧速率值所指示的所述帧速率下解码等效于视角的解码数目值的数目的视角的指令。
50.根据权利要求48所述的计算机可读存储媒体,其进一步包含使所述处理器进行以下操作的指令接收包括于所述位流中的每一操作点的操作点描述符;基于所述对应操作点描述符选择操作点,其中选择包含确定所述视频解码器能够解码并呈现对应于所述选定操作点的视角;以及将对应于所述选定操作点的所述视角发送到所述视频解码器。
51.根据权利要求47所述的计算机可读存储媒体,其中所述目的地装置通过描述可由所述目的地装置呈现的视角的最大数目的最大视角呈现值和描述可由所述目的地装置显示的视频数据的最大帧速率的最大帧速率值来配置,其中使所述处理器确定所述目的地装置是否能够呈现对应于所述MVC操作点的所述视角的所述指令包含使所述处理器进行以下操作的指令将对应于所述MVC操作点的视角的数目与所述最大视角呈现值进行比较;以及将对应于所述MVC操作点的所述视角的帧速率与所述最大帧速率值进行比较, 其中使所述处理器将对应于所述MVC操作点的所述视角发送到所述视频解码器的所述指令包含使所述处理器在对应于所述MVC操作点的视角的所述数目小于或等于所述最大视角呈现值时且在对应于所述MVC操作点的所述视角的所述帧速率小于或等于所述最大帧速率值时将对应于所述MVC操作点的所述视角发送到所述视频解码器的指令。
全文摘要
源视频装置和目的地视频装置可使用用信号传递MPEG-2(动画专家组)系统位流的操作点的细节的数据结构。在一个实例中,一种设备包括多路复用器,其构造对应于MPEG-2(动画专家组)系统标准位流的多视角视频译码MVC操作点的数据结构,其中所述数据结构用信号传递描述接收装置使用所述MVC操作点待满足的呈现能力的呈现能力值、描述所述接收装置使用所述MVC操作点待满足的解码能力的解码能力值、以及描述所述MVC操作点的位速率的位速率值;且将所述数据结构作为所述位流的一部分而包括在内;以及输出接口,其输出包含所述数据结构的所述位流。
文档编号H04N21/2362GK102474655SQ201080034959
公开日2012年5月23日 申请日期2010年8月6日 优先权日2009年8月7日
发明者陈培松, 陈英, 马尔塔·卡切维奇 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1