关于MPEG‑2系统的HEVC扩展位流的载运以及缓冲器模型的制作方法

文档序号:13171114阅读:238来源:国知局
本申请案主张2014年1月8日申请的第61/925,191号美国临时专利申请的权益,所述美国临时专利申请的整个内容以引用的方式并入本文中。技术领域本发明涉及视频译码,并且更确切地说,涉及HEVC多层扩展位流的载运。

背景技术:
数字视频能力可并入到广泛范围的装置中,包含数字电视机、数字直播系统、无线广播系统、平板计算机、智能电话、个人数字助理(PDA)、膝上型计算机或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置、机顶盒装置及类似物。各种装置可实施视频压缩技术,例如描述于以下各者中的那些技术:由MPEG-2、MPEG-4、ITU-TH.263、ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、高效率视频译码(HEVC)标准,及此些标准的扩展。多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)是对HEVC标准的多层扩展的实例。

技术实现要素:
一般来说,本发明描述用于关于MPEG-2系统的高效率视频译码(HEVC)多层扩展位流的载运的技术,所述位流包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。根据本发明的一或多种技术,视频解码器在缓冲器模型中从数据流的多个基本流组合存取单元。所述数据流可为输送流或节目流。无论所述基本流是否含有SHVC、MV-HEVC或3D-HEVC位流都使用同一缓冲器模型。此外,所述视频解码器对所述存取单元进行解码。在一个方面中,本发明描述一种对视频数据进行解码的方法,所述方法包括:接收包括多个基本流的视频数据流;在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。在另一方面中,本发明描述一种视频解码装置,其包括:存储器,其经配置以存储视频数据;以及一或多个处理器,其经配置以:接收包括多个基本流的视频数据流;在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。在另一方面中,本发明描述一种视频解码装置,其包括:用于接收包括多个基本流的视频数据流的装置;用于在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元的装置,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及用于对所述存取单元进行解码的装置,所述存取单元包括所述视频数据的一或多个图片。在另一方面中,本发明描述一种计算机可读数据存储媒体,具有存储于其上的指令,所述指令当执行时致使视频解码装置:接收包括多个基本流的视频数据流;在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。在附图和以下描述中阐述本发明的一或多个方面的细节。本发明中所描述的技术的其它特征、目标和优点将从描述、图式且从权利要求书显而易见。附图说明图1是说明可利用本发明的技术的实例视频编码和解码系统的框图。图2是说明用于单层高效率视频译码(HEVC)的实例输送流系统目标解码器(T-STD)模型扩展的概念图。图3是说明用于HEVC时间视频子集的分层输送的实例T-STD模型扩展的概念图。图4是根据本发明的一或多个技术说明用于HEVC分层视频子位流的实例T-STD模型扩展的概念图。图5是根据本发明的一或多个技术说明用于HEVC分层视频子位流的实例P-STD模型扩展的概念图。图6是说明可实施本发明的技术的实例视频编码器的框图。图7是说明可实施本发明的技术的实例视频解码器的框图。图8是说明根据本发明的一或多个技术的视频解码器的实例操作的流程图。图9是说明根据本发明的一或多个技术视频解码器组合及解码存取单元的实例操作的流程图。具体实施方式本发明描述用于MPEG-2系统的HEVC多层扩展位流的载运的技术,所述位流包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。在MV-HEVC中,可例如针对不同视角译码多个视图。在SHVC中,可译码多个层以例如支持空间可缩放性、时间可缩放性或质量可缩放性。在3D-HEVC中,可例如以纹理和深度分量译码多个视图以支持3D表示。一般来说,MV-HEVC中的视图、SHVC中的层或3D-HEVC中的视图可各自一般称为层。因此,SHVC、MV-HEVC和3D-HEVC可共同称为分层HEVC或多层HEVC译码技术。MPEG-2系统规范描述经压缩的多媒体(视频和音频)数据流可与如何与其它数据一起多路复用,从而形成适合于数字传输或存储的单个数据流。MPEG-2系统规范定义了节目流和输送流的概念。节目流偏向于来自数字存储服务的单个节目的存储和显示,且节目流既定用于无错误的环境中。相比之下,输送流既定用于在潜在易错信道上的多个节目的同时递送。节目流和输送流包含经包化基本流(PES)包。节目流和输送流的PES包属于一或多个基本流。基本流是节目的单个经数字译码(可能经MPEG压缩)的分量。举例来说,所述节目的经译码视频或音频部分可为基本流。视频解码器接收节目流和输送流的PES包。视频解码器可对从PES包获得的视频数据进行解码。在分层HEVC中,存取单元(AU)可包含与同一时间实例但不同层相关联的图片。在对存取单元的图片进行解码之前,视频解码器可能需要从PES包中的数据重新组合对应于存取单元的经编码数据。换句话说,视频解码器可能需要具有对应于处于准备好解码的状态中的存取单元的经编码数据。格鲁恩伯格(Grüneberg)等人的“ISO/IEC13818-1文本:2013/最终草案修改3-经由MPEG-2系统的HEVC视频的输送(TextofISO/IEC13818-1:2013/FinalDraftAmendment3-TransportofHEVCvideooverMPEG-2Systems)”(ISO/IECJTC1/SC29/WG11MPEG105/N13656,2013年7月,奥地利维也纳(本文称为“n13656”或“FDAM3”))描述了MPEG-2系统中的HEVC视频的输送。此外,陈等人的“关于MPEG-2系统的HEVC扩展流的载运(CarriageofHEVCextensionstreamswithMPEG-2Systems)”(MPEG输入文档m31430,第106次MPEG会议,2013年10月,瑞士日内瓦,MPEG输入文档m31430(本文称为“MPEG输入文档m31430”))提出了关于MPEG-2系统的HEVC扩展流的载运的基本设计。HEVC扩展流是符合SHVC、MV-HEVC和3D-HEVC的HEVC流。FDAM3和MPEG输入文档m31430均未描述视频解码器如何重新组合HEVC扩展流的存取单元。举例来说,FDAM3和MPEG输入文档m31430均未描述视频解码器可用于HEVC扩展流的存取单元的重新组合的缓冲器模型。根据本发明的一或多种技术,视频解码器在缓冲器模型中从例如输送流或节目流等数据流的多个基本流组装存取单元。无论所述基本流是否含有SHVC、MV-HEVC或3D-HEVC位流都使用同一缓冲器模型。视频解码器随后可对存取单元进行解码。通过使用缓冲模型,视频解码器能够从输送流或节目流的PES包集结数据以用于重新组合为准备好解码的存取单元。使用统一缓冲器模型用于SHVC、MV-HEVC和3D-HEVC可使用于支持SHVC、MV-HEVC和3D-HEVC的视频解码器的增加的复杂性最小化。图1是说明可经配置以利用本发明的各种技术的实例视频编码和解码系统10的框图,所述各种技术例如用于关于MPEG-2系统的HEVC多层扩展位流的载运的技术,所述位流包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。如图1中所示,系统10包含源装置12,所述源装置12提供经编码视频数据以在稍后时间由目的地装置14解码。确切地说,源装置12经由计算机可读媒体16将经编码视频数据提供到目的地装置14。源装置12和目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置,或类似物。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。目的地装置14可经由计算机可读媒体16接收经编码视频数据。计算机可读媒体16可以包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体(例如发射信道)以使源装置12能够实时地将经编码视频数据直接发射到目的地装置14。可根据通信标准(例如,无线通信协议)调制经编码的视频数据,并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成分组网络(例如,局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。在一些实例中,经编码数据可从输出接口22输出到计算机可读存储媒体,例如非暂时性计算机可读存储媒体,即数据存储装置。类似地,经编码数据可由输入接口从存储装置存取。存储装置可包含多种分布式或本地存取的非暂时性数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装置可对应于文件服务器或另一可存储源装置12产生的经编码视频的中间存储装置。目的地装置14可例如经由流式传输或下载从存储装置存取经存储的视频数据。文件服务器可为能够存储经编码视频数据并将所述经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。这可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可能是流式传输发射、下载发射或其组合。本发明的技术可应用于视频译码以支持多种有线或无线多媒体应用中的任一者,例如空中电视广播、有线电视发射、卫星电视发射、例如经由HTTP的动态自适应流式传输(DASH)等因特网流式传输视频发射、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。在其它实例中,源装置12和目的地装置14包含其它组件或布置。举例来说,源装置12可从外部视频源(例如,外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。本发明在HEVC译码扩展的上下文中描述视频编码器20和视频解码器30,所述HEVC译码扩展确切地说是MV-HEVC、SHVC和3D-HEVC译码扩展。然而,本发明的技术可适用于其它视频译码标准或方法。本发明中描述的技术可由视频编码器20、视频解码器30或其它装置执行,例如拼接引擎、媒体感知网络元件、流式传输服务器、路由器以及编码、解码、组装、构造、提取或另外处理经译码视频位流的其它装置。图1的所说明系统10只是一个实例。本发明中描述的技术可由数字视频编码和/或解码装置执行。尽管本发明的技术一般通过视频编码器20和/或视频解码器30来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)来执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅为这些译码装置的实例,其中源装置12产生用于发射到目的地装置14的经译码视频数据。在一些实例中,装置12、14可以大体上对称的方式操作以使得装置12、14中的每一者包含视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射,例如用于视频流式传输、视频重放、视频广播或视频电话。源装置12的视频源18可以包含视频俘获装置,例如摄像机、含有先前所俘获视频的视频存档和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或直播视频、存档视频与计算机产生的视频的组合。在一些实例中,如果视频源18是摄像机,那么源装置12和目的地装置14可形成所谓的智能电话、平板计算机或视频电话。然而,如上文所提及,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,俘获、预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出到计算机可读媒体16上。计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或数据存储媒体(即,非暂时性存储媒体)。在一些实例中,网络服务器(未图示)可以从源装置12接收经编码视频数据,并且例如经由网络发射将经编码视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置12接收经编码的视频数据且生产含有经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。本发明通常可指视频编码器20将某些信息“用信号表示”给另一装置,例如视频解码器30。应理解,视频编码器20可以通过使某些语法元素与视频数据的各种经编码部分相关联来用信号表示信息。即,视频编码器20可通过将某些语法元素存储到视频数据的各种经编码部分的标头或有效负载中而“用信号表示”数据。在一些情况下,此些语法元素可在被视频解码器30接收和解码之前被编码和存储(例如,存储到计算机可读媒体16)。因此,术语“用信号表示”可大体上指代用于解码经压缩的视频数据的语法或其它数据的通信,不论此类通信是实时或近乎实时发生还是在一段时间中发生,例如可能在编码时将语法元素存储到媒体上的时候发生,接着可以在存储到这个媒体之后的任何时间由解码装置检索。目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息还供视频解码器30使用,所述语法信息包含描述块及其它经译码单元(例如,GOP)的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器、投影装置或另一类型的显示装置。尽管图1中未图示,在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用的话,作为一个实例,多路复用器-多路分用器单元可符合ITUH.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。视频编码器20和视频解码器30各自可实施为合适的多种合适的编码器或解码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为组合视频编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置(例如,蜂窝式电话)。实例视频译码标准包含ITU-TH.261、ISO/IECMPEG-1Visual、ITU-TH.262或ISO/IECMPEG-2Visual、ITU-TH.263、ISO/IECMPEG-4Visual及ITU-TH.264(也被称为ISO/IECMPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。ITU-TH.264|ISO/IEC14496-10界定H.264/AVC视频译码标准。ITU-TH.264|ISO/IEC14496-10的特定附录界定H.264/AVC视频译码标准的扩展。举例来说,ITU-TH.264|ISO/IEC14496-10的附录B界定用于H.264/AVC的字节流格式。ITU-TH.264|ISO/IEC14496-10的附录G界定H.264/AVC的SVC扩展。ITU-TH.264|ISO/IEC14496-10的附录H界定H.264/AVC的MVC扩展。近来,新的视频译码标准(即高效率视频译码(HEVC))的设计已由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)定案。视频编码器20和视频解码器30可根据HEVC标准操作,并且更确切地说根据多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)或HEVC标准的3D-HEVC扩展,如本发明中参考。HEVC假定视频译码装置相对于经配置以根据其它过程(例如ITU-TH.264/AVC)执行译码的装置的若干额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HEVC的参考模型可提供多达三十五种帧内预测编码模式。王等人的HEVC草案规范文献JCTVC-N1003_v1(ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第14次会议:奥地利维也纳,2013年7月25日-8月2日,且本文称为“HEVCWD”或“HEVC”)从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip可用。建议ITU-TH.265|ISO/IEC23008-2是HEVC标准的最终版本。3D视频译码扩展开发联合合作小组(JCT-3V)正在开发对HEVC的多视图扩展,即MV-HEVC。泰克(Tech)等人的MV-HEVC的最近工作草案(WD)文献JCT3V-E1004-v6(ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的3D视频译码扩展开发联合合作小组,第5次会议:奥地利维也纳,2013年7月27日-8月2日,本文称为“MV-HEVCWD5”或“MV-HEVC”)从http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1004-v6.zip可用。泰克等人的文献JCT3V-E1001-v3(ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的3D视频译码扩展开发联合合作小组,第5次会议:奥地利维也纳,2013年7月27日-8月2日(本文为“JCT3V-E1001”或“3D-HEVC”))是HEVC的3D扩展的最近工作草案,即3D-HEVC。JCT3V-E1001从http://phenix.int-evry.fr/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1001-v3.zip可用。JCT-VC也在开发对HEVC的可缩放扩展,被命名为SHVC。陈等人的文献JCTVC-N1008_v3(ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第14次会议:奥地利维也纳,2013年7月25日-8月2日(本文为“SHVCWD3”或简称为“SHVC”))是SHVC的最近工作草案(WD)。SHVCWD3从http://phenix.it-sudparis.eu/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1008-v3.zip可用。弗林(Flynn)等人的文献JCTVC-N1005_v1(ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)第13次会议:韩国仁川,2013年4月18日-26日,文献JCTVC-N1005(本文为JCTVC-N1005))是HEVC的范围扩展的最近工作草案。JCTVC-N1005从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1005-v3.zip可用。一般来说,HEVC指定视频图片(或“帧”)可被划分成被称作译码树单元(CTU)的最大译码单元的序列。CTU可包含对应的明度和色度分量,被称作译码树块(CTB),例如明度CTB和色度CTB,分别包含明度和色度样本。位流内的语法数据可以界定CTU(就像素数目来说的最大译码单元)的大小。切片包含呈译码次序的多个连续CTB。图片可以分割成一或多个切片。每一CTB可根据四叉树分割结构分裂成一或多个译码单元(CU)。一般来说,四叉树数据结构包含每个CU一个节点,其中根节点对应于CTB。如果一个CU分裂成四个子CU,那么对应于CU的节点包含四个叶节点,其中的每一者对应于所述子CU中的一者。CU可包括具有明度样本阵列、Cb样本阵列和Cr样本阵列的图片的明度样本的译码块以及色度样本的两个对应的译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CU可包括单个译码块和用以对译码块的样本进行译码的语法结构。四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,其表明对应于所述节点的所述CU是否分裂成子CU。用于CU的语法元素可以递归地来定义,且可以取决于CU是否分裂成数个子CU。如果CU不进一步分裂,那么将其称为叶CU。叶CU的四个子CU也可被称为叶CU,即使不存在原始叶CU的显式分裂时也是如此。举例来说,如果16×16大小的CU未进一步分裂,那么这四个8×8子CU可被称作叶CU,虽然16×16CU从未分裂。HEVC中的CU具有与H.264标准的宏块类似的目的,除了CU不具有大小区别。举例来说,可将CTB拆分成四个子节点(还被称作子CU),且每一子节点又可为父节点,且拆分成另外四个子节点。最终的未经分裂子节点(被称作四叉树的叶节点)包括译码节点,还被称作叶CU。与经译码位流相关联的语法数据可定义CTB可分裂的最大次数,被称作最大CU深度,且还可定义译码节点的最小大小。因此,在一些实例中,位流还可界定最小译码单元。CU包含译码节点以及与所述译码节点相关联的一或多个预测单元(PU)和一或多个变换单元(TU)。本发明可使用术语“块”来指代HEVC的上下文中的CU、预测单元(PU)、变换单元(TU)或其分区或其它标准的上下文中的类似数据结构中的任一者。CU的大小对应于译码块的大小。CU的大小范围可从8×8像素至多达具有最大64×64个像素或更大的CTB的大小。与CU相关联的语法数据可描述CU分割成一个或多个PU。一般来说,PU表示对应于CU的全部或一部分的空间区域。分割模式可在CU被跳过或经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不同。在如本发明中所描述的深度译码的情况下,PU可分割为非正方形形状,或包含非矩形形状的分区。CU的PU可包括明度样本的预测块、色度样本的两个对应预测块以及用以预测预测块的语法结构。在单色图片或具有三个单独颜色平面的图片中,PU可包括单个预测块和用以预测预测块的语法结构。视频编码器20可针对CU的每一PU的预测块(例如,明度、Cb和Cr预测块)产生预测性块(例如,明度、Cb和Cr预测性块)。PU可包含用于检索PU的参考样本的数据。参考样本可为来自参考块的像素。在一些实例中,参考样本可从参考块获得或例如通过内插或其它技术而产生。PU还包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可以包含在残余四叉树(RQT)中,残余四叉树可以包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可以包含界定PU的一或多个运动向量的数据。定义用于PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精确度或八分之一像素精确度)、运动向量指向的参考图片和/或用于运动向量的参考图片列表(例如,RefPicList0或RefPicList1)。HEVC支持各种PU大小的预测。假设特定CU的大小是2Nx2N,那么HEVC支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。具有2Nx2N的大小的PU与PU驻留于其中的CU是相同的大小。HEVC支持用于2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是将另一方向分割成25%和75%。CU的对应于25%分区的部分由“n”继之以“上”、“下”、“左”或“右”的指示来指示。因而,举例来说,“2NxnU”是指水平地分割的2Nx2NCU,其中上方有2Nx0.5NPU,而下方有2Nx1.5NPU。对于深度译码,JCT3V-E1001进一步支持根据深度建模模式(DMM)对PU进行分割,包含非矩形分区,如将描述。在本发明中,“NxN”与“N乘N”可互换使用来指在垂直和水平尺寸方面的视频块的像素尺寸,例如,16x16像素或16乘16像素。大体来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样地,NxN块一般在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成行和列。此外,块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说,块可包括NxM个像素,其中M未必等于N。与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU的形状可为正方形或非正方形(例如,矩形)。CU的TU可包括明度样本的变换块、色度样本的两个对应的变换块,以及用以对变换块样本进行变换的语法结构。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用以对变换块的样本进行变换的语法结构。HEVC标准允许根据TU的变换。视频编码器20可变换与TU相关联的像素差值以产生变换系数。在一些实例中,CU的TU的大小是基于CU的PU的大小,但情况可能并不总是如此。此外,在一些实例中,TU与PU是相同的大小或小于PU。对应于CU的残余样本(即,像素差值)可使用被称为“残余四叉树”(RQT)的四叉树结构而细分为较小的单元(即,变换块)。换句话说,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树(即,RQT)的根节点一般对应于叶CU。RQT的叶节点对应于TU。未经分裂的RQT的TU被称作叶TU。一般来说,除非以其它方式提及,否则本发明分别使用术语CU及TU来指叶CU及叶TU。TU可以使用RQT(还被称作TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示叶CU是否分裂成四个TU。随后,每一TU可进一步分裂为另外的若干子TU。当TU未进一步分裂时,TU可被称作叶TU。在一些实例中,对于帧内译码,属于叶CU的全部叶TU共享同一帧内预测模式。也就是说,通常应用相同的帧内预测模式来计算一叶CU的所有TU的预测值。对于帧内译码,视频编码器20可以使用帧内预测模式将每一叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU不一定限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU可以与相同CU的对应叶TU并置。在一些实例中,叶TU的最大大小可以对应于对应的叶CU的大小。在使用CU的PU进行常规的帧内预测性或帧间预测性译码之后,视频编码器20可计算用于CU的TU的残余数据。PU可包括描述在空间域(也称为像素域)中产生预测性像素数据的方法或模式的语法数据,且用于常规残余译码的TU可包括在对残余视频数据应用变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残余数据的TU,并且接着变换TU以产生用于CU的变换系数。在用于产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化大体上指代对变换系数进行量化以可能减少用以表示系数的数据的量从而提供进一步压缩的过程。量化过程可以减少与系数中的一些或全部相关联的位深度。例如,n位值可在量化期间被下舍入到m位值,其中n大于m。在量化之后,视频编码器20可扫描经量化变换系数,从包含经量化变换系数的二维矩阵产生一维向量。扫描可以经设计以将较高能量(并且因此较低频率)的系数放置在阵列的前面,并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可以执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应二进制算术译码(CABAC)对所述一维向量进行熵编码,如HEVC中所使用。其它熵译码过程的实例包含上下文自适应可变长度译码(CAVLC)、基于语法的上下文自适应二进制算术译码(SBAC)以及概率间隔分割熵(PIPE)译码。视频编码器还20可熵编码与经编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。视频序列通常包含一系列视频图片。如本文所描述,术语“图片”与“帧”可以互换地使用。图片的每一切片可包含描述用于相应的切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便对视频数据进行编码。视频块可与CU内的译码节点相对应。视频块可具有固定或变化的大小,并且根据指定译码标准可在大小上有所不同。视频编码器20和/或视频解码器30可执行深度数据的图片内预测译码和深度数据的帧间预测译码。在HEVC中,假定CU的大小为2Nx2N,视频编码器20及视频解码器30可支持用于帧内预测的2Nx2N或N×N的各种PU大小,及用于帧间预测的2Nx2N、2NxN、Nx2N、NxN或类似大小的对称PU大小。视频编码器及视频解码器还可支持用于帧间预测的2NxnU、2NxnD、nLx2N及nRx2N的PU大小的不对称分割。视频编码器20可输出包含形成经译码图片及相关联数据的表示的位序列的位流。术语“位流”可为用以指网络抽象层(NAL)单元流(例如,NAL单元序列)或字节流(例如,含有开始码前缀的NAL单元流及如由HEVC标准的附录B指定的NAL单元的囊封)的集合性术语。NAL单元为含有NAL单元中的数据类型类型的指示及含有所述数据的呈按需要穿插有模拟阻止位的原始字节序列有效负载(RBSP)的形式的字节的语法结构。NAL单元中的每一者可包含NAL单元标头且可囊封RBSP。NAL单元标头可包含各种语法元素,例如指示NAL单元类型代码的语法元素。包含于NAL单元标头中的任何语法元素可在本文中被称作NAL单元标头语法元素。由NAL单元的NAL单元标头指定的所述NAL单元类型代码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。不同类型的NAL单元可囊封不同类型的RBSP。例如,第一类型的NAL单元可囊封用于图片参数集(PPS)的RBSP,第二类型的NAL单元可囊封用于切片片段的RBSP,第三类型的NAL单元可囊封用于补充增强信息(SEI)的RBSP等。囊封视频译码数据的RBSP(与参数集及SEI消息的RBSP相对)的NAL单元可被称为视频编码层(VCL)NAL单元。含有参数集(例如,视频参数集(VPS)、序列参数集(SPS)、PPS等)的NAL单元可被称为参数集NAL单元。含有SEI消息的NAL单元可被称为SEINAL单元。补充增强信息(SEI)含有并非对来自VCLNAL单元的经译码图片的样本进行解码所必需的信息。视频解码器30可以接收由视频编码器20产生的位流。另外,视频解码器30可以剖析位流以获得来自位流的语法元素。视频解码器30可至少部分基于从位流获得的语法元素重构造视频数据的图片。用以重构视频数据的过程一般可与由视频编码器20执行以对视频数据进行编码的过程互逆。举例来说,视频解码器30可使用PU的运动向量,以确定当前CU的PU的预测性块。另外,视频解码器30可逆量化当前CU的TU的系数块。视频解码器30可对系数块执行逆变换以重构当前CU的TU的变换块。通过将用于当前CU的PU的预测性块的样本增加到当前CU的TU的变换块的对应的样本上,视频解码器30可以重构当前CU的译码块。通过重构用于图片的每一CU的译码块,视频解码器30可重构图片。在多视图译码中,可存在来自不同视角的同一场景的多个视图。术语“存取单元”可用以指对应于同一时间实例的图片集合。因此,视频数据可概念化为随时间出现的一系列存取单元。“视图分量”可为单个存取单元中的视图的经译码表示。在本发明中,“视图”可指与相同视图识别符相关联的视图分量的序列或集合。视图分量可含有纹理视图分量和深度视图分量。纹理视图分量(即,纹理图片)可为单一存取单元中的视图的纹理的经译码表示。纹理视图可为与视图次序索引的相同值相关联的纹理视图分量的序列。视图的视图次序索引可指示所述视图相对于其它视图的相机位置。深度视图分量(即,深度图片)可为单一存取单元中的视图的深度的经译码表示。深度视图可为与视图次序索引的相同值相关联的一或多个深度视图分量的集合或序列。在MV-HEVC、3D-HEVC和SHVC中,视频编码器可产生包括一系列NAL单元的位流。位流的不同NAL单元可与所述位流的不同层相关联。层可经界定为具有相同层识别符的VCLNAL单元和相关联非VCLNAL单元的集合。层可等效于多视图视频译码中的视图。在多视图视频译码中,层可含有同一层的具有不同时间实例的所有视图分量。每一视图分量可为属于特定时间实例处的特定视图的视频场景的经译码图片。在3D视频译码的一些实例中,层可含有特定视图的全部经译码深度图片或特定视图的经译码纹理图片。在3D视频译码的其它实例中,层可含有特定视图的纹理视图分量和深度视图分量两者。类似地,在可可缩放视频译码的上下文中,层通常对应于具有不同于其它层中的经译码图片的视频特性的经译码图片。此类视频特性通常包含空间分辨率和质量水平(例如,信噪比)。在HEVC及其扩展中,可在一层内通过将具有特定时间层级的图片群组定义为子层来实现时间可缩放性。对于位流的每一相应层,可在不参考任何较高层中的数据情况下解码较低层中的数据。在可缩放视频译码中,例如,可在不参考增强层中的数据的情况下解码基础层中的数据。一般来说,NAL单元可仅囊封单个层的数据。因此,可将包封位流的最高剩余层的数据的NAL单元从位流去除,而不影响位流的剩余层中的数据的可解码性。在多视图译码和3D-HEVC中,较高层可包含额外视图分量。在SHVC中,较高层可包含信噪比(SNR)增强数据、空间增强数据和/或时间增强数据。在MV-HEVC、3D-HEVC和SHVC中,如果视频解码器可对层中的图片进行解码而无需参考任何其它层的数据,那么所述层可被称为“基础层”。基础层可符合HEVC基础规范(例如,HEVCWD)。在SVC中,除基础层外的层可被称为“增强层”且可提供增强从位流解码的视频数据的视觉质量的信息。SVC可增强空间分辨率、信噪比(即,质量)或时间速率。在可缩放视频译码(例如,SHVC)中,“层表示”可为单个存取单元中的空间层的经译码表示。为便于说明,本发明可将视图分量和/或层表示称为“视图分量/层表示”或简称为“图片”。为了实施所述层,NAL单元的标头可包含nuh_reserved_zero_6bits语法元素。在HEVCWD中,nuh_reserved_zero_6bits语法元素是保留的。然而,在MV-HEVC、3D-HEVC和SVC中,nuh_reserved_zero_6bits语法元素被称作nuh_layer_id语法元素。nuh_layer_id语法元素指定层的识别符。位流的具有指定不同值的nuh_layer_id语法元素的NAL单元属于位流的不同层。在一些实例中,如果一NAL单元与多视图译码(例如,MV-HEVC)、3DV译码(例如,3D-HEVC)或可缩放视频译码(例如,SHVC)中的基础层有关,那么所述NAL单元的nuh_layer_id语法元素等于0。如果一NAL单元与多视图译码、3DV或可缩放视频译码中的基础层无关,那么所述NAL单元的nuh_layer_id语法元素可具有非零值。此外,在一层内的一些视图分量/层表示可在不参考同一层内的其它视图分量/层表示的情况下进行解码。因此,囊封一层的某些视图分量/层表示的数据的NAL单元可从位流移除,而不影响所述层中的其它视图分量/层表示的可解码性。移除囊封此些视图分量/层表示的数据的NAL单元可减小位流的帧速率。可在不参考在一层内的其它视图分量/层表示的情况下解码的在所述层内的视图分量/层表示的子集可在本文中被称作“子层”或“时间子层”。NAL单元可包含指定NAL单元的时间识别符(即,TemporalIds)的temporal_id语法元素。NAL单元的时间识别符识别NAL单元属于的子层。因此,层的每一子层可具有不同时间识别符。一般来说,如果一层的第一NAL单元的时间识别符小于同一层的第二NAL单元的时间识别符,那么可在不参考由第二NAL单元封装的数据的情况下解码由第一NAL单元封装的数据。位流可与多个操作点相关联。位流的每一操作点与层识别符的集合(例如,nuh_layer_id值的集合)和时间识别符相关联。所述组层识别符可表示为OpLayerIdSet且所述时间识别符可表示为TemporalID。如果NAL单元的层识别符在操作点的层识别符集合中,且NAL单元的时间识别符小于或等于所述操作点的时间识别符,那么所述NAL单元与所述操作点相关联。因此,操作点可对应于位流中的NAL单元的子集(例如,恰当子集)。MPEG-2系统规范描述经压缩的多媒体(视频和音频)数据流可与如何与其它数据一起多路复用,从而形成适合于数字传输或存储的单个数据流。MPEG-2TS的最新规范是ITU-T建议H.222.02012年6月版本(本文为“MPEG-2TS”),其中提供对高级视频译码(AVC)和AVC扩展的支持。最近,已开发用于HEVC的MPEG-2TS的修正。最新文档是2013年7月的MPEG输出文献N13656中的“ISO/IEC-1文本:2013年/最终草案修正3-经由MPEG-2系统的HEVC视频的输送(TextofISO/IEC13818-1:2013/FinalDraftAmendment3-TransportofHEVCvideooverMPEG-2Systems)”。MPEG-2系统规范界定基本流的概念。具体地说,基本流是节目的单个经数字译码(可能经MPEG压缩)的分量。举例来说,所述节目的经译码视频或音频部分可为基本流。在将基本流多路复用成节目流或输送流之前,可首先将基本流转换成经包化基本流(PES)。在同一节目内,stream_id用以区分属于一个基本流和属于另一基本流的PES包。另外,MPEG-2系统规范界定了节目流和输送流的概念。节目流和输送流是以不同应用为目标的两种替代的多路复用。节目流偏向于来自数字存储服务的单个节目的存储和显示,且节目流既定用于无错误环境中,因为其相当容易发生错误。相比之下,输送流既定用于在潜在易错信道上的多个节目的同时递送。一般来说,输送流是为例如广播等多节目应用设计的多路复用,使得单个输送流可容纳许多独立节目。节目流简单地包括属于其的基本流,且通常含有具有可变长度包的包。在节目流中,将从起作用的基本流导出的PES包组织为“包(pack)”。包按任何次序包括包标头、任选的系统标头,以及从有贡献的基本流(即,节目流的基本流)中的任一者取得的任何数目的PES包。系统标头含有节目流的特性的概述,例如:节目流的最大数据速率,节目流的有贡献的视频和音频基本流的数目,以及进一步的定时信息。例如解码器30等解码器可使用包含于系统标头中的信息以确定解码器是否能够解码节目流。输送流包括一连串输送包。输送包是一类PES包。输送包中的每一者是188字节长。输送流中的短的固定长度包的使用意味着输送流不像节目流那样容易发生错误。进一步,通过例如里德-所罗门编码(Reed-Solomonencoding)等标准错误保护过程处理输送包可对每一188字节长输送包给予额外错误保护。输送流的改善的容错性意味着输送流具有在易错信道中存留的较好机会,例如广播环境中的那些信道。给定输送流的增加的容错性以及在输送流中载运许多同时的节目的能力,可见输送流显然是所述两种多路复用(即,节目流和输送流)中更好的一者。然而,输送流是比节目流复杂得多的多路复用,且因此较难创建且多路分用。输送包的第一字节是同步字节,其为0x47。单个输送流可载运许多不同节目,其各自包括许多经包化基本流。另外,输送包包含13位包识别符(PID)字段。PID字段用以区分含有一个基本流的数据的输送包与载运其它基本流的数据的输送包。确保每一基本流被授予唯一PID值是多路复用器的职责。输送包的最后字节是连续性计数字段。使属于同一基本流的连续输送包之间的连续性计数字段的值递增。递增连续性计数字段的值使得例如解码器30等解码器能够检测输送包的损失或增益且潜在地隐藏原本可能由输送包的损失或增益引起的错误。虽然可基于输送包的PID值确定输送包属于的基本流,但解码器可能需要能够确定哪些基本流属于哪一节目。因此,节目特定信息显式地指定节目与组成基本流之间的关系。举例来说,节目特定信息可指定节目与属于所述节目的基本流之间的关系。输送流的节目特定信息可包含节目映射表(PMT)、节目关联表(PAT)、条件接入表以及网络信息表。在输送流中载运的每一节目均与节目映射表(PMT)相关联。准许PMT包含一个以上节目。举例来说,输送流中载运的多个节目可与同一PMT相关联。与节目相关联的PMT给出关于节目和构成所述节目的基本流的细节。例如,具有编号3的节目可含有具有PID33的视频、具有PID57的英语音频、具有PID60的中文音频。换句话说,在此实例中,PMT可指定输送包包含具有等于33的值的PID字段的基本流含有具有等于3的编号(例如,program_number)的节目的视频,输送包包含具有等于57的值的PID字段的基本流含有具有编号3的节目的英语音频,且输送包包含具有等于60的值的PID字段的基本流含有具有编号3的节目的中文音频。可以MPEG-2系统规范内指定的许多描述符中的一些来修饰基本PMT。换句话说,PMT可包含包含一或多个描述符。描述符传达关于节目或节目的组成基本流的进一步信息。描述符可包含视频编码参数、音频编码参数、语言识别信息、摇摄与扫描信息、条件接入细节、版权信息等。广播公司或其它用户在需要时可界定额外的私用描述符。在视频相关组成基本流中,还存在阶层描述符。阶层描述符提供识别含有以阶层方式译码的视频、音频和私用流的分量的节目元素的信息。私用流可包含元数据,例如节目特定信息的流。一般来说,节目元素是包含在节目中的数据或基本流中的一者(即,节目的组成基本流)。在MPEG-2输送流中,节目元素通常经包化。在MPEG-2节目流中,节目元素未经包化。节目流的节目特定信息可包含节目流映射(PSM)。节目流的PSM提供节目流中的基本流以及基本流彼此的关系的描述。当在输送流中载运时此结构将不会经修改。当stream_id值是0xBC时PSM存在为PES包。如上文所指出,输送流的节目特定信息可包含节目关联表(PAT)。输送流的PAT含有输送流中可用的全部节目的完整列表。PAT始终具有PID值0。换句话说,具有等于0的PID值的输送包含有PAT。PAT列出输送流的每一相应节目连同含有与所述相应节目相关联的节目映射表的输送包的PID值。举例来说,在上述实例PMT中,PAT可包含指定PMT的信息,所述PMT指定节目编号3的基本流具有1001的PID,且可包含指定具有1002的另一PID的另一PMT的信息。换句话说,在此实例中,PAT可指定PID字段具有等于1001的值的输送包含有节目编号3的PMT,且PAT可指定PID字段具有等于1002的值的输送包含有另一节目的PMT。此外,如上文所指出,输送流的节目特定信息可包含网络信息表(NIT)。输送流的PAT中指定的节目编号零具有特殊意义。具体地说,节目编号0指向NIT。输送流的NIT是任选的且当存在时,NIT提供关于载运输送流的物理网络的信息。举例来说,NIT可提供例如信道频率、卫星应答器细节、调制特性、服务发起者、服务名称和可用替代网络的细节等信息。如上文所指出,输送流的节目特定信息可包含条件接入表(CAT)。如果输送流内的任何基本流经加扰,那么CAT必须存在。CAT提供使用中的加扰系统的细节,且提供含有有条件接入管理和服务鉴权信息的输送包的PID值。MPEG-2不指定此信息的格式。如上文所指出,PMT可包含一或多个描述符,其传达关于节目或节目的组成基本流的信息。PMT中的所述一或多个描述符可包含阶层描述符。在MPEG-2输送流(TS)中,阶层描述符经设计以用信号表示不同基本流中的子位流的阶层。阶层描述符提供用以识别含有以阶层方式译码的视频、音频和私用流的分量的节目元素的信息。以下表2-49展示阶层描述符的语法。在表2-49之后的段落描述阶层描述符的字段的语义。表2-49-阶层描述符temporal_scalability_flag-1位旗标,当设定成‘0’时指示相关联节目元素增强从由hierarchy_embedded_layer_index参考的节目元素产生的位流的帧速率。此旗标的值‘1’是保留的。spatial_scalability_flag-1位旗标,当设定成‘0’时指示相关联节目元素增强从由hierarchy_embedded_layer_index参考的节目元素产生的位流的空间分辨率。此旗标的值‘1’是保留的。quality_scalability_flag-1位旗标,当设定成‘0’时指示相关联节目元素增强从由hierarchy_embedded_layer_index参考的节目元素产生的位流的SNR质量或保真度。此旗标的值‘1’是保留的。hierarchy_type-相关联阶层层与其阶层嵌入层之间的阶层式关系在表2-50中界定(下文展示)。如果可缩放性在一个以上维度中应用,那么此字段将被设定为值‘8’(“组合可缩放性”),且将相应地设定旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag。对于MVC视频子位流,此字段将被设定为值‘9’(“MVC视频子位流”),且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。对于MVC基础视图子位流,hierarchy_type字段将被设定为值‘15’,且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。hierarchy_layer_index-hierarchy_layer_index是6位字段,其界定译码层阶层的表中的相关联节目元素的唯一索引。索引在单个节目定义内将是唯一的。对于符合在建议ITU-TH.264|ISO/IEC14496-10的附录G中定义的一或多个简档的AVC视频流的视频子位流,此为节目元素索引,以如果同一存取单元的视频子位流的相关联SVC依赖性表示按照hierarchy_layer_index的递增次序来重新组合那么位流次序将正确的方式来指派所述视频子位流。对于符合在建议ITU-TH.264|ISO/IEC14496-10的附录H中定义的一或多个简档的AVC视频流的MVC视频子位流,此为节目元素索引,以如果同一存取单元的MVC视频子位流的相关联的MVC视图分量子集合以hierarchy_layer_index的递增次序来重新组合那么位流序将是正确的方式来指派所述节目元素索引。tref_present_flag-1位旗标,当设定成‘0’时指示TREF字段可存在于相关联基本流中的PES包标头中。此旗标的值‘1’是保留的。hierarchy_embedded_layer_index-hierarchy_embedded_layer_index是6位字段,其界定需要接入且按解码次序存在于与此hierarchy_descriptor相关联的基本流的解码之前的节目元素的hierarchy_layer_index。如果hierarchy_type值是15,那么hierarchy_embedded_layer_index字段是未定义的。hierarchy_channel-hierarchy_channel是6位字段,其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳健的发射信道由关于整体发射阶层定义的此字段的最低值来定义。给定hierarchy_channel可同时指派给若干节目元素。以下表2-50描述阶层描述符的hierarchy_type字段的值的意义。表2-50-Hierarchy_type字段值如上文所指出,PMT可包含一或多个描述符,其传达关于节目或节目的组成基本流的信息。在MPEG-2TS中,两个描述符分别用信号表示用于SVC和MVC的子位流的特性:SVC扩展描述符和MVC扩展描述符。另外,存在描述操作点的特性的MVC操作点描述符。下文提供三个描述符的语法和语义。对于符合建议ITUTH.264|ISO/IEC14496-10的附录G中定义的一或多个简档的AVC视频流的视频子位流,SVC扩展描述符提供关于通过重新组合(至多)相关联视频子位流而产生的AVC视频流的信息,且提供关于相关联视频子位流的可缩放性和重新组合的信息。可存在与符合建议ITU-TH.264|ISO/IEC14496-10的附录G中定义的一或多个简档的AVC视频流的视频子位流中的任一者相关联的一个SVC扩展描述符。表2-96描述SVC扩展描述符的语法。跟随表2-96的段落描述SVC扩展描述符的字段的语义。表2-96-SVC扩展描述符width-此16位字段指示经重新组合的AVC视频流的像素中的最大图像宽度分辨率。height-此16位字段指示经重新组合的AVC视频流的像素中的最大图像高度分辨率。frame_rate-此16位字段指示经重新组合的AVC视频流的以帧/256秒计的最大帧速率。average_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的平均位速率。maximum_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的最大位速率。dependency_id-此3位字段指示与视频子位流相关联的dependency_id的值。quality_id_start-此4位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的quality_id的最小值。quality_id指定用于NAL单元的质量识别符。quality_id_end-此4位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的quality_id的最大值。temporal_id_start-此3位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最小值。temporal_id_end-此3位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最大值。no_sei_nal_unit_present-此1位旗标当设定成‘1’时指示没有SEINAL单元存在于相关联视频子位流中。在no_sei_nal_unit_present旗标针对所有SVC视频子位流设定成‘1’且针对SVC的AVC视频子位流不设定成‘1’或不存在的情况下,任何SEINAL单元(如果存在)均包含于SVC的AVC视频子位流中。如果SVC扩展描述符针对所有视频子位流不存在,那么SEINAL单元可存在于SVC视频子位流的任何SVC依赖性表示中,且可能需要在存取单元重新组合之前,对存取单元内的NAL单元的次序进行重新排序,如建议ITU-TH.264|ISO/IEC14496-10中所定义。对于符合建议ITU-TH.264|ISO/IEC14496-10的附录H中定义的一或多个简档的AVC视频流的MVC视频子位流,MVC扩展描述符提供关于由重新组合(至多)相关联MVC视频子位流而产生的AVC视频流的信息,且提供关于所包含的MVC视频子位流且用于相关联MVC视频子位流的重新组合的信息。可存在与符合建议ITU-TH.264|ISO/IEC1449610的附录H中所定义的一或多个简档的AVC视频流的MVC视频子位流(具有等于0x20的stream_type)中的任一者相关联的一个MVC扩展描述符。当MVC视频子位流为MVC基础视图子位流时,MVC扩展描述符将存在于stream_type等于0x1B的相关联PMT或PSM中。表2-97描述MVC扩展描述符的语法。跟随表2-97的段落描述MVC扩展描述符的特定字段的语义。表2-97-MVC扩展描述符average_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的平均位速率。当设定成0时,不指示平均位速率。maximum_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的最大位速率。当设定成0时,不指示最大位速率。view_order_index_min-此10位字段指示包含于相关联MVC视频子位流中的全部NAL单元的视图次序索引的最小值。view_order_index_max-此10位字段指示包含于相关联MVC视频子位流中的全部NAL单元的视图次序索引的最大值。temporal_id_start-此3位字段指示包含于相关联MVC视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最小值。temporal_id_end-此3位字段指示包含于相关联MVC视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最大值。no_sei_nal_unit_present-此1位旗标当设定成‘1’时指示没有SEINAL单元存在于相关联视频子位流中。在no_sei_nal_unit_present旗标针对所有MVC视频子位流设定成‘1’且针对MVC的AVC视频子位流不设定成‘1’或不存在的情况下,任何SEINAL单元(如果存在)均包含于MVC的AVC视频子位流中。如果MVC扩展描述符针对所有MVC视频子位流不存在,那么SEINAL单元可存在于MVC视频子位流的任何MVC视图分量子集中,且可能需要在存取单元重新组合之前,对存取单元内的NAL单元的次序进行重新排序,如建议ITU-TH.264|ISO/IEC14496-10中所定义。no_prefix_nal_unit_present-此1位旗标当设定成‘1’时指示没有前缀NAL单元存在于MVC的AVC视频子位流或MVC视频子位流中。当此位设定成‘0’时,其指示前缀NAL单元仅存在于MVC的AVC视频子位流中。MVC操作点描述符指示用于一或多个操作点的简档和层级信息。所述一或多个操作点中的每一者由一或多个MVC视频子位流的集合构成。如果存在,那么MVC操作点描述符将包含于后接program_map_section中的program_info_length字段的数据元素群组中。如果节目描述内存在MVC操作点描述符,针对同一节目中存在的每一MVC视频子位流,将存在至少一个层级描述符。为了指示不同简档,每简档需要一个MVC操作点描述符。表2-100指定MVC操作点描述符的语法。跟随表2-100的段落描述MVC操作点描述符的字段的语义。表2-100-MVC操作点描述符profile_idc-此8位字段指示MVC位流的此描述符内所描述的所有操作点的简档,如建议ITU-TH.264|ISO/IEC14496-10中所定义。constraint_set0_flag,constraint_set1_flag,constraint_set2_flag,constraint_set3_flag,constraint_set4_flag,constraint_set5_flag-这些字段将根据建议ITU-TH.264|ISO/IEC14496-10中定义的用于这些字段的语义而经译码。AVC_compatible_flags-AVC_compatible_flags的语义确切地等于针对constraint_set2旗标与序列参数集中的level_idc字段之间的2位界定的字段的语义,如建议ITU-TH.264|ISO/IEC14496-10中定义。level_count-此8位字段指示对于其描述操作点的层级的数目。level_idc-此8位字段指示由随后的数据元素群组所描述得操作点的MVC位流的层级,如建议ITU-TH.264|ISO/IEC14496-10中所定义。operation_points_count-此8位字段指示包含在随后的数据元素群组中的列表描述的操作点的数目。applicable_temporal_id-此3位字段指示经重新组合AVC视频流中的VCLNAL单元的temporal_id的最高值。num_target_output_views-此8位字段指示以用于相关联操作点的输出为目标的视图的数目的值。ES_count-此8位字段指示包含于随后的数据元素群组中的ES_reference值的数目。随后的数据元素群组中所指示的基本流一起形成MVC视频位流的操作点。保留值0xff。ES_reference-此6位字段指示存在于识别视频子位流的阶层描述符中的阶层层索引值。可使用AVC视频描述符来用信号表示单个操作点(例如整个MVC视频位流)的简档和层级。除此之外,MVC允许解码可能需要不同简档和/或层级的不同视图子集。MVC操作点描述符的规范支持多个操作点的不同简档和层级的指示。对于HEVC视频流,HEVC视频描述符提供用于识别所述HEVC视频流的译码参数的基本信息,例如简档和层级参数。对于HEVC时间视频子位流或HEVC时间视频子集,HEVC视频描述符提供例如包含于其应用于的基本流中的相关联HEVC最高时间子层表示的信息。含有关联到等于0的TemporalId的时间子层的全部VCLNAL单元和相关联非VCLNAL单元的HEVC时间视频子位流(如建议ITU-TH.265|ISO/IEC23008-2中指定),且可另外含有关联到从1到等于或小于包含在作用中序列参数集中的sps_max_sub_layers_minus1的值的TemporalId的邻接范围的全部时间子层的全部VCLNAL单元和相关联非VCLNAL单元(如建议ITU-TH.265|ISO/IEC23008-2中指定)。HEVC时间视频子集含有一或多个时间子层的全部VCLNAL单元和相关联非VCLNAL单元,其中每一时间子层不存在于对应HEVC时间视频子位流中,且与每一时间子层相关联的TemporalId形成邻接值范围。以下表X-1展示HEVC视频描述符的语法。跟随表X-1的段落提供HEVC视频描述符中的字段的语义定义。表X-1-HEVC视频描述符profile_space,tier_flag,profile_idc,profile_compatibility_indication,progressive_source_flag,interlaced_source_flag,non_packed_constraint_flag,frame_only_constraint_flag,reserved_zero_44bits,level_idc-当HEVC视频描述符应用于HEVC视频流或HEVC完整时间表示时,这些字段将根据建议ITU-TH.265|ISO/IEC23008-2中分别针对用于对应HEVC视频流或HEVC完整时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC视频流或HEVC完整时间表示将符合由这些字段用信号表示的信息。当HEVC视频描述符应用于其对应HEVC最高时间子层表示不是HEVC完整时间表示的HEVC时间视频子位流或HEVC时间视频子集时(即,如建议ITU-TH.265|ISO/IEC23008-2中界定的含有直到包含在作用中序列参数集中的具有等于sps_max_sub_layers_minus1+1的TemporalId的时间子层的全部时间子层的子层表示,如建议ITU-TH.265|ISO/IEC23008-2中指定),profile_space、tier_flag、profile_idc、profile_compatibility_indication、progressive_source_flag、interlaced_source_flag、non_packed_constraint_flag、frame_only_constraint_flag、reserved_zero_44bits、level_idc将根据建议ITU-TH.265|ISO/IEC-2中分别针对用于对应HEVC最高时间子层表示的sub_layer_profile_space、sub_layer_tier_flag、sub_layer_profile_idc、sub_layer_profile_compatibility_flag[i]、sub_layer_progressive_source_flag、sub_layer_interlaced_source_flag、sub_layer_non_packed_constraint_flag、sub_layer_frame_only_constraint_flag、sub_layer_reserved_zero_44bits、sub_layer_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC最高时间子层表示将符合由这些字段用信号表示的信息。HEVC完整时间表示是如建议ITU-TH.265|ISO/IEC23008-2中界定的含有直到包含在作用中序列参数集中的具有等于sps_max_sub_layers_minus1+1的TemporalId的时间子层的全部时间子层的子层表示,如建议ITU-TH.265|ISO/IEC23008-2中指定。HEVC最高时间子层表示是相关联HEVC时间视频子位流或HEVC时间视频子集中具有TemporalId的最高值(如建议ITU-TH.265|ISO/IEC23008-2中界定)的时间子层的子层表示。注意X2-在HEVC视频流中的一或多个序列中,层级可低于在HEVC视频描述符中用信号表示的层级,同时也可发生作为在HEVC视频描述符中用信号表示的简档的子集的简档。然而,在整个HEVC视频流中,将仅使用整个位流语法的子集,其包含于在HEVC视频描述符中用信号表示的简档(如果存在)中。如果HEVC视频流信号中的序列参数集用信号表示不同简档,且不用信号表示额外约束,那么所述流可需要检查来确定整个流符合哪一简档(如果存在的话)。如果HEVC视频描述符将与并不符合单个简档的HEVC视频流相关联,那么应将HEVC视频流分割成两个或更多个子流,使得HEVC视频描述符可用信号表示每一此类子流的单个简档。temporal_layer_subset_flag-此1位旗标当设定成‘1’时指示描述时间层的子集的语法元素包含在此描述符中。对于HEVC时间视频子集且对于HEVC时间视频子位流,此字段将设定成1。当设定成‘0’时,语法元素temporal_id_min和temporal_id_max不包含于此描述符中。HEVC_still_present_flag-此1位字段当设定成‘1’时指示HEVC视频流或HEVC最高时间子层表示可包含HEVC静止图片。当设定成‘0’时,那么相关联的HEVC视频流将不含有HEVC静止图片。注意X3-根据建议ITU-TH.265|ISO/IEC23008-2,IDR图片始终关联到等于0的TemporalId值,因此,如果HEVC视频描述符应用于HEVC时间视频子集,那么HEVC静止图片可仅存在于相关联的HEVC时间视频子位流中。HEVC_24_hour_picture_present_flag-此1位旗标当设定成‘1’时指示相关联HEVC视频流或HEVC最高时间子层表示可含有HEVC24小时图片。对于HEVC24小时图片的定义,参见信息技术的2.1.97-移动图片和相关联音频信息的通用编码:系统,修正3,经由MPEG-2系统的HEVC视频的输送。如果将此旗标设定成‘0’,那么相关联的HEVC视频流将不含有任何HEVC24小时图片。temporal_id_min-此3位字段指示相关联基本流中的全部HEVC存取单元的TemporalId的最小值,如建议ITU-TH.265|ISO/IEC23008-2中界定。temporal_id_max-此3位字段指示相关联基本流中的全部HEVC存取单元的TemporalId的最大值,如建议ITU-TH.265|ISO/IEC23008-2中界定。陈等人的“关于MPEG-2系统的HEVC扩展流的载运(CarriageofHEVCextensionstreamswithMPEG-2Systems)”(MPEG输入文档m31430,第106次MPEG会议,2013年10月,瑞士日内瓦,MPEG输入文档m31430(本文称为“MPEG输入文档m31430”))提出了关于MPEG-2系统的HEVC扩展流的载运的基本设计。具体地说,MPEG输入文档m31430提出将子位流组合在一起以形成操作点。子位流的此组合是通用的且对于例如SHVC、MV-HEVC或甚至3D-HEVC等任何HEVC多层扩展标准起作用。如下概括MPEG输入文档m31430的一些基本设计原理。首先,格鲁恩伯格等人的“ISO/IEC13818-1文本:2013/最终草案修改3-经由MPEG-2系统的HEVC视频的输送(TextofISO/IEC13818-1:2013/FinalDraftAmendment3-TransportofHEVCvideooverMPEG-2Systems)”(ISO/IECJTC1/SC29/WG11MPEG105/N13656,2013年7月,奥地利维也纳(本文称为“n13656”或“FDAM3”))中的阶层描述符用以形成时间子层的阶层。类似地,阶层描述符仅用于当涉及多个层时的时间可缩放性。第二设计原理包括MPEG输入文档m31430中对新描述符的介绍,即阶层扩展描述符,用以形成层的阶层(例如,视图、基础层、增强层)。具体来说,阶层扩展描述符提供用以识别含有阶层式译码的视频、音频和私用流的分量的节目元素的信息。MPEG输入文档m31430假定每一基本流含有不超过一个层。因此,阶层扩展描述符仅涉及对应于一个唯一层的基本流。以下再现如文档m31430中呈现的阶层扩展描述符的语法和语义。表2-49-阶层扩展描述符2.6.98阶层扩展描述符中的字段的语义定义当存在阶层扩展描述符时,其用以指定不同基本流中存在的层的相依性。然而,时间子层的聚集是通过如ISO/IEC13818-1的修正3中指定的阶层描述符来实现的。extension_dimension_bits-16位字段,其指示从由具有等于0的nuh_layer_id的层的节目元素产生的基础层对相关联节目元素的可能增强。将位分配给增强维度如下。位的索引描述0多视图增强1空间可缩放性,包含SNR2深度增强3AVC基础层4MPEG-2基础层3~15保留等于1的第i位指示存在对应的增强维度。hierarchy_layer_index-hierarchy_layer_index是6位字段,其界定译码层阶层的表中的相关联节目元素的唯一索引。索引在单个节目定义内将是唯一的。对于符合建议ITU-TH.265|ISO/IEC23008-2的附录G或H中定义的一或多个简档的HEVC视频流的视频子位流,此为节目元素索引,其以以下方式指派:如果同一存取单元的视频子位流的相关联相关层按hierarchy_layer_index的递增次序重新组合,那么所述位流次序将为正确的。tref_present_flag-1位旗标,当设定成‘0’时指示TREF字段可存在于相关联基本流中的PES包标头中。此旗标的值‘1’是保留的。nuh_layer_id-6位字段指定与此hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高nuh_layer_id。temporal_id-3位字段指定与此hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高TemporalId。num_embedded_layers-6位字段,其指定需要接入且按解码次序存在于与此hierarchy_extension_descriptor()相关联的基本流的解码之前的直接相依性节目元素的数目。hierarchy_ext_embedded_layer_index-hierarchy_ext_embedded_layer_index是6位字段,其界定需要接入且按解码次序存在于与此hierarchy_extension_descriptor相关联的基本流的解码之前的节目元素的hierarchy_layer_index。如果hierarchy_type值为15,那么此字段未经定义。hierarchy_channel-hierarchy_channel是6位字段,其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳健的发射信道由关于整体发射阶层定义的此字段的最低值来定义。注意-给定hierarchy_channel可同时指派给若干节目元素。第三设计原理是阶层扩展描述符含有相似于MV-HEVC/SHVC译码规范的VPS扩展中的信令可缩放性类型的通用设计。另外,可针对当前基本流用信号表示多个相依性基本流。第四设计原理是HEVC扩展描述符的提议。HEVC扩展描述符可被包含为如FDAM3中的HEVC视频描述符的部分。HEVC扩展描述符用信号表示操作点,其中的每一者对应于MV-HEVC/SHVC中的输出层集合。输出层集合是位流的将输出的层的集合。位流还可包含视频解码器不输出但由视频解码器使用以解码输出层集合的参考层。通过指定属于输出层集合的层,操作点的组成依赖于阶层扩展描述符。在此描述符中用信号表示每一操作点的特性,包含简档、层次和层级以及位速率和帧速率。一般来说,“简档”可指位流语法的子集。可在每一简档内指定“层次”和“层级”。层次的层级可以是强加于位流中的语法元素的值的指定约束集合。这些约束可以是对值的简单限制。或者,约束可呈对值的算术组合的约束的形式(例如,图片宽度乘以图片高度乘以每秒解码的图片的数目)。通常,针对更低层次指定的层级比针对更高层次指定的层级受到更多约束。下文再现如m31430中所描述的HEVC扩展描述符的语法。跟随表X的段落提供HEVC扩展描述符的语义。表X-MVC扩展描述符num_operation_points-8位字段指定此描述符中的指定操作点的数目。profile_space-2位字段指定用于0到31(包含性)的范围内的i的全部值的profile_idc的解译的上下文。profile_space将不被指派在建议ITU-TH.265|ISO/IEC23008-2的附录A或子条款G.11中或子条款H.11中指定的那些值除外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。tier_flag-1位字段指定用于如在建议ITUTH.265|ISO/IEC23008-2的附录A或子条款G.11或子条款H.11中指定的level_idc的解译的层次上下文。profile_idc-5位字段,其当profile_space等于0时指示如建议ITU-TH.265|ISO/IEC23008-2的附录A中指定的CVS符合的简档。profile_idc将不被指派在建议ITU-TH.265|ISO/IEC23008-2的附录A或G.11或H.11中指定的那些值除外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。profile_compatibility_indication,progressive_source_flag,interlaced_source_flag,non_packed_constraint_flag,frame_only_constraint_flag,reserved_zero_44bits,level_idc-当HEVC扩展视频描述符应用于HEVC扩展视频流时,这些字段将根据建议ITU-TH.265|ISO/IEC23008-2中分别针对用于对应HEVC视频流或HEVC扩展视频流或HEVC完整时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC视频流或HEVC完整时间表示将符合由这些字段用信号表示的信息。level_idc-8位字段指示如建议ITU-TH.265|ISO/IEC23008-2的附录A、G.11或H.11中指定的CVS所符合的层级。level_idc将不被指派在建议ITU-TH.265|ISO/IEC23008-2的附录A、G.11或H.11中指定的那些值除外的level_idc的值。保留level_idc的其它值以供ITU-T|ISO/IEC将来使用。max_temporal_id-3位字段指定第i操作点中的层的NAL单元的最高TemporalId。reserved_zero_5bits-值‘0’的保留的5位字段。hevc_output_layer_flag-1位字段当经指派值‘1’时指示具有等于i的nuh_layer_id的层属于输出层集合且当第i操作点经解码时需要用于输出。当被指派值‘0’时,具有等于i的nuh_layer_id的层不属于输出层集合。当第ihevc_output_layer_flag等于‘1’时,第ihevc_layer_present_flag的值将等于‘1’。average_bitrate-16位字段指示对应于第i操作点的HEVC扩展视频流的以kbit/秒计的平均位速率。maximum_bitrate-16位字段指示对应于第i操作点的HEVC扩展视频流的以kbit/秒计的最大位速率。frame_rate-16位字段指示对应于第i操作点的HEVC扩展视频流的最大帧速率,以帧/256秒为单位。在MPEG输入文档m31430中,尚未提供如MPEG-2输送流或节目流中界定的从多个基本流的图片的缓冲器管理。举例来说,MPEG输入文档m31430未描述用于多层HEVC(例如,用于SHVC、MV-HEVC或3D-HEVC)的输送流系统目标解码器(T-STD)模型或节目流系统目标解码器模型。因此,现有缓冲模型可能与多层HEVC不兼容。本发明提供基于MPEG输入文档m31430的用于HEVC扩展位流的载运的技术。本发明的技术可单独地使用或彼此结合而使用。根据本发明的第一技术,SHVC、MV-HEVC和3D-HEVC缓冲器模型(包含输送流系统目标解码器(T-STD)模型和节目流系统目标解码器(P-STD)模型)在同一基于层的模型中统一。换句话说,一个T-STD模型可应用于SHVC、MV-HEVC和3D-HEVC,且一个P-STD模型可应用于SHVC、MV-HEVC和3D-HEVC。在一个替代方案中,此些模型可以类似于如针对用于H.264的MVC完成那样的T-STD模型和P-STD的方式来设计。以此方式,视频解码器30可在缓冲器模型(例如,P-STD模型或T-STD模型)中组合来自数据流(即,输送流或节目流)的多个基本流的存取单元。无论基本流是否含有SHVC、MV-HEVC或3D-HEVC位流,视频解码器30都使用同一缓冲器模型。随后,视频解码器30可解码存取单元。换句话说,视频解码器30可对存取单元的经译码图片进行解码。如上文所指出,输送流和节目流包括相应系列的PES包。输送流或节目流的每一相应PES包与多个基本流中的基本流相关联。因此,输送流或节目流可称为包括多个基本流。基本流可包含视频流、音频流和私用流。根据本发明的一或多种技术,位流的每一相应层的每一相应时间子层可对应于不同基本流。这可使得媒体感知网络元件(MANE)或其它装置能够选择性转发与特定层和特定时间子层相关联的PES包而无需剖析或解译PES包的有效负载中的HEVC数据。实际上,MANE或其它装置可能够基于输送流或节目流的节目特定信息中的PES包标头中的数据和各种描述符(例如,HEVC阶层描述符、HEVC扩展描述符等)中的数据而确定是否转发特定PES包。目标解码器(例如,视频解码器30)可能需要在解码存取单元的图片之前重新组合位流的存取单元。换句话说,目标解码器可能需要确保对存取单元的图片进行解码所需要的数据在用于存取单元的解码时间可用。输送流既定用于经由潜在地易错信道(例如,因特网)递送节目,其中在输送包中可存在错误(例如,丢失的PES包、抖动、损坏等)。因此,当目标解码器正在从输送流解码视频时,目标解码器无法假定对存取单元的图片进行解码所需要的数据立即可用。实际上,目标解码器可实施用于输送流的每一节目的缓冲模型。用于输送流的缓冲模型可包含用于与节目相关联的每一相应基本视频流(即,含有视频流的基本流)的相应一组缓冲器。根据本发明的第一技术的实例,用于基本视频流n的一组缓冲器可包含用于基本视频流的输送缓冲器TBn、用于基本视频流的多路复用缓冲器MBn,以及用于基本视频流的HEVC层图片子集缓冲器VSBn。在目标解码器接收输送流的PES包时,目标解码器多路分用输送流以使得属于不同基本流的输送流的PES包存储在不同输送缓冲器中。换句话说,针对与节目相关联的每一相应基本流,视频译码器可针对属于相应基本流的输送流的每一相应PES包将相应PES包存储在用于相应基本流的缓冲器(例如,输送缓冲器)中。因此,用于基本流n的输送缓冲器TBn接收属于基本视频流n的输送包。目标解码器以速率Rxn从输送缓冲器移除输送包。如果输送缓冲器TBn中不存在数据,那么速率Rxn是0。否则,如果输送缓冲器TBn中存在数据,那么速率Rxn等于位速率。如本发明中在别处所描述,目标解码器可基于第一因数(即,CpbBrNalFactor)、第二因数(即,CpbBrVclFactor)和第三因数(即,BitRate[SchedSelIdx])确定位速率。所述第一、第二和第三因数在建议ITU-TH.265|ISO/IEC23008-2中界定。当目标解码器从用于基本流n的输送缓冲器TBn移除输送包时,目标解码器将输送包添加到用于基本流n的多路复用缓冲器MBn。目标解码器一次一个字节地从多路复用缓冲器MBn移除数据。当目标解码器从多路复用缓冲器MBn移除字节时,如果所述字节不是PES包(例如,输送包)标头字节,那么目标解码器将所述字节插入到用于基本流n的HEVC层图片子集缓冲器VSBn中。因此,对于与节目相关联的每一相应基本流,目标解码器可从用于相应基本流的输送缓冲器移除PES包。此外,目标解码器可在用于相应基本流的多路复用缓冲器中存储从用于相应基本流的输送缓冲器移除的PES包。目标解码器可从用于相应基本流的多路复用缓冲器移除字节。此外,目标解码器可在用于相应基本流的HEVC层图片子集缓冲器中存储从用于相应基本流的多路复用缓冲器移除的字节。以此方式,HEVC层图片子集缓冲器VSBn接收输送包的有效负载字节。HEVC层图片子集缓冲器VSBn可充当用于HEVC层图片子集的组合点。如本发明中所使用,HEVC层图片子集是与层识别符集合(即,层识别符值的集合)相关联的存取单元的HEVC层图片的集合。HEVC层图片是如建议ITU-TH.265|ISO/IEC23008-2附录F中界定的具有N13656的章节2.17.1(下文再现)中指定的约束的经译码图片。目标解码器在用于存取单元的解码时间从HEVC层图片子集缓冲器VSBn移除对应于存取单元的数据。举例来说,为了对存取单元AH(j)的图片进行解码,目标解码器可从用于基本流n的HEVC层图片缓冲器VSBn移除对应于解码时间tdn(jn)的HEVC层图片子集VSn(jn)。tdn(jn)指示用于基本流n的HEVC层图片子集VSn(jn)的目标解码器中以秒计测得的解码时间。jn是到界定HEVC层图片子集VSn(jn)的层识别符集合的索引。另外,目标解码器从用于基本流n+1到n+m的HEVC层图片缓冲器VSBn+1到VSBn+m移除HEVC层图片子集VSn+1(jn+1)到VSn+m(jn+m),其中用于HEVC层图片子集VSn+1(jn+1)到VSn+m(jn+m)的解码时间(即,tdn+1(jn+1)到tdn+m(jn+m))等于tdn(jn)。存取单元可为从VSBn到VSBn+m移除的HEVC层子集的组合。以此方式,对于与节目相关联的每一相应基本流,缓冲器模型包括用于相应基本流的缓冲器(例如,HEVC层图片缓冲器)。存取单元包括用于相应基本流的相应HEVC层图片子集。相应HEVC层图片子集包括存取单元的与相应层识别符集合相关联的HEVC层图片。HEVC层图片中的每一者是如建议ITU-TH.265|ISO/IEC23008-2附录F中界定的经译码图片。对于与节目相关联的每一相应基本流,目标解码器可从用于相应基本流的缓冲器移除用于相应基本流的相应HEVC层图片子集。目标解码器可包含存取单元中的相应HEVC层图片子集。用于节目流的缓冲模型(即,P-STD模型)可比用于输送流的缓冲模型(即,T-STD模型)更简单,因为目标解码器可假定节目流中的PES包可用而无与输送流相关联的错误(例如,抖动、损失等)。根据本发明的一或多种技术,位流的每一相应层的每一相应时间子层可对应于节目流的不同基本流。此外,P-STD模型可包含用于节目流的每一相应基本流的HEVC层图片子集缓冲器。在目标解码器接收节目流的包时,目标解码器多路分用节目流以使得属于不同基本流的PES包存储在不同HEVC层图片子集缓冲器中。目标解码器可以如上文关于输送流所描述相同的方式从HEVC层图片子集缓冲器移除对应于存取单元的数据。在一些实例中,取决于所接收输送流或节目流的内容,目标解码器使用不同缓冲器模型。例如,响应于确定节目中存在HEVC层的集合且所述多个基本流中存在作为符合如ITU-T建议H.265|ISO/IEC23008-2的附录G或附录H中界定的一或多个简档的HEVC扩展视频流的至少一个HEVC分层视频子位流,目标解码器可选择关于本发明的第一技术描述的缓冲器模型在组合存取单元时使用。根据本发明的第二实例技术,每一HEVC分层视频流可具有T-STD模型和/或P-STD模型。HEVC分层视频子位流可从一或多个HEVC分层视频子流组合,且在HEVC扩展描述符中表示为操作点。换句话说,HEVC分层视频流对应于操作点且从HEVC分层视频子位流组合。HEVC分层视频子位流含有多个HEVC视频层子位流,其含有具有nuh_layer_id(层识别符)的相同值的VCLNAL单元及其相关联非VCLNAL单元。举例来说,HEVC分层视频子位流可经界定为具有属于HEVC扩展视频流的HEVC层集合的nuh_layer_id的全部VCLNAL单元以及相关联非VCLNAL单元,其符合建议ITU-TH.265|ISO/IEC23008-2的附录F或附录G中界定的一或多个简档。T-STD和P-STD可以上文所描述和本发明中在别处的方式操作。因此,在一些实例中,视频解码器30可使用用于视频数据流的每一相应HEVC分层视频流的缓冲器模型的单独实例来组合存取单元。在此些实例中,每一相应HEVC分层视频流包括多个HEVC视频层子位流,且所述多个HEVC视频层子位流的每一相应HEVC视频层子位流包括具有相同层识别符值的VCLNAL单元。如先前指示,阶层扩展描述符是提供用以识别含有阶层式译码视频、音频和私用流的分量的节目元素的信息的描述符。换句话说,阶层扩展描述符提供关于对应于阶层扩展描述符的节目元素的信息。阶层扩展描述符可包含用于需要接入且按解码次序存在于与所述阶层扩展描述符相关联的基本流的解码之前的每一直接相依性节目元素的hierarchy_ext_embedded_layer_index字段。换句话说,阶层扩展描述符可包含多个hierarchy_ext_embedded_layer_index字段。阶层扩展描述符的每一相应hierarchy_ext_embedded_layer_index字段识别用于对应节目元素(即,对应于阶层扩展描述符的节目元素)的相应直接相依性节目元素。用于对应节目元素的相应直接相依性节目元素是在目标解码器能够解码对应节目元素之前需要对目标解码器可用的节目元素。举例来说,对应节目元素可包含用于非基础层的数据且相应直接相依性节目元素可包含用于基础层的数据。因为相应节目元素可对应于相应层,所以阶层扩展描述符的每一相应hierarchy_ext_embedded_layer_index可识别用于对对应于阶层扩展描述符的层进行解码所需的相应参考层。以此方式,当组合存取单元时,目标解码器可基于对应于当前操作点的输出层的描述符中的一或多个字段而识别对当前操作点的输出层进行解码所需的参考层。根据本发明的第三技术,当从T-STD或P-STD模型中的多个流组合存取单元内的HEVC层图片时,相关联阶层扩展描述符中指示的hierarchy_ext_embedded_layer_index值用以识别用于对当前操作点的输出层进行解码所需的参考层。举例来说,当重新组合第j存取单元AH(j)时,目标解码器可从用于输送流或节目流中的节目的每一节目元素的HEVC层图片子集缓冲器收集HEVC层图片子集。目标解码器收集HEVC层图片子集以使得以下适用:●值y指示层识别符。所述值y大于或等于0。●HEVC层图片子集VSy+1(jy+1)对应于用于层y+1的节目元素。因为y≥0,所以具有层识别符y+1的层是非基础层。●tdy+1(jy+1)表示用于VSy+1(jy+1)的解码时戳(DTS)值。●阶层扩展描述符对应于用于层y+1的节目元素(即,对应节目元素)。●阶层扩展描述符包含零个或更多个hierarchy_ext_embedded_layer_index字段。●对于每一相应hierarchy_ext_embedded_layer_index字段:○相应hierarchy_ext_embedded_layer_index字段具有识别用于对应节目元素的相应直接相依性节目元素的相应值。○VSy(jy)是对应于相应直接相依性节目元素的HEVC层图片子集。○tdy(jy)是用于VSy(jy)的DTS值。○tdy(jy)等于tdy+1(jy+1)。根据本发明的第四技术,如当前HEVCMPEG-2系统中的HEVC定时和HRD描述符可针对每一操作点存在。换句话说,对于每一相应操作点,相应HEVC定时和HRD描述符可存在。HEVC定时和HRD描述符提供定时和HRD参数,如建议ITU-TH.265|ISO/IEC23008-2的附录C中界定,其分别用于其相关联HEVC视频流或HEVC最高时间子层表示。下文在章节2.6.95中提供HEVC定时和HRD描述符的实例语法。在本发明的第四技术的一个实例中,在HEVC_extension_descriptor中,在每一操作点的循环中,可存在HEVC定时和HRD描述符。如上所示,HEVC扩展描述符包含循环(即,“for(i=0;i<num_operation_points;i++){…
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1