在多视图译码文件格式中当前视图对参考视图的相依性的指示的制作方法

文档序号:17655084发布日期:2019-05-15 21:54阅读:119来源:国知局

本申请案主张于2013年1月4日申请的第61/749,089号美国临时申请案的优先权,所述申请案的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码及存储视频内容,且更确切地说,涉及用于存储含有多个经译码视图的视频流的技术。



背景技术:

数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主机、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电传会议装置、视频流式传输装置、转码器、路由器或其它网络装置,及其类似者。数字视频装置实施视频压缩技术,例如,在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分(高级视频译码(AVC))定义的标准、目前在开发中的高效率视频译码(HEVC)标准、专属标准、例如VP8等开放视频压缩格式及此些标准、技术或格式的扩展中描述的技术。视频装置可通过实施此些视频压缩技术来更有效地传输、接收、编码、解码及/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中所固有的冗余。对于基于块的视频译码,可将视频切片(即,视频帧或视频帧的部分)划分成视频块,视频块还可被称作宏块、树型块、译码单元(CU)及/或译码节点。视频块自身可再分成(例如)较小视频块或分割区,且所述分割区可进一步再分。举例来说,宏块可再分成通常被称作分割区的较小视频块,且分割区中的一些可再分成甚至更小的视频块。

可使用相对于同一图片中的相邻块中的参考样本的空间预测来编码在帧内(I)模式中译码的视频块。在帧间模式(例如,预测性(P)或双向预测性(B)模式)中译码的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。空间或时间预测产生待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成预测性块的参考样本的块的运动向量及指示经译码块与预测性块之间的差的残余数据编码经帧间译码块。根据帧内译码模式及残余数据来编码经帧内译码块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生接着可经量化的残余变换系数。可扫描最初布置成二维阵列的经量化变换系数以便产生变换系数的一维向量,且可应用熵译码以达成甚至更多压缩。



技术实现要素:

本发明涉及用于存储视频数据的各种技术。确切地说,本发明描述用于存储含有多个经译码视图的视频流的技术。

在本发明的一个实例中,描述一种处理视频数据的方法。所述方法包含剖析视频数据的轨迹,其中所述轨迹包含一或多个视图。所述方法进一步包含剖析信息以确定需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者。

在另一实例中,描述一种用于处理视频数据的装置,所述装置包括一或多个处理器。所述一或多个处理器经配置以剖析视频数据的轨迹,其中所述轨迹包含一或多个视图。所述一或多个处理器经进一步配置以剖析信息以确定需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者。

还描述一种非暂时性计算机可读存储媒体,其具有存储于其上的指令。在执行时,所述指令致使视频译码装置的一或多个处理器剖析视频数据的轨迹,其中所述轨迹包含一或多个视图。执行所述指令进一步致使视频译码装置的所述一或多个处理器剖析信息以确定需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者。

在另一实例中,描述一种设备,所述设备经配置以剖析包含经译码视频内容的视频文件。所述设备包含用于剖析视频数据的轨迹的装置,其中所述轨迹包含一或多个视图。所述设备进一步包含用于剖析信息以确定需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者的装置。

在另一实例中,描述一种处理视频数据的方法。所述方法包含:编制视频数据的轨迹,其中所述轨迹包含一或多个视图;及编制指示需要参考视图的纹理视图还是深度视图以用于解码所述轨迹中的所述一或多个视图中的至少一者的信息。

在另一实例中,一种用于处理视频数据的装置包含一或多个处理器。所述一或多个处理器经配置以编制视频数据的轨迹,其中所述轨迹包含一或多个视图。所述一或多个处理器经进一步配置以编制指示需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者的信息。

还描述一种非暂时性计算机可读存储媒体,其具有存储于其上的指令。在执行时,所述指令致使视频译码装置的一或多个处理器编制视频数据的轨迹,其中所述轨迹包含一或多个视图。执行所述指令进一步致使视频译码装置的所述一或多个处理器编制指示需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者的信息。

在另一实例中,描述一种设备,所述设备经配置以剖析包含经译码视频内容的视频文件。所述设备包含用于编制视频数据的轨迹的装置,其中所述轨迹包含一或多个视图。所述设备进一步包含用于编制指示需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者的信息的装置。

一或多个实例的细节陈述于附图及以下描述中。其它特征、目标及优势将从所述描述及所述图式以及从权利要求书而显而易见。

附图说明

图1为说明可根据本发明中所描述的技术产生的实例MVC+D媒体文件的结构的概念图。

图2说明可包含于根据本发明中所描述的技术产生的媒体文件中的MVC+D存取单元的实例。

图3为说明可利用本发明中所描述的技术的实例视频编码及解码系统的框图。

图4为说明可实施本发明中所描述的技术的实例视频编码器的框图。

图5为说明可实施本发明中所描述的技术的实例视频解码器及解封装模块的框图。

图6为说明可实施本发明中所描述的技术的实例封装模块的组件的框图。

图7为说明可实施本发明中所描述的技术的形成网络的部分的实例装置集合的框图。

图8为说明根据本发明中所描述的技术的剖析指示纹理及深度视图的存在的含有多视图视频内容的媒体文件的实例方法的流程图。

图9为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件以指示纹理及深度视图的存在的实例方法的流程图。

图10为说明根据本发明中所描述的技术的剖析指示视图的相依性的含有多视图视频的媒体文件的实例方法的流程图。

图11为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件以指示视图的相依性的实例方法的流程图。

图12为说明根据本发明中所描述的技术的剖析含有多视图视频的媒体文件以确定深度视图的空间分辨率的实例方法的流程图。

图13为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件以指示深度视图的空间分辨率的实例方法的流程图。

图14为说明根据本发明中所描述的技术的剖析含有多视图视频的媒体文件的实例方法的流程图,其中特定视图的纹理及深度视图存储于分轨中。

图15为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件的实例方法的流程图,其中特定视图的纹理及深度视图存储于分轨中。

具体实施方式

一般来说,本发明涉及封装及解封装视频内容,及将经译码视频内容存储于文件中。本发明描述用于存储视频内容的各种技术,包含(例如)将根据HEVC视频标准译码的视频内容存储于基于国际标准组织(ISO)基础媒体文件格式(ISOBMFF)的文件中。确切地说,本发明描述用于将含有多个经译码视图的视频流封装于媒体文件中的技术。贯穿本发明,术语“媒体文件”可与“视频文件”互换地使用。本文中揭示用于在基于ISOBMFF的文件中编制及剖析含有多个经译码视图的视频流的各种方法,其中每一视图可仅含有纹理视图,仅含有深度视图或含有纹理视图及深度视图两者。

视频译码标准的实例包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也被称作ISO/IEC MPEG-4AVC),包含其可扩缩视频译码(SVC)及多视图视频译码(MVC)扩展。另外,存在正由ITU-T视频译码专家群(VCEG)及ISO/IEC动画专家群(MPEG)的视频译码联合协作组(JCT-VC)开发的新的视频译码标准,即,高效率视频译码(HEVC)。HEVC的新近工作草案(WD)题为“High Efficiency Video Coding(HEVC)text specification draft 9”(本文中被称作“HEVC工作草案9”或“HEVC WD9”),描述于Bross等人的文件JCTVC-K1003_v11(ITU-T SG16 WP3及ISO/IEC TJC1/SC29/WG11的视频译码联合协作组(JCT-VC),第11次会议,中国上海,2012年10月10日到19日)中,其可从http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v11.zip得到。

在JCT-3V及JCT-VC中,还在开发各种AVC及HEVC扩展。在JCT-3V中,正开发两个HEVC扩展,即多视图扩展(MV-HEVC)及3D视频扩展(3D-HEVC)。另外,正开发两个AVC扩展,即MVC+D及3D-AVC。

正在形成中的标准的新近版本为如下。M.Hannuksela(Nokia)、Y.Chen(Qualcomm)、G.Sullivan(Microsoft)、T.Suzuki、S.Hattori(Sony)的日期为2012年10月的文件JCT3V-B1001,题为“Study Text of ISO/IEC 14496-10:2012/DAM2 MVC extension for inclusion of depth maps”且可在http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/2_Shanghai/wg11/JCT3V-B1001-v1.zip得到。此也被称作MVC+D或三维视频译码(3VC),且经译码视频可被称作三维视频(3DV)。三维视频译码还可被称作三维视频译码。M.M.Hannuksela、Y.Chen、T.Suzuki、J.-R.Ohm、G.J.Sullivan的文件JCT3V-B1002,题为“3D-AVC draft text 4”且可在http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/2_Shanghai/wg11/JCT3V-B1002-v1.zip得到。G.Tech、K.Wegner、Y.Chen、M.Hannuksela的文件JCT3V-B1004,题为“MV-HEVC Draft Text 2”且可在http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/2_Shanghai/wg11/JCT3V-B1004-v1.zip得到。G.Tech、K.Wegner、Y.Chen、S.Yea的文件JCT3V-B1005,题为“3D-HEVC Test Model 2”且可在http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/2_Shanghai/wg11/JCT3V-B1005-v1.zip得到。

本发明涉及将视频内容存储于电子数据文件中。为了存储根据特定视频标准译码的视频内容,对应于特定视频标准的文件格式规范可有帮助。详细来说,此文件揭示用于将含有多个经译码视图的视频流存储于基于ISO基础媒体文件格式(ISOBMFF)的文件中的各种方法,其中每一视图可仅含有纹理视图,仅含有深度视图,或含有两者。在译码扩展标准中的各种标准中,可存在多个视图或层。此外,不同层、纹理或深度视图可具有不同空间分辨率。描述用于将经编码视频封装于文件中的技术,且还描述用于解封装文件以检索经编码的视频内容的技术。

文件格式标准包含ISO基础媒体文件格式(ISOBMFF,ISO/IEC 14496-12)及从ISOBMFF衍生的其它格式,包含MPEG-4文件格式(ISO/IEC 14496-14)、第三代合作伙伴计划(3GPP)文件格式(3GPP TS 26.244)及AVC文件格式(ISO/IEC 14496-15)。ISOBMFF可被用作许多编码器-解码器(编解码器)封装格式(例如,AVC文件格式)以及许多多媒体容器格式(例如,MPEG-4文件格式、3GPP文件格式(3GP)及DVB文件格式)的基础。

HEVC文件格式使用ISOBMFF作为其封装格式的基础。HEVC文件格式的最新草案(在本文中被称作“HEVCFF”)是根据ISO/IEC 14496-15:2010/Amd.1:2011(E)而定义,且包含以下规范性参考:ISO/IEC 14496-15,信息技术,音频视觉对象的译码,第15章:以ISO基础媒体文件格式(即,ISOBMFF)输送NAL单元结构化视频。

ISOBMFF被用作许多视频译码标准封装格式以及许多多媒体容器格式的基础。基于ISOBMFF的其它文件格式的实例包含(例如)MPEG-4文件格式(ISO/IEC 14496-14)、3GPP文件格式(3GPP TS 26.244)及AVC文件格式(ISO/IEC 14496-15)(即,AVCFF)。此外,应注意,尽管本文中所揭示的技术在一些实例中涉及HEVC来描述且可参考特定文件格式,但所述技术同样可适用于其它视频译码标准及文件格式。

除了连续媒体(例如,音频及视频)之外,静态媒体(例如,图像)以及元数据还可存储于遵照ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于达成许多用途,包含本地媒体文件播放、远程文件的渐进下载、用于经由超文本传送协议(HTTP)的动态自适应流式传输(DASH)的区段、用于待流式传输的内容及其分组指令的容器,及所接收的实时媒体流的记录。一般来说,ISOBMFF允许与元数据独立地存储连续媒体数据(例如,音频及视频数据)。在一个实例中,媒体数据可包含根据HEVC译码的图片的群组。元数据通常包含呈现及时序信息以使得媒体数据的部分可独立地解码。

ISOBMFF使用基于面向对象的方案,其中基本语法元素被用作建置块以形成媒体文件。在ISOBMFF中,此些基本语法元素被称作“框”。然而,基于ISOBMFF的特定文件格式可使用例如“原子”等不同术语来指框。此外,应注意,当描述基于ISOBMFF的特定文件格式时,特定术语常常可以与HEVCFF术语以非限制性方式互换地使用。举例来说,当描述HEVCFF时,术语“存取单元”可对应于ISOBMFF中的术语“样本”,且可使用任一种术语来描述存取单元。

在ISOBMFF中,框(即基本语法元素)包含四字符类型、框的字节计数及有效负载。框类型定义特定框与其它类型的框之间的逻辑关系。框类型还可描述对于特定框类型什么数据是强制性的且对于特定框类型什么数据是可选的。框可为框的序列或群组的部分,且可含有可被称作子框的其它框。

在ISOBMFF中,电影框(“moov”)含有用于存在于文件中的连续媒体流的元数据。用于存在于文件中的连续媒体流的元数据可进一步被围封于电影框中的额外框(例如,轨迹框(“trak”))内。连续媒体流可在ISOMBFF文件中表示为轨迹,其中轨迹为参考可围封于电影逻辑帧内的元数据的逻辑结构,且其中媒体流由样本序列组成。在ISOBMFF中,媒体流可围封于框(例如,媒体数据框(“mdat”)及其子框)内。此外,在一些实例中,媒体流可直接存储于ISOBMFF文件中。用于轨迹的媒体内容由样本(例如,音频或视频存取单元)序列组成。样本序列可被称作流。ISOBMFF指定含有基本媒体流的媒体轨迹。用于每一轨迹的元数据包含样本描述项的列表,每一样本描述项提供用于轨迹中的译码或封装格式及用于处理所述格式的初始化数据。每一样本与轨迹的样本描述项中的一者相关联。基于ISOBMFF的一些文件类型还包含提示轨迹。提示轨迹包含信息,所述信息促进媒体内容的重建构以使得当经由网络流式传输媒体内容时质量及可靠性得到改进。

ISOBMFF指定以下类型的轨迹:含有基本媒体流的媒体轨迹、包含媒体传输指令或表示所接收的包流的提示轨迹,及包括时间同步元数据的定时元数据轨迹。

尽管最初是设计用于存储,但已证明ISOBMFF对于流式传输来说(例如,对于渐进下载或DASH来说)是极有价值的。为了达成流式传输用途,可使用按ISOBMFF定义的电影片段。

用于每一轨迹的元数据包含样本描述项的列表,每一样本描述项提供用于轨迹中的译码或封装格式及用于处理所述格式的初始化数据。每一样本与轨迹的样本描述项中的一者相关联。

ISOBMFF使得能够使用各种机制来指定样本特定元数据。样本表框(“stbl”)内的特定框已经标准化以响应于常见需求。举例来说,同步样本框(“stss”)用以列出轨迹的随机存取样本。同步样本对于分别包含MVC或3VC配置记录的任何样本项识别MVC或3VC位流的瞬时解码刷新(IDR)存取单元的存在。样本分组机制使得能够根据四字符分组类型将样本映射到共享如文件中的样本群组描述项所指定的相同性质的样本群组中。在ISOBMFF中已指定若干分组类型。

类似于根据ISOBMFF存储的文件,HEVC文件可包含参考元数据的一系列基本流。在HEVCFF中,样本可被称作如ISO/IEC 23008-2中所定义的存取单元。在HEVCFF中,元数据还可包含于样本描述项中。HEVCFF可允许提示,但其应注意,在一些文件格式中由提示轨迹称作“B帧”的帧实际上可为如ISO/IEC 23008-2中所定义的“抛弃式”图片或非参考图片。此外,用于存储HEVC视频内容的文件格式可使用ISOBMFF的现有能力,但还可定义扩展以支持特定HEVC经译码视频内容特征,例如:参数集、时间可扩缩性及随机存取恢复点。

在大多数状况中,为了存储基于ISOBMFF的特定视频编解码器的视频内容,使用所述视频编解码器的文件格式规范。在一些状况下,为了存储含有具有经译码为标准的扩展的深度的多个经译码视图的视频流,与所述标准兼容的文件格式可用于具有深度的多个经译码视图。举例来说,可重新使用用于MVC的文件格式(其为AVC文件格式的部分)以用于存储含有多个经译码视图加深度(MVC+D)的视频流。使用用于MVC的文件格式以存储MVC+D是有可能的,这是因为MVC+D的设计是基于MVC。然而,直接应用MVC文件格式以用于存储MVC+D内容具有至少以下缺点。首先,将没有办法来指示包含于轨迹中的视图是仅含有纹理视图,仅含有深度视图,还是含有纹理视图分量及深度视图分量两者。此外,将没有办法来指示需要第一视图中的第二视图所取决于的哪一部分(纹理视图、深度视图或两者)以用于解码第二视图。而且,将没有办法在不剖析由深度视图分量参考的序列参数集(SPS)的情况下将深度视图的空间分辨率发信。

本发明的技术可解决以上问题中的一或多者,以及提供其它改进,以使得能够有效地及灵活地存储含有具有深度的多个经译码视图的视频流。尽管此描述特定针对基于MVC文件格式的MVC+D视频流的存储,但本文中所描述的技术可适用于任何用于存储由任何视频编解码器译码的此视频内容的文件格式。ISO/IEC 14496-15的条款7指定MVC文件格式。本发明的技术可将ISO/IEC 14496-15的条款7扩展到含有具有深度的多个视图的3D视频译码(3VC)数据的存储。在本发明中定义若干新的框及样本项类型。

单一媒体文件可含有多个轨迹(例如,电影及音频轨迹,例如视频数据流146及音频数据流148)。样本项提供样本或轨迹的顶部级别标头信息的存储(在一些实例中,轨迹可由一或多个样本组成)。样本可为(例如)存取单元(例如,存取单元150-1)或存取单元的部分(例如,在MVC或3VC轨迹中)。样本项将轨迹或样本的相关译码信息(例如,配置文件、级别及层级信息)以及其它高级别信息提供给用于轨迹的编解码器。在一些实例中,一或多个样本项存在于具有深度的多视图媒体文件142中。

根据本文中所描述的技术,改变在MVC文件格式中所定义的视图识别符框。在一个实例中,可改变视图识别符框以对于包含于与视图识别符框相关联的轨迹中的视图中的每一者指示,纹理视图及/或深度视图在轨迹中及在流中的存在。在另一实例中,可改变视图识别符框以指示如何需要参考视图的纹理视图及深度视图以用于解码特定视图。举例来说,可能需要仅纹理视图、仅深度视图或参考视图的两个视图来解码特定视图。视图识别符框可包含于样本项或多视图群组项中。

本发明的技术还支持将深度视图的空间分辨率发信。可在新定义的3VC深度分辨率框中指示深度视图的空间分辨率。3VC深度分辨率框可包含于新定义的3VC配置框中。3VC配置框包含3VC解码器配置记录3VCDecoderConfigurationRecord,且包含于类型‘3vc1’或‘3vc2’的任一样本项中的至少一者中。3VC配置框可包含于另一样本项中。3VC解码器配置记录经定义以具有与MVCDecoderConfigurationRecord相同的语法,但具有不同语义以指示与3VC视频流有关的特性。

在一些实例中,定义3VC可扩缩性信息补充增强信息(SEI)消息框(在本文中被称作“SEI消息框”)。SEI消息框含有在MVC+D编解码器规范中定义的3DVC可扩缩性信息SEI消息。SEI消息框可包含于样本项中。

此外,本发明的技术提供特定视图的纹理视图及深度视图在分轨中的存储。在一些实例中,定义具有类型值‘deps’的新轨迹参考类型,所述类型值的存在指示当前轨迹含有与参考轨迹中的纹理视图相关联的深度视图。

在一些实例中,新的值Compressorname被推荐用于含有3VC视频流的文件。新的名称为“\0123VC Coding”。

本文中所描述的技术引入两个新的样本项类型,即用于仅具有深度NAL单元的3VC轨迹的‘3vc1’及‘3vc2’。提取器在‘3vc1’中不被允许且在‘3vc2’中是允许的。进一步定义一些现有样本项类型。针对具有AVC、MVC及深度NAL单元的3VC轨迹,定义了样本项类型‘avc1’以含有AVC、MVC及3VC配置。针对不具有AVC NAL单元但具有MVC及深度NAL单元的3VC轨迹,进一步定义了样本项类型‘mvc1’以含有MVC及3VC配置,其中提取器是不允许的。针对不具有AVC NAL单元但具有MVC及深度NAL单元的3VC轨迹,进一步定义了样本项类型‘mvc2’以含有MVC及3VC配置,其中提取器是允许的。应注意,样本项类型的其它名称可与上文所描述的类似语义一起使用。

图1为说明可根据本发明中所描述的技术产生的实例具有深度的多视图媒体文件142的结构的概念图。具有深度的多视图媒体文件142是基于ISOBMFF及当前AVC文件格式。应注意,图1中的实例具有深度的多视图媒体文件142意欲说明数据流与元数据之间的逻辑关系。在其它实例中,媒体文件142可是基于其它媒体文件格式。类似于本文中针对具有深度的多视图媒体文件142所描述的技术的技术可适用于其它文件格式以容许三维视频。出于简洁起见,尚未说明具有深度的多视图媒体文件142的完整封装结构。然而,具有深度的多视图媒体文件142可利用根据ISOBMFF及AVC文件格式定义的框及封装结构。

MVC及3VC流的存储可由数个结构支持,所述结构包含样本项中的信息、媒体信息框及样本群组。表1提供对所提供的结构、其名称及其功能的简短描述的概述。更具体来说,表1提供用于MVC及3VC流的实例框、样本项及群组结构。注意,以左边栏中的项(例如,‘minf’及‘?vc?’)开始的每一群组的列记录所述容器内的内含项目结构;然而,并未展示较高级别内含项目。

表1

样本项内的结构提供用于解码或使用与所述样本项相关联的样本(例如,视频信息)的信息。在(例如)提取轨迹内的媒体的子集的帮助下,样本群组提供关于轨迹整体的时变信息。多视图信息框(出现于媒体信息框中)中的信息可横跨若干轨迹且描述轨迹的集合,即使多视图信息框驻留于含有流的基础视图的轨迹中也是如此。

在一些实例中,MVC及3VC视频基本流含有所有与视频译码有关的NAL单元(即,含有视频数据或发信视频结构的那些NAL单元),且可含有与视频译码无关的NAL单元,例如SEI消息及存取单元定界符NAL单元。而且,聚合器或提取器可存在于MVC及3VC视频流中。可存在未明确禁止的其它NAL单元,且如果未辨识出所述其它NAL单元,那么可忽略所述其它NAL单元(例如,在存取文件时未置于输出缓冲器中)。在需要时,还可使用相关联的参数集流来存储MVC及3VC流。在MVC视频基本流中可能存在AVC VCL NAL单元、MVC VCL NAL单元及非VCL NAL单元。在3VC视频基本流中可能存在AVC VCL NAL单元、MVC VCL NAL单元、深度VCL NAL单元及非VCL NAL单元。另外,在MVC或3VC视频基本流中可能存在聚合器或提取器NAL单元。

具有深度的多视图媒体文件142可存储连续媒体(例如,音频及视频)、静态媒体(例如,图像)及元数据。ISOBMFF中的基本语法结构为框,所述框包含四字符经译码框类型、框的字节计数及有效负载。具有深度的多视图媒体文件142由框序列组成。在图1中所说明的实例中,具有深度的多视图媒体文件142包含电影框144、视频数据流146-1到146-N(在本文中统称为“视频数据流146”)及音频数据流148-1到148-N(在本文中统称为“音频数据流148”),其中N可为任何正整数,且对于图1中的N的不同执行个体可为相同或不同数目。

视频数据流146可对应于ISOBMFF中所描述的视频或视觉轨迹。视频流可由具有深度的多视图媒体文件142中的一个视频轨迹表示。视频数据流146-1到146-N中的每一者可包含一或多个存取单元150-1到150-N(在本文中统称为“存取单元150”)。具有深度的多视图媒体文件142中的存取单元150可根据ISOBMFF(或更具体来说,MVC或HEVCFF)来定义。存取单元150可对应于ISOBMFF中的样本。存取单元150可经外部地组帧且具有由所述外部组帧提供的大小。在一些状况下,元数据框154可包含定义存取单元150的大小的信息。存取单元150可包含NAL(即,网络抽象层)单元152-1到152-N(在本文中统称为“NAL单元152”)的集合。NAL单元152可根据HEVCFF来定义。

每一NAL单元152可包含长度字段,其指示(例如)按字节或与数据存储相关联的其它长度或大小单位的NAL单元的长度。在一些实例中,长度字段可经配置成一个、两个或四个字节。长度字段使得能够容易扫描存取单元150内的NAL单元。NAL单元152可含有如ISO/IEC 23008-2中所指定的NAL单元数据。除了其它类型的NAL单元之外,HEVCFF还定义NAL单元的以下类型:可被称作VCL NAL单元的视频数据NAL单元、补充增强信息(SEI)NAL单元及存取单元(AU)定界符NAL单元以及其它类型的NAL单元。应注意,在ISO/IEC 23008-2中所保留的NAL单元类型可在未来获得定义。一些文件读取器可经配置以忽略具有NAL单元类型的保留值的NAL单元(当所述NAL单元存在于此些阵列中时)。应注意,设计此‘容忍’行为以使得不会出现错误,从而有可能在未来规范中进行对此些阵列的回溯兼容扩展。VCL NAL单元可经格式化以使得用于单一图片的所有经译码切片NAL单元含于存取单元内,所述存取单元的解码时间及编制时间为所述图片的解码时间及编制时间。此外,可能需要存取单元150含有至少一个视频数据NAL单元。

电影框144可类似于ISOBMFF‘moov’框。如本文中所描述,‘moov’为在ISOBMFF中定义的用于电影框144的四字符经译码框类型。此外,框可含有其它框。电影框144(“moov”)含有用于存在于具有深度的多视图媒体文件142中的任何连续媒体流146及148的元数据。

电影框144可含有一或多个元数据框154。元数据框154可类似于且可含有用于视频数据流146及/或音频数据流148中的每一者的元数据。在一个实例中,元数据可包含于一或多个元数据表156中,所述一或多个元数据表156包含于一或多个元数据框154中。元数据表156可包含对应于视频数据流146的样本项。元数据表156的一个实例为样本表框。视频数据流146中的每一者可参考元数据表156中的一或多者。

ISOBMFF使得能够使用各种机制来指定样本特定元数据。元数据框154可进一步包含样本表框162内的特定框以含有其它元数据信息,例如进一步含有样本项的样本描述框。用于样本表框162的四字符经译码框类型可为“stbl”。举例来说,同步样本框164可用以列出轨迹的随机存取样本。用于同步样本框164的四字符经译码框类型可为“stss”。样本分组机制使得能够根据四字符分组类型将样本映射到共享如具有深度的多视图媒体文件142中的样本群组描述项所指定的相同性质的样本群组中。在ISOBMFF中已指定若干分组类型。

在一些实例中,阴影同步框未用于由任何MVC或3VC样本项描述的视频数据。

在一些实例中,可使用独立及抛弃式样本框。如果独立及抛弃式样本框被用于既AVC兼容又MVC兼容的轨迹中,那么不管使用MVC数据(及可能仅AVC数据)的哪一有效子集,由独立及抛弃式样本框指示的信息皆为真。如果信息变化,那么可使用‘未知’值(字段sample-depends-on、sample-is-depended-on及sample-has-redundancy的值0)。如果在与所有AVC、MVC及3VC兼容的轨迹中使用独立及抛弃式样本框,那么应注意不管使用3VC数据(可能仅AVC数据或仅MVC数据)的哪一有效子集,所述陈述皆为真。如果信息变化,那么可使用‘未知’值(字段sample-depends-on、sample-is-depended-on及sample-has-redundancy的值0)。

具有深度的多视图媒体文件142可包含随机存取恢复样本群组及随机存取点样本群组。对于由类型‘avc1’或‘avc2’的样本项描述的视频数据,随机存取恢复样本群组及随机存取点样本群组对于操作于整个位流上的所有AVC解码器、MVC解码器及3VC解码器分别识别随机存取恢复点及随机存取点。对于由MVC样本项类型描述的视频数据,随机存取恢复样本群组识别整个MVC位流中的随机存取恢复,且随机存取点样本群组识别整个MVC位流中的随机存取点。对于由3VC样本项类型描述的视频数据,随机存取恢复样本群组可识别整个3VC位流中的随机存取恢复,且随机存取点样本群组识别整个3VC位流中的随机存取点。

电影框144可进一步含有一或多个轨迹框158及一或多个媒体数据框160。用于轨迹的元数据被围封于至少一个轨迹框158中。用于轨迹框158的四字符经译码框类型可为“trak”。轨迹的媒体内容被围封于媒体数据框160中或直接在单独文件中。用于媒体数据框160的四字符经译码框类型可为“mdat”。用于轨迹的媒体内容由样本(例如,音频或视频存取单元)序列组成。

存在于具有深度的多视图媒体文件142中的连续媒体流可以轨迹来表示。ISOBMFF指定以下类型的轨迹:含有基本媒体流的媒体轨迹、包含媒体传输指令或表示所接收的包流的提示轨迹,及包括时间同步元数据的定时元数据轨迹。

MVC或3VC流可以多个方式置于轨迹中,其中有如下方式:所有视图在一个轨迹中,以样本群组来标记;每一视图(包含纹理视图及深度视图两者(当两者皆存在时))在其自身轨迹中,在样本项中加以标记;混合式,一个轨迹含有所有视图及一或多个单视图轨迹各自含有可独立地译码的视图;预期操作点各自在一轨迹中(例如,AVC基础、立体对、多视图场景或3VC场景);及对于仅3VC,每一纹理或深度视图在其自身轨迹中,在样本项中加以标记。

MVC及3VC文件格式允许将一或多个视图存储到轨迹中。例如,当内容提供者想要提供并不意欲用于构造子集的多视图位流时,或当已针对输出视图的几个预定义集合(例如,1个、2个、5个或9个视图)产生位流(其中可相应地产生轨迹)时,可使用每一轨迹存储多个视图。如果一个以上视图存储于轨迹中且存在表示MVC或SVC位流的若干轨迹(一个以上),那么可推荐使用样本分组机制。样本分组机制可用以定义识别存在于轨迹中的视图的层级,且用以方便地提取用于某些操作点的所需要的NAL单元。样本分组机制通常与聚合器NAL单元一起使用以形成样本内的规则NAL单元模式。因此,针对MVC及3VC指定了样本群组的类SVC的样本分组、聚合器及视图定义。

若干技术被包含于本发明中以指示包含于轨迹中的视图是仅含有纹理视图,仅含有深度视图,还是含有纹理视图及深度视图两者;指示需要第一视图中的第二视图所取决于的哪一部分(纹理视图、深度视图或两者)以用于解码第二视图;将深度视图的空间分辨率发信以使得不需要剖析由深度视图分量参考的序列参数集(SPS);及改进含有具有深度的多个经译码视图的视频流的存储的效率及灵活性。

此外,在一些实例中支持将特定视图的纹理视图及深度视图存储在分轨中。定义具有类型值‘deps’的新轨迹参考类型。新轨迹参考类型‘deps’的存在可指示当前轨迹含有与参考轨迹中的纹理视图相关联的深度视图。在替代实例中,用类型值‘tref’来定义一新类型的轨迹参考,所述类型值在轨迹中的存在指示当前轨迹取决于存储于所参考轨迹中的纹理视图。在另一替代实例中,用类型值‘dref’来定义另一新类型的轨迹参考,所述类型值在轨迹中的存在指示当前轨迹取决于存储于所参考轨迹中的深度视图。

具有深度的多视图媒体文件142可进一步含有一或多个视图识别符框172,视图识别符框172可包含于样本项或多视图群组项中。举例来说,视图识别符框172可指示对于包含于轨迹中的每一视图来说,纹理及/或深度视图在轨迹中及在视频流中的存在。在另一实例中,视图识别符框172可指示如何需要参考视图的纹理视图及深度视图以用于解码特定视图。即,视图识别符框172可含有语法信息,所述语法信息指示是仅需要纹理视图,仅需要深度视图,还是需要纹理视图及深度视图两者以解码特定视图。如本文中所使用,编码可指根据指定文件格式编制或存储信息,且解码可指根据文件格式剖析信息。通常,译码可指编制或剖析。

具有深度的多视图媒体文件142可进一步含有一或多个3VC配置框168。3VC配置框168可包含3VC解码器配置记录。3VC解码器配置记录可被命名为3VCDecoderConfigurationRecord。3VC解码器配置记录可包含与MVCDecoderConfigurationRecord类似的语法,但具有不同语义以指示与3DV视频流有关的特性。3VC配置框可包含于样本项中,在一些实例中,必须包含于类型‘3vc1’或‘3vc2’的样本项中。

本发明的技术还支持将深度视图的空间分辨率发信。3VC配置框168可进一步包含3VC深度分辨率框170。可在3VC深度分辨率框170中将深度视图的空间分辨率发信。在其它实例中,可将3VC深度分辨率框170直接添加到样本项中。在另一替代实例中,可在3VC解码器配置记录中直接将深度视图的宽度及高度发信。

具有深度的多视图媒体文件142可进一步含有一或多个3VC可扩缩性信息SEI消息框166。3VC可扩缩性信息SEI消息框166可含有在MVC+D编解码器规范中定义的3DVC可扩缩性信息补充增强信息(SEI)消息。在一些实例中,3VC可扩缩性信息SEI消息框166可包含于样本项中。

具有深度的多视图媒体文件142可进一步含有多视图群组框174。多视图群组框174可指示用于译码视频数据流146的操作点,包含3DV操作点。在一个实例中,多视图分组为结构及分组机制,其指示NAL单元与不同可扩缩性类型及层次结构级别的关联。用于多视图群组框174的四字符经译码框类型可为‘mvcg’。在一些实例中,多视图群组框174可含于多视图信息框(‘mvci’)中。在具有深度的多视图媒体文件142中可存在零个或零个以上多视图群组框174。

多视图群组框174可指定用于MVC或3VC流的被输出的视图的多视图群组。可基于track_id、tier_id或view_id指示目标输出视图。当包含于轨迹中的视图匹配操作点时,track_id(即,entry_type等于0)可用于多视图群组框174内。当多视图样本分组在使用中且层级涵盖一个以上视图或一些层级含有位流的时间子集时,tier_id(即,entry_type等于1)可用于多视图群组框174内。否则,可使用基于view_id的指示(即,entry_type等于2或3)中的一者。

当entry_type等于0或1时,以下情形可适用。包含于多视图群组框174中的轨迹或层级中的每一视图为目标输出视图,且如果包含于此框中的轨迹或层级含有多个视图,那么所有所含有的视图为目标输出视图。

用于多视图群组框174的语义包含语法元素num_entries,语法元素num_entries可指示包含于多视图群组中的轨迹(项类型0)、层级(项类型1)、目标输出视图(项类型2)或目标输出视图的连续集合(项类型3)的数目。

本文中所描述的另一技术包含定义共同属性及/或区别属性以指示多视图群组框174中所指示的3DV操作点是否存在。在另一实例中,信息可包含于多视图群组框174中以指示多视图群组框174中所指示的操作点是3DC操作点还是MVC操作点。操作点可为可扩缩位流的可独立解码的子集。MVC或3VC操作点的位流子集可表示处于特定时间分辨率的目标输出视图的特定集合,且由可用以解码特定位流子集的数据组成。在3VC中,3VC操作点的位流子集中的每一目标输出视图可含有纹理视图、深度视图或两者。此外,在一些实例中,引入可包含于多视图群组框174中的语法元素以指示多视图群组框174中所指示的输出视图是仅含有纹理视图,仅含有深度视图,还是含有纹理视图及深度视图两者。

在本发明的额外技术中,定义新的样本项类型。举例来说,针对仅具有深度NAL单元的3VC轨迹定义‘3vc1’及‘3vc2’,其中提取器分别为不允许的及允许的。提取器为流中结构(例如,驻留于样本数据内的结构)以使得能够从不同于含有相关媒体数据的轨迹的轨迹高效地提取NAL单元。举例来说,提取器可含有关于如何从其它轨迹提取数据的指令。

图1的实例仅说明组织具有深度的多视图媒体文件142的一个可能方式。在一些实例中,框中的一或多者可为其它框的子框。即,在不同实例中,各种框可以不同于图1中所示方式的方式组织及配置。此外,本文中所描述的技术中的一或多者可以任何组合与本文中所描述的一或多个其它技术一起使用。

图2说明可包含于根据本发明中所描述的技术产生的媒体文件中的MVC+D存取单元150的实例。图2说明在此实例中为整个存取单元150的样本的实例结构。样本经外部地组帧且具有由所述外部组帧提供的大小。经由用于基本流的解码器特定配置来配置样本的语法。在以下图中描绘视频样本的结构的实例。3VC样本可包含如ISO/IEC14496-10的附录I中所定义的一或多个视图分量及相关联的非VCL NAL单元,其中每一视图分量可含有纹理视图分量、深度视图分量或两者。

如图2中所说明,存取单元150包含NAL单元的集合,包含AU定界符NAL单元、SEI NAL单元及两个切片NAL单元。每一NAL单元是用长度表示,所述长度指示按位流次序在所述NAL单元之后的NAL单元的按字节计的长度。举例来说,长度字段可经配置成具有1个、2个或4个字节。NAL单元含有如适用的视频译码标准中所指定的NAL单元数据。

在一些实例中,提供用于深度经译码切片NAL单元的经译码切片扩展。在一些实例中,在单一时刻的所有深度经译码切片NAL单元应含于样本中,所述样本的编制时间为由存取单元所表示的图片的编制时间。3VC样本应含有至少一个AVC、MVC或深度VCL NAL单元。

在一些实例中,可重建构例如存取单元150-1等存取单元。为了从一或多个MVC或3VC轨迹的样本重建构存取单元150-1,可需要通过检查多视图群组框174及多视图群组关系框来确定目标输出视图。explicit_au_track旗标等于1表明此轨迹为完整操作点;然而,可检查轨迹以确定由此轨迹递送的哪些视图为输出视图。

如果目标输出视图并未正好由在MVC解码器配置记录中或在3VC解码器配置记录中以等于1的explicit_au_track标示的任何轨迹表示,那么存取单元150-1可被如下重建构。解码所确定的目标输出视图所需要的视图可从包含于视图识别符框中的参考视图识别符、‘scal’轨迹参考或层级相依性框推断出。

如果若干轨迹含有用于存取单元150-1的数据,那么(例如)在不考虑编辑列表的情况下仅使用时间到样本表在解码时间执行轨迹中的相应样本的对准。通过按遵照ISO/IEC 14496-10的次序布置样本的NAL单元而从所需的轨迹及层级中的相应样本重建构存取单元150-1。以下次序提供用以形成相符的存取单元的程序的概要:所有参数集NAL单元(来自相关联的参数集轨迹及来自相关联的基本流轨迹);所有SEI NAL单元(来自相关联的参数集轨迹及来自相关联的基本流轨迹);按视图次序索引值的递升次序的视图分量;及在视图分量内,如果纹理及深度两者皆存在,那么纹理视图分量先于深度视图分量。纹理或深度视图分量内的NAL单元是按其在样本内的出现次序。

图3为说明可利用本发明中所描述的技术的实例视频编码及解码系统10的框图。在一个实例中,系统10可经配置以编制或剖析含有多个经译码视图加深度的媒体文件。如本文中所使用,术语编制及封装可互换地使用。同样,如本文中所使用,术语剖析及解封装可互换地使用。此外,在一些实例中,术语编码与术语编制类似地使用,且术语解码与术语剖析类似地使用。

如图3中所示,系统10包含源装置12,源装置12产生稍后待由目的地装置14解码的经编码视频数据。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手持机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏主机、视频流式传输装置或其类似者。在一些状况下,源装置12及目的地装置14可经配备以用于无线通信。

目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一实例中,链路16可包括使源装置12能够实时将经编码视频数据直接传输到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如,无线通信协议)调制且被传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如,射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络(例如,局域网、广域网或例如因特网等全球网络)的部分。通信媒体可包含路由器、交换器、基站或可有用于促进从源装置12到目的地装置14的通信的任何其它设备。

或者,经编码数据(例如,经编制的MVC+D媒体文件)可从输出接口22输出到存储装置32。类似地,可通过输入接口28从存储装置32存取经编码数据。存储装置32可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适数字存储媒体。在另一实例中,存储装置32可对应于文件服务器或可保持由源装置12产生的经编码视频的另一中间存储装置。在一些实例中,存储装置32存储经编码视频内容,封装模块21稍后检索所述经编码视频内容以用于封装。目的地装置14可经由流式传输或下载从存储装置32存取所存储视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由包含因特网连接的任何标准数据连接存取经编码视频数据。此情形可包含无线频道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器等)或两者的适合于存取存储于文件服务器上的经编码视频数据的组合。经编码视频数据从存储装置32的传输可为流式传输、下载传输或两者的组合。

本发明的技术不必限于无线应用或设置。所述技术可适用于支持多种多媒体应用中的任一者的视频译码,所述应用例如空中电视广播、有线电视传输、卫星电视传输、流式视频传输(例如,经由因特网)、编码数字视频以用于存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输以支持例如视频流式传输、视频播放、视频广播及/或视频电话等应用。

在图1的实例中,源装置12包含视频源18、视频编码器20、封装模块21及输出接口22。在一些状况下,输出接口22可包含调制器/解调器(调制解调器)及/或传输器。在源装置12中,视频源18可包含例如以下各者的源:视频俘获装置(例如,视频相机)、含有先前俘获的视频的视频存档、用以从视频内容提供者接收视频的视频馈入接口,及/或用于产生计算机图形数据作为源视频的计算机图形系统,或此些源的组合。作为一实例,如果视频源18为视频相机,那么源装置12及目的装置14可形成所谓的相机电话或视频电话。然而,本发明中所描述的技术可大体上适用于视频译码,且可适用于无线及/或有线应用。

可由视频编码器20来编码所俘获、预俘获或计算机产生的视频。经编码视频数据可经由源装置12的输出接口22直接传输到目的地装置14。经编码视频数据还可(或替代地)存储到存储装置32上以供稍后由目的地装置14或其它装置存取以用于解码及/或播放。

封装模块21可从视频编码器20接收经编码视频内容且根据本文中所描述的技术产生视频文件。在一个实例中,封装模块21可接收MVC或3VC译码的视频内容,且使用基于ISOBMFF及AVCFF的当前版本的文件格式产生视频文件。图3展示包含视频编码器20的源装置12。然而,在一些实例中,源装置12可不包含任何视频编码器,而是包含封装经编码视频数据的封装模块21。在一些实例中,经编码视频数据可存储于远程存储位置(例如,存储装置32)中。如本文中所描述,封装模块21可为视频译码装置。

目的地装置14包含输入接口28、解封装模块29、视频解码器30及显示装置31。在一些状况下,输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16进行传达或在存储装置32上所提供的经编码视频数据可包含由视频编码器20产生以供例如视频解码器30等视频解码器使用于解码视频数据的多种语法元素。此些语法元素可与传输于通信媒体上、存储于存储媒体上或存储于文件服务器上的经编码视频数据内包含在一起。

解封装模块29可经配置以接收视频文件且剖析视频文件,且将解封装的位流馈入到视频解码器30以使得视频解码器30可输出经解码视频数据。在一些实例中,解封装模块29可执行封装模块21的互反过程。在一些实例中,视频解码器30可执行与关于视频编码器20描述的编码遍次大体上互反的解码遍次。在一些实例中,解封装模块29包含于视频解码器30中。在此文件的剩余部分中,视频解码器30剖析文件可指解封装模块(例如,包含于视频解码器30中的解封装模块29)剖析文件。如本文中所描述,封装模块21可为视频译码装置。

显示装置31可与目的地装置14集成或在目的地装置14的外部。在一些实例中,目的地装置14可包含集成式显示装置且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置31向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20及视频解码器30可根据例如高级视频译码标准或目前在开发中的高效率视频译码(HEVC)标准及扩展等视频压缩标准操作,且可遵照HEVC测试模型(HM)。详细来说,视频编码器20及视频解码器30可根据基于AVC的多视图译码加深度(MVC+D)而操作,且基于AVC的3D视频(3D-AVC)译码标准当前正由JCT-3V开发中,如上文所概括。替代性地或额外地,视频编码器20及视频解码器30可根据其它专属或工业标准(例如,ITU-T H.264标准,或者被称作MPEG-4第10部分)或此些标准的扩展而操作。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2及ITU-T H.263以及例如VP8等开放格式。

在一些方面下,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当MUX-DEMUX单元或其它硬件及软件以处置共同数据流或单独数据流中的音频及视频两者的编码。如果适用,那么在一些实例中,MUX-DEMUX单元可遵照ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。

视频编码器20及视频解码器30各自可实施为多种合适编码器电路中的任一者,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。在所述技术部分地以软件实施时,装置可将用于软件的指令存储于合适的非暂时性计算机可读媒体中,且在硬件中使用一或多个处理器执行指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中,其中的任一者可作为组合式编码器/解码器(编解码器CODEC)的部分而集成于相应装置中。

JCT-VC正致力于开发HEVC标准的扩展。HEVC标准化努力是基于视频译码装置的演进模型,其被称作HEVC测试模型(HM)。HM假设视频译码装置相对于根据(例如)ITU-T H.264/AVC的现有装置的若干额外能力。

本文中在HEVC的上下文中描述视频译码的一些细节。然而,技术可适用于ITU-T H.264/AVC,且更确切地说,适用于与ISO基础媒体文件格式(ISOBMFF)相一致的纹理视图及/或深度视图译码。

HM的工作模型描述可将视频帧或图片划分成包含明度及色度样本两者的宏块、树型块或最大译码单元(LCU)的序列。树型块可用于与H.264标准的宏块类似的一些用途,但树型块具有相对于宏块的许多差异。

图4为说明可实施本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可编制基于ISO基础媒体文件格式的包含多视图视频数据的媒体文件,例如,图1的具有深度的多视图媒体文件142。视频编码器20可执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测以减少或移除给定视频帧或图片内的视频的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的邻近帧或图片内的视频的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的压缩模式中的任一者。

在图4的实例中,视频编码器20包含分割单元35、预测处理单元41、滤波器单元63、参考图片存储器64、求和器50、变换处理单元52、量化单元54及熵译码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测单元46。针对视频块重建构,视频编码器20还包含反量化单元58、反变换单元60及求和器62。滤波器单元63通常可表示一或多个环路滤波器,例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管滤波器单元63在图4中被展示为环路内滤波器,但在其它配置中,滤波器单元63可实施为环路后滤波器,在所述状况下未经滤波数据可用于译码环路中。

如图4中所示,视频编码器20接收视频数据,且分割单元35将数据分割成视频块。此分割还可包含分割成切片、平铺块或其它较大单元,以及(例如)根据宏块及宏块分割区或可能根据LCU及CU的四分树结构进行视频块分割。视频编码器20大体上说明编码在待编码的视频切片内的视频块的组件。切片可划分成多个视频块(且可能划分成被称作平铺块的视频块的集合)。预测处理单元41可基于错误结果(例如,译码率及失真的程度)选择当前视频块的多个可能译码模式中的一者,例如,多个帧内译码模式中的一者或多个帧间译码模式中的一者。预测处理单元41可将所得经帧内译码或经帧间译码块提供到求和器50以产生残余块数据,且将所得经帧内译码或经帧间译码块提供到求和器62以重建构经编码块从而用作参考图片。

预测处理单元41内的帧内预测单元46可执行相对于在与待译码的当前块相同的帧或切片中的一或多个相邻块的对当前视频块的帧内预测性译码以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44执行相对于一或多个参考图片中的一或多个预测性块的对当前视频块的帧间预测性译码以提供时间压缩。

运动估计单元42可经配置以根据视频序列的预定模式确定视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片、B切片或GPB切片。运动估计单元42及运动补偿单元44可高度集成,但为了概念目的而分别说明。由运动估计单元42执行的运动估计为产生估计视频块的运动的运动向量的过程。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU(或宏块分割区或子块)相对于参考图片内的预测性块的移位。

预测性块为被发现在像素差方面密切匹配待译码的视频块的PU(或宏块分割区或子块)的块,像素差可通过绝对差和(SAD)、平方差和(SSD)或其它差量度确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可执行关于全像素位置及分数像素位置的运动搜索,且输出具有分数像素精度的运动向量。

运动估计单元42通过比较经帧间译码切片中的视频块的PU(或宏块分割区或子块)的位置与参考图片的预测性块的位置而计算PU(或宏块分割区或子块)的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述列表中的每一者识别存储于参考图片存储器64中的一或多个参考图片。运动估计单元42将经计算运动向量发送到熵译码单元56及运动补偿单元44。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计(可能执行到子像素精度的内插)确定的运动向量获取或产生预测性块。在接收到当前视频块的PU(或宏块分割区或子块)的运动向量时,运动补偿单元44可在参考图片列表中的一者中探寻运动向量所指向的预测性块。视频编码器20通过从正被译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像素差值。像素差值形成块的残余数据,且可包含明度及色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。

作为由运动估计单元42及运动补偿单元44执行的帧间预测(如上文所描述)的替代,帧内预测单元46可帧内预测当前块。详细来说,帧内预测单元46可确定用以编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可(例如)在单独编码遍次期间使用各种帧内预测模式来编码当前块,且帧内预测单元46(或在一些实例中,模式选择单元40)可从经测试模式选择适当帧内预测模式来使用。举例来说,帧内预测单元46可针对各种经测试帧内预测模式使用速率-失真分析来计算速率-失真值,且在经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)的量,以及用以产生经编码块的位速率(即,位的数目)。帧内预测单元46可根据各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现出块的最佳速率-失真值。

在任何状况下,在选择块的帧内预测模式之后,帧内预测单元46可将指示块的选定帧内预测模式的信息提供到熵译码单元56。熵译码单元56可根据本发明的技术编码指示选定帧内预测模式的信息。视频编码器20可在所传输位流中包含配置数据,所述配置数据可包含:多个帧内预测模式索引表及多个经修改帧内预测模式索引表(也被称作码字映射表)、各种块的编码上下文的定义,及用于上下文中的每一者的最有可能帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示。

在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后,视频编码器20通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可应用于变换处理单元52。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似的变换等变换将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域,例如,频域。

变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步减小位速率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化的程度。在一些实例中,量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。或者,熵译码单元56可执行扫描。

在量化之后,熵译码单元56熵编码经量化变换系数。举例来说,熵译码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在由熵译码单元56进行熵编码之后,可将经编码位流传输到视频解码器30或加以封存以供稍后传输或由视频解码器30检索。熵译码单元56还可对正被译码的当前视频切片的运动向量及其它语法元素进行熵编码。

反量化单元58及反变换单元60分别应用反量化及反变换,以在像素域中重建构残余块以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块与参考图片列表中的一者内的参考图片中的一者的预测性块相加来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建构残余块以计算子整数像素值,以供在运动估计中使用。求和器62将经重建构残余块与由运动补偿单元44产生的经运动补偿预测块相加以产生参考块,以供存储于参考图片存储器64中。参考块可由运动估计单元42及运动补偿单元44用作参考块以帧间预测后续视频帧或图片中的块。

图4的视频编码器20表示经配置以实施本文中所描述的技术中的一或多者的视频编码器的实例。举例来说,视频编码器20的封装模块21可从含有多个经译码视图的视频流编制媒体文件格式。举例来说,封装模块21可编制包含视图识别符框(例如,图1的视图识别符框172)的媒体文件,所述视图识别符框指示对于包含于轨迹中的视图中的每一者来说,纹理及/或深度在轨迹中及在流中的存在。封装模块21可在样本项或多视图群组项中包含视图识别符框172。在另一实例中,封装模块21可编制媒体文件,以使得视图识别符框172指示如何需要参考视图的纹理视图及深度视图以用于解码特定视图:是仅需要纹理视图,仅需要深度视图,还是需要两者。如图4中所示,封装模块21为视频编码器20的部分。然而,在其它实例中,封装模块21与视频编码器20分离。

此外,视频编码器20可支持将特定视图的纹理视图及深度视图存储在分轨中。在一些实例中,视频编码器20经配置以使用及解译一或多个新类型的轨迹参考。举例来说,视频编码器20可利用具有类型值‘deps’的新轨迹参考类型,所述类型值的存在可指示当前轨迹含有与所参考轨迹中的纹理视图相关联的深度视图。在替代实例中,视频编码器20可利用具有类型值‘tref’的另一新轨迹参考类型,所述类型值在轨迹中的存在指示当前轨迹取决于存储于所参考轨迹中的纹理视图。在另一替代实例中,(例如)用类型值‘dref’来定义新类型的轨迹参考,所述类型值在轨迹中的存在指示当前轨迹取决于存储于所参考轨迹中的深度视图。

视频编码器20可支持深度视图的空间分辨率的发信。举例来说,视频编码器20可在新定义的3VC深度分辨率框中将深度视图的空间分辨率发信,所述新定义的3VC深度分辨率框可包含于3VC配置框中。在一些实例中,3VC配置框包含3VC解码器配置记录,且可包含于样本项中(且必须包含于类型‘3vc1’或‘3vc2’的样本项中)。在一些实例中,将3VCDepthResolutionBox直接添加到样本项中。在另一替代实例中,视频编码器20直接在3VC解码器配置记录中将深度视图的宽度及高度发信。举例来说,视频编码器20可编制媒体文件,例如图1的具有深度的多视图媒体文件142,且将3VC深度分辨率框(例如,3VC深度分辨率框170)添加到样本项中。在另一替代实例中,视频编码器20可直接在3VC解码器配置记录中将深度视图的宽度及高度发信,3VC解码器配置记录可包含于3VC配置框168中。

对于仅具有深度NAL单元的3VC轨迹,视频编码器20还可使用新定义的样本项类型‘3vc1’及‘3vc2’,其中提取器分别为不允许的及允许的。视频编码器20可在经编码媒体文件中进一步包含3VC可扩缩性信息SEI消息框以含有在MVC+D编解码器规范中定义的3DVC可扩缩性信息SEI消息。

在另一替代实例中,视频编码器20在经编制媒体文件中包含共同属性及/或区别属性,所述共同属性及/或区别属性指示在多视图群组框(例如,多视图群组框174)中所指示的3VC操作点是否存在,在多视图群组框中所指示的操作点是3VC还是MVC,或在多视图群组框中所指示的输出视图仅含有纹理,仅含有深度还是含有两者。

视频编码器20可经配置以使用本文中所描述的技术中的一或多者以指示包含于轨迹中的视图是由纹理视图组成,由深度视图组成,还是由纹理视图及深度视图两者组成;指示视图相依性;将深度视图的空间分辨率发信而不需要剖析SPS;及改进含有具有深度的多个经译码视图的视频流的存储的效率及灵活性。

再次参看图3,封装模块21可从视频编码器20接收经编码视频内容且根据本文中所描述的技术产生视频文件。在一个实例中,封装模块21接收AVC或HEVC译码的视频内容,且使用基于ISOBMFF及分别的AVCFF或HEVCFF的当前版本的文件格式产生视频文件。

图5为说明可实施本发明的技术的实例视频解码器30及解封装模块29的框图。解封装模块29可剖析基于ISO基础媒体文件格式的包含多视图视频数据的媒体文件,例如,图1的具有深度的多视图媒体文件142。解封装模块29可将经剖析媒体文件提供到视频解码器30。

在图5的实例中,视频解码器30包含熵译码单元80、预测处理单元81、反量化单元86、反变换单元88、求和器90、滤波器单元91及参考图片存储器92。预测处理单元81包含运动补偿单元82及帧内预测单元84。在一些实例中,视频解码器30可执行与关于来自图3的视频编码器20描述的编码遍次大体上互反的解码遍次。

在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及相关联的语法元素的经编码视频位流。视频解码器30可从网络实体29接收经编码视频位流。举例来说,网络实体29可为服务器、媒体感知网络元件(MANE)、视频编辑器/拼接器,或经配置以实施上文所描述的技术中的一或多者的其它此类装置。如上文所描述,本发明中所描述的技术中的一些可在网络29将经编码视频位流传输到视频解码器30之前由网络实体29实施。在一些视频解码系统中,网络实体29及视频解码器30可为单独装置的部分,而在其它情况下,关于网络实体29所描述的功能性可由包括视频解码器30的相同装置来执行。

视频解码器30的熵译码单元80对位流进行熵解码以产生经量化系数、运动向量及其它语法元素。熵译码单元80将运动向量及其它语法元素转递到预测处理单元81。视频解码器30可接收在视频切片级别及/或视频块级别处的语法元素。

在视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测单元84可基于所发信的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生当前视频切片的视频块的预测数据。在视频帧经译码为经帧间译码(即,B、P或GPB)切片时,预测处理单元81的运动补偿单元82基于从熵译码单元80接收的运动向量及其它语法元素而产生当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储于参考图片存储器92中的参考图片、使用默认建构技术来建构参考帧列表,列表0及列表1。

运动补偿单元82通过剖析运动向量及其它语法元素来确定当前视频切片的视频块的预测信息,且使用预测信息来产生正被解码的当前视频块的预测性块。举例来说,运动补偿单元82使用所接收的语法元素中的一些来确定用以译码视频切片的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态及用以解码当前视频切片中的视频块的其它信息。

运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用如由视频编码器20在视频块的编码期间所使用的内插滤波器来计算参考块的子整数像素的内插值。在此状况下,运动补偿单元82可根据所接收的语法元素确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。

反量化单元86对位流中所提供且由熵译码单元80解码的经量化变换系数进行反量化,即进行解量化。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块所计算的量化参数确定量化的程度,且同样地确定应该应用的反量化的程度。反变换单元88将反变换(例如,反DCT、反整数变换或概念上类似的反变换过程)应用于变换系数以便在像素域中产生残余块。

在运动补偿单元82基于运动向量及其它语法元素产生当前视频块的预测性块之后,视频解码器30通过将来自反变换单元88的残余块与由运动补偿单元82产生的对应预测性块求和来形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。在需要时,环路滤波器(在译码环路中或在译码环路之后)还可用以使像素转变平滑,或以其它方式改进视频质量。滤波器单元91可表示一或多个环路滤波器,例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管滤波器单元91在图5中被展示为在环路滤波器中,但在其它配置中,滤波器单元91可实施为环路后滤波器。给定帧或图片中的经解码视频块接着存储于参考图片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存储器92还存储经解码视频,以供稍后呈现于例如图1的显示装置31的显示装置上。

图5的视频解码器30表示视频解码器的实例,所述视频解码器可与经配置以实施本文中所描述的技术中的一或多者的解封装模块29一起使用。举例来说,解封装模块29可剖析包含含有多个经译码视图的所存储视频流的媒体文件,且将所述媒体文件提供到视频解码器30。举例来说,解封装模块29可剖析包含视图识别符框(例如,图1的视图识别符框172)的媒体文件,所述视图识别符框指示对于包含于轨迹中的视图中的每一者来说,纹理及/或深度在轨迹中及在流中的存在。解封装模块29可从样本项或多视图群组项解码视图识别符框172。在另一实例中,视频解码器30剖析媒体文件中的视图识别符框172以确定是否需要参考视图的纹理视图及深度视图以用于解码特定视图。即,解封装模块29可确定是仅需要纹理视图,仅需要深度视图,还是需要两者。

此外,解封装模块29可剖析媒体文件,所述媒体文件在分轨中含有特定视图的纹理视图及深度视图。在一些实例中,解封装模块29经配置以剖析及解译一或多个新类型的轨迹参考。举例来说,解封装模块29剖析具有类型值‘deps’的新轨迹参考类型,所述类型值的存在指示当前轨迹含有与所参考轨迹中的纹理视图相关联的深度视图。在替代实例中,解封装模块29剖析具有类型值‘tref’的另一新轨迹参考类型,所述类型值在轨迹中的存在指示当前轨迹取决于存储于所参考轨迹中的纹理视图。在另一替代实例中,解封装模块29剖析具有类型值‘dref’的新类型的轨迹参考,在轨迹中所述类型值的存在指示当前轨迹取决于存储于所参考轨迹中的深度视图。

解封装模块29可根据剖析根据本文中所描述的技术编制的媒体文件来确定深度视图的空间分辨率。举例来说,解封装模块29可从新定义的3VC深度分辨率框确定深度视图的空间分辨率,所述新定义的3VC深度分辨率框可包含于3VC配置框中。在另一替代实例中,解封装模块29直接从3VC解码器配置记录确定深度视图的宽度及高度。举例来说,解封装模块29可剖析媒体文件(例如,图1的具有深度的多视图媒体文件142)的3VC解码器配置记录,以确定与媒体文件相关联的深度视图的宽度及高度。

解封装模块29还可对于仅具有深度NAL单元的3VC轨迹剖析新定义的样本项类型‘3vc1’及‘3vc2’。解封装模块29可进一步从经编码媒体文件解码3VC可扩缩性信息SEI消息框以存取在MVC+D编解码器规范中定义的3DVC可扩缩性信息SEI消息。

在另一替代实例中,解封装模块29从媒体文件剖析共同属性及/或区别属性,以确定在多视图群组框(例如,多视图群组框174)中所指示的3VC操作点是否存在,在多视图群组框174中所指示的操作点是3VC还是MVC,或在多视图群组框174中所指示的输出视图仅含有纹理,仅含有深度还是含有两者。

解封装模块29可经配置以使用本文中所描述的技术中的一或多者以确定包含于轨迹中的视图是由纹理视图组成,由深度视图组成还是由纹理视图及深度视图两者组成;确定视图相依性;确定深度视图的空间分辨率而不需要剖析SPS;及改进含有具有深度的多个经译码视图的视频流的存储的效率及灵活性。

图6为说明实例封装模块21的组件的框图。在图6的实例中,封装模块21包含视频输入接口70、视频文件建立模块72及视频文件输出接口76。在此实例中,视频文件建立模块70包含网络抽象层(NAL)单元建构器74。

视频输入接口70可接收经译码视频内容。视频输入接口70可从视频编码器20接收经译码视频内容,或可从存储装置检索经编码视频内容。经译码视频内容可根据AVC或HEVC标准来译码,且可包含视频内容、参数集及SEI消息的样本。在接收到经编码视频内容时,视频输入接口70可将经译码视频内容输出到视频文件建立模块72以用于组译到媒体文件中。在一些例子中,视频输入接口70可通过在将经译码视频内容输出到视频文件建立模块72之前组织或缓冲经译码视频内容来促进媒体文件的组译。

一般来说,视频文件建立模块72可产生包含所接收到的经译码视频内容的视频文件。在一个实例中,视频文件建立模块72可建立视频文件,例如关于图1所描述的具有深度的多视图媒体文件142。视频文件建立模块72可对应于控制单元,所述控制单元包含经配置以执行归因于其的功能及程序的硬件、软件及/或固件。所述控制单元可进一步执行大体上归因于封装模块21的功能。对于视频文件建立模块72是体现于软件及/或固件中的实例来说,封装模块21可包含包括用于视频文件建立模块72的指令的计算机可读媒体及用以执行所述指令的处理单元。视频文件建立模块72的子模块(在此实例中为NAL单元建构器74)可被实施为个别硬件模块及/或软件模块,且可在功能上集成或进一步分成额外子模块。视频文件建立模块72可对应于任何合适处理单元或处理电路,例如一或多个微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其任何组合。视频文件建立模块72可进一步包含存储用于NAL单元建构器74的指令的非暂时性计算机可读媒体,以及用于执行指令的处理器。

在一个实例中,视频文件建立模块72可经配置以根据文件格式输出经编码视频数据,所述文件格式可存储含有具有深度的多个经译码视图的视频流,其中可在文件中将深度视图的性质及关系发信。

视频文件建立模块72可经配置以实施本发明中所描述的技术。举例来说,视频文件建立模块72可编制具有语法元素Compressorname的新值的媒体文件。如在基础类别VisualSampleEntry中所定义的Compressorname可指示与值“\0123VC Coding”一起使用的压缩器的名称,所述值“\0123VC Coding”经推荐以用于含有3DV(例如MVC+D)视频流的文件。可进一步根据AVCFF或HEVCFF来定义语法元素Compressorname。

除了上文所描述的实例语法及语义之外,由视频文件建立模块72使用的文件格式可包含关于3VC解码器配置记录的额外约束。根据本文中所描述的技术,语法元素MVCDecoderConfigurationRecord可在结构上等同于语法元素AVCDecoderConfigurationRecord。然而,重定义了在lengthSizeMinusOne字段之前及之后的一或多个保留位。实例语法如下:

在一些实例中,3VCDecoderConfigurationRecord的语法结构可与MVCDecoderConfigurationRecord完全相同。当AVC解码器配置记录(如ISO/IEC14496-15的条款5.3.3.1中所定义)被用于可解译为3VC流的流时,AVC解码器配置记录可反映AVC兼容基础视图的性质。举例来说,AVC解码器配置记录可仅含有用于解码AVC基础视图的参数集。

当MVC解码器配置记录(如ISO/IEC 14496-15中所定义)被用于可解译为MVC或3VC流的流时,MVC解码器配置记录应反映MVC兼容位流子集的性质。即,例如,MVC解码器配置记录可仅含有用于解码MVC兼容位流子集的参数集。举例来说,MVC兼容子集可为仅具有纹理视图的位流子集。

参数集流可与3VC流一起使用,如同AVC或MVC流。在此实例中,参数集应不包含于解码器配置记录中。包含子集序列参数集的序列参数集(SPS)可分别按存储次序从1到numOfSequenceParameterSets或numOfPictureParameterSets来编号。可通过InitialParameterSetBox使用此基于1的索引来参考存储于文件中的此记录中的SPS及图片参数集(PPS)。

字段AVCProfileIndication、profile_compatibility及AVCLevelIndication的语义可如下不同于MVCDecoderConfigurationRecord。AVCProfileIndication、profile_compatibility及AVCLevelIndication(如果非零)必须具有值以使得相符的3VC解码器能够解码遵照在含于此记录中的SPS或子集SPS中的任一者中所指示的配置文件、级别及配置文件兼容性旗标的位流。

其它字段的语义可为如下,或如果不存在,那么如针对MVCDecoderConfigurationRecord所定义:numOfSequenceParameterSets指示用于解码3VC基本流的SPS及子集SPS的数目。语法元素SequenceParameterSetNALUnit可含有如ISO/IEC 14496-10附录I中所指定的SPS或子集SPS NAL单元。SPS应按参数集识别符递升的次序出现,其中间隙是允许的。子集SPS应按参数集识别符递升的次序出现,其中间隙是允许的。任何SPS应在所有子集SPS(如果有的话)之前出现。

视频文件建立模块72还可产生用于具有AVC、MVC及深度NAL单元的3VC轨迹的媒体文件。两个样本项类型被定义为‘3vc1’及‘3vc2’。如下提供用于MVC及3VC的样本项的实例定义。样本项类型‘avc1’、‘avc2’、‘mvc1’、‘mvc2’、‘3vc1’及‘3vc2’可含于样本表框(‘stbl’)(例如,图1的样本表框162)内。在一些实例中,在媒体文件(例如,具有深度的多视图媒体文件142)中具有avc1、avc2、mvc1、mvc2、3vc1及3vc2样本项类型中的一者是强制性的。在一些实例中,一或多个样本项可存在于具有深度的多视图媒体文件142中。

视频文件建立模块72可包含AVC配置框、MVC配置框及3VC配置框中的一者。当存在时,AVC配置框可记录如由AVCDecoderConfigurationRecord所定义的与AVC兼容基础视图有关的配置文件、级别及参数集信息。当存在时,MVC配置框可记录如由MVCDecoderConfigurationRecord所定义的与整个MVC流有关的配置文件、级别及参数集信息。当存在时,3VC配置框(例如,图1的3VC配置框168)可记录如由存储于3VC配置框168中的3VCDecoderConfigurationRecord所定义的与整个3VC流有关的配置文件、级别及参数集信息。

对于AVC样本项‘avc1’及‘avc2’,样本项中的宽度及高度字段可记录AVC基础层。对于MVC样本项‘mvc1’及‘mvc2’以及3VC样本项‘3vc1’及‘3vc2’,包含于样本项中的宽度及高度可记录通过解码整个MVC或3VC流的任何单一纹理视图而达成的分辨率。对于3VC样本项,在3VC深度分辨率框170中的depth_width及depth_height可记录通过解码整个3VC流的任何单一深度视图而达成的分辨率。

在一些实例中,在任何给定样本项中的AVC、MVC及3VC配置中的lengthSizeMinusOne字段应具有相同值。

优先级指派统一资源识别符(URI)提供用以指派priority_id值的方法的名称(在URI空间中)。当priority_id出现于AVC、MVC或3VC样本项中时,应正好存在一个URI,其记录整个AVC、MVC或3VC流中的priority_id指派。URI在此处仅被当作一名称;其应为可取值的(de-referenceable),但这并不是所要求的。文件读取器可能够辨识一些方法,且借此知晓哪些基于priority_id的流提取操作将起作用。

如ISO/IEC 14496-15章节6.5.3.1.1中所记录的对于样本项类型‘avc1’及‘avc2’的一些要求在此处也可适用。

当存在于AVC、MVC或3VC样本项中时,ViewScalabilityInfoSEIBox、ViewIdentifierBox(例如,视图识别符框172)、IntrinsicCameraParametersBox、ExtrinsicCameraParametersBox、3VCScalabilityInformationSEIBox(例如,3VC可扩缩性信息SEI框166)、MPEG4BitRateBox及MPEG4ExtensionDescriptorsBox适用于整个AVC、MVC或3VC流。可包含于样本项‘3vc1’及‘3vc2’中的一者或两者中的实例框类型包含内在相机参数框(‘icam’)、外在相机参数框(‘ecam’)及视图识别符框(‘vwid’)。

对于MVC流,在基础类别VisualSampleEntry中的Compressorname指示与值“\012MVC Coding”(\012为10,字串“MVC coding”的以字节为单位的长度)一起使用的压缩器的名称。类似地,对于3VC流,在基础类别VisualSampleEntry中的Compressorname指示与值“\0123VC Coding”(\012为10,字串“3VC coding”的以字节为单位的长度)一起使用的压缩器的名称。

在一些实例中,直接或通过来自提取器的参考而解码存在于视频流的样本数据中的NAL单元所需要的一或多个参数集应存在于所述视频流的解码器配置中或在相关联的参数集流(如果使用的话)中。

表2提供用于AVC、MVC及3VC轨迹的样本项的可能使用的实例。即,表2展示当AVC、MVC或3VC基本流存储于一或多个轨迹、配置及还可使用的MVC工具中时样本项的可能使用(排除定时元数据,其总是用于另一轨迹中)。表2包含样本项的四字符经译码框类型、哪些配置记录与样本项有关的指示及样本项的意义。

表2-用于AVC、MVC及3VC轨迹的样本项的使用

下文提供MVC及3VC样本项的实例语法结构:

下文提供用于MVC及3VC样本项的实例语法元素。语法元素depth_width及depth_height可分别给出流中的经译码深度视图分量的宽度及高度的值(以像素为单位),含有3VCDepthResolutionBox()(例如,3VC深度分辨率框170)的样本项适用于所述流。语法元素3vcDepthRes可含有流中的经译码深度视图分量的宽度及高度,样本项适用于所述流。当不存在时,可推断经译码深度视图分量的宽度及高度与经译码纹理视图分量的宽度及高度相同。

语法元素mvcscalinfosei可含有SEI NAL单元,其仅含有如ISO/IEC 14496-10附录H中所指定的视图可扩缩性信息SEI消息。容器框ViewScalabilityInformationSEIBox的‘大小’字段应不等于0或1。

另一语法元素3vcscalinfosei可含有SEI NAL单元,其仅含有如ISO/IEC 14496-10附录I中所指定的3DVC可扩缩性信息SEI消息。容器框3VCScalabilityInformationSEIBox的‘大小’字段应不等于0或1。

对于MVC+D视频流,视频文件建立模块72还可编制3VC可扩缩性信息SEI消息框,例如图1的3VC可扩缩性信息SEI消息框166。3VC可扩缩性信息SEI消息框166可含有在MVC+D编解码器规范中定义的3DVC可扩缩性信息SEI消息。

根据本文中所描述的技术,视频文件建立模块72还可编制视图识别符框,例如图1的视图识别符框172。视频文件建立模块72可编制视图识别符框172以指示对于包含于轨迹中的每一视图来说,纹理及深度视图在轨迹中及在流中的存在。此外,视频文件建立模块72可编制视图识别符框172以指示如何需要参考视图的纹理视图及深度视图以用于解码特定视图。

视图识别符框172的其它细节为如下。用于视图识别符框172的四字符经译码框类型可为‘vwid’。视图识别符框172可含于任何样本项(例如,‘avc1’、‘avc2’、‘mvc1’、‘mvc2’、‘3vc1’及‘3vc2’)中或多群组项中。在一些实例中,对于样本项‘mvc1’、‘mvc2’、‘3vc1’、‘3vc2’中的每一者及多视图群组项中的主要群组定义,必须包含视图识别符框恰好一次。在一些实例中,对于多视图群组项中的非主要群组定义,不包含视图识别符框172。

当包含于样本项中时,视图识别符框172指示包含于轨迹中的视图。当包含于多视图群组项中时,视图识别符框172指示包含于相应层级中的视图。视图识别符框172还指示用于每一所列出视图的视图次序索引。另外,当视图识别符框172分别包含于样本项或多视图群组项中时,视图识别符框172包含在轨迹或层级中所包含的temporal_id的最小及最大值。此外,视图识别符框172可指示解码包含于轨迹或层级中的视图所需的一或多个所参考视图。对于3VC流,视图识别符框172可指示对于包含于轨迹中的视图中的每一者来说,纹理及/或深度在轨迹中及在流中的存在。

用于视图识别符框172的一个实例语法为如下:

如下提供视图识别符框172的一些实例语义。当视图识别符框172被分别包含于样本项或多视图群组项中时,两个语法元素min_temporal_id及max_temporal_id可分别具有存在于映射到轨迹或层级的NAL单元的NAL单元标头扩展中的temporal_id语法元素的最小及最大值。对于AVC流,min_temporal_id及max_temporal_id取在前置NAL单元中的值或将在前置NAL单元中的值。

当视图识别符框172存在于样本项中时,语法元素num_views可指示包含于轨迹中的视图的数目。当视图识别符框172存在于多视图群组项中时,num_views可指示包含于相应层级中的视图的数目。

当视图识别符框172被分别包含于样本项或多视图群组项中时,另一语法元素view_id[i]可指示包含于轨迹或层级中的视图的NAL单元标头扩展中的view_id语法元素的值。

当视图识别符框172被分别包含于样本项或多视图群组项中时,语法元素view_order_index可指示用于包含于轨迹或层级中的视图的如在ISO/IEC 14496-10附录H中所指定的次序索引值(VOIdx)变量的值。

引入语法元素texture_in_stream[i],其中texture_in_stream[i]等于1可指示用于具有view_id[i]的视图的纹理视图存在于流中。值指示用于具有view_id[i]的视图的纹理视图可不存在于流中。

类似地,引入语法元素texture_in_track[i],其中texture_in_track[i]等于1可指示用于具有view_id[i]的视图的纹理视图存在于轨迹中。值可指示用于具有view_id[i]的视图的纹理视图不存在于轨迹中。在一些实例中,当texture_in_stream[i]等于0时,texture_in_track[i]的值应等于0。

引入另一语法元素depth_in_stream[i],其中depth_in_stream[i]等于1可指示用于具有view_id[i]的视图的深度视图存在于流中。值可指示用于具有view_id[i]的视图的深度视图不存在于流中。在一些实例中,当texture_in_stream[i]等于0时,depth_in_stream[i]的值应等于1。

引入语法元素depth_in_track[i],其中depth_in_track[i]等于1可指示用于具有view_id[i]的视图的深度视图存在于轨迹中。值可指示用于具有view_id[i]的视图的深度视图不存在于轨迹中。在一些实例中,当depth_in_stream[i]等于0时,depth_in_track[i]的值应等于0。在一些实例中,当texture_in_track[i]等于0时,depth_in_track[i]的值应等于1。

另一语法元素base_view_type可指示视图是否为基础视图(虚拟的或非虚拟的)。语法元素base_view_type可取以下值:0指示视图既非基础视图还非虚拟基础视图;1应被用以标记MVC位流的非虚拟基础视图;2为保留值且不应被使用(但可在稍后时间使用);且3指示具有view_id[i]的视图为虚拟基础视图。具有view_id[i]的相应独立地译码的非基础视图可驻留于另一轨迹中。当base_view_type等于3时,后续num_ref_views应等于0。

另一语法元素num_ref_views可指示可由具有view_id[i]的视图直接或间接参考的视图的数目。

引入另一语法元素dependent_component_idc[i][j],其可指示如何需要第j个参考视图的纹理视图及深度视图以用于解码具有view_id[i]的视图。如果值等于0,那么可仅需要参考视图的纹理视图。如果值等于1,那么可仅需要参考视图的深度视图。如果值等于2,那么可需要参考视图的纹理视图及深度视图两者。值3被保留。

另一语法元素ref_view_id[i][j]可指示可由具有view_id[i]的视图直接或间接参考(即,解码具有view_id[i]的视图可能需要)的第j个视图的视图识别符。如果需要视图以用于解码具有view_id[i]的视图,那么所述视图可被列为ref_view_id[i][j]中的一者。当视图识别符框172被包含于样本项中时,推荐做法可为其指示用于同一样本项中的锚定存取单元与非锚定存取单元两者的所参考视图。

此外,在一些实例中,视频文件建立模块72可在3VC深度分辨率框(例如,图1的3VC深度分辨率框170)中提供深度视图的空间分辨率的的显式指示。3VC深度分辨率框170可包含于3VC配置框(例如图1的3VC配置框168)中。在一些实例中,3VC配置框168必须包含3VC解码器配置记录,且可包含于样本项中,但必须包含于类型‘3vc1’或‘3vc2’的样本项中。

在一些方面中,视频文件建立模块72进一步编制视频文件,其中纹理视图及深度视图存储于分轨中。MVC或3VC流可由文件中的一或多个视频轨迹(例如,图1的视频数据流146)来表示。每一轨迹可表示流的一或多个视图。对于存储3VC视频流的文件(例如,具有深度的多视图媒体文件142)中的轨迹,轨迹可仅含有纹理,仅含有深度或含有纹理及深度两者。

在一些实例中,可存在一或多个轨迹的最小集合,所述轨迹当被一并考虑时含有经编码信息的完整集合。所有此些轨迹可在其所有样本项中设定有旗标“complete_representation”。形成完整经编码信息的轨迹的群组可被称作“完整子集”。设定有旗标“complete_representation”且含有具有等于0的temporal_id的基础视图的NAL单元的轨迹可被命名为‘基础视图轨迹’。为同一流的部分的所有其它轨迹可通过类型‘sbas’(视图基础)的轨迹参考而连结到此基础视图轨迹。当保持包含于“完整子集”中的轨迹时,可保持完整经编码信息;所有其它轨迹应为完整子集的子集、复本或重排序。

共享相同基础视图轨迹的所有轨迹还可共享相同时间标度。对于3VC流的一些实例,含有特定视图的纹理视图及深度视图的所有轨迹共享相同时间标度。特定视图的纹理视图及深度视图可具有view_id的相同值(因此还具有视图次序索引的相同值)且可被称作彼此相关联。

如果由轨迹表示的视图将由另一轨迹表示的另一视图用作为视图间预测参考,那么类型‘scal’的轨迹参考应被包含于参考用于视图间预测的源轨迹的轨迹中。

在针对3VC流的一些实例中,如果深度视图存储于不同于含有与所述深度视图相关联的纹理视图的轨迹的轨迹中,那么将类型‘deps’的轨迹参考包含于含有深度视图的轨迹中,所述轨迹参考含有纹理视图的轨迹。轨迹参考‘deps’的存在指示当前轨迹含有与所参考轨迹中的纹理视图相关联的深度视图。

在一些实例中,在视频文件建立单元72产生视频文件之后,视频文件建立单元72将视频文件传递到视频文件输出接口76。视频文件输出接口76将视频文件输出(例如)到源装置20的输出接口22。在一些实例中,视频文件输出接口76将视频文件输出到源装置20的存储媒体或存储装置32。

图7为说明可实施本发明中所描述的技术的形成网络100的部分的实例装置集合的框图。在此实例中,网络100包含路由装置104A、104B(路由装置104)及转码装置106。路由装置104及转码装置106意欲表示可形成网络100的部分的少量装置。例如交换器、集线器、网关、防火墙、桥接器及其它此些装置等其它网络装置还可包含于网络100内。此外,可沿着服务器装置102与客户端装置108之间的网络路径设置额外网络装置。任何此些装置可包括可实施本文中所描述的一或多个技术的编码器或解码器。此外,网络装置可包括不一定包含完全编码或解码能力的MANE,且MANE还可实施本文中所描述的一或多个技术。在一些实例中,服务器装置102可对应于图3的源装置12,而客户端装置108可对应于图3的目的地装置14。

一般来说,路由装置104实施一或多个路由协议以经由网络100交换网络数据。在一些实例中,路由装置104可经配置以执行代理或快取操作。因此,在一些实例中,路由装置104可被称作代理装置。一般来说,路由装置104执行路由协议以发现经由网络100的路由。通过执行此些路由协议,路由装置104B可发现从其自身经由路由装置104A到服务器装置102的网络路由。

经由网络100,服务器装置102可将根据本文中所描述的技术编制的一或多个媒体文件提供给客户端装置108。在其它实例中,客户端装置108经由网络100将根据本文中所描述的技术编制的一或多个媒体文件提供给服务器装置102。

图8为说明根据本发明中所描述的技术的剖析含有多视图视频内容的媒体文件的实例方法的流程图。图8中所描述的过程可由视频译码装置执行,所述视频译码装置可包含本文中所描述的目的地装置20及解封装模块29的任何组合。视频译码装置可剖析视频数据的轨迹,其中所述轨迹包含一或多个视图(200)。举例来说,解封装模块29可从源装置12获得含有多个经译码视图加深度的媒体文件,例如具有深度的多视图媒体文件142。视频译码装置可剖析信息以确定所述轨迹是仅包含纹理视图,仅包含深度视图,还是包含纹理视图及深度视图两者(202)。举例来说,解封装模块29可剖析来自具有深度的多视图媒体文件142的信息以确定包含于具有深度的多视图媒体文件142中的轨迹中的至少一者是含有纹理视图,含有深度视图,还是含有纹理视图及深度视图两者。

在一些实例中,剖析信息进一步包括从样本项及多视图群组项中的至少一者剖析视图识别符框,其中样本项及多视图群组项中的至少一者与轨迹相关联。举例来说,解封装模块29可剖析来自视图识别符框172的信息以确定对于包含于轨迹中的每一视图来说,所述视图是纹理视图还是深度视图。解封装模块29可剖析视图识别符框172以进一步确定是需要参考视图的纹理视图还是深度视图以用于解码轨迹中的特定视图。

解封装模块29可基于第一视频数据剖析视频数据的另一第二集合,且进一步剖析信息以确定使用第一视频数据的第一纹理视图、第一深度视图还是第一纹理视图及第一深度视图两者来解码第二视频数据。

在另一实例中,过程包含剖析补充增强信息(SEI)消息框以确定与视图中的一或多者相关联的三维可扩缩性信息SEI消息。即,解封装模块29可剖析SEI消息框(例如,3VC可扩缩性信息SEI消息框166)以从视图中的一或多者的SEI消息获得信息。

在轨迹含有一或多个深度视图的实例中,过程可进一步包含剖析3VC深度分辨率框以确定一或多个深度视图的空间分辨率。举例来说,解封装模块29剖析3VC深度分辨率框170以确定包含于具有深度的多视图媒体文件142中的深度视图的空间分辨率。在一些实例中,解封装模块29从3VC配置框168剖析3VC深度分辨率框170。在其它实例中,解封装模块29直接从样本项剖析3VC深度分辨率框170。解封装模块29还可剖析3VC解码器配置记录3VCDecoderConfigurationRecord,所述3VC解码器配置记录包含指示与3DV视频流(例如,MVC+D视频流)有关的特性的语义。过程还可包含剖析三维视频译码(3VC)解码器配置记录以确定包含于轨迹中的深度视图的宽度及高度。

在一些实例中,轨迹为第一轨迹,其中第一轨迹包含视图的深度视图及视图的纹理视图中的一者,且过程进一步包含剖析视频数据的第二轨迹,其中第二轨迹包含视图的深度视图及视图的纹理视图中的不包含于第一轨迹中的一者。过程可进一步包含剖析参考第二轨迹的用于第一轨迹的轨迹参考,其中轨迹参考包含至少一个轨迹参考类型,所述至少一个轨迹参考类型指示以下各者中的一者:第一轨迹包含与存储于第二轨迹中的纹理视图相关联的深度视图(例如,轨迹参考类型为‘deps’),第一轨迹取决于存储于第二轨迹中的纹理视图(例如,轨迹参考类型为‘tref’),及第一轨迹取决于存储于第二轨迹中的深度视图(例如,轨迹参考类型为‘dref’)。

在轨迹为三维视频译码(3VC)轨迹的实例中,过程可进一步包含剖析3VC解码器配置记录,其中3VC解码器配置记录指示用于视频数据的匹配样本项的配置记录。在轨迹为包含一或多个深度网络抽象层(NAL)单元的3VC轨迹的另一实例中,过程包含剖析允许提取器的样本项类型‘3vc1’及不允许提取器的样本项类型‘3vc2’中的至少一者。在其它实例中,过程可含有本发明中所描述的技术中的一或多者。

图9为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件以指示纹理及深度视图的存在的实例方法的流程图。图9中所描述的过程可由视频译码装置执行,所述视频译码装置包含本文中所描述的封装模块21。视频译码装置可编制视频数据的轨迹,其中所述轨迹包含一或多个视图(206)。举例来说,封装模块21可从视频编码器21获得视频数据。视频译码装置可编制指示所述轨迹是仅包含纹理视图,仅包含深度视图,还是包含纹理视图及深度视图两者的信息(208)。举例来说,封装模块21可将信息编制到具有深度的多视图媒体文件142中,以指示包含于具有深度的多视图媒体文件142中的轨迹中的至少一者是含有纹理视图,含有深度视图,还是含有纹理视图及深度视图两者。根据本文中所描述的技术,封装模块21可编制含有多个经译码视图加深度的媒体文件,例如具有深度的多视图媒体文件142。

在一些实例中,编制信息进一步包括在样本项及多视图群组项中的至少一者中编制视图识别符框,其中样本项及多视图群组项中的至少一者与轨迹相关联。举例来说,封装模块21可将信息编制到视图识别符框172中以指示对于包含于轨迹中的每一视图来说,所述视图是纹理视图还是深度视图。封装模块21可编制视图识别符框172以进一步指示是需要参考视图的纹理视图还是深度视图以用于解码轨迹中的特定视图。

封装模块21可基于第一视频数据编制视频数据的另一第二集合,且进一步编制信息以指示可使用第一视频数据的第一纹理视图、第一深度视图还是第一纹理视图及第一深度视图两者来解码或剖析第二视频数据。

在另一实例中,过程包含编制补充增强信息(SEI)消息框以指示与视图中的一或多者相关联的三维可扩缩性信息SEI消息。即,封装模块21可编制SEI消息框(例如,3VC可扩缩性信息SEI消息框166)以在视图中的一或多者的SEI消息中提供信息。

在轨迹含有一或多个深度视图的实例中,过程可进一步包含编制3VC深度分辨率框以指示一或多个深度视图的空间分辨率。举例来说,封装模块21编制3VC深度分辨率框170以指示包含于具有深度的多视图媒体文件142中的深度视图的空间分辨率。在一些实例中,封装模块21编制3VC配置框168中的3VC深度分辨率框170。在其它实例中,封装模块21直接在样本项中编制3VC深度分辨率框170。封装模块21还可编制3VC解码器配置记录3VCDecoderConfigurationRecord,所述3VC解码器配置记录包含指示与3DV视频流(例如,MVC+D视频流)有关的特性的语义。过程还可包含编制三维视频译码(3VC)解码器配置记录以确定包含于轨迹中的深度视图的宽度及高度。

在一些实例中,轨迹为第一轨迹,其中第一轨迹包含视图的深度视图及视图的纹理视图中的一者,且过程进一步包含编制视频数据的第二轨迹,其中第二轨迹包含视图的深度视图及视图的纹理视图中的不包含于第一轨迹中的一者。过程可进一步包含编制参考第二轨迹的用于第一轨迹的轨迹参考,其中轨迹参考包含至少一个轨迹参考类型,所述至少一个轨迹参考类型指示以下各者中的一者:第一轨迹包含与存储于第二轨迹中的纹理视图相关联的深度视图(例如,轨迹参考类型为‘deps’),第一轨迹取决于存储于第二轨迹中的纹理视图(例如,轨迹参考类型为‘tref’),及第一轨迹取决于存储于第二轨迹中的深度视图(例如,轨迹参考类型为‘dref’)。

在轨迹为三维视频译码(3VC)轨迹的实例中,过程可进一步包含编制3VC解码器配置记录,其中3VC解码器配置记录指示用于视频数据的匹配样本项的配置记录。在轨迹为包含一或多个深度网络抽象层(NAL)单元的3VC轨迹的另一实例中,过程包含编制允许提取器的样本项类型‘3vc1’及不允许提取器的样本项类型‘3vc2’中的至少一者。在其它实例中,过程可含有本发明中所描述的技术中的一或多者。

图10为说明根据本发明中所描述的技术的剖析指示视图的相依性的含有多视图视频的媒体文件的实例方法的流程图。图10中所描述的过程可由视频译码装置执行,所述视频译码装置包含本文中所描述的解封装模块29。视频译码装置可剖析视频数据的轨迹,其中所述轨迹包含一或多个视图(220)。举例来说,解封装模块29可从源装置12获得含有多个经译码视图加深度的媒体文件,例如具有深度的多视图媒体文件142。视频译码装置可剖析信息以确定需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的一者(202)。举例来说,解封装模块29可从具有深度的多视图媒体文件142剖析信息以确定需要参考视图的纹理视图还是深度视图以用于解码包含于具有深度的多视图媒体文件142中的轨迹中的一或多个视图中的一者。

在一些实例中,过程可进一步包含基于第一视频数据解码第二视频数据,其中解码第二视频数据包含解码指示使用第一视频数据的纹理视图、深度视图还是纹理视图及深度视图两者来解码第二视频数据的信息。

在一些实例中,剖析信息进一步包括从样本项及多视图群组项中的至少一者剖析视图识别符框,其中样本项及多视图群组项中的至少一者与轨迹相关联。举例来说,视频解码器30可从视图识别符框172剖析信息以确定需要参考视图的纹理视图还是深度视图以用于解码包含于具有深度的多视图媒体文件142中的轨迹中的一或多个视图中的一者。在另一实例中,解封装模块29可从视图识别符框172剖析信息以确定轨迹是仅包含纹理视图,仅包含深度视图,还是包含纹理视图及深度视图两者。在另一实例中,解封装模块29可从视图识别符框172剖析信息以确定对于包含于轨迹中的每一视图来说,所述视图是纹理视图还是深度视图。解封装模块29可剖析视图识别符框172以进一步确定是需要参考视图的纹理视图还是深度视图以用于解码轨迹中的特定视图。

解封装模块29可基于第一视频数据剖析视频数据的另一第二集合,且进一步剖析信息以确定使用第一视频数据的第一纹理视图、第一深度视图还是第一纹理视图及第一深度视图两者来解码第二视频数据。

在另一实例中,过程包含剖析补充增强信息(SEI)消息框以确定与视图中的一或多者相关联的三维可扩缩性信息SEI消息。即,解封装模块29可剖析SEI消息框(例如,3VC可扩缩性信息SEI消息框166)以从视图中的一或多者的SEI消息获得信息。

在轨迹含有一或多个深度视图的实例中,过程可进一步包含剖析3VC深度分辨率框以确定一或多个深度视图的空间分辨率。举例来说,解封装模块29剖析3VC深度分辨率框170以确定包含于具有深度的多视图媒体文件142中的深度视图的空间分辨率。在一些实例中,解封装模块29从3VC配置框168剖析3VC深度分辨率框170。在其它实例中,解封装模块29直接从样本项剖析3VC深度分辨率框170。解封装模块29还可剖析3VC解码器配置记录3VCDecoderConfigurationRecord,所述3VC解码器配置记录包含指示与3DV视频流(例如,MVC+D视频流)有关的特性的语义。过程还可包含剖析三维视频译码(3VC)解码器配置记录以确定包含于轨迹中的深度视图的宽度及高度。

在一些实例中,轨迹为第一轨迹,其中第一轨迹包含视图的深度视图及视图的纹理视图中的一者,且过程进一步包含剖析视频数据的第二轨迹,其中第二轨迹包含视图的深度视图及视图的纹理视图中的不包含于第一轨迹中的一者。过程可进一步包含剖析参考第二轨迹的用于第一轨迹的轨迹参考,其中轨迹参考包含至少一个轨迹参考类型,所述至少一个轨迹参考类型指示以下各者中的一者:第一轨迹包含与存储于第二轨迹中的纹理视图相关联的深度视图(例如,轨迹参考类型为‘deps’),第一轨迹取决于存储于第二轨迹中的纹理视图(例如,轨迹参考类型为‘tref’),及第一轨迹取决于存储于第二轨迹中的深度视图(例如,轨迹参考类型为‘dref’)。

在轨迹为三维视频译码(3VC)轨迹的实例中,过程可进一步包含剖析3VC解码器配置记录,其中3VC解码器配置记录指示用于视频数据的匹配样本项的配置记录。在轨迹为包含一或多个深度网络抽象层(NAL)单元的3VC轨迹的另一实例中,过程包含剖析允许提取器的样本项类型‘3vc1’及不允许提取器的样本项类型‘3vc2’中的至少一者。在其它实例中,过程可含有本发明中所描述的技术中的一或多者。

图11为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件以指示视图的相依性的实例方法的流程图。图11中所描述的过程可由视频译码装置执行,所述视频译码装置包含本文中所描述的封装模块21。视频译码装置可编制视频数据的轨迹,其中所述轨迹包含一或多个视图(226)。举例来说,封装模块21可从视频编码器21获得视频数据。视频译码装置可编制指示需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的一者的信息(228)。举例来说,封装模块21可将信息编制到具有深度的多视图媒体文件142中以指示需要参考视图的纹理视图还是深度视图以用于解码包含于具有深度的多视图媒体文件142中的轨迹中的一者。根据本文中所描述的技术,封装模块21可编制含有多个经译码视图加深度的媒体文件,例如具有深度的多视图媒体文件142。

在一些实例中,编制信息进一步包括在样本项及多视图群组项中的至少一者中编制视图识别符框,其中样本项及多视图群组项中的至少一者与轨迹相关联。举例来说,封装模块21可将信息编制到视图识别符框172中以指示对于包含于轨迹中的每一视图来说,所述视图是纹理视图还是深度视图。封装模块21可编制视图识别符框172以进一步指示轨迹是仅包含纹理视图,仅包含深度视图,还是包含纹理视图及深度视图。封装模块21可编制视图识别符框172以进一步指示对于包含于轨迹中的每一视图来说,所述视图是纹理视图还是深度视图。

封装模块21可基于第一视频数据编制视频数据的另一第二集合,且进一步编制信息以指示使用第一视频数据的第一纹理视图、第一深度视图还是第一纹理视图及第一深度视图两者来解码或剖析第二视频数据。

在另一实例中,过程包含编制补充增强信息(SEI)消息框以指示与视图中的一或多者相关联的三维可扩缩性信息SEI消息。即,封装模块21可编制SEI消息框(例如,3VC可扩缩性信息SEI消息框166)以在视图中的一或多者的SEI消息中提供信息。

在轨迹含有一或多个深度视图的实例中,过程可进一步包含编制3VC深度分辨率框以指示一或多个深度视图的空间分辨率。举例来说,封装模块21编制3VC深度分辨率框170以指示包含于具有深度的多视图媒体文件142中的深度视图的空间分辨率。在一些实例中,封装模块21编制3VC配置框168中的3VC深度分辨率框170。在其它实例中,封装模块21直接在样本项中编制3VC深度分辨率框170。封装模块21还可编制3VC解码器配置记录3VCDecoderConfigurationRecord,所述3VC解码器配置记录包含指示与3DV视频流(例如,MVC+D视频流)有关的特性的语义。过程还可包含编制三维视频译码(3VC)解码器配置记录以确定包含于轨迹中的深度视图的宽度及高度。

在一些实例中,轨迹为第一轨迹,其中第一轨迹包含视图的深度视图及视图的纹理视图中的一者,且过程进一步包含编制视频数据的第二轨迹,其中第二轨迹包含视图的深度视图及视图的纹理视图中的不包含于第一轨迹中的一者。过程可进一步包含编制参考第二轨迹的用于第一轨迹的轨迹参考,其中轨迹参考包含至少一个轨迹参考类型,所述至少一个轨迹参考类型指示以下各者中的一者:第一轨迹包含与存储于第二轨迹中的纹理视图相关联的深度视图(例如,轨迹参考类型为‘deps’),第一轨迹取决于存储于第二轨迹中的纹理视图(例如,轨迹参考类型为‘tref’),及第一轨迹取决于存储于第二轨迹中的深度视图(例如,轨迹参考类型为‘dref’)。

在轨迹为三维视频译码(3VC)轨迹的实例中,过程可进一步包含编制3VC解码器配置记录,其中3VC解码器配置记录指示用于视频数据的匹配样本项的配置记录。在轨迹为包含一或多个深度网络抽象层(NAL)单元的3VC轨迹的另一实例中,过程包含编制允许提取器的样本项类型‘3vc1’及不允许提取器的样本项类型‘3vc2’中的至少一者。在其它实例中,过程可含有本发明中所描述的技术中的一或多者。

根据本文中所描述的技术处理视频数据的替代过程包含编码第一视频数据,其中第一视频数据包含纹理视图及深度视图。过程进一步包含基于第一视频数据编码第二视频数据,其中编码第二视频数据包含编码指示使用第一视频数据的纹理视图、深度视图还是纹理视图及深度视图两者来解码第二视频数据的信息。

图12为说明根据本发明中所描述的技术的剖析含有多视图视频的媒体文件以确定深度视图的空间分辨率的实例方法的流程图。图12中所描述的过程可由视频译码装置执行,所述视频译码装置包含本文中所描述的解封装模块29。视频译码装置可剖析视频数据的轨迹,其中所述轨迹包含一或多个视图,所述视图包含至少一个深度视图(240)。举例来说,解封装模块29可从源装置12获得含有多个经译码视图加深度的媒体文件,例如具有深度的多视图媒体文件142。视频译码装置可剖析信息以确定与深度视图相关联的空间分辨率,其中解码空间分辨率不需要剖析深度视图的序列参数集(242)。举例来说,解封装模块29可从具有深度的多视图媒体文件142剖析信息以确定存储于深度媒体文件142中的深度视图的空间分辨率。

在一些实例中,剖析信息进一步包括从来自3VC配置框及直接从样本项中的至少一者的3VC深度分辨率框剖析所述空间分辨率。即,在一些实例中,3VC深度分辨率框(例如,3VC深度分辨率框170)存储于3VC配置框(例如,3VC配置框168)中,而在其它实例中,3VC深度分辨率框170直接存储于样本项中。过程可进一步包括从3VC配置框剖析3VC解码器配置记录,其中3VC配置框被包含于允许提取器的类型‘3vc1’的样本项及不允许提取器的类型‘3vc2’的样本项中的至少一者中。

在一些实例中,解封装模块29还可剖析3VC解码器配置记录以确定深度视图的宽度及高度。3VCDecoderConfigurationRecord可包含指示与3DV视频流(例如,MVC+D视频流)有关的特性的语义。过程还可包含剖析三维视频译码(3VC)解码器配置记录以确定包含于轨迹中的深度视图的宽度及高度。

在一些实例中,剖析信息进一步包括从样本项及多视图群组项中的至少一者剖析视图识别符框以确定以下各者中的至少一者:需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者;轨迹仅包含深度视图还是包含纹理视图及深度视图;及对于包含于轨迹中的每一视图来说,视图为纹理视图还是深度视图,其中样本项及多视图群组项中的至少一者与轨迹相关联。举例来说,解封装模块29可从视图识别符框172剖析信息以确定对于包含于轨迹中的每一视图来说,所述视图是纹理视图还是深度视图。解封装模块29可进一步剖析视图识别符框172以确定是需要参考视图的纹理视图还是深度视图以用于解码轨迹中的特定视图。

在视频数据为视频数据的第一集合及轨迹进一步包含至少一个纹理视图的实例中,解封装模块29可进一步基于视频数据的第一集合剖析视频数据的第二集合,其中剖析信息包括剖析信息以确定使用视频数据的第一集合的第一纹理视图、第一深度视图还是第一纹理视图及第一深度视图两者来解码视频数据的第二集合。

在另一实例中,过程包含剖析补充增强信息(SEI)消息框以确定与视图中的一或多者相关联的三维可扩缩性信息SEI消息。即,解封装模块29可剖析SEI消息框(例如,3VC可扩缩性信息SEI消息框166)以从视图中的一或多者的SEI消息获得信息。

在轨迹为含有深度视图的第一轨迹的实例中,过程可进一步包含剖析视频数据的第二轨迹,其中第二轨迹包含对应于深度视图的纹理视图,其中纹理视图不包含于第一轨迹中。过程可进一步包含剖析参考第二轨迹的用于第一轨迹的轨迹参考,其中轨迹参考包含至少一个轨迹参考类型,所述至少一个轨迹参考类型指示以下各者中的一者:第一轨迹包含与存储于第二轨迹中的纹理视图相关联的深度视图(例如,轨迹参考类型为‘deps’),第一轨迹的一或多个视图取决于存储于第二轨迹中的纹理视图(例如,轨迹参考类型为‘tref’),及第一轨迹的一或多个视图取决于存储于第二轨迹中的深度视图(例如,轨迹参考类型为‘dref’)。

处理视频数据的其它实例过程可包含解码深度视图及解码与深度视图相关联的空间分辨率,其中解码空间分辨率不需要剖析深度视图的序列参数集。在另一实例中,处理视频数据的过程包含解码深度分辨率框以指示深度视图的空间分辨率。在又一实例中,处理视频数据的过程包含解码配置框,其中深度分辨率框被包含于配置框中。处理视频数据的另一实例过程包含直接从样本项解码3VCDepthResolutionBox。在又一实例中,处理视频数据的过程包含从3VC解码器配置记录解码深度视图的宽度及高度,其中3VC代表三维视频译码。此些实例过程中的任一者可包含本文中所描述的技术的任何子集。

图13为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件以指示深度视图的空间分辨率的实例方法的流程图。图13中所描述的过程可由视频译码装置执行,所述视频译码装置包含本文中所描述的封装模块21。视频译码装置可编制视频数据的轨迹,其中所述轨迹包含一或多个视图,所述视图包含至少一个深度视图(246)。举例来说,封装模块21可从视频编码器21获得视频数据。视频译码装置可编制信息以指示与深度视图相关联的空间分辨率,其中解码空间分辨率不需要剖析深度视图的序列参数集(248)。根据本文中所描述的技术,封装模块21可编制含有多个经译码视图加深度的媒体文件,例如具有深度的多视图媒体文件142。举例来说,封装模块21可将信息编制到具有深度的多视图媒体文件142中以指示包含于具有深度的多视图媒体文件142中的轨迹中的深度视图的空间分辨率。

在一些实例中,编制信息进一步包括在3VC配置框及直接在样本项中的至少一者中的3VC深度分辨率框中编制空间分辨率。即,在一些实例中,3VC深度分辨率框(例如,3VC深度分辨率框170)存储于3VC配置框(例如,3VC配置框168)中,而在其它实例中,3VC深度分辨率框170直接存储于样本项中。过程可进一步包括编制3VC配置框中的3VC解码器配置记录,其中3VC配置框被包含于允许提取器的类型‘3vc1’的样本项及不允许提取器的类型‘3vc2’的样本项中的至少一者中。

在一些实例中,封装模块21还可编制3VC解码器配置记录以指示深度视图的宽度及高度。3VCDecoderConfigurationRecord可包含指示与3DV视频流(例如,MVC+D视频流)有关的特性的语义。

在一些实例中,编制信息进一步包括从样本项及多视图群组项中的至少一者编制视图识别符框以指示以下各者中的至少一者:需要参考视图的纹理视图还是深度视图以用于解码轨迹中的一或多个视图中的至少一者;轨迹仅包含深度视图还是包含纹理视图及深度视图;及对于包含于轨迹中的每一视图来说,视图为纹理视图还是深度视图,其中样本项及多视图群组项中的至少一者与轨迹相关联。举例来说,封装模块21可编制视图识别符框172中的信息以指示对于包含于轨迹中的每一视图来说,所述视图是纹理视图还是深度视图。视频解码器30可进一步编制视图识别符框172以指示是需要参考视图的纹理视图还是深度视图以用于解码轨迹中的特定视图。

在视频数据为视频数据的第一集合及轨迹进一步包含至少一个纹理视图的实例中,封装模块21可进一步基于视频数据的第一集合编制视频数据的第二集合,其中剖析信息包括编制信息以指示使用视频数据的第一集合的第一纹理视图、第一深度视图还是第一纹理视图及第一深度视图两者来解码视频数据的第二集合。

在另一实例中,过程包含编制补充增强信息(SEI)消息框以指示与视图中的一或多者相关联的三维可扩缩性信息SEI消息。即,封装模块21可编制SEI消息框(例如,3VC可扩缩性信息SEI消息框166)以存储来自视图中的一或多者的SEI消息的信息。

在轨迹为第一轨迹的实例中,过程可进一步包含编制视频数据的第二轨迹,其中第二轨迹包含对应于深度视图的纹理视图,其中纹理视图不包含于第一轨迹中。过程可进一步包含编制参考第二轨迹的用于第一轨迹的轨迹参考,其中轨迹参考包含至少一个轨迹参考类型,所述至少一个轨迹参考类型指示以下各者中的一者:第一轨迹包含与存储于第二轨迹中的纹理视图相关联的深度视图(例如,轨迹参考类型为‘deps’),第一轨迹的一或多个视图取决于存储于第二轨迹中的纹理视图(例如,轨迹参考类型为‘tref’),及第一轨迹的一或多个视图取决于存储于第二轨迹中的深度视图(例如,轨迹参考类型为‘dref’)。

处理视频数据的其它实例过程可包含编码深度视图及编码与深度视图相关联的空间分辨率,其中编码空间分辨率如此进行以使得不将对深度视图的序列参数集的剖析用以确定空间分辨率。在另一实例中,处理视频数据的过程包含编码深度分辨率框以指示深度视图的空间分辨率。在又一实例中,处理视频数据的过程包含编码配置框,其中深度分辨率框包含于配置框中。处理视频数据的另一实例过程包含直接将3VCDepthResolutionBox编码到样本项中。在又一实例中,处理视频数据的过程包含在3VC解码器配置记录中编码深度视图的宽度及高度,其中3VC代表三维视频译码。此些实例过程中的任一者可包含本文中所描述的技术的任何子集。

图14为说明根据本发明中所描述的技术的剖析含有多视图视频的媒体文件的实例方法的流程图,其中特定视图的纹理及深度视图被存储于分轨中。图14中所描述的过程可由视频译码装置执行,所述视频译码装置包含本文中所描述的解封装模块29。视频译码装置可剖析视频数据的轨迹,其中轨迹包含一或多个视图,所述视图包含特定视图的纹理视图及特定视图的深度视图中的仅一者(260)。举例来说,解封装模块29可剖析来自源装置12的媒体文件(例如,具有深度的多视图媒体文件142),所述媒体文件包含存储于分轨中的特定视图的纹理视图及特定视图的深度视图。

视频译码装置可剖析轨迹参考以确定轨迹对轨迹参考中所指示的所参考轨迹的相依性(262)。举例来说,解封装模块29可剖析轨迹参考类型‘deps’,所述轨迹参考类型‘deps’指示轨迹包含特定视图的深度视图,且参考轨迹包含特定视图的纹理视图。在另一实例中,解封装模块29可剖析轨迹参考类型‘tref’,所述轨迹参考类型‘tref’指示轨迹取决于存储于所参考轨迹中的特定视图的纹理视图。在又一实例中,解封装模块29可剖析轨迹参考类型‘dref’,所述轨迹参考类型‘dref’指示轨迹取决于存储于所参考轨迹中的特定视图的深度视图。

在一些实例中,方法可进一步包含从样本项及多视图群组项中的至少一者剖析视图识别符框以确定对于轨迹中的每一视图来说,视图为纹理视图还是深度视图,其中样本项及多视图群组项中的至少一者与轨迹相关联。在另一实例中,视图识别符框可经剖析以确定是需要参考视图的纹理视图还是深度视图以用于解码轨迹中的特定视图。

在另一实例中,过程包含剖析补充增强信息(SEI)消息框以确定与视图中的一或多者相关联的三维可扩缩性信息SEI消息。在轨迹含有特定视图的深度视图的实例中,方法可进一步包含剖析3VC深度分辨率框以确定特定视图的深度视图的空间分辨率。在轨迹含有特定视图的深度视图的另一实例中,方法包括剖析三维视频译码(3VC)解码器配置记录以确定特定视图的深度视图的宽度及高度。

在轨迹为三维视频译码(3VC)轨迹的又一实例中,方法可进一步包含剖析3VC解码器配置记录,其中3VC解码器配置记录指示用于视频数据的匹配样本项的配置记录。

在处理视频数据的另一实例方法中,方法包含解码用于轨迹的类型值‘tref’以确定轨迹取决于存储于所参考轨迹中的纹理视图。在处理视频数据的另一实例方法中,方法包含解码用于轨迹的类型值‘dref’以确定轨迹取决于存储于所参考轨迹中的深度视图。在其它实例中,本文中所描述的过程中的任一者可含有本发明中所描述的技术中的一或多者。

图15为说明根据本发明中所描述的技术的编制含有多视图视频内容的媒体文件的实例方法的流程图,其中特定视图的纹理及深度视图被存储于分轨中。图15中所描述的过程可由视频译码装置执行,所述视频译码装置包含本文中所描述的封装模块21。视频译码装置可编制视频数据的轨迹,其中轨迹包含一或多个视图,所述视图包含特定视图的纹理视图及特定视图的深度视图中的仅一者(266)。举例来说,封装模块21可编制媒体文件(例如,具有深度的多视图媒体文件142),所述媒体文件包含存储于分轨中的特定视图的纹理视图及特定视图的深度视图。

视频译码装置可编制轨迹参考以指示轨迹对轨迹参考中所指示的所参考轨迹的相依性(266)。举例来说,封装模块21可编制轨迹参考类型‘deps’,所述轨迹参考类型‘deps’指示轨迹包含特定视图的深度视图,且参考轨迹包含特定视图的纹理视图。在另一实例中,封装模块21可编制轨迹参考类型‘tref’,所述轨迹参考类型‘tref’指示轨迹取决于存储于所参考轨迹中的特定视图的纹理视图。在又一实例中,封装模块21可编制轨迹参考类型‘dref’,所述轨迹参考类型‘dref’指示轨迹取决于存储于所参考轨迹中的特定视图的深度视图。

在一些实例中,方法可进一步包含从样本项及多视图群组项中的至少一者编制视图识别符框以指示对于轨迹中的每一视图来说,视图为纹理视图还是深度视图,其中样本项及多视图群组项中的至少一者与轨迹相关联。在另一实例中,可编制视图识别符框以指示是需要参考视图的纹理视图还是深度视图以用于解码轨迹中的特定视图。

在另一实例中,过程包含编制补充增强信息(SEI)消息框以指示与视图中的一或多者相关联的三维可扩缩性信息SEI消息。在轨迹含有特定视图的深度视图的实例中,方法可进一步包含编制3VC深度分辨率框以指示特定视图的深度视图的空间分辨率。在轨迹含有特定视图的深度视图的另一实例中,方法包含编制三维视频译码(3VC)解码器配置记录以指示特定视图的深度视图的宽度及高度。

在轨迹为三维视频译码(3VC)轨迹的又一实例中,方法可进一步包含编制3VC解码器配置记录,其中3VC解码器配置记录指示用于视频数据的匹配样本项的配置记录。

在处理视频数据的另一实例方法中,方法包含将特定视图的纹理视图及深度视图存储于分轨中。在处理视频数据的另一实例方法中,方法包含编码用于轨迹的类型值‘tref’以指示轨迹取决于存储于所参考轨迹中的纹理视图。在处理视频数据的另一实例方法中,方法包含编码用于轨迹的类型值‘dref’以指示轨迹取决于存储于所参考轨迹中的深度视图。在其它实例中,本文中所描述的过程中的任一者可含有本发明中所描述的技术中的一或多者。

在另一实例中,处理视频数据的方法包含解码一解码器配置记录,其中解码器配置记录经定义为“3VCDecoderConfigurationRecord”,其包含与“MVCDecoderConfigurationRecord”相同的语法结构及至少一些不同于“MVCDecoderConfigurationRecord”的语义以指示与3VC视频流有关的特性。

在又一实例中,处理视频数据的方法包含解码用于仅具有深度NAL单元的3VC轨迹的样本项类型,其中项类型是选自包含不允许提取器的第一类型及允许提取器的第二类型的群组。

在另一实例中,处理视频数据的方法包含解码来自样本项类型的群组的样本项类型,所述群组包含:1)用于具有AVC、MVC及深度NAL单元的3VC轨迹的含有AVC、MVC及3VC配置的样本项类型‘avc1’;2)用于不具有AVC NAL单元但具有MVC及深度NAL单元的3VC轨迹的含有MVC及3VC配置的样本项类型‘mvc1’,其中提取器是不允许的;及3)用于不具有AVC NAL单元但具有MVC及深度NAL单元的3VC轨迹的含有MVC及3VC配置的样本项类型‘mvc2’,其中提取器是允许的。

在另一实例中,处理视频数据的方法包含解码用以指示以下各者中的至少一者的属性:多视图群组框中所指示的3VC操作点是否存在,多视图群组框中所指示的操作点是3VC还是MVC,及多视图群组框中所指示的输出视图是仅含有纹理,仅含有深度,还是含有两者。

在另一实例中,处理视频数据的方法包含解码含有按MVC+D编解码器规范定义的三维可扩缩性信息SEI消息的SEI消息框。在另一实例中,处理视频数据的方法包含解码用于含有三维视频译码(3VC)视频流的文件的压缩器名称值“/0123VC Coding”。

在另一实例中,处理视频数据的方法包含编码一解码器配置记录,其中解码器配置记录经定义为“3VCDecoderConfigurationRecord”,其包含与“MVCDecoderConfigurationRecord”相同的语法结构及至少一些不同于“MVCDecoderConfigurationRecord”的语义以指示与三维视频译码(3VC)视频流有关的特性。在又一实例中,处理视频数据的方法包含编码用于仅具有深度NAL单元的3VC轨迹的样本项类型,其中项类型是选自包含不允许提取器的第一类型及允许提取器的第二类型的群组,其中NAL代表网络抽象层且3VC代表三维视频译码。

在又一实例中,处理视频数据的方法包含编码来自样本项类型的群组的一样本项类型,所述群组包含:1)用于具有AVC、MVC及深度NAL单元的3VC轨迹的含有AVC、MVC及3VC配置的样本项类型‘avc1’;2)用于不具有AVC NAL单元但具有MVC及深度NAL单元的3VC轨迹的含有MVC及3VC配置的样本项类型‘mvc1’,其中提取器是不允许的;及3)用于不具有AVC NAL单元但具有MVC及深度NAL单元的3VC轨迹的含有MVC及3VC配置的样本项类型‘mvc2’,其中提取器是允许的。

在另一实例中,处理视频数据的方法包含编码属性以指示以下各者中的至少一者:多视图群组框中所指示的3VC操作点是否存在,多视图群组框中所指示的操作点是3VC还是MVC,及多视图群组框中所指示的输出视图是仅含有纹理,仅含有深度,还是含有两者。在一些实例中,属性为共同属性或区别属性中的一者。

在另一实例中,处理视频数据的方法包含编码补充增强信息(SEI)消息框,所述SEI消息框含有按多视图译码加深度(MVC+D)编解码器规范所定义的三维可扩缩性信息SEI消息。在另一实例中,处理视频数据的方法包含编码用于含有三维视频译码(3VC)视频流的文件的压缩器名称值“/0123VC Coding”。

本发明还包含以下附件,所述附件是基于MPEG输出文件W13036中的最新集成规范14496-15,所述规范的全部内容以引用的方式并入本文中。在以下附件中,未改变部分通常并未展示,而是在附件内用陈述“[See Original Document]”来替代。MPEG输出文件W13036中的原始规范14496-15的版权属于ISO/IEC。

本发明的技术可由例如路由装置104及转码装置106的网络装置实施,但还可由客户端装置108实施。以此方式,路由装置104、转码装置106及客户端装置108表示经配置以执行本发明的技术(包含本发明的权利要求书部分中所叙述的技术)的装置的实例。此外,图1的装置及图2中所示的编码器及图3中所示的解码器还为可经配置以执行本发明的技术(包含本发明的权利要求书部分中所叙述的技术)的例示性装置。

在一或多个实例中,所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体来传输,且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体或通信媒体,计算机可读存储媒体对应于例如数据存储媒体的有形媒体,通信媒体包含促进计算机程序(例如)根据通信协议从一处传送到另一处的任何媒体。以此方式,计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

在又其它实例中,本发明预期计算机可读媒体,其包括存储于其上的数据结构,其中所述数据结构包含与本发明一致地译码的经编码位流。

作为实例而非限制,此计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器,或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且,任何连接被适当地称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL),或例如红外线、无线电及微波等无线技术而从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL,或例如红外线、无线电及微波等无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它瞬时媒体,而是针对非瞬时的有形存储媒体。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。以上各物的组合还应包含于计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用,术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,可将本文所描述的功能性提供于经配置以用于编码及解码的专用硬件及/或软件模块内,或并入于组合式编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或IC的集合(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面,但未必要求通过不同硬件单元实现。更确切来说,如上文所描述,各种单元可组合于编解码器硬件单元中或由结合合适的软件及/或固件的交互操作的硬件单元的集合(包含如上文所描述的一或多个处理器)来提供。

已描述各种实例。此些及其它实例属于以下权利要求书的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1