用于视差向量导出的图片的选择的方法和装置与流程

文档序号:13915660阅读:164来源:国知局
用于视差向量导出的图片的选择的方法和装置与流程

2012年9月19日申请的美国临时申请案61/703,190;及

2012年10月4日申请的美国临时申请案61/709,839,所述申请案中的每一者的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码,且更确切地说,涉及用于对多视图及三维(3D)视频数据进行译码的技术。



背景技术:

数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、目前已完成的高效率视频译码(HEVC)标准及此些标准的扩展中所描述的技术。视频装置可以通过实施此类视频压缩技术来更有效率地发射、接收、编码、解码和及/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测来减少或去除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,视频块也可称作树块、译码单元(CU)及/或译码节点。图片的经帧内译码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的经帧间编码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可以被称为帧,且参考图片可以被称为参考帧。

空间或时间预测导致对块的预测性块进行译码。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内译码模式及残余数据而编码。为了实现进一步压缩,可以将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可以对残余变换系数进行量化。可以扫描最初用二维阵列布置的经量化变换系数,以便产生变换系数的一维向量,并且可以应用熵译码以实现更多的压缩。



技术实现要素:

本发明描述与多视图视频译码相关的技术,且更确切地说,本发明描述其中视频译码器(例如,视频编码器或视频解码器)确定当前视图的当前图片内的当前块的视差向量的技术。在一些实例中,视频译码器可基于另一块的视差运动向量确定当前块的视差向量,所述另一块包含与包含相同视图中的当前块的图片不同的一或多个图片中的一者中的块。

本发明中所描述的技术可显著减少视频译码器需要存取以确定当前块的视差向量的图片的数目,以导出准确视差向量。举例来说,可存在视频译码器需要存取以确定是否用视差运动向量对这些图片中的块进行帧间预测的两个图片。如果存在此视差运动向量,那么视频译码器可利用视差运动向量来导出当前块的视差向量。

在一个实例中,本发明描述一种用于对包含多视图视频数据的位流进行解码的方法,所述多视图视频数据包含多个视图。所述方法包含出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程,其中NBDV产生过程依赖于用于导出当前图片的当前块的视差向量的相邻块的运动向量。而且,应用NBDV产生过程包括:选择候选图片以确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测,其中候选图片是来自一或多个随机存取点视图分量(RAPVC)图片及具有最低时间识别值的一或多个图片中的一者;确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测,其中视差运动向量指代除包含多视图视频数据的选定候选图片的视图之外的视图中的块;及作为NBDV产生的部分,在用视差运动向量对多视图视频数据的选定候选图片中的视频块进行帧间预测的情况下基于视差运动向量确定当前图片的当前块的视差向量。所述方法还包含基于所确定的视差向量对当前块进行帧间预测解码。

在一个实例中,本发明描述一种用于对位流中的包含多个视图的多视图视频数据进行编码的方法。所述方法包含出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程,其中NBDV产生过程依赖于用于导出相对于多视图视频数据的另一视图的当前图片的当前块的视差向量的相邻块的运动向量。而且,应用NBDV产生过程包括:选择候选图片以确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测,其中候选图片是来自一或多个随机存取点视图分量(RAPVC)图片及具有最低时间识别值的一或多个图片中的一者;确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测,其中视差运动向量指代除包含多视图视频数据的选定候选图片的视图之外的视图中的块;及作为NBDV产生的部分,在用视差运动向量对多视图视频数据的选定候选图片中的视频块进行帧间预测的情况下基于视差运动向量确定当前图片的当前块的视差向量。所述方法还包含基于所确定的视差向量对当前块进行帧间预测编码。

在一个实例中,本发明描述一种对多视图视频的视频数据进行译码的装置。所述装置包含经配置以出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程的视频译码器,其中NBDV产生过程依赖于用于导出相对于多视图视频数据的另一视图的当前图片的当前块的视差向量的相邻块的运动向量。为了应用NBDV产生过程,视频译码器经配置以选择候选图片以确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测,其中候选图片是来自一或多个随机存取点视图分量(RAPVC)图片及具有最低时间识别值的一或多个图片中的一者;确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测,其中视差运动向量指代除包含多视图视频数据的选定候选图片的视图之外的视图中的块;及作为NBDV产生的部分,在用视差运动向量对多视图视频数据的选定候选图片中的视频块进行帧间预测的情况下基于视差运动向量确定当前图片的当前块的视差向量。视频译码器还经配置以基于所确定的视差向量对当前块进行帧间预测译码。

在一个实例中,本发明描述一种具有存储于其上的指令的计算机可读存储媒体,所述指令在由用于多视图视频的视频译码的装置的一或多个处理器执行时致使一或多个处理器出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程,其中NBDV产生过程依赖于用于导出相对于多视图视频数据的另一视图的当前图片的当前块的视差向量的相邻块的运动向量。致使一或多个处理器应用NBDV产生过程的所述指令包括致使一或多个处理器选择候选图片以确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测的指令,其中候选图片是来自一或多个随机存取点视图分量(RAPVC)图片及具有最低时间识别值的一或多个图片中的一者;确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测,其中视差运动向量指代除包含多视图视频数据的选定候选图片的视图之外的视图中的块;及作为NBDV产生的部分,在用视差运动向量对多视图视频数据的选定候选图片中的视频块进行帧间预测的情况下基于视差运动向量确定当前图片的当前块的视差向量。指令还致使一或多个处理器基于所确定的视差向量对当前块进行帧间预测译码。

在一个实例中,本发明描述一种用于对多视图视频的视频数据进行译码的装置,所述装置包括用于出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程的装置,其中NBDV产生过程依赖于用于导出当前图片的当前块的视差向量的相邻块的运动向量。用于应用NBDV产生过程的装置包括:用于选择候选图片以确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测的装置,其中候选图片是来自一或多个随机存取点视图分量(RAPVC)图片及具有最低时间识别值的一或多个图片中的一者;用于确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测的装置,其中视差运动向量指代除包含多视图视频数据的选定候选图片的视图之外的视图中的块;及作为NBDV产生的部分,用于在用视差运动向量对多视图视频数据的选定候选图片中的视频块进行帧间预测的情况下基于视差运动向量确定当前图片的当前块的视差向量的装置。所述装置还包含用于基于所确定的视差向量对当前块进行帧间预测译码的装置。

随附图式及以下描述中陈述一或多个实例的细节。其它特征、目标及优势将从所述描述及所述图式以及从权利要求书显而易见。

附图说明

图1是说明可利用本发明中描述的技术的实例视频编码和解码系统的实例的框图。

图2是说明根据本发明中所描述的一或多个实例的实例编码或解码次序的符号图。

图3是说明实例预测模式的概念图。

图4是说明图片类型的实例的概念图。

图5是说明网络抽象层(NAL)单元标头的实例的概念图。

图6是说明当前块及五个空间相邻块的概念图。

图7是说明其中存储运动向量信息的方式的概念图。

图8是说明根据一些其它技术的候选图片列表建构过程的实例的概念图。

图9是说明候选图片中的相同位置区的概念图。

图10是说明可实施本发明中所描述的技术的实例视频编码器的框图。

图11是说明可实施本发明中所描述的技术的实例视频解码器的框图。

图12是说明根据本发明中所描述的一或多个实例技术的实例操作的流程图。

图13是说明根据本发明中所描述的一或多个实例技术的视频编码器的实例操作的流程图。

图14是说明根据本发明中所描述的一或多个实例技术的视频解码器的实例操作的流程图。

具体实施方式

本发明中所描述的技术涉及视差向量导出,且通常提供可在例如3D-HEVC(高效率视频译码)等各种视频译码标准中利用的低复杂性视差向量导出方案。技术不应被视为限于3D-HEVC标准,且可适用于其它3D或多视图视频译码标准或用于3D或多视图视频的基于非标准的视频译码技术。

在多视图视频中,存在多个视图,且每一视图包含多个图片。同时显示来自第一视图的一个图片及来自第二视图的一个图片。这两个图片包含类似视频内容,但图片中的视频块相对于彼此移位(通常水平地移位)。举例来说,第一视图中的图片中的视频块的位置可能(通常沿着x轴)不同于第二视图中的图片中的具有类似视频内容的视频块。两个视图内的视频块的此移位致使观察者感知到3D视频。

视差向量提供第一视图中的视频块相对于第二视图中的对应视频块的移位的测量。举例来说,第一视图中的图片的视频块的视差向量可识别第二视图中的图片的视频块的位置。

在本发明中所描述的技术中,视频译码器(例如,视频编码器或视频解码器)可对包含多视图视频数据的位流进行译码(例如,编码或解码),所述多视图视频数据包含多个视图。举例来说,视频译码器(例如,视频编码器或视频解码器)可出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程。NBDV产生过程依赖于用于导出相对于基于相邻块的视差运动向量的另一视图的当前图片的当前块的视差向量的相邻块的运动向量。

视差运动向量为识别用于对当前块进行译码的预测性块的向量。因此,视差运动向量在其用以识别用于对当前视频块进行译码的预测子块的意义上类似于常规运动向量。然而,视差运动向量不同于常规运动向量,因为其识别来自与相同时间实例相关联的不同视图的预测子。换句话说,运动向量按照惯例指向在与经译码的块相关联的图片之前或之后的不同图片中的预测子块,而视差运动向量指向与(同与经译码的块相关联的视频相同的)时间实例相关联的不同视图的预测子块。

在多视图视频译码中,允许在与相同或实质上类似的时间实例相关联但具有不同视图(即,在相同存取单元内)的图片之间的视图间预测。举例来说,第一视图中的当前图片可取决于参考视图的集合中的至少一者中的一或多个图片。参考视图的集合指代除第一视图之外的视图,所述第一视图包含当前图片,且其图片可使用对当前图片进行帧间预测。

视频译码器可包含在任何位置处的当前图片的参考图片列表中的其它视图中的图片,这类似于其中不使用视图间预测的实例。举例来说,常规运动向量指代相同视图中的图片的块,且在常规运动向量用以帧间预测块时,块的帧间预测可被称为运动补偿预测(MCP)。视差运动向量指代另一视图中的图片的块,且在视差运动向量用以帧间预测块时,块的帧间预测可被称为视差补偿预测(DCP)。

不应混淆视差运动向量及视差向量。视频译码器使用视差运动向量来识别视频块,所述视频块的像素值用以帧间预测另一视频块。视频译码器不一定要使用由视差向量所指代的块的像素值来帧间预测另一视频块;而是,视差向量提供其它视图中的视频块的移位的测量。换句话说,视差运动向量所指代的视频块不需要与视差向量所指代的视频块相同(尽管在一些状况下这两者皆指代相同视频块是有可能的)。

用于NBDV的相邻块的实例包含空间相邻块(即,在与经译码的块相同的图片中的块)及时间相邻块(即,在经译码的块之外的另一图片中的块)。时间相邻块可在相对于具有当前视频块的当前图片的不同图片内“位于相同位置”,或可为与不同图片内的相同位置块在空间上相邻的块。视频译码器可确定是否用视差运动向量对这些相邻块中的任一者进行帧间预测,且利用视差运动向量来确定当前块的视差向量。在一些实例中,除了确定是否用视差运动向量对相邻块中的任一者进行帧间预测之外,视频译码器还可确定是否导出相邻块中的任一者的视差向量。在一些实例中,视频译码器可利用相邻块的所导出的视差向量来确定当前块的视差向量。

一般来说,视频译码器需要存取以确定是否用视差运动向量对相邻块中的任一者进行帧间预测的相邻块的数目可相对较大。举例来说,对于时间相邻块,可存在X数目个图片,其各自具有N数目个相邻块,从而导致X*N评估的最坏情况,视频译码器需要进行所述X*N评估以确定是否用视差运动向量对时间相邻块中的任一者进行帧间预测。

本发明中所描述的技术可限制视频译码器需要存取以识别视差运动向量的图片的数目。此些图片通常可包含当前图片的所有时间参考图片(在相同视图内)或经解码的图片缓冲器(DPB)中的相同视图的所有图片。举例来说,视频译码器存取及评估的图片的数目可限于二。在本发明中,出于检查存在视差运动向量被称作候选图片的情况的目的,图片用以识别相邻时间块。在一个实例中,视频译码器可识别至多两个候选图片,第一候选图片为用于时间运动向量预测(TMVP)的相同位置图片,所述相同位置图片是由当前切片的切片标头中的语法元素识别。在相同实例中,视频译码器可经配置以根据以下技术确定两个候选图片中的第二者。第二候选图片经选择为更有可能使用视图间预测因此含有更多视差运动向量的候选图片。因为对于TMVP,将已经存取用于TMVP的相同位置图片,所以对于视差向量导出,需要存取仅一个额外候选图片。

视频译码器可利用TMVP作为高级运动向量预测(AMVP)或合并/跳过的部分。在AMVP及合并/跳过中,视频解码器基于相邻块的运动向量确定当前块的运动向量。举例来说,视频编码器及视频解码器各自建构候选运动向量预测子的列表,其中运动向量预测子为相邻块的运动向量。在这些实例中,视频编码器用信号发出到候选运动向量预测子的列表中的索引,且视频解码器识别来自用信号发出的索引的运动向量预测子。视频解码器接着基于运动向量预测子确定当前块的运动向量。举例来说,在合并模式中,视频解码器采用运动向量预测子的运动信息作为当前块的运动信息。在AMVP中,视频编码器另外用信号发出当前块与运动向量预测子之间的运动向量差(MVD)、指示参考图片列表的信息及参考索引。视频解码器基于MVD及运动向量预测子确定当前块的运动向量(例如,通过将MVD添加到运动向量预测子以确定当前块的运动向量)。

视频编码器及视频解码器建构的候选运动向量预测子的列表包含空间相邻块及时间相邻块的运动向量。时间相邻块的运动向量被称作时间运动向量预测子(TMVP)。因为时间相邻块位于除当前图片之外的图片(例如,相同位置图片)中,所以视频编码器可用信号发出指示时间相邻块位于哪一相同位置图片中的信息。举例来说,视频编码器可在当前切片的切片标头中用信号发出指示是在第一参考图片列表(RefPicList0)中还是在第二参考图片列表(RefPicList1)中识别相同位置图片的旗标。视频编码器还在当前切片的切片标头中用信号发出指示其中在由旗标识别的参考图片列表(例如,RefPicList0或RefPicList1)中识别相同位置图片的索引。基于识别参考图片列表的旗标及到所识别的参考图片列表中的索引值,视频解码器可确定包含时间相邻块的相同位置图片,所述时间相邻块的运动向量形成TMVP,其中视频解码器包含用于AMVP及合并/跳过模式的候选运动向量预测子的列表。

因为视频编码器及视频解码器可能已经出于确定TMVP的目的而识别相同位置图片,所以本发明中所描述的技术充分利用已经确定的相同位置图片作为将出于导出块的视差向量的目的而存取的图片。举例来说,经存取以用于导出当前块的视差向量的两个候选图片中的一者可为经确定以用于识别TMVP的相同位置图片。因为视频编码器及视频解码器可能在对当前块进行译码时已经存取用于TMPV的相同位置图片,所以视频编码器及视频解码器可能不需要出于确定是否通过用于导出当前块的视差向量的视差运动向量对时间相邻块进行帧间预测的目的再次存取此图片。

本发明中所描述的技术可能是针对确定将出于导出当前块的视差向量的目的而存取的其它候选图片。举例来说,可存在将需要存取以用于导出当前块的视差向量的至多两个候选图片。第一候选图片可为对于TMVP已经存取的相同位置图片,且所述技术描述其中视频编码器及视频解码器确定第二候选图片的方式。

视频译码器可经配置以建构参考图片集(RPS)。RPS识别可用以帧间预测包含当前视频块的当前图片且可用以帧间预测按输出或显示次序在当前图片之后的图片的图片。图片的输出或显示次序由图片次序计数(POC)值定义,其中具有较小POC值的图片的输出或显示早于具有较大POC值的图片。图片群组中的所有图片可由唯一POC值识别。

在一个实例中,可从RPS识别候选图片(例如,两个候选图片中的第二候选图片)。在另一实例中,可从当前图片的参考图片列表识别候选图片。在又另一实例中,可在视频译码器的经解码的图片缓冲器(DPB)中识别候选图片。下文的详细描述可假定候选图片是仅来自RPS,仅来自参考图片列表,或仅来自DPB,但相同方法可经一般化以识别参考图片列表(RPS或DPB)中的图片。

在本发明中所描述的技术中,视频译码器可确定当前图片的参考图片列表中(或更一般地在视频译码器的RPS或DPB中)的任何图片是否为随机存取点视图分量(RAPVC)图片(其还用于指代随机存取图片)。RAPVC图片为可开始视频译码(例如,在无任何先前数据的情况下)的图片。在HEVC及其扩展中,通过经指派给被称作IRAP图片的图片的NAL单元类型中的一者((即,等于BLA_W_LP、BLA_W_RADL、BLA_N_LP、IDR_W_RADL、IDR_N_LP、RSV_IRAP_VCL22、RSV_IRAP_VCL23或CRA_NUT的NAL单元类型)识别RAPVC图片。举例来说,并未用按译码次序(其可不同于显示或输出次序)在RAPVC图片之前的任何图片对按译码次序在RAPVC图片之后的图片进行帧间预测。以此方式,如果视频译码将在RAPVC图片上开始,那么视频译码器可对按译码次序在RAPVC图片之后的图片进行译码,即使按译码次序在RAPVC图片之前的图片不可用。

如果视频译码器识别RAPVC图片,那么视频译码器可经配置以将RAPVC图片设定为经存取及评估以用于识别视差运动向量的候选图片。如果存在多个RAPVC图片,那么视频译码器可选择相对于当前图片在显示或输出次序距离方面最近的RAPVC图片中的一者。

如果RAPVC图片中的两者具有基于显示或输出次序相对于当前图片的相同时间距离,那么视频译码器可基于用于TMVP中的相同位置图片的位置来选择这两个RAPVC图片中的一者作为候选图片。举例来说,在两个RAPVC图片同样接近于当前图片时,视频译码器可设定方向与相同位置图片相反(即,方向与第一候选图片相反)的图片。或者,视频译码器可设定方向与相同位置图片相同(即,方向与第一候选图片相同)的图片。

举例来说,如果用于TMVP中的相同位置图片按显示或输出次序在当前图片之前,那么视频译码器可将按显示或输出次序在当前图片之后的RAPVC图片设定为经存取及评估以用于识别视差运动向量或作为替代实例在当前图片之前的图片。如果用于TMVP中的相同位置图片按显示或输出次序在当前图片之后,那么视频译码器可将按显示或输出次序在当前图片之前的具有最低时间识别值的RAPVC图片设定为经评估以用于识别视差运动向量或作为替代实例在当前图片之后的图片。

然而,如果视频译码器并未识别RAPVC图片(例如,参考图片列表不包含RAPVC图片,RPS不包含RAPVC图片,或在DPB中无RAPVC图片),那么视频译码器可经配置以识别具有最低时间识别值(temporalId)的一个图片。时间识别值指示当前图片所属于的时间子层的层级。子位流可在提取具有较大temporalId的图片时解码。举例来说,仅具有小于或等于当前图片的时间识别值的时间识别值的图片可用以帧间预测当前图片。具有大于当前图片的时间识别值的时间识别值的图片无法用以帧间预测当前图片。

根据本发明中所描述的技术,如果视频译码器并未识别RAPVC图片,那么视频译码器可确定参考图片列表中的哪些参考图片包含最低时间识别值。如果仅存在具有最低时间识别值的一个图片,那么视频译码器可经配置以将此图片设定为经存取及评估以用于识别视差运动向量的第二候选图片。

然而,如果在参考图片列表中存在包含最低时间识别值的多个参考图片,那么视频译码器可确定这些图片中的哪一者按显示或输出次序最接近于当前图片(即,相对于当前图片的最短显示或输出次序距离)。视频译码器可经配置以将按显示或输出次序接近于当前图片的图片设定为经存取及评估以用于识别视差运动向量的第二候选图片。

在一些实例中,具有相同最低时间识别值的两个图片可同样接近于当前图片及在其余的图片当中最近的图片。在具有最低时间识别值的两个图片同样接近于当前图片时,视频译码器可设定方向与用于TMVP的相同位置图片相反的图片。举例来说,如果用于TMVP的相同位置按显示或输出次序在当前图片之前,那么视频译码器可将按显示或输出次序在当前图片之后的具有最低时间识别值的图片设定为将存取及评估以用于识别视差运动向量的图片。如果用于TMVP的相同位置图片按显示或输出次序在当前图片之后,那么视频译码器可将按显示或输出次序在当前图片之前的具有最低时间识别值的图片设定为将存取及评估以用于识别视差运动向量的图片。作为替代实例,视频译码器可在具有最低时间识别值的两个图片同样接近于当前图片时设定方向与用于TMVP的相同位置图片相同的图片。

以此方式,视频译码器需要存取的候选图片的数目可从评估所有可能图片的视频译码器大幅度降低。通常,存取的候选图片的数目的此降低可潜在地对译码质量具有影响;然而,可归因于第二候选图片可能具有更大机率含有视差运动向量的事实而导出具有类似或较高准确度的视差向量。

在一些当前状况下,为了导出当前块的视差向量,视频译码器可确定是否用视差运动向量对空间相邻块进行帧间预测,及是否用视差运动向量对两个候选图片中的一者中的时间相邻块进行帧间预测。在一些实例中,在相邻块的译码期间,视频译码器可能已导出相邻块中的一或多者的视差向量。相邻块的这些导出的视差向量可被称为隐式视差向量(IDV)。在一些实例中,视频译码器可潜在地使用空间或相邻块的IDV来导出当前块的视差向量(即,使用对于相邻块导出的视差向量来导出当前块的视差向量)。

在一些状况下,有可能存在空间及时间相邻块中的每一者的IDV。举例来说,可存在与当前块在空间上相邻的块中的一或多者的IDV。也可存在与当前块在时间上相邻的候选图片中的一或多个块的IDV。

视频译码器可将每一图片的IDV存储于DPB中,以使得时间相邻块的IDV可用于导出当前块的视差向量。然而,归因于在将块的运动信息存储于除当前图片之外的图片中所利用的压缩,存取位于除当前图片之外的图片中的块的IDV(例如,时间相邻块的IDV)可增加复杂性。本发明中所描述的技术可移除不为当前图片的任何图片的IDV。

因此,DPB大小可归因于对于DPB中的参考图片中的任一者再也不需要存储IDV所需要的存储的事实而降低。举例来说,候选图片中的时间相邻块的IDV可在视频译码器正对当前图片进行译码时不可用。以此方式,在应用NBDV产生过程时,视频译码器可确定当前块的视差向量而不考虑不在当前图片中的块的IDV中的任一者。

图1是说明根据本发明中所描述的一或多个实例的实例视频编码和解码系统的框图。举例来说,系统10包含源装置12及目的地装置14。源装置12及目的地装置14经配置以实施多视图视频译码,其中源装置12及目的地装置14各自对不同视图的图片进行译码。在一起观察不同视图的图片时,观察者感知到包含3D容积的图像,而非被限制到显示器的2D区域的图像。

系统10可根据不同视频译码标准、专属标准或多视图译码的任何其它方式操作。举例来说,视频编码器20及视频解码器30可根据视频压缩标准操作,所述视频压缩标准例如包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也被称作ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。MVC扩展的新近公开可用联合草案描述于“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisual services)”(ITU-T推荐H.264,2010年3月)中。MVC扩展的更新的公开可用联合草案描述于“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisual services)”(ITU-T推荐H.264,2011年6月)中。截止2012年1月,MVC扩展的当前联合草案已审批通过。

另外,存在一种新的视频译码标准,即高效率视频译码(HEVC)标准,其目前正由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。截止2013年9月18日,被称作HEVC WD8的HEVC的新近工作草案(WD)可从http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC-J1003-v8.zip获得。被称作“HEVC工作草案10”或“WD10”的HEVC标准的另一新近草案描述于布洛斯等人的文件JCTVC-L1003v34“高效率视频译码(HEVC)文本规范草案10(用于FDIS和最后呼叫)(High efficiency video coding(HEVC)text specification draft 10(for FDIS&Last Call))”(ITU-T SG16WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第12次会议:瑞士日内瓦,2013年1月14到23日)中,所述文件截止2013年9月18日可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip下载到。HEVC标准的又一草案在本文中被称作布洛斯等人所描述的“WD10修订本”“编订者对HEVC版本1所提出的校正(Editors'proposed corrections to HEVC version 1)”(ITU-T SG16WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),韩国仁川第13次会议,2013年4月),所述文件截止2013年9月18日可从http://phenix.int-evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC-M0432-v3.zip获得。

出于描述的目的,在HEVC或H.264标准及此些标准的扩展的上下文中描述视频编码器20及视频解码器30。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2及ITU-T H.263。例如被称作On2VP6/VP7/VP8的技术等专属译码技术还可实施本文中所描述的技术中的一或多者。

本发明的技术潜在地适用于若干多视图译码及/或3D视频译码标准,包含基于HEVC的3D视频译码(3D-HEVC)。最新参考软件描述以及3D-HEVC的工作草案如下可用:Gerhard Tech、Krzysztof Wegner、Ying Chen、Sehoon Yea的“3D-HEVC测试模型描述草案1(3D-HEVC Test Model Description draft 1)”(JCT3V-A1005,ITU-T SG 16WP 3及ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第1次会议:瑞典斯德哥尔摩,2012年7月16到20日)。最新参考软件(即HTM)截止2013年9月18日可从https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/trunk获得。

本发明的技术也可适用于H.264/3D-AVC及H.264/MVC+D视频译码标准或其扩展以及其它译码标准。本发明的技术有时可参考或使用特定多视图译码或3D视频译码标准的术语来描述;然而,此描述不应被解释为意味着所描述的技术仅限于所述特定标准。

如图1中所示,系统10包含源装置12,所述源装置产生经编码视频数据以在稍后时间由目的地装置14解码。源装置12及目的地装置14包括广泛范围的装置中的任一者,包含例如所谓的“智能”电话等无线手持机、所谓的“智能”平板,或经装备以用于无线通信的其它此类无线装置。源装置12及目的地装置14的额外实例包含(但不限于)数字电视、数字直播系统中的装置、无线广播系统中的装置、个人数字助理(PDA)、膝上型计算机、桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式无线电电话、卫星无线电电话、视频电话会议装置,及视频流式传输装置,或其类似者。

目的地装置14可经由链路16接收待解码的经编码视频数据。链路16包括能够使经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16包括使得源装置12能够实时将经编码视频数据直接发射到目的地装置14的通信媒体。可根据例如无线通信协议等通信标准来调制经编码视频数据,且将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。

在一些实例中,将经编码数据从输出接口22输出到存储装置33。类似地,由输入接口28从存储装置33存取经编码数据。存储装置33的实例包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码视频数据的合适的数字存储媒体。在另一实例中,存储装置33对应于保存由源装置12产生的经编码视频的文件服务器或另一中间存储装置。在这些实例中,目的地装置14经由流式传输或下载存取来自存储装置33的存储的视频数据。文件服务器为能够存储经编码视频数据并且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或适合于存取存储于文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置33的传输可为流式传输、下载传输或两者的组合。

本发明的技术不必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如空中电视广播、有线电视传输、卫星电视传输、流式视频传输(例如,经由因特网)、编码数字视频以用于存储在数据存储媒体上、解码存储在数据存储媒体上的数字视频,或其它应用。在一些实例中,系统10经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播及/或视频电话等应用。

在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。在一些情况下,输出接口22包含调制器/解调器(调制解调器)和/或发射器。在源装置12中,视频源18包含例如视频俘获装置(例如,摄像机)、含有先前俘获的视频的视频存档、用以从视频内容提供者接收视频的视频馈入接口及/或用于产生计算机图形数据作为源视频的计算机图形系统等源、此些源的组合或任何其它源中的一或多者。作为一个实例,如果视频源24为摄像机,那么源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而,一般来说,本发明中所描述的技术适用于视频译码,且可应用于无线及/或有线应用。

视频编码器20对俘获、预先俘获或计算机产生的视频进行编码。源装置12的输出接口22经配置以将经编码视频数据发射到目的地装置14。经编码视频数据还可(或替代地)存储到存储装置33上以供稍后由目的地装置14或其它装置存取以用于解码及/或重放。

目的地装置14包含输入接口28、视频解码器30和显示装置32。在一些状况下,输入接口28包含接收器和/或调制解调器。目的地装置14的输入接口28经由链路16或从存储装置33接收经编码视频数据。经由链路16传达或在存储装置33上提供的经编码视频数据包含由视频编码器20产生的多种语法元素以供例如视频解码器30等视频解码器用于对视频数据进行解码。此些语法元素可与在通信媒体上发射、存储在存储媒体上或存储在文件服务器上的经编码视频数据包含在一起。

显示装置32可与目的地装置14集成或在目的地装置14外部。在一些实例中,目的地装置14包含集成式显示装置,且还经配置以与外部显示装置介接。在其它实例中,目的地装置14为显示装置。一般来说,显示装置32向用户显示经解码视频数据,且包括例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一种类型的显示装置等多种显示装置中的任一者。

视频编码器20及视频解码器30各自可经实施为例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、集成电路(IC)、软件、硬件、固件或其任何组合等多种合适编码器电路中的任一者。在一些实例中,视频编码器20及视频解码器30可为无线手持机装置的部分。当部分地用软件实施所述技术时,装置可将用于所述软件的指令存储于合适的非暂时计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。根据本发明中所描述的技术,视频编码器20经配置以对视频数据进行编码,且视频解码器30经配置以对视频数据进行解码。

尽管图1中未图示,但在一些方面,视频编码器20及视频解码器30各自与音频编码器及解码器集成,且包含适当多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件及软件以操纵共同数据流或单独数据流中的音频及视频两者的编码。在一些实例中,如果适用,多路复用器-多路分用器单元符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。

图2是说明根据本发明中所描述的一或多个实例的实例编码或解码次序的符号图。举例来说,图2中所说明的解码次序布置被称为时间优先译码。在图2中,S0到S7各自指代多视图视频的不同视图。T0到T8各自表示一个输出时间实例。存取单元可包含用于一个输出时间实例的所有视图的经译码图片。举例来说,第一存取单元包含用于时间实例T0的所有视图S0到S7(即,图片0到7),第二存取单元包含用于时间实例T1的所有视图S0到S7(即,图片8到15),等等。在此实例中,图片0到7是在相同时间实例(即,时间实例T0),且图片8到15是在相同时间实例(即,时间实例T1)。

在图2中,所述视图中的每一者包含若干图片组。举例来说,视图S0包含图片组0、8、16、24、32、40、48、56及64,视图S1包含图片组1、9、17、25、33、41、49、57及65,等等。每一组包含两个图片:一个图片被称作纹理视图分量,且另一图片被称作深度视图分量。视图的图片组内的纹理视图分量及深度视图分量可认为是彼此对应。举例来说,视图的图片组内的纹理视图分量可被认为是对应于视图的图片组内的深度视图分量,且反之亦然(即,深度视图分量对应于其在所述组中的纹理视图分量,且反之亦然)。如本发明中所使用,相对应的纹理视图分量及深度视图分量可被视为单一存取单元的相同视图的一部分。在每一实例中并不需要包含纹理视图分量及深度视图分量两者的视图。在一些实例中,视图可仅包含纹理视图分量,且不包含深度视图分量。

纹理视图分量包含所显示的实际图像内容。举例来说,所述纹理视图分量可包含明度(Y)及色度(Cb及Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。作为一个实例,所述深度视图分量可类似于仅包含明度值的灰度图像。换句话说,深度视图分量可不传达任何图像内容,而是提供纹理视图分量中的像素的相对深度的测量。

举例来说,对应于深度视图分量中的纯白色像素的像素值可指示其在对应的纹理视图分量中的对应像素从观察者的角度来看更靠近,且对应于深度视图分量中的纯黑色像素的像素值可指示其在对应的纹理视图分量中的对应像素从观察者的角度来看更远离。对应于黑色与白色之间的各种灰阴影的像素值指示不同的深度水平。举例来说,深度视图分量中的深灰色像素指示其在纹理视图分量中的对应像素比深度视图分量中的浅灰色像素更远。因为仅需要类似于灰度的一个像素值来识别像素深度,所以深度视图分量可仅包含一个像素值。因此,不需要类似于色度分量的值。

深度视图分量仅使用明度值(例如,强度值)来识别深度是出于说明的目的而提供,且不应被视为限制性的。在其它实例中,可利用任何技术来指示纹理视图分量中的像素的相对深度。

根据多视图视频译码,从相同视图中的纹理视图分量或从一或多个不同视图中的纹理视图分量对纹理视图分量进行帧间预测。纹理视图分量可在视频数据块(其被称作“视频块”且在H.264上下文中通常称为“宏块”)中译码。例如HEVC标准等其它视频译码标准可将视频块称作树块或译码单元(CU)。

任何类似时间实例的图片可包含类似内容。然而,类似时间实例中的不同图片的视频内容可在水平方向上彼此略微移位。举例来说,如果一块位于视图S0的图片0中的(x,y)处,那么位于视图S1的图片1中的(x+x',y)处的块包含与位于视图S0的图片0中的(x,y)处的块类似的视频内容。在此实例中,位于视图S0的图片0中的(x,y)处的块及位于视图S1的图片1中的(x+x',y)处的块被视为对应块。在一些实例中,位于视图S1的图片1中的(x+x',y)处的块的视差向量涉及其对应块的位置。举例来说,位于(x+x',y)处的块的视差向量是(-x',0)。

在一些实例中,视频编码器20或视频解码器30可利用第一视图的图片中的块的视差向量来识别第二视图的图片中的对应块。视频编码器20及视频解码器20可例如在执行视图间运动预测或视图间残余预测时利用视差向量。视频编码器20及视频解码器30可例如通过使用由当前块的视差向量确定的参考视图中的参考图片的参考块的信息来执行视图间运动预测。

图3是说明实例预测模式的概念图。在图3的实例中,说明八个视图(具有视图ID“S0”到“S7”),且对于每一视图说明十二个时间位置(“T0”到“T11”)。即,图3中的每一行对应于视图,而每一列指示时间位置。在图3的实例中,大写的“B”及小写的“b”用于指示图片之间的不同阶层关系,而非不同译码方法。一般来说,大写的“B”图片在预测阶层上比小写的“b”帧相对高。

在图3中,视图S0可被视为基础视图,且视图S1到S7可被视为相依视图。基础视图包含不进行视图间预测的图片。可相对于相同视图中的其它图片对基础视图中的图片进行帧间预测。举例来说,视图S0中并无图片可相对于视图S1到S7中的任一者中的图片被帧间预测,但视图S0中的图片中的一些可相对于视图S0中的其它图片被帧间预测。

相依视图包含被视图间预测的图片。举例来说,视图S1到S7中的每一者包含相对于另一视图中的图片被帧间预测的至少一个图片。相依视图中的图片可相对于基础视图中的图片被帧间预测,或可相对于其它相依视图中的图片被帧间预测。

包含基础视图及一或多个相依视图两者的视频流可为可由不同类型的视频解码器进行解码的。举例来说,一个基本类型的视频解码器可经配置以仅解码基础视图。另外,另一类型的视频解码器可经配置以解码视图S0到S7中的每一者。经配置以对基础视图及相依视图两者进行解码的解码器可被称作支持多视图译码的解码器。

在图3中的每一行及每一列的相交处指示图3中的图片。具有多视图译码扩展的H.264/AVC标准可使用术语帧来表示视频的一部分,而HEVC标准可使用术语图片来表示视频的一部分。本发明可互换地使用术语图片与帧。

使用包含字母的阴影块说明图3中的图片,所述字母指明对应图片是经帧内译码(也就是说,I图片),在一个方向上经帧间译码(也就是说,作为P图片)还是在多个方向上经帧间译码(也就是说,作为B图片)。一般来说,预测由箭头指示,其中箭头指向的图片使用箭头出发的图片用于预测参考。举例来说,时间位置T0处的视图S2的P图片是从时间位置T0处的视图S0的I图片预测的。

如同单视图视频译码,多视图视频译码视频序列的图片可相对于不同时间位置处的图片预测性地编码。举例来说,时间位置T1处的视图S0的B图片具有从时间位置T0处的视图S0的I图片指向其的箭头,从而指示所述b图片是从所述I图片预测的。然而,另外,在多视图视频编码的情况下,图片可经视图间预测。也就是说,视图分量(例如,纹理视图分量)可出于参考目的使用其它视图中的视图分量。举例来说,在多视图译码中,实现了视图间预测,好像另一视图中的视图分量为帧间预测参考。潜在视图间参考在序列参数集(SPS)MVC扩展中用信号发出且可通过参考图片列表建构过程加以修改,所述参考图片列表建构过程实现帧间预测或视图间预测参考的灵活排序。

图3提供视图间预测的各种实例。在图3的实例中,视图S1的图片说明为是从视图S1的不同时间位置处的图片预测,且是从相同时间位置处的视图S0及S2的图片经视图间预测。举例来说,时间位置T1处的视图S1的B图片是从时间位置T0及T2处的视图S1的B图片中的每一者以及时间位置T1处的视图S0及S2的B图片预测。

图3还说明使用不同阴影等级的预测阶层的变化,其中较大阴影量(即,相对较暗)的帧在预测阶层上高于具有较少阴影(即,相对较浅)的那些帧。举例来说,图3中的所有I图片说明为具有完全阴影,而P图片具有稍浅的阴影,且B图片(及小写的b图片)具有相对于彼此的各种阴影等级,但始终比P图片及I图片的阴影浅。

一般来说,预测阶层可与视图次序索引相关,因为预测阶层相对较高的图片应在阶层相对较低的解码图片之前解码。阶层相对较高的那些图片在对阶层相对较低的图片进行解码期间可以用作参考图片。视图次序索引为指示存取单元中的视图分量的解码次序的索引。在序列参数集(SPS)MVC扩展中隐含视图次序索引,如H.264/AVC的附录H(MVC修正案)中所指定。在SPS中,对于每一索引i,用信号发出对应view_id。视图分量的解码将遵循视图次序索引的升序。如果呈现所有视图,那么视图次序索引为从0到num_views_minus_1的连续次序。

以此方式,在取决于参考图片的图片之前对被用作参考图片的图片进行解码。视图次序索引为指示存取单元中的视图分量的解码次序的索引。对于每一视图次序索引i,用信号发出对应view_id。视图分量的解码遵循视图次序索引的升序。如果呈现所有视图,那么视图次序索引组可包括从零到视图的全部数目少1的连续排序组。

对于处于阶层的相等层级处的某些图片,相对于彼此的解码次序可能无关紧要。举例来说,时间位置T0处的视图S0的I图片可被用作时间位置T0处的视图S2的P图片的参考图片,所述P图片又可被用作时间位置T0处的视图S4的P图片的参考图片。因此,时间位置T0处的视图S0的I图片应在时间位置T0处的视图S2的P图片之前解码,所述P图片又应在时间位置T0处的视图S4的P图片之前解码。然而,在视图S1与S3之间,解码次序无关紧要,因为对于预测,视图S1及S3并不依赖于彼此。替代地,仅从预测阶层较高的其它视图预测视图S1及S3。此外,视图S1可在视图S4之前解码,只要视图S1在视图S0及S2之后解码即可。

以此方式,阶层式排序可用以描述视图S0到S7。在本发明中,标号“SA>SB”意味着视图SA应在视图SB之前解码。在图2的实例中,使用此标号S0>S2>S4>S6>S7。而且,相对于图2的实例,S0>S1、S2>S1、S2>S3、S4>S3、S4>S5,且S6>S5。用于视图的不违反此阶层式排序的任何解码次序是可能的。因此,许多不同解码次序是可能的,其中限制基于阶层式排序。

在一些实例中,图3可看作说明纹理视图分量。在这些实例中,为了实施视图间预测(例如视图间运动预测或视图间残余预测),视频编码器20或视频解码器30可在一些状况下使用视差向量来定位对应块,且利用对应块的运动向量作为将进行帧间预测的当前块的运动向量预测子。本发明中所描述的技术确定当前块的视差向量而不一定需要导出深度视图分量,且不一定依赖于全局视差向量。

视频序列通常包含来自视图(例如,图2及3中所说明的视图)的一系列视频图片。图片群组(GOP)通常包括一系列一或多个视频图片。GOP可包含GOP的标头、GOP的一或多个图片的标头或其它地方中的语法数据,其描述GOP中包含的图片的数目。每一图片可包含图片语法数据,其描述用于相应图片的编码模式。视频编码器20通常对个别视频图片内的视频块进行操作以便编码视频数据。视频块可对应于宏块、宏块的分区及可能分区的子块(如H.264/MVC标准中所定义)或最大译码单元(LCU)、译码单元(CU)、预测单元(PU)或变换单元(TU),如HEVC标准中所定义。视频块可以具有固定或变化的大小,并且根据指定译码标准可以有不同大小。每一视频图片可包含多个切片。每一切片可包含多个块。

作为实例,ITU-T H.264标准支持各种块大小的帧内预测(例如用于明度分量的16乘16、8乘8或4乘4及用于色度分量的8x8),以及各种块大小的帧间预测,例如用于明度分量的16x16、16x8、8x16、8x8、8x4、4x8及4x4及用于色度分量的对应缩放大小。在本发明中,“NxN”及“N乘N”可互换地使用以指代块在垂直及水平尺寸方面的像素尺寸(例如,16x16像素或16乘16像素)。一般来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样,NxN块一般来说在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可按行及列布置。此外,块未必需要在水平方向与垂直方向上具有相同数目的像素。举例来说,块可包括NxM像素,其中M未必等于N。

在对块进行帧内模式编码(例如,帧内预测)时,块可包含描述块的帧内预测模式的数据。作为另一实例,在对块进行帧间模式编码(例如,帧间预测)时,块可包含定义块的运动向量的信息。此运动向量指代相同视图中的参考图片,或指代另一视图中的参考图片。定义块的运动向量的数据描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)。另外,在进行帧间预测时,块可包含参考索引信息,例如运动向量所指向的参考图片及/或运动向量的参考图片列表(例如,RefPicList0或RefPicList1)。

JCT-VC正在努力开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化的模型。HM假设视频译码装置根据(例如ITU-T H.264/AVC)相对于现有装置的若干额外能力。举例来说,虽然H.264提供九种帧内预测编码模式,但HM可提供多达三十三种方向/角度帧内预测编码模式加DC及平面模式。

HM的工作模型描述视频图片可划分成包含明度及色度样本两者的一连串树块或最大译码单元(LCU)。树块具有与H.264标准的宏块类似的目的。切片包含按译码次序的多个连续树块。视频图片可以分割成一或多个切片。每一树块可以根据四叉树分裂成译码单元(CU)。举例来说,作为四叉树的根节点的树块可分裂成四个子节点,且每一子节点又可为父节点且可分裂成另外四个子节点。最终的未分裂的子节点(作为四叉树的叶节点)包括译码节点(即,经译码视频块)。与经译码位流相关联的语法数据可定义树块可分裂的最大次数,且还可定义译码节点的最小大小。在一些实例中,树块被称为LCU。

CU包含译码节点和与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小,且形状可为正方形。在一些实例中,CU的大小范围介于8x8像素直到具有最大64x64像素或更大的树块的大小之间。在一些实例中,每一CU含有一或多个PU及一或多个TU。举例来说,与CU相关联的语法数据描述将CU分割成一或多个PU。分割模式在CU被跳过或经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不同。在一些实例中,PU的形状可经分割成非正方形。与CU相关联的语法数据还描述例如根据四叉树将CU分割成一或多个TU。TU可为正方形或非正方形形状。

HEVC标准允许根据TU的变换,TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而确定,但是情况并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,使用被称为“残余四叉树”(RQT)的四叉树结构将对应于CU的残余样本再分成较小单元。RQT的叶节点可被称作变换单元(TU)。对与TU相关联的像素差值进行变换以产生变换系数,所述变换系数在一些实例中经量化。

PU包含与预测过程相关的数据。举例来说,在PU经帧内模式编码时,PU包含描述PU的帧内预测模式的数据。作为另一实例,在PU经帧间模式编码时,PU包含定义PU的运动向量的数据。定义PU的运动向量的数据描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片及/或运动向量的参考图片列表(例如,列表0或列表1)。

TU是用于变换及量化过程。具有一或多个PU的给定CU还可包含一或多个变换单元(TU)。在预测之后,视频编码器20可计算对应于PU的残余值。残余值包括像素差值,所述像素差值可变换成变换系数、经量化且使用TU进行扫描以产生串行化变换系数以用于熵译码。本发明通常使用术语“视频块”来指CU的译码节点。在一些特定状况下,本发明还可使用术语“视频块”来指代树块(即,LCU)或包含译码节点以及PU及TU的CU。

作为实例,HM支持各种PU大小的预测。假设特定CU的大小是2Nx2N,那么HM支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N及nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是另一方向分割成25%及75%。CU的对应于25%分区的部分表示成“n”,接着是用“上方”、“下方”、“左侧”或“右侧”指示。因此,例如,“2NxnU”是指水平地分割的2Nx2N CU,其中顶部为2Nx0.5N PU,而底部为2Nx1.5N PU。

在H.264标准或HEVC标准中,在帧内预测性或帧间预测性译码之后,在HEVC中或对于H.264中的宏块,视频编码器20计算CU的TU的残余数据。PU包括空间域(也被称作像素域)中的像素数据,且TU包括在将变换(例如,离散余弦变换(DCT))、整数变换、小波变换或概念上类似的变换应用于残余视频数据之后的变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值(在HEVC中)或宏块的预测值(在H.264中)之间的像素差。

在一些实例中,在进行任何变换以产生变换系数之后,视频编码器20执行变换系数的量化。量化通常是指将变换系数量化以可能减少用以表示系数的数据量从而提供进一步压缩的过程。量化过程减少与系数中的一些或全部相关联的位深度。举例来说,n位值在量化期间被下舍入到m位值,其中n大于m。

在一些实例中,视频编码器20利用预定义扫描次序扫描经量化变换系数以产生可经熵编码的串行化向量。在其它实例中,视频编码器26执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,在一些实例中,视频编码器20根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法(作为几个实例)对所述一维向量进行熵编码。视频编码器20还对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在对视频数据解码时使用。

为了执行CABAC,视频编码器20可以向待发射的符号指派上下文模型内的上下文。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可选择用于待发射的符号的可变长度码。VLC中的码字可经建构而使得相对较短的码对应于更有可能的符号,而较长的码对应于不太可能的符号。以此方式,使用VLC可例如实现优于对待发射的每一符号使用等长码字的位节省。概率确定可基于指派给符号的上下文。

如上文所描述,在3D-HEVC中,视频编码器20及视频解码器30可参考第二视图的参考图片内的参考块帧间预测第一视图的当前图片内的当前块。此帧间预测被称作视图间预测。当前图片及参考图片的时间实例在相应视图中可为相同的。在此实例中,视频编码器20或视频解码器30执行跨越相同存取单元中的图片的视图间预测,其中相同存取单元中的图片是在相同时间实例。

为了对当前块执行视图间预测,视频编码器20或视频解码器30建构参考图片列表,其识别可用于帧间预测的参考图片,包含可用于视图间预测的图片。帧间预测(或帧间预测编码或解码)指代相对于参考图片中的参考块预测当前图片中的当前块。视图间预测为帧间预测的子集,因为在视图间预测中,参考图片在不同于当前图片的视图的视图中。因此,对于视图间预测,视频编码器20及视频解码器30将另一视图中的参考图片添加于经建构参考图片列表中的一者或两者中。可在经建构参考图片列表内的任何位置处识别另一视图中的参考图片。如本发明中所使用,当视频编码器20正对块执行帧间预测(例如,帧间预测)时,视频编码器20可被视为对块进行帧间预测编码。当视频解码器30正对块执行帧间预测(例如,帧间预测)时,视频解码器30可被视为对块进行帧间预测解码。

在帧间预测中,当前块的运动向量识别将用作用于对当前块进行帧间预测的参考块的块的位置,且到经建构参考图片列表中的一者或两者中的参考索引识别包含将用作用于对当前块进行帧间预测的参考块的块的参考图片。在多视图译码中,存在至少两个类型的运动向量。时间运动向量是指时间参考图片,其中时间参考图片是在与包含将被预测的块的图片相同的视图内的图片,且其中时间参考图片比包含将被预测的块的图片更早或更晚地显示。视差运动向量是指除了包含将被预测的块的图片在其中的视图之外的视图中的参考图片。当视频编码器20或视频解码器30利用时间运动向量时,视频编码器20及视频解码器30被视为实施运动补偿预测(MCP)。当视频编码器20或视频解码器30利用视差运动向量时,视频编码器20及视频解码器30被视为实施视差补偿预测(DCP)或视图间预测。

本发明描述用于出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程的技术。举例来说,NBDV产生过程依赖于用于导出当前图片的当前块的视差向量的相邻块(例如,空间及时间相邻块)的运动向量。当前图片的当前块的视差向量可相对于多视图视频数据的另一视图。

举例来说,在应用NBDV产生过程时,视频编码器20及视频解码器30可基于空间及/或时间相邻块的运动信息(例如视差运动向量)及在一些状况下基于相邻块的所导出的视差向量确定当前块的视差向量。换句话说,当前块的视差向量可通过分析用DCP译码的一或多个空间及/或时间相邻块的运动向量来确定,且在一些实例中,从相邻块的所导出的视差向量来确定。本发明的技术可由视频编码器20及视频解码器30中的一者或两者来实施。这些技术可例如与基于HEVC的多视图视频译码和/或基于HEVC的3D视频译码结合使用。

再次,对于DCP,存在指代另一视图中的块的视差运动向量。举例来说,时间相邻块可位于除当前图片之外的图片中。时间相邻块的视差运动向量可指除包含所述包含时间相邻块的图片的视图之外的视图中的块。换句话说,视差运动向量指代属于参考视图的集合中的一者的视图间参考图片。

如上文所描述,视差运动向量及视差向量不应被混淆。视频编码器20及视频解码器30使用视差运动向量来识别与包含具有将预测的块的图片的视图不同的视图中的图片的视频块,且使用所识别的视频块的像素值来帧间预测块。视频编码器20及视频解码器30不一定需要使用由视差向量所指代的块的像素值来帧间预测另一视频块;而是,视差向量提供其它视图中的视频块的移位的测量。

相邻块的实例包含空间相邻块(例如,在与当前视频块相同的图片中的与当前视频块相邻的块)或时间相邻块(例如,与当前块相邻或在相同位置但在不同于当前视频块的图片中的块)。包含时间相邻块的图片被称作相同位置图片。如果用视差运动向量对这些空间相邻块或时间相邻块中的任一者进行帧间预测,那么视频编码器20及视频解码器30可将相邻块中的一者的视差运动向量设定为当前块的视差向量。换句话说,作为应用NBDV产生过程的部分,视频编码器20及视频解码器30采纳相邻块中的一者的视差运动向量作为当前块的视差向量。以此方式,视频编码器20及视频解码器30可基于用视差运动向量进行帧间预测的相邻块的运动向量信息确定当前块的视差向量。

如果空间相邻块的视差运动向量经设定为当前块的视差向量,那么视差向量被称作空间视差向量(SDV)。如果时间相邻块的视差运动向量经设定为当前块的视差向量,那么视差向量被称作时间视差向量(TDV)。

在一些实例中,用于使用相邻块来确定视差向量的技术经扩展以包含隐式视差向量(IDV)。IDV为视频编码器20及视频解码器30从相邻块的相邻块的视差运动向量确定的相邻块的视差向量。举例来说,在译码过程(例如,编码或解码)期间,视频编码器20或视频解码器30可已确定相邻块的视差向量(例如,空间或时间相邻块),即使相邻块的视差向量随后并不用以帧间预测相邻块。相邻块的此视差向量可潜在地为当前块的视差向量。举例来说,视频编码器20及视频解码器30可采纳相邻块的所导出的视差向量作为当前块的视差向量。如果相邻块的所导出的视差向量经设定为当前块的视差向量,那么视差向量被称作隐式视差向量(IDV)。

以此方式,视频编码器20及视频解码器30可基于空间相邻块的视差运动向量、时间相邻块的视差运动向量或空间相邻块或时间相邻块的所导出的视差向量确定当前块的视差向量。如更详细描述,在一些实例中,技术可不依赖于时间相邻块的所导出的视差向量来导出当前块的视差向量。举例来说,在应用NBDV产生过程时,视频编码器20及视频解码器30可确定当前块的视差向量而不考虑不在当前图片中的块的IDV中的任一者。使用本发明中所描述的技术确定当前块的视差向量可促进译码效率,因为视频编码器20及视频解码器30不需要首先建构深度视图分量来确定深度,且接着利用深度信息来确定当前块的视差向量。

举例来说,对于多视图视频序列,不同视图表示相同现实世界场景的不同投影,所述投影是用多个相机同步俘获的。根据场景几何形状将现实世界场景中的对象的移动投影到所有视图中。场景的几何形状可由深度数据或视差向量恰当地表示。在多视图视频译码中,利用视差运动补偿,其中可将视差运动向量选为在速率失真方面的最终运动向量。另外,相邻块可共享视频译码中的几乎相同的运动信息。此外,可存在当前块的运动与参考图片中的时间块的运动之间的高相关。因此,如果空间/时间相邻块利用视图间预测,那么其视差运动向量可被当作当前块的良好视差向量预测子。

视频编码器20及视频解码器30可定义若干空间及时间相邻块。视频编码器20及视频解码器30可按基于空间及时间相邻块的运动信息与当前块的运动信息之间的相关的优先级的预定义次序检查空间及时间相邻块。一旦识别出视差运动向量(即,指向其它视图中的视图间参考图片的运动向量),视频编码器20及视频解码器30便可将视差运动向量转换成视差向量。在一些实例中,本发明中所描述的技术可与相机参数相关。

视频编码器20及视频解码器30可出于各种目的利用当前块的所确定的视差向量。作为一个实例,视频编码器20及视频解码器30可利用视差向量来识别视差向量所指代的块,及识别视差向量所指代的块的运动向量。视频编码器20及视频解码器30可利用视差向量所指代的块的运动向量以用于预测当前块的运动向量,作为视图间运动预测的部分。下文更详细描述视图间运动预测的概念。作为另一实例,视频编码器20及视频解码器30可利用由视差向量所指代的块的残余像素值以用于帧间预测当前块的残余值,作为视图间残余预测的部分。对于其它译码工具,也可利用视差向量。

为了确定应将哪一视差运动向量设定为当前块的视差向量,视频编码器20及视频解码器30可按某一次序评估视差运动向量。举例来说,视频编码器20及视频解码器30可首先确定是否用视差运动向量对空间相邻块中的任一者进行帧间预测,且如果是,那么将空间相邻块的视差运动向量设定为当前块的视差向量,且结束确定当前块的视差向量的过程。如果空间相邻块中无一者是用视差运动向量进行帧间预测的,那么视频编码器20及视频解码器30可确定是否用视差运动向量对一或多个候选图片中的时间相邻块进行帧间预测,且如果是,那么将时间相邻块的视差运动向量设定为当前块的视差向量,且结束确定当前块的视差向量的过程。如果时间相邻块中无一者是用视差运动向量进行帧间预测的,那么视频编码器20及视频解码器30可确定相邻块中的一者的视差向量是否存在,且将所述视差向量设定为当前块的视差向量。

上文所描述的实例技术可存在各种缺点。作为一个实例,确定相邻块的视差向量是否存在(即,当前块的视差向量是否为IDV)需要多次呼叫存储器,因为视频编码器20及视频解码器30的相应存储器(其被称作经解码的图片缓冲器(DPB))可存储相邻块的视差向量。对存储器的此些多次呼叫导致比所需要的更多的存储器消耗。

作为另一实例,如果视频编码器20及视频解码器30选择不确定是否存在相邻块的视差向量(节约存储器消耗),那么视频编码器20及视频解码器30需要存取及评估以确定是否用视差运动向量对这些候选图片内的视频块进行帧间预测的候选图片的数目大幅度上升(即,将需要存取及评估潜在地所有可用图片及图片中的每一者内的若干块)。

根据本发明,在应用用于确定当前块的视差向量的NBDV产生过程时,视频编码器20及视频解码器30可识别视频编码器20及视频解码器30存取及评估以确定是否用视差运动向量对图片内的块进行帧间预测的有限数目个图片。而且,在所识别的图片内,视频编码器20及视频解码器30可存取及评估有限数目个块以确定是否用视差运动向量对图片中的块中的任一者进行帧间预测。

在其中不使用IDV的实例及其中使用IDV的实例中,视频编码器20及视频解码器30可利用这些技术。举例来说,在一些实例中,视频编码器20及视频解码器30可移除不为当前图片的任何图片的IDV信息(例如,不为当前图片的图片中的所有块的所导出的视差向量的信息)。在这些实例中,在应用NBDV产生过程时,视频编码器20及视频解码器30可不考虑用于导出当前块的视差向量的时间相邻块(例如,不在当前图片中的块)的IDV中的任一者。然而,本发明中所描述的技术可适用于其中维持除当前图片之外的图片的IDV的实例。

举例来说,在应用NBDV产生过程时,视频编码器20及视频解码器30可限于识别仅两个候选图片。在此实例中,视频编码器20可选择第一候选图片,且在当前切片的切片标头中用信号发出信息,视频解码器30可从所述信息确定第一候选图片。视频解码器30可从在切片标头中用信号发出的信息识别第一候选图片,且评估此第一候选图片以确定是否用视差运动向量对此第一候选图片内的块进行帧间预测。

举例来说,如下文更详细描述,视频编码器20及视频解码器30可确定时间运动向量预测子(TMVP)作为高级运动向量预测(AMVP)或合并/跳过的部分。TMVP为除当前图片之外的图片中的块的运动向量,且除当前图片之外的此图片可在与当前图片相同的视图中。在一些实例中,如果TMVP经选择为用于确定当前图片的运动向量的运动向量预测子,那么视频编码器20及视频解码器30可利用TMVP来确定当前块的运动向量。

包含运动向量可用作TMVP的块的图片被称作相同位置图片。在一些实例中,作为对当前图片的当前块进行译码的部分,可需要视频编码器20及视频解码器30识别相同位置图片以识别TMVP。本发明中所描述的技术可通过将相同位置图片指派为第一候选图片而充分利用视频编码器20及视频解码器30可能已经需要识别相同位置图片的条件。举例来说,为了确定TMVP,视频编码器20及视频解码器30可能已经需要确定相同位置图片中的一或多个时间相邻块的运动信息。因此,视频编码器20及视频解码器30可不需要重新存取及重新评估相同位置图片的时间相邻块来确定是否用视差运动向量对时间相邻块进行帧间预测。

在一些实例中,视频编码器20可用信号发出视频解码器30用以确定相同位置图片的信息,所述相同位置图片也可被称作用于视差向量导出的第一候选图片。举例来说,视频编码器20可用信号发出识别参考图片列表(例如,RefPicList0及RefPicList1中的一者)的旗标及到所识别的参考图片列表中的索引值。视频解码器30利用旗标及索引值来识别相同位置图片,所述相同位置图片也是用于视差向量导出的两个候选图片中的一者。

一般来说,对于本发明中所描述的技术,其中视频编码器20及视频解码器30选择第一候选图片的方式可能不重要,且一般来说,视频编码器20及视频解码器30可利用任何已知或尚待开发的技术来选择第一候选图片。在一些实例中,第一候选图片的一个限制可为第一候选图片为时间参考图片。举例来说,第一候选图片可为视频解码器30建构以用于帧间预测图片内的块的参考图片列表(例如,RefPicList0或RefPicList1)中的一者中所识别的参考图片,且第一候选图片可在与包含将进行帧间预测的块的视图相同视图中。

本发明中所描述的技术是针对其中视频编码器20及视频解码器30可识别第二候选图片的方式,视频编码器20及视频解码器30存取及评估所述第二候选图片以确定是否用除包含第二候选图片的视图之外的视图中的块对第二候选图片中的块进行视图间预测。再次,确定候选图片是否包含用除包含候选图片的视图之外的视图中的块进行视图间预测的块的目的为使用块的运动向量(其为视差运动向量)来确定当前块的视差向量。

举例来说,视频编码器20及视频解码器30确定包含时间相邻块的一或多个候选图片(例如,第一及第二候选图片),将存取及评估所述候选图片以确定是否用视差运动向量对时间相邻块进行帧间预测。时间相邻块的视差运动向量可指属于参考视图的集合中的一者的视图间参考图片。如更详细描述,视频编码器20及视频解码器30可接收候选图片中的一者的信息,且可使用本发明中所描述的技术确定其它候选图片。

举例来说,如更详细描述,对于其它候选图片,视频编码器20及视频解码器30可选择来自图片群组的候选图片基于图片群组中的图片中的每一者的性质来确定候选图片中的时间相邻块是否含有指代属于参考视图的集合中的一者的视图间参考图片的视差运动向量。视频编码器20及视频解码器30用以确定候选图片的图片的性质包含以下各者中的一或多者:图片是否为随机存取图片、图片的时间层级及图片的显示次序。

应理解本发明中所描述的技术不限于其中第一候选图片由在切片标头中用信号发出的信息识别的实例。一般来说,本发明中所描述的技术中的一或多者可扩展到其中不识别第一候选图片的实例,且可扩展到其中识别第一候选图片但其不一定在切片标头中的实例。技术也可扩展到其中视频编码器20及视频解码器30利用除用于识别第二候选图片的本发明中所描述的技术之外的技术识别额外候选图片(即,第一候选图片或其它候选图片)的实例。

仅出于说明的目的,本发明中所描述的技术是相对于用信号发出指示第一候选图片的信息作为切片标头的部分的视频编码器20及从用信号发出为切片标头的部分的信息识别第一候选图片的视频解码器30描述的。然而,所述技术通常可是针对其中视频编码器20及视频解码器30识别候选图片的方式,存取及评估所述候选图片以确定是否用视差运动向量对其块中的一者进行帧间预测。这些技术可为适用的,不管视频编码器20是否用信号发出另一候选图片的信息,且不管视频编码器20及视频解码器30是否实施其它技术来识别用于存取及评估的额外候选图片。

如上文所描述,用以确定当前块的视差向量的另一图片中的块的视差运动向量被称作时间视差向量(TDV)。因此,用于应用NBDV产生过程的本发明中所描述的技术可被认为是识别候选图片,对于TDV评估所述候选图片以确定当前块的视差向量。由在切片标头中用信号发出的信息识别候选图片中的第一者(例如,用于TMVP的相同位置图片),且根据本发明中所描述的技术识别候选图片中的第二者。

用于识别第二候选图片的技术可为隐式技术。举例来说,不同于第一候选图片,为了识别第二候选图片,视频编码器20可不需要将识别第二候选图片的信息用信号发出到视频解码器30。而是,视频编码器20及视频解码器30可分别实施具有用以识别第二候选图片的实质上类似的信息的实质上类似的技术。以此方式,因为视频编码器20及视频解码器30实施用于识别第二候选图片的实质上类似的技术,所以视频编码器20及视频解码器30可在视频编码器20并未用信号发出识别视频解码器30所接收的第二候选图片的信息的情况下识别相同第二候选图片。

一旦识别第一及第二候选图片两者,视频编码器20首先可评估第一候选图片(例如,用于TMVP的相同位置图片)来识别TDV(即,用视差运动向量进行帧间预测的第一候选图片中的块)。应理解,视频编码器20及视频解码器30可能已经评估相同位置图片内的块作为确定TMVP的部分。因此,以下描述可有些类似于其中视频编码器20及视频解码器30确定TMVP的方式,但是在出于确定是否使用用于当前块的视差向量导出的视差运动向量对块进行帧间预测的目的而评估块的情况下描述的。

在NBDV产生过程中,可存在视频编码器20在第一候选图片中评估的有限数目个块,如更详细描述,在一些实例中,所述块又可为确定TMVP的部分。如果第一候选图片中存在TDV,那么视频编码器20利用TDV作为当前块的视差向量,且实施各种译码工具,例如使用当前块的视差向量的视图间运动预测或视图间残余预测。

如果第一候选图片中不存在TDV,那么视频编码器20评估第二候选图片以识别TDV(即,用视差运动向量进行帧间预测的第二候选图片中的块)。如上可存在视频编码器20在第二候选图片中评估的有限数目个块,如更详细描述。如果第二候选图片中存在TDV,那么视频编码器20利用TDV作为当前块的视差向量,且实施各种译码工具,例如使用当前块的视差向量的视图间运动预测或视图间残余预测。

在一些实例中,视频编码器20可评估第一候选图片中的第一块,且如果并未用视差运动向量对第一块进行帧间预测,那么可评估第二候选图片中的第一块。如果并未用视差运动向量对第二候选图片中的第一块进行帧间预测,那么视频编码器20可评估第一候选图片中的第二块。如果并未用视差运动向量对第一候选图片中的第二块进行帧间预测,那么视频编码器20可评估第二候选图片中的第二块。在任何时间,如果视频编码器20确定用视差运动向量对第一或第二候选图片中的一者中的块进行帧间预测,那么视频编码器20可停止候选图片中的块的评估,且使用视差运动向量来导出当前块的视差向量。此外,在一些实例中,视频编码器20可以第二候选图片开始,且接着继续进行到第一候选图片。其它排列及组合可为可能的。

视频解码器30可实施与视频编码器20的技术实质上类似的技术来确定当前块的视差向量。举例来说,视频解码器30首先可评估TDV的第一候选图片(以与视频编码器20相同的方式)。如果不存在TDV,那么视频解码器30可评估TDV的第二候选图片(以与视频编码器20相同的方式)。以此方式,视频编码器20及视频解码器30两者可确定当前块的相同视差向量,而不需要视频编码器20将视差向量用信号发出到视频解码器30。因为视频编码器20及视频解码器30确定当前块的相同视差向量,所以视频解码器30可能能够以视频编码器20对当前块进行编码的相同方式对当前块进行解码(即,与视频编码器20的编码方案互逆地解码)。

应注意,在每一实例中,确定用于确定当前块的视差向量的TDV并非必要的。举例来说,如上文所描述,视频编码器20及视频解码器30首先可评估与将进行帧间预测的块相同的图片内的空间相邻块,且如果识别空间相邻块的视差运动向量(即,识别SDV),那么视频编码器20及视频解码器30可不继续进行确定TDV。在一些状况下,在确定是否存在TDV之前,如果并未识别SDV,那么视频编码器20及视频解码器30可识别IDV。如果不存在SDV及IDV,那么视频编码器20及视频解码器30可继续进行确定是否存在TDV。再次,因为视频编码器20及视频解码器30实施用于识别视差向量的相同技术,所以视频编码器20不需要将指示当前块的视差向量的信息用信号发出到视频解码器30。

如上文所描述,视频编码器20将识别用于确定切片标头中的TDV的第一候选图片(例如,用于TMVP的相同位置图片)的信息用信号发出到视频解码器30,且视频编码器20及视频解码器30可实施本发明中所描述的实例技术来识别用于确定TDV的第二候选图片。举例来说,视频编码器20及视频解码器30可从图片群组识别第二候选图片以确定是否用指代属于参考视图的集合的视图间参考图片的视差运动向量对第二候选图片中的时间相邻块进行帧间预测(例如,是否含有)。第二候选图片可为存储于相应视频编码器20及视频解码器30的经解码的图片缓冲器(DPB)中的图片。举例来说,在视频解码器30将对包含当前块的当前图片进行解码时存储于视频解码器30的DPB中的图片可为与在视频编码器20对包含当前块的当前图片进行编码时存储于视频编码器20的DPB中的图片相同的图片。

根据用于应用NBDV产生过程的本发明中所描述的技术,为了识别用于确定TDV的第二候选图片,视频编码器20及视频解码器30可实施阶层方案。举例来说,视频编码器20及视频解码器30可基于图片群组中的图片中的每一者的性质从图片群组选择候选图片。性质的实例包含图片是否为随机存取图片(例如,随机存取点视图分量(RAPVC)图片)、图片的时间层级及图片的显示次序中的一或多者,其全部在下文中更详细地描述。

在此阶层方案中,视频编码器20及视频解码器30可确定存储于相应DPB中的图片是否为随机存取点视图分量(RAPVC)图片,所述RAPVC图片也是随机存取图片的实例,且如果在相应DPB中存在RAPVC图片,那么视频编码器20及视频解码器30可将RAPVC图片识别为第二候选图片。下文更详细描述RAPVC图片。

在一些实例中,视频编码器20及视频解码器30可评估在参考图片集(RPS)中所识别的图片以确定在RPS中所识别的图片内是否存在RAPVC,而非评估相应DPB中的所有图片来确定是否存在RAPVC图片。参考图片集识别可用以帧间预测当前图片的图片及按解码次序在当前图片之后的图片。可用以帧间预测当前图片的RPS中的所有图片在视频编码器20及视频解码器30的相应DPB中是可用的。然而,在视频编码器20及视频解码器30的相应DPB中并非所有图片是在RPS中识别。

视频编码器20可将指示属于RPS的图片的信息用信号发出到视频解码器30。从指示哪些图片属于RPS的用信号发出的信息,视频解码器30可确定RPS中的哪些图片为可用以仅帧间预测按解码次序在当前图片之后的图片的参考图片,且RPS中的哪些图片为可用以帧间预测当前图片的参考图片。

视频编码器20及视频解码器30可基于可用以帧间预测当前图片的RPS中所识别的图片建构相应参考图片列表(例如,RefPicList0或RefPicList0及RefPicList1)。视频编码器20及视频解码器30分别基于参考图片列表中所识别的图片对当前图片进行帧间预测编码或帧间预测解码。并非可用以帧间预测当前图片的RPS中的所有图片需要包含于参考图片列表中。

在一些实例中,视频编码器20及视频解码器30可确定在整个RPS中是否存在RAPVC图片。在某一实例中,视频编码器20及视频解码器30可确定在RPS中所识别的图片(所述图片可用于帧间预测当前图片)当中而非在RPS中的所有图片当中是否存在RAPVC图片。在一些实例中,视频编码器20及视频解码器30可确定在经建构参考图片列表(例如,RefPicList0及RefPicList1)中是否存在RAPVC图片。在这些实例中的任一者中,如果视频编码器20及视频解码器30识别RAPVC图片,那么视频编码器20及视频解码器30可将RAPVC图片选择为第二候选图片。

在一些状况下,视频编码器20及视频解码器30可在DPB中、在整个RPS中、在可用于帧间预测当前图片的在RPS中所识别的图片当中或在参考图片列表中(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中,在包含第一候选图片的相同参考图片列表中,或在两个参考图片列表中)识别一个以上RAPVC图片。在这些状况下,可能并不清楚RAPVC图片中的哪一者应为第二候选图片。如果产生其中视频编码器20及视频解码器30识别一个以上RAPVC图片的情形,那么视频编码器20及视频解码器30可确定所识别的RAPVC图片与当前图片之间的相对输出或显示次序距离。本发明中的相对输出或显示次序距离指代显示或输出时间中的差。举例来说,如果在显示或输出第一图片时与显示或输出当前图片时之间的时间差大于在显示或输出第二图片时与显示或输出当前图片时之间的时间差,那么第一图片被视为与第二图片相比距当前图片的距离更远。

如上文所描述,图片的图片次序计数(POC)值指示图片的显示或输出时间。在其中视频编码器20及视频解码器识别两个或两个以上RAPVC图片的状况下,视频编码器20及视频解码器30可确定所识别的RAPVC图片与当前图片之间的相对距离。视频编码器20及视频解码器30可将具有相对于当前图片的最短距离的RAPVC图片选择为第二候选图片。

作为说明性实例,假设视频编码器20及视频解码器30识别在可用以帧间预测当前图片的RPS或参考图片列表(作为两个实例)中识别的图片当中的第一RAPVC图片及第二RAPVC图片。而且,假设用于第一RAPVC图片的POC值为5,用于第二RAPVC图片的POC值为8,且用于当前图片的POC值为6。在此实例中,第一RAPVC图片被视为到当前图片的距离比第二RAPVC图片更近,因为第一RAPVC图片与当前图片之间的距离为一个图片(即,6-5等于1),且第二RAPVC图片与当前图片之间的距离为两个图片(即,8-6等于2)。

在一些状况下,在视频编码器20及视频解码器30识别两个以上RAPVC图片时,RAPVC图片中的两者距当前图片同样远且具有所有所识别的RAPVC图片当中的最短距离是有可能的。在此状况下,视频编码器20及视频解码器30可需要确定选择两个同样远的RAPVC图片中的哪一者作为第二候选图片。应理解在存在距当前图片同样远的两个RAPVC图片的情况下,一个RAPVC图片按显示或输出次序比当前图片出现得早,且另一RAPVC图片按显示或输出次序比当前图片出现得晚。

在其中存在两个同样远的RAPVC图片的情形下,视频编码器20及视频解码器30可在两个同样远的RAPVC图片之间选择方向与第一候选图片相反的RAPVC图片。举例来说,如果第一候选图片(在切片标头中所识别的候选图片)按输出或显示次序(如由相应POC值所指示)比当前图片早,那么视频编码器20及视频解码器30可将按输出或显示次序在当前图片之后出现的RAPVC图片选择为第二候选图片。类似地,如果第一候选图片按输出或显示次序比当前图片晚,那么视频编码器20及视频解码器30可将按输出或显示次序在当前图片之前出现的RAPVC图片选择为第二候选图片。用以选择两个同样远的RAPVC图片当中的一个RAPVC图片的其它技术是可能的(例如,将方向与第一候选图片相同的RAPVC图片选择为第二候选图片),且利用第一候选图片的位置来选择两个同样远的RAPVC图片当中的一个RAPVC图片是仅出于说明的目的而提供的。

随机存取点视图分量(RAPVC)图片是基于经扩展到多视图及3DV扩展的HEVC标准的随机存取概念。随机存取点存取单元以及随机存取视图分量的详细定义可在MV-HEVC工作草案规范中获得:JCT3V-A1004,所述规范以全文引用的方式并入本文中。如下可用JCT3V-A1004文件:Gerhard Tech、Krzysztof Wegner、Ying Chen、Miska Hannuksela的“MV-HEVC工作草案1”(JCT3V-A1004,ITU-T SG 16WP 3及ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第1次会议:瑞典斯德哥尔摩,2012年7月16到20日),且所述文件截止2013年9月18日可从http://phenix.int-evry.fr/jct2/doc_end_user/current_document.php?id=209获得。

一般来说,RAPVC图片为视频译码可开始的图片。举例来说,不用按解码次序在RAPVC图片之前的任何图片对按解码次序(其可不同于显示或输出次序)在RAPVC图片之后的图片进行帧间预测。以此方式,如果在RAPVC图片上将开始视频编码或视频解码,那么视频编码器20可对按解码次序在RAPVC图片之后的图片进行编码,且视频解码器30可对按解码次序在RAPVC图片之后的图片进行解码,即使按解码次序在RAPVC图片之前的图片不可用。

在HEVC的多视图或3D扩展(例如,3D-HECV)中,视图分量是否为随机存取点(即,图片是否为RAPVC图片)可取决于视图分量的网络抽象层(NAL)单元类型。如果NAL单元类型属于HEVC标准中针对随机存取点(RAP)图片定义的视图分量,那么视频编码器20及视频解码器30可确定视图分量为随机存取点视图分量(或为简单起见,当前视图的随机存取点图片)。

在一些实例中,随机存取功能性可仅适用于时间预测,其方式为停用或约束时间维度(因此在视图内部)中的某些预测,这与HEVC基本规范(即,WD 10)中的情形类似。然而,用于RAPVC图片的视图间预测仍是可能的,且可为典型的,以改进译码效率,这类似于H.264/MVC中的锚定图片。换句话说,可不用相同视图中的另一图片对RAPVC图片进行帧间预测,但可用另一视图中的另一图片进行视图间预测。用以视图间预测RAPVC图片的其它视图中的图片的显示或输出时间通常与RAPVC图片的显示或输出时间相同。在其中对RAPVC图片进行视图间预测的实例中,RAPVC图片可为P或B图片(即,用一个其它图片进行视图间预测使其为P图片,或用两个其它图片进行视图间预测使其为B图片)。

在以上实例中,为了选择第二候选图片(切片标头中所识别的第一候选图片的信息),视频编码器20及视频解码器30确定一或多个RAPVC图片是在整个DPB中可用、在RPS中识别、在经识别为用以帧间预测当前图片的在RPS中的图片当中的RPS中识别还是在参考图片列表中(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中,在包含第一候选图片的相同参考图片列表中,或在两个参考图片列表中)识别。然而,在一些实例中,不存在此RAPVC图片是有可能的。

如果视频编码器20及视频解码器30不能够识别RAPVC图片,那么视频编码器20及视频解码器30可评估存储于DPB中的图片的时间识别值来选择第二候选图片。举例来说,仅具有小于或等于当前图片的时间识别值的时间识别值的图片可用以帧间预测当前图片。具有大于当前图片的时间识别值的时间识别值的图片无法用以帧间预测当前图片。

时间识别值可用于图片提取目的。举例来说,如果移除具有最高时间识别值的所有图片(即,减少带宽消耗),那么可能对视频译码不起效果,因为这些图片无法用以帧间预测剩余图片中的任一者。类似地,如果移除具有两个最高时间识别值的所有图片(即,进一步减少带宽消耗),那么可能对视频译码不起效果,因为这些图片无法用以帧间预测剩余图片中的任一者。然而,移除此些图片可能影响视频质量。

根据本发明中所描述的技术,如果RAPVC图片不可用,那么视频编码器20及视频解码器30可识别DPB中具有最低时间识别值的图片。在一些实例中,视频编码器20及视频解码器30可识别RPS中所识别的具有最低时间识别值的图片,而非评估DPB中的所有图片。在一些实例中,视频编码器20及视频解码器30可从可用以帧间预测当前图片的RPS中的图片当中识别具有最低时间识别值的图片,而非评估RPS中的所有图片。在一些实例中,视频编码器20及视频解码器30可识别一或多个参考图片列表中具有最低时间识别值的图片,而非评估可用以帧间预测当前图片的RPS中的所有图片。

再次,RPS识别可用以帧间预测当前图片及按解码次序在当前图片之后的图片的图片。在RPS中所识别的图片当中,一些图片可用以帧间预测当前图片及按解码次序在当前图片之后的图片,且一些图片可用以仅帧间预测按解码次序在当前图片之后的图片。而且,视频编码器20及视频解码器30可经配置以建构参考图片列表(RefPicList0及RefPicList1),且使用RefPicList0及RefPicList1中的图片中的一或多者来帧间预测当前图片的块。

在一些实例中,可仅存在具有最低时间识别值的一个图片,且视频编码器20及视频解码器30可将此图片选择为第二候选图片。然而,在一些状况下,视频编码器20及视频解码器30可识别具有最低时间识别值的多个图片(例如,具有时间识别值0的多个图片)。在这些状况下,类似于上文的RAPVC图片实例,视频编码器20及视频解码器30可基于POC值从具有相对输出或显示次序距离最接近于当前图片的最低时间识别值的图片当中识别图片。如果从具有按显示或输出次序最接近于当前图片的最低时间识别值的图片当中仅存在一个图片,那么视频编码器20及视频解码器30可将具有按显示或输出次序最接近于当前图片的最低时间识别值的图片选择为第二候选图片。

在一些状况下,在视频编码器20及视频解码器30识别具有最低时间识别值的两个以上图片时,具有最低时间识别值的图片中的两者距当前图片同样远且具有在具有最低时间识别值的所有图片当中的最短距离是有可能的。在此状况下,类似于相对于RAPVC图片的上文实例,视频编码器20及视频解码器30可需要确定选择具有最低时间识别值的两个同样远的图片中的哪一者作为第二候选图片。类似于上文,应理解,在存在距当前图片同样远的具有最低时间识别值的两个图片的情况下,具有最低时间识别值的一个图片按显示或输出次序比当前图片出现得早,且具有最低时间识别值的另一图片按显示或输出次序比当前图片出现得晚。

在其中存在具有最低时间识别值的两个同样远的图片的情形下,视频编码器20及视频解码器30可在具有最低时间识别值的两个同样远的图片之间选择方向与第一候选图片相反的图片。举例来说,如果第一候选图片(例如,用于TMVP的相同位置图片)按输出或显示次序比当前图片早(如由相应POC值所指示),那么视频编码器20及视频解码器30可将按输出或显示次序在当前图片之后出现的具有最低时间识别值的图片选择为第二候选图片。类似地,如果第一候选图片按输出或显示次序比当前图片晚,那么视频编码器20及视频解码器30可选择按输出或显示次序在当前图片之前出现的具有最低时间识别值的图片。用以选择具有最低时间识别值的两个同样远的图片当中的一个图片的其它技术是可能的(例如,将方向与第一候选图片相同的图片选择为第二候选图片),且利用第一候选图片的位置来选择具有最低时间识别值的两个同样远的图片当中的一个图片是仅出于说明的目的而提供的。

如上文所描述,多视图译码中的某些图片为随机存取点视图分量(RAPVC)图片,如由NAL单元类型所定义。HEVC基本标准(WD10)定义了各种类型的图片。下文为不同类型的图片的概述。

在HEVC中存在可由NAL单元类型识别的四个图片类型。这些图片类型为瞬时解码刷新(IDR)图片、清洁随机存取(CRA)图片、时间层存取(TLA)图片及不为IDR、CRA或TLA图片的经译码的图片。NAL单元类型可为NAL单元标头的部分,如关于图5更详细描述。

IDR及经译码图片为从H.264/AVC规范继承的图片类型。CRA及TLA图片类型在HEVC中为新的,且在H.264/AVC规范中不可用。CRA图片为便于从视频序列当中的任何随机存取点开始解码(其比插入IDR图片更有效)的图片类型。

在HEVC中,从这些CRA图片开始的位流可为相符位流。TLA图片为可用以指示有效时间层切换点的图片类型。在多视图译码中,RAPVC图片可类似于HEVC中的CRA图片。然而,可能未对HEVC中的CRA图片进行帧间预测,但可用另一视图中的图片对RAPVC图片进行帧间预测,且不用相同视图中的图片进行帧间预测。

举例来说,在例如广播及流式传输等视频应用中,用户可能想要以最小延迟切换频道,或跳转到视频的特定部分。切换频道或跳跃到视频的特定部分可通过在视频位流中以规则的间隔具有随机存取图片而实现。举例来说,用户可能够跳到随机存取图片,或在用户改变频道时,经改变到的频道的视频内容可在随机存取图片处开始。

在H.264/AVC及HEVC两者中指定的IDR图片可用于随机存取。然而,使用IDR图片以用于随机存取可存在限制。举例来说,IDR图片开始经译码视频序列,且在视频编码器20及视频解码器30分别对IDR图片进行编码或解码时,视频编码器20及视频解码器30清空(即,清洁)相应DPB。因为相应DPB为空,所以视频编码器20及视频解码器30可能不能够使用按解码次序在IDR之后的图片来帧间预测在IDR图片之前的图片(即,按解码次序在IDR之后的图片无法使用在IDR图片之前的图片作为参考图片)。

在一些状况下,依赖于用于随机存取的IDR图片的位流可具有显著较低的译码效率(例如,6%)。为了改进译码效率,在HEVC中的CRA图片(其类似于多视图译码(例如,3D-HEVC)中的RAPVC图片)允许按解码次序在CRA图片之后但按输出次序在CRA图片之前的图片使用在CRA图片之前解码的图片作为参考。

图4是说明图片类型的实例的概念图。举例来说,图4说明由其显示次序识别的图片。由图片次序计数(POC)值识别显示次序。举例来说,在图4中,具有POC值24的图片为CRA图片,且属于图片群组(GOP)。GOP还包含具有POC值17到23的图片。具有POC值17到23的图片按解码次序在CRA图片(即,具有POC值24的图片)之后(即,具有POC值17到23的图片由具有POC值24的CRA图片进行帧间预测或由通过具有POC值24的CRA图片进行帧间预测的图片进行帧间预测)。然而,具有POC值17到23的图片按输出次序在具有POC值24的CRA图片之前(即,具有POC值17到23的图片的显示早于具有POC值24的CRA图片)。

在此实例中,具有POC值17到23的图片被称作具有POC值24的CRA的前导图片,且可在视频解码器30开始从当前CRA图片(即,具有POC值24的图片)之前的IDR或CRA图片进行解码的情况下正确地解码。然而,在视频解码器30开始从具有POC值24的CRA图片进行解码的情况下,视频解码器30可能不能够恰当地对具有POC值17到23的图片进行解码。在这些状况下,视频解码器30在随机存取解码期间舍弃前导图片(即,具有POC值17到23的图片)。

此外,为了防止来自可取决于视频解码器30在何处开始解码而不可用的参考图片的错误传播,按解码次序及输出次序两者在具有POC值24的CRA图片之后的下一GOP中的所有图片不使用按解码次序或输出次序在具有POC值24的CRA图片之前的任何图片作为参考。举例来说,如果视频解码器30开始从具有POC值24的CRA图片进行解码,那么视频解码器30舍弃具有POC值17到23的图片。在此状况下,因为具有POC值17到23的图片不可用,所以按解码及输出次序两者在具有POC值24的CRA图片之后的图片不使用具有POC值17到23的图片中的任一者作为参考图片。

在H.264/AVC中用恢复点补充增强信息(SEI)消息来支持类似随机存取功能性。并非所有符合H.264/AVC标准的视频解码器可支持恢复点SEI消息。

在HEVC中,开始于CRA图片的位流被视为相符位流。如上文所描述,在位流开始于CRA图片时,CRA图片的前导图片可指不可用的参考图片,且因此无法被正确地解码。然而,同样如上文所描述,HEVC指定不输出开始CRA图片的前导图片,因此得名“清洁随机存取”。

为了建立位流相符要求,HEVC规定解码过程产生不可用的参考图片以用于解码非输出的前导图片。然而,视频解码器30并不一定在解码过程之后,只要视频解码器30可产生与从位流的开始执行解码过程时的情形相比较相同的输出。此外,在HEVC中,相符位流可能完全不含有IDR图片,且因此可含有经译码视频序列的子集或不完整的经译码视频序列。应理解,在HEVC中,相符位流可能完全不含有IDR图片,且因此可含有经译码视频序列的子集或不完整的经译码视频序列。

除IDR及CRA图片以外,存在其它类型的随机存取点图片(例如,断链存取(BLA)图片)。对于主要类型的随机存取点图片中的每一者,取决于可如何由系统潜在地处理随机存取点图片,可存在子类型。每一子类型的随机存取点图片具有不同NAL单元类型。

在本发明所描述的技术中,用于多视图译码的RAPVC图片可类似于HEVC标准中的CRA图片。然而,RAPVC图片的其它实例是可能的。举例来说,RAPVC图片可类似于TLA或BLA图片。RAPVC图片类似于IDR图片是有可能的。

如上文所描述,如果视频编码器20及视频解码器30确定RAPVC图片不可用,那么视频编码器20及视频解码器30可基于时间识别值选择第二候选图片。下文描述其中视频编码器20指示图片的时间识别值的方式,及其中视频解码器30确定图片的时间识别值的方式。视频编码器20及视频解码器30可将图片的时间识别值连同图片一起存储于相应DPB中。

图5是说明网络抽象层(NAL)单元标头的实例的概念图。在HEVC中,引入两字节NAL单元标头,预期此设计足以支持HEVC可缩放及3D视频译码(3DV)扩展(包含3D-HEVC)以及其它未来扩展。举例来说,图5中所说明的NAL单元标头可适用于HEVC基本标准,以及用于例如3D-HEVC或3DV等多视图扩展。

如图5中所说明,NAL单元标头的第一字节类似于H.264/AVCNAL单元标头。在H.264/AVC中,nal_ref_idc(NRI)为两位固定码字。nal_ref_idc的这两个位用以支持不同输送优先级发信号,所述发信号用于支持数据分割。在HEVC及扩展中,移除数据分割允许NRI减少一个1位。此外,指示参考图片是通过更多NAL单元类型实现。因此,从NAL单元标头完全移除NRI,NAL单元标头又允许nal_unit_type的大小(NALType)字段从五个位增加到六个位,从而提供与H.264/AVC相比较两倍多的NAL单元类型及用于扩展性的六个预留位。

如上文所描述,图片是否为RAPVC图片可基于NAL单元类型。视频编码器20可包含NAL单元标头中的NAL单元类型,且视频解码器30可剖析NAL单元标头以确定NAL单元类型。视频解码器30接着可基于NAL单元类型确定图片是否为RAPVC图片。

如图5中所说明,NALType字段为从NAL单元标头中的第二位开始到NAL单元标头中的第七位的六位值,且在forbidden_zero位(F)之后,所述forbidden_zero位(F)为NAL单元标头中的第一位。forbidden_zero(F)位通常为零,以防止开始MPEG-2系统旧版环境中的码仿真。

NAL单元标头的第二部分包含两个语法元素:reserved_zero_6bits(R6bits,6个位)、temporal_id_plus1(TIDP,3个位)。举例来说,如图5中所说明,R6bits为NAL单元标头中的从第八位到第十三位的六个位。在TemporalId(TIDP)的情况下,支持时间可缩放性(其中时间识别符的范围为0到6(包含0及6))。可在不存取具有较大TemporalId值的任何NAL单元的情况下成功地对视频译码层(VCL)NAL单元进行解码。

如图5中所说明,视频编码器20可包含时间识别值(加一)作为NAL单元标头中的前三个位。视频解码器30可通过剖析NAL单元标头中的前三个位来确定图片的时间识别值,且接着减去一。时间识别值的范围可为零到六,且具有较高时间识别值的图片无法用以帧间预测具有较低时间识别值的图片。

在本发明中所描述的技术中,为了选择第二候选图片,视频编码器20及视频解码器30可剖析与例如DPB中的所有图片、RPS中的所有图片(其为DPB中的图片的子集)、可用以帧间预测当前图片的在RPS中的所有图片(其为RPS中所识别的图片的子集)或参考图片列表中的所有图片(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中,在包含第一候选图片的相同参考图片列表中,或在两个参考图片列表中)等各种图片相关联的NAL单元标头以识别RAPVC图片(即,剖析NAL单元标头中的NALType位)。如果视频编码器20及视频解码器30识别仅一个RAPVC图片,那么视频编码器20及视频解码器30可将RAPVC图片选择为第二候选图片,且如果视频编码器20及视频解码器30识别多个RAPVC图片,那么视频编码器20及视频解码器30可基于到当前图片的相对距离及可能基于第一候选图片相对于当前图片的位置将这些RAPVC图片中的一者识别为第二候选图片,如上文所描述。

如果视频编码器20及视频解码器30基于NAL单元标头中的NALType位确定RAPVC图片不可用,那么视频编码器20及视频解码器30可剖析与各种图片相关联的NAL单元标头以识别具有最低时间识别值的图片(即,剖析NAL单元标头中的TIDP位以识别具有最低时间识别值的图片)。如果视频编码器20及视频解码器30仅识别具有最低时间识别值的一个图片,那么视频编码器20及视频解码器30可将所述图片选择为第二候选图片,且如果视频编码器20及视频解码器30识别具有最低时间识别值的多个图片,那么视频编码器20及视频解码器30可基于到当前图片的相对距离及可能基于第一候选图片相对于当前图片的位置选择具有最低时间识别值的这些图片中的一者作为第二候选图片,如上文所描述。

如上文所描述,在一些实例中,视频编码器20及视频解码器30可利用进行视图间残余预测的当前块的所确定的视差向量。在视频译码中,视频编码器20用信号发出当前块与将用于帧间预测的块之间的差(即,残差)。视频解码器30利用残差从用于帧间预测的块重建当前块。在一些实例中,有可能进一步减少需要用信号发出的残余信息的量。举例来说,视频编码器20可进一步从当前块与用于帧间预测的块之间的差减去由所确定的视差向量所指代的块的残余值。此额外减法可减少视频编码器20需要用信号发出的残余信息的量。

举例来说,视频解码器30可确定当前块的残差,所述残差为当前块及用于基于由当前块的视差向量(即,经由视图间残余预测)所指代的块的帧间预测的块的像素值的差。在视频解码器30确定当前块的残差之后,视频解码器30可将残余值与用以帧间预测当前块的块的像素值相加以确定当前块的像素值(即,对当前块进行帧间预测解码)。

同样如上文所描述,在一些实例中,视频编码器20及视频解码器30可利用用于视图间运动预测的当前块的所确定的视差向量。视图间运动预测是指识别所确定的视差向量所指代的块,且利用所确定的视差向量所指代的块的运动信息作为用于预测当前块的运动信息的预测子。举例来说,所确定的视差向量所指代的块的一或多个运动向量可为用于高级运动向量预测(AMVP)模式或合并/跳过模式列表的候选者。

在合并/跳过模式及AMVP模式中,视频编码器20及视频解码器30各自建构候选运动向量预测子的列表。视频编码器20及视频解码器30可实施实质上类似的技术来建构候选运动向量预测子的相应列表以使得对于视频编码器20及视频解码器30两者,列表中所识别的候选运动向量预测子为相同的。

举例来说,在合并/跳过模式及AMVP模式中,视频编码器20及视频解码器30基于空间及时间相邻块的运动信息建构候选运动向量预测子的列表。在一些实例中,视频编码器20及视频解码器30可包含由所确定的视差向量指代的块的运动信息作为候选运动向量预测子的列表中的另一候选者。如果不存在用于由视差向量所指代的块的运动向量,那么视频编码器20及视频解码器30可将视差向量转换成视差运动向量,且将视差运动向量添加到候选运动向量预测子的列表。

对于合并/跳过模式或AMVP模式两者,视频编码器20用信号发出视频解码器30所接收的到候选运动向量预测子的列表中的索引。视频解码器30接着从到候选运动向量预测子的列表中的用信号发出的索引识别运动信息(例如,参考图片及一或多个运动向量),且基于所识别的运动信息确定当前块的运动向量。

举例来说,在合并/跳过模式中,视频解码器30接收到候选运动向量预测子的列表中的索引,且基于用信号发出的索引识别存储于候选运动向量预测子的列表中的运动信息。视频解码器30确定参考索引、与参考索引相关联的参考图片列表及来自所识别的运动信息的运动向量。视频解码器30接着采纳所确定的参考索引、与参考索引相关联的参考图片列表及来自所识别的运动信息的运动向量作为当前块的运动信息。换句话说,当前块继承由到候选运动向量预测子的列表中的索引所识别的块的运动信息。

在一些实例中,在合并/跳过模式中,如果由到候选运动向量预测子的列表中的索引所识别的块是指时间相邻块,那么视频解码器30可不采纳参考索引及与参考索引相关联的参考图片列表。视频解码器30可利用任何已知技术或任何待开发的技术来确定到参考图片列表中的参考索引(例如,选择到参考图片列表中的一者或两者中的索引零)。

以此方式,视频解码器30可确定合并/跳过模式中的当前块的运动信息。再次,由视差向量所识别的块的运动信息可为可由到候选运动向量预测子的列表中的索引识别的候选运动向量预测子的列表中的候选者中的一者。在合并模式中,视频解码器30还可接收当前块与由所确定的运动信息所指代的块之间的残余数据,且视频解码器30可利用残余数据来确定当前块的像素值。在跳过模式中,视频解码器30可不接收当前块与由所确定的运动信息所指代的块之间的残余数据。在此实例中,视频解码器30可假定残余数据为零(即,将当前块的像素值设定为等于由所确定的运动信息所指代的块的像素值)。

AMVP模式可类似于合并/跳过模式;然而,除了接收到候选运动向量预测子的列表的索引之外,视频解码器30还可从视频编码器20接收参考图片列表的参考索引值及运动向量差。运动向量差可为由到候选运动向量预测子的列表中的索引所识别的块的运动向量与当前块的实际运动向量之间的运动向量中的差。

举例来说,视频解码器30可确定由到候选运动向量预测子的列表中的索引所识别的块的运动向量。视频解码器30可将由到候选运动向量预测子的列表中的索引所识别的块的运动向量的值与用信号发出的运动向量差相加或相减以确定当前块的运动向量。另外,视频解码器30可基于指示参考图片列表的用信号发出的信息及到参考图片列表中的用信号发出的索引来确定所确定的运动向量所指代的参考图片。

以此方式,视频解码器30可确定AMVP模式中的当前块的运动信息。类似于合并/跳过模式,视频编码器20及视频解码器30可包含由当前块的所确定的视差向量所识别的块的运动信息作为候选运动向量预测子的列表中的候选者中的一者。

如上文所描述,对于合并/跳过模式及AMVP模式,视频编码器20及视频解码器30建构候选运动向量预测子的列表。下文描述用以建构候选运动向量预测子的列表的实例方式。如更详细描述,视频编码器20及视频解码器30可评估空间及时间相邻块的运动信息。在一些实例中,如果空间相邻块的运动信息用以确定当前块的运动信息,那么空间相邻块的运动信息可被称为空间运动向量预测符(SMVP)。如果时间相邻块的运动信息用以确定当前块的运动信息,那么时间相邻块的运动信息可被称为时间运动向量预测子(TMVP)。在一些实例中,如果时间相邻块的运动信息将包含于候选运动向量预测子的列表中,那么视频编码器20及视频解码器30可基于POC值按比例调整时间相邻块的运动向量信息。

图6展示当前块601及五个空间相邻块(602、603、604、605及606)的实例。在单视图视频译码中,五个空间相邻者的运动信息可用以例如建构用于合并模式或AMVP的高级运动向量预测(AMVP)/合并模式候选者列表。另外,块601的时间相邻者也可用以建构这些候选者列表。时间相邻者(图6中未图示)可例如为不同时间实例的图片中的相同位置块或在相同时间实例的图片中但在不同视图中的相同位置块。为了避免混淆,术语相同位置图片用于指包含时间相邻块的图片。

在多视图译码中,空间相邻者及时间相邻者的运动信息可用以产生AMVP/合并模式候选者列表(如在单视图译码中),但在多视图视频译码中,也可在包含相同视图的时间参考图片及第二视图的视图间参考图片的任何参考图片中找到时间相邻块。如上文所提及,第二视图的这些图片可用以使用视差运动向量预测第一视图中的视频数据块。根据本发明的技术,图6中所示的五个空间相邻块的运动信息以及时间相邻块的运动信息可用以确定当前图片的当前块(例如图6中的块601)的视差向量。

如在下文描述中将变得清楚,哪些空间相邻块及哪些时间相邻块是用于确定当前块的视差向量可以灵活的方式导出。当前块的视差向量也可以用于给定多视图编解码器的固定方式导出。一或多个空间相邻块可包含将通过二维(2D)视频编解码器中的现有译码工具存取的空间相邻块。在一些实施方案中,所考虑的空间相邻块及考虑相邻块的次序可与用于导出候选者列表(作为在HEVC中定义的AMVP过程的部分)的空间相邻块相同,或与用于导出候选者列表(作为HEVC中定义的合并过程的部分)的空间相邻块相同。作为一个实例,返回参看图6,在建构用于合并/跳过或AMVP的候选者列表时,视频编码器20及视频解码器可按首先块605、接着块603、接着块602、接着块606及最后块604的次序考虑候选者。

在图6中,明度位置(xP,yP)相对于包含块601的当前图片的左上样本来指定块601的左上方明度样本。因此,在此实例中被称作PU“N”的当前块的左上方明度样本相对于当前图片的左上方样本是(xN,yN)。变量nPSW及nPSH表示用于明度的块601的宽度及高度。在此实例中,(xN,yN)分别经定义为(xP-1,yP+nPSH)、(xP-1,yP+nPSH-1)、(xP+nPSW,yP-1)、(xP+nPSW-1,yP-1)或(xP-1,yP-1),其中N由606、605、604、603及602替换以识别块602到606中的一者。以此方式,视频解码器30确定空间相邻块的位置。根据本发明的技术,这些空间相邻块(例如块602到606)的运动信息可经评估为确定块601的视差向量的部分。

以下描述解释其中视频编码器20或视频解码器30可识别时间相邻块的方式。如果那些时间相邻块是使用DCP被译码,那么可使用用于对时间相邻块进行译码的视差运动向量来确定当前块的视差向量。视频编码器20及视频解码器30可通过首先识别时间图片及接着在所识别的时间图片内识别相同位置或相邻块来识别时间相邻块。可识别多个时间图片,且因此还可识别多个时间相邻块。

然而,根据本发明中所描述的技术,视频编码器20及视频解码器30可识别两个候选图片,而非识别多个时间图片。如上文所描述,第一候选图片可为其信息在切片标头中识别的图片(例如,用于TMVP的相同位置图片)。第二候选图片可为潜在地来自多个RAPVC图片的RAPVC图片。如果RAPVC图片不可用,那么候选图片可为可能来自各自具有最低时间识别值的多个图片的具有最低时间识别值的图片。

在一个实例中,在HEVC中的用于时间运动向量预测(TMPV)的相同图片可用作用于根据本发明的技术识别时间相邻块的第一候选图片。在HEVC中,图片参数集(PPS)包含旗标enable_temporal_mvp_flag。在具有等于零的时间识别值的特定图片是指具有等于零的enable_temporal_mvp_flag的PPS时,视频编码器20及视频解码器30可将DPB中的所有图片标记为“不用于时间运动向量预测”,且在对当前图片或按解码次序在当前图片之后的图片进行解码时并不将来自按解码次序在特定图片之前的图片的运动向量用作时间运动向量预测子。

在HEVC中的用于时间运动向量预测的相同位置图片(其也可为第一候选图片)可由包含将进行帧间预测的当前块的图片的参考图片列表中的一者中的collocated_ref_idx索引值指示。collocated_ref_idx索引值可将相同视图中的图片识别为包含将进行帧间预测的块的图片,或将不同视图中的图片识别为包含将进行帧间预测的块的图片。在这些实例中的任一者中,由collocated_ref_idx索引值识别的图片可包含一或多个时间相邻块。视频编码器20用信号发出指示是在RefPicList0中还是在RefPicList1中识别相同位置图片的旗标(例如,collocated_from_l0_flag)。举例来说,如果旗标值为1,那么视频解码器30确定在RefPicList0中识别相同位置图片,且如果旗标值为0,那么视频解码器30确定在RefPicList1中识别相同位置图片。

在一些实例中,对于B切片,视频编码器20及视频解码器30可基于最终建构的参考图片列表(RefPicList0及RefPicList1)来建构组合列表(RefPicListC)。如果存在修改语法,那么视频编码器20及视频解码器30可进一步修改组合参考图片列表。

然而,时间图片不限于HEVC中的用于时间运动向量预测的相同图片。时间图片可为经解码的图片缓冲器(DPB)中的任何图片。时间图片通常是指在当前图片的参考图片列表中或在经解码的图片缓冲器中的属于与当前图片相同的视图的图片。在一些状况下,时间图片也可以为当前图片的视图间参考图片。举例来说,如果当前切片经帧间译码,那么时间图片可包含参考图片列表0(RefPicList0)的所有项或项的子集,且如果当前切片经译码为B切片,那么时间图片可包含RefPicList0及RefPicList1的所有项或项的子集。

一旦视频编码器20及视频解码器30使用上文所描述的技术中的一或多者识别时间图片(即,候选图片),视频编码器20及视频解码器30便可识别候选图片中的一或多个时间相邻块。视频编码器20及视频解码器30可例如将时间图片中的相同位置块识别为时间相邻块。相同位置块通常是指具有时间图片中的与当前块在当前图片中具有的相对位置相同的相对位置的块。

举例来说,视频编码器20及视频解码器30可确定候选图片中的相同位置最大译码单元(CLCU)的位置。CLCU可涵盖当前块在当前图片中所涵盖的候选图片中的相同区域。然而,在一些实例中,CLCU可涵盖候选图片中的比当前块在当前图片中所涵盖的区域大的区域。换句话说,CLCU及当前块可涵盖相应图片中的相同区域,但在一些实例中,CLCU可涵盖候选图片中的额外区域。

在一些实例中,视频编码器20及视频解码器30可确定是否用视差运动向量对在候选图片中的CLCU的右下中心的块进行帧间预测,且如果是,那么将视差运动向量设定为当前块的视差向量。然而,如果并未用视差运动向量对候选图片中的CLCU的右下中心块进行帧间预测,那么视频编码器20及视频解码器30可确定是否用视差运动向量对CLCU的右下方的块进行帧间预测。如果是,那么视频编码器20及视频解码器30可将视差运动向量设定为当前的视差向量。

在一些实例中,视频编码器20及视频解码器30可以候选图片中的CLCU的右下方的块开始,而非开始于右下中心,且如果未用视差运动向量对右下块进行帧间预测,那么视频编码器20及视频解码器30可以右下中心块继续进行。相邻块的其它实例是有可能的,且本发明中所描述的技术不应被视为限于右下中心块及右下块。在一些实例中,视频编码器20及视频解码器30可仅评估候选图片中的在CLCU内的右下中心块及CLCU的右下块。

在一些实例中,如果这些块皆不是用视差运动向量进行帧间预测的,那么视频编码器20及视频解码器30可评估下一候选图片。举例来说,视频编码器20及视频解码器30可以第一候选图片开始,且确定是否用视差运动向量对相邻块(即,由CLCU涵盖的右下中心块或CLCU的右下块)进行帧间预测。如果是,那么视频编码器20及视频解码器30可将视差运动向量设定为当前块的视差向量。如果不是(无用于相邻块的视差运动向量),那么视频编码器20及视频解码器30可以实质上类似方式评估第二候选图片,其中视频编码器20及视频解码器30利用本发明中所描述的实例技术识别第二候选图片。

在一些实例中,视频编码器20及视频解码器30可评估由第一候选图片的CLCU所涵盖的右下中心块以确定是否用视差运动向量对块进行帧间预测。如果不用视差运动向量对块进行帧间预测,那么视频编码器20及视频解码器30可评估由第二候选图片的CLCU所涵盖的右下中心块以确定是否用视差运动向量对块进行帧间预测。如果不用视差运动向量对块进行帧间预测,那么视频编码器20及视频解码器30可评估第一候选图片的CLCU的右下块以确定是否用视差运动向量对块进行帧间预测。如果不用视差运动向量对块进行帧间预测,那么视频编码器20及视频解码器30可评估第二候选图片的CLCU的右下块。

其它排列及组合可为可能的。举例来说,视频编码器20及视频解码器30可以第二候选图片开始,且接着继续进行到第一候选图片。作为另一实例,视频编码器20及视频解码器30可以右下块开始,且接着继续进行到CLCU的右下中心块。其它实例是可能的,且由本发明的技术所涵盖。

如上文所描述,视频编码器20及视频解码器30可将候选运动向量预测子的列表建构为AMVP或合并/跳过模式的部分。为了建构候选运动向量预测子的列表,视频编码器20及视频解码器30可能已存储运动信息。视频编码器20及视频解码器30可应用压缩技术以减少进行存储所需要的运动信息的量,以及减少存储及加载用于合并/跳过模式及AMVP模式的运动信息所花费的存储器带宽。关于图7更详细描述视频编码器20及视频解码器30存储空间相邻块的运动信息的方式。

对于时间相邻块,作为一个实例,视频编码器20及视频解码器30以因子16压缩运动向量。举例来说,视频编码器20及视频解码器30可在水平及垂直方向两者上以因子4对运动向量字段进行下取样。此情形导致对于每一16x16区相同的运动向量。举例来说,块大小可为4x4。在以因子16压缩的情况下,16x16区内的每一4x4块经指派相同的运动向量。以此方式,视频编码器20及视频解码器30可将16个4x4块的一个运动向量存储于16x16区内,其导致与存储所有16个4x4块的运动向量相比较需要存储的较少信息及需要检索的较少信息。

图7是说明其中存储运动向量信息的方式的概念图。图7说明线缓冲器700。线缓冲器700存储在空间上位于将预测的当前块上方的块的运动向量。图7中的块0到15各自为4x4块。

运动向量信息包含帧间预测方向、参考图片索引及运动向量(MV)。在一些实例中,视频解码器30并不将块0到15中的每一者的运动向量信息存储于线缓冲器700中。而是,视频解码器30将每四个块中的两者的运动向量信息存储于线缓冲器700内。此情形导致用于一个线的2:1运动向量信息压缩,且导致需要存储于线缓冲器700中的较少信息。

举例来说,块0到3中的每一者的运动向量信息可为不同的。在此实例中,尽管块0及块1的运动向量信息不同,但在存储时,块0及块1共享相同的运动向量信息,且视频解码器30将块0及1两者的一组运动向量信息存储于线缓冲器700中。在图7中,视频解码器30将块0的运动向量信息存储为块0及块1两者的运动向量信息。在此状况下,块1的运动向量信息可能丢失,且保留块0的运动向量信息。

类似地,在此实例中,尽管块2及3的运动向量不同,但在存储时,块2及3共享相同的运动向量信息,且视频解码器30可将块2及块3两者的一组运动向量信息存储于线缓冲器中。在一些实例中,视频解码器30将块3的运动向量信息存储为块2及3两者的运动向量。在此状况下,块2的运动向量信息丢失,且保留块3的运动向量信息。

换句话说,对于用于线缓冲器减小的运动向量信息压缩,视频解码器30不将块0及块1两者的运动向量信息存储于线缓冲器700中。而是,视频解码器30将块1的运动向量信息存储于线缓冲器700中,且块0的运动向量信息可能丢失。类似地,视频解码器30将块3的运动向量信息存储于线缓冲器700中,且块2的运动向量信息可能丢失。

在图7中,变暗的块指示存储其运动向量信息的块。箭头指示其运动向量信息现由所存储的运动向量信息表示的块。如所说明,因为一半的块的运动向量信息丢失,且由另一半的块的运动向量信息表示,所以与其中存储所有块的运动向量信息的状况相比较,线缓冲器700中仅需要存储器的一半。

在3D-HEVC中,在一些状况下,基于IDV导出视差向量可需要原始经压缩向量的存储器带宽两倍大的存储器带宽。额外存储器带宽可是由于对于每一存取单元需要存储的IDV的旗标。而且,如果IDV是针对经先前译码图片,那么视频编码器20及视频解码器30可能需要不必要地存取DPB以检索IDV信息。因此,在一些实例中,视频编码器20及视频解码器30可能不依赖于除用于导出视差向量的当前图片之外的图片中的块的IDV,且可从DPB移除除了当前图片之外的图片中的块的IDV。

关于图7描述的技术为用于实施空间相邻块的运动向量信息压缩的一种方式,且下取样为用于实施时间相邻块的运动向量信息压缩的一种方式。可存在用于实施运动向量信息压缩的其它方式,且本发明中所描述的技术不限于用于实施运动向量信息压缩的任何特定方式。

如上文所描述,本发明中所描述的技术是针对基于图片是否为RAPVC图片及/或基于图片的时间识别值选择候选图片的方式。下文描述其中用以确定可能需要比本发明中所描述的技术更多处理的候选图片的实例方式。

在这些其它技术中(即,不根据本发明中所描述的技术的技术),视频编码器20及视频解码器30可建构候选图片列表。与其中两个图片可为候选图片的本发明中所描述的技术相对比,来自当前视图的所有参考图片可以被视为候选图片。在这些其它技术中,视频编码器20及视频解码器30可首先在候选图片列表中插入相同位置参考图片,接着是按参考索引的升序的其余候选图片。在两个参考图片列表中具有相同参考索引的参考图片可用时,在相同位置图片的相同参考图片列表中的一者在另一者之前。

图8是说明根据不一定是视频编码器20及视频解码器30实施的技术的技术的候选图片列表建构过程的实例的概念图。如所说明,当前图片位于视图V1、时间T2处。当前图片包含将进行帧间预测的当前块。当前图片包含两种类型的参考图片(即,视图V1中的时间参考图片及视图V0中的视图间参考图片)。时间T3、视图V1处的相同位置图片由Ref0、List1(如由视频编码器20用信号发出)表示。在这些其它技术中,最终候选图片列表将为T3处的图片,接着是T1处的图片,接着是T4处的图片,且接着是T0处的图片,且所有的图片皆来自视图V1。

在这些其它技术中,对于候选图片列表中的每一候选图片,视频编码器20及视频解码器30可评估用于导出时间相邻块的三个候选区。第一区为当前PU或当前CU(即,当前块)的相同位置区,且被称作CPU。第二区为覆盖当前PU(即,当前块)的相同位置区的最大译码单元(LCU),且被称作CLCU。第三区为CPU的右下4x4块,且被称作BR。

在这些其它技术中,因为作为运动压缩的结果,16x16块中的较小块共享相同的运动信息,所以视频编码器20及视频解码器30可仅评估视差运动向量的一个样本块以确定当前块的视差向量。如果区覆盖一个以上16x16块,那么视频编码器20及视频解码器30可按光栅扫描次序评估区中的所有16x16块。

在包含本发明中所描述的实例技术的一些实例中,视频编码器20及视频解码器30首先可检查空间相邻块以确定是否用视差运动向量对空间相邻块中的任一者进行帧间预测。如果不用视差运动向量对空间相邻块进行帧间预测,那么视频编码器20及视频解码器30可以图片的候选者列表中所识别的图片的时间相邻块继续进行。举例来说,对于候选图片列表中的每一候选图片,视频编码器20及视频解码器30首先可检查第一非基础视图的CPU、CLCU及BR,或第二非基础视图的BR、CPU、CLCU。

在本发明中所描述的技术中,要评估的候选图片的数目可限于两个图片(即,候选图片列表包含两个图片),此降低了需要存取及评估的图片的数目(与一些其它技术相比较)。此外,视频编码器20及视频解码器30可评估两个区(例如,候选图片内的右下中心及右下块)以确定是否用视差运动向量进行帧间预测(此降低了要评估的区的数目),而非检查候选图片中的每一者内的三个区。

如上文所描述,用以确定当前块的视差向量的空间相邻块的视差运动向量被称作空间视差向量(SDV),且用以确定当前块的视差向量的时间相邻块的视差运动向量被称作时间视差向量(TDV)。还如上文所描述的,在一些实例中,视频编码器20及视频解码器30可利用相邻块的所导出的视差向量作为当前块的视差向量,此所导出的视差向量被称作隐式视差向量(IDV)。一般来说,用于从相邻块确定视差向量的技术被称作基于相邻块的视差向量(NBDV)产生。

如上文所描述,本发明中所描述的技术可被认为是NBDV产生的部分。举例来说,在NBDV产生中,出于通过确定用视差运动向量对相邻块进行帧间预测而导出当前图片的当前块的视差向量的目的而存取及评估这些块的运动向量。

本发明中所描述的技术可是用于NBDV产生,但其中存取及评估的候选图片限于两个候选图片(例如,为TMVP的相同位置图片的第一候选图片及使用本发明中所描述的技术选择的第二候选图片)。举例来说,在应用NBDV产生过程时,视频编码器20及视频解码器30可选择候选图片来确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测。从本发明中所描述的技术确定的当前块的视差向量可为NBDV产生的部分。

返回参看IDV,假设用运动补偿预测(MCP)对块进行帧间预测。在此实例中,块可不包含由视差补偿预测(DCP)产生的显式视差运动向量。然而,在此块的帧间预测期间,视频编码器20及视频解码器30可已使用用于视图间运动预测或视图间残余预测的本发明中所描述的技术导出视差向量(作为两个实例译码工具)。视频编码器20及视频解码器30可能并未舍弃此所导出的视差向量,所述所导出的视差向量被称作隐式视差向量(IDV)。而是,视频编码器20及视频解码器30可存储用于帧间预测后续块的IDV。然而,在一些实例中,视频编码器20及视频解码器30可舍弃除当前图片之外的图片的块的IDV。

在一些实例中,为了确定当前块的视差向量,视频编码器20及视频解码器30可实施以下步骤。如果在以下步骤中的任一者中,视频编码器20及视频解码器30确定视差向量,那么视频编码器20及视频解码器30可停止用于确定当前块的视差向量的步骤。

参考图4,视频编码器20及视频解码器30首先可按块605、603、602、606及604的次序评估五个空间相邻块以确定是否用视差运动向量对这些块中的任一者进行帧间预测。一旦视频编码器20及视频解码器30识别用视差运动向量进行帧间预测的块,就将视差运动向量转换成当前块的视差向量。如果空间相邻块含有IDV,那么视频编码器20及视频解码器30可将这些块的IDV旗标标记为“使用的IDV”,且可存储相关联值。

如果未发现视差运动向量,那么视频编码器20及视频解码器30可确定是否启用TMVP。在启用TMVP时,如果当前译码模式为AMVP,那么目标参考图片列表(旗标值collocated_from_l0_flag)中的具有如由视频编码器20用信号发出的目标参考索引(collocated_ref_idx)的参考图片被用作相同位置图片。视频编码器20及视频解码器30识别相同位置图片中的两个块(即,相同位置块的右下块(BR)及相同位置块的中心块(CB))。视频编码器20及视频解码器30按以下次序评估这些块。

视频编码器20及视频解码器30首先可评估BR块以确定是否用视差运动向量对BR块进行帧间预测。如果是,那么将视差运动向量转换成当前块的视差向量。否则,如果BR块经帧间预测为跳过模式,且含有IDV(即,IDV的旗标等于1),那么视频编码器20及视频解码器30将BR块标记为“使用的IDV”,且存储相关联的IDV。

如果对于BR块,IDV旗标不等于1(且在一些实例中,即使对于BR块,IDV旗标等于1),那么视频编码器20及视频解码器30可评估CB块以确定是否用视差运动向量对CB块进行帧间预测。如果是,那么视频编码器20及视频解码器30将视差运动向量转换成当前块的视差向量。否则,如果CB块经帧间预测为跳过模式,且含有IDV(即,IDV的旗标等于1),那么视频编码器20及视频解码器30将CB块标记为“使用的IDV”,且存储相关联的IDV。

如果当前译码模式为跳过/合并,那么视频编码器20及视频解码器30可利用每一参考图片列表中的两个相同位置参考图片(如果适用的话),其中将参考索引设定成等于左相邻块或零中的一者。对于RefPicList0及RefPicList1中的相同位置图片中的每一者,视频编码器20及视频解码器30可按次序执行上文步骤。

如果五个空间相邻块中的一者经帧间预测为跳过模式,且含有IDV(即,经标记为“使用的IDV”的旗标),那么视频编码器20及视频解码器30将IDV转换成当前块的视差向量。检查次序可为块606、605、602、603及接着604(图6)。如果启用TMVP,那么相同位置图片中可存在一个块。在此状况下,视频编码器20及视频解码器30可将BR或CB块标记为“使用的IDV”,且覆盖当前块的视差向量的相关联的IDV。

根据本发明中所描述的技术,视频编码器20及视频解码器30可实施用于应用NBDV产生过程的算法过程,其包含选择视频编码器20及视频解码器30存取及评估以确定是否用除包含候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测(例如,是否用视差运动向量对这些候选图片中的块进行帧间预测)的候选图片。举例来说,第一候选图片可为视频编码器20在切片标头中将其信息用信号发出到视频解码器30的图片。视频解码器30可包含候选图片的列表中的此第一候选图片的信息。

视频编码器20及视频解码器30可分别实施本发明中所描述的技术以识别第二候选图片。举例来说,视频编码器20及视频解码器30可识别随机存取点视图分量(RAPVC)图片及具有最低时间识别值的图片中的一者。在一些实例中,视频编码器20及视频解码器30首先可确定RAPVC图片是在DPB中可用,在参考图片列表中所识别的图片当中,在参考图片集(RPS)中所识别的图片当中还是在可用以帧间预测当前图片的RPS中所识别的图片当中。如果一个RAPVC图片可用,那么视频编码器20及视频解码器30可将RAPVC图片选择为第二候选图片(例如,包含候选图片的列表中的RAPVC图片)。在一些实例中,视频编码器20及视频解码器30可能偏好进行帧间预测的RAPVC图片。

如果一个以上RAPVC图片可用,那么视频编码器20及视频解码器30可基于显示或输出次序确定RAPVC图片到当前图片的相对距离,且将最接近于当前图片的RAPVC图片选择为第二候选图片。如果两个RAPVC图片到当前图片同样远,那么视频编码器20及视频解码器30可基于第一候选图片到当前图片的位置选择图片。

如果RAPVC图片不可用,那么视频编码器20及视频解码器30可从DPB、在参考图片列表中所识别的图片当中、在RPS中所识别的图片当中、在可用以帧间预测具有最低时间识别值的当前图片的RPS中所识别的图片当中或在参考图片列表中所识别的图片当中选择图片。如果仅存在具有最低时间识别值的一个图片,那么视频编码器20及视频解码器30可将所述图片选择为第二候选图片。如果存在具有最低时间识别值的一个以上图片,那么视频编码器20及视频解码器30可选择就显示或输出次序来说最接近于当前图片的具有最低时间识别值的图片。如果具有最低时间识别值的两个图片到当前图片的距离相等,那么视频编码器20及视频解码器30可基于第一候选图片相对当前图片的位置选择图片。

在视频编码器20及视频解码器30选择两个候选图片之后,视频编码器20及视频解码器30可评估选定的候选图片以确定是否用视差运动向量对候选图片中的块进行帧间预测。视差运动向量指代除包含选定的候选图片的视图之外的视图中的块。举例来说,视频编码器20及视频解码器30可以第一候选图片开始,且确定是否用视差运动向量对第一候选图片中的块进行帧间预测。如果用视差运动向量对第一候选图片中的块进行帧间预测,那么视频编码器20及视频解码器30可基于视差运动向量确定当前块的视差向量(例如,将视差运动向量转换成视差向量)。

如果从经评估的块当中,不存在用视差向量进行帧间预测的第一候选图片中的块,那么视频编码器20及视频解码器30可评估第二候选图片中的块。如果用视差运动向量对第二候选图片中的块进行帧间预测,那么视频编码器20及视频解码器30可基于视差运动向量确定当前块的视差向量(例如,将视差运动向量转换成视差向量)。在此实例中,视频编码器20及视频解码器30以第一候选图片开始,且接着在未发现视差运动向量的情况下继续进行到第二候选图片。

在一些实例中,视频编码器20及视频解码器30可以第二候选图片开始,且接着在未发现视差运动向量的情况下继续进行到第一候选图片。在一些实例中,视频编码器20及视频解码器30可以第一或第二候选图片中的一个块开始,且在不用视差运动向量对所述块进行帧间预测的情况下,可继续进行到第一或第二候选图片中的另一者中的块,而非在继续进行到下一图片之前评估候选图片中的一者中的所有块。

根据本发明中所描述的技术,视频编码器20及视频解码器30不一定要评估候选图片内的每一单个块。而是,视频编码器20及视频解码器30可评估候选图片内的块的预定模式以确定是否在块的预定模式内用视差运动向量对块进行帧间预测。在一些实例中,搜索模式可为从覆盖相同位置区的最大译码单元(LCU)(CLCU)中的所有块减小的任何模式,且使当前块(例如,当前PU或CU)的被称作CPU的区位于同一处。

举例来说,当前块可涵盖于LCU内或可为当前图片内的LCU。CLCU是指涵盖包含当前图片的LCU在当前图片中涵盖的候选图片中的相同区域的候选图片中的部分。换句话说,CLCU及LCU位于相应图片内的相同的相对位置中,其中CLCU是在候选图片中,且LCU是在当前图片中。

CPU类似于CLCU,但涵盖当前图片在当前图片中所涵盖的候选图片中的相同区。在一些实例中,CPU可为CLCU的部分,类似于当前块(例如,当前PU或CU)为当前图片中的LCU的部分。

在一些实例中,视频编码器20及视频解码器30可评估候选图片中的两个CLCU及CPU的四个角块以确定是否用视差运动向量对这些块中的任一者进行帧间预测。在一些实例中,视频编码器20及视频解码器30可评估候选图片中的CLCU及CPU的中心块以确定是否用视差运动向量对这些块中的任一者进行帧间预测。

在一些实例中,视频编码器20及视频解码器30可仅评估候选图片中的CLCU及CPU的左上及右下块(例如,-45度对角块)以确定是否用视差运动向量对这些块中的任一者进行帧间预测。在一些实例中,视频编码器20及视频解码器30可仅评估候选图片中的CLCU及CPU的右上及左下块(例如,45度对角块)以确定是否用视差运动向量对这些块中的任一者进行帧间预测。

在一些实例中,视频编码器20及视频解码器30可评估CLCU的45度对角块,且评估CPU的-45度对角块。在一些实例中,视频编码器20及视频解码器30可评估CLCU的-45度对角块,且评估CPU的45度对角块。在一些实例中,视频编码器20及视频解码器30可仅评估CLCU及CPU的右下块。

在一些实例中,如图9中所说明,视频编码器20及视频解码器30可评估图9中的右下中心块(位置A)及图9中的右下块(位置B)。右下中心块为其中右下中心块的左上角的坐标为包含右下中心块的区域的中心的块,且右下中心块的右下角从包含右下中心块的区域的中心向右及向下延伸。

图9是说明候选图片中的相同位置区的概念图。图9中说明的块可为CLCU或CPU。在一些实例中,视频编码器20及视频解码器30首先可评估右下中心块以确定是否用视差运动向量对右下中心块进行帧间预测。如果不用视差运动向量对右下中心块进行帧间预测,那么视频编码器20及视频解码器30接着可评估右下块以确定是否用视差运动向量对右下块进行帧间预测。在一些实例中,视频编码器20及视频解码器30首先可评估右下块,且接着在不用视差运动向量对右下块进行帧间预测的情况下评估右下中心块。

在一些实例中,视频编码器20及视频解码器30可仅评估CPU的右下中心块及右下块,而不评估CLCU。在这些实例中,可不需要对CLCU的进一步存取。

应理解,视频编码器20及视频解码器30评估的块的上文实例仅是出于说明的目的提供的,且不应被视为限制性的。举例来说,其中视频编码器20及视频解码器30评估候选图片中的块的次序可为例如当前视图的view_id、译码模式或其它此些条件等各种条件的函数。此外,视频编码器20及视频解码器30可实施上文实例技术的任何组合或排列。在一些实例中,视频编码器20及视频解码器30可实施实例技术的子集(例如,评估CPU的四个角块,但不评估CLCU,或者反过来,作为一个实例)。

此外,如上文所描述,视频编码器20及视频解码器30首先可识别候选图片,且接着评估候选图片内的块以确定是否用可经转换成当前块的视差向量的视差运动向量对候选图片中的块进行帧间预测。在一些实例中,视频编码器20及视频解码器30首先可识别将评估的块,且接着确定将评估的块是否为满足第一及第二候选图片的准则的图片内的块。

以此方式,本发明中所描述的技术可被认为是简化了确定用于NBDV产生过程的TDV的过程。举例来说,可存在视频编码器20及视频解码器30需要识别的与一些其它技术相比较较少的候选图片。而且,视频编码器20及视频解码器30可需要评估选定的候选图片中的块的子集以确定是否用视差运动向量对这些块中的任一者进行帧间预测。

在一些实例中,通过实施本发明中所描述的技术,可不需要视频编码器20及视频解码器30考虑用于应用NBDV产生过程的IDV,且因此不需要存储及存取IDV。然而,即使识别及存储IDV,本发明中所描述的技术仍可为适用的。在其中识别及存储IDV的一些实例中,本发明中所描述的技术可将需要存储的IDV限制为仅针对当前图片的IDV或针对与当前图片相同的存取单元中的图片。在此状况下,IDV可能不需要存储于DPB中的图片或视图分量中的任一者中。然而,对于空间相邻块,可存储IDV。

在一些状况下,如果不使用IDV,那么可需要检查更多TDV。在本发明中所描述的技术中,为了限制需要检查的TDV的数目,视频编码器20及视频解码器30可存取及评估至多两个候选图片(即,存取及评估的候选图片的数目限于二)。此外,上文技术描述其中视频编码器20及视频解码器30选择第一及第二候选图片的方式。在一些实例中,视频编码器20及视频解码器30可选择不同于第一候选图片的第二候选图片以使得存取及评估不同图片。

图10是说明可实施本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内译码(即,帧内预测编码)及帧间译码(即,帧间预测编码)。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。对于多视图视频译码,帧间译码还依赖于跨越不同视图的预测以减少或去除同时显示的视频序列的帧或图片内的视频中的冗余。帧内模式(I模式)可以指若干基于空间压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可以指代若干基于时间或视图的压缩模式中的任一者。

在图10的实例中,视频编码器20包含分割单元35、预测处理单元41、参考图片存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。预测处理单元41包含运动及视差估计单元42、运动及视差补偿单元44及帧内预测处理单元46。参考图片存储器64为视频编码器20的经解码的图片缓冲器(DPB)的一个实例。

为了视频块重建,视频编码器20还包含反量化单元58、反变换处理单元60及求和器62。还可包含解块滤波器(图10中未图示)以将块边界滤波,以从经重建视频去除成块性假影。必要时,解块滤波器通常将对求和器62的输出进行滤波。除解块滤波器之外,还可使用额外环路滤波器(环路内或环路后)。

如图10中所示,视频编码器20接收视频数据,且分割单元35将所述数据分割成视频块。此分割还可包含分割成切片、平铺块或其它较大单元,以及例如根据LCU及CU的四叉树结构的视频块分割。视频编码器20大体说明编码待编码视频切片内的视频块的组件。所述切片可以分成多个视频块(并且可能分成被称作平铺块的视频块集合)。预测处理单元41可基于错误结果(例如,译码速率及失真等级)针对当前视频块选择多种可能译码模式中的一者,例如多种帧内译码模式中的一者或多种帧间译码模式中的一者。预测处理单元41可将所得的经帧内译码或经帧间译码块提供到求和器50以产生残余块数据,且提供到求和器62以重建经编码块以用作参考图片。

预测处理单元41内的帧内预测处理单元46可相对于与待译码的当前块在相同帧或切片中的一或多个相邻块执行当前视频块的帧内预测性译码,以提供空间压缩。预测处理单元41内的运动及视差估计单元42及运动及视差补偿单元44执行相对于一或多个参考图片及/或参考视图中的一或多个预测性块的当前视频块的帧间预测性译码及/或视图间译码以提供时间或视图压缩。

运动及视差估计单元42可经配置以根据视频序列的预定模式确定视频切片的帧间预测模式及/或视图间预测模式。预定模式可将序列中的视频切片标明为P切片或B切片。运动及视差估计单元42及运动及视差补偿单元44可高度集成,但出于概念目的单独地说明。由运动及视差估计单元42执行的运动及视差估计为产生运动向量的过程,所述运动向量估计视频块的运动。举例来说,运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的移位。由运动及视差估计单元42执行的视差估计为产生视差运动向量的过程,所述视差运动向量可用以从不同视图中的块预测当前经译码块。

预测性块是被发现在像素差方面与待译码视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可以内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动及视差估计单元42可执行相对于全像素位置及分数像素位置的运动搜索,且输出具有分数像素精度的运动向量。

运动及视差估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算经帧间译码或经视图间预测切片中的视频块的PU的运动向量(用于运动补偿预测)及/或视差运动向量(用于视差补偿预测)。参考图片可以选自第一参考图片列表(RefPicList0)或第二参考图片列表(RefPicList1),其中的每一者识别存储在参考图片存储器64中的一或多个参考图片。运动及视差估计单元42将所计算的运动向量及/或视差向量发送到熵编码单元56及运动补偿单元44。

由运动及视差补偿单元44执行的运动补偿及/或视差补偿可涉及基于由运动估计及/或视差估计确定的运动向量提取或产生预测性块,可能执行对子像素精度的内插。在接收到当前视频块的PU的运动向量及/或视差后,运动及视差补偿单元44可即刻定位参考图片列表中的一者中的运动向量及/或视差向量所指向的预测性块。视频编码器20通过从经译码的当前视频块的像素值减去预测性块的像素值而形成残余视频块,从而形成像素差值。像素差值形成块的残余数据,且可包含明度及色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动及视差补偿单元44还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在对视频切片的视频块进行解码时使用。

在一些实例中,预测处理单元41可经配置以产生当前图片的参考图片集(RPS)或参考图片列表。如上文所描述,RPS包含可用以帧间预测当前图片及按解码次序在当前图片之后的图片的图片。而且,在RPS中的图片当中,一些图片可用以仅帧间预测按解码次序在当前图片之后的图片,且其它图片可用以帧间预测当前图片及按解码次序在当前图片之后的图片。

如上文所描述,可利用本发明中所描述的技术作为基于根据本发明中所描述的技术确定的视差向量的视图间运动预测及视图间残余预测的部分。在一些实例中,预测处理单元41可经配置以实施本发明中所描述的视图间运动预测及视图间残余预测技术。举例来说,预测处理单元41可建构用于AMVP及合并模式的候选运动向量预测子的列表。

对于一些块,预测处理单元41可选择帧内预测模式而非帧间预测模式。作为由运动及视差估计单元42及运动及视差补偿单元44执行的帧间预测(如上文所描述)的替代方案,帧内预测处理单元46可帧内预测当前块。确切地说,帧内预测处理单元46可以确定用以编码当前块的帧内预测模式。在一些实例中,帧内预测处理单元46可(例如)在单独编码遍次期间使用各种帧内预测模式编码当前块,且帧内预测处理单元46可从经测试模式中选择适当帧内预测模式来使用。举例来说,帧内预测单元46可以使用速率失真分析计算用于各种经测试帧内预测模式的速率失真值,并且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析总体上确定经编码块与经编码以产生所述经编码块的原始未编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元46可以根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。

在任何状况下,在选择用于块的帧内预测模式之后,帧内预测处理单元46可将指示块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可以根据本发明的技术对指示所述选定帧内预测模式的信息进行编码。视频编码器20在发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称为码字映射表),对用于各种块的上下文进行编码的定义,及对最可能帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。

在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后,视频编码器20通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中且由变换处理单元52应用。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似的变换等变换将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域,例如频域。

变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对残余变换系数进行量化以进一步降低位速率。量化过程可减少与系数中的一些系数或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可以接着执行对包含经量化的变换系数的矩阵的扫描。或者,熵编码单元56可以执行所述扫描。

在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在熵编码单元56进行的熵编码之后,可将经编码位流发射到视频解码器30,或将经编码位流存档以供稍后发射或由视频解码器30检索。熵编码单元56还可对正被编码的当前视频切片的运动向量及其它语法元素进行熵编码。

反量化单元58和反变换处理单元60分别应用反量化和反变换以在像素域中重建残余块,例如以供稍后用作参考图片的参考块。运动补偿单元44可以通过将残余块添加到参考图片列表中的一者内的参考图片中的一者的预测性块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建的残余块以计算子整数像素值用于运动估计。求和器62将经重建的残余块添加到由运动补偿单元44产生的运动补偿预测块以产生参考块用于存储在参考图片存储器64中。参考块可由运动及视差估计单元42及运动及视差补偿单元44用作参考块以帧间预测后续视频帧或图片中的块。

以此方式,视频编码器20表示对包含多视图视频数据(其包含多个视图)的位流进行编码的视频编码器的实例。举例来说,视频编码器20可出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程。NBDV产生过程可依赖于用于导出相对于多视图视频数据的另一视图的当前图片的当前块的视差向量的相邻块的运动向量。

视频编码器20可建构候选图片的列表。列表中的第一候选图片可为视频编码器20在当前图片的切片的切片标头中用信号发出其信息的图片,视频解码器30可使用所述信息来识别第一候选图片。列表中的第二候选图片可为视频编码器20利用本发明中所描述的技术进行选择的图片。

举例来说,为了应用NBDV产生过程,视频编码器20可选择候选图片来确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测。候选图片可来自一或多个随机存取点视图分量(RAPVC)图片及具有最低时间识别值的一或多个图片中的一者。此候选图片可为两个候选图片中的一者,其中视频编码器20产生以用于在切片标头中输出(例如,用信号发出)指示另一候选图片(例如,作为AMVP或合并/跳过模式的部分用于TMVP的相同位置图片)的信息。这两个候选图片可为候选图片的列表中的图片,且可彼此不同。举例来说,候选图片的数目可限于不超过两个候选图片,所述两个候选图片包含第一候选图片及第二候选图片。

在一些实例中,视频编码器20可从经解码的图片缓冲器(DPB)、参考图片集(RPS)、可用以帧间预测当前图片的RPS当中的图片及当前图片的参考图片列表(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中、在包含第一候选图片的相同参考图片列表中或在两个参考图片列表中)中的至少一者中所识别的一或多个RAPVC图片中的一者选择候选图片。在一些实例中,视频编码器20可从在DPB、RPS、可用以帧间预测当前图片的RPS当中的图片及当前图片的参考图片列表(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中、在包含第一候选图片的相同参考图片列表中或在两个参考图片列表中)中的至少一者中所识别的具有最低时间识别值的一或多个图片中的一者选择候选图片。

视频编码器20可确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测。作为NBDV产生的部分,在用视差运动向量对选定候选图片中的视频块进行帧间预测的情况下,视频编码器20可基于视差运动向量确定当前图片的当前块的视差向量。

视频编码器20可基于所确定的视差向量对当前块进行帧间预测编码。举例来说,视频编码器20可将当前块帧间预测编码为视图间运动预测的部分或视图间残余预测的部分。

在一些实例中,为了选择候选图片,视频编码器20可确定一或多个RAPVC图片是否可用(例如,在第一或第二参考图片列表中可用)。如果一或多个RAPVC图片可用,那么视频编码器20可从一或多个RAPVC图片选择候选图片。如果一或多个RAPVC图片不可用,那么视频编码器20可从第一或第二参考图片列表中的具有最低时间识别值的一或多个图片选择候选图片。

如果仅存在一个RAPVC图片或仅存在具有最低时间识别值的一个图片,那么视频编码器20可将所述RAPVC图片或具有最低时间识别值的所述图片选择为候选图片。如果存在多个RAPVC图片或具有最低时间识别值的多个图片,那么视频编码器20可将来自多个RAPVC图片的RAPVC图片或来自具有最低时间识别值的多个图片的具有最低时间识别值的图片选择为候选图片,基于显示或输出次序,所述候选图片到当前图片的距离最近。

如果存在距当前图片同样远的两个RAPVC图片或具有最低时间识别值的两个图片,那么视频编码器20可基于另一候选图片相对于当前图片的位置选择来自两个RAPVC图片的RAPVC图片或选择来自具有最低时间识别值的两个图片的具有最低时间识别值的图片。举例来说,如果另一按显示或输出次序在当前图片之后,那么视频编码器20可将按显示或输出次序在当前图片之前(或者,按显示或输出次序在当前图片之后)的RAPVC图片或具有最低时间识别值的图片选择为候选图片。如果另一候选图片按显示或输出次序在当前图片之前,那么视频编码器20可将按显示或输出次序在当前图片之后的RAPVC图片或具有最低时间识别值的图片选择为候选图片(或者,按显示或输出次序在当前图片之前)。

在一些实例中,视频编码器20可不依赖于时间识别值来选择第二候选图片,且可替代地从参考图片列表(例如,第一或第二参考图片列表)选择基于POC值最接近于当前图片的图片。如果两个图片同样接近,那么视频编码器20可将在当前图片左边的图片选择为候选图片。或者,视频编码器20可将在当前图片右边的图片选择为候选图片。

图11是说明可实施本发明中所描述的技术的实例视频解码器30的框图。在图11的实例中,视频解码器30包含熵解码单元80、预测处理单元81、反量化单元86、反变换处理单元88、求和器90及参考图片存储器92。参考图片存储器92为视频编码器30的经解码的图片缓冲器(DPB)的一个实例。

预测处理单元81包含运动补偿单元82及帧内预测处理单元84。在一些实例中,视频解码器30可执行通常与相对于来自图10的视频编码器20描述的编码遍次互逆的解码遍次。

在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量和其它语法元素转发到预测处理单元81。视频解码器30可以接收视频切片层级及/或视频块层级处的语法元素。

当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测处理单元84可基于用信号发出的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。在视频帧经译码为经帧间译码(即,B或P)切片或经视图间预测切片时,预测处理单元81的运动及视差补偿单元82基于时间运动向量、视差运动向量及从熵解码单元80接收的其它语法元素产生当前视频切片的视频块的预测性块。预测性块可以从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可以基于存储在参考图片存储器92中的参考图片使用默认建构技术建构参考帧列表,即RefPicList0及RefPicList1。

运动及视差补偿单元82通过剖析运动向量和其它语法元素而确定当前视频切片的视频块的预测信息,且使用所述预测信息来产生正被解码的当前视频块的预测性块。举例来说,运动及视差补偿单元82使用所接收的语法元素中的一些来确定用以对以下各者进行译码的预测模式(例如,帧内或帧间预测):视频切片的视频块、帧间预测或视图间预测切片类型(例如,B切片或P切片)、用于切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码视频块的运动向量及/或视差向量、切片的每一经帧间译码视频块的帧间预测状态及用以对当前视频切片中的视频块进行解码的其它信息。

在一些实例中,运动及视差补偿单元82可使用运动向量预测过程确定指示运动向量的用信号发出的语法元素。运动向量预测过程可包含AMVP模式及合并模式。运动及视差补偿单元82还可执行基于内插滤波器的内插。运动补偿单元82可使用由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此状况下,运动补偿单元82可从所接收的语法元素确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。

反量化单元86将在位流中提供且由熵解码单元80解码的经量化变换系数反量化,即,解量化。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块计算的量化参数以确定应应用的量化程度及同样确定应应用的反量化程度。反变换处理单元88将反变换应用于变换系数,例如反DCT、反整数变换或概念上类似的反变换过程,以便产生像素域中的残余块。

在运动及视差补偿单元82基于运动向量及其它语法元素产生当前视频块的预测性块之后,视频解码器30通过将来自反变换处理单元88的残余块与由运动及视差补偿单元82产生的对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。必要时,还可应用解块滤波器以对经解码块进行滤波以便去除成块性假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变平滑或者以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存储器92还存储经解码视频以供稍后呈现在显示装置(例如,图1的显示装置32)上。

以此方式,视频解码器30表示经配置以实施本发明中所描述的实例技术的用于多视图译码的视频解码器的实例。举例来说,视频解码器30可对包含多视图视频数据(其包含多个视图)的位流进行解码。

视频解码器30可建构候选图片的列表。列表中的第一候选图片可为视频编码器20在当前图片的切片的切片标头中用信号发出其信息的图片,视频解码器30可使用所述信息来确定第一候选图片。列表中的第二候选图片可为视频解码器30利用本发明中所描述的技术选择的图片。

举例来说,为了应用NBDV产生过程,视频解码器30可选择候选图片来确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测。候选图片可来自一或多个随机存取点视图分量(RAPVC)图片及具有最低时间识别值的一或多个图片中的一者。此候选图片可为两个候选图片中的一者,其中视频解码器30在切片标头中接收指示另一候选图片(例如,作为AMVP或合并/跳过模式的部分用于TMVP的相同位置图片)的信息。这两个候选图片可为候选图片的列表中的图片,且可彼此不同。举例来说,候选图片的数目可限于不超过两个候选图片,所述两个候选图片包含第一候选图片及第二候选图片。

在一些实例中,视频解码器30可从经解码的图片缓冲器(DPB)、参考图片集(RPS)、可用以帧间预测当前图片的RPS当中的图片及当前图片的参考图片列表(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中、在包含第一候选图片的相同参考图片列表中或在两个参考图片列表中)中的至少一者中所识别的一或多个RAPVC图片中的一者选择候选图片。在一些实例中,视频解码器30可从在DPB、RPS、可用以帧间预测当前图片的RPS当中的图片及当前图片的参考图片列表(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中、在包含第一候选图片的相同参考图片列表中或在两个参考图片列表中)中的至少一者中所识别的具有最低时间识别值的一或多个图片中的一者选择候选图片。

视频解码器30可确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测。作为NBDV产生的部分,在用视差运动向量对选定候选图片中的视频块进行帧间预测的情况下,视频解码器30可基于视差运动向量确定当前图片的当前块的视差向量。

视频解码器30可基于所确定的视差向量对当前块进行帧间预测解码。举例来说,作为视图间运动预测的部分或视图间残余预测的部分,视频解码器30可对当前块进行帧间预测解码。

在一些实例中,为了选择候选图片,视频解码器30可确定一或多个RAPVC图片是否可用(例如,在第一或第二参考图片列表中可用)。如果一或多个RAPVC图片可用,那么视频解码器30可从一或多个RAPVC图片选择候选图片。如果一或多个RAPVC图片不可用,那么视频解码器30可从第一或第二参考图片列表中的具有最低时间识别值的一或多个图片选择候选图片。

如果仅存在一个RAPVC图片或仅存在具有最低时间识别值的一个图片,那么视频解码器30可将所述RAPVC图片或具有最低时间识别值的所述图片选择为候选图片。如果存在多个RAPVC图片或具有最低时间识别值的多个图片,那么视频解码器30可将来自多个RAPVC图片的RAPVC图片或来自具有最低时间识别值的多个图片的具有最低时间识别值的图片选择为候选图片,基于显示或输出次序,所述候选图片到当前图片的距离最近。

如果存在距当前图片同样远的两个RAPVC图片或具有最低时间识别值的两个图片,那么视频解码器30可基于另一候选图片相对于当前图片的位置选择来自两个RAPVC图片的RAPVC图片或选择来自具有最低时间识别值的两个图片的具有最低时间识别值的图片。举例来说,如果另一候选图片按显示或输出次序在当前图片之后,那么视频解码器30可将按显示或输出次序在当前图片之前(或之后)的RAPVC图片或具有最低时间识别值的图片选择为候选图片。如果另一候选图片按显示或输出次序在当前图片之前,那么视频解码器30可将按显示或输出次序在当前图片之后(或之前)的RAPVC图片或具有最低时间识别值的图片选择为候选图片。

在一些实例中,视频解码器30可不依赖于时间识别值来选择第二候选图片,且可替代地从参考图片列表(例如,第一或第二参考图片列表)选择基于POC值最接近于当前图片的图片。如果两个图片同样接近,那么视频解码器30可将在当前图片左边的图片选择为候选图片。或者,视频解码器30可将在当前图片右边的图片选择为候选图片。

图12是说明根据本发明中所描述的一或多个实例技术的实例操作的流程图。关于图12描述的技术可由视频编码器20和/或视频解码器30实施。为易于描述,术语视频译码器通常用以指代视频编码器20及视频解码器30。举例来说,视频译码器可经配置以应用用于多视图视频的基于相邻块的视差向量(NBDV)产生过程。在这些实例中,术语译码或正译码可在由视频编码器20执行时指代编码或正编码,或可在由视频解码器30执行时指代解码或正解码。

视频译码器可确定一或多个RAPVC图片是否可用(100)。举例来说,视频译码器可确定RAPVC图片是在DPB中可用、在RPS中、在可用以帧间预测当前图片的RPS中的图片当中还是在参考图片列表(RefPicList0及/或RefPicList1)中的图片当中(例如,在除包含第一候选图片的参考图片列表之外的参考图片列表中,在包含第一候选图片的相同参考图片列表中或在两个参考图片列表中)。

如果一或多个RAPVC图片可用(100的是),那么视频译码器可确定是否存在可用的多个RAPVC图片(102)。如果仅一个RAPVC图片可用(102的否),那么视频译码器可将所述RAPVC选择为候选图片。如果存在可用的多个RAPVC图片(102的是),那么视频译码器可确定是否存在距当前图片同样远的两个RAPVC图片(106)。如果不存在距当前图片同样远的两个RAPVC图片(106的否),那么视频译码器可将最接近于当前图片的RAPVC图片选择为候选图片(108)。如果存在距当前图片同样远的两个RAPVC图片(106的是),那么视频译码器可基于另一候选图片(例如,作为AMVP或合并/跳过模式的部分用于TMVP的相同位置图片)到当前图片的位置将RAPVC图片选择为候选图片(110)。

如果一或多个RAPVC图片不可用(100的否),那么视频译码器可确定是否存在具有最低时间识别值的多个图片(例如,在第一或第二参考图片列表中)(112)。如果仅存在具有最低时间识别值的一个图片(112的否),那么视频译码器可将具有最低时间识别值的所述图片选择为候选图片。如果存在具有最低时间识别值的多个图片(112的是),那么视频译码器可确定是否存在距当前图片同样远的具有最低时间识别值的两个图片(116)。如果不存在距当前图片同样远的具有最低时间识别值的两个图片(116的否),那么视频译码器可将最接近于当前图片的具有最低时间识别值的图片选择为候选图片(118)。如果存在距当前图片同样远的具有最低时间识别值的两个图片(116的是),那么视频译码器可基于另一候选图片(例如,作为AMVP或合并/跳过模式的部分用于TMVP的相同位置图片)到当前图片的位置将具有最低时间识别值的图片选择为候选图片(120)。

在一些实例中,视频译码器可不依赖于时间识别值来选择第二候选图片,且可替代地从参考图片列表选择基于POC值最接近于当前图片的图片。如果两个图片同样接近,那么视频译码器可将在当前图片左边的图片选择为候选图片。或者,视频译码器可将在当前图片右边的图片选择为候选图片。

一旦视频译码器选择候选图片,视频译码器便可确定是否用视差运动向量对选定候选图片中的块进行帧间预测。作为NBDV产生的部分,在用视差运动向量对选定候选图片中的块进行帧间预测的情况下,视频译码器可基于视差运动向量确定当前块的视差向量。

视频译码器可基于所确定的视差向量对当前块进行帧间预测译码。在其中视频译码器为视频编码器20的实例中,视频编码器20可基于所确定的视差向量对当前块进行帧间预测编码。在其中视频译码器为视频解码器30的实例中,视频解码器30可基于所确定的视差向量对当前块进行帧间预测解码。

图13是说明根据本发明中所描述的一或多个实例技术的视频编码器的实例操作的流程图。出于说明的目的,所述技术是关于视频编码器20进行描述的。举例来说,图13说明用于对包含多视图视频数据(其包含多个视图)的位流进行编码的实例。在这些实例中,视频编码器20可出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程。NBDV产生过程依赖于用于导出相对于多视图视频数据的另一视图的当前图片的当前块的视差向量的相邻块的运动向量。

为了应用NBDV产生过程,视频编码器20可选择候选图片以确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测。候选图片是来自一或多个RAPVC图片或具有最低时间识别值的一或多个图片中的一者(122)。举例来说,视频编码器20可实施图12中说明的实例技术以选择候选图片。

视频编码器20可确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测(124)。视差运动向量指代除包含多视图视频数据的选定候选图片的视图之外的视图中的块。作为NBDV产生的部分,在用视差运动向量对多视图视频数据的选定候选图片中的视频块进行帧间预测的情况下,视频编码器20可基于视差运动向量确定当前图片的当前块的视差向量(126)。视频编码器20可基于所确定的视差向量对当前块进行帧间预测编码(128)。

图14是说明根据本发明中所描述的一或多个实例技术的视频解码器的实例操作的流程图。出于说明的目的,所述技术是相对于视频解码器30进行描述的。举例来说,图14说明用于对包含多视图视频数据(其包含多个视图)的位流进行解码的实例。在这些实例中,视频解码器30可出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程。NBDV产生过程依赖于用于导出相对于多视图视频数据的另一视图的当前图片的当前块的视差向量的相邻块的运动向量。

为了应用NBDV产生过程,视频解码器30可选择候选图片以确定是否用除包含多视图视频数据的候选图片的视图之外的视图中的块对候选图片中的块进行视图间预测。候选图片是来自一或多个RAPVC图片或具有最低时间识别值的一或多个图片中的一者(130)。举例来说,视频解码器30可实施图12中说明的实例技术以选择候选图片。

视频解码器30可确定是否用视差运动向量对选定候选图片中的视频块进行帧间预测(132)。视差运动向量指代除包含多视图视频数据的选定候选图片的视图之外的视图中的块。作为NBDV产生的部分,在用视差运动向量对多视图视频数据的选定候选图片中的视频块进行帧间预测的情况下,视频解码器30可基于视差运动向量确定当前图片的当前块的视差向量(134)。视频解码器30可基于所确定的视差向量对当前块进行帧间预测解码(136)。

在一些实例中,所述技术可用于对第一视图中的当前图片进行译码,其取决于包含来自多视图视图的经译码的图片的位流的参考视图的集合中的至少一者。在此实例中,由视频编码器20或视频解码器30执行的技术可出于导出当前图片的当前块的视差向量的目的而应用基于相邻块的视差向量(NBDV)产生过程,其中NBDV产生过程依赖于用于导出相对于参考视图的集合中的至少一者的当前图片的当前块的视差向量的两个空间相邻块及时间相邻块的运动向量。NBDV产生过程进一步包括确定包含时间相邻块的一或多个候选图片,其中从图片群组选择至少第一候选图片以基于图片群组的图片中的每一者的性质确定候选图片中的时间相邻块是否含有视差运动向量,所述视差运动向量指代属于参考视图的集合中的一者的视图间参考图片,其中所述性质进一步由以下各者中的至少一者组成:图片是否为随机存取图片、图片的时间层级及图片的显示次序。

所述技术还可包含确定相邻块是否含有指代属于参考视图的集合中的一者的视图间参考图片的视差运动向量,及作为NBDV产生的部分,在至少一个相邻块含有视差运动向量的情况下基于视差运动向量确定当前图片的当前块的视差向量。在一些实例中,如果将为随机存取图片的图片选择为第一候选图片,及如果图片不为随机存取图片,那么将具有最低时间层级的图片选择为第一候选图片。在一些实例中,如果两个图片皆为随机存取图片或具有最低时间层级值,且被认为经选择为第一候选图片,那么选择具有到当前图片的较小图片次序计数距离的图片。

在一些实例中,图片群组可为DPB中的相同视图的图片或当前图片的参考图片子集的并集中的图片或当前图片的参考图片列表中的图片。在一些实例中,在第一视图中,时间相邻块仅隔至多两个候选图片,且所述两个图片包含第一候选图片。第二候选图片包括用于确定时间运动向量预测子(TMVP)作为高级运动向量预测(AMVP)模式或合并/跳过模式的部分的相同位置图片。

在一些实例中,由视频编码器20及视频解码器30实施的技术包含确定是否用视差运动向量对候选图片中的一者中的至少一个块进行帧间预测,且如果候选图片中的一者中的块中无一者不是用视差运动向量进行帧间预测的,那么确定是否用视差运动向量对候选图片中的另一图片的至少一个块进行帧间预测。

在一些实例中,确定视差向量可包含检查来自空间相邻块的隐式视差向量,而不检查来自时间相邻块的隐式视差向量。在一些实例中,不需要将隐式视差向量与任何图片一起存储于DPB中。

下文揭示内容描述其中用以实施本发明中所描述的实例技术的一些实例方式。下文打算辅助理解,且不应被视为限制性的。

如上文所描述,视频编码器20及视频解码器30可评估选定的候选图片中的块以确定是否用视差运动向量对这些块中的任一者进行帧间预测。以下伪码提供其中用以评估选定的候选图片中的块的一个实例方式。

表示为5BlockCPU的CPU的四个角及中心索引。

表示为5BlockCLCU的CLCU的四个角及中心索引。

以下伪码是针对图9中说明的实例。在一些实例中,检查次序可随译码条件(例如,视图ID)而变化。而且,在此实例中,视频编码器20及视频解码器30可仅评估CPU内的块。

下文描述用于当前视图分量的IDV的实例实施方案。如果五个空间相邻块(图6)的块含有隐式视差向量,且其经译码为跳过模式,那么视频编码器20及视频解码器30可返回隐式视差向量作为当前块的最终视差向量。

这五个位置的块(图6)表示为5BlocksIDV,且idmv_flag[i]标明了每一块位置的IDV的存在。如果位置含有IDV,那么用信号发出为真的旗标。否则,旗标为假。

以下伪码适用于搜索视差向量,这是与图6中的SDV过程一起联合进行的。次序可与图6的次序相同或不同。

在一些实例中,检查五个隐式视差向量可与上文相同。然而,刚好在检查空间相邻块中的视差运动向量及在检查图片的候选者列表中的视差运动向量之前调用五个隐式视差向量的检查。或者,可在全部检查空间相邻块及在图片的候选者列表中所识别的候选图片中的块中的视差运动向量之后调用空间相邻块中的五个IDV的检查。

在一些实例中,所述技术可类似于上文实例,然而,视频编码器20及视频解码器30可与空间相邻块中的视差运动向量的检查一起联合地检查空间相邻块中的隐式视差向量。

这五个位置的块表示为5SpatialBlocks,且idmv_flag[i]标明了每一块位置的IDV的存在。如果位置含有IDV,那么用信号发出为真的旗标。否则,旗标为假。

以下伪码适用于搜索视差向量,这是与图6中的SDV过程一起联合进行的。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果用软件来实施,那么所述功能可以作为一或多个指令或代码存储在计算机可读媒体上或在计算机可读媒体上予以发射,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包含促进将计算机程序从一处传送到另一处的任何媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体通常可以对应于(1)有形计算机可读存储媒体,其是非暂时的,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或任何其它可用来存储呈指令或数据结构的形式的所要程序代码并且可由计算机存取的媒体。同样,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射指令,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式复制数据,而光盘使用激光以光学方式复制数据。上述各者的组合也应包含在计算机可读媒体的范围内。

可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所述的功能性可以在经配置用于编码及解码的专用硬件及/或软件模块内提供,或者并入在组合式编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中,所述装置或设备包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。

已描述了各种实例。这些及其它实例在所附权利要求书的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1