视频译码中的运动向量预测的制作方法

文档序号:7989640阅读:194来源:国知局
视频译码中的运动向量预测的制作方法
【专利摘要】本发明的方面涉及一种译码视频数据的方法。在一实例中,所述方法包括从第一视图识别第一时间位置中的视频数据的第一块,其中视频数据的所述第一块与第一时间运动向量相关联。所述方法还包括在与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块是来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符。所述方法还包括使用所述运动向量预测符译码所述第二块的预测数据。
【专利说明】视频译码中的运动向量预测
[0001]本发明主张2011年4月20申请的美国临时申请案第61/477,561号和2011年7月28日申请的美国临时申请案第61/512,765号的优先权,所述两个申请案的全部内容以引用的方式并入本文中。
【技术领域】
[0002]本发明涉及视频译码。
【背景技术】
[0003]数字视频能力可并入到广泛范围的装置中,所述装置包括数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板型计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电传会议装置、视频串流装置,和其类似者。数字视频装置实施视频压缩技术,例如以下各者中描述的那些技术:由MPEG-2、MPEG-4、ITU-TH.263、ITU-T H.264/MPEG-4第10部分(高级视频译码(AVC))定义的标准、目前在开发中的高效率视频译码(HEVC)标准,和这些标准的扩展。视频装置可通过实施这些视频压缩技术而较有效率地发射、接收、编码、解码和/或存储数字视频信息。
[0004]视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测,以减少或移除视频序列中所固有的冗余。对于基于块的视频译码,可将一视频切片(即,图片或图片的一部分)分割成多个视频块,其还可被称作树型块、译码单元(CU)和/或译码节点。可使用相对于同一图片中的相邻块中的参考样本的空间预测来编码图片的帧内译码(I)切片中的视频块。图片的帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。
[0005]空间或时间预测产生待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成预测性块的参考样本的块的运动向量和指示经译码块与预测性块之间的差的残余数据来编码帧间译码块。根据帧内译码模式和残余数据来编码帧内译码块。为进行进一步压缩,可将残余数据从像素域变换到变换域,从而产生接着可量化的残余变换系数。可扫描最初布置成二维阵列的经量化的变换系数以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多压缩。

【发明内容】

[0006]一般而言,本发明描述用于译码视频数据的技术。本发明描述用于在多视图视频译码(MVC)中进行帧间模式译码(即,相对于其它图片的块译码当前块)时执行运动向量预测、运动估计和运动补偿的技术。一般而言,MVC为用于囊封多个视图的视频数据的视频译码标准。每一视图可对应于常见场景的对应视频数据被俘获所处的不同观点或角度。本发明的技术一般包括在多视图视频译码的上下文中预测运动预测数据。即,例如,根据本发明的技术,来自处于与当前正经译码的块相同或不同的视图中的块的视差运动向量可用以预测当前块的运动向量。在另一实例中,根据本发明的技术,来自处于与当前正经译码的块相同或不同的视图中的块的时间运动向量可用以预测当前块的运动向量。
[0007]在一实例中,本发明的方面涉及一种译码视频数据的方法,所述方法包含:从第一视图识别第一时间位置中的视频数据的第一块,其中所述第一块与第一视差运动向量相关联;确定与视频数据的第二块相关联的第二运动向量的运动向量预测符,其中所述运动向量预测符是基于所述第一视差运动向量;其中当所述第二运动向量包含视差运动向量时,确定所述运动向量预测符包含缩放所述第一视差运动向量以产生缩放的运动向量预测符,其中缩放所述第一视差运动向量包含将缩放因数应用于所述第一视差运动向量,所述缩放因数包含所述第二视差运动向量的视距除以所述第一运动向量的视距;以及使用所述缩放的运动向量预测符译码所述第二块的预测数据。
[0008]在另一实例中,本发明的方面涉及一种用于译码视频数据的设备,所述设备包含一个或一个以上处理器,所述一个或一个以上处理器经配置以执行以下操作:从第一视图识别第一时间位置中的视频数据的第一块,其中所述第一块与第一视差运动向量相关联;确定与视频数据的第二块相关联的第二运动向量的运动向量预测符,其中所述运动向量预测符是基于所述第一视差运动向量;其中当所述第二运动向量包含视差运动向量时,所述一个或一个以上处理器经配置以通过缩放所述第一视差运动向量以产生缩放的运动向量预测符而确定所述运动向量预测符,其中缩放所述第一视差运动向量包含将缩放因数应用于所述第一视差运动向量,所述缩放因数包含所述第二视差运动向量的视距除以所述第一运动向量的视距;以及基于所述缩放的运动向量预测符译码所述第二块的预测数据。
[0009]在另一实例中,本发明的方面涉及一种用于译码视频数据的设备,所述设备包含:用于从第一视图识别第一时间位置中的视频数据的第一块的装置,其中所述第一块与第一视差运动向量相关联;用于确定与视频数据的第二块相关联的第二运动向量的运动向量预测符的装置,其中所述运动向量预测符是基于所述第一视差运动向量;其中当所述第二运动向量包含视差运动向量时,用于确定所述运动向量预测符的所述装置经配置以通过缩放所述第一视差运动向量以产生缩放的运动向量预测符而确定所述运动向量预测符,其中缩放所述第一视差运动向量包含将缩放因数应用于所述第一视差运动向量,所述缩放因数包含所述第二视差运动向量的视距除以所述第一运动向量的视距;以及用于基于所述缩放的运动向量预测符译码所述第二块的预测数据的装置。
[0010]在另一实例中,本发明的方面涉及一种存储有指令的计算机可读存储媒体,所述指令在执行时致使一个或一个以上处理器执行以下操作:从第一视图识别第一时间位置中的视频数据的第一块,其中所述第一块与第一视差运动向量相关联;确定与视频数据的第二块相关联的第二运动向量的运动向量预测符,其中所述运动向量预测符是基于所述第一视差运动向量;其中当所述第二运动向量包含视差运动向量时,所述指令致使所述一个或一个以上处理器通过缩放所述第一视差运动向量以产生缩放的运动向量预测符而确定所述运动向量预测符,其中缩放所述第一视差运动向量包含将缩放因数应用于所述第一视差运动向量,所述缩放因数包含所述第二视差运动向量的视距除以所述第一运动向量的视距;以及基于所述缩放的运动向量预测符译码所述第二块的预测数据。
[0011]在另一实例中,本发明的方面涉及一种译码视频数据的方法,所述方法包含:从第一视图识别第一时间位置中的视频数据的第一块,其中视频数据的所述第一块与第一时间运动向量相关联;当与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符;以及使用所述运动向量预测符译码所述第二块的预测数据。
[0012]在另一实例中,本发明的方面涉及一种用于译码视频数据的设备,所述设备包含一个或一个以上处理器,所述一个或一个以上处理器经配置以执行以下操作:从第一视图识别第一时间位置中的视频数据的第一块,其中视频数据的所述第一块与第一时间运动向量相关联;当与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符;以及使用所述运动向量预测符译码所述第二块的预测数据。
[0013]在另一实例中,本发明的方面涉及一种译码视频数据的设备,所述设备包含:用于从第一视图识别第一时间位置中的视频数据的第一块的装置,其中视频数据的所述第一块与第一时间运动向量相关联;用于在与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符的装置;以及用于使用所述运动向量预测符译码所述第二块的预测数据的装置。
[0014]在一实例中,本发明的方面涉及一种存储有指令的计算机可读存储媒体,所述指令在执行时致使一个或一个以上处理器执行以下操作:从第一视图识别第一时间位置中的视频数据的第一块,其中视频数据的所述第一块与第一时间运动向量相关联;当与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符;以及使用所述运动向量预测符译码所述第二块的预测数据。
[0015]在附图和下文的描述中阐述本发明的一个或一个以上方面的细节。本发明中所描述的技术的其它特征、目标和优点将从描述和图式以及从权利要求书显而易见。
【专利附图】

【附图说明】
[0016]图1为说明可利用本发明中所描述的技术的实例视频编码和解码系统的方框图。
[0017]图2为说明可实施本发明中所描述的技术的实例视频编码器的方框图。
[0018]图3为说明可实施本发明中所描述的技术的实例视频解码器的方框图。
[0019]图4为说明实例多视图视频译码(MVC)预测模式的概念图。
[0020]图5为说明运动向量预测符候选者的实例位置的方框图。
[0021]图6为说明根据本发明的方面的产生和缩放运动向量预测符的概念图。
[0022]图7为说明根据本发明的方面的产生和缩放运动向量预测符的另一概念图。
[0023]图8为说明根据本发明的方面的产生和缩放运动向量预测符的另一概念图。
[0024]图9为说明译码视频数据的块的预测信息的实例方法的流程图。
[0025]图10为说明从处于与当前块不同的视图中的块产生运动向量预测符的概念图。
[0026]图11为说明从处于与当前块不同的视图中的块产生运动向量预测符的实例方法的流程图。
【具体实施方式】[0027]根据某些视频译码系统,运动估计和运动补偿可用以减少视频序列中的时间冗余,以便实现数据压缩。在此状况下,可产生识别视频数据的预测性块(例如,来自另一视频图片或切片的块)的运动向量,其可用以预测正经译码的当前视频块的值。从当前视频块的值减去预测性视频块的值以产生残余数据的块。将运动信息(例如,运动向量、运动向量索引、预测方向或其它信息)连同残余数据从视频编码器传达到视频解码器。解码器可定位相同预测性块(基于运动向量),且通过组合残余数据与预测性块的数据而重构经编码的视频块。
[0028]在一些状况下,还应用运动向量的预测性译码以进一步减少传达运动向量所需的数据量。当建立运动向量时,从目标图片到参考图片来建立运动向量。可在空间上或时间上预测运动向量。空间上预测的运动向量与可用空间块(相同时间瞬时的块)相关联。时间上预测的运动向量与可用时间块(不同时间瞬时的块)相关联。在运动向量预测的状况下,编码器编码和传达相对于已知(或可知)运动向量的运动向量差(MVD),而非编码和传达运动向量自身。在H.264/AVC中,可通过所谓的运动向量预测符(MVP)来定义可供MVD使用以定义当前运动向量的已知运动向量。作为有效的MVP,运动向量必须指向与当前通过MVP和MVD译码的运动向量相同的图片。
[0029]视频译码器可建置运动向量预测符候选者列表,所述列表包括在空间和时间方向上的若干相邻块作为MVP的候选者。在此状况下,视频编码器可基于编码速率和失真的分析(例如,使用速率-失真成本分析或其它译码效率分析)而从候选者集合选择最准确的预测符。可将运动向量预测符索引(mvp_idX)发射到视频解码器以告知解码器在何处定位MVP。还传达MVD。解码器可组合MVD与MVP (其由运动向量预测符索引而定义)以便重构运动向量。
[0030]所谓的“合并模式”还可为可用的,其中正经译码的当前视频块继承相邻视频块的运动信息(例如,运动向量、参考图片索引、预测方向或其它信息)。索引值可用以识别相邻者,当前视频块从相邻者继承其运动信息。
[0031]多视图视频译码(MVC)为用于囊封多个视图的视频数据的视频译码标准。一般而言,每一视图对应于常见场景的对应视频数据被俘获所处的不同观点或角度。MVC提供元数据集合,即,视图的描述性数据(共同地和个别地)。
[0032]经译码视图可用于视频数据的三维(3D)显示。举例来说,可使用光的不同偏振而同时或接近同时显示两个视图(例如,人类观看者的左眼视图和右眼视图),且观看者可佩戴被动型偏光眼镜以使得观看者的眼睛中每一者接收到所述视图中的相应视图。或者,观看者可佩戴为每一眼睛独立地装设快门(shutter)的主动型眼镜,且显示器可与眼镜同步而在每一眼睛的图像之间迅速交替。
[0033]在MVC中,特定视图的特定图片被称作视图分量。即,视图的视图分量对应于视图的特定时间瞬时。通常,两个视图的相同或对应对象不位于同一地点。术语“视差向量”可用以指代指示视图的图片中的对象相对于不同视图中的对应对象的移位的向量。此向量还可被称作“移位向量”。视差向量还可适用于图片的视频数据的像素或块。举例来说,第一视图的图片中的像素可相对于第二视图的图片中的对应像素而移位与不同相机位置有关的特定视差,从所述相机位置俘获第一视图和第二视图。在一些实例中,视差可用以预测从视图到另一视图的运动向量。[0034]在MVC的上下文中,一视图的图片可从另一视图的图片予以预测。举例来说,视频数据的块可相对于相同时间瞬时但不同视图的参考图片中的视频数据的块予以预测。在一实例中,当前正经译码的块可被称作“当前块”。从处于不同视图但处于相同时间瞬时的块预测当前块的运动向量称为“视差运动向量”。视差运动向量通常适用于一个以上视图可用的多视图视频译码的上下文中。根据本发明,视差运动向量的“视距”可指代参考图片的视图与目标图片的视图之间的平移差。即,可将视距表示为参考图片的视图识别符与目标图片的视图识别符之间的视图识别符差。
[0035]另一类型的运动向量为“时间运动向量”。在多视图视频译码的上下文中,时间运动向量指代从处于不同时间瞬时中但在相同视图内的块预测当前块的运动向量。根据本发明,时间运动向量的“时间距离”可指代从参考图片到目标图片的图片次序计数(pictureorder count, P0C)距离。
[0036]本发明的某些技术针对使用与多视图设定中的视频数据的块相关联的运动信息(例如,运动向量、运动向量索引、预测方向或其它信息)以预测当前正经译码的块的运动信息。举例来说,根据本发明的方面,可添加从不同视图预测的运动向量作为用于当前块的运动向量预测的一个或一个以上运动向量列表的候选者。在一些实例中,视频译码器可使用与处于与当前正经译码的块不同的视图中的块相关联的视差运动向量,以预测当前块的运动向量,且可将经预测的视差运动向量添加到候选运动向量列表。在其它实例中,视频译码器可使用与处于与当前正经译码的块不同的视图中的块相关联的时间运动向量,以预测当前块的运动向量,且可将经预测的时间运动向量添加到候选运动向量列表。
[0037]根据本发明的方面,可在视差运动向量用作当前正经译码的块的运动向量预测符之前缩放所述视差运动向量。举例来说,如果视差运动向量识别具有与正经预测的当前运动向量相同的视图识别符的参考图片,且视差运动向量具有具与正经预测的当前运动向量相同的视图识别符的目标图片,则在视差运动向量用以预测当前块的运动向量之前可能不缩放所述视差运动向量。在其它例子中,可在视差运动向量用以预测当前块的运动向量之前缩放所述视差运动向量。
[0038]在另一实例中,可从与空间上相邻的块相关联的视差运动向量预测视差运动向量。在此实例中,如果视差运动向量的参考图片的视图识别符与待预测的运动向量(例如,与当前正经预测的块相关联的运动向量)的参考图片的视图识别符相同,则可能不需要缩放。否则,可基于用以俘获视频数据的相机的相机位置而缩放视差运动向量。即,例如,可根据视差运动向量的参考图片的视图识别符与所述运动向量的目标图片的视图识别符之间的差而缩放用于预测的视差运动向量。在一些实例中,可基于视图的平移而缩放视差运动向量的缩放。
[0039]在另一实例中,可从与时间上相邻的块相关联的视差运动向量预测视差运动向量。在此实例中,如果视差运动向量的参考图片的视图识别符与待预测的运动向量的参考图片的视图识别符相同,且视差运动向量的目标图片的视图识别符与待预测的运动向量的参考图片的视图识别符相同,则可能不需要缩放。否则,可基于视图识别符的差而缩放视差运动向量,如关于先前实例所描述。
[0040]关于时间运动向量预测,根据本发明的方面,目标图片在第一视图中的时间运动向量可用以预测目标图片在第二不同视图中的时间运动向量。在一些实例中,用于预测的时间运动向量的目标图片中的块与不同视图中的当前正经预测的块可位于同一地点。在其它实例中,归因于两个视图之间的视差,用于预测的时间运动向量的目标图片中的块可从当前块偏移。
[0041]在一些实例中,当从不同视图预测的运动向量为时间运动向量时,可基于图片次序计数(POC)距离的差而缩放所述运动向量。举例来说,根据本发明的方面,如果用于预测的时间运动向量的参考图片具有与正经预测的当前运动向量的参考图片相同的POC值,且用于预测的时间运动向量的目标图片具有与正经预测的当前运动向量的参考图片相同的POC值,则可能不缩放用于预测的运动向量。否则,仍可基于用于预测的运动向量的参考图片与当前正经预测的运动向量的参考图片之间POC值的差而缩放用于预测的运动向量。
[0042]根据本发明的一些方面,可将来自不同视图的时间和/或视差运动向量用作MVP候选者。举例来说,时间和/或视差运动向量可用以计算当前块的MVD。根据本发明的其它方面,可将来自不同视图的时间和/或视差运动向量用作合并候选者。举例来说,当前块可继承时间和/或视差运动向量。在这些实例中,索引值可用以识别相邻者,当前视频块从相邻者继承其运动信息。在任何情况下,可在来自不同视图的用作MVP或合并候选者的视差和/或时间运动向量用作MVP或合并候选者之前缩放所述视差和/或时间运动向量。
[0043]图1为说明可利用用于多视图译码中的运动向量预测的技术的实例视频编码和解码系统10的方框图。如图1中所展示,系统10包括源装置12,源装置12提供稍后待由目的地装置14解码的经编码的视频数据。具体来说,源装置12经由计算机可读媒体16而将视频数据提供到目的地装置14。源装置12和目的地装置14可包含广泛范围的装置中的任一者,包括桌上型计算机、笔记型(即,膝上型)计算机、平板型计算机、机顶盒、电话手持机(例如,所谓的“智能型”电话)、所谓的“智能型”平板设备(smart pad)、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置,或其类似者。在一些状况下,源装置12和目的地装置14可为无线通信而装备。
[0044]目的地装置14可经由计算机可读媒体16接收待解码的经编码的视频数据。计算机可读媒体16可包含能够将经编码的视频数据从源装置12移到目的地装置14的任何类型的媒体或装置。在一实例中,计算机可读媒体16可包含用以使源装置12能够将经编码的视频数据直接实时发射到目的地装置14的通信媒体。
[0045]可根据通信标准(例如,无线通信协议)调制经编码的视频数据,且将经编码的视频数据发射到目的地装置14。通信媒体可包含任何无线或有线通信媒体,例如,射频(RF)频谱或一个或一个以上物理传输线。通信媒体可形成基于包的网络(例如,局域网络、广域网络或例如因特网的全球网络)的部分。通信媒体可包括路由器、交换器、基站,或可用以促进从源装置12到目的地装置14的通信的任何其它设备。
[0046]在一些实例中,可将经编码数据从输出接口 22输出到存储装置。类似地,可通过输入接口从存储装置存取经编码数据。存储装置可包括多种分布式或本地存取式数据存储媒体中的任一者,例如,硬盘、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码的视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置可对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。
[0047]目的地装置14可经由串流传输或下载而从存储装置存取经存储的视频数据。文件服务器可为能够存储经编码的视频数据且将所述经编码的视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包括web服务器(例如,针对网站)、FTP服务器、网络附接存储(NAS)装置,或本地磁盘驱动器。目的地装置14可经由任何标准数据连接(包括因特网连接)而存取经编码的视频数据。此数据连接可包括适合于存取存储于文件服务器上的经编码的视频数据的无线信道(例如,W1-Fi连接)、有线连接(例如,DSL、缆线调制解调器等),或两者的组合。经编码的视频数据从存储装置的传输可为串流传输、下载传输,或其组合。
[0048]本发明的技术未必限于无线应用或环境。所述技术可应用于支持例如以下应用的多种多媒体应用中的任一者的视频译码:无线电视广播、有线电视发射、卫星电视发射、例如HTTP动态自适应串流(DASH)的因特网串流视频发射、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射以支持例如视频串流传输、视频播放、视频广播和/或视频电话的应用。
[0049]在图1的实例中,源装置12包括视频源18、视频编码器20和输出接口 22。目的地装置14包括输入接口 28、视频解码器30和显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于多视图译码中的运动向量预测的技术。在其它实例中,源装置和目的地装置可包括其它组件或布置。举例来说,源装置12可从外部视频源18 (例如,外部相机)接收视频数据。同样地,目的地装置14可与外部显示装置介接,而非包括集成式显示装置。
[0050]图1的所说明的系统10仅为一实例。可通过任何数字视频编码和/或解码装置来执行多视图译码中的运动向量预测的技术。尽管本发明的技术一般是通过视频编码装置来执行,但所述技术还可通过视频编码器/解码器(通常被称作“编解码器(CODEC)”)来执行。此外,还可通过视频预处理器来执行本发明的技术。源装置12和目的地装置14仅为这些译码装置的实例,其中源装置12产生用于发射到目的地装置14的经编码的视频数据。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包括视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射(例如)以用于视频串流传输、视频播放、视频广播或视频电话。
[0051]源装置12的视频源18可包括例如视频相机的视频俘获装置、含有先前俘获的视频的视频档案,和/或用以从视频内容提供者接收视频的视频馈入接口。作为另一替代例,视频源18可产生基于计算机图形的数据作为源视频,或产生实况视频、经存档视频和计算机产生的视频的组合。在一些状况下,如果视频源18为视频相机,则源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术可一般适用于视频译码,且可应用于无线和/或有线应用。在每一状况下,可通过视频编码器20编码经俘获的视频、经预先俘获的视频或计算机产生的视频。可接着通过输出接口 22将经编码的视频信息输出到计算机可读媒体16上。
[0052]计算机可读媒体16可包括暂时性媒体,例如,无线广播或有线网络传输;或存储媒体(S卩,非暂时性存储媒体),例如,硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(图中未展示)可从源装置12接收经编码的视频数据,且(例如)经由网络发射将所述经编码的视频数据提供到目的地装置
14。类似地,媒体生产设施(例如,光盘压印设施)的计算装置可从源装置12接收经编码的视频数据且产生含有所述经编码的视频数据的光盘。因此,在各种实例中,可将计算机可读媒体16理解成包括各种形式的一个或一个以上计算机可读媒体。
[0053]目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包括由视频编码器20定义的语法信息,所述语法信息还由视频解码器30使用且包括描述块和其它经译码单元(例如,G0P)的特性和/或处理的语法元素。显示装置32向用户显示经解码的视频数据,且可包含多种显示装置中的任一者,例如,阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
[0054]视频编码器20和视频解码器30可根据例如目前在开发中的高效率视频译码(HEVC)标准的视频译码标准而操作,且可符合HEVC测试模型(HM)。或者,视频编码器20和视频解码器30可根据例如ITU-T H.264标准或者被称作MPEG-4第10部分(高级视频译码(AVC)的其它专属或工业标准或这些标准的扩展而操作。然而,本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包括MPEG-2和ITU-T H.263。尽管未在图1中展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包括适当的多路复用器-解多路复用器(MUX-DEMUX)单元或其它硬件和软件,以处置共同数据串流或若干单独数据串流中的音频和视频两者的编码。如果适用,则MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)的其它协议。
[0055]ITU-T H.264/MPEG-4 (AVC)标准是作为被称为联合视频小组(JVT)的集体合作的产品而由ITU-T视频译码专家群组(VCEG)与IS0/IEC动画专家组(MPEG) —起制定。在一些方面中,可将本发明中所描述的技术应用于大体上符合H.264标准的装置。H.264标准是由ITU-T研究小组在2005年3月描述于ITU-T国际标准H.264“用于通用视听服务的高级视频译码(Advanced Video Coding for generic audiovisual services) ” 中,所述标准可在本文中被称作H.264标准或H.264规范,或H.264/AVC标准或规范。联合视频小组(JVT)仍旧致力于对H.264/MPEG-4AVC的扩展。
[0056]JCT-VC致力于HEVC标准的开发。HEVC标准化努力是基于视频译码装置的演进模型,其被称作HEVC测试模型(HM)。HM假设视频译码装置相对于根据(例如)ITU-TH.264/AVC的现有装置的若干额外能力。举例来说,H.264提供九个帧内预测编码模式,而HM可提供多达三十三个帧内预测编码模式。
[0057]一般而言,HM的工作模型描述视频图片(或“帧”)可划分成包括明度样本和色度样本两者的树型块或最大译码单元(LCU)的序列。位流内的语法数据可定义LCU的大小,IXU为就像素数目而言的最大译码单元。切片包括按译码次序的数个连续树型块。图片可分割成一个或一个以上切片。每一树型块可根据四叉树而分裂成若干译码单元(CU)。一般而言,四叉树数据结构中每CU包括一个节点,其中根节点对应于树型块。如果CU分裂成四个子CU,则对应于CU的节点包括四个叶节点,其中每一者对应于子CU中的一者。
[0058]四叉树数据结构的每一节点可提供对应CU的语法数据。举例来说,四叉树中的节点可包括分裂旗标,其指示对应于节点的CU是否分裂成子CU。CU的语法元素可被递归地定义,且可取决于CU是否分裂成子CU。如果CU不进一步分裂,则其被称作叶CU。在本发明中,即使不存在原始叶CU的明确分裂,叶CU的四个子CU也将被称作叶CU。举例来说,如果16X16大小的⑶不进一步分裂,则尽管16X16⑶永不分裂,但四个8X8子⑶还将被称作叶CU。
[0059]除了⑶不具有大小区别之外,⑶的意义类似于H.264标准的宏块的意义。举例来说,树型块可分裂成四个子代节点(还被称作子CU),且每一子代节点可又为父代节点并分裂成另外四个子代节点。最后未分裂的子代节点(被称作四叉树的叶节点)包含译码节点(还被称作叶CU)。与经译码的位流相关联的语法数据可定义树型块可分裂的最大次数(被称作最大CU深度),且还可定义译码节点的最小大小。因此,位流还可定义最小译码单元(SCT)。本发明使用术语“块”指代在HEVC的上下文中的⑶、I3U或TU中的任一者,或在其它标准的上下文中的类似数据结构(例如,在H.264/AVC中的宏块和子块)。
[0060]CU包括译码节点和与所述译码节点相关联的若干预测单元(PU)和变换单元(TU)。⑶的大小对应于译码节点的大小,且形状必须为正方形。⑶的大小的范围可从8X8像素直到具有最大64X64像素或大于64X64像素的树型块的大小。每一⑶可含有一个或一个以上和一个或一个以上TU。与CU相关联的语法数据可描述(例如)CU到一个或一个以上的分割。分割模式可视CU是被跳过还是被直接模式编码、被帧内预测模式编码还是被帧间预测模式编码而不同。PU的形状可分割成非正方形。与CU相关联的语法数据还可描述(例如)CU根据四叉树到一个或一个以上TU的分割。TU的形状可为正方形或非正方形(例如,矩形)。
[0061]HEVC标准允许根据TU的变换,所述变换对于不同⑶可不同。通常基于针对经分割LCU所定义的给定CU内的PU的大小而设定TU大小,但可能并非总是如此状况。TU通常具有与PU相同的大小,或小于PU。在一些实例中,可使用称为“残余四叉树”(RQT)的四叉树结构将对应于CU的残余样本再分成若干较小单元。RQT的叶节点可被称作变换单元(TU)。可变换与TU相关联的像素差值以产生可量化的变换系数。
[0062]叶⑶可包括一个或一个以上预测单元(PU)。一般而言,I3U表示对应于对应⑶的全部或一部分的空间区域,且可包括用于检索PU的参考样本的数据。此外,PU包括与预测有关的数据。举例来说,当PU经帧内模式编码时,用于的数据可包括于残余四叉树(RQT)中,残余四叉树可包括描述对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包括定义所述的一个或一个以上运动向量的数据。定义的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,和/或运动向量的参考图片列表(例如,列表O、列表I或列表C)。
[0063]具有一个或一个以上PU的叶⑶还可包括一个或一个以上变换单元(TU)。可使用RQT (还被称作TU四叉树结构)指定变换单元,如上文所论述。举例来说,分裂旗标可指示叶CU是否分裂成四个变换单元。接着,每一变换单元可进一步分裂成其它子TU。当TU不进一步分裂时,其可被称作叶TU。一般而言,对于帧内译码,属于叶CU的所有叶TU共享相同帧内预测模式。即,一般应用相同帧内预测模式以计算叶CU的所有TU的预测值。对于帧内译码,视频编码器20可使用帧内预测模式计算每一叶TU的残余值,作为对应于TU的⑶的部分与原始块之间的差。TU未必限于PU的大小。因此,TU可能大于或小于PU。对于帧内译码,PU可布置有相同⑶的对应叶TU。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
[0064]此外,叶⑶的TU还可与被称作残余四叉树(RQT)的相应四叉树数据结构相关联。gp,叶⑶可包括指示叶⑶如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶⑶,而⑶四叉树的根节点一般对应于树型块(或IXU)。RQT的不分裂的TU被称作叶TU。一般而言,除非另外注释,否则本发明使用术语CU和TU以分别指代叶CU和叶TU。
[0065]视频序列通常包括一系列图片。如本文中所描述,“图片”和“巾贞”可互换地使用。即,含有视频数据的图片可被称作视频帧,或仅称作“帧”。图片群组(GOP) —般包含一系列视频图片中的一者或一者以上。GOP可在GOP的标头、图片中的一者或一者以上的标头中或在别处包括描述包括于GOP中的图片数目的语法数据。图片的每一切片可包括描述所述相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作,以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而具有不同大小。
[0066]作为一实例,HM支持以各种I3U大小进行预测。假定特定⑶的大小为2NX 2N,则HM支持以2NX2N或NXN的PU大小进行帧内预测,以及以2NX2N、2NXN、NX2N或NXN的对称PU大小进行帧间预测。HM还支持以2NXnU、2NXnD、nLX2N和nRX2N的PU大小进行中贞间预测的不对称分割。在不对称分割中,CU的一方向未分割,而另一方向分割成25%和75%。⑶的对应于25%分割的部分由“η”继之以“上”、“下”、“左”或“右”的指示来指示。因此,例如,“2NXnU”指代在水平方向上以顶部2ΝΧ0.5Ν PU和底部2NX1.5N PU分割的 2NX2N CU。
[0067]在本发明中,“NXN”与“N乘N”可互换地使用以指代视频块在垂直尺寸与水平尺寸方面的像素尺寸,例如,16X16像素或16乘16像素。一般而言,16X16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样地,NXN块一般在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。可以行和列布置块中的像素。此外,块未必需要在水平方向上具有与垂直方向上相同数目个像素。举例来说,块可包含NXM个像素,其中M未必等于N。
[0068]在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算CU的TU的残余数据。PU可包含描述在空间域(还被称作像素域)中产生预测性像素数据的方法或模式的语法元素,且TU可包含在将(例如)离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换的变换应用于残余视频数据之后变换域中的系数。残余数据可对应于未经编码的图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包括⑶的残余数据的TU,且接着变换所述TU以产生⑶的变换系数。
[0069]在应用任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量化一般指代如下过程:将变换系数量化以可能地减少用以表示所述系数的数据的量,从而提供进一步压缩。量化过程可减小与所述系数中的一些或全部相关联的位深度。举例来说,η位值在量化期间可下舍入到m位值,其中η大于m。
[0070]在量化之后,视频编码器可扫描变换系数,从而从包括经量化的变换系数的二维矩阵产生一维向量。扫描可经设计成将较高能量(且因此较低频率)系数置于阵列前部,且将较低能量(且因此较高频率)系数置于阵列后部。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数,以产生可经熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法而熵编码所述一维向量。视频编码器20还可熵编码与经编码的视频数据相关联的语法元素以供视频解码器30用于解码视频数据。
[0071]为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可能涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可针对待发射的符号选择可变长度码。可将VLC中的码字建构成使得相对较短码对应于更有可能的符号,而较长码对应于较不可能的符号。以此方式,相较于(例如)针对待发射的每一符号使用相等长度的码字,使用VLC可实现位节省。概率确定可基于指派给符号的上下文而进行。
[0072]视频编码器20可进一步在(例如)图片标头、块标头、切片标头或GOP标头中将语法数据(例如,基于块的语法数据、基于图片的语法数据和基于GOP的语法数据)发送到视频解码器30。GOP语法数据可描述相应GOP中的图片数目,且图片语法数据可指示用以编码对应图片的编码/预测模式。
[0073]视频编码器20和视频解码器30各自可在适用时实施为多种合适编码器或解码器电路中的任一者,例如:一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20和视频解码器30中的每一者可包括于一个或一个以上编码器或解码器中,其中的任一者可集成为组合式视频编码器/解码器(CODEC)的部分。包括视频编码器20和/或视频解码器30的装置可包含集成电路、微处理器和/或无线通信装置(例如,蜂窝式电话)。
[0074]图2为说明可实施本发明中所描述的用于在多视图译码中预测运动向量的技术的实例视频编码器20的方框图。视频编码器20可执行视频切片内的视频块的帧内译码和帧间译码。帧内译码依赖于空间预测以减少或移除给定图片内的视频的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的邻近图片或各图片内的视频的时间冗余。帧内模式(I模式)可指代若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指代若干基于时间的压缩模式中的任一者。
[0075]如图2中所展示,视频编码器20接收待编码的视频数据。在图2的实例中,视频编码器20包括模式选择单元40、求和器50、变换单元52、量化单元54、熵编码单元56,和参考图片存储器64。模式选择单元40又包括运动估计单元42、运动补偿单元44、帧内预测单元46,和分割单元48。对于视频块重构,视频编码器20还包括反量化单元58、反变换单元60,和求和器62。还可包括解块滤波器(图2中未展示)以对块边界进行滤波,从而从经重构的视频移除块性效应假影。必要时,解块滤波器将通常对求和器62的输出进行滤波。除了解块滤波器以外,还可使用额外回路滤波器(回路内或回路后)。为简洁起见未展示这些滤波器,但这些滤波器必要时可对求和器50的输出进行滤波(作为回路内滤波器)。
[0076]在编码过程期间,视频编码器20接收待译码的图片或切片。可将图片或切片划分成多个视频块。运动估计单元42和运动补偿单元44执行所接收的视频块相对于一个或一个以上参考图片中的一个或一个以上块的帧间预测性译码,以提供时间压缩。或者,帧内预测单元46可执行所接收的视频块相对于处于与待译码的块相同的图片或切片中的一个或一个以上相邻块的帧内预测性译码,以提供空间压缩。视频编码器20可执行多个译码回合(例如)以选择用于视频数据的每一块的适当译码模式。[0077]此外,分割单元48可基于先前译码回合中的先前分割方案的评估而将视频数据的块分割成若干子块。举例来说,分割单元48可最初基于速率-失真分析(例如,速率-失真优化)将一图片或切片分割成若干LCU,且将所述LCU中的每一者分割成若干子CU。模式选择单元40可进一步产生指示LCU到子CU的分割的四叉树数据结构。四叉树的叶节点⑶可包括一个或一个以上PU和一个或一个以上TU。
[0078]模式选择单元40可(例如)基于误差结果而选择译码模式(帧内或帧间)中的一者,且将所得帧内或帧间译码的块提供到求和器50以产生残余块数据和提供到求和器62以重构经编码的块来用作参考图片。模式选择单元40还将例如运动向量、帧内模式指示符、分割信息和其它此类语法信息的语法元素提供到熵编码单元56。
[0079]可高度集成运动估计单元42、运动向量预测单元43与运动补偿单元44,但出于概念性目的而对所述单元单独加以说明。由运动估计单元42执行的运动估计为产生运动向量的过程,运动向量估计视频块的运动。举例来说,运动向量可指示当前图片内的视频块的PU相对于参考图片内的预测性块(或其它经译码单元)的移位,所述参考图片与当前图片内正经译码的当前块(或其它经译码单元)有关。
[0080]预测性块为依据像素差被发现与待译码的块紧密匹配的块,可通过绝对差和(SAD)、平方差和(SSD)或其它差量度来确定像素差。在一些实例中,视频编码器20可计算存储于参考图片存储器64(其还可被称作参考图片缓冲器)中的参考图片的分段整数(sub-1nteger)像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分率像素位置的值。因此,运动估计单元42可执行相对于全像素位置和分率像素位置的运动搜索,且以分率像素精度输出运动向量。
[0081]运动估计单元42通过比较帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置而计算所述PU的运动向量。因此,一般而言,运动向量的数据可包括参考图片列表、到参考图片列表中的索引(ref_idx)、水平分量,和垂直分量。参考图片可选自第一参考图片列表(列表O)、第二参考图片列表(列表I)或组合的参考图片列表(列表c),其中的每一者识别存储于参考图片存储器64中的一个或一个以上参考图片。
[0082]运动估计单元42可产生识别参考图片的预测性块的运动向量且将所述运动向量发送到熵编码单元56和运动补偿单元44。S卩,运动估计单元42可产生并发送识别以下各者的运动向量数据以在所识别的图片内定位预测性块:含有预测性块的参考图片列表、到识别预测性块的图片的参考图片列表中的索引,以及水平和垂直分量。
[0083]在一些实例中,运动向量预测单元43可预测运动向量以进一步减少传达运动向量所需的数据量,而非发送当前PU的实际运动向量。在此状况下,运动向量预测单元43可产生相对于已知(或可知)运动向量的运动向量差(MVD),而非编码和传达运动向量自身。可通过所谓的运动向量预测符(MVP)来定义可供MVD使用以定义当前运动向量的已知运动向量。一般而言,作为有效的MVP,用于预测的运动向量必须指向与当前正经译码的运动向量相同的参考图片。
[0084]在一些实例中,如下文关于图5更详细描述,运动向量预测单元43可建置运动向量预测符候选者列表,所述列表包括在空间和/或时间方向上的若干相邻块作为MVP的候选者。根据本发明的方面,如下文更详细描述,还可在不同视图的图片中(例如,在多视图译码中)识别运动向量预测符候选者。当多个运动向量预测符候选者可用(来自多个候选块)时,运动向量预测单元43可根据预定选择准则而确定当前块的运动向量预测符。举例来说,运动向量预测单元43可基于编码速率和失真的分析(例如,使用速率-失真成本分析或其它译码效率分析)而从候选者集合选择最准确的预测符。在其它实例中,运动向量预测单元43可产生运动向量预测符候选者的平均值。选择运动向量预测符的其它方法也是可能的。
[0085]在选择运动向量预测符时,运动向量预测单元43可确定运动向量预测符索引(mvp_f lag),所述索引可用以告知视频解码器(例如,视频解码器30)在含有MVP候选块的参考图片列表中何处定位MVP。运动向量预测单元43还可确定当前块与选定MVP之间的MVD。MVP索引和MVD可用以重构运动向量。
[0086]在一些实例中,运动向量预测单元43可替代地实施所谓的“合并”模式,其中运动向量预测单元43可“合并”预测性视频块与当前视频块的运动信息(例如,运动向量、参考图片索引、预测方向或其它信息)。因此,关于合并模式,当前视频块从另一已知(或可知)视频块继承运动信息。运动向量预测单元43可建置合并模式候选者列表,所述列表包括在空间和/或时间方向上的若干相邻块作为合并模式的候选者。运动向量预测单元43可确定索引值(例如,mergejdx),所述索引值可用以告知视频解码器(例如,视频解码器30)在含有合并候选块的参考图片列表中何处定位合并视频块。
[0087]根据本发明的方面,运动向量预测单元43可在多视图译码中识别(例如)用于产生MVD或合并的运动向量预测符。举例来说,运动向量预测单元43可从处于与当前块不同的视图分量中的块识别视差运动向量以预测当前块的运动向量。在其它实例中,运动向量预测单元43可从处于与当前块不同的视图分量中的块识别时间运动向量以预测当前块的运动向量。
[0088]关于视差运动向量预测,运动向量预测单元43可从候选块识别视差运动向量候选者,以预测当前正经译码的视频块(被称作“当前块”)的运动向量。当前块可位于与候选块相同的图片中(例如,空间上与候选块相邻),或可位于与候选块相同的视图内的另一图片中。在一些实例中,运动向量预测单元43可识别指代处于与当前块的运动向量不同的视图中的参考图片的运动向量预测符。在这些例子中,根据本发明的技术,运动向量预测单元43可基于两个视图(例如,由运动向量预测符参考的视图,和由当前运动向量参考的视图)之间的相机位置差而缩放运动向量预测符。举例来说,运动向量预测单元43可根据两个视图之间的差而缩放视差运动向量预测符。在一些实例中,两个视图之间的差可通过与所述视图相关联的视图识别符(view_id)之间的差来表示。
[0089]关于时间运动向量预测,运动向量预测单元43可从处于与当前块不同的视图中的候选块识别时间运动向量候选者,以预测当前块的运动向量。举例来说,运动向量预测单元43可识别第一视图中的时间运动向量预测符候选者,其指代所述第一视图的另一时间位置处的图片中的块。根据本发明的方面,运动向量预测单元43可使用所识别的时间运动向量预测符候选者以预测与第二不同视图中的当前块相关联的运动向量。候选块(其包括运动向量预测符候选者)与当前块可位于同一地点。然而,归因于两个视图之间的视差,候选块的相对位置可从当前块偏移。
[0090]根据本发明的方面,运动向量预测单元43可产生MVP索引(mvp_flag)和MVD,或可产生合并索引(merge」dx)。举例来说,运动向量预测单元43可产生MVP或合并候选者的列表。根据本发明的方面,MVP和/或合并候选者包括位于与当前正经解码的视频块不同的视图中的一个或一个以上视频块。
[0091 ] 由运动补偿单元44执行的运动补偿可涉及基于通过运动估计单元42所确定的运动向量和/或来自运动向量预测单元43的信息而取得或产生预测性块。此外,在一些实例中,运动估计单元42、运动向量预测单元43和运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量时,运动补偿单元44可将运动向量所指向的预测性块定位于参考图片列表中的一者中。
[0092]求和器50通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块,如下文所论述。一般而言,运动估计单元42执行相对于明度分量的运动估计,且运动补偿单元44针对色度分量和明度分量两者使用基于明度分量而计算的运动向量。模式选择单元40还可产生与视频块和视频切片相关联的语法元素以供视频解码器30用于解码视频切片的视频块。
[0093]作为由运动估计单元42和运动补偿单元44执行的帧间预测(如上文所描述)的替代,帧内预测单元46可帧内预测当前块。具体来说,帧内预测单元46可确定使用帧内预测模式以译码当前块。在一些实例中,帧内预测单元46可(例如)在单独编码回合期间使用各种帧内预测模式编码当前块,且帧内预测单元46 (或在一些实例中,模式选择单元40)可从经测试模式选择将使用的适当帧内预测模式。
[0094]举例来说,帧内预测单元46可使用对各种经测试的帧内预测模式的速率-失真分析而计算速率-失真值,且在经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析一般确定经译码块与原始未经译码块之间的失真(或误差)的量以及用以产生经编码块的位率(即,位数目),所述原始未经编码块经编码以产生所述经编码块。帧内预测单元46可从失真和速率计算各种经编码块的比率以确定哪一帧内预测模式展现块的最佳速率-失真值。
[0095]在选择块的帧内预测模式之后,帧内预测单元46可将指示块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20可在经发射的位流配置数据中包括各种块的编码上下文的定义和将用于所述上下文中的每一者的最有可能的帧内预测模式、帧内预测模式索引表和经修改的帧内预测模式索引表的指示,所述位流配置数据可包括多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(还被称作码字映射表)。
[0096]视频编码器20通过从正经译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的(多个)组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换的变换应用于残余块,从而产生包含残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。还可使用小波变换、整数变换、子频带变换或其它类型的变换。在任何状况下,变换处理单元52将变换应用于残余块,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域(例如,频域)。
[0097]变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化所述变换系数以进一步减小位率。量化过程可减小与所述系数中的一些或全部相关联的位深度。可通过调整量化参数而修改量化程度。在一些实例中,量化单元54可接着执行包括经量化的变换系数的矩阵的扫描。或者,熵编码单元56可执行所述扫描。
[0098]在量化之后,熵编码单元56熵译码经量化的变换系数。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码,或另一熵译码技术。在基于上下文的熵译码的状况下,上下文可基于相邻块。在通过熵编码单元56进行的熵译码之后,可将经译码的位串流传输到另一装置(例如,视频解码器30)或经存档以供稍后发射或检索。
[0099]反量化单元58和反变换单元60分别应用反量化和反变换,以在像素域中重构残余块(例如)供稍后用作参考块。运动补偿单元44可通过将残余块加到参考图片存储器64的图片中的一者的预测性块来计算参考块。运动补偿单元44还可将一个或一个以上内插滤波器应用于经重构的残余块以计算分段整数像素值以供用于运动估计中。求和器62将经重构的残余块加到由运动补偿单元44产生的运动补偿预测块,以产生经重构的视频块以供存储于参考图片存储器64中。经重构的视频块可由运动估计单元42和运动补偿单元44用作参考块以帧间译码后续图片中的块。
[0100]图3为说明可实施本发明中所描述的用于在多视图译码中预测运动向量的技术的实例视频解码器30的方框图。在图3的实例中,视频解码器30包括熵解码单元80、预测单元81、反量化单元86、反变换单元88、求和器90,和参考图片存储器92。预测单元81包括运动补偿单元82和帧内预测单元84。
[0101]在解码过程期间,视频解码器30从视频编码器20接收经编码的视频位流,所述串流表示经编码的视频切片的视频块和相关联的语法元素。视频解码器30的熵解码单元80熵解码所述位流以产生经量化的系数、运动向量和其它语法元素。熵解码单元80将运动向量和其它语法元素转递到预测单元81。视频解码器30可在视频切片层级和/或视频块层级处接收语法元素。
[0102]举例来说,通过【背景技术】,视频解码器30可接收为了经由网络发射而已压缩成所谓的“网络抽象层单元”或NAL单元的经压缩的视频数据。每一 NAL单元可包括识别存储到所述NAL单元的数据的类型的标头。存在通常存储到NAL单元的两种类型的数据。存储到NAL单元的第一类型的数据为视频译码层(VCL)数据,其包括经压缩的视频数据。存储到NAL单元的第二类型的数据被称作非VCL数据,其包括例如定义为大量NAL单元所共有的标头数据的参数集和补充增强信息(SEI)的额外信息。
[0103]举例来说,参数集可含有序列层级标头信息(例如,在序列参数集(SPS))中和不频繁改变的图片层级标头信息(例如,在图片参数集(PPS))中。不需要针对每一序列或图片重复参数集中所含有的不频繁改变的信息,借此改进译码效率。另外,参数集的使用实现标头信息的频带外发射,借此避免为实现误差恢复的冗余发射的需要。
[0104]当视频切片经译码为帧内译码(I)切片时,预测单元81的帧内预测单元84可基于用信号发送的帧内预测模式和来自当前图片的先前经解码块的数据而产生当前视频切片的视频块的预测数据。当图片经译码为帧间译码(即,B、P或GPB)切片时,预测单元81的运动补偿单元82基于从熵解码单元80接收的运动向量和其它语法元素而产生当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储于参考图片存储器92中的参考图片使用预设建构技术来建构参考图片列表:列表O和列表I。
[0105]运动补偿单元82通过解析运动向量和其它语法元素而确定当前视频切片的视频块的预测信息,且使用所述预测信息以产生正经解码的当前视频块的预测性块。举例来说,运动补偿单元82使用一些所接收的语法元素以确定用以译码视频切片的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一者或一者以上的建构信息、切片的每一帧间编码视频块的运动向量、切片的每一帧间译码视频块的帧间预测状态,和用以解码当前视频切片中的视频块的其它信息。在一些实例中,运动补偿单元82可从运动向量预测单元83接收某些运动信肩、O
[0106]根据本发明的方面,运动向量预测单元83可接收指示在何处检索当前块的运动信息的预测数据。举例来说,运动向量预测单元83可接收例如MVP索引(mvp_flag)、MVD、合并旗标(merge_flag)和/或合并索引(merge_idx)的运动向量预测信息,且使用此信息以识别用以预测当前块的运动信息。即,如上文关于视频编码器20所提及,根据本发明的方面,运动向量预测单元83可接收MVP索引(mvp_flag)和MVD,且使用此信息以确定用以预测当前块的运动向量。运动向量预测单元83可产生MVP或合并候选者的列表。根据本发明的方面,MVP和/或合并候选者可包括位于与当前正经解码的视频块不同的视图中的一个或一个以上视频块。
[0107]运动向量预测单元83可使用MVP或合并索引以识别用以预测当前块的运动向量的运动信息。即,例如,运动向量预测单元83可使用MVP索引(mvp_flag)从参考图片的列表识别MVP。运动向量预测单元83可组合所识别的MVP与所接收的MVD以确定当前块的运动向量。在其它实例中,运动向量预测单元83可使用合并索引(merge」dx)从参考图片的列表识别合并候选者以确定当前块的运动信息。在任何情况下,在确定当前块的运动信息之后,运动向量预测单元83可产生当前块的预测性块。
[0108]根据本发明的方面,运动向量预测单元83可确定多视图译码中的运动向量预测符。举例来说,运动向量预测单元83可接收特定信息,所述信息指定来自处于与当前块不同的视图分量中的块的视差运动向量,所述视差运动向量用以预测当前块的运动向量。在其它实例中,运动向量预测单元83可接收特定信息,所述信息识别来自处于与当前块不同的视图分量中的块的时间运动向量,所述时间运动向量用以预测当前块的运动向量。
[0109]关于视差运动向量预测,运动向量预测单元83可从候选块预测当前块的视差运动向量。候选块可位于与当前块相同(例如,空间上与候选块相邻)的图片中,或可位于与当前块相同的视图内的另一图片中。候选块还可位于不同视图的图片中,但处于与当前块相同的时间瞬时。
[0110]举例来说,关于MVP或合并模式,待预测的当前块的视差运动向量“A”的目标图片和参考图片为已知的(先前经确定)。出于解释的目的,假定来自候选块的运动向量为“B”。根据本发明的方面,如果运动向量B不为视差运动向量,则运动向量预测单元83可认为候选块不可用(例如,不可用于预测运动向量A)。即,运动向量预测单元83可停用使用候选块以实现运动向量预测目的的能力。
[0111]如果运动向量B为视差运动向量且运动向量B的参考图片属于与视差运动向量A的参考图片的视图相同的视图,且运动向量B的目标图片属于与视差运动向量A的目标图片相同的视图,则运动向量预测单元83可使用运动向量B直接作为运动向量A的候选预测符。否则,在视差运动向量B可用作运动向量A的候选预测符之前,运动向量预测单元83可缩放视差运动向量B。在这些例子中,根据本发明的技术,运动向量预测单元83可基于运动向量A的视距和运动向量B的视距而缩放视差运动向量。举例来说,运动向量预测单元83可按特定缩放因数来缩放视差运动向量B,所述缩放因数等于运动向量A的视距除以运动向量B的视图距离。在一些实例中,运动向量预测单元83可使用参考图片和目标图片的视图识别符来执行此缩放。
[0112]关于时间运动向量预测,运动向量预测单元83可从处于与当前块的视图不同的视图中的候选块预测当前块的时间运动向量。举例来说,运动向量预测单元83可识别时间运动向量预测符候选者,其目标图片在第一视图中且指代所述第一视图的另一时间位置处的参考图片中的块。根据本发明的方面,运动向量预测单元83可使用所识别的时间运动向量预测符候选者以预测与第二不同视图中的当前块相关联的运动向量。
[0113]举例来说,关于MVP或合并模式,待预测的当前块的时间运动向量“A”的目标图片和参考图片为已知的(先前经确定)。出于解释的目的,假定来自候选块的运动向量为“B”。根据本发明的方面,如果来自候选块的运动向量B不为时间运动向量,则运动向量预测单元83可认为候选块不可用(例如,不可用于预测运动向量A)。即,在一些实例中,运动向量预测单元83可停用使用候选块以实现运动向量预测目的的能力。
[0114]如果运动向量B为时间运动向量,且运动向量B的参考图片的POC与运动向量A的参考图片相同,且运动向量B的目标图片的POC与运动向量B的目标图片相同,则运动向量预测单元83可使用运动向量B直接作为运动向量A的候选预测符。否则,运动向量预测单元83可基于时间距离缩放时间运动向量B。不同视图中的候选块(其包括运动向量预测符候选者)与当前块可位于同一地点。然而,归因于两个视图之间的视差,候选块的相对位置可从当前块偏移。
[0115]反量化单元86将位流中所提供且由熵解码单元80解码的经量化的变换系数反量化(即,解量化)。反量化过程可包括使用由视频编码器20针对视频切片中的每一视频块计算的量化参数,以确定量化程度和(同样)应应用的反量化的程度。
[0116]反变换单元88将反变换(例如,反DCT、反整数变换或概念上类似的反变换过程)应用于变换系数,以便在像素域中产生残余块。根据本发明的方面,反变换单元88可确定将变换应用于残余数据的方式。即,例如,反变换单元88可确定表示将变换(例如,DCT、整数变换、小波变换或一个或一个以上其它变换)应用于与所接收的视频数据的块相关联的残余明度样本和残余色度样本的方式的RQT。
[0117]在运动补偿单元82基于运动向量和其它语法元素产生当前视频块的预测性块之后,视频解码器30通过对来自反变换单元88的残余块与由运动补偿单元82产生的对应预测性块求和而形成经解码的视频块。求和器90表示执行此求和运算的(多个)组件。必要时,还可应用解块滤波器来对经解码的块进行滤波,以便移除块性效应假影。其它回路滤波器(译码回路中或译码回路后)还可用以使像素转变平滑,或以其它方式改进视频质量。接着将给定图片中的经解码的视频块存储于参考图片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存储器92还存储经解码的视频以用于稍后在显示装置(例如,图1的显示装置32)上呈现。[0118]图4为说明实例MVC预测模式的概念图。在图4的实例中,说明八个视图,且针对每一视图说明十二个时间位置。一般而言,图4中的每一行对应于一视图,而每一列指不一时间位置。可使用视图识别符(“vieW_id”)来识别视图中的每一者,所述识别符可用以指示相对于其它视图的相对相机位置。在图4中所展示的实例中,将视图1D指示为“S0”到“S7”,但还可使用数字视图1D。另外,可使用指示图片的显示次序的图片次序计数(POC)值来识别时间位置中的每一者。在图4中所展示的实例中,将POC值指示为“T0”到“T11”。
[0119]尽管MVC具有可通过H.264/AVC解码器解码的所谓的基本视图且MVC可支持立体视图对,但MVC可支持两个以上视图作为3D视频输入。因此,具有MVC解码器的客户端的呈现器可预期具有多个视图的3D视频内容。
[0120]在图4中使用包括字母的着色块来指示图片,所述字母指定对应图片是经帧内译码(即,I帧)还是在一个方向上经帧间译码(即,作为P帧)或在多个方向上经帧间译码(即,作为B帧)。一般而言,用箭头指示预测,其中所指向(pointed-to)的图片将所指出(point-from)的对象用于预测参考。举例来说,从视图SO的处于时间位置TO的I巾贞来预测视图S2的处于时间位置TO的P帧。
[0121]如同单视图视频编码,可关于处于不同时间位置的图片预测性地编码多视图视频序列的图片。举例来说,视图SO的处于时间位置Tl的b帧具有从视图SO的处于时间位置TO的I帧指向其的箭头,从而指示从I帧预测所述b帧。然而,另外,在多视图视频编码的上下文中,可以视图间的方式预测图片。即,视图分量可将其它视图中的视图分量用于参考。举例来说,在MVC中,实现视图间预测,就好像另一视图中的视图分量为帧间预测参考一样。在序列参数集(SPS)MVC扩展中用信号发送可能的视图间参考,且可通过参考图片列表建构过程来修改可能的视图间参考,此举实现帧间预测或视图间预测参考的灵活排序。
[0122]图4提供视图间预测的各种实例。在图4的实例中,将视图SI的图片说明为从视图SI的处于不同时间位置处的图片而预测,以及从视图SO与S2的处于相同时间位置的图片的图片而视图间预测。举例来说,从视图SI的处于时间位置TO与T2的B帧中的每一者以及视图SO与S2的处于时间位置Tl的b帧预测视图SI的处于时间位置Tl的b帧。
[0123]在图4的实例中,大写字母“B”和小写字母“b”意欲指示图片之间的不同阶层关系而非不同编码方法。一般而言,相比于小写字母“b”帧,大写字母“B”帧在预测阶层中相对较高。图4还使用不同程度的着色来说明预测阶层的变化,其中相比于具有较少着色(即,相对较浅)的那些图片,较大量的着色(即,相对较深)图片在预测阶层中较高。举例来说,以完全着色来说明图4中的所有I帧,而P帧具有稍微较浅的着色,且B帧(和小写字母b帧)具有相对于彼此的各种程度的着色,但始终浅于P帧和I帧的着色。
[0124]一般而言,预测阶层与视图次序索引有关,这是因为应在解码在预测阶层中相对较低的图片之前解码在所述阶层中相对较高的图片,以使得在所述阶层中相对较高的那些图片可在解码在所述阶层中相对较低的图片期间用作参考图片。视图次序索引为指示存取单元中的视图分量的解码次序的索引。可在参数集(例如,SPS)中暗示视图次序索引。
[0125]以此方式,用作参考图片的图片可在解码参考所述参考图片而编码的图片之前予以解码。视图次序索引为指示存取单元中的视图分量的解码次序的索引。对于每一视图次序索引i,用信号发送对应view_id。视图分量的解码遵循视图次序索引的升序。如果呈现所有视图,则视图次序索引的集合包含从零到比视图的总数小一的经连续排序的集合。[0126]在MVC中,可提取整个位流的子集以形成仍符合MVC的子位流。存在特定应用基于(例如)以下各项而可能需要的许多可能的子位流:由服务器提供的服务、一个或一个以上客户端的解码器的容量、支持和能力,和/或一个或一个以上客户端的偏好。举例来说,客户端可能仅需要三个视图,且可能存在两种情况。在一实例中,一个客户端可能需要平滑观看体验且可偏好具有view_id值S0、S1和S2的视图,而另一其它客户端可能需要视图可缩放性且偏好具有view_id值S0、S2和S4的视图。注意,可将这些两个子位流解码为独立MVC位流,且可同时支持这些两个子位流。[0127]图5为说明当执行运动向量预测(包括合并模式)时的可能的运动向量预测符候选者的方框图。即,对于当前正经译码的块100,来自相邻块Ac^ Ap Bc^ B1和B2的运动信息(例如,包含水平分量和垂直分量的运动向量、运动向量索引、预测方向或其它信息)可用以预测块100的运动信息。另外,与位于同一地点的块COL相关联的运动信息还可用以预测块100的运动信息。在运动向量预测的上下文中,相邻块&、A1, B0, B1和B2以及位于同一地点的块COL可大体上在下文被称作运动向量预测符候选者。
[0128]在一些实例中,可在执行运动向量预测(例如,不管是产生MVD还是执行合并模式)时识别图5中所展示的运动向量预测符候选者。在其它实例中,可在执行合并模式和运动向量预测时识别不同候选者。即,视频译码器可识别用于执行合并模式的运动向量预测符候选者的集合,所述集合与用于执行运动向量预测的运动向量预测符候选者的集合不同。
[0129]为了执行合并模式,在一实例中,视频编码器(例如,视频编码器20)可最初确定来自运动向量预测符候选者的哪些运动向量可用于与块100合并。即,在一些例子中,归因于(例如)运动向量预测符候选者中的一者或一者以上正经帧内译码、尚未经译码或不存在(例如,运动向量预测符候选者中的一者或一者以上位于另一图片或切片中),可使运动向量预测符候选者的运动信息不可用。视频编码器20可建构包括可用运动向量预测符候选块中的每一者的运动向量预测符候选者列表。
[0130]在建构候选者列表之后,视频编码器20可从所述候选者列表选择运动向量以用作当前块100的运动向量。在一些实例中,视频编码器20可从候选者列表选择与块100的运动向量最佳匹配的运动向量。即,视频编码器20可根据速率失真分析从候选者列表选择运动向量。
[0131]视频编码器20可提供块100是使用合并模式予以编码的指示。举例来说,视频编码器20可设定指示块100的运动向量是使用合并模式予以预测的旗标或其它语法元素。在一实例中,视频编码器20可指示:块100的帧间预测参数是通过设定merge_flag[xO] [y0]而从运动向量预测符候选者推断出。在此实例中,阵列索引x0、y0可指定预测块的左上方明度样本相对于图片(或切片)的左上方明度样本的位置(x0,y0)。
[0132]另外,在一些实例中,视频编码器20可提供识别特定合并候选者的索引,块100从所述合并候选者继承其运动向量。举例来说,merge_idx[xO] [y0]可指定合并候选者索引,合并候选者索引识别合并候选者列表中的图片,且其中x0、y0指定预测块的左上方明度样本相对于图片(或切片)的左上方明度样本的位置(x0,y0)。
[0133]视频解码器(例如,视频解码器30)可在解码块100时执行类似步骤以识别适当合并候选者。举例来说,视频解码器30可接收块100是使用合并模式予以预测的指示。在一实例中,视频解码器30可接收merge_flag[xO] [y0],其中(x0,y0)指定预测块的左上方明度样本相对于图片(或切片)的左上方明度样本的位置。
[0134]另外,视频解码器30可建构合并候选者列表。举例来说,视频解码器30可接收指示可用于运动向量预测的视频块的一个或一个以上语法元素(例如,旗标)。视频解码器30可基于所接收的旗标而建构合并候选者列表。根据一些实例,视频解码器30可根据以下序列建构合并候选者列表(例如,mergeCandList):
[0135]1.A1,如果 availableFlagA:等于 I
[0136]2.B1,如果 availableFlagB:等于 I
[0137]3.B。,如果 avaiIableFlagBtl 等于 I
[0138]4.Atl,如果 avaiIableFlagAtl 等于 I
[0139]5.B2,如果 availableFlagB2 等于 I
[0140]6.Col,如果 availableFlagCol 等于 I
[0141]如果若干合并候选者具有相同运动向量和相同参考索引,则可从列表移除所述合并候选者。
[0142]视频解码器30可根据所接收的索引识别适当合并候选者。举例来说,视频解码器30可接收识别特定合并候选者的索引,块100从所述合并候选者继承其运动向量。在一实例中,merge_idX[X0] [y0]可指定合并候选者索引,合并候选者索引识别合并候选者列表中的图片,且其中x0、y0指定预测块的左上方明度样本相对于图片(或切片)的左上方明度样本的位置(x0,y0)。
[0143]在一些实例中,视频解码器30可在使候选块的运动信息与块100合并之前缩放运动向量预测符。举例来说,关于时间运动向量预测符,如果所述运动向量预测符指代参考图片中的特定预测性块,则视频解码器30可缩放所述运动向量预测符,所述预测性块位于与由块100(例如,块100的实际运动向量)所指代的预测性块不同的时间位置中。举例来说,视频解码器30可缩放运动向量预测符,使得其指代与块100的参考图片相同的参考图片。在一些实例中,视频解码器30可根据图片次序计数(POC)值的差而缩放运动向量预测符。即,视频解码器30可基于以下两者的差而缩放运动向量预测符:候选块与由运动向量预测符所指代的预测性块之间的POC距离,和块100与当前参考图片(例如,由块100的实际运动向量所指代)之间的POC距离。在选择适当运动向量预测符之后,视频解码器30可将与运动向量预测符相关联的运动信息与块100的运动信息合并。
[0144]可通过视频编码器20和视频解码器30实施类似过程以执行视频数据的当前块的运动向量预测。举例来说,视频编码器20可最初确定来自运动向量预测符候选者的哪些运动向量可用作MVP。归因于(例如)运动向量预测符候选者中的一者或一者以上正经巾贞内译码、尚未经译码或不存在,来自所述运动向量预测符候选者的运动信息可能不可用。
[0145]为了确定哪些运动向量预测符候选者可用,视频编码器20可又根据基于优先权的预定方案而分析运动向量预测符候选者中的每一者。举例来说,对于每一运动向量预测符候选者,视频编码器20可确定运动向量预测符是否指代与块100的实际运动向量相同的参考图片。如果运动向量预测符指代相同参考图片,则视频编码器20可将所述运动向量预测符候选者添加到MVP候选者列表。如果运动向量预测符不指代相同参考图片,则可在将运动向量预测符添加到MVP候选者列表之前缩放所述运动向量预测符(例如,基于POC距离而缩放,如上文所论述)。
[0146]关于位于同一地点的块C0L,如果所述位于同一地点的块包括一个以上运动向量预测符(例如,COL经预测为B帧),则视频编码器20可根据当前列表和当前参考图片(针对块100)选择时间运动向量预测符中的一者。视频编码器20可接着将选定时间运动向量预测符添加到运动向量预测符候选者列表。
[0147]视频编码器20可用信号发送如下信息:通过设定enable_temporal_mvp_flag而使一个或一个以上运动向量预测符可用。在建置候选者列表之后,视频编码器20可从候选者选择待用作块100的运动向量预测符的运动向量。在一些实例中,视频编码器20可根据速率失真分析选择候选运动向量。
[0148]视频编码器20可使用识别候选者列表中的MVP的MVP索引(mvp_flag)而用信号发送选定运动向量预测符。举例来说,视频编码器20可设定mvpl0flag[x0] [y0]以指定列表0的运动向量预测符索引,其中x0、y0指定候选块的左上方明度样本相对于图片的左上方明度样本的位置(x0,y0)。在另一实例中,视频编码器20可设定mvpllflag[xO] [y0]以指定列表I的运动向量预测符索引,其中x0、y0指定候选块的左上方明度样本相对于图片的左上方明度样本的位置(x0,y0)。在又一实例中,视频编码器20可设定mvp Ic flag[x0][y0]以指定列表c的运动向量预测符索引,其中x0、y0指定候选块的左上方明度样本相对于图片的左上方明度样本的位置(x0,y0)。
[0149]视频编码器20还可产生运动向量差值(MVD)。MVD可构成选定运动向量预测符与块100的实际运动向量之间的差。视频编码器20可用信号发送MVD与MVP索引。
[0150]视频解码器30可使用运动向量预测符执行类似操作以确定当前块的运动向量。举例来说,视频解码器30可在参数集(例如,图片参数集(PPS))中接收指示针对一个或一个以上图片启用运动向量预测的指示。即,在一实例中,视频解码器30可在PPS中接收enable_temporal_mvp_flag。当特定图片参考具有等于零的 enabIe_temporal_mvp_flag的PPS时,参考图片存储器中的参考图片可被标记为“不用于时间运动向量预测”。
[0151]如果实施运动向量预测,则在接收块100后,视频解码器30可即刻建构MVP候选者列表。视频解码器30可使用上文关于视频编码器20所论述的相同方案来建构MVP候选者列表。在一些例子中,视频解码器30可执行类似于上文关于视频编码器20所描述的运动向量缩放的运动向量缩放。举例来说,如果运动向量预测符不指代与块100相同的参考图片,则可在将运动向量预测符添加到MVP候选者列表之前缩放所述运动向量预测符(例如,基于POC距离而缩放,如上文所论述)。视频解码器30可使用识别候选者列表中的MVP的所接收的MVP索引(mvp_flag)而识别块100的适当运动向量预测符。视频解码器30可接着使用MVP和所接收的MVD产生块100的运动向量。
[0152]图5大体上说明单视图中的合并模式和运动向量预测。应理解,图5中所展示的运动向量预测符候选块仅出于实例的目的而提供,为实现预测运动信息的目的,可使用更多、更少或不同的块。根据本发明的方面,如下文所描述,当译码一个以上视图时(例如,在MVC中),还可应用合并模式和运动向量预测。在这些例子中,运动向量预测符和预测性块可位于与块100不同的视图中。
[0153]图6为说明在多视图译码中产生和缩放运动向量预测符的概念图。举例来说,根据本发明的方面,视频译码器(例如,视频编码器20或视频解码器30)可缩放来自视差运动向量预测符候选块122 ( “候选块”)的视差运动向量120 (mv),以产生当前块126的运动向量预测符124 (mv’)。虽然相对于视频解码器30来描述图6,但应理解,可通过多种其它视频译码器实施本发明的技术,其它视频编码器包括其它处理器、处理单元、例如编码器/解码器(CODEC)等基于硬件的译码单元,和其类似者。
[0154]在图6的实例中,在视图分量2(view_id2)中,候选块122在空间上与当前块126相邻。候选块122经帧间预测,且包括指代(或“指向”)视图分量0(vieW_id0)中的预测性块的运动向量120。举例来说,运动向量120的目标图片在视图2(view_id2)中且其参考图片在视图0 (view_id0)中。当前块126还经帧间预测,且包括指代视图分量I (view_idl)中的预测性块的实际 运动向量(图中未展示)。即,例如,当前块126的实际运动向量的目标图片在视图2(view_id2)中且其参考块在视图1 (view_idl)中。
[0155]根据本发明的方面,视频解码器30可使用运动向量120的缩放的版本来产生当前块126的运动向量预测符124。举例来说,视频解码器30可基于运动向量120与当前块126的实际运动向量之间的视距差而缩放运动向量120。即,视频解码器30可基于以下两者之间的差而缩放运动向量120:用以俘获候选块122的预测性块(在参考图片中)的相机的相机位置,和用以俘获当前块126的预测性块(在参考图片中)的相机的相机位置。因此,视频解码器30可根据以下两者之间的差而缩放视差运动向量120(例如,用于预测的运动向量):由候选块122的运动向量120所指代的视图分量,和由当前块126的实际运动向量所指代的视图分量。
[0156]在一实例中,视频解码器30可根据以下所展示的等式(I)来产生当前块的缩放的运动向量预测符:
, VicwDislance{mv V
[0157]mv = mv --(IJ

1、ViewDislancc{mv) j
[0158]其中ViewDistance (mv)等于运动向量120的参考图片的视图1D (例如,ViewId (RefPic (mv))与运动向量 120 的目标图片的视图1D (例如,ViewId (TargetPic (mv))之间的差,且ViewDistance (mv')等于运动向量预测符124的参考图片的视图1D (例如,ViewId (RefPic (mv '))与运动向量预测符124的目标图片的视图1D (例如,ViewId(TargetPic (mv'))之间的差。因此,在此实例中,运动向量预测符124的参考图片RefPicOiiv')属于新目标视图,且运动向量预测符124的目标图片TargetPicOiiv')属于当前视图。类似地,运动向量120的参考图片RefPic (mv)属于候选运动向量所指向的视图,且运动向量120的目标图片TargetPicOw)属于当前视图。因此,视频解码器30可根据以下等式(2)来产生缩放的运动向量预测符:
[0159]
, (ViewlDi 新目标、- ViewlT^ 当前)\^
mv =mv -j^~r;-—7——(2)
Iv ViewID(候选)-ViewId、当月U) J
[0160]其中mv’表示当前块的缩放的运动向量预测符,mv表示候选块的运动向量,ViewID(新目标)为由当前块的实际运动向量所指代的视图分量,ViewID(当前)为当前块的视图分量,且ViewID (候选)为候选块的视图分量。
[0161]在将等式⑵应用于图6中的实例的情况下,mv/表示当前块126的缩放的运动向量预测符,mv表示运动向量120, ViewID(新目标)为由运动向量124所指代的视图分量,ViewID (当前)为当前块126的视图分量,且ViewID (候选)为候选块122的视图分量。因此,在图4中所展示的实例中,运动向量预测符124为缩放到一半的运动向量120(例如,
【权利要求】
1.一种译码视频数据的方法,所述方法包含: 从第一视图识别第一时间位置中的视频数据的第一块,其中视频数据的所述第一块与第一时间运动向量相关联; 在与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块是来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符;以及 使用所述运动向量预测符译码所述第二块的预测数据。
2.根据权利要求1所述的方法,其中,在所述第二运动向量为视差运动向量时,停用从所述第一运动向量确定所述运动向量预测符的能力。
3.根据权利要求1所述的方法,其进一步包含:在所述第二运动向量为时间运动向量且所述第二视图不同于所述第一视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符。
4.根据权利要求3所述的方法,其进一步包含:在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片相同的图片次序计数POC值时,确定所述运动向量预测符而不缩放所述运动向量预测符。
5.根据权利要求3所述的方法,其进一步包含:在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片不同的POC时,在确定所述运动向量预测符之前基于所述第一时间运动向量与所述第二时间运动向量之间的时间距离的差而缩放所述第一运动向量。
6.根据权利要求5所述 的方法,其中所述时间距离包含运动向量的参考图片与目标图片之间的POC差。
7.根据权利要求3所述的方法,其进一步包含:在所述第二运动向量的参考图片具有与所述第二运动向量的参考图片相同的POC时,停用基于所述第一时间运动向量确定所述运动向量预测符的能力。
8.根据权利要求1所述的方法,其中译码所述预测数据包含使用所述运动向量预测符译码运动向量差值。
9.根据权利要求1所述的方法,其进一步包含通过识别所述第二视图的图片中与所述第一块的位置位于同一地点的位置而定位所述第二块,所述第二块的所述位置在所述第二视图不同于所述第一视图时根据所述第一视图的所述第一块与所述第二视图的所述第二块之间的视差而调整。
10.根据权利要求1所述的方法,其进一步包含建构候选者列表,所述候选者列表含有识别包括视频数据的所述第二块和视频数据的一个或一个以上其它块的图片的数据。
11.根据权利要求10所述的方法,其中识别包括视频数据的所述第二块的所述图片包含使用到所述候选者列表的索引来定位所述候选者列表中包括视频数据的所述第二块的所述图片。
12.根据权利要求1所述的方法,其中译码视频数据的所述第二块包含编码所述第二块。
13.根据权利要求1所述的方法,其中译码视频数据的所述第二块包含解码所述第二块。
14.一种用于译码视频数据的设备,其包含经配置以执行以下操作的一个或一个以上处理器: 从第一视图识别第一时间位置中的视频数据的第一块,其中视频数据的所述第一块与第一时间运动向量相关联; 在与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块是来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符;以及 使用所述运动向量预测符译码所述第二块的预测数据。
15.根据权利要求14所述的设备,其中所述一个或一个以上处理器进一步经配置以在所述第二运动向量为视差运动向量时,停用从所述第一运动向量确定所述运动向量预测符的能力。
16.根据权利要求15所述的设备,其中所述一个或一个以上处理器进一步经配置以在所述第二运动向量为时间运动向量且所述第二视图不同于所述第一视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符。
17.根据权利要求16所述的设备,其中所述一个或一个以上处理器进一步经配置以在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片相同的图片次序计数POC值时,确定所述运动向量预测符而不缩放所述运动向量预测符。`
18.根据权利要求16所述的设备,其中所述一个或一个以上处理器进一步经配置以在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片不同的POC时,在确定所述运动向量预测符之前基于所述第一时间运动向量与所述第二时间运动向量之间的时间距离的差而缩放所述第一运动向量。
19.根据权利要求18所述的设备,其中所述时间距离包含运动向量的参考图片与目标图片之间的POC差。
20.根据权利要求16所述的设备,其中所述一个或一个以上处理器进一步经配置以在所述第二运动向量的参考图片具有与所述第二运动向量的参考图片相同的POC时,停用基于所述第一时间运动向量确定所述运动向量预测符的能力。
21.根据权利要求14所述的设备,其中所述一个或一个以上处理器经配置以通过使用所述运动向量预测符译码运动向量差值来译码所述预测数据。
22.根据权利要求14所述的设备,其中所述一个或一个以上处理器进一步经配置以通过识别所述第二视图的图片中与所述第一块的位置位于同一地点的位置而定位所述第二块,所述第二块的所述位置在所述第二视图不同于所述第一视图时根据所述第一视图的所述第一块与所述第二视图的所述第二块之间的视差而调整。
23.根据权利要求14所述的设备,其中所述一个或一个以上处理器进一步经配置以建构候选者列表,所述候选者列表含有识别包括视频数据的所述第二块和视频数据的一个或一个以上其它块的图片的数据。
24.根据权利要求23所述的设备,其中,为了识别包括视频数据的所述第二块的所述图片,所述一个或一个以上处理器经配置以使用到所述候选者列表的索引来定位所述候选者列表中包括视频数据的所述第二块的所述图片。
25.根据权利要求14所述的设备,其中为了译码视频数据的所述第二块,所述一个或一个以上处理器经配置以编码所述第二块。
26.根据权利要求14所述的设备,其中为了译码视频数据的所述第二块,所述一个或一个以上处理器经配置以解码所述第二块。
27.一种用于译码视频数据的设备,其包含: 用于从第一视图识别第一时间位置中的视频数据的第一块的装置,其中视频数据的所述第一块与第一时间运动向量相关联; 用于在与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块是来自第二视图时基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符的装置;以及 用于使用所述运动向量预测符译码所述第二块的预测数据的装置。
28.根据权利要求27所述的设备,其进一步包含用于在所述第二运动向量为视差运动向量时停用从所述第一运动向量确定所述运动向量预测符的能力的装置。
29.根据权利要求28所述的设备,其进一步包含用于在所述第二运动向量为时间运动向量且所述第二视图不同于所述第一视图时基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符的装置。
30.根据权利要求28所述的设备,其进一步包含在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片相同的图片次序计数POC值时,用于确定所述运动向量预测符而不缩放所述运动向量预测符的装置。
31.根据权利要求28所述的设备,其进一步包含在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片不同的POC时,用于在确定所述运动向量预测符之前基于所述第一时间运动向量与所述第二时间运动向量之间的时间距离的差而缩放所述第一运动向量的装置。
32.根据权利要求31所述的设备,其中所述时间距离包含运动向量的参考图片与目标图片之间的POC差。
33.根据权利要求28所述的设备,其进一步包含在所述第二运动向量的参考图片具有与所述第二运动向量的参考图片相同的POC时,用于停用基于所述第一时间运动向量确定所述运动向量预测符的能力的装置。
34.根据权利要求27所述的设备,其中所述用于译码所述预测数据的装置包含用于使用所述运动向量预测符译码运动向量差值的装置。
35.根据权利要求27所述的设备,其进一步包含用于通过识别所述第二视图的图片中与所述第一块的位置位于同一地点的位置而定位所述第二块的装置,所述第二块的所述位置在所述第二视图不同于所述第一视图时根据所述第一视图的所述第一块与所述第二视图的所述第二块之间的视差而调整。
36.根据权利要求27所述的设备,其进一步包含用于建构候选者列表的装置,所述候选者列表含有识别包括视频数据的所述第二块和视频数据的一个或一个以上其它块的图片的数据。
37.根据权利要求36所述的设备,其进一步包含用于使用到所述候选者列表的索引来定位所述候选者列表中包括视频数据的所述第二块的所述图片的装置。
38.根据权利要求27所述的设备,其中用于译码视频数据的所述第二块的装置包含用于编码所述第二块的装置。
39.根据权利要求27所述的设备,其中用于译码视频数据的所述第二块的装置包含用于解码所述第二块的装置。
40.一种在其上存储有指令的计算机可读存储媒体,所述指令在执行时致使一个或一个以上处理器执行以下步骤: 从第一视图识别第一时间位置中的视频数据的第一块,其中视频数据的所述第一块与第一时间运动向量相关联; 在与视频数据的第二块相关联的第二运动向量包含时间运动向量且所述第二块是来自第二视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符;以及 使用所述运动向量预测符译码所述第二块的预测数据。
41.根据权利要求40所述的计算机可读存储媒体,其进一步包含在所述第二运动向量为视差运动向量时,致使所述一个或一个以上处理器停用从所述第一运动向量确定所述运动向量预测符的能力的指令。
42.根据权利要求41所述的计算机可读存储媒体,其进一步包含致使所述一个或一个以上处理器在所述第二运动向量为时间运动向量且所述第二视图不同于所述第一视图时,基于所述第一时间运动向量确定所述第二运动向量的运动向量预测符的指令。
43.根据权利要求42所述的计算机可读存储媒体,其进一步包含在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片相同的图片次序计数POC值时,致使所述一个或一个以上处理器确定 所述运动向量预测符而不缩放所述运动向量预测符的指令。
44.根据权利要求42所述的计算机可读存储媒体,其进一步包含在所述第二运动向量的参考图片具有与所述第一运动向量的参考图片不同的POC时,致使所述一个或一个以上处理器在确定所述运动向量预测符之前基于所述第一时间运动向量与所述第二时间运动向量之间的时间距离的差而缩放所述第一运动向量的指令。
45.根据权利要求44所述的计算机可读存储媒体,其中所述时间距离包含运动向量的参考图片与目标图片之间的POC差。
46.根据权利要求42所述的计算机可读存储媒体,其进一步包含在所述第二运动向量的参考图片具有与所述第二运动向量的参考图片相同的POC时,致使所述一个或一个以上处理器停用基于所述第一时间运动向量确定所述运动向量预测符的能力的指令。
47.根据权利要求40所述的计算机可读存储媒体,其中致使所述一个或一个以上处理器译码所述预测数据的所述指令包含致使所述一个或一个以上处理器使用所述运动向量预测符译码运动向量差值的指令。
48.根据权利要求40所述的计算机可读存储媒体,其进一步包含致使所述一个或一个以上处理器通过识别所述第二 视图的图片中与所述第一块的位置位于同一地点的位置而定位所述第二块的指令,所述第二块的所述位置在所述第二视图不同于所述第一视图时根据所述第一视图的所述第一块与所述第二视图的所述第二块之间的视差而调整。
49.根据权利要求40所述的计算机可读存储媒体,其进一步包含致使所述一个或一个以上处理器建构候选者列表的指令,所述候选者列表含有识别包括视频数据的所述第二块和视频数据的一个或一个以上其它块的图片的数据。
50.根据权利要求49所述的计算机可读存储媒体,其进一步包含致使所述一个或一个以上处理器使用到所述候选者列表的索引来定位所述候选者列表中包括视频数据的所述第二块的所述图片的指令。
51.根据权利要求40所述的计算机可读存储媒体,其中致使所述一个或一个以上处理器译码视频数据的所述第二块的指令包含致使所述一个或一个以上处理器编码所述第二块的指令。
52.根据权利要求40所述的计算机可读存储媒体,其中致使所述一个或一个以上处理器译码视频数据的所述第二块的指令包含致使所述一个或一个以上处理器解码所述第二块的指令。
【文档编号】H04N19/513GK103650505SQ201280019189
【公开日】2014年3月19日 申请日期:2012年4月20日 优先权日:2011年4月20日
【发明者】陈盈, 陈培松, 马尔塔·卡切维奇 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1