3d视频译码中针对跳过和直接模式的视差向量导出的制作方法

文档序号:9355720阅读:340来源:国知局
3d视频译码中针对跳过和直接模式的视差向量导出的制作方法
【专利说明】
[0001] 本申请案主张2013年3月19日申请的第61/803, 429号美国临时专利申请案的 权益,所述临时专利申请案的整个内容以引用的方式并入本文中。
技术领域
[0002] 本发明涉及视频编码和视频解码。
【背景技术】
[0003] 数字视频能力可并入到较宽范围的装置中,包括数字电视、数字直播系统、无线 广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、数字媒 体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置 等。数字视频装置实施视频压缩技术,例如由MPEG-2 ;MPEG-4 ;ITU-T H. 263 ;ITU-TH. 264/ MPEG-4,第10部分;高级视频译码(AVC)、高效视频译码(HEVC)标准以及此类标准的扩展 界定的标准中所描述的那些技术,来更高效地发射、接收和存储数字视频信息。
[0004] 视频压缩技术包含空间预测和/或时间预测来减少或去除视频序列中固有的冗 余。对于基于块的视频译码,可将视频帧或切片分割为若干块。可进一步分割每一块。相 对于经帧内译码(I)帧或切片中的相邻块中的参考样本,使用空间预测来编码同一帧或切 片中的块。经帧间译码(P或B)帧或切片中的块可相对于同一帧或切片中的相邻块中的参 考样本使用空间预测,或相对于其它参考帧中的参考样本使用时间预测。空间或时间预测 产生待译码块的预测块。残余数据表示待译码的原始块与预测块之间的像素差。
[0005] 根据运动向量和残余数据来编码经帧间译码的块,运动向量指向形成预测块的参 考样本块,且残余数据指示经译码块与预测块之间的差异。根据帧内译码模式和残余数据 来编码经帧内译码的块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生 残余变换系数,其接着可量化。可以特定次序扫描经量化的变换系数,最初布置成二维阵 列,以产生变换系数的一维向量来用于熵译码。

【发明内容】

[0006] 本发明涉及基于高级编解码器的多视图视频译码和3维(3D)视频译码,包含用 3D高级视频译码(AVC)编解码器对两个或两个以上视图的译码。更具体地说,技术与跳过 和直接模式的视差向量导出有关。如本文所述,视频解码器可执行基于相邻块的视差向量 (NBDV)导出过程来确定视差向量,或执行NBDV细化(NBDV-R)过程来确定视差向量。当在 跳过模式或直接模式下译码当前块时,视频解码器使用所述视差向量作为当前块的视差向 量,而不对多个视差运动向量使用中值滤波过程。此外,视频解码器确定当前块的像素值。
[0007] 在一个实例中,本发明描述一种解码视频数据的方法,所述方法包括:执行NBDV 导出过程来确定视差向量,或执行NBDV-R过程来确定所述视差向量;使用视差向量作为视 频数据的当前块的视差向量,而不对多个视差运动向量使用中值滤波过程,其中在跳过模 式或直接模式下译码当前块;以及确定当前块的像素值。
[0008] 在另一实例中,本发明描述一种编码视频数据的方法,所述方法包括:执行NBDV 导出过程以确定视差向量,或执行NBDV-R过程以确定所述视差向量;使用所述视差向量作 为视频数据的当前块的视差向量,而不对多个视差运动向量使用中值滤波过程,其中在跳 过模式或直接模式下译码当前块;以及对包含当前块的当前切片的语法元素进行熵编码。
[0009] 在另一实例中,本发明描述一种装置,其包括:存储器,其存储经解码的视频块; 一个或一个以上处理器,其经配置以:执行NBDV导出过程以确定视差向量,或执行NBDV-R 过程以确定视差向量;以及使用所述视差向量作为视频数据的当前块的视差向量,而不对 多个视差运动向量使用中值滤波过程,其中在跳过模式或直接模式下译码当前块。
[0010] 在另一实例中,本发明描述一种装置,其包括:用于执行NBDV导出过程以确定视 差向量或执行NBDV-R过程以确定视差向量的装置;以及用于使用视差向量作为视频数据 的当前块的视差向量而不对多个视差运动向量使用中值滤波过程的装置,其中在跳过模式 或直接模式下译码当前块。
[0011] 在另一实例中,本发明描述一种上面存储有指令的非暂时性计算机可读数据存储 媒体,所述指令在被执行时,致使视频译码装置:执行NBDV导出过程以确定视差向量,或执 行NBDV-R过程以确定所述视差向量;且使用所述视差向量作为视频数据的当前块的视差 向量,而不对多个视差运动向量使用中值滤波过程,其中在跳过模式或直接模式下译码当 前块。
[0012] 在附图和下文的描述中陈述本发明的一个或一个以上实例的细节。将从描述、图 式和所附权利要求书中明白其它特征、目标和优点。
【附图说明】
[0013] 图1是说明可利用本发明中所描述的技术的实例视频编码和解码系统的框图。
[0014] 图2是说明实例多视图视频译码时间和视图间预测结构的概念图。
[0015] 图3是说明相对于当前宏块的空间邻域的实例的概念图。
[0016] 图4是说明基于向后翘曲的基于块的视图综合预测的实例的概念图。
[0017] 图5是说明相对于3D-HEVC中的当前预测单元的空间运动向量领域的实例的概念 图。
[0018] 图6是说明从参考视图导出深度块以用于基于块的视图综合预测的概念图。
[0019] 图7是说明可实施本发明中所描述的技术的实例视频编码器的框图。
[0020] 图8是说明可实施本发明中所描述的技术的实例视频解码器的框图。
[0021] 图9A是说明根据本发明一个或一个以上技术的视频编码器的实例操作的流程 图。
[0022] 图9B是说明根据本发明一个或一个以上技术的视频解码器的实例操作的流程 图。
【具体实施方式】
[0023] H. 264/AVC是视频译码标准。相似H. 264/AVC中,视频编码器可使用跳过模式或直 接模式(即,跳过/直接模式)来编码特定图片的至少一些视频块。当视频编码器使用跳 过模式来编码视频块时,视频编码器并不用信号通知所述视频块的运动信息或残余数据。 当视频编码器使用直接模式来编码视频块时,视频编码器并不用信号通知视频块的运动信 息,而是可用信号通知所述视频块的残余数据。
[0024] 3D-AVC是用于3维(3D)视频译码的H. 264/AVC标准的扩展。在3D-AVC中,图片 可与多个视图相关联。每一视图的图片可对应于来自不同相机位置的同一场景。在同一时 刻中但在不同视图中的图片之间可能存在相当大的冗余。举例来说,当前图片中的块的运 动向量可类似于视图间参考图片(即,在与当前图片相同的时刻中,但在不同视图中的先 前经译码图片)中的对应块的运动向量。
[0025] 在3D-AVC中,视频译码器可确定当前图片中的当前块的视差向量,且可接着使用 当前块的视差向量来确定视图间参考图片中的对应块。在3D-AVC的一些版本中,视频译码 器使用基于相邻块的视差向量(NBDV)导出过程来确定当前块的视差向量。当视频译码器 执行NBDV导出过程时,视频译码器可确定特定相邻块是否具有视差运动向量。如果所述相 邻块中的一者具有视差运动向量,那么视频译码器可将相邻块的视差运动向量转换成当前 块的视差向量。
[0026] 然而,如果使用跳过模式或直接模式来编码当前块,且所述相邻块中的一者具有 视差运动向量,那么视频译码器搜索额外相邻块以寻找额外视差运动向量。如果所述相邻 块中的一个以上具有视差运动向量,那么视频译码器将中值函数(例如,中值滤波过程)应 用于视差运动向量。视频译码器可使用所得视差运动向量作为当前块的视差向量。
[0027] 在3D-AVC的一些版本中,视频译码器可使用对应的深度块,或可使用基于块的视 图综合预测(BVSP)来细化未使用跳过模式或直接模式来编码的块的视差向量。然而,如果 使用跳过模式或直接模式来编码当前块,那么视频译码器不使用对应的深度块或BVSP来 细化当前块的视差向量。使用NBDV导出过程来确定的视差向量的细化在本文可称为NBDV 细化过程或NBDV-R过程。
[0028] 上文所述的用于确定视差向量的过程可能存在若干问题。举例来说,上文所述的 过程可导致同一块的不一致的视差向量,取决于以之编码所述块的模式。在另一实例中,上 文所述的过程可导致对空间相邻块的不必要检查。在另一实例中,计算多个视差运动向量 的中值函数可仅带来边缘译码效率益处,但可增加复杂性。
[0029] 本发明的技术可解决这些和/或其它问题。在一个实例中,视频译码器可执行 NBDV导出过程来确定视差向量,或可执行NBDV-R过程来确定视差向量。此外,视频译码器 可使用所确定的视差向量作为视频数据的当前块的视差向量,而不对多个视差运动向量使 用中值滤波过程,其中在跳过模式或直接模式下译码当前块。此类技术的实施方案可降低 视频编码器和/或视频解码器的复杂性。
[0030] 图1是说明根据本发明中所描述的一个或一个以上实例的实例视频编码和解码 系统10的框图如图1中所示,视频编码和解码系统10包含源装置12和目的地装置14。源 装置12产生经编码的视频数据。因此,源装置12可称为视频编码装置或视频编码设备。目 的地装置14可解码源装置12所产生的经编码的视频数据。因此,目的地装置14可称为视 频解码装置或视频解码设备。如本文所使用,术语"视频译码器"在属类上指代视频编码器 和视频解码器两者。在本发明中,术语"视频译码"或"译码"在属类上可指代视频编码或 视频解码。因此,源装置12和目的地装置14可为视频译码装置或视频译码设备的实例。
[0031] 源装置12和目的地装置14经配置以实施多视图译码(MVC)。在MVC中,源装置 12和目的地装置14各自译码不同视图的图片。当一起观看不同视图的图片时,观看者感知 包含3D体积的图像,而不是限于显示器的2D区域的图像。
[0032] 如图1中所示,系统10包含源装置12,其产生稍后时间将由目的地装置14解码的 经编码的视频数据。源装置12和目的地装置14包括较宽范围的装置中的任何一种,包含 无线手持机,例如所谓的"智能"电话、所谓的"智能"平板电脑,或其它此类经配备以用于 无线通信的无线装置。源装置12和目的地装置14的额外实例包含但不限于:数字电视、数 字直播系统中的装置、无线广播系统中的装置、个人数字助理(PDA)、膝上型计算机、桌上型 计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏 装置、视频游戏控制台、蜂窝式无线电话、卫星无线电话、视频电话会议装置、视频流式传输 装置等。
[0033] 目的地装置14可接收将经由链路16解码的经编码的视频数据。链路16可包括 任何类型的能够将经编码的视频数据从源装置12移到目的地装置14的媒体或装置。在一 个实例中,链路16包括通信媒体,以使源装置12能够将经编码的视频数据直接实时发射到 目的地装置14。经编码的视频数据可根据通信标准(例如无线通信协议)来调制,并发射 到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一个或 一个以上物理传输线。通信媒体可形成基于包的网络的一部分,例如局域网、广域网或全局 网络,例如因特网。通信媒体可包含路由器、交换机、基站,或可对促进从源装置12到目的 地装置14的通信有用的任何其它设备。
[0034] 在一些实例中,输出接口 22将经编码数据输出到存储装置34。类似地,输入接口 28从存储装置34存取经编码数据。存储装置34的实例包含多种分布式或本地存取数据 存储媒体中的任何一种,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非 易失性存储器,或任何其它用于存储经编码的视频数据的合适数字存储媒体。在另一实例 中,存储装置34包括文件服务器或另一中间存储装置,其存储源装置12所产生的经编码视 频。在这些实例中,目的地装置14例如,经由流式传输或下载,从存储装置34存取所存储 的视频数据。文件服务器可任何类型的能够存储经编码的视频数据并将所述经编码的视频 数据发射到目的地装置14的服务器。实例文件服务器包含网络服务器(例如,用于服务网 站)、文件传送协议(FTP)服务器、网络附加存储(NAS)装置、本地磁盘驱动器,或用于提供 文件的其它装置或系统。目的地装置14可通过任何标准数据连接,包含因特网连接,来存 取经编码的视频数据。标准数据连接可包含无线信道(例如,Wi-Fi连接),有线连接(例 如,DSL、电缆调制解调器等),或两者的适合存取存储在文件服务器上的经编码的视频数据 的组合。经编码的视频数据从存储装置34的传输可为流式传输、下载传输或两者的组合。
[0035] 本发明的技术不一定限于无线应用或设定。所述技术可在多种多媒体应用中的任 何一种的支持下应用于视频译码,例如空中电视广播、有线电视发射、卫星电视发射、流式 视频传输(例如,经由因特网)、对数字视频进行编码以存储在数据存储媒体上,对存储在 数据存储媒体上的数字视频进行解码,或其它应用。在一些实例中,系统10经配置以支持 单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应 用。
[0036] 在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口 22。在一 些实例中,输出接口 22包含调制器/解调器(调制解调器)和/或发射器。视频源18包 含视频捕获装置(例如,摄像机)、含有先前捕获的视频的视频档案、用以从视频内容提供 者接收视频的视频馈送接口,和/或用于产生计算机图形数据作为源视频的计算机图形系 统,此类来源的组合,或视频数据的任何其它来源中的一者或一者以上。在其中视频源18 为摄像机的一个实例中,源装置12和目的地装置14为所谓的相机电话或视频电话。然而, 本发明中所描述的技术一般来说适用于视频译码,且可适用于无线和/或有线应用。
[0037] 视频编码器20对所捕获的、预捕获的或计算机产生的视频进行编码。源装置12 的输出接口 22经配置以将经编码的视频数据发射到目的地装置14。经编码的视频数据也 可(或替代地)存储到存储装置34上,以供以后由目的地装置14或其它装置存取,用于解 码和/或重放。
[0038] 在图1的实例中,目的地装置14包含输入接口 28、视频解码器30和显示装置32。 在一些情况下,输入接口 28包含接收器和/或调制解调器。目的地装置14的输入接口 28 经由链路16或从存储装置34接收经编码的视频数据。经由链路16传送或提供于存储装 置34上的经编码的视频数据包含多种语法元素,其由视频编码器20产生以供视频解码器 (例如视频解码器30)用来解码视频数据。此类语法元素可与在通信媒体上传输、存储在存 储媒体上或存储在文件服务器中的经编码的视频数据包含在一起。
[0039] 显示装置32可与目的地装置14集成,或可在目的地装置14外部。在一些实例 中,目的地装置14包含集成显示装置,且还经配置以与外部显示装置介接。在其它实例中, 目的地装置14为显示装置。一般来说,显示装置32向用户显示经解码的视频数据,且包 括多种显示装置中的任何一种,例如液晶显示器(LCD)、等离子体显示器、有机发光二极管 (OLED)显示器,或另一类型的显示装置。
[0040] 尽管图1的中未展示,但在一些实例中,视频编码器20和视频解码器30各自与音 频编码器和解码器集成,且包含适当的MUX-DEMUX单元,或其它硬件和软件,来处置共用数 据流或单独数据流中的音频和视频两者的编码。如果适用,那么在一些实例中,mux-demux 单元符合ITUH. 223多路复用器协议,或其它协议,例如用户数据报协议(UDP)。
[0041] 视频编码器20和视频解码器30各自可实施为多种合适的编码器电路中的任何一 种,例如一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可 编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地在软件 中实施时,装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中,且可 在硬件中使用一个或一个以上处理器来执行所述指令,以实施本发明的技术。视频编码器 20和视频解码器30中的每一者可包含在一个或一个以上编码器或解码器中,其中的任一 者可集成为相应装置中的组合式编码器/解码器(编解码器)的一部分。视频编码器20 经配置以根据本发明中所描述的技术来编码视频数据,且视频解码器30经配置以根据本 发明中所描述的技术来解码视频数据。
[0042] 视频编码器20和视频解码器30可根据各种视频译码标准来操作。举例来说, 视频编码器20和视频解码器30可根据视频译码标准来操作,例如ITU-TH. 261、IS0/IEC MPEG-I 视觉、ITU-T H. 262 或 IS0/IEC MPEG-2 视觉、ITU-TH. 263、IS0/IEC MPEG-4 视觉和 ITU-T H. 264 (也称为IS0/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)、多视图视频译 码(MVC)和多视图加深度(MVC+D)扩展。"用于一般视听服务的高级视频译码",ITU-T建议 H. 264(2011年6月)中描述H. 264/AVC(下文称为"H. 264/AVC标准。"用于一般视听服 务的高级视频译码",ITU-T建议Η. 264 (2010年3月)中描述MVC的联合草案。
[0043] 现在,VCEG和MPEG的3D视频译码(JCT-3V)联合合作团队正在开发基于Η. 264/ AVC的3D视频(3DV)标准,即,3D-AVC。3D-AVC包含并支持除MVC所支持的视图间预测之 外的新的译码工具。用于3D-AVC的软件(即,3D-ATM)可从http://mpeg3dv. research. nokia.com/svn/mpeg3dv/tags/3DV_ATMv6· 2/下载。汉努克塞拉(Hannuksela)等人的 "304¥(:草案文本5",11'1^156 161?3和150/比(:11'(:1/5029/^11的30视频译码扩展开 发联合合作团队,第3次会议,日内瓦,瑞士,2013年1月17日到23日,文献JCT3V-C1002, 下文称"JCT3V-C1002",是3D-AVC的草案文本。自2014年2月28日起,JCT3V-C1002可 从 http://phenix. it-sudparis. eu/jct2/doc_end_user/documents/3_Geneva/wglI/ JCT3V-C1002-v3. zip 获得。
[0044] 在其它实例中,视频编码器20和视频解码器30可根据由ITU-T视频译码专家组 (VCEG)和IS0/IEC运动图片专家组(MPEG)的视频译码(JCT-VC)联合合作团队所开发的高 效视频译码(HEVC)标准,或其扩展来操作。现在,VCEG和MPEG的3D视频译码联合合作团 队(JCT-3C)正在开发基于HEVC的3DV标准,对于所述标准,标准化努力的一部分包含基于 HEVC的多视图视频编解码器(MV-HEVC)的标准化,且另一部分包含基于HEVC的3D视频译 码(3D-HEVC)的标准化。
[0045] 为了描述的目的,在H. 264/AVC标准及其扩展(例如3D-AVC标准)的上下文中描 述视频编码器20和视频解码器30。然而,本发明的技术不限于任何特定译码标准。举例 来说,本发明中所描述的技术可由视频编码器/解码器(编解码器)来实施,以用于多视图 译码(即,两个或两个以上视图的译码)。视频压缩标准的其它实例包含MPEG-2和ITU-T H. 263,且包含3D-HEVC。专有译码技术,例如称为0n2 VP6/VP7/VP8的那些技术,也可实施 本文所述的技术中的一者或一者以上。
[0046] 视频编码器20可产生和输出位流。如H. 264/AVC标准中所定义,位流可包括形成 构成一个或一个以上经译码视频序列的经译码的图片和相关联数据的表示的位序列。经译 码的图片是图片的经译码表示。在H. 264/AVC中,视频序列通常包含来自视图的一系列视 频图片。图片群组(GOP)通常包括一系列一个或一个以上视频图片。GOP可在GOP的标头、 GOP的一个或一个以上图片的标头中或别处包含语法数据,其描述包含在GOP中的若干图 片。每一经译码的图片可包含描述相应图片的编码模式的图片语法数据。视频编码器20 通常对个别视频图片内的视频块操作,以便编码视频数据。
[0047] 在H. 264/AVC中,视频块可对应于宏块、宏块的分区,且可能分区的子块,如 H. 264/AVC标准中所定义。视频块可具有固定或不同大小,且大小可根据指定译码标准而 不同
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1