3d视频译码中针对跳过和直接模式的视差向量导出的制作方法

文档序号：9355720阅读：340来源：国知局

3d视频译码中针对跳过和直接模式的视差向量导出的制作方法
【专利说明】
[0001] 本申请案主张2013年3月19日申请的第61/803, 429号美国临时专利申请案的权益，所述临时专利申请案的整个内容以引用的方式并入本文中。
技术领域
[0002] 本发明涉及视频编码和视频解码。
【背景技术】
[0003] 数字视频能力可并入到较宽范围的装置中，包括数字电视、数字直播系统、无线广播系统、个人数字助理（PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置等。数字视频装置实施视频压缩技术，例如由MPEG-2 ;MPEG-4 ;ITU-T H. 263 ;ITU-TH. 264/ MPEG-4,第10部分；高级视频译码（AVC)、高效视频译码（HEVC)标准以及此类标准的扩展界定的标准中所描述的那些技术，来更高效地发射、接收和存储数字视频信息。
[0004] 视频压缩技术包含空间预测和/或时间预测来减少或去除视频序列中固有的冗余。对于基于块的视频译码，可将视频帧或切片分割为若干块。可进一步分割每一块。相对于经帧内译码（I)帧或切片中的相邻块中的参考样本，使用空间预测来编码同一帧或切片中的块。经帧间译码（P或B)帧或切片中的块可相对于同一帧或切片中的相邻块中的参考样本使用空间预测，或相对于其它参考帧中的参考样本使用时间预测。空间或时间预测产生待译码块的预测块。残余数据表示待译码的原始块与预测块之间的像素差。
[0005] 根据运动向量和残余数据来编码经帧间译码的块，运动向量指向形成预测块的参考样本块，且残余数据指示经译码块与预测块之间的差异。根据帧内译码模式和残余数据来编码经帧内译码的块。为了进一步压缩，可将残余数据从像素域变换到变换域，从而产生残余变换系数，其接着可量化。可以特定次序扫描经量化的变换系数，最初布置成二维阵列，以产生变换系数的一维向量来用于熵译码。

【发明内容】

[0006] 本发明涉及基于高级编解码器的多视图视频译码和3维（3D)视频译码，包含用 3D高级视频译码（AVC)编解码器对两个或两个以上视图的译码。更具体地说，技术与跳过和直接模式的视差向量导出有关。如本文所述，视频解码器可执行基于相邻块的视差向量 (NBDV)导出过程来确定视差向量，或执行NBDV细化（NBDV-R)过程来确定视差向量。当在跳过模式或直接模式下译码当前块时，视频解码器使用所述视差向量作为当前块的视差向量，而不对多个视差运动向量使用中值滤波过程。此外，视频解码器确定当前块的像素值。
[0007] 在一个实例中，本发明描述一种解码视频数据的方法，所述方法包括：执行NBDV 导出过程来确定视差向量，或执行NBDV-R过程来确定所述视差向量；使用视差向量作为视频数据的当前块的视差向量，而不对多个视差运动向量使用中值滤波过程，其中在跳过模式或直接模式下译码当前块；以及确定当前块的像素值。
[0008] 在另一实例中，本发明描述一种编码视频数据的方法，所述方法包括：执行NBDV 导出过程以确定视差向量，或执行NBDV-R过程以确定所述视差向量；使用所述视差向量作为视频数据的当前块的视差向量，而不对多个视差运动向量使用中值滤波过程，其中在跳过模式或直接模式下译码当前块；以及对包含当前块的当前切片的语法元素进行熵编码。
[0009] 在另一实例中，本发明描述一种装置，其包括：存储器，其存储经解码的视频块；一个或一个以上处理器，其经配置以：执行NBDV导出过程以确定视差向量，或执行NBDV-R 过程以确定视差向量；以及使用所述视差向量作为视频数据的当前块的视差向量，而不对多个视差运动向量使用中值滤波过程，其中在跳过模式或直接模式下译码当前块。
[0010] 在另一实例中，本发明描述一种装置，其包括：用于执行NBDV导出过程以确定视差向量或执行NBDV-R过程以确定视差向量的装置；以及用于使用视差向量作为视频数据的当前块的视差向量而不对多个视差运动向量使用中值滤波过程的装置，其中在跳过模式或直接模式下译码当前块。
[0011] 在另一实例中，本发明描述一种上面存储有指令的非暂时性计算机可读数据存储媒体，所述指令在被执行时，致使视频译码装置：执行NBDV导出过程以确定视差向量，或执行NBDV-R过程以确定所述视差向量；且使用所述视差向量作为视频数据的当前块的视差向量，而不对多个视差运动向量使用中值滤波过程，其中在跳过模式或直接模式下译码当前块。
[0012] 在附图和下文的描述中陈述本发明的一个或一个以上实例的细节。将从描述、图式和所附权利要求书中明白其它特征、目标和优点。
【附图说明】
[0013] 图1是说明可利用本发明中所描述的技术的实例视频编码和解码系统的框图。
[0014] 图2是说明实例多视图视频译码时间和视图间预测结构的概念图。
[0015] 图3是说明相对于当前宏块的空间邻域的实例的概念图。
[0016] 图4是说明基于向后翘曲的基于块的视图综合预测的实例的概念图。
[0017] 图5是说明相对于3D-HEVC中的当前预测单元的空间运动向量领域的实例的概念图。
[0018] 图6是说明从参考视图导出深度块以用于基于块的视图综合预测的概念图。
[0019] 图7是说明可实施本发明中所描述的技术的实例视频编码器的框图。
[0020] 图8是说明可实施本发明中所描述的技术的实例视频解码器的框图。
[0021] 图9A是说明根据本发明一个或一个以上技术的视频编码器的实例操作的流程图。
[0022] 图9B是说明根据本发明一个或一个以上技术的视频解码器的实例操作的流程图。
【具体实施方式】
[0023] H. 264/AVC是视频译码标准。相似H. 264/AVC中，视频编码器可使用跳过模式或直接模式（即，跳过/直接模式）来编码特定图片的至少一些视频块。当视频编码器使用跳过模式来编码视频块时，视频编码器并不用信号通知所述视频块的运动信息或残余数据。当视频编码器使用直接模式来编码视频块时，视频编码器并不用信号通知视频块的运动信息，而是可用信号通知所述视频块的残余数据。
[0024] 3D-AVC是用于3维（3D)视频译码的H. 264/AVC标准的扩展。在3D-AVC中，图片可与多个视图相关联。每一视图的图片可对应于来自不同相机位置的同一场景。在同一时刻中但在不同视图中的图片之间可能存在相当大的冗余。举例来说，当前图片中的块的运动向量可类似于视图间参考图片（即，在与当前图片相同的时刻中，但在不同视图中的先前经译码图片）中的对应块的运动向量。
[0025] 在3D-AVC中，视频译码器可确定当前图片中的当前块的视差向量，且可接着使用当前块的视差向量来确定视图间参考图片中的对应块。在3D-AVC的一些版本中，视频译码器使用基于相邻块的视差向量（NBDV)导出过程来确定当前块的视差向量。当视频译码器执行NBDV导出过程时，视频译码器可确定特定相邻块是否具有视差运动向量。如果所述相邻块中的一者具有视差运动向量，那么视频译码器可将相邻块的视差运动向量转换成当前块的视差向量。
[0026] 然而，如果使用跳过模式或直接模式来编码当前块，且所述相邻块中的一者具有视差运动向量，那么视频译码器搜索额外相邻块以寻找额外视差运动向量。如果所述相邻块中的一个以上具有视差运动向量，那么视频译码器将中值函数（例如，中值滤波过程）应用于视差运动向量。视频译码器可使用所得视差运动向量作为当前块的视差向量。
[0027] 在3D-AVC的一些版本中，视频译码器可使用对应的深度块，或可使用基于块的视图综合预测（BVSP)来细化未使用跳过模式或直接模式来编码的块的视差向量。然而，如果使用跳过模式或直接模式来编码当前块，那么视频译码器不使用对应的深度块或BVSP来细化当前块的视差向量。使用NBDV导出过程来确定的视差向量的细化在本文可称为NBDV 细化过程或NBDV-R过程。
[0028] 上文所述的用于确定视差向量的过程可能存在若干问题。举例来说，上文所述的过程可导致同一块的不一致的视差向量，取决于以之编码所述块的模式。在另一实例中，上文所述的过程可导致对空间相邻块的不必要检查。在另一实例中，计算多个视差运动向量的中值函数可仅带来边缘译码效率益处，但可增加复杂性。
[0029] 本发明的技术可解决这些和/或其它问题。在一个实例中，视频译码器可执行 NBDV导出过程来确定视差向量，或可执行NBDV-R过程来确定视差向量。此外，视频译码器可使用所确定的视差向量作为视频数据的当前块的视差向量，而不对多个视差运动向量使用中值滤波过程，其中在跳过模式或直接模式下译码当前块。此类技术的实施方案可降低视频编码器和/或视频解码器的复杂性。
[0030] 图1是说明根据本发明中所描述的一个或一个以上实例的实例视频编码和解码系统10的框图如图1中所示，视频编码和解码系统10包含源装置12和目的地装置14。源装置12产生经编码的视频数据。因此，源装置12可称为视频编码装置或视频编码设备。目的地装置14可解码源装置12所产生的经编码的视频数据。因此，目的地装置14可称为视频解码装置或视频解码设备。如本文所使用，术语"视频译码器"在属类上指代视频编码器和视频解码器两者。在本发明中，术语"视频译码"或"译码"在属类上可指代视频编码或视频解码。因此，源装置12和目的地装置14可为视频译码装置或视频译码设备的实例。
[0031] 源装置12和目的地装置14经配置以实施多视图译码（MVC)。在MVC中，源装置 12和目的地装置14各自译码不同视图的图片。当一起观看不同视图的图片时，观看者感知包含3D体积的图像，而不是限于显示器的2D区域的图像。
[0032] 如图1中所示，系统10包含源装置12,其产生稍后时间将由目的地装置14解码的经编码的视频数据。源装置12和目的地装置14包括较宽范围的装置中的任何一种，包含无线手持机，例如所谓的"智能"电话、所谓的"智能"平板电脑，或其它此类经配备以用于无线通信的无线装置。源装置12和目的地装置14的额外实例包含但不限于：数字电视、数字直播系统中的装置、无线广播系统中的装置、个人数字助理（PDA)、膝上型计算机、桌上型计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式无线电话、卫星无线电话、视频电话会议装置、视频流式传输装置等。
[0033] 目的地装置14可接收将经由链路16解码的经编码的视频数据。链路16可包括任何类型的能够将经编码的视频数据从源装置12移到目的地装置14的媒体或装置。在一个实例中，链路16包括通信媒体，以使源装置12能够将经编码的视频数据直接实时发射到目的地装置14。经编码的视频数据可根据通信标准（例如无线通信协议）来调制，并发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频（RF)频谱或一个或一个以上物理传输线。通信媒体可形成基于包的网络的一部分，例如局域网、广域网或全局网络，例如因特网。通信媒体可包含路由器、交换机、基站，或可对促进从源装置12到目的地装置14的通信有用的任何其它设备。
[0034] 在一些实例中，输出接口 22将经编码数据输出到存储装置34。类似地，输入接口 28从存储装置34存取经编码数据。存储装置34的实例包含多种分布式或本地存取数据存储媒体中的任何一种，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器，或任何其它用于存储经编码的视频数据的合适数字存储媒体。在另一实例中，存储装置34包括文件服务器或另一中间存储装置，其存储源装置12所产生的经编码视频。在这些实例中，目的地装置14例如，经由流式传输或下载，从存储装置34存取所存储的视频数据。文件服务器可任何类型的能够存储经编码的视频数据并将所述经编码的视频数据发射到目的地装置14的服务器。实例文件服务器包含网络服务器（例如，用于服务网站）、文件传送协议（FTP)服务器、网络附加存储（NAS)装置、本地磁盘驱动器，或用于提供文件的其它装置或系统。目的地装置14可通过任何标准数据连接，包含因特网连接，来存取经编码的视频数据。标准数据连接可包含无线信道（例如，Wi-Fi连接），有线连接（例如，DSL、电缆调制解调器等），或两者的适合存取存储在文件服务器上的经编码的视频数据的组合。经编码的视频数据从存储装置34的传输可为流式传输、下载传输或两者的组合。
[0035] 本发明的技术不一定限于无线应用或设定。所述技术可在多种多媒体应用中的任何一种的支持下应用于视频译码，例如空中电视广播、有线电视发射、卫星电视发射、流式视频传输（例如，经由因特网）、对数字视频进行编码以存储在数据存储媒体上，对存储在数据存储媒体上的数字视频进行解码，或其它应用。在一些实例中，系统10经配置以支持单向或双向视频传输，以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
[0036] 在图1的实例中，源装置12包含视频源18、视频编码器20和输出接口 22。在一些实例中，输出接口 22包含调制器/解调器（调制解调器）和/或发射器。视频源18包含视频捕获装置（例如，摄像机）、含有先前捕获的视频的视频档案、用以从视频内容提供者接收视频的视频馈送接口，和/或用于产生计算机图形数据作为源视频的计算机图形系统，此类来源的组合，或视频数据的任何其它来源中的一者或一者以上。在其中视频源18 为摄像机的一个实例中，源装置12和目的地装置14为所谓的相机电话或视频电话。然而，本发明中所描述的技术一般来说适用于视频译码，且可适用于无线和/或有线应用。
[0037] 视频编码器20对所捕获的、预捕获的或计算机产生的视频进行编码。源装置12 的输出接口 22经配置以将经编码的视频数据发射到目的地装置14。经编码的视频数据也可（或替代地）存储到存储装置34上，以供以后由目的地装置14或其它装置存取，用于解码和/或重放。
[0038] 在图1的实例中，目的地装置14包含输入接口 28、视频解码器30和显示装置32。在一些情况下，输入接口 28包含接收器和/或调制解调器。目的地装置14的输入接口 28 经由链路16或从存储装置34接收经编码的视频数据。经由链路16传送或提供于存储装置34上的经编码的视频数据包含多种语法元素，其由视频编码器20产生以供视频解码器 (例如视频解码器30)用来解码视频数据。此类语法元素可与在通信媒体上传输、存储在存储媒体上或存储在文件服务器中的经编码的视频数据包含在一起。
[0039] 显示装置32可与目的地装置14集成，或可在目的地装置14外部。在一些实例中，目的地装置14包含集成显示装置，且还经配置以与外部显示装置介接。在其它实例中，目的地装置14为显示装置。一般来说，显示装置32向用户显示经解码的视频数据，且包括多种显示装置中的任何一种，例如液晶显示器（LCD)、等离子体显示器、有机发光二极管 (OLED)显示器，或另一类型的显示装置。
[0040] 尽管图1的中未展示，但在一些实例中，视频编码器20和视频解码器30各自与音频编码器和解码器集成，且包含适当的MUX-DEMUX单元，或其它硬件和软件，来处置共用数据流或单独数据流中的音频和视频两者的编码。如果适用，那么在一些实例中，mux-demux 单元符合ITUH. 223多路复用器协议，或其它协议，例如用户数据报协议（UDP)。
[0041] 视频编码器20和视频解码器30各自可实施为多种合适的编码器电路中的任何一种，例如一个或一个以上微处理器、数字信号处理器（DSP)、专用集成电路（ASIC)、现场可编程门阵列（FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地在软件中实施时，装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中，且可在硬件中使用一个或一个以上处理器来执行所述指令，以实施本发明的技术。视频编码器 20和视频解码器30中的每一者可包含在一个或一个以上编码器或解码器中，其中的任一者可集成为相应装置中的组合式编码器/解码器（编解码器）的一部分。视频编码器20 经配置以根据本发明中所描述的技术来编码视频数据，且视频解码器30经配置以根据本发明中所描述的技术来解码视频数据。
[0042] 视频编码器20和视频解码器30可根据各种视频译码标准来操作。举例来说，视频编码器20和视频解码器30可根据视频译码标准来操作，例如ITU-TH. 261、IS0/IEC MPEG-I 视觉、ITU-T H. 262 或 IS0/IEC MPEG-2 视觉、ITU-TH. 263、IS0/IEC MPEG-4 视觉和 ITU-T H. 264 (也称为IS0/IEC MPEG-4AVC)，包含其可缩放视频译码（SVC)、多视图视频译码（MVC)和多视图加深度（MVC+D)扩展。"用于一般视听服务的高级视频译码"，ITU-T建议 H. 264(2011年6月）中描述H. 264/AVC(下文称为"H. 264/AVC标准。"用于一般视听服务的高级视频译码"，ITU-T建议Η. 264 (2010年3月）中描述MVC的联合草案。
[0043] 现在，VCEG和MPEG的3D视频译码（JCT-3V)联合合作团队正在开发基于Η. 264/ AVC的3D视频（3DV)标准，即，3D-AVC。3D-AVC包含并支持除MVC所支持的视图间预测之外的新的译码工具。用于3D-AVC的软件（即，3D-ATM)可从http://mpeg3dv. research. nokia.com/svn/mpeg3dv/tags/3DV_ATMv6· 2/下载。汉努克塞拉（Hannuksela)等人的 "304￥(：草案文本5"，11'1^156 161?3和150/比(：11'(：1/5029/^11的30视频译码扩展开发联合合作团队，第3次会议，日内瓦，瑞士，2013年1月17日到23日，文献JCT3V-C1002，下文称"JCT3V-C1002"，是3D-AVC的草案文本。自2014年2月28日起，JCT3V-C1002可从 http://phenix. it-sudparis. eu/jct2/doc_end_user/documents/3_Geneva/wglI/ JCT3V-C1002-v3. zip 获得。
[0044] 在其它实例中，视频编码器20和视频解码器30可根据由ITU-T视频译码专家组 (VCEG)和IS0/IEC运动图片专家组（MPEG)的视频译码（JCT-VC)联合合作团队所开发的高效视频译码（HEVC)标准，或其扩展来操作。现在，VCEG和MPEG的3D视频译码联合合作团队（JCT-3C)正在开发基于HEVC的3DV标准，对于所述标准，标准化努力的一部分包含基于 HEVC的多视图视频编解码器（MV-HEVC)的标准化，且另一部分包含基于HEVC的3D视频译码（3D-HEVC)的标准化。
[0045] 为了描述的目的，在H. 264/AVC标准及其扩展（例如3D-AVC标准）的上下文中描述视频编码器20和视频解码器30。然而，本发明的技术不限于任何特定译码标准。举例来说，本发明中所描述的技术可由视频编码器/解码器（编解码器）来实施，以用于多视图译码（即，两个或两个以上视图的译码）。视频压缩标准的其它实例包含MPEG-2和ITU-T H. 263,且包含3D-HEVC。专有译码技术，例如称为0n2 VP6/VP7/VP8的那些技术，也可实施本文所述的技术中的一者或一者以上。
[0046] 视频编码器20可产生和输出位流。如H. 264/AVC标准中所定义，位流可包括形成构成一个或一个以上经译码视频序列的经译码的图片和相关联数据的表示的位序列。经译码的图片是图片的经译码表示。在H. 264/AVC中，视频序列通常包含来自视图的一系列视频图片。图片群组（GOP)通常包括一系列一个或一个以上视频图片。GOP可在GOP的标头、 GOP的一个或一个以上图片的标头中或别处包含语法数据，其描述包含在GOP中的若干图片。每一经译码的图片可包含描述相应图片的编码模式的图片语法数据。视频编码器20 通常对个别视频图片内的视频块操作，以便编码视频数据。
[0047] 在H. 264/AVC中，视频块可对应于宏块、宏块的分区，且可能分区的子块，如 H. 264/AVC标准中所定义。视频块可具有固定或不同大小，且大小可根据指定译码标准而不同

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈颖;张莉;康杰元;
技术所有人：高通股份有限公司;
我是此专利的发明人

上一篇：电子装置上的参考画面集信令和限制的制作方法
上一篇：用精确的运动信息增强运动图片的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。