对3d视频译码中的视差向量导出和运动向量预测的简化的制作方法

文档序号：9439595阅读：329来源：国知局

对3d视频译码中的视差向量导出和运动向量预测的简化的制作方法
【专利说明】对3D视频谭码中的视差向量导出和运动向量预测的简化
[0001] 本申请案主张2013年3月18日申请的第61/803, 100号美国临时申请案、2013年 4月1日申请的第61/807, 281号美国临时申请案的权益，W上申请案中的每一者的整个内容W引用的方式并入本文中。
技术领域
[0002] 本发明设及视频编码和解码。
【背景技术】
[0003] 数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理（PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置及其类似者。数字视频装置实施视频压缩技术，例如通过MPEG-2、MPEG-4、ITU-TH. 263、ITU-T 比264/MPEG-4第10部分高级视频译码（AVC)、目前正在开发的高效率视频译码（肥VC)标准和此些标准的扩展部分定义的标准中描述的技术，W便更有效地发射、接收和存储数字视频信息。
[0004] 前述标准中的一些的扩展（包含H. 264/AVC)可提供用于进行多视图视频译码W 便产生立体或=维（"3D")视频的技术。确切地说，已经提议用于多视图译码的技术W在 AVC中使用，与可缩放视频译码（SVC)标准（为对H. 264/AVC的可缩放扩展）一起使用，W 及与多视图视频译码（MVC)标准（已变为对H.264/AVC的多视图扩展）一起使用。阳0化]通常，使用两个视图（例如，左视图及右视图）实现立体视频。左视图的图片实质上可与右视图的图片同时显示W实现=维视频效果。举例来说，用户可佩戴偏光被动式眼镜，其将左视图从右视图过滤掉。替代性地，可快速连续展示两个视图的图片，且用户可佩戴主动式眼镜，其W相同频率但具有90度的相位移位快速遮光左眼及右眼。

【发明内容】

[0006] 一般来说，本发明描述用于3D视频译码的技术。确切地说，本发明设及用于导出视差向量的技术。
[0007] 在一个实例中，一种对=维（3D)视频数据进行译码的方法包含：执行用于第一纹理视图、第一深度视图、第二纹理视图和第二深度视图的纹理优先译码；对于所述第二纹理视图的宏块定位对应于所述宏块的所述第一深度视图的深度块；基于所述深度块的至少一个深度值导出所述宏块的视差向量；基于所述所导出的视差向量对所述宏块的第一子块进行译码；基于所述所导出的视差向量对所述宏块的第二子块进行译码。
[0008] 在另一个实例中，一种用于对视频数据进行译码的装置包含视频译码器，其经配置W:执行用于第一纹理视图、第一深度视图、第二纹理视图和第二深度视图的纹理优先译码；对于所述第二纹理视图的宏块定位对应于所述宏块的所述第一深度视图的深度块；基于所述深度块的至少一个深度值导出所述宏块的视差向量；基于所述所导出的视差向量对所述宏块的第一子块进行译码；W及基于所述所导出的视差向量对所述宏块的第二子块进行译码。
[0009] 在另一个实例中，一种用于对=维（3D)视频数据进行译码的装置包含：用于执行用于第一纹理视图、第一深度视图、第二纹理视图和第二深度视图的纹理优先译码的装置；用于对于所述第二纹理视图的宏块定位对应于所述宏块的所述第一深度视图的深度块的装置；用于基于所述深度块的至少一个深度值导出所述宏块的视差向量的装置；用于基于所述所导出的视差向量对所述宏块的第一子块进行译码的装置；W及用于基于所述所导出的视差向量对所述宏块的第二子块进行译码的装置。
[0010] 在另一个实例中，一种存储指令的计算机可读存储媒体，所述指令在由一或多个处理器执行时致使所述一或多个处理器：执行用于第一纹理视图、第一深度视图、第二纹理视图和第二深度视图的纹理优先译码；对于所述第二纹理视图的宏块定位对应于所述宏块的所述第一深度视图的深度块；基于所述深度块的至少一个深度值导出所述宏块的视差向量；基于所述所导出的视差向量对所述宏块的第一子块进行译码；W及基于所述所导出的视差向量对所述宏块的第二子块进行译码。
[0011] 随附图式和W下描述中陈述一或多个实例的细节。其它特征、目标及优点将从所述描述及图式W及权利要求书而显而易见。
【附图说明】
[0012] 图1是说明可利用本发明中描述的技术的实例视频编码及解码系统的框图。
[0013] 图2为说明实例多视图解码次序的概念图。
[0014] 图3为说明用于多视图译码的实例预测结构的概念图。
[0015] 图4是基于后向扭曲的基于块的视图合成预测的概念可视化。
[0016] 图5是展示用于相邻块视差向量导出的空间相邻块的概念图。
[0017] 图6是说明设及使用相邻块的后向视图合成预测度VS巧的技术的概念图。
[001引图7展示可用于根据本发明的技术导出视差向量的深度块的实例。
[0019] 图8是说明可实施本发明中描述的技术的实例视频编码器的框图。
[0020] 图9是说明可实施本发明中描述的技术的实例视频解码器的框图。
[0021] 图10是说明根据本发明中描述的技术的视差向量导出和帖间预测译码的实例操作的流程图。
[0022] 图11是说明根据本发明中描述的技术的视差向量导出和帖间预测译码的另一实例操作的流程图。
【具体实施方式】
[0023] 本发明描述设及视差向量导出的技术，且更具体地说，本发明描述其中视频译码器（例如，视频编码器或视频解码器）导出用于在=维（3D)视频译码中使用的当前视图的当前图片内的当前块的视差向量的技术。视频译码器可使用视差向量来定位不同视图中的对应块。W此方式，视差向量可表示两个不同视图中的两个相似视频块之间的视差。如下文将更详细地解释，视频译码器可使用视差向量作为视差运动向量，且可基于通过视差运动向量定位的块来预测当前块。视频译码器还可使用视差向量用于其它目的。作为一个实例，视频译码器可使用视差向量来定位另一视图中的对应块，且随后使用所定位块的运动信息用于确定当前块的运动信息。此外，可存在视差向量的再其它使用。在本发明中，术语 "当前"一般用于指当前正译码的视图、图片或块。因此，当前块大体上表示正译码的视频数据块，与已经译码的块相反或与尚待译码的块相反。
[0024] 当前图片的当前块的视差向量是指向在与当前图片不同的视图中的对应图片中的对应块的向量。因此，使用视差向量，视频译码器可在对应图片中定位对应于当前图片的当前块的块。在此情况下，对应图片是与当前图片为相同的时间实例但在不同视图中的图片。对应图片中的对应块和当前图片中的当前块可包含相似视频内容；然而，当前图片中的当前块的位置与对应图片中的对应块的位置之间存在至少水平视差。当前块的视差向量提供对应图片中的块与当前图片中的当前块之间的此水平视差的量度。在一些情况下，对应图片内的块的位置与当前图片内的当前块的位置之间也可W存在垂直视差；然而，在许多情况下所述垂直视差将为零。当前块的视差向量还可提供对应图片中的块与当前图片中的当前块之间的此垂直视差的量度。视差向量含有两个分量（X分量和y分量），但在许多情况下垂直分量将等于零。当前视图的当前图片和不同视图的对应图片所显示的时间可为相同的，也就是说当前图片和对应图片是同一时间实例的图片。
[0025] 在2D视频译码中，仅由一个视图分量表示帖，有时称为纹理视图分量，或简称为纹理。在一些类型的3D视频译码中，存在两个视图分量：纹理视图分量和深度视图分量，或简称为纹理和深度。举例来说，每一视图可包含纹理视图和深度视图，其中视图包含多个视图分量，例如纹理视图包含多个纹理视图分量，且深度视图包含多个深度视图分量。每一纹理视图分量与深度视图分量相关联W形成视图的视图分量。深度视图分量表示纹理视图分量中的对象的相对深度。深度视图分量和纹理视图分量可单独地可解码。
[00%] 本发明描述用于导出视差向量的技术。用于导出视差向量的一种此类技术可与后向视图合成预测度VS巧模式结合使用。视频译码器可确定将使用BVSP模式译码的第一纹理视图的块。视频译码器可在深度视图中定位对应于第一纹理视图的块的深度块且确定深度块的两个或两个W上拐角位置的深度值。基于深度值，视频译码器可导出块的视差向量，且使用视差向量定位第二纹理视图的块。视频译码器可随后使用第二纹理视图的块帖间预测第一纹理视图的块。在此方面，且如将在下文更详细地阐释，本发明的技术可通过使用对应深度块的仅拐角样本确定用于BVSP模式的视差向量而简化视差向量导出过程。
[0027] 在另一实例技术中，对于第一视图的块，视频译码器可定位深度视图中对应于第一纹理视图的块的深度块，且基于深度块的至少一个深度值，导出第一纹理视图的块的视差向量。视频译码器可随后基于所导出的视差向量对所述块的第一子块进行译码且基于同一个所导出的视差向量对宏块的第二子块进行译码。在此方面且如将在下文更详细地阐释，本发明的技术可通过导出块的一个视差向量且使用所述视差用于块的两个或两个W上子块而简化视差向量导出过程。取决于对特定子块指定的译码模式，视频译码器可使用所导出的视差向量作为视差运动向量或可使用视差向量W识别不同视图中的对应块，且根据所述对应块确定用于预测子块的运动信息。
[0028] 图1是说明可经配置W执行本发明中描述的用于视差向量导出的技术的实例视频编码和解码系统10的框图。如图1中所展示，系统10包含源装置12,其产生稍后由目的地装置14解码的经编码视频数据。源装置12和目的地装置14可包括广泛范围的装置中的任一者，包含桌上型计算机、笔记型（即，膝上型）计算机、平板计算机、机顶盒、电话手持机（例如所谓的"智能"电话）、所谓的"智能"平板计算机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下，可装备源装置12 和目的地装置14W用于无线通信。
[0029] 系统10可根据不同视频译码标准、专属标准或多视图译码的任何其它方式操作。 W下描述视频译码标准的几个实例，且不应被视为具限制性。视频译码标准包含口U-T 比 26UIS0/IECMPEG-lVisual、ITU-T比 262 或IS0/IECMPEG-2Visual、ITU-TH. 263、IS0/ IECMPEG-4Visual及mJ-TH. 264(也被称为ISO/IECMPEG-4AVC)，包含其可缩放视频译码（SVC)及多视图视频译码（MVC)扩展。MVC的最新联合草案在"用于通用视听服务的高级视频译码"（2010年3月的ITU-T建议H. 264)中描述，其整个内容W引入的方式并入本文中。MVC的另一联合草案在"用于通用视听服务的高级视频译码（Advancedvideocoding forgenericaudiovisualse;rvices)"(ITU-T建议H. 264,2011 年6 月）中描述，其整个内容W引入的方式并入本文中。一些额外视频译码标准包含基于AVC的MVC+D和3D-AVC。另外，已由ITU-T视频译码专家组（VCEG)和IS0/IEC动画专家组（MPEG)的视频译码联合合作小组（JCT-VC)开发新视频译码标准，即，高效率视频译码（肥VC)。
[0030] 仅出于说明的目的，W根据例如3D-AVC的H. 264标准的实例来描述本发明中描述的技术。然而，本发明中描述的技术不应被视为限于运些实例性标准，且可扩展到用于多视图译码或3D视频译码（例如，3D-HEVC)的其它视频译码标准，或可扩展到与不一定基于特定视频译码标准的多视图译码或3D视频译码相关的技术。举例来说，本发明中描述的技术由用于多视图译码的视频编码器/解码器（编解码器）实施，其中多视图译码包含两个或两个W上视图的译码。
[0031] 目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，链路16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据通信标准（例如，无线通信协议）加W调制，并发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频（R巧频谱或一或多个物理发射线路。通信媒体可形成分组网络（例如，局域网、广域网或全球网络，例如因特网）的部分。通信媒体可包含路由器、交换器、基站或可W用于促进从源装置12到目的地装置14的通信的任何其它装备。
[0032] 替代地，可将经编码数据从输出接口 22输出到存储装置34。类似地，可通过输入接口从存储装置34存取经编码数据。存储装置34可包含多种分布式或本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适数字存储媒体。在另一实例中，存储装置34可对应于可保持由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可从存储装置34经由流式传输或下载来存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据传输到目的器件14的任何类型的服务器。实例文件服务器包含网络服务器（例如，用于网站）、FTP服务器、网络附接存储 (NA巧器件或本地磁盘驱动器。目的地装置14可经由任何标准数据连接（包含因特网连接）来存取经编码的视频数据。此可包含适合于存取存储于文件服务器上的经编码的视频数据的无线信道（例如，Wi-Fi连接）、有线连接（例如，D化、电缆调制解调器等）或两者的组合。经编码的视频数据从存储装置34的发射可为流式发射、下载发射或两者的组合。
[0033] 本发明的用于视差向量导出的技术不必限于无线应用或设定。所述技术可应用于视频译码W支持多种多媒体应用中的任一者，例如空中电视广播、有线电视发射、卫星电视发射、串流视频发射（例如，经由因特网）、编码数字视频W存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频，或其它应用。在一些实例中，系统10可经配置W支持单向或双向视频发射，W支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。
[0034] 在图1的实例中，源装置12包含视频源18、视频编码器20及输出接口 22。在一些情况下，输出接口 22可包含调制器/解调器（调制解调器）及/或发射器。在源装置 12中，视频源18可包含例如视频俘获装置（例如，摄像机）、含有先前俘获的视频的视频存档、用于从视频内容提供者接收视频的视频馈入接口及/或用于产生计算机图形数据作为源视频的计算机图形系统，或此类源的组合等源。作为一个实例，如果视频源18是摄像机，那么源装置12和目的地装置14可W形成所谓的摄像机电话或视频电话。然而，本发明中所描述的技术一般来说可适用于视频译码，且可应用于无线和/或有线应用。
[0035] 可由视频编码器20编码所俘获视频、预俘获的视频或计算机产生的视频。经编码视频数据可经由源装置12的输出接口 22直接发射到目的地装置14。经编码视频数据还可 (或替代地）存储到存储装置34上W供稍后由目的地装置14或其它装置存取W用于解码及/或回放。
[0036] 目的地装置14包含输入接口 28、视频解码器30及显示装置32。在一些情况下，输入接口 28可包含接收器及/或调制解调器。目的地装置14的输入接口 28经由链路16 接收经编码视频数据。经由链路16传送或在存储装置34上提供的经编码视频数据可包含由视频编码器20所产生的多种语法元素W供由例如视频解码器30的视频解码器用于解码视频数据。此类语法元素可与在通信媒体上发射、存储在存储媒体上或存储在文件服务器中的经编码视频数据包含在一起。
[0037] 显示装置32可与目的地装置14 一起集成或在目的地装置外部。在一些实例中，目的地装置14可包含集成式显示装置，且还经配置W与外部显示装置介接。在其它实例中，目的地装置14可为显示装置。一般来说，显示装置32将经解码视频数据显示给用户，且可包括多种显示装置中的任一者，例如液晶显示器化CD)、等离子显示器、有机发光二极管（OLED)显示器或另一类型的显示装置。
[0038] 尽管图1中未展示，但在一些方面中，视频编码器20和视频解码器30可各自与音频编码器和解码器集成，且可包含适当的多路复用器-多路分用器（MUX-DEMU讶单元或其它硬件和软件，W处置对共同数据流或单独数据流中的音频和视频两者的编码。在一些实例中，如果适用，多路复用器-多路分用器单元可符合ITUH. 223多路复用器协议，或例如用户数据报协议OJD巧等其它协议。
[0039] 视频编码器20和视频解码器30各自可经实施为例如一或多个微处理器、数字信号处理器值SP)、专用集成电路（ASIC)、现场可编程口阵列（FPGA)、离散逻辑、软件、硬件、固件或其任何组合的多种合适编码器电路中的任一者。举例来说，可从设备或装置的角度描述本发明中描述的技术。作为一个实例，所述设备或装置可包含视频解码器30 (例如，作为无线通信装置的部分的目的地装置14)，且视频解码器30可包含经配置W实施本发明中描述的技术（例如，根据本发明中描述的技术解码视频数据）的一或多个处理器。作为另一实例，所述设备或装置可包含包含视频解码器30的微处理器或集成电路（1C)，且所述微处理器或IC可为目的地装置14或另一种类型的装置的部分。相同情况可适用于视频编码器20 (即，类似于源装置12和/或微控制器或IC的设备或装置包含视频编码器20,其中视频编码器20经配置W根据本发明中描述的技术编码视频数据）。
[0040] 当部分地用软件实施所述技术时，装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令W执行本发明的技术。视频编码器20和视频解码器30中的每一者可W包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可W集成为相应装置中的组合编码器/解码器（编解码器）的部分。
[0041] 视频序列通常包含来自视图的一系列视频图片。图片群组（GO巧通常包括一系列一或多个视频图片。GOP可包含GOP的标头、GOP的一或多个图片的标头或其它地方中的语法数据，其描述GOP中包含的图片的数目。每一图

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：维贾伊拉加哈万·提鲁马莱;张莉;陈颖;马尔塔·卡切维奇;
技术所有人：高通股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。