用于视频译码扩展的时间运动向量预测的制作方法

文档序号：8927365阅读：329来源：国知局

用于视频译码扩展的时间运动向量预测的制作方法
【专利说明】用于视频语码扩展的时间运动向量预测
[0001] 本申请案主张2013年1月2日申请的美国临时申请案第61/748,424号的权利，所述申请案的全部内容在此W引用的方式并入本文中。
技术领域
[0002] 本发明设及视频译码。
【背景技术】
[0003] 数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理（PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的"智能电话"、视频电话会议装置、视频流装置及其类似者。数字视频装置实施视频写码技术，例如由MPEG-2、MPEG-4、ITU-TH. 263 或口U-TH. 264/MPEG-4 第 10 部分高级视频译码（AVC)所定义的标准、目前正在开发的高效率视频译码（肥VC)标准及该些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频译码技术而更有效率地发射、接收、编码、解码及/或存储数字视频信息。
[0004] 视频译码技术包含空间（图片内）预测及/或时间（图片间）预测W减少或去除视频序列中固有的冗余。对于基于块的视频译码，视频切片（即，视频帖或视频帖的一部分）可分割成视频块，所述视频块还可被称作树块、译码单元（CU)和/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帖内译码（I)切片中的视频块进行编码。图片的经帖间译码（P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。图片可被称为帖，且参考图片可被称为参考帖。
[0005] 空间或时间预测产生用于待译码块的预测性块。残余数据表示待译码原始块与预测性块之间的像素差。经帖间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据编码的。经帖内译码块是根据帖内译码模式及残余数据编码的。为了进一步压缩，可将残余数据从像素域变换到变换域，从而产生残余变换系数，接着可W将残余变换系量化。可扫描最初布置成二维阵列的经量化变换系数，W 便产生变换系数的一维向量，且可应用滴译码W实现更多压缩。

【发明内容】

[0006] 一般来说，本发明描述用于在视频译码中使用运动向量预测对运动向量进行译码的技术。视频译码包含对图片的个别区块进行译码（例如，编码或逻辑）。可对此类块进行空间预测和译码、时间预测和译码，或层间或视图间预测和译码。时间和层间及/视图间预测技术可利用运动向量。另外，视频译码器可经配置W译码运动向量。根据本发明的技术，视频译码器可经配置W在执行时间运动向量预测时确定用于合并模式的候选运动向量预测子的参考索引（其中候选运动向量预测子可指代视图间参考图片），且也经组态W确定额外参考索引的值。例如，在针对块执行运动向量的合并模式译码时，可将额外参考索引替代为候选运动向量预测子的实际参考索引。此外，可将额外参考索引值设定为预定值，例如0或-1。一般来说，额外参考索引可指代长期参考图片，例如用于包含块的当前图片的视图间参考图片。
[0007] 在一个实例中，译码视频数据的方法包含：确定第一目标参考索引，其表示当前运动向量的候选运动向量预测子所指代的参考图片；针对候选运动向量预测子并在当前运动向量的时间运动向量预测（TMV巧期间，确定等于预定值的额外目标参考索引值；及至少部分地基于额外参考索引值对当前运动向量进行译码。
[000引在另一实例中，用于译码视频数据的装置包含视频译码器，其经配置W进行W下操作；确定第一目标参考索引，所述第一目标参考索引表示当前运动向量的候选运动向量预测子所指代的参考图片；针对候选运动向量预测子并在当前运动向量的时间运动向量预测（TMV巧期间，确定额外目标参考索引值，其等于预定值；及至少部分地基于额外参考索引值对当前运动向量进行译码。
[0009] 在另一个实例中，用于译码视频数据的装置包含；用于确定第一目标参考索引的装置，所述第一目标参考索引表示当前运动向量的候选运动向量预测子所指代的参考图片；用于针对候选运动向量预测子并在当前运动向量的时间运动向量预测（TMV巧期间确定等于预定值的额外目标参考索引值的装置；及用于至少部分地基于额外参考索引值对当前运动向量进行译码的装置。
[0010] 在另一个实例，计算机可读存储媒体在其上存储有在执行时使处理器进行W下操作的指令：确定第一目标参考索引，其表示当前运动向量的候选运动向量预测子所指代的参考图片；针对候选运动向量预测子并在当前运动向量的时间运动向量预测（TMV巧期间，确定额外目标参考索引值，其等于预定值；及至少部分地基于额外参考索引值对当前运动向量进行译码。
[0011] 在随附图式及W下描述中阐述一或多个实例的细节。其它特征、目标和优点将从所述描述和图式W及权利要求书而显而易见。
【附图说明】
[0012] 图1是说明可利用用于译码运动向量的技术的实例视频编码及解码系统的框图。
[0013] 图2是说明可实施用于译码运动向量的技术的视频编码器的实例的框图。
[0014] 图3是说明可实施用于译码波前的技术的视频解码器的实例的框图。
[001引图4为说明实例多视图视频译码（MVC)预测模式的概念图。
[0016] 图5为说明用于译码图片块的实例图片集合和运动向量的概念图。
[0017] 图6为说明用于译码图片块的实例图片集合和运动向量的概念图。
[0018] 图7是说明根据本发明的技术的对视频数据块进行编码的实例方法的流程图。
[0019] 图8是说明根据本发明的技术的对视频数据块进行解码的实例方法的流程图。
【具体实施方式】
[0020] 一般来说，本发明描述可改进用于视频编码器/解码器（编解码器）扩展（例如，多视图或可分级扩展）的时间运动向量预测同时使二维（2D)基层/视图解码性能保持不变的技术。基本视频译码标准可包含（例如）高效视频译码（肥VC)，且对肥VC的扩展可包含对肥VC的多视图视频译码扩展（例如，MV-肥VC)及对肥VC的可分级视频译码扩展（例如，甜VC)。
[002U 视频译码标准包含口U-TH. 261、ISO/IECMPEG-lVisual、口U-T比 262 或ISO/ IECMPEG-2Visual、ITU-TH. 263、IS0/IECMPEG-4Visual及口U-TH. 264(也被称为ISO/IECMPEG-4AVC)，包含其可分级视频译码（SVC)及多视图视频译码（MVC)扩展。另外，存在一种新的视频译码标准，即高效率视频译码（肥VC)，其正由口U-T视频译码专家组（VCEG) 及IS0/IEC运动图片专家组（M阳G)的视频译码联合合作小组（JCT-VC)进行开发。后文中被称为"肥VCWD9"或仅被称为"WD9"的肥VC的工作草案（WD)描述于2012年10月 10-19 日中国上海的第 11 次会议（JCTVC-K1003_vl3)的Bross等人的"HighEfficiency VideoCoding(肥VC)TextSpecificationDraft9"中，自 2013 年 1月 2 日起，该工作草案可从http://phenix.int-evry.fr/jct/doc_end_user/documents/ll_Shanghai/wgll/ JCTVC-K1003-V13.zip获得。
[0022] 本发明描述如下文中参考图5及6在JCTVC-K0239中更详细描述的某些技术。已确定JCTVC-K0239的提议还有更大的改进余地。举例来说，用于JCTVC-K0239的时间运动预测的额外参考索引的导出过程可导致对于2D视频编码不必要的某种额外逻辑。为支持如同在肥VC及MV-肥VC的变化最小的JCTVC-K0239中一样的解决方案，本发明描述各种技术。
[0023] 举例来说，用于时间运动向量预测（TMVP)的额外参考索引值（即refIdxLOA及 refldxLlA)可W肥VC基本规范定义并始终设定为0。或者，refIdxLOA及/或refldxLlA 可设定为-1。refldxLOA表示索引到参考图片列表0 (例如，具有先于当前图片的显示顺序的参考图片列表）的实例，而refldxLlA表示索引到参考图片列表1 (例如，具有迟于当前图片的显示顺序的参考图片列表）的实例。
[0024] 另外或在替代方案中，用于TMVPbefldxLOA/refldxLlA)的额外目标参考索引值的导出过程可仅定义于MV-HEVC或其它肥VC扩展中。或者，额外目标参考索引值 (refldxLOA/refldxLlA)可仅在MV-HEVC或其它肥VC扩展的切片标头中发信，例如在 layer_id(或viewldx)不等于0的条件下或作为切片标头扩展的部分。或者，额外目标参考索引值（refIdxLOA/refIdxLlA)可在HVEC规范或肥VC扩展的图片参数集、序列参数集或视频参数集中发信。或者，额外目标参考索引值（refIdxLOA/refIdxLlA)可在肥VC基本规范的切片标头中发信。
[0025] 另外或在替代方案中，当将额外目标参考索引值发信为不等于0的值时，其可对应于具有与由参考索引0所识别的参考图片的类型不同的类型的参考图片。举例来说， re巧icListX[0]及re巧icListX[refIdxLXA]可不受限制W便所述两者不为短期图片且所述两者不为长期图片。
[0026] 图1是说明可利用用于译码运动向量的技术的实例视频编码及解码系统10的框图。如图1中所展示，系统10包含源装置12,其提供待在稍后时间由目的地装置14解码的经编码视频数据。具体地说，源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者，包含桌上型计算机、笔记型（亦即，膝上型）计算机、平板计算机、机顶盒、例如所谓的"智能"电话的电话手机、平板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置或类似者。在一些情况下，可装备源装置12和目的地装置14W用于无线通信。
[0027]目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码的视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中，计算机可读媒体16可包括通信媒体W使源装置12能够实时地将经编码的视频数据直接发射到目的地装置14。可根据通信标准（例如，无线通信协定）调制经编码的视频数据，并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频（R巧频谱或一或多个实体发射线。通信媒体可形成分组网络（例如，局域网、广域网或例如因特网的全球网络）的部分。通信媒体可包含路由器、交换器、基站或任何其它可W用于促进从源装置12到目的地装置14的通信的设备。
[002引在一些实例中，经编码数据可W从输出接口 22输出到存储装置。类似地，可W通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取式数据存储媒体中的任一者，例如硬盘驱动器、藍光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中，存储装置可对应于可保持由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可从存储装置经由流式传输或下载来存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的装置14的任何类型的服务器。实例文件服务器包含网络服务器（例如，用于网站）、FTP服务器、网络附接存储 (NA巧装置或本地磁盘驱动器。目的地装置14可W通过任何标准数据连接（包含因特网连接）来存取经编码的视频数据。此可包含适合于存取存储于文件服务器上的经编码的视频数据的无线信道（例如，Wi-Fi连接）、有线连接（例如，D化、电缆调制解调器等）或两者的组合。经编码的视频数据从存储装置的发射可能是流式发射、下载发射或两者的组合。
[0029] 本发明的技术不一定限于无线应用或设定。所述技术可W应用于支持多种多媒体应用中的任一者的视频译码，所述多媒体应用例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式视频发射（例如，动态自适应HTTP流式传输值ASH))、经编码到数据存储媒体上的数字视频，存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实例中，系统10可经配置W支持单向或双向视频发射，W支持例如视频流式传输、视频重放、视频广播及/或视频电话的应用。
[0030] 在图1的实例中，源装置12包含视频源18、视频编码器20和输出接口 22。目的地装置14包含输入接口 28、视频解码器30和显示装置32。根据本发明，源装置12的视频编码器20可经配置W应用用于译码运动向量的技术。在其它实例中，源装置和目的地装置可包含其它组件或布置。举例来说，源装置12可W从外部视频源18(例如外部相机）接收视频数据。同样地，目的地装置14可W与外部显示装置介接，而不是包含集成显示装置。
[0031] 图1的所说明系统10只是一个实例。可W由任何数字视频编码和/或解码装置来执行用于译码运动向量的技术。尽管本发明的技术一般通过视频编码装置来执行，但是所述技术还可通过视频编码器/解码器（通常被称作"编码解码器"）来执行。此外，本发明的技术还可通过视频预处理器执行。源装置12及目的地装置14仅为源装置12产生经译码视频数据用于发射至目的地装置14的所述译码装置的实例。在一些实例中，装置12、 14可W实质上对称的方式操作，使得装置12、14中的每一者包含视频编码及解码组件。因此，系统10可支持视频装置12、14之间的单向或双向视频发射w例如用于视频流式传输、视频回放、视频广播或视频电话。
[0032] 源装置12的视频源18可包含视频俘获装置，例如相机、含有先前所俘获视频的视频档案和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案，视频源18可产生基于计算机图形的数据作为源视频，或实况视频、所存档视频与计算机产生的视频的组合。在一些情况下，如果视频源18为视频摄像机，那么源装置12及目的地装置14 可形成所谓的相机电话或视频电话。然而，如上文所提及，本发明中所描述的技术可大体上适用于视频译码，且可应用于无线和/或有线应用。在每一情况下，俘获、预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出介面22输出到计算机可读媒体16上。
[0033] 计算机可读媒体16可包含瞬时媒体，例如无线广播或有线网络发射，或存储媒体 (也就是说，非暂时存储媒体），例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、藍光光盘或其它计算机可读媒体。在一些实例中，网络服务器（未图示）可W从源装置12接收经编码视频数据，并且例如经由网络发射将经编码视频数据提供到目的地装置14。类似地，媒体生产设施（例如光盘冲压设施）的计算装置可W从源装置12接收经编码的视频数据并且生产容纳经编码的视频数据的光盘。因此，在各种实例中，计算机可读媒体16可W理解为包含各种形式的一或多个计算机可读媒体。
[0034]目的地装置14的输入接口 28从计算机可读媒体16接收信息。计算机可读媒体 16的信息可包含由视频编码器20定义之语法信息，其亦由视频解码器30使用，其包含描述区块及其它经译码单元（例如，GCP)之特性和/或处理的语法元素。显示装置32将经解码视频数据显示给用户，且可包括多种显示装置中的任一者，例如阴极射线管（CRT)、液晶显示器（LCD)、等离子显示器、有机发光二极管（OLED)显示器或另一类型的显示装置。
[0035] 视频编码器20及视频解码器30可W根据视频译码标准（例如，目前正在开发的高效率视频译码（肥VC)标准）操作，并且可W符合肥VC测试模型（HM)。或者，视频编码器 20和视频解码器30可W根据其它专有或业界标准操作，所述标准例如口U-TH. 264标准，或者被称作MPEG-4第10部分高级视频译码（AVC)，或此类标准的扩展。然而，本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2和口U-TH. 263。尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及解码器集成，且可包含适当MUX-DEMW(单元或其它硬件及软件，W处置共同数据流或单独数据流中的音频及视频两者的编码。若适用，则MUX-DEMUX单元可符合ITUH. 223复用器协议或其它协议（例如，用户数据报协议扣D巧）。
[0036]ITU-T比264/MPEG-4(AVC)标准是作为被称为联合视频小组（JVT)的集体联盟的产品而由口U-T视频译码专家组（VCEG)连同ISO/IEC运动图片专家组（MPEG)制定。在一些方面中，本发明中所描述的技术可应用于通常符合H. 264标准的装置。ITU-T研究组在 2005年3月在ITU-T推荐H. 264 "用于通用音视频服务的高级视频译码（AdvancedVideo Codingforgenericaudiovisualservices)"中描述了H. 264 标准，其在本文中可被称作比264标准或H. 264规范或H. 264/AVC标准或规范。联合视频小组（JVT)持续致力于扩展比 264/M阳G-4AVC。
[0037] 视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者，例如一或多个微处理器、数字信号处理器值SP)、专用集成电路（ASIC)、现场可编程口阵列（FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地W软件实施所述技术时，装置可将用于所述软件的指令存储于合适的非暂时计算机可读媒体中且使用一或多个处理器W硬件执行所述指令W执行本发明的技术。视频编码器20和视频解码器30中的每一者可W包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可W集成为相应装置中的组合编码器/解码器（编解码器）的一部分。
[0038] JCT-VC正在致力于开发肥VC标准。肥VC标准化努力是基于被称作肥VC测试模型（HM)的视频译码装置的演进模型。歷假设视频译码装置根据例如ITU-TH.264/AVC相对于现存装置的几个额外能力。举例来说，虽然H. 264提供了九种帖内预测编码模式，但HM 可提供多达=十立种帖内预测编码模式。
[0039] 一般来说，HM的工作模型描述视频帖或图片可W划分成包含明度及色度样本两者的序列树块或最大译码单元（LCU)(还被称作"译码树单元"）。位流内的语法数据可W界定最大译码单位（LCU，其是就像素数目来说的最大译码单位）的大小。切片包含译码次序的多个连续树块。视频帖或图片可W被分割成一或多个切片。每一树块可W根据四叉树而分裂成译码单元（CU)。一般来说，四叉树数据结构包含每个CU-个节点，其中一个根节点对应于所述树块。如果CU分裂成4个子CU，那么对应于CU的节点包含四个叶节点，所述叶节点中的每一者对应于所述子CU中的一者。
[0040] 四叉树数据结构的每一节点可W提供用于相对应的CU的语法数据。举例来说，四叉树中的节点可包含分裂旗标，其表明对应于所述节点的所述CU是否分裂成子CU。用于CU 的语法元素可W递归式定义，且可W取决于CU是否分裂成子CU。如果CU不进一步分裂，那么将其称为叶CU。在本发明中，叶CU的子CU也将被称作叶CU，即使不存在原始叶CU的明确分裂时也是如此。举例来说，如果16X16大小的CU不进一步分裂，那么该四个8X8子 CU将也被称作叶CU，虽然16X16CU从未分裂。
[0041] CU具有类似于H. 264标准的宏块的用途，但是CU并不具有大小区别。举例来说，树块可W分裂成四个子节点（还称为子CU)，并且每一子节点又可W是父节点并且可W分裂成另外四个子节点。最后的未经分裂子节点（被称作四叉树的叶节点）包括译码节点，还被称作叶CU。与经译码位流相关联的语法数据可W定义树块可W分裂的最大次数（被称作最大CU深度），并且还可定义译码节点的最小大小。所W，比特留还可定义最小译码单元 (SCU)。本发明使用术语"块"指代CU、PU或TU中的任一者（在肥VC的情况下）或类似数据结构（在其它标准的情况下）（例如，在H. 264/AVC中的宏块及其子块）。
[0042] CU包含译码节点及与所述译码节点相关联的预测单元（PU)及变换单元（TU)。CU 的大小对应于译码节点的大小且形状必须是正方形。CU的大小可W在从8X8像素直到具有最大64X64像素或更大的树块的大小的范围内。每一CU可含有一或多个PU及一或多个TU。举例来说，与CU相关联的语法数据可描述CU到一或多个PU的分割。划分模式可 W在CU被跳过或经直接模式编码、帖内预测模式编码或帖间预测模式编码之间有区别。PU 可分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU可W是正方形或非正方形（例如，矩形）形状。
[0043] 肥VC标准允许根据TU变换，TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而确定，但情况可能并非始终如此。TU通常与PU大小相同或小于PU。在

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈颖;王益魁;
技术所有人：高通股份有限公司;
我是此专利的发明人

上一篇：基于视差向量导出的三维视频编码装置及方法
上一篇：可扩展的高吞吐量视频编码器的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。