用于可伸缩视频编码的层间运动向量缩放的制作方法

文档序号:9333054阅读:319来源:国知局
用于可伸缩视频编码的层间运动向量缩放的制作方法
【专利说明】
[0001] 交叉引用
[0002] 本发明主张在2013年3月12日提出的申请号为61/777,250、标题为"Methods ofMotionVectorScalingwithFrameCroppingforScalableVideoCoding" 的美 国临时专利申请案的优先权;主张在2013年3月19日提出的申请号为61/803, 222、标 题为"MethodsofMotionVectorScalingandPixelPositionMappingwithFrame CroppingforScalableVideoCoding"的美国临时申请案的优先权;主张在2013年4 月 22 日提出的申请号为 61/814, 591、标题为"Methodsofsimplifiedmotionvector scalingandpixelpositionmappingforscalablevideocoding',的美国临时申请案 的优先权;以及主张在2013年7月15日提出的申请号为61/846, 128、标题为"Methodsof Inter-layerMotionVectorScalingandInter-layerPixelPositionMappingwith PhaseShiftforScalableVideoCoding"的美国临时申请案的优先权。因此在全文中合 并参考这些美国临时专利申请案。
技术领域
[0003] 本发明是有关于可伸缩视频编码,特别是有关于层间(inter-layer)运动向量缩 放和层间像素位置映射。
【背景技术】
[0004] 压缩的数字视频已经广泛地应用于各种应用中。例如,对于数字网络的视频流和 对于数字通道的视频传输。通常,单一的视频内容可以通过不同特性的网络来传输。举例来 说,现场直播的体育赛事可以载入高宽带数据流格式,并通过收费视频服务的宽带网络传 输。在这样的应用中,压缩的视频通常保存高分辨率和高品质,以使得视频内容适合于高清 晰度设备,例如,高清晰度电视或高清晰度显示器。相同的内容也可以载入蜂窝数据网络, 以使得该内容可以在便携式设备(例如,智能手机或通过网络连接的便携式媒体设备)上 进行观看。在此应用中,由于网络带宽问题和在智能手机或便携式设备上的低分辨率显示, 视频内容通常被压缩为低分辨率和低比特率。因此,对于不同的网络环境和不同的应用,视 频分辨率和视频品质的要求是完全不同的。即使对于相同类型的网络,用户可能由于不同 的网络基础设施和网络流量状况而感受到不同的可用带宽。因此,用户可能希望当可用带 宽较宽时,接收高品质视频,当网络拥塞发生时,接收较低品质但是很流畅的视频。在另一 种情况下,高端媒体播放器可以处理的高分辨率和高比特率的已压缩视频,然而由于限制 的计算资源,低成本的媒体播放器仅能够处理低分辨率和低比特率的已压缩视频。相应地, 需要以可伸缩的方法构造压缩的视频,以使得可以从相同的已压缩比特流处得到不同的时 空分辨率及/或不同品质的视频。
[0005]IS0/IECMPEG和ITU-TVCEG的联合视频工作组(jointvideoteam,JVT)标准化 对于H. 264/AVC标准的可伸缩视频编码扩展。H. 264/AVC可伸缩视频编码比特流包括从低 帧率、低分辨率、和低品质到高帧率、高清晰度和高品质的视频信息。此种单一的比特流能 够适应各种应用并能够在不同配置的设备上显示。相应地,H.264/AVC可伸缩视频编码适 用于各种视频应用,例如,视频广播、视频数据流、以及视频监控,以适合网络基础设施,交 通条件,用户偏好等。
[0006] 在可伸缩视频编码中,提供三种可伸缩类型,即时间可伸缩,空间可伸缩和品质可 伸缩。可伸缩视频编码采用多层编码结构来实现三维可伸缩。可伸缩视频编码的主要目标 是产生一个可伸缩比特流,以容易和迅速地适应各种传输信道、不同的显示能力、和不同的 计算资源相关的比特率要求,而无需反式编码(trans-coding)或重编码(re-encoding)。 可伸缩视频编码设计的一个重要特征是,在比特流层(bitstreamlevel)提供这种可伸缩 性。换言之,对于取得缩减空间及/或时间分辨率的视频的比特流,可以简单地通过从需要 打算解码的视频的可伸缩比特流中提取网络抽象层(以下简称为NAL)单元(或网络数据 包)而获得。可另外减小用于品质精化的NAL单元从而减小比特率及/或降低相应视频品 质。在可伸缩视频编码中,时间可伸缩通过层级B图片编码结构来提供。信噪比(以下简 称为SNR)可伸缩通过编码较高品质的、包括细化系数(refinementcoefficients)的增强 层来实现。
[0007] 如图1所示,在可伸缩视频编码中,基于金字塔编码(pyramidcoding)方案支持 空间可伸缩。在具有空间可伸缩性的可伸缩视频编码系统中,首先下采样视频序列,以获得 不同的空间分辨率(层)的较小图片。例如,原始分辨率的图片110可以通过空间抽取120 处理,而获得分辨率降低的图片111。如图1所示,分辨率降低的图片111可进一步通过空 间抽取121处理,而获得分辨率进一步减小的图象112。除二阶(dyadic)空间分辨率之外, 该空间分辨率在每一层减小一半,可伸缩视频编码还支持任意分辨率的比率,这被称为扩 展空间可缩放(extendedspatialscalability,ESS)。图1中的可伸缩视频编码系统描述 了三层空间可伸缩系统的示意图,其中第〇层对应于具有最低空间分辨率的图片,第2层对 应于具有最高空间分辨率的图片。不需要参考其他层,可以编码第〇层,即单层的编码。例 如,使用编码运动补偿和帧内预测130编码最底层图片112。
[0008] 运动补偿和帧内预测130将生成语法元素和编码相关信息(例如,运动信息),以 进一步用于熵编码140。图1实际上描述了一个联合可伸缩视频编码系统,该系统提供空间 可伸缩和品质可伸缩(也称为SNR可伸缩)。该系统也可提供时间可伸缩,这并没有明确 显示出来。对于每一个单层编码,编码残差(residualcodingerrors)可以使用SNR增强 层编码150而改善。图1中SNR增强层可以提供多个品质层(level)(品质可伸缩)。支 持分辨率层的每一个品质层,可以由各自的单层运动补偿和帧内预测进行编码,例如非可 伸缩编码系统。基于一个或多个的较低空间层,也可以使用层间编码来编码每个较高空间 层。举例来说,在宏块或其他区块单元的基础上,使用根据第〇层视频的层间预测或者使用 单层编码,来自适应编码第1层视频。同样地,使用基于重构的第1层视频的层间预测或使 用单层编码,来自适应编码第2层视频。如图1所示,第1层图片111可以通过运动补偿 和帧内预测131、基本层熵编码141和SNR增强层编码151来编码。如图1所示,运动补偿 和帧内预测131也利用重建的基本层视频数据,其中在空间第1层中的编码块可使用重建 的基本层视频数据作为附加的帧内预测数据(即,不涉及运动补偿)。相似地,第2层图片 110可以通过运动补偿和帧内预测132、基本层熵编码142和SNR增强层编码152来编码。 来自所有空间层的基本层比特流和SNR增强层比特流通过复用器160复用产生可伸缩的比 特流。由于层间编码,可以提高编码效率。此外,编码空间第1层需要的信息取决于重建的 第0层(层间预测)。可伸缩视频编码系统中较高层被称为增强层。H. 264可伸缩视频编 码提供三种类型的层间预测工具:层间运动预测、层间纹理预测(也称为层间帧内预测)、 以及层间残差预测。
[0009] 在可伸缩视频编码中,增强层(EL)可以重新使用在基本层(BL)中的运动信息,以 减少层间运动数据冗余。例如,增强层宏块编码可以使用一个标志,例如在mb_type之前的 标志base_mode_flag被确定为指示增强层运动信息是否是直接来自于基本层。如果标志 baSe_m〇de_flag等于1时,增强层宏块的分割数据以及相关的参考索引和运动向量来自基 本层中同一位置的8X8区块相应的数据。基本层的参考图片索引直接用于增强层。增强 层的运动向量是自与基本层相关的数据来进行缩放的。此外,已缩放的基本层运动向量可 以被用作增强层的附加的运动向量预测子(predictor)。
[0010] 层间残差预测使用上采样的基本层残差信息,以减少所需编码增强层残差的信 息。可使用双线性滤波器来区块式(block-wise)上采样基本层的同一位置的残差,以及基 本层的同一位置的残差可用作在增强层中对应宏块的残差的预测。参考层残差的上采样以 变换区块为基础来完成,以确保滤波没有穿越变换区块的边界。
[0011] 层间帧内预测降低增强层的冗余纹理信息。通过区块式上采样同一位置的基本层 重建信号,来产生增强层的预测。在层间纹理预测上采样过程中,分别将4抽头和2抽头 FIR滤波器应用于亮度和色度组分。不同于层间残差预测,层间帧内预测的滤波总是穿越子 区块的边界。为简化解码,层间帧内预测可以仅应用基本层中的帧内编码宏块。
[0012] 在可伸缩视频编码中,增强层中的区块的运动信息可利用基本层中对应区块的运 动信息。举例来说,如图2所示,与在基本层中对应的位置a~h相关的运动信息可用于推 导层间预测。在图2中,区块210对应于增强层中的当前区块以及区块220为基本层中对 应的区块。在基本层中位置a、位置b、位置g和位置h处的运动信息为在增强层中位置A、 位置B、位置G和位置H处对应的运动信息。位置c、位置d、位置e、位置f处的运动信息为 在增强层中位置C、位置D、位置E和位置F处对应的运动信息。位置A、位置B、位置G和位 置H为在增强层中的当前区块的四个角的像素,以及位置C、位置D,位置E和位置F和在增 强层中的当前区块的四个中心像素。
[0013] 不仅在基本层中对应区块的运动信息而且在基本层中对应区块的相邻区块的运 动信息可以用作增强层的层间候选,而包括于合并/先进运动向量预测候选清单中。如图2 所示,在基本层中的相邻候选,包括相邻基本层区块的t(右下)、a0 (左下)、al(左)、b0 (右 上)、bl(上),和b2 (左上),可用作增强层的候选,而包括在合并/先进运动向量预测候 选的导出中。同一位置的增强层相邻区块分别对应于相邻增强层区块的T(右下),A0 (左 下)、A1 (左),B0 (右上),B1 (顶部)和B2 (左上)。
[0014] 高效率视频编码(High-EfficiencyVideoCoding,HEVC)为由联合视频编码组 (JCT-VC)开发的新的国际视频编码标准。HEVC的可伸缩扩展(即,SHVC)也在开发中。在 HEVC中,空间和时间范围内的相邻区块的运动信息用于推导合并和运动向量预测候选。运 动信息包括帧间预测方向(inter_pred_idc)、参考索引(refldx)、运动向量、运动向量预 测子、运动向量预测子索引、合并索引、合并候选等。在空间运动向量预测子的推导过程中, 运动向量预测子可自指向作为目标参考图片的相同参考图片的运动向量来得到,或自指向 不同参考图片的运动向量来得到。当运动向量预测子自指向不同参考图片的运动向量而得 到时,该运动向量被缩放至目标参考图片并作为最终运动向量预测子。在空间和时间运动 向量预测子的推导过程中,需要运用除法(division)来缩放运动向量。基于当前图片和目 标图片之间的距离和在同位图片和对于同位区块的参考图片之间的距离的比例来计算缩 放因子。在运动向量缩放过程中,由公式(1)来定义缩放因子:
[0015]ScalingFactor=(POCcurr-POCref)/(POCcol-P0Ccol_ref) =tb/td, (1)
[0016] 其中,td为在同位图片和由同位区块的运动向量指向的参考图片之间的图片顺序 计数距离,以及tb为当前图片和目标参考图片之间的图片顺序计数距离。用于空间运动向 量预测子推导的缩放因子可用相似的方法来得到。在ffiVC中,缩放因子按如下所示公式来 计算:
[0017]X= (2~14+|td/2|)/td,以及(2)
[0018]ScalingFactor=clip(-4096, 4095, (tbXX+32) >>6)〇(3)
[0019] 然后,被缩放的运动向量按如下所示的公式来得到:
[0020] ScaledMV=sign(ScalingFactorXMV)X
[0021] ((abs(ScalingFactorXMV)+127))>>8 (4)
[0022] 在SHVC测试模型1. 0(SHM_1. 0)中,层间纹理预测可在两个方案中实现。第一方 案使用编码单元级信令(signaling)来指示此编码单元预测子是否来自已上采样的基本 层纹理。其中,帧内基本层模式Intra_BLmode用于发送选择。第二方案将已上采样的基 本层纹理包括于参考帧清单中。换句话说,与已上采样的基本层纹理相关的参考图片被分 配一个参考图片索引,即参考图片索引Refldx。此方案被称为参考图片索引Refldx模式。 与参考图片相关的运动向量也被存储并用于帧间预测。
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1