用于3d视频编码的装置、方法和计算机程序的制作方法_5

文档序号：8208079阅读：来源：国知局

>[0145] 可以构造HEVC中的组合的列表如下。如果用于组合的列表的修改标志是零，则通过隐式机制构造组合的列表；否则，通过在比特流中包括的参考图片组合命令构造它。在隐式机制中，在列表C中的参考图片以从列表0的第一条目开始、随后是列表1的第一条目等等的交织方式被映射到来自列表0和列表1的参考图片。已经在列表C中映射的任何参考图片未被再次映射。在显式机制中，用信号发送列表C中的条目数目，随后是从列表0或者列表1中的条目到列表C的每个条目的映射。此外，在列表0和列表1完全相同时，编码器具有如下选项，该选项是设置ref_pic_list_combination_flag为0,以指示来自列表1的参考图片未被映射，并且列表C等效于列表0。
[0146] 诸如草案HEVC编码解码器之类的典型高效率视频编码解码器采用常称为合并化 /合并模式/过程/机制的附加运动信息编码/解码机制，其中预测和使用块/PU的所有运动信息而无任何修改/校正。用于PU的前述运动信息包括1)是否'HJ仅使用参考图片列表0来单预测'或者'PU仅使用参考图片列表1来单预测'或者'PU使用参考图片列表 0和列表1二者来双预测'的信息、2)与参考图片列表0对应的运动矢量值、3)在参考图片列表〇中的参考图片索引、4)与参考图片列表1对应的运动矢量值、5)在参考图片列表1 中的参考图片索引。相似地，预测运动信息是使用相邻块和/或在时间参考图片中的共同定位的块的运动信息来执行的。通常，常称为合并列表的列表通过包括与可用相邻/共同定位的块关联的运动预测候选来构造，并且用信号发送列表中的选择的运动预测候选的索弓丨。然后，选择的候选的运动信息被复制到当前PU的运动信息。在合并机制被采用用于整个⑶并且用于⑶的预测信号用作重构信号、即预测残值未被处理时，这一类型的对⑶进行编码/解码通常称为跳过模式或者基于合并的跳过模式。除了跳过模式之外，合并机制还被采用用于个体PU (未必如在跳过模式中的整个⑶)，并且在这一情况下，预测残值可以用来提高预测质量。这一类型的预测模式通常命名为合并间模式。
[0147] 用于参考图片标记的语法结构可以在视频编码系统中存在。例如在已经完成对图片的解码时，解码的参考图片标记语法结构如果存在则可以用来自适应地标记图片为"未用于参考"或者"用于长期参考"。如果解码的参考图片标记语法结构不存在并且标记为"用于参考"的图片的数目不再能够增加，则可以使用基本上标记最早（按照解码顺序）解码的参考图片为未用于参考的滑动窗参考图片标记。
[0148] 在H. 264/AVC及其MVC扩展中指定的运动矢量（MV)预测利用可以在相同图像的邻近块中（空间相关性）或者在先前编码的图像中（时间相关性）存在的相关性。图7a 示出当前编码的块（cb)的空间邻域，并且图7b示出当前编码的块的时间邻域，该邻域用作为用于H. 264/AVC中的运动矢量预测的候选。
[0149] 当前块cb的运动矢量可以通过运动估算和运动补偿过程来估算，并且可以用差分脉冲码调制（DPCM)来编码而且以在运动矢量预测（MVp)与实际运动矢量MV之间的残值的形式被传输为 MVd(X，y)= MV(X，y)- MVp(X，y)。
[0150] 可以计算紧接在当前分割或者子分割上方（块B)、对角地在当前分割或者子分割上方和右侧（块C)、以及紧接在当前分割或者子分割左侧（块A)的宏块分割或者子分割的运动矢量的中间值。
[0151] 在一些实施例中，可以指定运动矢量预测MVp估算如下：
[0152] 在空间邻近块（A，B，C)中的仅一个空间邻近块具有与当前块完全相同的参考索引时，那么 MVp=mvLXN (1)
[0153] 在多于一个或者无邻近块（A，B，C)具有与当前块完全相同的参考索引时，那么 MVp = median{mvLXA, mvLXB, mvLXC}, (2)
[0154] 其中mvLXA、mvLXB、mvLXC是空间邻近块的运动矢量（无参考帧id)。
[0155] 在一些情形中，可以利用P_SKIP模式或者[51(1?模式。在P_SKIP模式中，当前块的参考帧索引总是0,并且利用的列表是第一列表0 (refldxLO = 0)。运动矢量通过仅使用紧接在当前块左侧（块A)和紧接在当前块上方（块B)的块来估算。如果紧接在左侧和紧接在上方的块不存在，则选择零值运动矢量预测MVp。由于在P_SKIP模式中无MV = MVp，所以未传输运动矢量差值dMV。
[0156] 在[51(1?模式中，可以利用两个运动矢量预测估算过程：空间直接模式，其中如图7a中所示从空间邻近块计算运动矢量预测；或者时间直接模式，其中如图7b中所示从时间邻近块计算运动矢量预测。
[0157] 运动矢量预测过程包括对以下值的估算：
[0158] a?参考索引 refldxLO、refldxLl
[0159] b?运动矢量 mvLO和mvLl。
[0160] 在空间直接模式中，对于两个参考图片列表（参考图片列表〇、参考图片列表1)独立地运行参考索引预测和运动矢量预测的过程。在每个列表中选择最小正参考索引，并且运动矢量预测过程应用于每个参考图片列表以产生mvpLO和mvpLl。
[0161] 运动矢量预测mvpLX的每个分量由运动矢量mvLXA、mvLXB和mvLXC的对应矢量分量的中值给定：
[0162] mvpLX[0] = Median(mvLXA[0], mvLXB[0], mvLXC[0])
[0163] mvpLX[1] = Median(mvLXA[1], mvLXB[1], mvLXC[1]).
[0164] 在时间直接模式中，可以通过对来自邻近（在时间方向上）块的运动矢量的时间插值来计算当前块到列表〇和列表1的运动矢量。可以利用从当前帧到参考帧的图片顺序计数（P0C)距离作为差值因子。
[0165] MV0 = MVc* (TDb/TDd)
[0166] MV1 = MVc* (TDb-TDD) /TDd，
[0167] 其中TDb是在当前帧与在列表0中的参考帧之间的图片顺序计数距离；TDd是在列表0和列表1中的参考帧之间的图片顺序计数距离；并且MVc是来自参考图片列表0的共同定位的块的运动矢量。
[0168] 接着，为了更好地理解本发明的实施例，简要地描述三维（3D)多视图应用的一些方面以及与之密切有关的深度和视差信息的概念。
[0169] 立体视频内容由向查看者的左和右眼分离地示出的偏移图像对构成。这些偏移图像用具体立体相机设置来捕获，并且假设在相机之间的特定立体基线距离。
[0170] 图1示出这样的立体相机设置的简化2D模型。在图1中，C1和C2是指立体相机设置的相机，更具体地是指相机的中心位置，b是在两个相机的中心之间的距离（即立体基线），f是相机的焦距，并且X是在真实3D场景中的正在捕获的物体。真实世界物体X被投影到在相机C1和C2捕获的图像中的不同位置，这些位置分别是xl和x2。在图像的按照绝对坐标的xl与x2之间的水平距离称为视差。相机设置所捕获的图像称为立体图像，并且在这些图像中呈现的视差创建或者增强深度感。为了使图像能够向查看者的左和右眼被分离地示出，可能需要查看者使用指定3D眼镜。对视差的适配是用于调整立体视频内容以在各种显示器上舒适地可查看的关键特征。
[0171] 然而视差适配不是简单直接的过程。它需要让附加相机视图有不同基线距离（即 b可变）或者渲染在真实世界中不可用的虚拟相机视图。图2示出与这一解决方案相适的这样的多视图相机设置的简化模型。这一设置能够提供用若干用于立体基线的离散值捕获的立体视频内容，并且因此允许立体显示器选择与查看条件相适的一对相机。
[0172] 用于3D视觉的更高级方式是具有无需眼镜的多视图自动立体显示器（ASD) 300。 ASD -次发射多于一个视图，但是该发射以如图3所示查看者从具体视点仅看见立体对这样的方式被局限在空间中，其中在注视最右视点时在视图的中间看见房屋。另外，查看者能够从不同视点看见另一立体对，例如在图3中在注视最左视点时在视图的右边界看见房屋。因此，如果连续视图是立体对并且它们被恰当地布置，则支持运动视差查看。ASD技术可以有能力在相同时间示出例如52或者更多不同图像，在这些图像中，仅一个立体对从具体视点可见。这支持例如在起居室环境中的无眼镜的多用户3D视觉。
[0173] 以上描述的立体和ASD应用需要多视图视频在显示器可用。H. 264/AVC视频编码标准的MVC扩展允许在解码器侧的多视图功能。MVC比特流的基础视图可以由任何H. 264/ AVC解码器解码，这便于向现有服务中引入立体和多视图内容。MVC允许视图间预测，这可以产生与对所有视图的独立编码比较的显著比特率节省，这依赖于相邻视图如何相关。然而MVC编码的视频的比特率通常与视图数目成比例。考虑ASD可能需要例如52个视图作为输入，所以用于这样的数目的视图的总比特率将挑战可用带宽的约束。
[0174] 因而，已经发现一种用于这样的多视图应用的更可行解决方案是具有有限数目的输入视图（例如单一或者立体视图加上一些补充数据）并且在解码器侧本地渲染（即合成）所有需要的视图。从用于视图渲染的若干可用技术中，基于深度图像的渲染0HBR)已经被证明为有竞争力的备选。
[0175] 在图4中示出基于DIBR的3DV系统的简化模型。3D视频编码解码器的输入包括具有立体基线b0的立体视频和对应深度信息。然后3D视频编码解码器合成在具有基线 (bi〈b0)的两个输入视图之间的多个虚拟视图。DIBR算法还可以实现外推在两个输入视图以外而不在它们之间的视图。相似地，DIBR算法可以实现从单个纹理视图和相应深度视图的视图合成。然而为了实现基于DIBR的多视图渲染，纹理数据应当与对应深度数据一起在解码器侧可用。
[0176] 在这样的3DV系统中，在编码器侧为每个视频帧以深度图片（还称为深度映射）的形式产生深度信息。深度映射是具有每像素深度信息的图像。在深度映射中的每个采样表示相应纹理采样从相机所在平面的距离。换而言之，如果z轴沿着相机的拍摄轴（并且因此与相机所在平面正交），则在深度映射中的采样表示在z轴上的值。
[0177] 可以通过各种手段来获得深度信息。例如可以从捕获相机配准的视差计算3D场景的深度。深度估算算法取得立体视图作为输入并且计算在视图的两个偏移图像之间的局部视差。每个图像在重叠块中被逐个像素处理，并且为每个像素块执行在偏移图像中对于匹配块的水平地局限的搜索。一旦计算按像素的视差，通过等式（3)计算对应深度值z :
[0178]
【主权项】
1. 一种方法，包括：获得表示第一视图的第一纹理图片的第一纹理块；获得与所述第一纹理块关联的测距信息；基于所述测距信息推导参考第二视图中的参考图片的视差信息；基于所述视差信息获得所述第二视图的参考采样以获得用于执行以下各项中的至少一项的参考块：对所述第一纹理块进行编码；对所述第一纹理块进行解码。
2. 根

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6