多视点数据编码方法和装置以及解码方法和装置制造方法

文档序号:7992543阅读:258来源:国知局
多视点数据编码方法和装置以及解码方法和装置制造方法
【专利摘要】一种用于对多视点视频数据进行编码的方法和设备以及一种用于对多视点视频数据进行解码的方法和设备。对多视点视频数据进行编码的方法包括:获得多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧;对多视点彩色视频帧进行预测编码;基于对多视点彩色视频帧进行预测编码的结果,对相应的深度图帧进行预测编码。
【专利说明】多视点数据编码方法和装置以及解码方法和装置
【技术领域】
[0001]本发明涉及对包括深度图像的多视点视频数据进行编码和解码。
【背景技术】
[0002]近来,随着数字图像处理和计算机图形学技术的发展,已积极地对三维(3D)视频技术和多视点视频技术进行了研究,其中,所述三维(3D)视频技术和多视点视频技术能够再现现实世界并使用户真实地体验再现的现实世界。使用多视点视频的3D电视(TV)能够通过显示由再现现实世界得到的内容来向用户提供真实的感受,并因此作为下一代广播技术已引起了广泛关注。3D视频编码系统具有支持多视点图像的功能,经由所述功能用户可自由地改变视点或使得3D视频编码系统可应用于各种类型的3D再现设备。然而,由于多视图视频的数据量高,因此需要开发有效降低多视点视频的数据量的编码方法。

【发明内容】

[0003]技术问题
[0004]本发明提供一种对用于向多视点视频数据提供3D视频的深度图图像进行有效编码的方法和设备、以及一种对深度图进行有效解码的方法和设备。技术方案
[0005]根据本发明,基于彩色图像和深度图图像之间的关系对深度图图像进行编码和解码。
[0006]有益效果
[0007]根据本发明,可基于多视点彩色视频帧和深度图帧有效地对多视点视频数据进行压缩。
【专利附图】

【附图说明】
[0008]图1是根据本发明的实施例的多视点系统的框图。
[0009]图2示出经由图1的多视点相机获得的多视点视频帧以及经由图1的深度相机获得的深度图帧。
[0010]图3是根据本发明的实施例的多视点视频数据编码设备的框图。
[0011]图4示出根据本发明的实施例的基于关于多视点彩色视频帧的划分信息,对相应的深度图帧进行划分的情况。
[0012]图5示出根据本发明的实施例的基于根据跳过模式编码的多视点彩色视频帧的块,对相应的深度图帧的块进行编码的情况。
[0013]图6示出根据本发明的实施例的基于多视点彩色视频帧的块的运动矢量,确定相应深度图帧的块的运动矢量的情况。
[0014]图7示出根据本发明的实施例的基于多视点彩色视频帧的块对相应的深度图帧的块进行帧内预测的情况。
[0015]图8是示出根据本发明的对多视点视频数据进行编码的方法的流程图。[0016]图9是根据本发明的实施例的多视点视频数据解码设备的框图。
[0017]图10是示出根据本发明的实施例的对多视点视频数据进行解码的方法的流程图。
[0018]图11示出根据本发明的实施例的基于对多视点视频进行编码的方法编码并基于对多视点视频进行解码的方法解码的多视点彩色视频帧。
[0019]图12是根据本发明的实施例的能够基于具有树结构的编码单元执行视频预测的视频编码设备的框图。
[0020]图13是根据本发明的实施例的能够基于具有树结构的编码单元执行视频预测的视频解码设备的框图。
[0021]图14示出根据本发明的实施例的编码单元的概念。
[0022]图15是根据本发明的实施例的基于编码单元的图像编码器的框图。
[0023]图16是根据本发明的实施例的基于编码单元的图像解码器的框图。
[0024]图17是示出根据本发明的实施例的与深度和分区相应的编码单元的示图。
[0025]图18是示出根据本发明的实施例的编码单元和变换单元之间的关系的示图。
[0026]图19是示出根据本发明的实施例的与深度相应的编码信息的示图。
[0027]图20是示出根据本发明的实施例的与深度相应的编码单元的示图。
[0028]图21、图22和图23是示出根据本发明的实施例的编码单元、预测单元和变换单元之间的关系的示图。
[0029]图24是示出根据表I的编码模式信息的编码单元、预测单元和变换单元之间的关系的不图。
[0030]图25a示出根据本发明的实施例的存储程序的盘的物理结构。
[0031]图25b示出通过使用盘记录和读取程序的盘驱动器。
[0032]图26示出提供内容分布服务的内容供应系统的整个结构。
[0033]图27和图28示出应用了根据本发明的实施例的视频编码方法和视频解码方法的移动电话的外部结构和内部结构。
[0034]图29示出根据本发明的实施例的采用通信系统的数字广播系统。
[0035]图30示出根据本发明的实施例的使用视频编码设备和视频解码设备的云计算系统的网络结构。
[0036]最佳实施方式
[0037]根据本发明的一方面,提供一种对多视点视频数据进行编码的方法,所述方法包括:获得多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧;对多视点彩色视频帧进行预测编码;基于对多视点彩色视频帧进行预测编码的结果,对相应的深度图帧进行预测编码。
[0038]根据本发明的另一方面,提供一种多视点视频数据编码设备,包括:图像获得单元,用于获得多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧;彩色视频帧编码单元,用于对多视点彩色视频帧进行预测编码;深度图帧编码单元,用于基于对多视点彩色视频帧进行预测编码的结果,对相应的深度图帧进行预测编码。
[0039]根据本发明的另一方面,提供一种对多视点视频数据进行解码的方法,所述方法包括:接收包含对多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧进行编码的结果的比特流;对多视点彩色视频帧进行解码;基于对多视点彩色视频帧进行解码的结果,对相应的深度图帧进行预测解码。
[0040]根据本发明的另一方面,提供一种用于对多视点视频数据进行解码的设备,所述设备包括:接收单元,用于接收包括编码的多视点彩色视频帧和编码的与所述多视点彩色视频帧相应的深度图帧的比特流;彩色视频帧解码单元,用于对从比特流获得的编码的多视点彩色视频帧进行解码;深度图帧解码单元,用于基于对多视点彩色视频帧进行解码的结果,对相应的深度图帧进行预测解码。
【具体实施方式】
[0041]以下,参照权利要求详细描述本发明的示例性实施例。
[0042]图1是根据本发明的实施例的多视点视频系统100的框图。
[0043]多视点视频系统100包括多视点视频数据编码设备110和多视点视频解码设备120。多视点视频数据编码设备110通过对经由至少两个多视点相机130获得的多视点视频帧和经由深度相机140获得的与多视点视频帧相应的深度图帧进行编码,来产生比特流。多视点视频数据解码设备120对比特流进行解码来获得解码的多视点视频帧,并根据观看者的需要以任意各种格式提供解码的多视点视频帧。
[0044]通过组合多个不同视点相机来制造至少两个多视点相机130,并且所述至少两个多视点相机130可以以帧为单元提供多视点视频。深度相机140向表示情景的深度信息的深度图帧提供具有256个梯度级的8比特图像。深度相机140可通过使用红外线来测量深度相机140和对象或背景之间的距离,并可提供与距离成正比或成反比的深度图帧。
[0045]如果多视点视频数据编码设备110对多视点视频数据和与其相应的深度图帧进行编码,并通过比特流发送编码的结果,则多视点视频数据解码设备120不仅可使用现有的立体图像或三维(3D)视频来提供立体效果,还可基于包括在比特流中的多视点视频帧以及深度图帧,从用户期望的视点合成3D视频。
[0046]将被编码的多视点视频数据的量与视点的数量成正比地增加,还应对深度图图像进行编码,从而为多视点视频数据添加立体效果。因此,为了实现如图1所示的多视点视频系统,应有效地压缩大量的多视点视频数据。
[0047]图2示出经由图1的所述至少两个多视点相机130获得的多视点视频帧、以及经由图1的深度相机140获得的深度图帧。
[0048]图2示出与从第一视点(视点O)捕捉的彩色视频帧211相应的从第一视点(视点O)捕捉的深度图帧221、与从第二视点(视点I)捕捉的彩色视频帧212相应的从第二视点(视点I)捕捉的深度图帧222、以及与从第三视点(视点2)捕捉的彩色视频帧213相应的从第三视点(视点2)捕捉的深度图帧223。虽然图2示出与从三个视点(视点O、视点I和视点2)捕捉的多视点彩色视频帧210和与多视点彩色视频帧210相应的深度图帧220,但是视点的总数不限于此。在图2中,多视点彩色视频帧210可以是亮度分量视频帧或色度分量视频中贞。
[0049]参照图2,由于通过使用彩色和深度表示在相同时间点且从相同视点捕捉的图像,来获得从相同视点捕捉的彩色视频帧及其深度图帧,因此,彩色视频帧及其深度图帧之间存在特定关系。也就是说,当将多视点彩色视频帧210和相应的深度图帧220进行比较时,它们之间存在特定关系,例如,对象的轮廓可被识别。因此,根据当前实施例的多视点视频数据编码设备110和多视点视频数据解码设备120可考虑多视点彩色视频帧210和相应的深度图帧220之间的关系,基于对多视点彩色视频帧210进行编码的结果,来对相应的深度图帧220进行预测编码,从而增加多视点视频数据的压缩效率。
[0050]图3是根据本发明的实施例的多视点视频数据编码设备300的框图。
[0051]参照图3,多视点视频数据编码设备300包括图像获得单元310、彩色视频帧编码单元320和深度图编码单元330。
[0052]图像获得单元310通过使用多视点视频获得单元(诸如,图1的所述至少两个多视点相机130)来获得多视点彩色视频帧,并通过使用深度图帧获得单元(诸如,深度相机140)来获得与多视点彩色视频帧相应的深度图帧。
[0053]彩色视频帧编码单元320对获得的多视点彩色视频帧进行预测编码。具体地,如下面将参照图12至图24的描述,根据当前实施例的彩色视频帧编码单元320可基于具有分层结构的编码单元(而不是普通宏块)对多视点彩色视频帧进行编码。彩色视频帧编码单元320可针对从多视点彩色视频帧划分出的至少一个最大编码单元中的每个,从与深度相应的分层编码单元中确定具有树结构的编码单元,其中,所述编码单元包括与编码深度相应的编码单元,所述深度均表示至少一个最大编码单元被空间地划分的次数;可确定用于对与编码深度相应的每个编码单元进行预测编码的分区;并可通过基于具有分层结构的变换单元执行变换,来确定具有树结构的变换单元。
[0054]当彩色视频帧编码单元320对多视点彩色视频帧进行编码时,深度图帧编码单元330基于预测编码的多视点彩色视频帧的结果,对相应的深度图帧进行预测编码。具体地,深度图帧编码单元330可基于通过对多视点彩色视频帧进行编码而确定的包括关于每个最大编码单元的编码单元、分区单元和变换单元的信息的划分信息,来以多视点彩色视频帧的划分形状设置从相应的深度图帧划分的至少一个最大编码单元中的每个的编码单元、分区单元和编码单元;可基于设置的编码单元、分区单元和变换单元来对深度图帧进行预测编码。
[0055]图4示出根据本发明的实施例的基于关于多视点彩色视频帧410的划分信息,来划分相应的深度图帧420的情况。
[0056]如果如图4中所示划分多视点彩色视频帧410,则图3的深度图帧编码单元330可以以与多视点彩色视频帧410的划分形状相应的划分形状,来划分相应的深度图帧420,而无需实际对相应的深度图帧420进行编码以及基于代价确定相应的深度图帧410的划分形状。这里,如下所述,划分形状可以是针对每个最大编码单元的编码单元、分区单元和变换单元中的数据单元的划分形状。如下所述,一般地,可通过在将各种划分形状应用于相应帧时对相应帧进行编码,根据对相应帧进行编码的结果比较率失真(RD)代价,并将具有最小RD代价的划分形状确定为最终划分形状,来确定编码单元、分区单元和变换单元中的每个的划分形状。然而,为了对相应深度图帧420进行编码,根据当前实施例的深度图帧编码单元330可将目标数据单元的划分形状确定为与编码的多视点彩色视频帧410的数据单元的划分形状相同,而无需通过应用各种划分形状来确定编码单元、分区单元和变换单元的划分形状的处理。
[0057]另外,深度图帧编码单元330可将用于深度图帧块的预测单元确定为与关于用于被预测编码的相应的多视点彩色视频帧块的预测模式的信息相同,并可根据确定的预测模式对深度图帧块进行预测编码。换言之,深度图帧编码单元330可直接使用关于用于相应的多视点彩色视频帧块的预测模式的信息,而无需以各种预测模式(例如,跳过模式、帧间预测模式、帧内预测模式等)对深度图帧块进行编码。
[0058]图5示出根据本发明的实施例的基于根据跳过模式编码的多视点彩色视频帧的块,对相应的深度图帧的块进行编码的情况。
[0059]参照图5,当根据跳过模式对编码的多视点彩色视频帧510的块511进行预测编码时,深度图帧编码单元330可还根据跳过模式对深度图帧530的相应块531进行预测编码,其中,所述相应块531被布置在与块511相同的位置。如图5中所示,如果使用块511的邻近块的运动矢量确定的预测运动矢量是MV1,则深度图帧编码单元330可将深度图帧530的块531的预测的运动矢量设置为MV1,并可基于与多视点彩色视频参考帧520相应的深度图参考帧540的参考块541,对深度图帧530的块531进行预测编码。如上所述,深度图帧编码单元330可直接使用与深度图帧块相应的多视点彩色视频帧块的运动信息,而无需直接对深度图帧块执行运动估计。如上所述,当相应的多视点彩色视频帧510的块511是跳过模式时,深度图帧编码单元330可仅将指示跳过模式的特定索引信息编码为深度图帧530的编码息。
[0060]另一方面,即使相应多视点彩色视频帧510的块511是跳过模式,深度图帧编码单元330也可通过对深度图帧530的块531执行确定运动估计来确定参考块542。在这种情况下,可使用额外的语法来标示未使用多视点彩色视频帧510的块511的运动信息。
[0061]另外,当编码的多视点彩色视频帧510的块511在帧间模式下被预测编码时,深度图帧单元330也可在帧间模式下对深度图帧530的块531进行预测编码。如果多视点彩色帧510的块511的运动矢量是MVl,则深度图帧编码单元330可将深度图帧530的块531的运动矢量设置为MV1,并可通过使用与多视点彩色视频参考帧520相应的深度图参考帧540的参考块541,来对深度图帧530的块531执行运动估计。
[0062]图6示出根据本发明的实施例的基于多视点彩色视频帧的块的运动矢量,确定相应深度图帧的块的运动矢量的情况。
[0063]参照图6,根据当前实施例的深度图帧编码单元330可根据编码的多视点彩色视频帧的相应块的运动矢量MV1,或通过在预定像素范围640内改变运动矢量MVl,来确定深度图帧的块的最优运动矢量,其中,多视点彩色视频帧的相应块被布置在与深度图帧的块相同的位置。如图6中所示,可通过在移动根据多视点彩色视频帧的块的运动矢量MVl确定的参考块641时计算代价,并确定具有最小代价的参考块的位置,来确定离深度图帧的块最近的参考块642。当参考块641的中心C的位置和参考块642的中心C’之间的差是(ΔΧ, Ay)时,深度图帧编码单元330可通过将差(ΛΧ,Ay)(以下称为调整值)与多视点彩色视频帧的块的运动矢量MVl相加来确定最优运动矢量。深度图帧编码单元330可将调整值(ΛΧ,Ay)编码为深度图帧块的运动矢量信息。
[0064]图7示出根据本发明的实施例的基于多视点彩色视频帧的块对相应的深度图帧的块进行帧内预测的情况。
[0065]参照图7,深度图帧编码单元330可通过使用多视点彩色视频帧710的块731来对深度图帧720的块721进行帧内预测,其中,所述块731被布置在与深度图帧720的块721相同的位置。具体地,如果被编码并随后被恢复的多视点彩色视频帧710的块731的像素值是P (X,y),并且布置在与像素P (X,y)相同位置的深度图帧720的块721的预测像素值是D (X,y),则深度图巾贞编码单元330可基于等式:D(x, y)=f (P (x, y)),通过使用多视点彩色视频帧710的块731来预测深度图帧720的块721。在这个等式中,函数f O可以是由特定权重a和特定偏移b定义的线性关系等式,例如,f (x)=ax+b。可通过使用通过对多视点彩色视频帧710和深度图帧720进行采样而获得的数据来计算最小二乘均值,来获得权重a和偏移b,或者权重a和偏移b可以是预设值。
[0066]深度图帧编码单元330可基于与针对相应的多视点彩色视频帧710设置的去块滤波或环路滤波相关的开/关信息,将去块滤波或环路滤波设置为开/关。
[0067]另外,当深度图帧720的块721和多视点彩色视频帧710的块731的尺寸根据采样比(例如,YUV4:4:4、4:2:0或4:0:2)变化时,深度图帧编码单元330可将多视点彩色视频帧710的块731下采样为具有与深度图帧720的块721的尺寸相同的尺寸,并可通过使用下采样的块731对深度图帧720的块721进行帧内预测。
[0068]图8是根据本发明的实施例的对多视点视频数据进行编码的方法的流程图。
[0069]参照图3和图8,在操作810,图像获得单元310获得多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧。
[0070]在操作820,彩色视频帧编码单元320对多视点彩色视频帧进行预测编码。彩色视频帧编码单元320可通过将多视点彩色视频帧划分为至少一个最大编码单元,并确定所述至少一个最大编码单元中的每个的最优编码单元、分区单元和变换单元,来对多视点彩色视频帧进行预测编码。
[0071]在操作830,深度图帧编码单元330基于对多视点彩色视频帧进行预测编码的结果,对相应的深度图帧进行预测编码。如上所述,深度图帧编码单元330可基于与从多视点彩色视频帧划分的至少一个最大编码单元中的每个的编码单元、分区单元、变换单元相关的划分信息对深度图帧进行划分,可基于关于用于多视点彩色视频帧的预测模式的信息来设置用于深度图帧的块的预测模式,可通过使用多视点彩色视频帧的块的像素值对布置在与多视点彩色视频帧的块相同位置处的深度图帧的相应块进行帧内预测,或可通过使用多视点彩色视频帧的块的运动矢量来确定深度图帧的块的运动矢量。另外,深度图帧编码单元330可基于关于多视点彩色视频帧的块的滤波信息,将滤波信息设置为被应用于深度图帧的块。
[0072]图9是根据本发明的实施例的多视点视频数据解码设备900的框图。
[0073]参照图9,多视点视频数据解码设备900包括接收单元910、彩色视频帧解码单元920和深度图帧解码单元930。
[0074]接收单元910接收包含对多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧进行编码的结果的比特流。
[0075]彩色视频帧解码单元920对从比特流获得的编码的多视点彩色视频帧进行解码。如下面将参照图12至图24的描述,根据本发明的实施例的彩色视频帧解码单元920可基于分层编码单元对多视点彩色视频帧进行解码。彩色视频帧解码单元920从比特流获得以下信息:关于从多视点彩色视频帧划分的至少一个最大编码单元中的每个的尺寸的信息、关于表示所述至少一个最大编码单元中的每个被空间地划分的次数的深度的信息、关于用于根据深度对分层编码单元进行预测编码的分区的信息以及关于具有分层结构的变换单元的信息。另外,基于获得的信息,彩色视频帧解码单元920针对从多视点彩色视频帧划分的至少一个最大编码单元中的每个,从与深度相应的分层编码单元中确定具有树结构的编码单元,其中,所述编码单元包括与编码深度相应的编码单元,所述深度均表示所述至少一个最大编码单元中的一个被空间地划分的次数;确定用于对与编码深度相应的每个编码单元进行预测解码的分区;确定具有树结构的变换单元。
[0076]深度图帧解码单元930基于解码的多视点彩色视频帧的结果,对相应的深度图帧进行预测解码。具体地,深度图帧解码单元930可基于关于通过对多视点彩色视频帧进行解码而确定的至少一个最大编码单元中的每个的编码单元、分区单元和变换单元的划分信息,以多视点彩色视频帧的划分形状,设置从相应深度图帧划分的至少一个最大编码单元中的每个的编码单元、分区单元和变换单元;并可基于设置的编码单元、分区单元和变换单元来对深度图帧进行预测解码。
[0077]另外,深度图帧解码单元930可基于关于用于解码的多视点彩色视频帧的预测模式的信息,针对深度图帧的块设置预测模式;可基于多视点彩色视频帧的块的像素值,对深度图帧的布置在与多视点彩色视频帧的块相同位置处的块进行帧内预测;并基于多视点彩色视频帧的块的运动矢量,针对深度图帧的块确定运动矢量。另外,深度图帧解码单元330可基于关于解码的多视点彩色视频帧的相应块的滤波信息,将滤波信息设置为被应用于深度图帧的块。
[0078]图10是示出根据本发明的实施例的对多视点视频数据进行解码的方法的流程图。
[0079]参照图9和图10,在操作1010,接收单元910接收包含对多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧进行编码的结果的比特流。
[0080]在操作1020,彩色视频帧解码单元920对从比特流获得的编码的多视点彩色视频帧进行解码。
[0081]在操作1030,深度图帧解码单元930基于对多视点彩色视频帧进行解码的结果,对相应的深度图帧进行预测解码。
[0082]图11示出根据本发明的实施例的基于对多视点视频进行编码的方法编码并基于对多视点视频进行解码的方法解码的多视点彩色视频帧。
[0083]图3的彩色视频帧编码单元320基于相机的帧间视点之间的时间相关性和空域相关性对多视点视频进行压缩编码。
[0084]在图11中,X轴表示时间,y轴表示视点。在x轴,“T0”至“T8”表示图像的采样时间。在y轴,“S0”至“S8”表示不同的视点。在图11中,每行表示从相同视点捕捉的图像画面组,每列表示在相同时间点捕捉的多视点视频。
[0085]图3的彩色视频帧编码单元320针对从基本视点捕捉的图像,周期性地产生帧内画面,并且通过基于帧内画面执行时间预测或帧间视点预测来对其它画面进行预测编码。
[0086]使用从相同视点(S卩,图11中的相同行中的图像)捕捉的图像之间的时间关系来执行时间预测。对于时间预测,可使用利用分层B画面的预测方案。使用相同时间点(即,图11中的相同列中的图像)的图像之间的空间关系来执行帧间视点预测。
[0087]在通过使用分层B画面对多视点视频画面进行预测的预测方案中,当使用来自相同视点的图像(即,相同行中的图像)之间的时间关系执行预测时,来自相同视点的图像画面组基于基准(anchor)画面被预测编码为双向画面(以下,称为“B”画面)。这里,基准画面表示布置在图11中的列中的第一时间点TO处的列110以及在最后时间点T8处的列120中的画面,其中,基准列110和列120均包括一帧内画面。布置在列110和列120中的除了帧内画面(以下称为“I画面”)以外的基准画面仅通过帧间视点预测被预测编码。布置在除了包括I画面的列110和列120以外的其它列中的画面被称为“非基准画面”。
[0088]例如,现在将描述使用分层B画面对在预定时间内从第一视点SO捕捉的图像画面进行编码的情况。在从第一视点SO捕捉的图像画面中,在第一视点点TO捕捉的画面111和在最后时间点T8捕捉的画面121被编码为I画面。随后,在T4时间点捕捉的画面131基于作为基准画面的I画面111和I画面121被双向预测编码为B画面。在时间点T2捕捉的画面132基于I画面111和B画面131被双向预测编码为B画面。类似地,在时间点Tl捕捉的画面133基于I画面111和B画面132被双向预测编码,在时间点T3捕捉的画面134基于B画面132和B画面131被双向预测编码。如上所述,由于使用基准画面对从相同视点捕捉的图像序列进行分层和双向地预测编码,因此预测编码方法被称为分层B画面。在图11的“Bn”中,η表示第η次双向预测的B画面(n=l,2,3和4)。例如,“BI”表示使用作为I画面或P画面的基准画面被第一次双向预测的画面,“B2”表示在BI画面之后双向预测的画面,“B3”表示在B2画面之后双向预测的画面,“B4”表示在B3画面之后双向预测的画面。
[0089]为了对多视点视频帧进行编码,首先,使用如上所述的分层B画面对从作为基本视点的第一视点SO捕捉的图像画面组进行编码。为了对从其它视点捕捉的图像序列进行编码,首先,使用来自第一视点SO的I画面111和I画面121,通过帧间视点预测使用P画面对从列Iio和列120中的奇数视点S2、S4和S6以及最后视点S7捕捉的图像画面进行预测编码。通过帧间视点预测,通过使用来自邻近视点的图像画面,将从列110和列120中的奇数视点S1、S3和S5图像画面捕捉的图像画面双向预测为B画面。例如,使用来自视点SI的I画面111和来自作为邻近视点的视点S2的P画面112对在时间点TO处从第二视点SI捕捉的B画面113进行双向预测。
[0090]如上所述,当使用I画面、B画面、P画面中的一个对来自列110和列120中的所有视点的图像画面都进行了编码时,基准通过使用B画面的时间预测和帧间视点预测对非基准画面130进行双向预测编码。
[0091]在非基准画面130中,通过使用分层B画面的时间预测,使用来自相同视点的基准画面,对从奇数视点S2、S4和S6以及最后视点S7捕捉的画面进行双向预测编码。在非基准画面130中,不仅通过使用分层B画面的时间预测还通过使用来自邻近视点的画面的帧间视点预测,来对从偶数视点S1、S3、S5和S7捕捉的图像画面进行双向预测编码。例如,使用基准图像113和123以及来自邻近视点的画面131和135,对在时间点T4处从视点S2捕捉的画面136进行预测。
[0092]如上所述,使用在相同时间点处从不同视点捕捉的I画面或先前P画面对包括在列110和列120中的P画面都进行预测编码。例如,使用在最后时间点T8处从第一视点SO捕捉的I画面121作为参考帧,对在最后时间点T8处从视点S2捕捉的P画面122进行预测编码。[0093]将参照图12至图24详细描述能够基于具有树结构的编码单元对预测单元和分区进行预测编码的视频编码方法和设备、以及能够基于具有树结构的编码单元对预测单元和分区进行预测解码的视频解码方法和设备。下面将描述的视频编码方法和设备可应用于图3的彩色视频帧编码单元320,下面将描述的视频解码方法和设备可应用于图9的彩色视频帧解码单元920。
[0094]图12是根据本发明的实施例的能够基于具有树结构的编码单元执行视频预测的视频编码设备的框图。
[0095]能够基于具有树结构的编码单元执行视频预测的视频编码设备100包括最大编码单元划分器110、编码单元确定器120和输出单元130。为了便于解释,以下,将能够基于具有树结构的编码单元执行视频预测的视频编码设备100称为“视频编码设备100”。
[0096]最大编码单元划分器110可基于用于当前画面的最大编码单元来对图像的当前画面进行划分。如果当前画面大于最大编码单元,则当前画面的图像数据可被划分为至少一个最大编码单元。根据本发明的实施例的最大编码单元可以是具有32X32、64X64、128X 128或256X 256等尺寸的数据单元,其中,数据单元的形状是具有宽度和长度为2的若干次方的正方形。图像数据可根据所述至少一个最大编码单元被输出到编码单元确定器120。
[0097]根据本发明的实施例的编码单元的特征可由最大尺寸和深度描绘。深度表示编码单元从最大编码单元空间划分的次数,并且随着深度加深,与深度相应的编码单元可从最大编码单元被划分为最小编码单元。最大编码单元的深度可被确定为最高深度,最小编码单元的深度可被确定为最低深度。由于随着最大编码单元的深度加深,与每个深度相应的编码单元的尺寸减小,因此与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。
[0098]如上所述,当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元,并且每个最大编码单元可包括根据深度被划分的编码单元。由于根据深度对根据本发明的实施例的最大编码单元进行划分,因此可根据深度对包括在最大编码单元中的空间域的图像数据进行分层地分类。
[0099]可预先确定编码单元的最大深度和最大尺寸,所述最大深度和最大尺寸限制对最大编码单元的高度和宽度进行分层划分的总次数。
[0100]编码单元确定器120对通过根据深度对最大编码单元的区域进行划分而获得的至少一个划分区域进行编码,并且根据所述至少一个划分区域来确定用于输出最终的编码图像的深度。也就是说,编码单元确定器120通过以当前画面的最大编码单元为单位对与深度相应的编码单元中的图像数据进行编码,并选择具有最小编码误差的深度,来确定编码深度。确定的编码深度和每个最大编码单元中的图像数据被输出到输出单元130。
[0101]根据等于或低于最大深度的至少一个深度,基于与深度相应的编码单元,来对每个最大编码单元中的图像数据进行编码,并且将基于与深度相应的编码单元对图像数据进行编码的结果进行比较。可在将与深度相应的编码单元的编码误差进行比较之后,选择具有最小编码误差的深度。可针对每个最大编码单元选择至少一个编码深度。
[0102]最大编码单元的尺寸随着编码单元根据深度被分层地划分而被划分,并且编码单元的数量增加。另外,即使包括在一个最大编码单元中的编码单元与相同的深度相应,也通过测量每个编码单元的图像数据的编码误差来确定是否将每个编码单元划分到更低深度。因此,由于即使包括在一个最大编码单元中的图像数据具有与深度相应的不同编码误差,因此可根据图像数据的区域而不同地设置编码深度。因此,针对一个最大编码单元可设置至少一个编码深度,并且可根据所述至少一个编码深度的编码单元来对最大编码单元的图像数据进行划分。
[0103]因此,根据本发明的实施例的编码单元确定器120可确定具有包括在当前最大编码单元中的树结构的编码单元。根据本发明的实施例的“具有树结构的编码单元”包含包括在当前最大编码单元中的与深度相应的所有编码单元中的与确定为编码深度的深度相应的编码单元。可根据最大编码单元的相同区域中的深度来分层地确定与编码深度相应的编码单元,并且可以在最大编码单元的不同区域中独立地确定与编码深度相应的编码单元。类似地,可从另一区域中的编码深度独立地确定当前区域的编码深度。
[0104]根据本发明的实施例的最大深度是与从最大编码单元到最小编码单元的划分次数有关的索引。根据本发明的实施例的第一最大深度可表示从最大编码单元到最小编码单元的总划分次数。根据本发明实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度等级的总数。例如,当最大编码单元的深度是O时,通过对最大编码单元进行一次划分而获得的编码单元的深度可被设置为1,通过对最大编码单元进行两次划分而获得的编码单元的深度可被设置为2。如果通过对最大编码单元进行四次划分而获得的编码单元是最小编码单元,则存在深度0、1、2、3和4的深度等级。因此,第一最大深度可被设置为4,并且第二最大深度可被设置为5。
[0105]可对最大编码单元执行预测编码和变换。类似地,基于与深度相应的编码单元并根据等于或小于最大深度的深度,以最大编码单元为单位执行预测编码和变换。
[0106]由于无论何时根据深度对最大编码单元进行划分,与深度相应的编码单元的数量均增加,因此应对随着深度加深产生的与深度相应的所有编码单元执行包括预测编码和变换的编码。为了便于描述,现在将基于包括在至少一个最大编码单元中的当前深度的编码单元来描述预测编码和变换。
[0107]视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸和形状。为了对图像数据进行编码,执行诸如预测编码、变换和熵编码的操作,同时,相同的数据单元可被用于所有操作,或者不同数据单元可被用于每个操作。
[0108]例如,视频编码设备100可不仅选择用于对图像数据进行编码的编码单元,还可选择不同于编码单元的数据单元,以便对编码单元中的图像数据执行预测编码。
[0109]为了对最大编码单元执行预测编码,可基于与编码深度相应的编码单元(S卩,基于不再被划分为与更低深度相应的编码单元的编码单元)来执行预测编码。以下,不再被划分且成为用于预测编码的基本单元的编码单元被称为“预测单元”。通过划分预测单元获得的分区可包括预测单元和通过对预测单元的高度和宽度中的至少一个进行划分而获得的数据单元。分区可以是通过对编码单元的预测单元进行划分而获得的数据单元,并且预测单元可以是具有与编码单元相同的尺寸的分区。
[0110]例如,当2NX2N (N是正整数)的尺寸的编码单元不再被划分并成为2NX2N的预测单元时,分区的尺寸可以是2NX2N、NXN、NX2N或NXN。分区类型的示例可包括通过对预测单元的高度和宽度进行对称地划分而获得的对称分区、通过对预测单元的高度和宽度进行非对称地划分(诸如,按照1:n或η:1)而获得的分区、通过对预测单元进行几何地划分而获得的分区、以及具有任意形状的分区。
[0111]预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如,可对2Ν X 2Ν、2Ν X N、N X 2Ν或N X N的分区执行帧内模式或帧间模式。另外,可仅对2Ν X 2Ν的分区执行跳过模式。可对每个编码单元中的一个预测单元独立地执行编码,可选择具有最小编码误差的预测模式。
[0112]另外,视频编码设备100可不仅基于用于对图像数据进行编码的编码单元还基于与编码单元不同的数据单元,来对编码单元中的图像数据执行变换。为了对编码单元执行变换,可基于具有小于或等于编码单元的尺寸的尺寸的数据单元来执行变换。例如,变换单元可包括用于帧内模式的数据单元和用于帧间模式的数据单元。
[0113]与根据本发明的实施例的具有树结构的编码单元类似,编码单元中的变换单元可被递归地划分为更小尺寸的变换单元。因此,可基于根据变换深度的具有树结构的编码单元,来对编码单元中的残差数据进行划分。
[0114]根据本发明的实施例的变换单元还可被分配变换深度,所述变换深度表示对编码单元的高度和宽度进行划分以获得变换单元的次数。例如,当2ΝΧ2Ν的当前编码单元的变换单元的尺寸是2ΝΧ2Ν时,变换深度可以是0,当2ΝΧ2Ν的当前编码单元的变换单元的尺寸是NXN时,变换深度可以是1,并且当2ΝΧ2Ν的当前编码单元的变换单元的尺寸是Ν/2ΧΝ/2时,变换深度可以是2。也就是说,可根据变换深度设置具有树结构的变换单元。
[0115]每个编码深度的编码信息不仅需要关于编码深度的信息,还需要关于与预测编码和变换相关的信息。因此,编码单元确定器120可不仅确定具有最小编码误差的编码深度,还确定预测单元中的分区类型、每个预测单元的预测模式和用于变换的变换单元的尺寸。
[0116]稍后将描述根据本发明的实施例的包括在最大编码单元中的具有树结构的编码单元以及确定预测单元/分区和变换单元的方法。
[0117]编码单元确定器120可通过使用基于拉格朗日乘数的率失真优化,来测量与深度相应的编码单元的编码误差。
[0118]输出单元130在比特流中输出最大编码单元的图像数据和关于每个深度的编码模式的信息,其中,所述最大编码单元的图像数据基于由编码单元确定器120确定的至少一个编码深度被编码。
[0119]编码图像数据可以是对图像的残差数据进行编码的结果。
[0120]关于每个深度的编码模式的信息可包括关于编码深度的信息、关于在预测单元中的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。
[0121]可使用根据深度的划分信息来定义关于编码深度的信息,其中,根据深度的划分信息指示是否对更低深度而不是当前深度的编码单元执行编码。如果当前编码单元的当前深度是编码深度,则使用与当前深度相应的编码单元对当前编码单元进行编码,因此可定义关于当前深度的划分信息,使得可不再将当前深度的当前编码单元划分为更低深度的编码单元。相反地,如果当前编码单元的当前深度不是编码深度,则应对更低深度的编码单元进行编码,并且可因此定义关于当前深度的划分信息,使得将当前深度的当前编码单元划分为更低深度的编码单元。
[0122]如果当前深度不是编码深度,则对更低深度的编码单元执行编码。由于更低深度的至少一个编码单元存在于当前深度的一个编码单元中,因此对更低深度的每个编码单元重复执行编码,并因此可对具有相同深度的编码单元递归地执行编码。
[0123]由于应在一个最大编码单元中确定具有树结构的编码单元,并且针对编码深度的每个编码单元确定关于至少一个编码模式的信息,所以可针对一个最大编码单元确定关于至少一个编码模式的信息。另外,由于可根据深度分层地对图像数据进行划分,因此最大编码单元的图像数据可根据它的位置具有不同的编码深度。因此可针对图像数据设置关于编码深度和编码模式的信息。
[0124]因此,根据本发明的实施例的输出单元130可将关于相应的编码深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。
[0125]根据本发明的实施例的最小单元是通过将最低深度的最小编码单元划分4次而获得的矩形数据单元。可选择地,最小单元可以是可被包括在最大编码单元中所包括的编码单元、预测单元、分区单元和变换单元中的全部中的最大矩形数据单元。
[0126]例如,经由输出单元130输出的编码信息可被分类为与深度相应的每个编码单元的编码信息和每个预测单元的编码信息。与深度相应的每个编码单元的编码信息可包括预测模式信息和分区尺寸信息。每个预测单元的编码信息可包括关于帧间模式的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息,以及关于帧内模式的插值方法的信息。
[0127]以画面、条带或GOP为单位定义的关于编码单元的最大尺寸的信息和关于最大深度的信息可被插入到比特流、序列参数集(SPS)或画面参数集(PPS)的头部。
[0128]另外,可经由比特流、SPS或PPS的头部发送关于当前视频中可用的变换单元的最大尺寸和最小尺寸的信息。输出单元130可对编码单元的可伸缩性的信息进行编码和输出。
[0129]在根据本发明的实施例的视频编码设备100中,与深度相应的编码单元可以是通过将更高深度的编码单元的高度或宽度除以二而获得的编码单元。换言之,当当前深度的编码单元的尺寸是2NX 2N时,更低深度的编码单元的尺寸是NXN。另外,2NX 2N的编码单元可包括最多4个更低深度的NXN编码单元。
[0130]因此,视频编码设备100可基于考虑当前画面的特征而确定的每个最大编码单元的尺寸和最大深度,针对每个最大编码单元确定具有最优形状和最优尺寸的编码单元来形成具有树结构的编码单元。另外,由于可根据不同预测模式和变换方法中的任意一个对每个最大编码单元进行编码,因此可通过考虑不同图像尺寸的编码单元的特征来确定最优编码模式。
[0131]因此,如果以传统宏块为单位对具有高分辨率或非常大数据量的图像进行编码,则每个画面的宏块的数量过度增加。因此,针对每个宏块产生的压缩信息量增加,从而难以发送压缩的信息,并且数据压缩效率降低。然而,视频编码设备100能够考虑图像的尺寸,在增加编码单元的最大尺寸时,基于图像的特征控制编码单元,从而增加图像压缩效率。
[0132]图13是根据本发明的实施例的能够基于具有树结构的编码单元执行视频预测的视频解码设备200的框图。
[0133]能够基于具有树结构的编码单元执行视频预测的视频解码设备200包括接收器210、图像数据和编码信息提取器220以及图像数据解码器230。为了便于解释,现在将能够基于具有树结构的编码单元执行视频预测的视频解码设备200被称为“视频解码设备200”。
[0134]下面用于解释视频解码设备200的解码操作的各种术语(诸如编码单元、深度、预测单元、变换单元和关于不同编码模式的信息)的定义与上面参照图12描述的视频编码设备100的定义相同。
[0135]接收器210接收和解析编码视频的比特流。图像数据和编码信息提取器220以最大编码单元为单位,从解析的比特流提取具有树结构的每个编码单元的编码图像数据,并将提取的图像数据输出到图像数据解码器230。图像数据和编码信息提取器220可从关于当前画面、SPS或PPS的头部提取关于当前画面的编码单元的最大尺寸的信息。
[0136]另外,图像数据和编码信息提取器220以最大编码单元为单位,从解析的比特流提取关于具有树结构的编码单元的编码深度和编码模式的信息。提取的关于编码深度和编码模式的信息被输出到图像数据解码器230。换言之,比特流中的图像数据可被划分为最大编码单元,使得图像数据解码器230可以最大编码单元为单位对图像数据进行解码。
[0137]可针对至少一个编码深度设置关于每个最大编码单元的编码深度和编码模式的信息。关于每个编码深度的编码模式的信息可包括关于与编码深度相应的相应编码单元的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。另外,根据深度的划分信息可被提取为关于编码深度的信息。
[0138]由图像数据和编码信息提取器220提取的每个最大编码单元的编码深度和编码模式的信息是关于编码深度和编码模式的信息,其中,所述编码深度和编码模式被确定为用于在编码侧(例如,视频编码设备100)以最大编码单元为单位对与深度相应的每个编码单元重复地执行编码时,产生最小编码误差。因此,视频解码设备200可通过根据产生最小编码误差的编码深度和编码模式对数据进行解码来恢复图像。
[0139]由于关于编码深度和编码模式的编码信息可被分配给相应的编码单元、预测单元和最小单元中的数据单元,因此图像数据和编码信息提取器220可以以数据单元为单位,提取关于编码深度和编码模式的信息。如果以数据单元为单位记录了关于每个最大编码单元的编码深度和编码模式的信息,则包括关于相同编码深度和编码模式的信息的数据单元可被推断为是包括在相同的最大编码单元中的数据单元。
[0140]图像数据解码器230基于关于每个最大编码单元的编码深度和编码模式的信息,通过对每个最大编码单元中的图像数据进行解码,来恢复当前画面。换言之,图像数据解码器230可基于包括在每个最大编码单元中的具有树结构的每个编码单元中的解析的分区类型、预测模式和变换单元,对编码的图像数据进行解码。解码处理可包括包含帧内预测和运动补偿的预测处理和逆变换处理。
[0141]编码数据解码器230可基于关于根据编码深度的每个编码单元的预测单元的分区类型和预测模式的信息,根据每个编码单元的分区和预测模式,对每个编码单元执行帧内预测或运动补偿。
[0142]另外,为了对每个最大编码单元执行逆变换,图像数据解码器230可对关于每个编码单元的具有树结构的变换单元的信息进行解析,并基于每个编码单元的变换单元执行逆变换。通过逆变换,可恢复每个编码单元的空间域的像素值。[0143]图像数据解码器器230可基于根据深度的划分信息来确定当前最大编码单元的编码深度。如果划分信息指示图像数据在当前深度下不再被划分,则当前深度是编码深度。因此,图像数据解码器230可通过使用关于与当前深度相应的编码单元的预测单元的分区类型、预测模式和变换单元的尺寸的信息,对与当前最大编码单元的图像数据进行解码。
[0144]换言之,可通过观察分配给编码单元、预测单元和最小单元中的数据单元的编码信息来收集包含包括相同划分信息的编码信息的数据单元,并且收集的数据单元可被认为是将由图像数据解码器230根据相同编码模式进行解码的一个数据单元。
[0145]视频解码设备200可通过递归地对每个最大编码单元执行编码,来获得关于产生最小编码误差的编码单元的信息,并且可使用所述信息来对当前画面进行解码。换言之,以最大编码单元为单位确定为最优编码单元的具有树结构的编码单元中的编码图像数据可被解码。
[0146]因此,即使图像数据具有高分辨率或非常大的数据量,也可通过使用编码单元的尺寸和编码模式对图像数据进行有效地解码,以恢复图像数据,其中,基于从编码侧接收到的关于最优编码模式的信息,根据图像的特征自适应地确定所述编码单元的尺寸和编码模式。
[0147]图14示出根据本发明的实施例的编码单元的概念的示图。
[0148]编码单元的尺寸可被表示为宽X高,并可以是64X64、32X32、16X16和8X8。64X64的编码单元可被划分为64X64、64X32、32X64或32X32的分区,32X32的编码单元可被划分为32X32、32X 16、16X32或16X16的分区,16X16的编码单元可被划分为16X16、16X8、8X16或8X8的分区,8X8的编码单元可被划分为8X8、8X4、4X8或4X4的分区。
[0149]在视频数据310中,分辨率是1920 X 1080,编码单元的最大尺寸是64,最大深度是
2。在视频数据320中,分辨率是1920 X 1080,编码单元的最大尺寸是64,最大深度是3。在视频数据330中,分辨率是352X288,编码单元的最大尺寸是16,最大深度是I。图14中示出的最大深度表示从最大编码单元到最小编码单元的总划分次数。
[0150]如果分辨率高或数据量大,则编码单元的最大尺寸可相对大,从而不仅提高编码效率,而且准确地反映图像的特征。因此,具有比视频数据330更高分辨率的视频数据310和视频数据320的编码单元的最大尺寸可以是64。
[0151]由于视频数据310的最大深度是2,因此由于通过对最大编码单元进行两次划分,深度加深两层,从而视频数据310的编码单元315可包括具有64的长轴尺寸的最大编码单元和具有32和16的长轴尺寸的编码单元。同时,由于视频数据330的最大深度是1,因此由于通过对最大编码单元进行一次划分,深度加深一层,从而视频数据330的编码单元335可包括具有16的长轴尺寸的最大编码单元和具有8的长轴尺寸的编码单元。
[0152]由于视频数据320的最大深度是3,因此由于通过对最大编码单元进行三次划分,深度加深3层,从而视频数据320的编码单元325可包括具有64的长轴尺寸的最大编码单元和具有32、16和8的长轴尺寸的编码单元。随着深度加深,详细信息可被精确地表示。
[0153]图15是根据本发明的实施例的基于编码单元的图像编码器400的框图。
[0154]图像编码器400执行视频编码设备100的编码单元确定器120的操作来对图像数据进行编码。具体地,帧内预测器410对当前帧405中的帧内模式的编码单元执行帧内预测,运动估计器420和运动补偿器425通过使用当前帧405和参考帧495,对当前帧405中的帧间模式的编码单元执行帧间估计和运动补偿。
[0155]从帧内预测器410、运动估计器420和运动补偿器425输出的数据通过变换器430和量化器440被输出为量化的变换系数。量化的变换系数通过反量化器460和逆变换器470被恢复为空间域中的数据。空间域中的恢复的数据在通过去块单元480和环路滤波单元490后处理之后被输出为参考帧495。量化的变换系数可通过熵编码器450被输出在比特流455中。
[0156]为了将图像编码器400应用于视频编码设备100,图像编码器400的所有元件(SP,帧内预测器410、运动估计器420、运动补偿器425、变换器430、量化器440、熵编码器450、反量化器460、逆变换器470、去块单元480和环路滤波单元490)在考虑每个最大编码单元的最大深度时,基于具有树结构的编码单元中的每个编码单元执行操作。
[0157]具体地,帧内预测器410、运动估计器420和运动补偿器425在考虑当前最大编码单元的最大尺寸和最大深度时,确定具有树结构的编码单元中的每个编码单元的分区和预测模式。变换器430以每个编码单元为单位,确定具有树结构的编码单元中的每个编码单元中的变换单元的尺寸。
[0158]图16是根据本发明的实施例的基于编码单元的图像解码器500的框图。
[0159]解析器510对比特流505进行解析,以获得将被解码的编码图像数据和对编码图像数据进行解码所需的编码信息。编码图像数据通过熵解码器520和反量化器530被输出为反量化的数据,反量化的数据通过逆变换器540被恢复为空间域中的图像数据。
[0160]针对空域中的图像数据,帧内预测器550对帧内模式的编码单元执行帧内预测,运动补偿器560通过使用参考帧585对帧间模式的编码单元执行运动补偿。
[0161]通过帧内预测器550和运动补偿器560的空间域中的图像数据可在通过去块单元570和环路滤波单元580后处理之后,被输出为恢复帧595。另外,通过去块单元570和环路滤波580后处理的图像数据被输出为参考帧585。
[0162]为了通过使用视频解码设备200的图像数据解码器230对图像数据进行解码,图像解码器500可执行在解析器510之后执行的操作。
[0163]为了将图像解码器500应用于视频解码设备200,图像解码器500的所有元件(SP,解析器510、熵解码器520、反量化器530、逆变换器540、帧内预测器550、运动补偿器560、去块单元570和环路滤波单元580)以最大编码单元为单位,执行基于具有树结构的编码单元的操作。
[0164]具体地,帧内预测器550和运动补偿器560确定具有树结构的每个编码单元的分区和预测模式,逆变换器540确定每个编码单元的变换单元的尺寸。
[0165]图17是示出根据本发明的实施例的与深度相应的编码单元和分区的示图。
[0166]根据本发明的实施例的视频编码设备100和视频解码设备200使用分层编码单元来考虑图像的特征。可根据图像的特征自适应地确定编码单元的最大高度、最大宽度和最大深度,或可由用户不同地设置它们。可根据编码单元的预定最大尺寸来确定与深度相应的编码单元的尺寸。
[0167]在根据本发明的实施例的编码单元的分层结构600中,编码单元的最大高度和最大宽度均是64,最大深度是4。由于深度沿着分层结构600的垂直轴加深,因此与深度相应的每个编码单元的高度和宽度均被划分。另外,预测单元和分区沿着分层结构600的横轴被示出,其中,所述预测单元和分区作为与深度相应的每个编码单元的预测编码的基础。
[0168]具体地,在分层结构600中,编码单元610是最大编码单元,并具有为O的深度和64X64 (S卩,长X宽)的尺寸。随着深度沿着纵轴加深,存在具有尺寸32X32和深度I的编码单元620、具有尺寸16 X 16和深度2的编码单元630和具有尺寸8 X 8和深度3的编码单元640和具有尺寸4X4和深度4的编码单元650。具有尺寸4X4和深度4的编码单元650是最小编码单元。
[0169]根据每个深度沿着横轴布置每个编码单元的预测单元和分区。如果具有尺寸64X64和深度O的编码单元610是预测单元,则可将预测单元划分为包括在编码单元610中的分区,即,具有尺寸64X64的分区610、具有尺寸64X32的分区612、具有尺寸32X64的分区614或具有尺寸32X32的分区616。
[0170]类似地,可将具有尺寸32X32的深度I的编码单元620的预测单元划分为包括在编码单元620中的分区,即,具有尺寸32X32的分区620、具有尺寸32X16的分区622、具有尺寸16X32的分区624和具有尺寸16X16的分区626。
[0171]类似地,可将具有尺寸16 X 16和深度2的编码单元630的预测单元划分为包括在编码单元630中的分区,即,具有尺寸16X16的分区630、具有尺寸16X8的分区632、具有尺寸8X16的分区634和具有尺寸8X8的分区636。
[0172]类似地,可将具有尺寸8X8和深度3的编码单元640的预测单元划分为包括在编码单元640中的分区,即具有尺寸8X8的分区640、具有尺寸8X4的分区642、具有尺寸4X8的分区644和具有尺寸4X4的分区646。
[0173]具有尺寸4X4和深度4的编码单元650是具有最低深度的最小编码单元。将编码单元650的预测单元仅设置为具有尺寸4X4的分区。
[0174]为了确定最大编码单元610的编码深度,视频编码设备100的编码单元确定器120对包括在最大编码单元610中的与每个深度相应的所有编码单元进行编码。
[0175]随着深度加深,与每个深度相应并包括具有相同范围和相同尺寸的数据的编码单元的数量增加。例如,与深度2相应的四个编码单元被要求覆盖包括在与深度I相应的一个编码单元中的数据。因此,为了比较对根据深度的相同数据进行编码的结果,与深度I相应的编码单元和与深度2相应的四个编码单元均被编码。
[0176]为了以深度为单位执行编码,可通过沿着分层结构600的横轴,对与深度相应的每个编码单元中的预测单元进行编码,来将每个深度的最小编码误差选为代表编码误差。可选择地,随着深度沿着分层结构600的纵轴加深,可通过以深度为单位执行编码并比较根据深度的最小编码误差,来搜索最小编码误差。可将在最大编码单元610中的具有最小编码误差的深度和分区选为最大编码单元610的编码深度和分区类型。
[0177]图18是示出根据本发明的实施例的编码单元710和变换单元720之间的关系的示图。
[0178]根据本发明的实施例的视频编码设备100 (或视频解码设备200)基于尺寸小于或等于最大编码单元的编码单元,以最大编码单元为单位对图像进行编码(或解码)。在编码期间,可基于不大于相应的编码单元的数据单元,来选择用于执行变换的每个变换单元的尺寸。[0179]例如,在视频编码设备100 (或视频解码设备200)中,如果编码单元710的尺寸是64 X 64,则可使用具有尺寸32X32的变换单元720来执行变换。
[0180]另外,可通过对具有小于尺寸64X64的尺寸32X32、16X 16、8X8和4X4的每个变换单元执行变换来对具有尺寸64 X 64的编码单元710的数据进行编码,并可随后选择具有最小编码误差的变换单元。
[0181]图19是示出根据本发明的实施例的与深度相应的编码信息的示图。
[0182]视频编码设备100的输出单元130可将以下信息作为关于编码模式的信息来进行编码并发送:针对与编码深度相应的每个编码单元的关于分区类型的信息800、关于预测模式的信息810和关于变换单元尺寸的信息820。
[0183]信息800指示关于通过对当前编码单元的预测单元进行划分而获得的分区的形状的信息,其中,所述分区作为用于对当前编码单元进行预测编码的数据单元。例如,具有尺寸2NX 2N的当前编码单元CU_0可被划分为具有尺寸2NX 2N的分区802、具有尺寸2NXN的分区804、具有尺寸NX2N的分区806和具有尺寸NXN的分区808中的任意一个。在这种情况下,信息800被设置为指示具有尺寸2NXN的分区804、具有尺寸NX 2N的分区806和具有尺寸NXN的分区808中的一个。
[0184]信息810指示每个分区的预测模式。例如,信息810可指示对由信息800指示的分区执行预测编码的模式(即,帧内模式812、帧间模式814或跳过模式816)。
[0185]信息820指示当对当前编码单元执行变换时所基于的变换单元。例如,变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧间变换单元828。
[0186]视频解码设备200的图像数据和编码信息提取器220可提取并使用用于对与深度相应的编码单元进行解码的信息800、信息810和信息820。
[0187]图20是示出根据本发明的实施例的与深度相应的编码单元的示图。
[0188]划分信息可被用于指示深度变化。划分信息指示当前深度的编码单元是否被划分为更低深度的编码单元。
[0189]用于对具有深度O和尺寸2N_0X2N_0的编码单元900进行预测编码的预测单元910可包括具有以下类型的分区类型的分区:具有尺寸2N_0 X 2N_0的分区类型912、具有尺寸2N_0XN_0的分区类型914、具有尺寸N_0X2N_0的分区类型916和具有尺寸Ν_0ΧΝ_0的分区类型918。虽然图9仅示出通过对预测单元910进行对称划分而获得的分区类型912至918,但是分区类型并不限于此,并且预测单元910的分区可包括非对称分区、具有预定形状的分区或具有几何形状的分区。
[0190]根据每个分区类型对具有尺寸2N_0X2N_0的一个分区、具有尺寸2N_0XN_0的两个分区、具有尺寸N_0X2N_0的两个分区和具有尺寸Ν_0ΧΝ_0的四个分区重复执行预测编码。可根据帧内模式和帧间模式,对具有尺寸2N_0X2N_0、N_0X2N_0、2N_0XN_0和Ν_0ΧΝ_0的分区执行预测编码。根据跳过模式,仅对具有尺寸2N_0X2N_0的分区执行预测编码。
[0191]如果在分区类型912至916中的一个中编码误差最小,则可不将预测单元910划分至更低深度。
[0192]如果在分区类型918中编码误差最小的,则在操作920深度从O改变为I以划分分区类型918,对具有深度2和尺寸Ν_0ΧΝ_0的编码单元930重复执行编码来搜索最小编
码误差。
[0193]用于对具有深度I和尺寸2Ν_1Χ2Ν_1 (=Ν_0ΧΝ_0)的编码单元930执行预测编码的预测单元940可包括具有以下分区类型的分区:具有尺寸2N_1 X2N_1的分区类型942、具有尺寸2N_1 XN_1的分区类型944、具有尺寸N_1 X 2N_1的分区类型946和具有尺寸N_1XN_1的分区类型948。
[0194]如果在具有N_1 XN_1的分区类型948中编码误差最小,则在操作950深度从I改变为2以划分分区类型948,并且对具有深度2和尺寸N_2XN_2的编码单元960重复执行
编码来搜索最小编码误差。
[0195]当最大深度是d时,与深度相应编码单元可被设置为直到深度变为d-Ι为止,并且划分信息可被设置为直到深度是d-2为止。也就是说,在操作970在与d-2的深度相应的编码单元被划分之后执行编码直到当深度是d-Ι时为止,用于对具有深度d-Ι和尺寸2N_(d-l)X2N_(d-l)的编码单元980执行预测编码的预测单元990可包括具有以下分区类型的分区:具有尺寸2N_(d-l) X2N_(d-l)的分区类型992、具有尺寸2N_(d_l) XN_(d_l)的分区类型994、具有尺寸N_(d-1) X2N_(d-l)的分区类型996和具有尺寸N_(d_l) XN_(d-Ι)的分区类型998。
[0196]可对分区类型992至分区类型998中的具有尺寸2N_(d_l) X2N_(d_l)的一个分区、具有尺寸2N_(d-l) XN_(d-l)的两个分区、具有尺寸N_(d-1) X2N_(d-l)的两个分区和具有尺寸1((1-1)\1((1-1)的四个分区重复执行预测编码,来搜索具有最小编码误差的分区类型。`
[0197]即使当分区类型998具有最小编码误差时,由于最大深度是d,因此具有深度d-1的编码单元cu_(d-l)也不再被划分至更低深度,并且当前最大编码单元900的编码深度被确定为d-Ι,编码单元900的分区类型可被确定为N_(d-1) XN_(d-l)。另外,由于最大深度是d,因此不针对具有深度(d-Ι)的编码单元952设置划分信息。
[0198]数据单元999可以是当前最大编码单元的“最小单元”。根据本发明的实施例的最小单元可以是通过将具有最低编码深度的最小编码单元划分为4而获得的矩形数据单元。通过如上所述重复执行编码,视频编码设备100可通过将根据编码单元900的深度的编码误差进行比较并选择具有最小编码误差的深度,来确定编码深度,并且将编码单元900的分区类型和预测模式设置为编码深度的编码模式。
[0199]这样,将根据深度(B卩,0、1、…、d-Ι和d)的最小编码误差彼此比较,并且可将具有最小编码误差的深度确定为编码深度。预测单元的编码深度、分区类型和预测模式可作为关于编码模式的信息被编码并被发送。另外,由于编码单元从深度O被划分到编码深度,因此仅将编码深度的划分信息设置为0,并且将根据除了编码深度以外的其它深度的划分信息设置为“I”。
[0200]视频解码设备200的图像数据和编码信息提取器220可提取并使用关于编码单元900的编码深度和预测单元的信息,来对分区912进行解码。视频解码设备200可基于根据深度的划分信息,将与划分信息“O”相应的深度确定为编码深度,并且可在解码处理期间使用关于编码深度的编码模式的信息。
[0201]图21、图22和图23是示出根据本发明的实施例的编码单元1010、预测单元1060和变换单兀1070之间的关系的不图。
[0202]编码单元1010是最大编码单元1000的与由视频编码设备100确定的编码深度相应的编码单元。预测单元1060是各个编码单元1010的预测单元的分区,变换单元1070是各个编码单元1010的变换单元。
[0203]在编码单元1010中,如果最大编码单元的深度是0,则编码单元1012和编码单元1054具有深度1,编码单元1014、1016、1018、1028、1050和1052具有深度2,编码单元1020、1022、1024、1026、1030、1032 和 1048 具有深度 3,编码单元 1040、1042、1044 和 1046 具有深度4。
[0204]在预测单元1060 中,一些分区 1014、1016、1022、1032、1048、1050、1052 和 1054 被划分为从编码单元划分的分区。换言之,分区1014、1022、1050和1054是2NXN分区类型,分区1016、1048和1052是NX2N分区类型,分区1032是NXN分区类型。编码单元1010的预测单元和分区小于或等于与它们相应的编码单元。
[0205]在变换单元1070中,基于小于编码单元1052的数据单元,对与编码单元1052相应的图像数据执行变换或逆变换。另外,在尺寸和形状方面,变换单元1014、1016、1022、1032、1048、1050和1052是不同于预测单元1060中的相应的预测单元和分区的数据单元。换言之,根据本发明的实施例的视频编码设备100和视频解码设备200可基于不同的数据单元,对相同的编码单元独立地执行帧内预测、运动估计、运动补偿、变换和逆变换。
[0206]因此,通过以每个最大编码单元的区域为单位,对具有分层结构的编码单元递归地执行编码来确定最优编码单元,从而获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。表I示出可由视频编码设备100和视频解码设备200设置的编码信息的示例。
[0207]表I
[0208]
【权利要求】
1.一种对多视点视频数据进行编码的方法,所述方法包括: 获得多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧; 对多视点彩色视频帧进行预测编码; 基于对多视点彩色视频帧进行预测编码的结果,对相应的深度图帧进行预测编码。
2.如权利要求1所述的方法,其中,对多视点彩色视频帧进行预测编码的步骤包括:针对从多视点彩色视频帧划分的至少一个最大编码单元中的每个,从与深度相应的分层编码单元中确定具有树结构的包括编码深度的编码单元的编码单元;确定用于对与编码深度相应的每个编码单元进行预测编码的分区;通过基于分层变换单元执行变换来确定具有树结构的变换单元,其中,所述深度均表示所述至少一个最大编码单元被空间地划分的次数。
3.如权利要求2所述的方法,其中,对多视点彩色视频帧进行预测编码的结果包括划分信息,所述划分信息包括关于针对从多视点彩色视频帧划分的所述至少一个最大编码单元中的每个确定的编码单元、分区单元和变换单元的信息,并且 对深度图帧进行预测编码的步骤包括:基于多视点彩色视频帧的划分信息,针对从相应的深度图帧划分的至少一个最大编码单元中的每个,以多视点彩色视频帧的划分形状设置编码单元、分区单元和变换单元,并基于设置的编码单元、分区单元和变换单元对深度图帧进行预测编码。
4.如权利要求1所述的方法,其中,对多视点彩色视频帧进行预测编码的结果包括关于多视点彩色视频帧的预测模式的信息,并且 对深度图帧进行预测编码的步骤包括:将深度图帧的块的预测模式设置为与多视点彩色视频帧的块的预测模式相同。
5.如权利要求4所述的方法,其中,如果所述多视点彩色视频帧的块的预测模式是帧内预测模式,则对深度图帧进行预`测编码的步骤包括:通过使用所述多视点彩色视频帧的块的像素值对所述深度图帧的块进行预测,其中,所述深度图帧的块被布置在与所述多视点彩色视频帧的块相同的位置处。
6.如权利要求1所述的方法,其中,对多视点彩色视频帧进行预测编码的结果包括关于多视点彩色视频帧的块的运动矢量的信息,并且 对深度图帧进行预测编码的步骤包括:通过使用多视点彩色视频帧的块的运动矢量,来确定深度图帧的块的运动矢量。
7.如权利要求6所述的方法,其中,对深度图帧进行预测编码的步骤还包括: 通过在预定像素范围内改变多视点彩色视频帧的块的运动矢量,来确定深度图帧的块的最优运动矢量; 将作为多视点彩色视频帧的块的运动矢量和所述最优运动矢量之间的差的调整值编码为关于深度图帧的块的运动矢量的信息。
8.一种对多视点视频数据进行解码的方法,所述方法包括: 接收包含对多视点彩色视频帧和与所述多视点彩色视频帧相应的深度图帧进行编码的结果的比特流; 对多视点彩色视频帧进行解码; 基于对多视点彩色视频帧进行解码的结果,对相应的深度图帧进行预测解码。
9.如权利要求8所述的方法,其中,对多视点彩色视频帧进行预测解码的步骤包括:从比特流获得关于从多视点彩色视频帧划分的至少一个最大编码单元中的每个的尺寸的信息、关于表示所述至少一个最大编码单元被空间地划分的次数的深度的信息、关于用于对根据深度分层配置的编码单元进行预测编码的分区的信息、以及关于具有分层结构的变换单元的信息; 针对从多视点彩色视频帧划分的所述至少一个最大编码单元中的每个,从与深度相应的分层编码单元中确定具有树结构的包括与编码深度相应的编码单元的编码单元;确定用于对与编码深度相应的每个编码单元进行预测解码的分区;基于获得的信息确定具有树结构的变换单元,其中,所述深度均表示所述至少一个最大编码单元被空间地划分的次数。
10.如权利要求9所述的方法,其中,对多视点彩色视频帧进行解码的结果包括划分信息,其中,所述划分信息包括关于针对从多视点彩色视频帧划分的所述至少一个最大编码单元中的每个确定的编码单元、分区单元和变换单元的信息,并且 对深度图帧进行预测解码的步骤包括:基于多视点彩色视频帧的划分信息,针对从相应的深度图帧划分的至少一个最大编码单元中的每个,以多视点彩色视频帧的划分形状设置编码单元、分区单元和变换单元,基于设置的编码单元、分区单元和变换单元对深度图帧进行预测解码。
11.如权利要求8所述的方法,其中,对多视点彩色视频帧进行解码的结果包括关于多视点彩色视频帧的预测模式的信息,并且 对深度图帧进行预测解码的步骤包括:将深度图帧的块的预测模式设置为与关于多视点彩色视频帧的块的预测模式的信息相同。
12.如权利要求11所述的方法,其中,如果所述多视点彩色视频帧的块的预测模式是帧内预测模式,则对深度图帧进行预测解码的步骤包括:基于所述多视点彩色视频帧的块的像素值对所述深度图帧的块进行预测,其中,所述深度图帧的块被布置在与所述多视点彩色视频帧的块相同的位 置处。
13.如权利要求8所述的方法,其中,对多视点彩色视频帧进行解码的结果包括关于多视点彩色视频帧的块的运动矢量的信息,并且 对深度图帧进行预测解码的步骤包括:基于多视点彩色视频帧的块的运动矢量,来确定深度图帧的块的运动矢量。
14.如权利要求13所述的方法,其中,对深度图帧进行预测解码的步骤包括: 从比特流获得作为深度图帧的块的最优运动矢量与多视点彩色视频帧的块的运动矢量之间的差的调整值,其中,通过在预定像素范围内改变多视点彩色视频帧的块的运动矢量来确定所述最优运动矢量; 通过将调整值与多视点彩色视频帧的块的运动矢量相加,来获得深度图帧的块的运动矢量。
15.一种用于对多视点视频数据进行解码的设备,所述设备包括: 接收单元,用于接收包括编码的多视点彩色视频帧和编码的与所述多视点彩色视频帧相应的深度图帧的比特流; 彩色视频帧解码单元,用于对从比特流获得的编码的多视点彩色视频帧进行解码; 深度图帧解码单元,用于基于对多视点彩色视频帧进行解码的结果,对相应的深度图帧进行预测解码。
【文档编号】H04N19/597GK103858431SQ201280049675
【公开日】2014年6月11日 申请日期:2012年8月9日 优先权日:2011年8月9日
【发明者】崔秉斗, 郑承洙, 朴正辉 申请人:三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1