用于使用基于深度的视差矢量对视频进行层间编码方法以及解码方法和设备与流程

文档序号:16105316发布日期:2018-11-30 19:09阅读:223来源:国知局

各种实施例涉及一种使用基于深度的视差矢量的层间视频解码方法及其设备、以及一种使用基于深度的视差矢量的层间视频编码方法及其设备。更具体地,各种实施例涉及一种使用在参考视点深度图像的边界附近确定的基于深度的视差矢量的层间视频解码方法及其设备、以及一种使用在参考视点深度图像的边界附近确定的基于深度的视差矢量的层间视频编码方法及其设备。



背景技术:

随着用于再现并存储高分辨率或高质量的视频内容的硬件正被开发和供应,对于用于对高分辨率或高质量的视频内容进行有效编码或解码的视频编解码器的需求正在增加。根据现有技术的视频编解码器,视频根据基于树结构的编码单元的有限编码方法被编码。

空间域的图像数据经由频率变换被变换为频域的系数。根据视频编解码器,为了频率变换的快速计算,将图像划分为具有预定尺寸的块,针对每个块执行DCT,并以块为单位对频率系数进行编码。与空间域的图像数据相比,频域的系数容易被压缩。具体地讲,由于经由视频编解码器的帧间预测或帧内预测,空间域的图像像素值根据预测误差来表示,因此当对所述预测误差执行频率变换时,大量数据可被变换为0。根据视频编解码器,通过用小尺寸的数据替换连续且重复产生的数据,可减少数据量。

多层视频编解码器对第一层视频以及一个或更多个第二层视频进行编码和解码。通过去除第一层视频和第二层视频的时间/空间冗余以及层之间的冗余,可减少第一层视频和第二层视频的数据量。



技术实现要素:

技术问题

提供了一种层间视频编码和解码方法,当包括与当前层块相应的参考层深度图像块的区域偏离参考层深度图像的边界时,通过确定偏离参考层深度图像的边界的区域的深度值,通过根据确定的偏离所述边界的区域的深度值来确定指示参考层图像的相应块的基于深度的视差矢量,并通过直接地和间接地使用确定的基于深度的视差矢量对当前层块进行编码,所述方法能够提高编码效率。

技术方案

另外的方面部分将在下面的描述中进行阐述,部分将通过所述描述而清楚,或者可通过对呈现出的实施例进行实践而学习到。

根据本发明的一方面,提供了一种层间解码方法,包括:

基于关于第一层的彩色图像和深度图像的编码信息来重建第一层的彩色图像和深度图像,其中,编码信息是从比特流获取的;

从第一层的深度图像确定第一层的与第二层图像的将被解码的当前块相应的深度图像块;

确定包括在确定的第一层的深度图像块中的区域是否偏离第一层的深度图像的边界;

当包括在所述深度图像块中的区域偏离所述边界时,确定偏离所述深度图像的边界的区域的深度值;

基于偏离所述深度图像的边界的区域的确定的深度值,确定指示第一层图像的相应块的针对所述当前块的视差矢量;

通过使用视差矢量来重建所述当前块。

根据本发明的另一方面,提供了一种其上记录有用于执行根据本发明的一方面的方法的程序的计算机可读记录介质。

有益效果

当包括与当前层块相应的参考层深度图像块的区域偏离参考层深度图像的边界时,通过确定偏离参考层深度图像的边界的区域的深度值,通过根据确定的偏离所述边界的区域的深度值来确定指示参考层图像的相应块的基于深度的视差矢量,并通过直接地和间接地使用确定的基于深度的视差矢量对当前层块进行编码,可提高编码效率。

附图说明

图1a示出根据实施例的层间视频编码设备的框图。

图1b示出根据实施例的层间视频编码方法的流程图。

图2a示出根据实施例的层间视频解码设备的框图。

图2b示出根据实施例的层间视频解码方法的流程图。

图3示出根据实施例的层间预测结构。

图4示出根据实施例的通过使用相邻块来预测视差矢量的示例。

图5示出根据实施例的由层间视频解码设备确定基于深度的视差矢量的流程图。

图6a至图6c示出由层间视频解码设备执行的确定基于深度的视差矢量的处理。

图7a和图7b示出根据本发明实施例的用于描述由层间视频解码设备执行的确定基于深度的视差矢量的具体处理的示图。

图8示出根据实施例的基于根据树结构的编码单元的视频编码设备的框图。

图9示出根据实施例的基于根据树结构的编码单元的视频解码设备的框图。

图10示出用于描述根据本发明实施例的编码单元的概念的示图。

图11示出根据本发明实施例的基于编码单元的图像编码器的框图。

图12示出根据本发明实施例的基于编码单元的图像解码器的框图。

图13示出根据本发明实施例的更深编码单元和分区的示图。

图14示出用于描述根据本发明实施例的编码单元和变换单元之间的关系的示图。

图15示出根据本发明实施例的多条编码信息。

图16是根据本发明实施例的更深编码单元的示图。

图17、图18和图19是用于描述根据本发明实施例的编码单元、预测单元和变换单元之间的关系的示图。

图20示出用于描述根据表2的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。

图21示出根据实施例的存储程序的盘的物理结构的示图。

图22示出通过使用盘来记录和读取程序的盘驱动器的示图。

图23示出用于提供内容分发服务的内容提供系统的整体结构的示图。

图24和图25示出根据实施例的应用了视频编码方法和视频解码方法的移动电话的外部结构和内部结构;

图26示出根据本发明实施例的采用通信系统的数字广播系统;

图27是示出根据本发明实施例的使用视频编码设备和视频解码设备的云计算系统的网络结构的示图。

最佳模式

根据本发明的一方面,提供了一种层间解码方法,包括:基于关于第一层的彩色图像和深度图像的编码信息来重建第一层的彩色图像和深度图像,其中,编码信息是从比特流获取的;从第一层的深度图像确定第一层的与第二层图像的将被解码的当前块相应的深度图像块;确定包括在确定的第一层的深度图像块中的区域是否偏离第一层的深度图像的边界;当包括在所述深度图像块中的区域偏离所述边界时,确定偏离所述深度图像的边界的区域的深度值;基于偏离所述深度图像的边界的区域的确定的深度值,确定指示第一层图像的相应块的针对所述当前块的视差矢量;通过使用视差矢量来重建所述当前块。

确定偏离所述深度图像的边界的区域的深度值的步骤可包括:将偏离所述边界的区域的深度值设置为第一层的深度图像的边界处的深度值;通过参考第一层的深度图像的设置的深度值来确定偏离所述边界的区域的深度值。

确定偏离所述深度图像的边界的区域的深度值的步骤可包括:通过将偏离所述边界的区域的坐标设置为使得所述坐标与第一层的深度图像的边界处的坐标相应,确定偏离所述边界的区域的深度值。

确定所述视差矢量的步骤可包括:基于偏离所述深度图像的边界的区域的深度值,从所述深度图像块中的全部区域或部分区域的深度值之中确定代表性深度值;基于确定的代表性深度值来确定指示第一层图像的相应块的视差矢量。

确定代表性深度值的步骤可包括:基于偏离所述深度图像的边界的区域的深度值来选择所述深度图像块的多个区域;通过将所述多个被选择的区域的深度值进行比较来确定代表性深度值。

确定偏离所述深度图像的边界的区域的深度值的步骤可包括:根据所述当前块的预测模式来确定是否确定偏离所述深度图像的边界的区域的深度值;基于根据所述当前块的预测模式来确定是否确定偏离所述深度图像的边界的区域的深度值的结果,确定偏离所述深度图像的边界的区域的深度值。

当包括在第一层的确定的深度图像块中的区域偏离第一层的深度图像的边界时,所述视差矢量不基于所述深度图像块的深度值而确定。

确定偏离所述深度图像的边界的区域的深度值的步骤包括:将偏离所述边界的区域的深度值确定为预定深度值。

根据本公开的另一方面,提供了一种层间编码方法,包括:产生包括通过对第一层的彩色图像和深度图像进行编码而产生的编码信息的比特流;从第一层的深度图像确定第一层的与第二层图像的将被编码的当前块相应的深度图像块;确定包括在第一层的确定的深度图像块中的区域是否偏离第一层的深度图像的边界;当包括在所述深度图像块中的区域偏离边界时,确定偏离所述深度图像的边界的区域的深度值;基于偏离所述边界的区域的确定的深度值,确定指示第一层的相应块的针对所述当前块的视差矢量;使用所述视差矢量对所述当前块进行编码。

确定偏离所述深度图像的边界的区域的深度值的步骤可包括:通过参考第一层的深度图像的深度值来确定偏离所述边界的区域的深度值。

确定偏离所述深度图像的边界的区域的深度值的步骤可包括:通过将偏离所述边界的区域的坐标设置为使得所述坐标与第一层的深度图像的边界处的坐标相应,确定偏离所述边界的区域的深度值。

确定所述视差矢量的步骤可包括:基于偏离所述深度图像的边界的区域的深度值,从所述深度图像块中的全部区域或部分区域的深度值之中确定代表性深度值;基于确定的代表性深度值来确定指示第一层的相应块的视差矢量。

确定代表性深度值的步骤可包括:基于偏离所述深度图像的边界的区域的深度值来选择所述深度图像块的多个区域;将所述多个被选择的区域的深度值进行比较,并确定代表性深度值。

确定偏离所述深度图像的边界的区域的深度值的步骤可包括:根据所述当前块的预测模式来确定是否确定偏离所述深度图像的边界的区域的深度值;基于根据所述当前块的预测模式来确定是否确定偏离所述深度图像的边界的区域的深度值的结果,确定偏离所述深度图像的边界的区域的深度值。

根据本发明的另一方面,提供了一种层间解码设备,包括:第一层编码器,被配置为基于关于第一层的彩色图像和深度图像的编码信息来重建第一层的彩色图像和深度图像,其中,编码信息是从比特流获取的;视差矢量确定器,被配置为:从第一层的深度图像确定第一层的与第二层图像的将被解码的当前块相应的深度图像块,确定包括在确定的第一层的深度图像块中的区域是否偏离第一层的深度图像的边界,当包括在所述深度图像块中的区域偏离所述边界时,确定偏离所述深度图像的边界的区域的深度值,并基于偏离所述深度图像的边界的区域的确定的深度值,确定指示第一层图像的相应块的针对所述当前块的视差矢量;第二层编码器,被配置为通过使用视差矢量来重建所述当前块。

具体实施方式

在下文中,参照图1a至图7b提供根据各种实施例的使用视差矢量的层间视频编码技术和层间视频解码技术,其中,通过使用参考层图像来确定视差矢量。具体地,参照图1a至图7b提供根据各种实施例的使用在参考层深度图像的边界附近确定的视差矢量的层间视频编码技术和层间视频解码技术。此外,参照图8至图20提供根据各个实施例的基于树结构的编码单元的视频编码技术和视频解码技术,其中,所述视频编码技术和视频解码技术可应用于层间视频编码技术和层间视频解码技术。此外,参照图21至图27提供可应用视频编码技术和视频解码技术的各种实施例。

在下文中,术语“图像”可指视频的静止图像或运动图像(即,视频本身)。

在下文中,“样点”表示被分配至图像的采样位置并作为处理目标的数据。例如,空间域中图像中的像素可以是样点。

首先,参照图1a至图7b,提供根据实施例的使用基于深度的视差矢量的层间视频编码方法和层间视频编码设备以及使用基于深度的视差矢量的层间视频解码设备和层间视频解码方法,其中,通过使用参考视点深度图像来确定基于深度的视差矢量。

图1a示出根据实施例的层间视频编码设备10的框图。图1b示出根据实施例的层间视频编码方法的流程图。

根据各种实施例的层间视频编码设备10包括第一层编码器12和第二层编码器16。第二层编码器16可包括视差矢量确定器14。另一方面,视差矢量确定器14可在第二层编码器16的外部形成。

根据各种实施例的层间视频编码设备10可通过使用可伸缩视频编码方案根据层对多个图像序列中的每一个进行编码,并可输出包括每个层的编码数据的单独的流。层间视频编码设备10可将第一层图像序列和第二层图像序列编码为不同的层。

第一层编码器12可对第一层图像进行编码,并可输出包括第一层图像的编码数据的第一层流。

第二层编码器16可对第二层图像进行编码,并可输出包括第二层图像的编码数据的第二层流。

例如,根据基于空间可伸缩性的可伸缩视频编码方案,低分辨率图像可被编码为第一层图像,高分辨率图像可被编码为第二层图像。第一层图像的编码结果可被输出为第一层流,第二层图像的编码结果可被输出为第二层流。

作为另一示例,可根据可伸缩视频编码方案来编码多视点视频。左视点图像可被编码为第一层图像,右视点图像可被编码为第二层图像。可选地,中央视点图像、左视点图像和右视点图像中的每一个可被编码,在这些图像之中,中央视点图像可被编码为第一层图像,左视点图像可被编码为第二层图像,右视点图像可被编码为第三层图像。

作为另一示例,可根据基于时间可伸缩性的时间分层预测来执行可伸缩视频编码方法。可输出包括编码信息的第一层流,其中,通过以基本帧率对图像进行编码来产生编码信息。可根据帧率来划分时间等级,并可将时间等级分别编码为层。通过参考基本帧率的图像进一步以高速帧率对图像进行编码,可输出包括关于高速帧率的编码信息的第二层流。

此外,可对第一层和多个第二层执行可伸缩视频编码。在第二层的数量等于或大于3的情况下,可对第一层图像、第一第二层图像、第二第二层图像、……、和第k第二层图像进行编码。相应地,第一层图像的编码结果可被输出为第一层流,第一第二层图像、第二第二层图像、……、和第k第二层图像的编码结果可分别被输出为第一第二层流、第二第二层流、……、和第k第二层流。

根据各个实施例的层间视频编码设备10可执行帧间预测,其中,通过帧间预测参考单个层的图像来预测当前图像。经由帧间预测,可产生指示当前图像和参考图像之间的运动信息的运动向量以及当前图像和参考图像之间的残差分量。

此外,层间视频编码设备10可执行层间预测,其中,通过层间预测参考第一层图像来预测第二层图像。

此外,当根据实施例的层间视频编码设备10允许第一层、第二层、第三层等中的至少三层时,层间视频编码设备10可根据多层预测结构来执行第一层图像和第三层图像之间的层间预测,并可执行第二层图像和第三层图像之间的层间预测。

经由层间预测,可产生另一层的参考图像和当前图像之间的位置差分量以及所述另一层的参考图像和当前图像之间的残差分量。

将参照图3来详细描述层间预测结构。

根据各个实施例的层间视频编码设备10根据层对视频的每个图像的每个块进行编码。块的类型可以是正方形、长方形或任意几何形状。块不限于固定大小的数据单元。块可以是树结构的编码单元之中的最大编码单元、编码单元、预测单元、变换单元等。包括数结构的编码单元的最大编码单元可被不同地称为编码树单元、编码块树、块树、根块树、编码树、编码根或树干。将参照图8至图20来描述使用数结构的编码单元的视频编码和解码方法。

可通过使用编码单元、预测单元或变换单元的数据单元来执行帧间预测和层间预测。

根据各个实施例的第一层编码器12可通过对第一层图像执行包括帧间编码或帧内编码的源编码操作来产生符号数据。符号数据指示每个编码参数的样点值和残差分量的样点值。

例如,第一层编码器12可通过对第一层图像的数据单元的样点执行帧间预测或帧内预测、变换和量化来产生符号数据,并可通过对符号数据执行熵编码来产生第一层流。

第二层编码器16可基于树结构的编码单元对第二层图像进行编码。第二层编码器16可通过对第二层图像的编码单元的样点执行帧间预测或帧内预测、变换和量化来产生符号数据,并可通过对符号数据执行熵编码来产生第二层流。

根据各个实施例的第二层编码器16可通过使用第一层图像的预测信息来执行层间预测以预测第二层图像。为了经由层间预测结构对第二层图像序列之中的第二层原始图像进行编码,第二层编码器16可通过使用重建的第一层图像的预测信息来确定第二层当前图像的预测信息,并可基于确定的预测信息来产生第二层预测图像,因而可对第二层原始图像和第二层预测图像之间的预测误差进行编码。

同时,第二层编码器16可根据诸如编码单元或预测单元的块对第二层图像执行层间预测,以确定将由第二层图像的块参考的第一层图像的块。例如,可确定第一层图像的位于与第二层图像中的当前块的位置相应的位置处的重建的块。第二层编码器16可通过使用与第二层块相应的重建的第一层块来确定第二层预测块。

第二层编码器16可将第二层预测块用作用于第二层原始块的层间预测的参考图像,其中,根据层间预测结构通过使用重建的第一层块来确定第二层预测块。第二层编码器16可通过使用重建的第一层图像、根据层间预测的残差分量(即,第二层预测块的样点值和第二层原始块的样点值之间的差),通过变换和量化来执行熵编码。

同时,当前述层间视频编码设备10对多视点视频进行编码时,将被编码的第一层图像可以是第一视点视频,第二层图像可以是第二视点视频。由于多视点图像同时被获取,因此,每个视点的图像之间的相似度非常高。

多视点图像可具有由于图像捕获位置、图像捕获角度、图像捕获设备(相机、透镜等)等的特性根据视点而改变所引起的视差。这里,视差表示同一时间的多视点图像中出现的多视点图像之间的差。更具体地,视差可表示多视点图像中的相同的对象之间的距离之差。视差可被表达为视差矢量。这里,视差矢量表示指示多视点图像中的由于对象的位置改变而发生的对象的位移的矢量。也就是说,视差矢量可与沿视线方向的视图内的时间方向的运动矢量相应。

可通过执行视差补偿预测来提高编码效率,其中,通过视差补偿预测,通过使用视差矢量来搜索另一视点图像中的与当前编码的块最为相似的区域并对该区域进行编码。

同时,层间视频编码设备10可确定层间预测的视差矢量,并可经由比特流将关于确定的视差矢量的信息发送到层间视频解码设备20。

此外,层间视频编码设备10可允许视差矢量从多条其他编码信息被预测 (或得到),以降低将在每个预测单元中发送的数据量。例如,可从当前被解码和编码的块的时间上或空间上邻近的块预测视差矢量。层间视频编码设备 10可通过使用从邻近块预测(或得到)的视差矢量来搜索与当前被解码和编码的块相应的区域。

层间视频编码设备10可通过使用参考层深度图像来确定视差矢量,通过这样做,层间视频编码设备10还可与从邻近块预测的视差矢量相比,搜索与当前解码和编码的块相应的区域,使得解码性能和编码性能以及预测的准确性可被提高。

例如,层间视频编码设备10可按照下面的方式通过使用深度图像来确定视差矢量。

[等式1]

视差矢量=(s×深度值+o,0)

这里,为了便于描述,假设视差矢量的y分量(即,垂直分量)是0。也就是说,假设多视点图像中的对象的位置根据多视点图像中的视点的改变仅在水平方向上改变。可通过将深度值乘以s并加上o来计算视差矢量的x 分量。这里,s表示缩放因数,深度值表示深度图像中的特定像素的深度值, o表示偏移。可针对参考层图像从相机参数确定缩放因数和偏移。例如,相机参数可包括相机的基线信息和焦距。这里,相机的基线信息表示关于相机与透镜之间的距离的信息。

深度图像可存储针对相应的层彩色图像的特定像素的深度值。深度值可包括关于相机与对象之间的距离的信息。例如,具有8比特的比特深度的深度图像、最大距离和最小距离可被映射至从0到255。这里,由于对象的距离和位移成反比,因此可通过使用深度值来估计每个像素的位移,并可基于每个像素的位移来虚拟地产生新的视点图像。也就是说,可使用深度图像来提供以下方法:使用较少视点图像通过合成虚拟视图来提供多视点图像。

这里,为了便于描述,假设视差矢量的y分量(即,垂直分量)是0,但不限于此,垂直分量可具有不同于0的值,在这种情况下,可按照经由等式1计算x分量的方式来计算y分量。

当层间视频编码设备10通过使用包括在深度相应块中的深度值来确定视差矢量时,包括在深度相应块中的区域可偏离参考视点深度图像的边界。这里,深度相应块表示参考视点深度图像中的与当前块相应的预定尺寸的块。

由于层间视频编码设备10无法使用偏离参考视点深度图像的边界且包括在深度相应块中的区域的深度值,因此,如果视差矢量被预测(或得到),与从深度相应块包括参考视点深度图像的所有部分的深度相应块的情况预测的视差矢量相比,层间视频编码设备10搜索与当前编码的块不那么相似的区域,使得编码效率和预测的准确性会下降。

当包括在深度相应块中的区域偏离参考视点深度图像的边界时,根据本发明实施例的层间视频编码设备10限定深度相应块的偏离边界的区域的坐标,使得所述坐标与深度相应块的边界内的坐标相应,以包括深度相应块的位于参考视点深度图像的边界内的区域,并且不包括位于所述边界外部的区域,使得层间视频编码设备10可在不使用边界外部的区域的深度值的情况下预测(或可得到)视差矢量。当实际实施时,可使用边界像素来填充深度图像外部的区域。也就是说,当实际实施时,深度图像外部的区域的深度值可以是边界像素的深度值。在这种情况下,即使区域偏离深度图像,层间视频编码设备10也不变地参考偏离区域,因而可确定深度图像外部的区域的深度值。也就是说,即使区域偏离深度图像,层间视频编码设备10可通过使用偏离区域的坐标来完全参考深度图像外部的区域,并可确定深度图像外部的区域的深度值。

特别地,当包括在深度相应块中的区域偏离参考视点深度图像的边界时,根据本发明实施例的层间视频编码设备10可使用位于深度图像的边界内且位于深度相应块内的区域的深度值,并可通过限定深度相应块的偏离边界的区域的坐标,将位于深度图像的边界外部且位于深度相应块内的区域的深度值确定为深度值的边界的深度值,使得所述坐标与深度相应块的边界内的坐标相应,从而层间视频编码设备10可预测(或可得到)指示与当前块相似的块的视差矢量。

在下文中,将参照图4至图7b来具体描述由层间视频编码设备10执行的确定基于深度的视差矢量的方法。

层间视频编码设备10可通过使用重建的第一层图像、根据层间预测的残差分量(即,第二层预测块的样点值和第二层原始块的样点值之间的差),通过变换和量化来执行熵编码。此外,可对多条预测信息之间的误差进行熵编码。

如上所述,第二层编码器16可经由层间预测结构通过参考重建的第一层图像对当前层图像序列进行编码。然而,根据各个实施例的层间视频编码设备10可在不参考其他层样点的情况下,根据单层预测结构对第二层图像序列进行编码。因此,不应狭义地解释层间视频编码设备10仅执行层间预测结构的层间预测,以对第二层图像序列进行编码。

在下文中,参照图1b来具体描述确定用于层间预测的基于深度的视差矢量的层间视频编码设备10的操作。在下面的描述中,第一层图像可表示参考视点图像,第二层图像可表示当前编码的视图的图像。

图1b示出根据各种实施例的层间视频编码方法的流程图。

在操作11,根据实施例的第一层编码器12可产生包括通过对第一层的深度图像和彩色图像进行编码产生的编码信息的比特流。

在操作13,根据实施例的视差矢量确定器14从第一层的深度图像确定第一层的与第二层图像的当前块相应的深度图像块。这里,为了确定第一层的与当前块相应的深度图像块,视差矢量确定器14可通过使用当前块的邻近块来确定视差矢量是否为可预测的,如果确定是可预测的,则视差矢量确定器14可通过使用邻近块来预测(或可得到)视差矢量。视差矢量可指示第一层的深度图像块。因此,视差矢量确定器14可通过使用从邻近块预测的视差矢量来确定第一层的深度图像块。例如,视差矢量确定器14可从第二层当前块的邻近块获取视差矢量,当视差矢量从邻近块被获取到时,视差矢量确定器14可通过使用获取的视差矢量来预测当前块的视差矢量。参照图4具体描述了从第二层当前块的邻近块获取视差矢量的方法。因此,当从邻近块获取到视差矢量时,视差矢量确定器14可确定视差矢量是可预测的。

同时,视差矢量确定器14可通过使用基于深度的视差矢量来确定第一层的深度图像块。这里,基于深度的视差矢量表示基于深度值预测(或得到) 的视差矢量。例如,基于深度的视差矢量可以是基于随机深度值预测的视差矢量。具体地讲,具有8比特的深度的深度值的范围与0至255的深度值相应,这里,通过使用作为深度值的中间值的128,可预测(或者可得到)指示第一层图像的与当前块相应的相应块的视差矢量。

此外,例如,基于深度的视差矢量可表示通过从邻近块预测视差矢量,通过确定第一层的深度图像的与当前块相应的相应块,并通过基于深度图像的确定的相应块的深度值来执行预测(或得到)而获得的视差矢量。

此外,例如,当视差矢量确定器14针对当前块执行视点同步预测时,视差矢量确定器14通过使用第一层的深度图像的深度值来预测(或得到)新的视差矢量,这里,为了使用针对第一层的深度图像的深度值,视差矢量确定器14可确定针对第一层的深度图像的相应块。为了确定针对第一层的深度图像的相应块,可使用指示与当前块相应的针对第一层的深度图像块的视差矢量,该矢量被称为初始视差矢量。

然而,确定视差矢量以确定针对第一层的深度图像块不限于前述描述,视差矢量确定器14可确定按照各种方式预测(或得到)的视差矢量,并可通过使用预测的视差矢量来确定深度图像块。此外,可通过使用确定的视差矢量来重新预测(重新得到)新的视差矢量,可通过使用新的视差矢量来确定深度图像块。也就是说,可以以各种形式通过使用视差矢量来确定第一层的与第二层图像的当前块相应的深度图像块。

在操作15,根据实施例的视差矢量确定器14可确定包括在第一层的确定的深度图像块中的区域是否偏离第一层的深度图像的边界。

在操作17,当包括在深度图像块中的区域偏离第一层的深度图像的边界时,根据实施例的视差矢量确定器14确定深度图像块的偏离深度图像的边界的区域的深度值。视差矢量确定器14可将深度图像块的偏离深度图像的边界的区域的深度值确定为包括在深度图像块中的边界内的深度值。

例如,视差矢量确定器14可通过将深度图像块的偏离边界的区域的坐标限定为使所述坐标与深度相应块的边界内的坐标相应,将偏离深度图像的边界的区域的深度值确定为深度图像的边界处的深度值。作为结果,视差矢量确定器14可通过使用边界内的深度图像的深度值来确定视差矢量。

当实际实施时,可使用边界像素来填充深度图像外部的区域。也就是说,当实际实施时,深度图像外部的区域的深度值可以是边界像素的深度值。在这种情况下,即使区域偏离深度图像,也不变地参考偏离区域,并可确定深度图像外部的区域的深度值。

同时,视差矢量确定器14可确定当前块的预测模式。此外,视差矢量确定器14可根据当前块的确定的预测模式,确定深度图像块的偏离深度图像的边界的区域的深度值。例如,当当前块的预测模式是根据视图合成预测执行预测的模式时,视差矢量确定器14可不确定深度图像块的偏离深度图像的边界的区域的深度值。当当前块的预测模式是另一预测模式而不是根据视图合成预测执行预测的模式时,视差矢量确定器14可确定深度图像块的偏离深度图像的边界的区域的深度值。然而,根据各种预测模式,视差矢量确定器14 可确定或者可不确定偏离深度图像的边界的区域的深度值,不限于根据预测模式是否为根据视图合成预测执行预测的模式来确定偏离深度图像的边界的区域的深度值。视差矢量确定器14可确定预测模式,针对特定预测模式,视差矢量确定器14可不确定包括在块中的区域是否偏离第一层的深度图像的边界。

在操作18中,视差矢量确定器14可基于偏离边界的区域的确定的深度值,针对当前块确定指示第一层的相应块的视差矢量。

视差矢量确定器14基于偏离边界的区域的确定的深度值,从深度图像块中的一个或更多个区域的全部或部分深度值之中确定代表性深度值。

这里,为了确定代表性深度值可意味着:视差矢量确定器14可基于偏离边界的区域的确定的深度值,从深度图像块中的一个或更多个区域的深度值之中选择代表性深度值,或者可基于偏离边界的区域的确定的深度值,通过使用深度图像块中的一个或更多个区域的全部或部分深度值来计算代表性深度值。此外,视差矢量确定器14可基于确定的代表性深度值来确定指示第一层的相应块的视差矢量。同时,视差矢量确定器14可选择深度图像块中的多个划分区域,可比较多个选择的区域的深度值,并可确定代表性深度值。视差矢量确定器14可比较多个区域的深度值并可确定最大深度值。

视差矢量确定器14可转换确定的最大深度值并可确定视差矢量。

视差矢量确定器14可基于第二层的当前块的位置来确定第一层深度图像的与视差矢量相应的同位(co-located)参考块,并可获取位于第一层深度图像的确定的参考块的角落的像素的深度值。随后,角落的深度值之中的最大值可被转换为视差矢量,并因而被确定为当前块的视差矢量。

在操作19,第二层编码器16通过直接地或间接地使用确定的视差矢量来对当前块进行编码。当通过直接地或间接地使用确定的视差矢量来编码当前块时,第二层编码器16通过参考第一层的由确定的视差矢量指示的相应块来预测当前块。第二层编码器16可通过使用针对当前块预测的块对当前块进行编码。也就是说,第二层编码器16产生指示针对当前块预测的块的样点值和实际图像的当前块的样点值之间的差的残差信息,并对产生的残差信息进行编码。

此外,第二层编码器16可通过将确定的视差矢量用作初始视差矢量来参考第一层的深度图像块,可通过参考被参考的第一层的深度图像块来执行视图合成预测,可执行视图合成预测以参考从与当前块相应的第一层图像合成的图像,并可通过参考合成的图像来预测当前块。第二层编码器16可通过使用针对当前块预测的块对当前块进行编码。也就是说,第二层编码器16产生指示针对当前块预测的块的样点值和实际图像的当前块的样点值之间的差的残差信息,并对产生的残差信息进行编码。

视差矢量被间接使用的示例表示与视差矢量相应的运动参数在预测中被使用的情况。

稍后参照图7b来提供针对视图合成预测的具体描述。

根据各种实施例的层间视频编码设备10可包括中央处理器(未示出),其中,中央处理器总体上控制第一层编码器12、视差矢量确定器14和第二层编码器16。可选地,第一层编码器12、视差矢量确定器14和第二层编码器16中的每一个可由自己的处理器(未示出)驱动,所述处理器可彼此交互操作,使得层间视频编码设备10可进行操作。可选地,根据层间视频编码设备10的外部处理器(未示出)的控制,第一层编码器12、视差矢量确定器 14和第二层编码器16可被控制。

层间视频编码设备10可包括用于存储第一层编码器12、视差矢量确定器14和第二层编码器16的输入和输出的数据的一个或更多个数据存储单元 (未示出)。层间视频编码设备10可包括管理所述一个或更多个数据存储单元的数据的输入和输出的存储器控制器(未示出)。

层间视频编码设备10可与内部嵌入的内部视频编码处理器或外部视频编码处理器进行交互操作,以输出视频编码结果,使得层间视频编码设备10 可执行包括变换的视频编码操作。层间视频编码设备10的内部视频编码处理器不仅可与单独的处理器相应,还可相应于层间视频编码设备10的中央处理单元(CPU)或图形操作单元包括视频编码处理模块并因而执行基本图像编码操作的情况。

图2a示出根据各种实施例的层间视频编码设备的框图。

根据各种实施例的层间视频编码设备20包括第一层解码器22、视差矢量确定器24和第二层解码器26。视差矢量确定器24可被包括在第二层解码器26中。根据另一实施例的视差矢量确定器24可被形成在第二层解码器26 的外部。

根据各种实施例的层间视频解码设备20可基于可伸缩视频编码方法,根据层来接收比特流。层间视频解码设备20接收的比特流的层的数量不受限制。然而,为了便于描述,在下文中,详细描述层间视频解码设备20的第一层解码器22对第一层流进行接收和解码,第二层解码器对第二层流进行接收和解码的实施例。

例如,基于空间可伸缩性的层间视频解码设备20可接收具有不同的分辨率的图像序列被编码到不同的层的流。可通过对第一层流进行解码来重建低分辨率图像序列,可通过对第二层流进行解码来重建高分辨率图像。

作为另一示例,可通过使用可伸缩视频编码方案对多视点视频进行解码。当具有多个层的立体视频流被接收到时,可通过对第一层流进行解码来重建左视点图像。通过在第一层流之外进一步对第二层流进行解码,可重建右视点图像。

可选地,当具有多个层的多视点视频流被接收到时,可通过对第一层流进行解码来重建中央视点图像。通过在第一层流之外进一步对第二层流进行解码,可重建左视点图像。通过在第一层流之外进一步对第三层流进行解码,可重建右视点图像。

作为另一示例,可执行基于时间可伸缩性的可伸缩视频编码方法。通过对第一层流进行解码,可重建具有基本帧率的图像。通过在第一层流以外进一步对第二层流进行解码,可重建具有高速帧率的图像。

在第二层的数量等于或大于3的情况下,可从第一层流重建第一层图像,可参考重建的第一层图像通过进一步对第二层进行解码来进一步重建第二层图像。如果通过参考重建的第二层图像来进一步对第K层流进行解码,则可进一步重建第K层图像。

层间视频解码设备20可从第一层流和第二层流获得第一层图像和第二层图像的编码后的数据,并可进一步获得通过帧间预测产生的运动矢量和通过层间预测产生的预测信息。

例如,层间视频解码设备20可对每一层的帧间预测后的数据进行解码,并可对在多个层之间层间预测后的数据进行解码。可基于编码单元或预测单元,通过使用运动补偿和层间解码来执行重建。

可参考经由针对同一层的帧间预测而预测的重建的图像,通过执行针对当前图像的运动补偿来重建每一层流的图像。运动补偿表示通过合成当前图像的参考图像和残差分量对当前图像的重建后的图像进行重建的操作,其中,通过使用当前图像的运动矢量来确定参考图像。

此外,层间视频解码设备20可通过参考第一层图像的预测信息来执行层间解码,以对经由层间预测而预测的第二层图像进行解码。层间解码表示通过使用另一层的参考块的预测信息对当前图像的预测信息进行重建,以确定当前图像的预测信息的操作。

根据实施例的层间视频解码设备20可执行层间解码,以重建通过参考第二层图像而预测的第三层图像。将参照图3来具体描述层间预测结构。

然而,根据各种实施例的第二层解码器26可在不参考第一层图像序列的情况下对第二层流进行解码。因此,不应狭义地解释第二层解码器26执行层间预测以对第二层图像序列进行解码。

层间视频解码设备20对视频的每一个图像的每一个块进行解码。块可以是树结构的编码单元之中的最大编码单元、编码单元、预测单元、变换单元等。

第一层解码器22可通过使用解析的第一层图像的编码符号对第一层图像进行解码。如果层间视频解码设备20接收基于树结构的编码单元而编码的流,则第一层解码器22可基于树结构的编码单元对第一层流的每个最大编码单元执行解码。

第一层解码器22可对每个最大编码单元执行熵解码,因而可获得编码信息和编码后的数据。第一层编码器22可对从流获得的编码后的数据执行反量化和逆变换,因而可对残差分量进行重建。根据另一实施例的第一层解码器 22可直接接收量化后的变换系数的比特流。作为对量化后的变换系数执行的反量化和逆变换的结果,可对图像的残差分量进行重建。

第一层解码器22可经由同一层图像之间的运动补偿来确定预测图像,并可通过合并预测图像和残差分量来重建第一层图像。

根据层间预测结构,第二层解码器26可通过使用重建的第一层图像的样点来产生第二层预测图像。第二层解码器26可对第二层流进行解码,并可获得由于层间预测而导致的预测误差。第二层解码器26可通过将第二层预测图像与预测误差进行合并来产生重建后的第二层图像。

第二层解码器26可通过使用由第一层解码器22解码的重建后的第一层图像来确定第二层预测图像。根据层间预测结构,第二层解码器26可确定由诸如第二层图像的编码单元或预测单元的块参考的第一层图像的块。例如,可确定第一层图像的位于与第二层图像中的当前块的位置相应的位置处的重建的块。第二层解码器26可通过使用与第二层块相应的重建的第一层块来确定第二层预测块。

第二层解码器26可将第二层预测块用作用于第二层原始块的层间预测的参考图像,其中,根据层间预测结构通过使用重建的第一层块来确定第二层预测块。在这种情况下,第二层解码器26可通过合成第二层预测块的样点值和根据层间预测的残差分量来重建第二层块,其中,通过使用重建的第一层图像来确定第二层预测块。

同时,当层间视频解码设备20对多视点图像进行解码时,编码的第一层图像可以是第一视点视频,第二层图像可以是第二视点视频。

层间视频解码设备20可经由比特流获得用于多视点视频中的层间预测的视差矢量,或者可从多条其他编码信息预测视差矢量。

例如,可从当前重建的块的邻近块预测视差矢量。

在下文中,将参照图4至图7b来具体描述根据实施例的由层间视频编码设备20执行的确定视差矢量的方法。

根据空间可伸缩视频编码方案,当第一层解码器22对分辨率与第二层图像不同的第一层图像进行重建时,第二层解码器26可对重建的第一层图像进行插值,以将重建的第一层图像的尺寸调整为第二层原始图像的分辨率。插值后的重建的第一层图像可被确定为用于层间预测的第二层预测图像。

因此,层间视频解码设备20的第一层解码器22可对第一层流进行解码,因而可对第一层图像序列进行重建,第二层解码器26可对第二层流进行解码,因而可对第二层图像序列进行重建。

在下文中,参照图2b来具体描述确定用于层间预测的视差矢量的层间图像解码设备20的操作。在下的描述中,第一层图像可表示参考视点图像,第二层图像可表示将被解码的当前视点图像。

图2b示出根据各种实施例的层间视频解码方法的流程图。

在操作21,第一层解码器22可基于关于第一层的彩色图像和深度图像的编码信息来重建第一层的彩色图像和深度图像,其中,从比特流获取编码信息。

在操作23,根据实施例的视差矢量确定器24可确定从第一层的深度图像解码且与第二层图像的当前块相应的第一层的深度图像块。这里,为了确定第一层的与当前块相应的深度图像块,视差矢量确定器24可通过使用当前块的邻近块来确定视差矢量是否为可预测的,如果确定是可预测的,则视差矢量确定器24可通过使用邻近块来预测(或可得到)视差矢量。视差矢量可指示第一层的深度图像块。因此,视差矢量确定器24可通过使用从邻近块预测的视差矢量来确定第一层的深度图像块。例如,视差矢量确定器24可从第二层当前块的邻近块获取视差矢量,当视差矢量从邻近块被获取到时,视差矢量确定器24可通过使用获取的视差矢量来预测当前块的视差矢量。

参照图4具体描述了从第二层当前块的邻近块获取视差矢量的方法。因此,当从邻近块获取到视差矢量时,视差矢量确定器14可确定视差矢量是可预测的。

同时,视差矢量确定器14可通过使用基于深度的视差矢量来确定第一层的深度图像块。这里,基于深度的视差矢量表示基于深度值预测(或得到) 的视差矢量。例如,基于深度的视差矢量可以是基于随机深度值预测的视差矢量。具体地讲,具有8比特的深度的深度值的范围与0至255的深度值相应,这里,通过使用作为深度值的中间值的128,可预测(或者可得到)指示第一层图像的与当前块相应的相应块的视差矢量。此外,例如,基于深度的视差矢量可表示通过从邻近块预测视差矢量,通过确定第一层的深度图像的与当前块相应的相应块,并通过基于深度图像的确定的相应块的深度值来执行预测(或得到)而获得的视差矢量。

此外,例如,当视差矢量确定器14执行视点同步预测时,视差矢量确定器14通过使用第一层的深度图像的深度值来预测(或得到)新的视差矢量,这里,为了使用针对第一层的深度图像的深度值,视差矢量确定器14可确定针对第一层的深度图像块。

当与第二层的当前块相应的第二层深度图像在解码终端中可用时,视差矢量确定器24可确定视差矢量是可预测的。由于对象的距离和视差成反比,因此可通过使用与第二层的当前块相应的深度图像来预测每个像素的视差矢量。

然而,确定视差矢量以针对第一层确定深度图像的相应块的处理不限于前述描述,视差矢量确定器24可以以各种方式确定预测(或得到)的视差矢量,并可通过使用预测的视差矢量来确定深度图像块。此外,可通过使用确定的视差矢量来预先预测(预先得到)新的视差矢量,通过使用新的视差矢量来确定深度图像的相应块。也就是说,可以以各种形式通过使用视差矢量来确定第一层的与第二层图像的当前块相应的深度图像块。此外,关于确定视差矢量以确定深度图像的针对第一层的相应块的过程,当层间视频编码设备10在编码过程中确定视差矢量时,可产生关于视差矢量的信息,比特流可包括关于视差矢量的信息,视差矢量确定器24可从比特流直接获得关于视差矢量的信息,并可通过使用获得的关于视差矢量的信息来确定视差矢量。

作为另一示例,当与第二层的当前块相应的第二层深度图像已被重建并因而可用时,视差矢量确定器24可确定视差矢量可被预测。

在操作25,根据实施例的视差矢量确定器24确定包括在第一层的确定的深度图像块中的区域是否偏离第一层的深度图像的边界。

在操作27,当包括在深度图像块中的区域偏离第一层的深度图像的边界时,根据实施例的视差矢量确定器24确定深度图像块的偏离深度图像的边界的区域的深度值。视差矢量确定器24可通过将深度图像块的偏离边界的区域的坐标限定为使得所述坐标与深度相应块的边界内的坐标相应,将偏离深度图像的边界的区域的深度值确定为包括在深度图像块中的边界的深度值。例如,视差矢量确定器24可通过将深度图像块的偏离边界的区域的坐标限定为使得所述坐标与深度相应块的边界内的坐标相应,将偏离深度图像的边界的区域的深度值确定为深度图像的边界处的深度值。作为结果,视差矢量确定器14可通过仅使用深度图像边界内的区域的深度值来确定视差矢量。

当实际实现时,可使用边界像素来填充深度图像外部的区域。也就是说,当实际实现时,深度图像外部的区域的深度值可以是边界像素的深度值。在这种情况下,即使所述区域偏离深度图像,也不变地参考偏离的区域,并可确定深度图像外部的区域的深度值。

同时,视差矢量确定器24可确定当前块的预测模式。例如,编码设备可在比特流中包括关于当前块的预测模式的信息,视差矢量确定器24可基于包括在比特流中的关于当前块的预测模式的信息来确定预测模式。例如,当视差矢量确定器24接收指示当前块的预测模式是合并模式的比特流时,视差矢量确定器24可确定当前块的预测模式是合并模式。

此外,视差矢量确定器24可根据当前块的确定的预测模式,确定偏离深度图像的边界的区域的深度值。例如,当当前块的预测模式是根据视图合成预测执行预测的模式时,视差矢量确定器24可不确定偏离深度图像的边界的区域的深度值。当偏离深度图像的边界的区域的深度值未被确定时,视差矢量确定器24可能无法使用偏离区域的深度值。

当当前块的预测模式是另一预测模式而不是根据视图合成预测执行预测的模式时,视差矢量确定器24可确定偏离深度图像的边界的区域的深度值。然而,视差矢量确定器24可根据各种预测模式来确定或者可不确定偏离深度图像的边界的区域的深度值,不限于根据预测模式是否为根据视图合成预测执行预测的模式来确定偏离深度图像的边界的区域的深度值。

同时,视差矢量确定器24可确定预测模式,在特定预测模式期间,视差矢量确定器24可不确定包括在块中的区域是否偏离第一层的深度图像的边界。

在操作28,视差矢量确定器24可基于偏离深度图像的边界的区域的确定的深度值,针对当前块确定指示第一层的相应块的视差矢量。例如,视差矢量确定器24基于偏离深度图像的边界的区域的确定的深度值,确定深度图像块中的一个或更多个区域的深度值中的全部或部分之中确定代表性深度值。这里,为了确定代表性深度值可意味着:视差矢量确定器24可基于偏离深度图像的边界的区域的确定的深度值,从深度图像块中的一个或更多个区域的深度值之中选择代表性深度值。可选地,视差矢量确定器24可基于偏离深度图像的边界的区域的确定的深度值,通过使用深度图像块中的一个或更多个区域的全部或部分深度值来计算代表性深度值。视差矢量确定器24可基于确定的代表性深度值,确定指示第一层的相应块的视差矢量。同时,视差矢量确定器4可选择深度图像块的多个区域,可比较多个选择的区域的深度值,并可确定代表性深度值。视差矢量确定器24可比较多个区域的深度值,并可确定最大深度值。

视差矢量确定器24可转换确定的最大深度值,并可确定视差矢量。

视差矢量确定器14可基于第二层的当前块的位置来确定第一层深度图像的与视差矢量相应的同位(co-located)参考块,并可获取位于第一层深度图像的确定的参考块的角落的像素的深度值。随后,角落的深度值之中的最大值可被转换为视差矢量,并因而被确定为第二层的当前块的视差矢量。

在操作29,第二层编码器26通过直接地或间接地使用确定的视差矢量来对当前块进行重建。

在直接使用视差矢量的示例中,第二层解码器26通过参考第一层的由确定的视差矢量指示的相应块对当前块进行预测。第二层解码器26可通过使用针对当前块预测的块来重建当前块。也就是说,第二层解码器26可从比特流获得指示针对当前块预测的块的相同值与实际图像的当前块的样点值之间的差的残差信息,并可通过合成获得的残差信息和针对当前块预测的块的样点值来重建当前块。

更具体地讲,第二层解码器26可通过使用确定的视差矢量来参考第一层的深度图像块,可通过参考第一层的被参考的深度图像块来执行视图合成预测,可执行视图合成预测以参考从第一层图像合成的图像,并可通过参考合成的图像对当前块进行预测。第二层解码器26可通过使用针对当前块预测的块对当前块进行编码。也就是说,第二层解码器26可从比特流获得指示针对当前块预测的块的样点值与实际图像的当前块的样点值之间的差的残差信息,并可通过合成获得的残差信息和针对当前块预测的块的样点值来重建当前块。

间接使用视差矢量的示例意味着在预测中使用与视差矢量相应的运动参数的情况。

参照图7b稍后提供针对视图合成预测的具体描述。

根据各种实施例的层间视频解码设备20可包括中央处理器(未示出),其中,中央处理器总体上控制第一层解码器22、视差矢量确定器24和第二层解码器26。可选地,第一层解码器22、视差矢量确定器24和第二层解码器26中的每一个可由自己的处理器(未示出)驱动,所述处理器可彼此交互操作,使得层间视频解码设备20可进行操作。可选地,基于根据各种实施例的层间视频解码设备20的外部处理器(未示出)的控制,第一层解码器22、视差矢量确定器24和第二层解码器26可被控制。

根据各种实施例的层间视频解码设备20可包括用于存储第一层解码器 22、视差矢量确定器24和第二层解码器26的输入和输出的数据的一个或更多个数据存储单元(未示出)。层间视频解码设备20可包括管理所述一个或更多个数据存储单元的数据的输入和输出的存储器控制器(未示出)。

根据各种实施例的层间视频解码设备20可与内部嵌入的内部视频解码处理器或外部视频解码处理器进行交互操作,以经视频解码重建视频,使得层间视频解码设备20可执行包括逆变换的视频解码操作。根据各种实施例的层间视频解码设备20的内部视频编码处理器不仅可与单独的处理器相应,还可相应于层间视频解码设备20的CPU或图形操作单元包括视频解码处理模块并因而执行基本视频解码操作的情况。

参照图1a至图2b,当包括在第一层的深度图像块中的与当前块相应的区域偏离第一层的深度图像的边界时,层间视频编码设备10和层间视频解码设备20可确定偏离边界的深度图像块的深度值,更具体地,层间视频解码设备20通过将偏离边界的深度图像块的深度值确定为第一层的深度图像的边界的深度值,提供对层间图像进行编码和解码的方法,并基于偏离边界的区域的确定的深度值,通过使用深度图像块的深度值来确定视差矢量,从而提升编码性能和准确性。

在下文中,将参照图3具体描述可在根据各种实施例的层间视频编码设备10中执行的层间预测结构。

图3示出根据实施例的层间预测结构。

层间编码系统1600包括基本层编码端1610、增强层编码端1660和基本层编码端1610与增强层编码端1660之间的层间预测端1650。基本层编码端 1610和增强层编码端1660可被包括在层间编码器12中。

基本层编码端1610对每个图像的基本层图像序列进行接收和编码。增强层编码端1660对每个图像的增强层图像序列进行接收和编码。将同时给出对于基本层编码端1610和增强层编码端1660之间的相似操作的冗余描述。

块划分器1618和1668将输入图像(低分辨率图像和高分辨率图像)划分为最大编码单元、编码单元、预测单元、变换单元等。为了对由块划分器 1618和1668输出的编码单元进行编码,可针对编码单元的每个预测单元执行帧内预测或帧间预测。根据预测单元的预测模式是帧内预测模式还是帧间预测模式,预测转换器1648和1698可关于由运动补偿器1640和1690输出的先前重建的图像执行帧间预测,或者可通过使用由帧内预测单元1645和 1695输出的当前输入图像内的当前预测单元的邻近预测单元来执行帧内预测。可通过帧间预测针对每个预测单元产生残差信息。

预测单元和邻近图像之间的残差信息针对编码单元的每个预测单元被输入变换器/量化器1620和1670内。变换器/量化器1620和1670可基于编码单元的变换单元针对每个变换单元执行变换和量化,并可输出量化后的变换系数。

扫描器/逆变换器1625和1675可再次对编码单元的每个变换单元的量化后的变换系数执行缩放和逆变换,以产生空间的残差信息。当帧间模式由预测转换器1648和1698配置时,将残差信息与先前的重建图像或邻近预测单元进行合并,从而产生包括当前预测单元的重建图像,并在存储器1630和 1680中存储当前重建图像。根据稍后编码的预测单元的预测模式,当前重建图像可被变换为帧内预测单元1645和1695/运动补偿单元1640和1690。

具体地讲,在帧内模式中,环内滤波单元1635和1685可针对每个编码单元对存储在存储器1630和1680中的重建图像执行从去块滤波和样点自适应偏移(SAO)滤波中选择的至少一个。可对编码单元、包括在编码单元中的预测单元和变换单元中的至少一个执行去块滤波和样点自适应偏移(SAO)滤波中的至少一个滤波。

去块滤波是用于减轻数据单元的块现象的滤波。SAO滤波是用于补偿通过数据编码和解码而修改的像素值的滤波。针对每个预测单元,由环内滤波单元1635和1685滤波的数据可被传送到运动补偿单元1640和1690。可产生由运动补偿单元1640和1690以及块划分器1618和1668输出的当前重建图像与下一编码单元之间的残差信息,以再次编码由块划分器1618和1668 输出的下一顺序的编码单元。

以这种方式,可针对输入图像的每一编码单元重复上述编码方法。

用于层间预测的增强层编码端1660可指示存储在基本层编码端1610的存储器1630中的重建图像。基本层编码端1610的编码控制器1615可控制基本层编码端1610的存储器1630,并可将基本层编码端1610的重建图像传送到增强层解码端1660。层间预测端1650可对由基本层编码端1610的存储器 1630输出的基本层重建图像执行去块滤波或SAO滤波。当基本层的图像与增强层的图像之间分辨率不同时,层间预测端1650可对基本层的重建图像进行上采样,并可将重建图像传送到增强层编码端1660。当根据增强层编码端 1660的转换器1698的控制来执行层间预测时,可参照通过层间预测端1650 传送的基本层重建图像对增强层图像执行层间预测。

为了对图像进行编码,可设置用于编码单元、预测单元和变换单元的各种编码模式。例如,可将深度或划分标志等设置为针对编码单元的编码模式。可将预测模式、分区(partition)类型、帧内方向信息、参考列表信息等设置为针对预测单元的编码模式。可将变换深度或划分标志等设置为针对变换单元的编码模式。

基本层编码端1610可根据通过分别应用用于编码单元的各种深度、针对预测单元的各种预测模式、各种分区类型、各种帧内方向、各种参考列表和用于变换单元的各种变换深度来执行编码的结果,确定具有最高编码效率的编码深度、预测模式、分区类型、帧内方向/参考列表、变换深度等。然而,本发明不限于由基本层编码端1610确定的编码模式。

基本层编码端1610的编码控制器1615可控制各种编码模式被合适地应用于元件的操作。编码控制器1615可控制增强层编码端1660通过参考基本层编码端1610的编码结果来确定编码模式或残差信息,以对增强层编码端 1660进行层间编码。

例如,增强编码端1660可通过将基本层编码端1610的编码模式用作增强层图像的编码模式,或者通过参考基本层编码端1610的编码模式,确定用于增强层图像的编码模式。基本层编码端1610的编码控制器1615可控制增强层编码端1660的编码控制器1655的控制信号,使得增强层编码端1660可使用来自基本层编码端1610的编码模式的当前编码模式,以确定当前编码模式。

与根据图3的层间预测方法的层间编码系统1600相似,可实现根据层间预测方法的层间解码系统。也就是说,多层视频的层间解码系统可接收基本层比特流和增强层比特流。层间解码系统的基本层解码端可对基本层比特流进行解码,以重建基本层图像。多层视频的层间解码系统的增强层解码端可使用基本层重建图像和解析后的编码信息来对增强层比特流进行解码,并重建增强层图像。

如果根据各种示例性实施例的层间视频编码设备10执行层间预测,则层间视频解码设备20可根据上述层间解码系统来重建多层图像。

在下文中,参照图4a至图7b,现将详细描述层间视频编码设备10和层间视频解码设备20应用针对多视点视频的层间预测结构的示例性实施例。单个视点视频被应用于多视点视频的视点间预测结构中的一个层,从而视点间预测结构可被理解为层间预测结构。

在下文中,参照图4a至图7b,提供根据各种实施例的用于通过使用参考层深度图像来确定视差矢量的层间视频编码技术和层间视频解码技术。

图4a示出根据实施例的帧间预测模式下使用的空间预测候选。

参照图4a,层间解码设备20参考以确定当前画面30的当前块31的预测信息的候选块可以是空间上与当前块31邻近的预测单元。例如,候选块可包括位于当前块31的左下样点的左下方外部的邻近块A0 32、位于当前块31 的左下样点的左侧外部的邻近块A1 33、位于当前块31的右上样点的右上方外部的邻近块B0 34、位于当前块31的右上样点的上方外部的邻近块B1 35 以及位于当前块31的左上样点的左上方外部的邻近块B2 36。为了确定可以是候选块的块,可以以邻近块A1 33、B1 35、B0 34、A0 32和B2 36的顺序来探索预定位置的邻近块32、33、34、35和36。

例如,可将邻近块A1 33、B1 35、B0 34、A0 32和B2 36中的四个选择为空间候选块。也就是说,四个空间候选块的运动信息可被包括在用于帧间预测的候选列表中。

层间解码设备20可将邻近块A1 33、B1 35、B0 34、A0 32和B2 36之中的具有运动信息的块(即,帧间预测的块)包括在用于帧间预测的预测候选中,并从预测候选中排除不具有运动信息的块。层间解码设备20可从用于帧间预测的预测候选中排除具有冗余运动信息的块。

可被包括在空间预测候选中的邻近块的位置和数量可不限于此,而是可改变。同时,用于确定空间预测候选的块可以是编码单元或预测单元。

图4b示出根据实施例的在帧间预测模式下使用的时间预测候选。

参照图4b,层间视频解码设备20可包括与当前块41同位的同位块44 以及包括在参考画面43中的同位块44的外围的至少一个块作为时间预测候选,以对包括在当前画面40中的当前块41进行帧间预测。例如,同位块44 的右下块45可被包括在时间预测候选中。同时,用于确定时间预测候选的块可以是编码单元或预测单元。

在下文中,参照图5至图7以及表1的伪代码,描述根据实施例的层间视频解码设备20确定与当前块相应的深度图像块是否偏离第一层的深度图像,改变深度图像块的偏离深度图像的区域的深度值,并通过改变的深度图像来确定视差矢量的方法和设备。

图5示出根据实施例的确定基于深度的视差矢量的流程图。

在操作51,根据实施例的层间视频解码设备20确定第一层的与第二层图像的当前块相应的深度图像块。

这里,层间视频解码设备20可从比特流获得关于指示第一层的与当前块相应的深度图像块的视差矢量的信息,并可通过使用获得的关于视差矢量的信息来获得视差矢量。可选地,层间视频解码设备20可从邻近块获得视差矢量。可选地,层间视频解码设备20可获得基于深度的视差矢量。

层间视频解码设备20可通过使用获得的视差矢量来确定第一层的与当前块相应的深度图像块。

在操作52,层间视频解码设备20可确定包括在第一层的深度图像块中的区域是否偏离第一层的深度图像的边界。

在操作53,如果包括在第一层的深度图像块中的区域不偏离边界,则在操作54,层间视频解码设备20可基于当前深度图像块的深度值,针对当前块确定指示第一层图像的相应块的视差矢量。

在操作53,如果包括在第一层的深度图像块中的区域偏离边界,则在操作55,层间视频解码设备20可确定深度图像块的偏离深度图像的边界的区域的深度值。具体地讲,层间视频解码设备20可不改变深度图像块的不偏离深度图像的边界的区域的深度值,并可仅确定深度图像块的偏离深度图像的边界的区域的深度值。

在操作56,层间视频解码设备20可基于偏离边界的区域的确定的深度值,针对当前块确定指示第一层图像的相应块的视差矢量。确定的视差矢量是作为基于深度值确定的视差矢量的基于深度的视差矢量。可在执行各种层间预测的过程中使用获得的视差矢量。例如,当层间视频解码设备20执行视图合成预测时,层间视频解码设备20必须确定与当前块相应的视差矢量,以执行视图合成预测,这里,可将确定的视差矢量确定为与当前块相应的视差矢量。

图6a至图6c示出用于描述确定基于深度的视差矢量的处理的示图。

图6a示出用于描述确定基于深度的视差矢量的处理的示图。

参照图6a,层间视频解码设备20可如下确定基于深度的视差矢量。这里,假设对第一层的彩色图像和深度图像进行编码并随后重建所述图像,层间视频解码设备20通过参考重建的第一层图像对包括在第二层中的当前块进行解码。

层间视频解码设备20确定第一层的与当前块相应的深度图像块。这里,层间视频解码设备20可通过使用指示第一层图像的视差矢量,确定第一层的与当前块相应的深度图像块60。

当层间视频解码设备20确定第一层的深度图像块60时,层间视频解码设备20可确定深度图像块60中的代表性深度值。更具体地,层间视频解码设备20可获得位于深度图像块60的角落的四个深度值,并可通过比较获得的深度值来确定代表最大值的深度值。

层间视频解码设备20可将代表性深度值转换为视差矢量(最终视差矢量)。

转换后的视差矢量是基于深度值确定的矢量,因此可被称为基于深度的视差矢量。基于深度的视差矢量与普通视差矢量相比可具有提高的准确性,可通过使用基于深度的视差矢量来确定进一步靠近当前块的参考层相应块,使得当通过使用基于深度的视差矢量来执行预测时,可进一步改进编码效率。

同时,层间视频解码设备20不限于此,而是可使用确定的视差矢量,通过重复前述处理来重新确定视差矢量。

此外,在层间视频解码设备20执行视图同步预测的同时,层间视频解码设备20通过使用初始视差矢量来确定子块的视差矢量,并通过使用子块的视差矢量对当前块执行预测编码,将参照图7b来具体描述所述过程。

图6b示出用于描述确定在确定基于深度的视差矢量的过程中使用的深度图像块的处理的示图。

如以上参照图6a所述,确定与第二层的当前块相应的深度图像块,并通过使用确定的深度图像块的深度值来确定与当前块相应的视差矢量。

参照图6b,包括在深度图像块中的区域可偏离当前深度图像。块62和 64的部分偏离第一层的深度图像,块61和63偏离第一层的深度图像。在这种情况下,当深度图像块的区域偏离第一层的深度图像的边界时,层间视频解码设备20可不使用偏离边界的区域的深度值,或者由于区域具有不期望的深度值,因此即使层间视频解码设备20使用深度值,层间视频解码设备20 也无法确定(或无法得到)准确的视差矢量。

因此,层间视频解码设备20可调整深度图像块的位置,以使深度图像块位于第一层的深度图像内。例如,层间视频解码设备20可水平调整包括在深度图像块中的向左和向右偏离边界的区域的位置,因此可允许区域位于第一层的深度图像的边界内。

在这种情况下,由于层间视频解码设备20使用不与实际视差相应的不同位置的深度值,因此,如果通过使用深度图像块的改变的位置处的深度值来确定视差矢量,则准确性会恶化。

图6c示出根据本公开的实施例的在确定基于深度的视差矢量的过程中使用的深度图像块的处理的流程图。

参照图6c,包括在深度图像块中的区域可偏离当前深度图像。块66和 68的部分偏离第一层的深度图像,块65和67偏离第一层的深度图像。在这种情况下,当深度图像块的区域偏离第一层的深度图像的边界时,层间视频解码设备20可不使用偏离边界的区域的深度值,或者由于区域具有不期望的深度值,即使层间视频解码设备20使用深度值,层间视频解码设备20也无法确定(或无法得到)准确的视差矢量。

在这种情况下,由于层间视频解码设备20使用与实际视差相应的不同的位置的深度值,因此,如果通过使用深度图像块的在改变的位置的深度值来确定视差矢量,则准确性会恶化。

因此,根据本公开的实施例的层间视频解码设备20可限定深度相应块的偏离边界的区域的坐标,以使所述坐标与深度相应块的边界内的坐标相应,因而可仅参考第一层的深度图像内的深度值。例如,层间视频解码设备20可限定深度相应块的偏离边界的区域的坐标,以使所述坐标与深度相应块的边界内的坐标相应,因而可对深度相应块的向左或向右偏离边界或者在边界以外的区域进行裁剪,通过这样做,层间视频解码设备20可仅参考第一层的深度图像内的深度值。

当实际实施时,可使用边界像素来填充深度图像外部的区域。也就是说,当实际实施时,深度图像外部的区域的深度值可以是边界像素的深度值。在这种情况下,即使所述区域偏离深度图像,不变地参考偏离区域,并可确定深度图像外部的区域的深度值。

可将偏离边界的区域的坐标确定为当区域的坐标分别被水平和垂直移动时达到的边界的坐标。当偏离边界的区域被水平和垂直移动时位于边界外部的区域的坐标可被确定为与当偏离边界的区域被水平和垂直移动时达到的区域的坐标相应。可选地,当偏离边界的区域被水平或垂直移动时位于边界外部的区域的坐标可被确定为与最接近于区域的边界的坐标相应。然而,层间视频解码设备20可不限于下述情况:偏离边界的区域被水平或垂直移动,并可确定偏离边界的区域的坐标,以使所述坐标与当沿各种方向移动区域时达到的边界的坐标相应。

此外,层间视频解码设备20可不限于前述描述,并可将深度图像块的偏离第一层的深度图像的边界的区域的深度值确定为随机深度图像的深度值。例如,当深度值被表达为8比特时,层间视频解码设备20可将深度图像块的偏离第一层的边界的部分的深度值确定为作为中间值的128。

参照图6c,层间视频解码设备20可确定包括在块65和76中且在边界外部的区域的坐标,使得边界外部的块65和67的坐标可与当偏离边界的区域被水平移动时达到的边界的坐标相应。作为结果,层间视频解码设备20可参考边界内的块65和67的深度值。

根据下面的表1的伪代码,可在层间视频解码设备20中执行本发明的根据实施例的确定视差矢量的方法。

[表1]

可通过使用当前块61的位置(xP,yP)、视差矢量(mvDisp)和参考视图索引(refViewiewIdx)来确定被转换为(nCbW)×(nCbH)尺寸的视差矢量值“disparitySamples[][]”。这里,nCbW和nCbH可表示current block() 的编码单元的尺寸。子块的尺寸可等于或小于当前块的尺寸。

首先,参照表1,可通过使用指示第一层的亮度块的视差矢量或相同位置的深度图像块来确定深度图像(或相同位置的亮度图像)的块的位置(xTL, yTL)。可通过使用当前块的x坐标位置(xP)和视差矢量的x分量mvDisp[0] 来计算xTL。可通过使用当前块的y坐标位置(yP)和视差矢量的y分量 mvDisp[1]来计算yTL。

参照图1,层间视频解码设备20可执行下面的处理,以确定最大深度值 (maxDep)。可通过使用子块的高度或宽度(nSubBlkH,nSubBlkW)和子块针对当前块的左上侧的索引(sBx,sBy)来计算包括在当前块中的子块的位置。

这里,可计算用于使用深度值的两个x坐标(xp0,xp1)和两个y坐标(yp0, yp1)。

第一,可通过Clip3()函数来计算用于使用子块中的深度值的左x坐标 (xp0)。Clip3(x,y,z)函数是这样的函数:如果x和y的范围内的值被输入,则不变地输出所述值,如果所述值超出x和y的范围,则小于x的值被输出为x,大于y的值被输出为y。首先,如果0和亮度(或相应的深度)图像 (pic_width_in_luma_samples)的宽度-1的范围内的值被输入为位于子块的最左侧的像素的x坐标(xTL+sBx*nSubBlkW),则用于使用块中的深度值的左x坐标(xp0)是所述x坐标的值,如果0和亮度图像的宽度的范围内的值未被输入但小于0的值被输入时,则左x坐标(xp0)是0,如果所述值大于 (pic_width_in_luma_samples)-1,则左x坐标(xp0)是 (pic_width_in_luma_samples)-1的值。

可通过Clip3()函数来计算用于使用子块中的深度值的上y坐标(yP1)。如果0和亮度(或相应的深度)图像的高度(pic_height_in_luma_samples)-1 的范围内的值被输入为位于子块的上侧的像素的y坐标(yTL+sBy* nSubBlkH),则上y坐标(yP1)是所述y坐标的值,如果0和亮度图像的高度的范围内的值不被输入而是小于0的值被输入,则上y坐标(yP1)是0,如果所述值大于(pic_height_in_luma_samples)-1,则上y坐标(yP1)是 (pic_height_in_luma_samples)-1的值。

可通过Clip3()函数来计算用于使用子块中的深度值的右x坐标(xp1)。如果0和亮度(或相应的深度)图像的宽度(pic_width_in_luma_samples)-1 的范围内的值被输入为位于子块的最右侧的像素的x坐标(xTL+sBx* nSubBlkW+nSubBlkW-1),则右x坐标(xp1)是所述x坐标的值,如果0 和亮度图像的宽度的范围内的值不被输入而是小于0的值被输入,则右x坐标(xp1)是0,如果所述值大于(pic_width_in_luma_samples)-1,则右x坐标(xp1)是(pic_width_in_luma_samples)-1的值。

可通过Clip3()函数来计算用于使用子块中的深度值的下y坐标(yP2)。如果0和亮度(或相应的深度)图像(pic_height_in_luma_samples)-1的范围内的值被输入为位于子块的下侧的像素的y坐标(yTL+sBy*nSubBlkH +nSubBlikH-1),则下y坐标(yP2)是所述y坐标的值,如果0和亮度图像的高度的范围内的值未被输入而是小于0的值被输入,则下y坐标(yP2)是0,如果所述值大于(pic_height_in_luma_samples)-1,则下y坐标(yP2)是 (pic_height_in_luma_samples)-1的值。

可以以下面的方式来确定最大深度值(maxDep)。为了获得最大深度值 (maxDep),可使用Max()函数。Max(x,y)是从其输出x值和y值的最大值的函数。

层间视频解码设备20可将当前最大深度值(maxDep)与位于当前子块的左上侧的像素(xp0,yp0)的深度值(refDepPels[xp0][yp0])进行比较,并可确定最大深度值(maxDep)。以同等的方式,针对位于裁剪的当前子块的左下侧的像素(xp0,yp1)、位于裁剪的当前子块的右上侧的像素(xp1,yp0)以及位于裁剪的当前子块的右下侧的像素(xp1,yp1),执行比较当前最大深度值 (maxDep)的处理,使得最大深度值(maxDep)可被计算。

接下来,可确定被转换为子块尺寸((nSubBlkW)×(nSubBlkH))的视差样点“disparitySamples[][]”。也就是说,层间视频解码设备20可针对包括在当前块中的每个像素计算视差矢量。与参考视点索引(refViewIdx)相应的视差矢量值(DepthToDisparityB[refViewIdx][maxDep])和最大深度值 (maxDep)可被计算为在子块内位于(x,y)的像素的视差样点值 (disparitySample[x][y])。

以上面描述的同等方式,可针对包括在当前块中的其他子块来计算视差样点。因此,可确定被转换为当前块的尺寸((nCbW)x×(nCbH))的视差矢量值“disparitySamples[][]”。

层间视频解码设备20可通过使用转换后的视差矢量的水平分量值和视差矢量的垂直分量值(mvDisp)来确定当前块61的视差矢量 (mvRefinedDisp)。例如,确定的视差矢量(mvRefinedDisp)可被表达为 (disparitySamples[0][0],mvDisp[1])。这里,作为视差矢量的垂直分量值的“mvDisp[1]”可以是0。

图7a和图7b示出根据本发明实施例的用于描述确定基于深度的视差矢量的具体处理的示图。

图7a示出根据本发明实施例的用于描述确定基于深度的视差矢量的具体处理的视图。

参照图7a,层间视频解码设备20可确定(或可得到)指示第一层的深度图像块的视差矢量,以确定第一层的与第二层的当前块相应的深度图像块。层间视频解码设备20可获得关于来自比特流的视差的信息,并可通过使用获得的关于视差的信息来确定视差矢量。此外,层间视频编码设备20可从邻近块得到(或可确定)视差矢量。此外,层间视频解码设备20可确定基于深度的视差矢量。

层间视频解码设备20可通过使用确定的视差矢量来确定第一层的深度图像块。这里,假设包括在第一层的确定的深度图像块中的区域偏离第一层的深度图像的边界。在层间视频解码设备20不变地使用深度图像块的深度值而不改变所述深度值的情况下,如果使用四个角落的深度值,则层间视频解码设备20使用边界外部的角落的两个深度值71,但由于上述值位于边界的外部,因此上述值可能无法被使用或可能具有不期望的深度值。因此,通过使用仅位于四个角落的深度值之中的两个角落的像素的深度值来确定最大深度值,并通过转换确定的深度值来确定最终视差矢量,使得视差矢量的准确性会恶化。

另一方面,当包括在深度图像块中的区域偏离深度图像的边界时,根据本发明的实施例的层间视频解码设备20可确定位于深度图像外部的像素的坐标,使得所述坐标与位于第一层的深度图像的当位于深度图像外部的像素被水平移动时达到的边界处的像素的坐标相应,因此可仅参考深度图像中的深度值。可通过改变像素的坐标来将位于深度图像的边界外部的像素的深度值确定为深度图像中的深度值。

层间视频解码设备20可通过使用确定的深度值来确定视差矢量。当层间视频解码设备20使用深度图像块的四个角落的深度值时,层间视频解码设备 20可使用深度图像块的四个角落的深度值。也就是说,层间视频解码设备20 可使用两个角落的深度值72和两个角落的深度值73中的全部。

层间视频解码设备20可从四个角落的深度值之中确定最大深度值。这里,层间视频解码设备20可将最大深度值转换为指示第一层图像的相应块的视差矢量。因此,层间视频解码设备20可确定更准确的视差矢量。

图7b示出根据本发明实施例的用于描述当执行针对当前块的视图合成预测时确定针对子块的基于深度的视差矢量的具体处理的视图。

视图合成预测方法是在层间预测中使用的预测方法之一,通过所述方法,将当前块划分为各种子块,从深度值确定针对每个划分的子块的视差矢量,并通过参考第一层的分别由子块的视差矢量指示的子块来执行层间预测。这里,通过使用视差矢量来不使用第一层的图像的与当前块相应的相应块,而是通过使用初始视差矢量来确定第一层的图像的与当前块的子块相应的相应块,并通过参考通过合并第一层的区域的子块而合成的图像来预测当前块,使得所述预测被称为视图合成预测。这里,由于从深度值确定每个子块的视差矢量,因此可通过使用根据本发明实施例的确定基于深度的视差矢量的方法来确定视差矢量。这里,当前块可以是预测单元但不限于此,当前块可以是编码单元。这里,编码单元的子块可以是预测单元。

然而,视图合成预测方法不限于当视图合成预测被执行时将当前块划分为子块的实施例,视图合成预测方法可包括:通过使用具有与当前块相同的尺寸的子块来确定子块的基于深度的视差矢量,并通过参考第一层的图像的由确定的视差矢量指示的相应块来预测当前块。

参照图7b,当层间视频解码设备20通过执行视图合成预测来预测当前块时,为了确定第一层的与第二层的当前块相应的深度图像块,层间视频解码设备20可确定(或得到)指示第一层的深度图像块的初始视差矢量。

层间视频解码设备20可通过使用确定的初始视差矢量来确定第一层的与当前块相应的深度图像块。这里,假设包括在第一层的确定的深度图像块中的区域偏离第一层的深度图像的边界。在层间视频解码设备20不变地使用深度图像块的深度值而不改变所述深度值时,如果在左上子块74和右上子块 75中的每一个的四个角落的深度值被使用,则层间视频解码设备20使用边界外部的两个角落的深度值,但由于所述值位于边界外部,则所述值可能无法使用或者可能具有不期望的深度值。因此,通过仅使用位于四个角落的深度值之中的两个角落处的像素的深度值来确定最大深度值,并通过转换确定的深度值来确定最终视差矢量,使得视差矢量的准确性会恶化。

另一方面,当包括在深度图像块中的区域偏离深度图像的边界时,根据本发明实施例的层间视频解码设备20可确定位于深度图像外部的像素的坐标,使得所述坐标与位于第一层的深度图像的当位于外部的像素被水平移动时达到的边界处的像素的坐标相应,因此可参看深度图像中的深度值。也就是说,偏离深度图像的边界的区域的深度值可被确定为与位于第一层的深度图像的当水平移动时达到的边界处的像素的坐标相应,因此可被确定为深度图像的边界内的深度值。

层间视频解码设备20可通过使用裁剪的深度图像块的深度值来确定视差矢量。当层间视频解码设备20使用深度图像子块的四个角落的深度值时,层间视频解码设备20可使用深度图像子块76和77的四个角落的深度值,因此可使用位于边界内的四个角落的深度值中的全部。层间视频解码设备20可从四个角落的深度值确定最大深度值。这里,层间视频解码设备20可将最大深度值转换为指示第一层的图像的子相应块的视差矢量。因此,当包括在深度图像子块中的区域偏离第一层的深度图像的边界时,层间视频解码设备20 可确定位于深度图像的边界外部的区域的坐标,使得所述坐标与位于深度图像的边界内的区域的坐标相应,因此可确定更准确的视差矢量。

同时,层间视频解码设备20不限于在不考虑预测模式的情况下通过应用根据本发明实施例的确定基于深度的视差矢量的方法来确定视差矢量,因此,层间视频解码设备20可根据预测模式来应用根据本发明实施例的确定基于深度的视差矢量的方法,或者可应用根据现有技术的确定视差矢量的方法。根据现有技术的确定视差矢量的方法表示这样的方法:即使包括在深度图像块中的区域偏离第一层的深度图像的边界,也通过不变地使用深度图像块来确定视差矢量。例如,如图7b中,当通过根据视图合成模式对当前块执行预测来确定子块的视差矢量时,可对其应用根据现有技术的确定视差矢量的方法。同时,当当前块的视差矢量被确定时,不考虑预测模式,可对其应用根据本发明实施例的确定基于深度的视差矢量的方法。

在视图合成预测期间,当包括在深度图像块中的与当前块相应的区域偏离第一层的深度图像的边界时,层间视频解码设备20可不包括合成候选中的指示视图合成预测方法的候选。此外,合成候选表示经由在合成模式期间可用于预测当前块的方法选择的候选。可针对每个预测块确定合并候选,在每个预测块中合并候选可不同。层间视频解码设备20可从用于预测当前块的合并候选之中选择预测方法,并可将指示选择的方法的合并索引包括在比特流中。层间视频解码设备20可基于包括在比特流中的合并索引来从用于预测当前块的合并候选之中选择预测方法。同时,可在层间视频编码设备10和层间视频解码设备20中同等地执行确定合并候选的处理,可通过使用邻近块的编码信息或在处理中编码和重建的邻近视图来确定合并候选。

同时,虽然描述了以上针对图4a至图7描述的操作由层间视频解码设备 20执行,但本领域普通技术人员将容易理解的是,可由层间视频编码设备10 来执行同样的操作。

在根据实施例的层间视频编码设备10和层间视频解码设备20中,如上所述,视频数据可被划分为具有树结构的编码单元,编码单元、预测单元和变换单元被用于对编码单元的层间预测或帧间预测。在下文中,将参照图8 至图20来描述根据实施例的基于具有树结构的编码单元的视频编码方法和设备以及视频解码方法和设备。

原则上,在针对多层视频的编码/解码期间,分别执行针对第一层图像的编码/解码处理和针对第二层图像的编码/解码处理。也就是说,当对多层视频执行层间预测时,彼此参考单层视频的编码/解码结果,但针对单层视频执行单独的编码/解码过程。

为了便于描述,由于对单层视频执行将参照图8至图20描述的基于根据树结构的编码单元的视频编码处理和视频解码处理,因此,仅将描述帧间预测和运动补偿。然而,如参照图1a至图7b所描述的,执行层间预测和基本层图像与第二层图像之间的补偿以对视频流进行编码/解码。

因此,当根据实施例的层间视频编码设备10的编码器12基于根据树结构的编码单元对多层视频进行编码时,为了针对每个单视点视频对视频进行编码,层间视频编码设备10包括与多层视频的层的数量一样多的图8的视频编码设备100,以便对视频进行编码,使得每个视频编码设备100可被控制为对分配的单层视频进行编码。此外,可伸缩视频编码设备1200可通过使用每个视频编码设备100的单独的单视点的编码结果来执行视点间预测。因此,层间视频编码设备10的编码器12可产生基本层视频流和第二层视频流,其中,在第二层视频流中记录有针对每个层级的每一层的编码结果。

类似地,当根据实施例的层间视频解码设备20的解码器26基于根据数结构的编码单元对多层视频进行解码时,为了针对各个层对接收的基本层视频流和第二层视频流进行解码,层间视频解码设备20可包括与多层视频的层的数量一样多的图9的视频解码设备200,视频解码设备200可被控制为对分别被分配到视频解码设备200的单层视频进行解码。此外,层间视频编码设备10可通过使用每个视频解码设备200的单独的单层的解码结果来执行视点间补偿。因此,层间视频解码设备20的解码器26可产生针对各个层被预存储的第一层图像和第二层图像。

图8示出根据本发明实施例的基于根据树结构的视频编码单元的视频编码设备100的框图。

涉及基于根据树结构的编码单元的视频预测的视频编码设备100包括编码单元确定器120和输出单元130。在下文中,为便于描述,涉及基于根据树结构的编码单元的视频预测的视频编码设备100被称为“视频编码设备 100”。

编码单元确定器120可基于针对图像的当前画面的作为具有最大尺寸的编码单元的最大编码单元来划分当前画面。如果当前画面大于最大编码单元,则当前画面的图像数据可被划分为至少一个最大编码单元。根据实施例的最大编码单元可以是尺寸为32×32、64×64、128×128、256×256等的数据单元,其中,数据单元的形状是宽度和长度为2的若干次方的正方形。

根据实施例的编码单元可由最大尺寸和深度来表征。深度表示编码单元从最大编码单元被空间划分的次数,并且随着深度加深,根据深度的更深编码单元可从最大编码单元被划分为最小编码单元。最大编码单元的深度是最高深度,最小编码单元的深度是最低深度。由于随着最大编码单元的深度加深,与每个深度相应的编码单元的尺寸减小,因此,与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。

如上所述,当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元,并且每个最大编码单元可包括根据深度被划分的更深编码单元。由于根据实施例的最大编码单元根据深度被划分,因此包括在最大编码单元中的空间域的图像数据可根据深度被分层地分类。

可预先确定编码单元的最大深度和最大尺寸,其中,编码单元的最大深度和最大尺寸限制最大编码单元的高度和宽度被分层地划分的总次数。

编码单元确定器120对通过根据深度划分最大编码单元的区域而获得的至少一个划分区域进行编码,并根据所述至少一个划分区域确定用于输出最终编码的图像数据的深度。换句话说,编码单元确定器120通过根据当前画面的最大编码单元对根据深度的更深编码单元中的图像数据进行编码并选择具有最小编码误差的深度,来确定最终深度。确定的最终深度和根据确定的最终深度的编码图像数据被输出到输出单元130。

基于与等于或小于最大深度的至少一个深度相应的更深编码单元对最大编码单元中的图像数据进行编码,并且基于每个更深编码单元来比较对图像数据进行编码的结果。在对更深编码单元的编码误差进行比较之后,可选择具有最小编码误差的深度。可针对每个最大编码单元确定至少一个最终深度。

随着编码单元根据深度被分层地划分,并且随着编码单元的数量增加,最大编码单元的尺寸被划分。另外,即使在一个最大编码单元中多个编码单元与相同深度相应,也通过分别测量每个编码单元的图像数据的编码误差来确定是否将与相同深度相应的编码单元中的每个编码单元划分至更低深度。因此,即使当图像数据被包括在一个最大编码单元中时,在一个最大编码单元中编码误差可根据区域而不同,因此最终深度可根据图像数据中的区域而不同。因此,在一个最大编码单元中可确定一个或更多个最终深度,并且可根据至少一个最终深度的编码单元来划分最大编码单元的图像数据。

因此,编码单元确定器120可确定包括在最大编码单元中的具有树结构的编码单元。根据实施例的“具有树结构的编码单元”包括最大编码单元中所包括的所有更深编码单元之中的与确定为最终深度的深度相应的编码单元。在最大编码单元的相同区域中,最终深度的编码单元可根据深度被分层地确定,在不同的区域中,该编码深度的编码单元可被独立地确定。类似地,当前区域中的最终深度可独立于另一区域中的最终深度被确定。

根据实施例的最大深度是与从最大编码单元到最小编码单元执行划分次数相关的索引。根据本发明实施例的第一最大深度可表示从最大编码单元到最小编码单元执行划分总次数。根据实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度级的总数。例如,当最大编码单元的深度是0 时,最大编码单元被划分一次的编码单元的深度可被设置为1,并且最大编码单元被划分两次的编码单元的深度可被设置为2。这里,如果最小编码单元是最大编码单元被划分四次的编码单元,则存在深度为0、1、2、3和4的 5个深度级,因此,第一最大深度可被设置为4,第二最大深度可被设置为5。

可根据最大编码单元执行预测编码和变换。还可根据最大编码单元,基于根据等于最大深度的深度或小于最大深度的多个深度的更深编码单元来执行预测编码和变换。

由于每当最大编码单元根据深度被划分时,更深编码单元的数量增加,因此对随着深度的加深而产生的所有的更深编码单元执行包括预测编码和变换的编码。为了便于描述,现在将基于最大编码单元中的当前深度的编码单元来描述预测编码和变换。

根据实施例的视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码,执行多个操作(诸如预测编码、变换和熵编码),此时,可针对所有操作使用相同的数据单元,或者可针对每个操作使用不同的数据单元。

例如,视频编码设备100不仅可选择用于对图像数据进行编码的编码单元,还可选择与该编码单元不同的数据单元,以便对编码单元中的图像数据执行预测编码。

为了对最大编码单元执行预测编码,可基于与最终编码深度相应的编码单元(即,基于不再被划分为与更低深度相应的多个编码单元的编码单元)执行预测编码。在下文中,不再被划分并且变为用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过划分预测单元而获得的分区可包括:通过划分从预测单元的高度和宽度中选择的至少一个而获得的预测单元或数据单元。分区是编码单元的预测单元被划分的数据单元,预测单元可以是与编码单元具有相同尺寸的分区。

例如,当2N×2N(其中,N是正整数)的编码单元不再被划分并且变为 2N×2N的预测单元时,分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。分区模式的示例可选择性地包括通过对预测单元的高度或宽度进行对称划分而获得的对称分区、通过对预测单元的高度或宽度进行不对称划分(诸如,1:n 或n:1)而获得的分区、通过对预测单元进行几何划分而获得的分区以及具有任意形状的分区。

预测单元的预测模式可以是从帧内模式、帧间模式和跳过模式中选择的至少一个。例如,可对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。另外,可仅对2N×2N的分区执行跳过模式。对编码单元中的一个预测单元独立地执行编码,从而选择具有最小编码误差的预测模式。

根据实施例的视频编码设备100不仅可基于用于对图像数据进行编码的编码单元还可基于与该编码单元不同的数据单元,对编码单元中的图像数据执行变换。为了在编码单元中执行变换,可基于具有小于或等于编码单元的尺寸的数据单元来执行变换。例如,用于变换的数据单元可包括用于帧内模式的变换单元以及用于帧间模式的数据单元。

以类似于根据树结构的编码单元的方式,编码单元中的变换单元可被递归地划分为更小尺寸的区域。因此,编码单元中的残差数据可基于变换深度,根据具有树结构的变换单元而被划分。

还可在变换单元中设置指示通过对编码单元的高度和宽度进行划分以达到变换单元而执行划分次数的变换深度。例如,在2N×2N的当前编码单元中,在变换单元的尺寸是2N×2N时,变换深度可以是0,在变换单元的尺寸是N×N 时,变换深度可以是1,在变换单元的尺寸是N/2×N/2时,变换深度可以是 2。也就是说,具有树结构的变换单元可根据变换深度被设置。

根据深度的划分信息不仅需要关于深度的信息,还需要与预测编码和变换相关的信息。因此,编码单元确定器120不仅确定具有最小编码误差的深度,还确定预测单元中的分区模式、根据预测单元的预测模式以及用于变换的变换单元的尺寸。

稍后将参照图9至图19来详细地描述根据实施例的最大编码单元中的根据树结构的编码单元以及确定预测单元/分区和变换单元的方法。

编码单元确定器120可通过使用基于拉格朗日乘子(Lagrangian multiplier)的率失真优化来测量根据深度的更深编码单元的编码误差。

输出单元130在比特流中输出最大编码单元的图像数据以及根据深度的划分信息,其中,所述图像数据基于由编码单元确定器120确定的至少一个深度被编码。

可通过对图像的残差数据进行编码来获得编码的图像数据。

根据深度的划分信息可包括深度信息、关于预测单元中的分区模式的信息、关于预测模式的信息以及变换单元的划分信息等。

可通过使用根据深度的划分信息来定义关于最终深度的信息,所述划分信息指示是否针对更低深度而非当前深度的编码单元来执行编码。如果当前编码单元的当前深度是深度,则当前编码单元中的图像数据被编码并被输出,因此划分信息可被定义为不将当前编码单元划分至更低深度。可选择地,如果当前编码单元的当前深度不是深度,则对更低深度的编码单元执行编码,因此划分信息可被定义为划分当前编码单元以获得更低深度的编码单元。

如果当前深度不是深度,则对被划分为更低深度的编码单元的编码单元执行编码。由于更低深度的至少一个编码单元存在于当前深度的一个编码单元中,因此对更低深度的每个编码单元重复地执行编码,因而可对具有相同深度的编码单元递归地执行编码。

由于针对一个最大编码单元确定具有树结构的编码单元,并且针对编码深度的编码单元确定划分信息,因此可针对一个最大编码单元确定划分信息。另外,由于最大编码单元的数据可根据深度被分层地划分,因此数据的深度可根据位置而不同,使得可对数据设置深度和划分信息。

因此,根据本实施例的输出单元130可将关于相应编码深度和编码模式的编码信息分配给从包括在最大编码单元中的编码单元、预测单元和最小单元中选择的至少一个。

根据实施例的最小单元是通过将组成最低深度的最小编码单元划分为4 份而获得的正方形数据单元。可选择地,根据实施例的最小单元可以是具有可被包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中的最大正方形数据单元。

例如,由输出单元130输出的编码信息可被分类为根据较深编码单元的编码信息以及根据预测单元的编码信息。根据较深编码单元的编码信息可包括关于预测模式的信息以及关于分区的尺寸的信息。根据预测单元的编码信息可包括关于在帧间模式期间的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息和关于在帧内模式期间的插值方法的信息。

关于根据画面、条带或GOP定义的编码单元的最大尺寸的信息以及关于最大深度的信息可被插入到比特流的头部、序列参数集或画面参数集。

针对当前视频允许的变换单元的最大尺寸的信息和关于变换单元的最小尺寸的信息也可通过比特流的头部、序列参数集或画面参数集被输出。输出单元130可对与预测相关的参考信息、预测信息和条带类型信息进行编码和输出。

根据视频编码设备100的最简单实施例,更深编码单元可以是通过将作为上一层的更高深度的编码单元的高度或宽度划分为二而获得的编码单元。换句话说,在当前深度的编码单元的尺寸是2N×2N时,更低深度的编码单元的尺寸是N×N。另外,尺寸为2N×2N的具有当前深度的编码单元可包括最多4个具有更低深度的编码单元。

因此,视频编码设备100可通过基于考虑当前画面的特征所确定的最大编码单元的尺寸和最大深度,针对每个最大编码单元确定具有最佳形状和最佳尺寸的编码单元,来形成具有树结构的编码单元。另外,由于通过使用各种预测模式和变换中的任意一个对每个最大编码单元执行编码,因此可考虑各种图像尺寸的编码单元的特征来确定最佳编码模式。

因此,如果在传统的宏块中对具有高分辨率或大数据量的图像进行编码,则每个画面的宏块的数量过度增加。因此,针对每个宏块产生的压缩信息的条数增加,因此难以发送压缩信息并且数据压缩效率降低。然而,通过使用根据本实施例的视频编码设备100,由于在考虑图像的尺寸的同时增加编码单元的最大尺寸,同时在考虑图像的特征的同时调整编码单元,因此图像压缩效率会增加。

以上参照图1a描述的层间视频编码设备10可包括与层数相应的视频编码设备100,以对多层视频的每一层中的单层图像进行编码。例如,第一层编码器12可包括一个视频编码设备100,第二层编码器14可包括与第二层的数量相应的视频编码设备100。

当视频编码设备100对第一层图像进行编码时,编码单元确定器120可根据每个最大编码单元来确定用于针对每个树结构的编码单元的图像间预测的预测单元,并可对每个预测单元执行图像间预测。

当视频编码设备100对第二层图像进行编码时,编码单元确定器120可根据每个最大编码单元来确定树结构的预测单元和编码单元,并可对每个预测单元执行层间预测。

视频编码设备100可对第一层图像与第二层图像之间的亮度差进行编码,以补偿所述亮度差。然而,可根据编码单元的编码模式来确定是否执行亮度补偿。例如,可仅对尺寸为2N×2N的预测单元执行亮度补偿。

图9示出根据各种实施例的基于根据树结构的编码单元的视频解码设备 200的框图。

根据实施例的基于根据树结构的编码单元的涉及视频预测的视频解码设备200包括接收器210、图像数据和编码信息提取器220以及图像数据解码器230。在下文中,为了便于描述,根据实施例的涉及基于根据树结构的编码单元的视频预测的视频解码设备200将被称为“视频解码设备200”。

根据实施例的用于视频解码设备200的解码操作的各种术语(诸如,编码单元、深度、预测单元、变换单元和各种划分信息)的定义与以上参照图 8和视频编码设备100描述的那些相同。

接收器210接收编码视频的比特流并对其进行解析。图像数据和编码信息提取器220从解析的比特流提取用于每个编码单元的编码图像数据,并且将提取的图像数据输出到图像数据解码器230,其中,编码单元具有根据每个最大编码单元的树结构。图像数据和编码信息提取器220可从关于当前画面的头部、序列参数集或画面参数集提取关于当前画面的编码单元的最大尺寸的信息。

另外,图像数据和编码信息提取器220从解析的比特流根据每个最大编码单元针对具有树结构的编码单元提取最终深度和划分信息。提取的最终深度的信息和划分信息被输出到图像数据解码器230。换句话说,比特流中的图像数据被划分为最大编码单元,使得图像数据解码器230针对每个最大编码单元对图像数据进行解码。

可针对关于与深度相应的至少一个编码单元的信息来设置根据最大编码单元的深度和划分信息,并且根据深度的划分信息可包括相应的编码单元的分区模式信息、预测模式信息和变换单元的划分信息。另外,划分信息可被提取为关于深度的信息。

由图像数据和编码信息提取器220提取的根据每个最大编码单元的深度和划分信息是关于这样的深度和划分信息:所述深度和划分信息被确定为当编码器(诸如,视频编码设备100)根据每个最大编码单元对根据深度的每个更深编码单元重复执行编码时产生最小编码误差。因此,视频解码设备200 可通过根据产生最小编码误差的最终深度和编码模式对图像数据进行解码来重建图像。

由于关于深度和编码模式的编码信息可被分配给相应编码单元、预测单元以及最小单元中的预定数据单元,因此,图像数据和编码信息提取器220 可根据预定数据单元提取编码和划分信息。如果根据预定数据单元来记录相应的最大编码单元的关于深度和划分的信息,则具有同样的关于深度和划分的信息的预定数据单元可被称为包括在相同的最大编码单元中的数据单元。

图像数据解码器230通过基于关于根据最大编码单元的深度和划分的信息对每个最大编码单元中的图像数据进行解码来重建当前画面。换句话说,图像数据解码器230可基于提取的关于包括在每个最大编码单元中的具有树结构的编码单元之中的每个编码单元的分区模式、预测模式和变换单元的信息来对编码图像数据进行解码。解码处理可包括预测处理(所述预测处理包括帧内预测和运动补偿)和逆变换。

图像数据解码器230可基于关于根据深度的编码单元的预测单元的分区模式以及预测模式的信息,根据每个编码单元的分区和预测模式来执行帧内预测或运动补偿。

另外,为了每个最大编码单元的逆变换,图像数据解码器230可根据针对每个编码单元的树结构读取关于变换单元的信息,以便对每个最大编码单元基于基于每个编码单元的变换单元执行逆变换。经由逆变换,编码单元的空间域的像素值可被重建。

图像数据解码器230可通过使用根据深度的划分信息来确定当前最大编码单元的深度。如果划分信息指示图像数据在当前深度下不再被划分,则当前深度是深度。因此,图像数据解码器230可针对于最终深度相应的每个编码单元,通过使用关于预测单元的分区模式、预测模式和变换单元的尺寸的信息,来对当前最大编码单元中的编码数据进行解码。

换句话说,可通过观察针对编码单元、预测单元和最小单元之中的预定数据单元分配的编码信息集,收集包含包括相同划分信息的编码信息的数据单元,收集的数据单元可被认为是将由图像数据解码器230以相同的编码模式进行解码的一个数据单元。这样,可通过获得关于每个编码单元的编码模式的信息来对当前编码单元进行解码。

此外,以上参照图2a描述的层间视频解码设备20可包括与视点的数量相应的视频解码设备200,以对接收的第一层图像流和接收的第二层图像流进行解码,并重建第一层图像和第二层图像。

当第一层图像流被接收到时,视频解码设备200的图像数据解码器230 可根据最大编码单元的树结构,将由提取器220从第一层图像流提取的第一层图像的样点划分为编码单元。图像数据解码器230可基于图像间预测的预测单元,对第一层图像的样点的根据树结构的编码单元中的每一个执行运动补偿,并可重建第一层图像。

当第二层图像流被接收到时,视频解码设备200的图像数据解码器230 可将由提取器220从第一层图像流提取的第二层图像的样点划分为根据最大编码单元的树结构的编码单元。图像数据解码器230可基于图像间预测的预测单元,对第二层图像的样点的根据树结构的编码单元中的每一个执行运动补偿,并可重建第二层图像。

提取器220可从比特流获取与亮度误差相关的信息,以补偿第一层图像与第二层图像之间的亮度误差。然而,可根据编码单元的编码模式来确定是否执行亮度补偿。例如,可仅对尺寸为2N×2N的预测单元执行亮度补偿。

因此,视频解码设备200可获得关于当针对每个最大编码单元递归执行编码时产生最小编码误差的至少一个编码单元的信息,并可使用所述信息来对当前画面进行解码。也就是说,可对每个最大编码单元中被确定为最佳编码单元的具有树结构的编码单元进行解码。

因此,即使图像具有高分辨率或具有极大的数据量,也可通过使用从编码器接收的最优划分信息,通过使用根据图像的特征自适应地确定的编码单元的尺寸和编码模式来有效地对图像进行解码和重建。

图10示出用于描述根据各种实施例的编码单元的概念的示图。

编码单元的尺寸可按照宽度×高度来表示,并可以是64×64、32×32、 16×16和8×8。64×64的编码单元可被划分为64×64、64×32、32×64或 32×32的分区,32×32的编码单元可被划分为32×32、32×16、16×32或 16×16的分区,16×16的编码单元可被划分为16×16、16×8、8×16或8×8 的分区,8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。

在视频数据310中,分辨率是1920×1080,编码单元的最大尺寸是64,并且最大深度是2。在视频数据320中,分辨率是1920×1080,编码单元的最大尺寸是64,并且最大深度是3。在视频数据330中,分辨率是352×288,编码单元的最大尺寸是16,并且最大深度是1。图10中示出的最大深度表示从最大编码单元到最小解码器的划分总数。

如果分辨率高或者数据量大,则编码单元的最大尺寸可以较大以便不仅提高编码效率还准确地反映图像的特征。因此,分辨率比视频数据330更高的视频数据310和视频数据320的编码单元的最大尺寸可被选择为64。

由于视频数据310的最大深度是2,因此由于通过划分最大编码单元两次深度被加深到两层,视频数据310的编码单元315可包括长轴尺寸为64的最大编码单元以及长轴尺寸为32和16的编码单元。另一方面,由于视频数据330的最大深度是1,因此由于通过划分最大编码单元一次深度被加深到一层,视频数据330的编码单元335可包括长轴尺寸为16的最大编码单元以及长轴尺寸为8的编码单元。

由于视频数据320的最大深度是3,因此由于通过划分最大编码单元三次深度被加深到3层,视频数据320的编码单元325可包括长轴尺寸为64的最大编码单元以及长轴尺寸为32、16和8的编码单元。随着深度的加深,关于详细的信息的表达能力会加强。

图11示出根据各种实施例的基于编码单元的图像编码器400的框图。

根据实施例的图像编码器400执行视频编码设备100的操作以对图像数据进行编码。也就是说,帧内预测器420根据预测单元对当前图像405之中的帧内模式下的编码单元执行帧内预测,帧间预测器415根据预测单元通过使用从当前图像405和重建画面缓冲器410获得的参考图像在帧间模式下对编码单元执行帧间预测。可通过最大编码单元对当前图像405进行划分,并对当前图像405进行顺序地编码。这里,可对从最大编码单元划分的树结构的编码单元执行编码。

针对当前图像405的编码的编码单元的数据提取从帧内预测器420或帧间预测器415输出的针对每种模式下的编码单元的预测数据,使得残差数据被产生。残差数据被输出为通过变换器425和量化器430的量化后的每个变换单元的变换系数。量化后的变换系数通过反量化器445和你变换器450被重建为空间域的残差数据。空间域的重建的残差数据被添加到从帧内预测器 420或帧间预测器415输出的每个模式下的针对编码单元的预测数据,因此被重建为针对当前图像的编码单元的空间域的数据。重建的空间域的数据通过去块单元455和SAO执行器460被产生为重建的数据。产生的重建的数据被存储在重建画面缓冲器410中。存储在重建画面缓冲器410中的重建的图像可被用作用于针对另一图像的层间预测的参考图像。在变换器425和量化器430中量化的变换系数通过熵编码器435可被输出为比特流。

为了使根据实施例的图像编码器400被应用到视频编码设备100中,图像编码器400的所有元件(即,帧间预测器415、帧内预测器420、变换器425、量化器430、熵编码器435、反量化器445、逆变换器450、去块单元455和 SAO执行器460)可在每个最大编码单元中基于根据树结构的编码单元之中的每个编码单元执行操作。

具体地讲,帧内预测器420和帧间预测器415可在通过参考当前最大编码单元的最大尺寸和最大深度,确定具有树结构的编码单元之中的每个编码单元的分区模式和预测模式,并且变换器420可根据根据树结构的编码单元之中的每个编码单元中的四叉树来确定是否划分变换单元。

图12示出根据各种实施例的基于编码单元的图像解码器500的框图。

熵解码器515从比特流505解析将被解码的编码图像数据以及解码所需的编码信息。编码的图像数据作为量化后的变换单元,反量化器520和逆变换器525从量化后的变换单元重建残差数据。

帧内预测器540根据预测单元对帧内模式下的编码单元执行帧内预测。帧间预测器535通过使用针对当前图像之中的帧间模式下的编码单元的参考图像来执行帧间预测,其中,由重建画面缓冲器530根据预测单元获取所述参考图像。

经过帧内预测器540或帧间预测器535的针对每种模式下的编码单元的预测数据以及残差数据被添加,使得针对当前图像405的空间域的数据可被重建,并且空间域的重建的数据可通过去块单元545和SAO执行器550被输出为输出视频。

为了视频解码设备200的图像数据解码器230对图像数据进行解码,在图像解码器500的熵解码器515之后的操作可被顺序地执行。

为了使图像解码器500被应用到根据实施例的视频解码设备200,图像解码器500的所有元件(即,熵解码器515、反量化器520、逆变换器520、帧内预测器540、帧间预测器535、去块单元545和SAO执行器550)可针对每个最大编码单元基于根据树结构的编码单元之中的每个编码单元执行操作。

具体地讲,帧内预测器540和帧间预测器535可确定根据树结构的编码单元之中的每个编码单元的分区模式和预测模式,逆变换器525可根据每个编码单元中的四叉树来确定是否划分变换单元。

在单个层中,图10的编码操作和图11的解码操作分别被描述为视频流编码操作和视频流解码操作。因此,如果图1a的编码器12对至少两层的视频流进行编码,则编码器12可包括每一层的图像编码器400。类似地,如果图2a的解码器26对至少两层的视频流进行解码,则解码器26可包括每一层的视频解码器500。

图13示出根据各种实施例的根据深度的更深编码单元和分区的示图。

根据实施例的视频编码设备100和根据实施例的视频解码设备200使用分层的编码单元以考虑图像的特征。编码单元的最大高度、最大宽度和最大深度可根据图像的特征被自适应地确定,或者可由用户不同地设置。根据深度的更深编码单元的尺寸可根据编码单元的预定最大尺寸被确定。

在根据本实施例的编码单元的分层结构600中,编码单元的最大高度和最大宽度都是64,并且最大深度是3。在这种情况下,最大深度是指编码单元从最大编码单元被划分至最小编码单元的总次数。由于深度沿着分层结构 600的纵轴加深,因此更深编码单元的高度和宽度都被划分。另外,作为用于每个更深编码单元的预测编码的基础的预测单元和分区沿分层结构600的横轴被显示。

也就是说,编码单元610是分层结构600中的最大编码单元,其中,深度是0,尺寸(即,高度乘宽度)是64×64。深度沿纵轴加深,并且存在尺寸为32×32且深度为1的编码单元620、尺寸为16×16且深度为2的编码单元630、尺寸为8×8且深度为3的编码单元640以及尺寸为4×4且深度为4 的编码单元650。尺寸为8×8且深度为3的编码单元640是最小编码单元。

编码单元的预测单元和分区根据每个深度沿横轴排列。换句话说,如果尺寸为64×64且深度为0的编码单元610是预测单元,则该预测单元可被划分为包括在编码器610中的分区(即,尺寸为64×64的分区610、尺寸为 64×32的分区612、尺寸为32×64的分区614、或尺寸为32×32的分区616)。

类似地,尺寸为32×32且深度为1的编码单元620的预测单元可被划分为包括在编码单元620中的分区(即,尺寸为32×32的分区620、尺寸为 32×16的分区622、尺寸为16×32的分区624和尺寸为16×16的分区626)。

类似地,尺寸为16×16且深度为2的编码单元630的预测单元可被划分为包括在编码单元630中的分区(即,包括在编码单元630中的尺寸为16×16 的分区、尺寸为16×8的分区632、尺寸为8×16的分区634以及尺寸为8×8 的分区636)。

类似地,尺寸为8×8且深度为3的编码单元640的预测单元可被划分为包括在编码单元640中的分区(即,包括在编码单元640中的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644以及尺寸为4×4的分区646)。

为了确定构成最大编码单元610的编码单元的至少一个最终深度,根据实施例的视频编码设备100的编码单元确定器120对包括在最大编码单元610 中的与每个深度相应的编码单元执行编码。

随着深度加深,包括相同范围和相同尺寸的数据的根据深度的更深编码单元的数量增加。例如,需要四个与深度2相应的编码单元以覆盖包括在一个与深度1相应的编码单元中的数据。因此,为了对相同数据的根据深度的多个编码结果进行比较,与深度1相应的编码单元以及与深度2相应的四个编码单元都被编码。

为了针对多个深度中的当前深度执行编码,通过沿分层结构600的横轴,对与当前深度相应的编码单元中的每个预测单元执行编码来针对当前深度选择作为代表性编码误差的最小编码误差。可选择地,随着深度沿分层结构600 的纵轴加深,可通过针对每个深度执行编码,通过根据深度比较代表性编码误差来搜索最小编码误差。编码单元610中的具有最小编码误差的深度和分区可被选为编码单元610的最终深度和分区模式。

图14示出用于描述根据各种实施例的编码单元710和变换单元720之间的关系的示图。

根据实施例的视频编码设备100或根据实施例的视频解码设备200针对每个最大编码单元根据尺寸小于或等于最大编码单元的编码单元来对图像进行编码或解码。可基于不大于相应编码单元的数据单元来选择在编码期间用于变换的变换单元的尺寸。

例如,在根据实施例的视频编码设备100或根据实施例的视频解码设备 200中,如果编码单元710的尺寸是64×64,则可通过使用尺寸为32×32的变换单元720来执行变换。

另外,可通过对小于64×64的尺寸为32×32、16×16、8×8和4×4 的每个变换单元执行变换,来对尺寸为64×64的编码单元710的数据进行编码,并且随后可选择针对原始图像具有最小编码误差的变换单元。

图15示出根据各种实施例的多条编码信息的示图。

根据实施例的视频编码设备100的输出单元130可对针对于深度相应的每个编码单元的分区模式信息800、预测模式信息810以及变换单元尺寸信息820进行编码和发送,作为划分信息。

分区模式信息800指示关于通过划分当前编码单元的预测单元而获得的分区的形状的信息,其中,所述分区是用于对当前编码单元进行预测编码的数据单元。例如,尺寸为2N×2N的当前编码单元CU_0可被划分为如下分区中的任何一个:尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808。这里,分区模式信息800 被设置为指示尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808中的一个。

预测模式信息810指示每个分区的预测模式。例如,预测模式信息810 可指示对由分区模式信息800指示的分区执行的预测编码的模式(即,帧内模式812、帧间模式814或跳过模式816)。

变换单元尺寸信息820指示当对当前编码单元执行变换时所基于的变换单元。例如,变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧间变换单元828。

视频解码设备200的图像数据和编码信息提取器220可根据每个更深编码单元来提取并使用用于解码的分区模式信息800、预测模式信息810和变换单元尺寸信息820。

图16是根据各种实施例的根据深度的更深编码单元的示图。

划分信息可用于指示深度的改变。划分信息指示当前深度的编码单元是否被划分为更低深度的编码单元。

用于对深度为0且尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括如下分区类型的分区:尺寸为2N_0×2N_0的分区模式912、尺寸为2N_0×N_0的分区模式914、尺寸为N_0×2N_0的分区模式916和尺寸为N_0×N_0的分区模式918。图23仅示出通过对预测单元910进行对称划分而获得的分区模式912至918,但是分区模式不限于此,预测单元910 的分区可包括不对称分区、具有预定形状的分区以及具有几何形状的分区。

根据每个分区对如下分区重复地执行预测编码:尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区以及尺寸为N_0×N_0的四个分区。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0 和N_0×N_0的分区执行帧内模式和帧间模式下的预测编码。仅对尺寸为 2N_0×2N_0的分区执行跳过模式下的预测编码。

如果在尺寸为2N_0×2N_0、2N_0×N_0、N_0×2N_0的分区模式912、914 和916之一中编码误差最小,则预测单元910可不被划分为更低深度。

如果在尺寸为N_0×N_0的分区模式918中编码误差最小,则在操作920,深度从0改变为1以划分分区模式918,并且对深度为2且尺寸为N_0×N_0 的编码单元930重复地执行编码以搜索最小编码误差。

用于对深度为1且尺寸为2N_1×2N_1(=N_0×N_0)的编码单元930进行预测编码的预测单元940可包括如下分区类型的分区:尺寸为2N_1×2N_1的分区模式942、尺寸为2N_1×N_1的分区模式944、尺寸为N_1×2N_1的分区模式946和尺寸为N_1×N_1的分区模式948。

如果在尺寸为N_1×N_1的分区模式948中编码误差最小,则在操作950,深度从1改变为2以划分分区类型948,并且对深度为2且尺寸为N_2×N_2 的编码单元960重复地执行编码以搜索最小编码误差。

当最大深度是d时,根据每个深度的划分操作可被执行直到深度变为d-1 时为止,并且划分信息可被编码直到深度是0至d-2之一时为止。换句话说,当执行编码直到在操作970中与深度d-2相应的编码单元被划分之后深度是 d-1时,用于对深度为d-1且尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括如下分区类型的分区:尺寸为 2N_(d-1)×2N_(d-1)的分区模式992、尺寸为2N_(d-1)×N_(d-1)的分区模式 994、尺寸为N_(d-1)×2N_(d-1)的分区模式996和尺寸为N_(d-1)×N_(d-1) 的分区模式998。

可对分区模式992至998中的如下分区重复地执行预测编码以搜索具有最小编码误差的分区模式:尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为 2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区。

即使在尺寸为N_(d-1)×N_(d-1)的分区模式998具有最小编码误差时,由于最大深度是d,因此深度为d-1的编码单元CU_(d-1)不再被划分到更低深度,并且构成当前最大编码单元900的编码单元的深度被确定为d-1且当前最大编码单元900的分区模式可被确定为N_(d-1)×N_(d-1)。另外,由于最大深度是d,因此深度为d-1的编码单元952的划分信息不被设置。

数据单元999可以是当前最大编码单元的“最小单元”。根据实施例的最小单元可以是通过将具有最低深度的最小编码单元980划分为4份而获得的正方形数据单元。通过重复地执行编码,根据实施例的视频编码设备100 可通过比较根据编码单元900的多个深度的多个编码误差来选择具有最小编码误差的深度以确定深度,并且将相应分区模式和预测模式设置为所述深度的编码模式。

这样,根据深度的最小编码误差在所有的深度1、……、d-1、d中被比较,并且具有最小编码误差的深度可被确定为深度。深度、预测单元的分区模式和预测模式可被编码并作为划分信息被发送。另外,由于编码单元从深度0被划分到所述深度,因此仅所述深度的划分信息被设置为“0”,除了所述深度之外的深度的划分信息被设置为“1”。

根据实施例的视频解码设备200的图像数据和编码信息提取器220可提取并使用关于编码单元900的编码深度以及编码单元900的预测单元的信息以对分区912进行解码。根据实施例的视频解码设备200可通过使用根据深度的划分信息来将划分信息是“0”的深度确定为深度,并且将相应深度的划分信息用于解码。

图17、图18和图19是用于描述根据各种实施例的编码单元、预测单元和变换单元之间的关系的示图。

编码单元1010是最大编码单元中的根据由视频编码设备100确定的深度的较深编码单元。预测单元1060是每个编码单元1010的预测单元的分区,变换单元1070是每个编码单元1010的变换单元。

当在编码单元1010中最大编码单元的深度是0时,编码单元1012和1054 的深度是1,编码单元1014、1016、1018、1028、1050和1052的深度是2,编码单元1020、1022、1024、1026、1030、1032和1048的深度是3,编码单元1040、1042、1044和1046的深度是4。

在预测单元1060中,通过划分编码器1010中的多个编码单元而获得一些编码器1014、1016、1022、1032、1048、1050、1052和1054。也就是说,编码器1014、1022、1050和1054中的分区模式的尺寸为2N×N,编码单元 1016、1048和1052中的分区模式的尺寸为N×2N,编码单元1032的分区模式的尺寸为N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。

以小于编码单元1052的数据单元对变换单元1070中的编码单元1052 的图像数据执行变换或逆反变换。另外,变换单元1070中的编码单元1014、 1016、1022、1032、1048、1050和1052在尺寸和形状上与预测单元1060中的编码单元1014、1016、1022、1032、1048、1050、1052和1054不同。也就是说,根据本实施例的视频编码设备100和根据本实施例的视频解码设备 200可对相同编码单元中的数据单元独立地执行帧内预测/运动预测/运动补偿/变换/逆变换信息。

因此,对最大编码单元的每个区域中的具有分层结构的每个编码单元递归地执行编码,以确定最佳编码单元,因此可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区模式的信息、关于预测模式的信息以及关于变换单元的尺寸的信息。下面的表2显示可由根据实施例的视频编码设备100和根据实施例的视频解码设备200设置的编码信息。

[表2]

根据实施例的视频编码设备100的输出单元130可输出关于具有树结构的编码单元的编码信息,并且根据实施例的视频解码设备200的图像数据和编码信息提取器220可从接收的比特流提取关于具有树结构的编码单元的编码信息。

划分信息指示当前编码单元是否被划分为更低深度的编码单元。如果当前深度d的划分信息是0,则当前编码单元不再被划分为更低深度的深度是深度,因此可针对深度定义关于分区模式、预测模式以及变换单元的尺寸的信息。如果当前编码单元根据划分信息被进一步划分,则对更低深度的四个划分编码单元独立地执行编码。

预测模式可以是帧内模式、帧间模式和跳过模式中的一个。可在所有分区模式中定义帧内模式和帧间模式,并且可仅在尺寸为2N×2N的分区模式中定义跳过模式。

关于分区模式的信息可指示通过对称地划分预测单元的高度或宽度而获得的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区模式、以及通过不对称地划分预测单元的高度或宽度而获得的尺寸为2N×nU、2N×nD、nL×2N和 nR×2N的不对称分区模式。可通过按1:3和3:1划分预测单元的高度来分别获得尺寸为2N×nU和2N×nD的不对称分区模式,可通过按1:3和3:1划分预测单元的宽度来分别获得尺寸为nL×2N和nR×2N的不对称分区模式。

变换单元的尺寸可被设置为帧内模式中的两种类型和帧间模式中的两种类型。换句话说,如果变换单元的划分信息是0,则变换单元的尺寸可以是作为当前编码单元的尺寸的2N×2N。如果变换单元的划分信息是1,则可通过划分当前编码单元来获得变换单元。另外,如果尺寸为2N×2N的当前编码单元的分区模式是对称分区模式,则变换单元的尺寸可以是N×N,如果当前编码单元的分区模式是不对称分区模式,则变换单元的尺寸可以是N/2×N/2。

根据实施例的关于具有树结构的编码单元的编码信息可被分配给从以下单元中选择的至少一个:与深度相应的编码单元、预测单元和最小单元。与深度相应的编码单元可包括从以下单元中选择的至少一个:包含相同编码信息的预测单元和最小单元。

因此,通过对邻近数据单元的编码信息进行比较,确定邻近数据单元是否被包括在与最终深度相应的相同编码单元中。另外,通过使用数据单元的编码信息来确定与最终深度相应的相应编码单元,因此最大编码单元中的最终深度的分布可被确定。

因此,如果基于邻近数据单元的编码信息预测当前编码单元,则与当前编码单元邻近的更深编码单元中的数据单元的编码信息可被直接参考和使用。

在另一实施例中,如果基于邻近数据单元的编码信息来预测当前编码单元,则使用数据单元的编码信息来搜索与当前编码单元邻近的数据单元,并且搜索的邻近编码单元可被参考以用于预测当前编码单元。

图20示出用于描述根据表2的编码模式信息的编码单元、预测单元、和变换单元之间的关系的示图。

最大编码单元1300包括多个深度的编码单元1302、1304、1306、1312、 1314、1316和1318。这里,由于编码单元1318是深度的编码单元,因此划分信息可被设置为0。关于尺寸为2N×2N的编码单元1318的分区模式的信息可被设置为包括以下项的分区模式之一:2N×2N 1322、2N×N 1324、N×2N 1326、N×N 1328、2N×nU 1332、2N×nD 1334、nL×2N 1336和nR×2N 1338。

变换单元划分信息(TU尺寸标记)是一种变换索引。与变换索引相应的变换单元的尺寸可根据预测单元类型或编码单元的分区模式而改变。

例如,当关于分区模式的信息被设置为对称分区模式2N×2N 1322,2N ×N 1324,N×2N 1326,和N×N 1328之一时,如果变换单元划分信息为0,则设置尺寸为2N×2N的变换单元1342,如果变换单元划分信息为1,则设置尺寸为N×N的变换单元1344。

当关于分区模式的信息被设置为不对称分区模式2N×nU 1332、2N×nD 1334、nL×2N 1336和nR×2N 1338之一时,如果变换单元划分信息为0,则设置尺寸为2N×2N的变换单元1352,如果变换单元划分信息为1,则可设置尺寸为N/2×N/2的变换单元1354。

如以上参照图19所述,变换单元划分信息(TU尺寸标记)是具有值0 或1的标记,但变换单元划分信息不限于具有1比特的标记,根据设置,在变换单元划分信息以0、1、2、3……等的方式增加的同时,变换单元可被分层划分。变换单元划分信息(TU尺寸标记)可以是变换索引的示例。

在这种情况下,根据实施例,实际使用的变换单元的尺寸可通过使用变换单元划分信息连同变换单元的最大尺寸和变换单元的最小尺寸来表示。根据实施例的视频编码设备100能够对最大变换单元尺寸信息、最小变换单元尺寸信息和最大变换单元划分信息进行编码。对最大变换单元尺寸信息、最小变换单元尺寸信息和最大变换单元划分信息进行编码的结果可被插入SPS。根据实施例的视频解码设备200可通过使用最大变换单元尺寸信息、最小变换单元尺寸信息和最大变换单元划分信息来对视频进行解码。

例如,(a)如果当前编码单元的尺寸是64×64并且最大变换单元尺寸是 32×32,(a-1)则当TU尺寸标记为0时,变换单元的尺寸可以是32×32;(a-2) 当TU尺寸标记为1时,变换单元的尺寸可以是16×16;(a-3)当TU尺寸标记为2时,变换单元的尺寸可以是8×8。

作为另一示例,(b)如果当前编码单元的尺寸是32×32并且最小变换单元尺寸是32×32,(b-1)则当TU尺寸标记为0时,变换单元的尺寸可以是 32×32。这里,由于变换单元的尺寸不能够小于32×32,因此TU尺寸标记不可被设置为除0以外的值。

作为另一示例,(c)如果当前编码单元的尺寸是64×64并且最大TU尺寸标记为1,则TU尺寸标记可以是0或1。这里,TU尺寸标记不可被设置为除0或1以外的值。

因此,如果定义最大TU尺寸标记为“MaxTransformSizeIndex”,最小变换单元尺寸为“MinTransformSize”,并且在TU尺寸标记为0时的变换单元尺寸为“RootTuSize”,则可通过等式(1)来定义在当前编码单元中可确定的当前最小变换单元尺寸“CurrMinTuSize”:

CurrMinTuSize=max(MinTransformSize,RootTuSize/(2^MaxTransformSizeIndex))…… (1)

与在当前编码单元中可确定的当前最小变换单元尺寸“CurrMinTuSize”相比,当TU尺寸标记为0时的变换单元尺寸“RootTuSize”可指示可在系统中选择的最大变换单元尺寸。也就是说,在等式(1)中,“RootTuSize/(2^MaxTransformSizeIndex)”表示在当TU尺寸标记为0 时的变换单元尺寸“RootTuSize”被划分与最大TU尺寸标记相应的次数时的变换单元尺寸,并且“MinTransformSize”表示最小变换尺寸。因此,“RootTuSize/(2^MaxTransformSizeIndex)”和“MinTransformSize”之中的较小值可以是可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。

根据实施例,最大变换单元尺寸RootTuSize可根据预测模式的类型而改变。

例如,如果当前预测模式是帧间模式,则可通过使用以下的等式(2)来确定“RootTuSize”。在等式(2)中,“MaxTransformSize”表示最大变换单元尺寸,“PUSize”表示当前预测单元尺寸。

RootTuSize=min(MaxTransformSize,PUSize).........(2)

也就是说,如果当前预测模式是帧间模式,则当TU尺寸标记为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前预测单元尺寸之中的较小值。

如果当前分区单元的预测模式是帧内模式,则可通过使用以下的等式(3) 来确定“RootTuSize”。在等式(3)中,“PartitionSize”表示当前分区单元的尺寸。

RootTuSize=min(MaxTransformSize,PartitionSize)……(3)

也就是说,如果当前预测模式是帧内模式,则当TU尺寸标记为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前分区单元的尺寸之中的较小的值。

然而,根据分区单元中的预测模式的类型而改变的当前最大变换单元尺寸“RootTuSize”仅仅是实施例,用于确定当前最大变换单元尺寸的因素不限于此。

根据以上参照图8至图20描述的基于树结构的编码单元的视频编码方法,可在树结构的每个编码单元中对空间域的图像数据进行编码,并以基于根据树结构的编码单元根据视频解码方法对每个最大编码单元执行编码的方式重建空间域的图像数据,使得由画面和画面序列形成的视频可被重建。重建的视频可被再现设备再现,可被存储在存储介质中或者可经由网络被发送。

所述一个或更多个实施例可被编写为计算机程序并可被实现在使用计算机可读记录介质执行程序的通用数字计算机中。计算机可读记录介质的示例包括:磁存储介质(例如,ROM、软盘、硬盘等)和光学记录介质(例如,CD-ROM 或DVD)等。

为了便于描述,以上参照图1a至图20描述的层间视频编码方法和/或视频编码方法方法被统称为“本发明的视频编码方法”。此外,意思参照图1a 至图20描述的层间视频解码方法和/或视频解码方法被统称为“本发明的视频解码方法”。

此外,以上参照图1a至图20描述的包括层间视频编码设备10、视频编码设备100或图像编码器400的视频编码设备被统称为“本发明的视频编码设备”。此外,参照图1a至图20描述的包括层间视频解码设备20、视频解码设备200或图像解码器500的视频解码设备被统称为“本发明的视频解码设备”。

现在将详细描述根据实施例的存储程序的计算可读记录介质(例如,盘 26000)。

图21示出根据各种实施例的其中存储有程序的盘26000的物理结构的示图。作为存储介质的盘26000可以是硬驱动盘、致密盘、只读存储器(CD-ROM) 盘、蓝光盘或数字多功能盘(DVD)。盘26000包括多个同心磁道Tr,其中,每个同心磁道沿盘26000的圆周方向被划分为特定数量的扇区Se。在盘26000 的特定区域中,执行如上所述的量化后的参数确定方法、视频编码方法、视频解码方法的程序可被分配并被存储。

现在将参照图22描述使用存储介质实现的计算机系统,其中,所述存储介质存储用于执行如上所述的视频编码方法和视频解码方法的程序。

图22示出通过用于使用盘26000来记录和读取程序的盘驱动器26800 的示图。计算机系统26700可经由盘驱动器26800将执行从根据实施例的视频编码方法和视频解码方法中选择的至少一个方法的程序存储在盘26000 中。为了由计算机系统26700运行存储在盘26000中的程序,可通过使用盘驱动器26800从盘26000读取所述程序并将所述程序发送到计算机系统 26700。

执行从根据实施例的视频编码方法和视频解码方法中选择的至少一个的程序可不仅被存储在图21和图22中示出的盘26000中,还可被存储在存储卡、ROM磁带或固态驱动器(SSD)中。

以下将描述应用了上述视频编码方法和视频解码方法的系统。

图23示出用于提供内容分发服务的内容提供系统11000的整体结构的示图。通信系统的服务区域被划分为预定尺寸的小区,并且无线基本基站11700、 11800、11900和12000被分别安装在这些小区中。

内容提供系统11000包括多个独立装置。例如,所述多个独立装置(诸如计算机12100、个人数字助理(PDA)12200、视频摄像机12300和移动电话12500)经由互联网服务提供器11200、通信网络11400以及无线基本基站 11700、11800、11900和12000被连接到互联网11100。

然而,内容提供系统11000不限于图23中所示,装置可被选择性地连接到内容提供系统11000。多个独立装置可被直接连接到通信网络11400,而不是经由无线基本基站11700、11800、11900和12000被连接到通信网络11400。

视频摄像机12300是能够捕获视频图像的成像装置,例如,数字视频摄像机。移动电话12500可采用各种协议(例如,个人数字通信(PDC)、码分多址(CDMA)、宽带码分多址(W-CDMA)、全球移动通信系统(GSM)和个人手持电话系统(PHS))中的至少一种通信方法。

视频摄像机12300可经由无线基本基站11900和通信网络11400被连接到流传输服务器11300。流传输服务器11300允许从用户接收到的内容经由视频摄像机12300通过实时广播被流传输。可使用视频摄像机12300或流传输服务器11300对从视频摄像机12300接收到的内容进行编码。视频摄像机 12300捕获的视频数据可经由计算机12100被发送到流传输服务器11300。

由摄像机12600捕获的视频数据还可经由计算机12100被发送到流传输服务器11300。相机12600是类似于数字相机的能够捕获静止图像和视频图像两者的成像装置。可使用相机12600或计算机12100对由相机12600捕获的视频数据进行编码。对视频执行编码和解码的软件可被存储在可由计算机 12100访问的计算机可读记录介质中,例如,CD-ROM盘、软盘、硬盘驱动器、 SSD或存储卡。

如果视频数据被内置于移动电话12500中的相机捕获,则可从移动电话 12500接收视频数据。

视频数据也可被安装在视频摄像机12300、移动电话12500或相机12600 中的大规模集成电路(LSI)系统编码。

内容提供系统11000可对用户使用视频摄像机12300、相机12600、移动电话12500或另一成像装置记录的内容数据(例如,在音乐会中记录的内容) 进行编码,并将经过编码的内容数据发送到流传输服务器11300。流传输服务器11300可按流传输内容的类型将经过编码的内容数据发送到请求所述内容数据的其他客户机。

客户机是能够对所述经过编码的数据进行解码的装置,例如,计算机 12100、PDA 12200、视频摄像机12300或移动电话12500。因此,内容提供系统11000允许客户机接收并再现经过编码的内容数据。此外,内容提供系统11000允许客户机接收经过编码的内容数据,实时解码和再现经过编码的内容数据,从而实现个人广播。

包括在内容提供系统11000中的多个独立装置的编码和解码操作可与根据实施例的视频编码设备和视频解码设备的编码和解码操作类似。

参照图24和图25,现在将详细地描述根据实施例的包括在内容提供系统11000中的移动电话12500。

图24示出根据各种实施例的应用了视频编码方法和视频解码方法的移动电话12500的外部结构。移动电话12500可以是智能电话,其中,所述智能电话的功能不受限制并且其大部分功能可被改变或扩展。

移动电话12500包括内置天线12510,并且包括显示屏12520(例如,液晶显示器(LCD)或有机发光二极管(OLED)屏幕),其中,可经由所述内置天线12510与无线基本基站12000交换射频(RF)信号,并且所述显示屏12520 用于显示由相机12530捕获的图像或经由天线12510接收并被解码的图像。移动电话12500包括操作面板12540,其中,所述操作面板12540包括控制按钮和触摸面板。如果显示屏12520是触摸屏,则操作面板12540还包括显示屏12520的触摸感测面板。移动电话12500包括用于输出语音和声音的扬声器12580或另一类型的声音输出单元,并且包括用于输入语音和声音的麦克风12550或另一类型的声音输入单元。移动电话12500还包括相机12530 (诸如电荷耦合器件(CCD)相机)以捕获视频和静止图像。移动电话12500 还可包括存储介质12570和插槽12560,其中,所述存储介质12570用于存储经由电子邮件接收到的或根据各种方式获得的经过编码/解码的数据(例如,由相机12530捕获的视频或静止图像),存储介质12570经由所述插槽 12560被加载到移动电话12500。存储介质12570可以是包括在塑料壳中的闪存(例如,安全数字(SD)卡)或电可擦除可编程只读存储器(EEPROM)。

图25示出移动电话12500的内部结构。为了系统地控制移动电话12500 的包括显示屏12520和操作面板12540的部件,供电电路12700、操作输入控制器12640、图像编码器12720、相机接口12630、LCD控制器12620、图像解码器12690、复用器/解复用器12680、记录/读取单元12670、调制/解调单元12600和声音处理器12650经由同步总线12730被连接到中央控制器 12710。

如果用户操作电源按钮并从“电源关”状态设置为“电源开”状态,则供电电路12700从电池组对移动电话12500的所有部件供电,从而将移动电话12500设置处于操作模式。

中央控制器12710包括中央处理单元(CPU)、ROM和RAM。

在移动电话12500将通信数据发送到外部的同时,在中央控制器12710 的控制下,在移动电话12500中产生了数字信号。例如,声音处理器12650 可产生数字声音信号,图像编码器12720可产生数字图像信号,消息的文本数据可经由操作面板12540和操作输入控制器12640来产生。当在中央控制器12710的控制下数字信号被发送到调制/解调单元12660时,调制/解调单元12660对数字信号的频带进行调制,通信电路12610对频带被调制的数字声音信号执行数模转换(DAC)和频率变换。从通信电路12610输出的传输信号可经由天线12510被发送到语音通信基本基站或无线基本基站12000。

例如,当移动电话12500处于对话模式时,在中央控制器12710的控制下,经由麦克风12550获得的声音信号被声音处理器12650变换为数字声音信号。数字声音信号可经由调制/解调单元12660和通信电路12610被变换为变换信号,并可经由天线12510被发送。

当文本消息(例如,电子邮件)在数据通信模式期间被发送时,文本消息的文本数据经由操作面板12540被输入并经由操作输入控制器12640被发送到中央控制器12610。在中央控制器12610的控制下,文本数据经由调制/ 解调单元12660和通信电路12610被变换为传输信号,并经由天线12510被发送到无线基本基站12000。

为了在数据通信模式期间发送图像数据,由相机12530捕获的图像数据经由相机接口12630被提供给图像编码器12720。捕获的图像数据可经由相机接口12630和LCD控制器12620被直接显示在显示屏12520上。

图像编码器12720的结构可与上述视频编码设备100的结构对应。图像编码器12720可根据前述视频编码方法,将从相机12530接收到的图像数据变换为经过压缩和编码的图像数据,然后将经过编码的图像数据输出到复用器/解复用器12680。在相机12530的记录操作期间,由移动电话12500的麦克风12550获得的声音信号可经由声音处理器12650被变换为数字声音数据,并且所述数字声音数据可被发送到复用器/解复用器12680。

复用器/解复用器12680对从图像编码器12720接收到的经过编码的图像数据和从声音处理器12650接收到的声音数据进行复用。对数据进行复用的结果可经由调制/解调单元12660和通信电路12610被变换为传输信号,并且随后可经由天线12510被发送。

在移动电话12500从外部接收通信数据的同时,对经由天线12510接收的信号执行频率恢复和ADC,以将该信号变换为数字信号。调制/解调单元 12660对数字信号的频带进行调制。频带经过调制的数字信号根据数字信号的类型被发送到视频解码器12960、声音处理器12650或LCD控制器12620。

在对话模式期间,移动电话12500放大经由天线12510接收到的信号,并通过对放大的信号执行频率变换和ADC来获得数字声音信号。在中央控制器12710的控制下,接收到的数字声音信号经由调制/解调单元12660和声音处理器12650被变换为模拟声音信号,并且模拟声音信号经由扬声器12580 被输出。

当在数据通信模式期间时,在互联网网站存取的视频文件的数据被接收,经由天线12510从无线基本基站12000接收的信号经由调制/解调单元12660 作为复用数据被输出,并且复用数据被发送到复用器/解复用器12680。

为了对经由天线12510接收的复用数据进行解码,复用器/解复用器 12680将复用数据解复用为经过编码的视频数据流和经过编码的音频数据流。经由同步总线12730,经过编码的视频数据流和经过编码的音频数据流被分别提供给视频解码器12690和声音处理器12650。

图像解码器12690的结构可与上述视频解码设备的结构相应。通过使用前述根据实施例的视频解码方法,图像解码器12690可对经过编码的视频数据进行解码以获得重建的视频数据并经由LCD控制器12620将恢复的视频数据提供给显示屏12520。

因此,在互联网网站存取的视频文件的数据可被显示在显示屏12520上。同时,声音处理器12650可将音频数据变换为模拟声音信号,并将模拟声音信号提供给扬声器12580。因此,在互联网网站存取的视频文件中所包含的音频数据也可经由扬声器12580被再现。

移动电话12500或其他类型的通信终端可以是包括根据实施例的视频编码设备和视频解码设备两者的收发终端,可以是仅包括所述视频编码设备的发送终端,或者可以是仅包括所述视频解码设备的接收终端。

根据实施例的通信系统不限于以上参照图24所描述的通信系统。例如,图26示出根据各种实施例的采用通信系统的数字广播系统。图26的数字广播系统可通过使用根据实施例的视频编码设备和视频解码设备接收经由卫星或地面网络发送的数字广播。

更具体地,广播站12890通过使用无线电波将视频数据流发送到通信卫星或广播卫星12900。广播卫星12900发送广播信号,并且所述广播信号经由家用天线12860被发送到卫星广播接收机。在每家,经过编码的视频流可被TV接收机12810、机顶盒12870或另一装置解码和再现。

当根据实施例的视频解码设备实现在再现设备12830中时,再现设备 12830可对记录在存储介质12820(诸如盘或存储卡)上的经过编码的视频流进行解析和解码,以重建数字信号。因此,重建的视频信号可被再现在例如监视器12840上。

在连接到用于卫星/地面广播的天线12860或用于接收有线电视(TV)广播的有线天线12850的机顶盒12870中,根据实施例的视频解码设备可被安装。从机顶盒12870输出的数据也可被再现在TV监视器12880上。

作为另一示例,根据实施例的视频解码设备可被安装在TV接收器12810 而非机顶盒12870中。

具有合适天线12910的汽车12920可接收从卫星12900或无线基本基站 11700发送的信号。解码的视频可被再现在安装于汽车12920中的汽车导航系统12930的显示屏上。

视频信号可被根据实施例的视频编码设备编码,并且随后可被存储在存储介质中。更具体地,图像信号可被DVD录像机存储在DVD盘12960中,或者可被硬盘录像机12950存储在硬盘中。作为另一示例,视频信号可被存储在SD卡12970中。如果硬盘录像机12950包括根据实施例的视频解码设备,则记录在DVD盘12960、SD卡12970或另一存储介质上的视频信号可被再现在TV监视器12880上。

汽车导航系统12930可不包括图25的相机12530、相机接口12630和图像编码器12720。例如,计算机12100和TV接收器12810可不包括在图25 的相机12530、相机接口12630和图像编码器12720。

图27是示出根据各种实施例的使用视频编码设备和视频解码设备的云计算系统的网络结构的视图。

本发明的云计算系统可包括云计算服务器14000、用户数据库(DB) 14100、多个计算资源14200和用户终端。

云计算系统响应于来自用户终端的请求,经由数据通信网络(例如,互联网)提供多个计算资源14200的按需外包服务。在云计算环境下,服务提供商通过使用虚拟化技术,通过将位于物理上不同的位置的数据中心的计算资源进行组合来向用户提供期望的服务。服务用户不必将计算资源(例如,应用、存储器、操作系统(OS)和安保软件)安装在他/她自己的终端上来使用它们,而是可在期望的时间点,在通过虚拟化技术产生的虚拟空间中的服务之中选择和使用期望的服务。

指定服务用户的用户终端经由包括互联网的数据通信网络和移动电信网络被连接到云计算服务器14000。可从云计算服务器14000向用户终端提供云计算服务,具体地,视频再现服务。用户终端可以是能够连接到互联网的各种类型的电子装置,例如,台式PC 14300、智能TV 14400、智能电话14500、笔记本计算机14600、便携式多媒体播放器(PMP)14700、平板PC 14800等。

云计算服务器14000可将云网络中分布的多个计算资源14200进行组合,并将组合的结果提供给用户终端。所述多个计算资源14200可包括各种数据服务,并且可包括从用户终端上传的数据。如上所述,云计算服务器14000 可根据虚拟化技术对分布在不同区域的视频数据库进行组合来向用户提供期望的服务。

关于已订阅云计算服务的用户的用户信息被存储在用户DB 14100中。所述用户信息可包括用户的登录信息、地址、姓名和个人信用信息。所述用户信息还可包括视频的索引。这里,所述索引可包括已经被再现的视频的列表、正被再现的视频的列表、曾被再现的视频的暂停点等。

存储在用户DB 14100中的关于视频的信息可在用户装置之间被共享。例如,当响应于来自笔记本计算机14600的请求,视频服务被提供给笔记本计算机14600时,视频服务的再现历史被存储在用户DB 14100中。当从智能电话14500接收到再现该视频服务的请求时,云计算服务器14000基于用户DB 14100搜索并再现该视频服务。当智能电话14500从云计算服务器14000接收到视频数据流时,通过对视频数据流进行解码来再现视频的处理与以上参照图24描述的智能电话12500的操作类似。

云计算服务器14000可参考存储在用户DB 14100中的期望的视频服务的再现历史。例如,云计算服务器14000从用户终端接收再现存储在用户DB 14100中的视频的请求。如果视频正被再现,则由云计算服务器14000执行的对该视频进行流传输的方法可根据来自用户终端的请求(即,根据视频是将从视频的开始处开始再现还是从视频的暂停点开始再现)而变化。例如,如果用户终端请求从视频的开始处开始再现视频,则云计算服务器14000将从视频的第一帧开始的视频的流传输数据发送到用户终端。如果用户终端请求从视频的暂停点开始再现视频,则云计算服务器14000将视频的从与暂停点相应的帧开始的流传输数据发送到用户终端。

在这种情况下,用户终端可包括如以上参照图1a至图20所描述的视频解码设备。在另一示例中,用户终端可包括如以上参照图1a至图20所描述的视频编码设备。可选择地,用户终端可包括如以上参照图1a至图20所描述的视频解码设备和视频编码设备。

以上已参照图21至图27描述了以上参照图1a至图20所描述的视频编码方法、视频解码方法、视频编码设备和视频解码设备的各种应用。然而,将以上参照图1a至图20描述的视频编码方法和视频解码方法存储在存储介质中的方法或在装置中实现以上参照图1a至图20描述的视频编码设备和视频解码设备的方法不限于以上参照图21至图27所描述的实施例。

尽管具体显示和描述了各种实施例,但是本领域的普通技术人员将理解,在不脱离权利要求的精神和范围的情况下,可以在此进行形式和细节上的各种改变。公开的实施例应被解释为仅仅是描述性意义,而不是为了限制的目的。因此,本说明书的范围不由具体描述而是由权利要求定义,范围内的所有不同将被解释为包括在本说明书的范围中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1