图像编码和/或解码装置及方法与流程

文档序号:14943026发布日期:2018-07-13 21:33

技术领域

本发明涉及将图像编码的图像编码方法及将图像解码的图像解码方法等。



背景技术:

当前的标准的影像编码算法的大半基于混合(hybrid)影像编码。在混合影像编码方法中,为了达到希望的压缩增益,使用一些不同的可逆压缩方式和不可逆压缩方式。混合影像编码与ISO/IEC标准规格(MPEG-1、MPEG-2及MPEG-4等MPEG-X标准规格)同样,是ITU-T标准规格(H.261及H.263等H.26x标准规格)的基础。

最新的影像编码标准规格被称作H.264/MPEG-4Advanced Video Coding(AVC)。该规格由JVT(JointCoVedeoTeam)和ITU-T及ISO/IEC MPEG小组的协同组标准化。

此外,以高分辨率的影像编码的效率改善为目的,由JCT-VC(Joint Collaborative Team on Video Coding)研究了称作HEVC(High-Efficiency Video Coding)的影像编码标准规格。

现有技术文献

非专利文献

非专利文献1:C.Gordon等,“Wavefront Parallel Processing for HEVC Encoding and Decoding”,JCTVC-F274-v2,from the Meeting in Torino,July 2011,因特网<URL:http://phenix.int-evry.fr>

非专利文献2:A.Fuldseth等,“Tiles”,JCTVC-F355-v1,from the Meeting in Torino,July 2011,因特网<URL:http://phenix.int-evry.fr>

非专利文献3:JCTVC-J1003_d7,“High efficiency video coding(HEVC)textspecification draft 8”,July2012,第73页“dependent_slice_flag”,因特网<URL:http://phenix.IT-sudparis.eu/jct/>



技术实现要素:

发明要解决的问题

但是,在有关以往技术的图像编码方法及图像解码(解码化)方法等中,有处理效率不充分的问题。

所以,本发明提供一种能够提高处理效率的图像编码方法及图像解码方法等。

用于解决问题的手段

有关本发明的一形态的图像编码方法,是将图片分割为多个切片来执行编码处理的图像编码方法,包括发送以下比特流的步骤,该比特流包含:依赖切片有效化标志,表示依赖于针对处理对象切片以外的其他切片的上述编码处理的结果而被进行上述编码处理的依赖切片是否包含在上述图片中;切片地址,表示上述处理对象切片的开始位置;以及依赖性指示符,表示上述处理对象切片是否为上述依赖切片;上述依赖切片有效化标志配置在上述多个切片共同的参数集内;上述切片地址配置在上述处理对象切片的切片头内;上述依赖性指示符在上述切片头内配置在上述切片地址之前且识别上述参数集的句法元素之后。

此外,有关本发明的一形态的图像解码方法,是将图片分割为多个切片来执行解码处理的图像解码方法,包括从编码后的比特流中提取依赖切片有效化标志、切片地址和依赖性指示符的步骤,上述依赖切片有效化标志表示依赖于针对处理对象切片以外的其他切片的上述解码处理的结果而被进行上述解码处理的依赖切片是否包含在上述图片中,上述切片地址表示上述处理对象切片的开始位置,上述依赖性指示符表示上述处理对象切片是否为上述依赖切片;上述依赖切片有效化标志配置在上述多个切片共同的参数集内;上述切片地址配置在上述处理对象切片的切片头内;上述依赖性指示符在上述切片头内配置在上述切片地址之前且识别上述参数集的句法元素之后。

另外,这些包括性或具体的形态也可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等的记录介质实现,也可以通过系统、方法、集成电路、计算机程序及记录介质的任意的组合来实现。

发明效果

本发明的图像编码方法及图像解码方法能够提高编码效率。

附图说明

图1是表示依据HEVC的编码器的一例的框图。

图2是表示依据HEVC的解码器的一例的框图。

图3是表示波形并行处理(WPP)中的图像的结构的一例的图。

图4是表示波形并行处理中的通常切片与依赖切片的关系的一例的图。

图5是表示包头的一例的图。

图6是表示熵切片或依赖切片的切片头的一例的图。

图7是表示使用通常切片的情况下的依赖性和其信号传递的图。

图8是表示使用依赖切片及熵切片的情况下的依赖性和其信号传递的概略图。

图9A是表示HM8.0中的层间的依赖性、时间的依赖性及切片间的依赖性的句法的例子的图。

图9B是用来说明HM8.0中的为了解析层间的依赖性而执行的解析步骤的图。

图9C是用来说明HM8.0中的为了解析层间的依赖性而执行的解析步骤的图。

图10是表示dependent_slice_flag的位置的一例的图。

图11是表示将图10中的关于dependent_slice_enabled_flag的解析条件删除的情况下的句法的例子的图。

图12是表示使dependent_slice_flag移动到first_slice_in_pic_flag之前的情况下的句法的例子的图。

图13是表示使dependent_slice_flag移动到slice_address之前的情况下的句法的例子的图。

图14是表示使dependent_slice_flag移动到NAL头内的情况下的句法的例子的图。

图15是表示对NAL单元类型追加了新的类型的情况下的依赖切片的切片头的句法的例子的图。

图16是表示假定针对特定的NAL单元类型将dependent_slice_flag设定为1的情况下的切片头及NAL单元头的句法的例子的图。

图17是实现内容分发服务的内容供给系统的整体结构图。

图18是数字广播用系统的整体结构图。

图19是表示电视机的结构例的模框图。

图20是表示对作为光盘的记录介质进行信息的读写的信息再现/记录部的结构例的模框图。

图21是表示作为光盘的记录介质的构造例的图。

图22A是表示便携电话的一例的图。

图22B是表示便携电话的结构例的模框图。

图23是表示复用数据的结构的图。

图24是示意地表示各流在复用数据中怎样被复用的图。

图25是更详细地表示在PES包序列中视频流怎样被保存的图。

图26是表示复用数据的TS包和源包的构造的图。

图27是表示PMT的数据结构的图。

图28是表示复用数据信息的内部结构的图。

图29是表示流属性信息的内部结构的图。

图30是表示识别影像数据的步骤的图。

图31是表示实现各实施方式的运动图像编码方法及运动图像解码方法的集成电路的结构例的模框图。

图32是表示切换驱动频率的结构的图。

图33是表示识别影像数据、切换驱动频率的步骤的图。

图34是表示将影像数据的标准与驱动频率建立了对应的查找表的一例的图。

图35A是表示将信号处理部的模块共用的结构的一例的图。

图35B是表示将信号处理部的模块共用的结构的另一例的图。

具体实施方式

(本发明的基础认识)

本发明人关于在“背景技术”栏中记载的图像编码方法及图像解码方法,发现会发生以下的问题。

首先,对HEVC的图像编码装置及图像解码装置进行说明。

向图像编码装置输入的影像信号包括分别被称作帧(图片)的多个图像。各帧包括被配置为二维矩阵状的多个像素。在基于混合影像编码的上述全部标准规格中,各个影像帧被分割为分别包括多个像素的多个块。该块的尺寸例如根据图像的内容而变更。此外,可以按每个块使用不同的编码方法。例如在HEVC中,该块的最大尺寸是64×64像素。将该最大尺寸称作最大编码单位(LCU)。LCU可以递归性地被分割为4个编码单位(CU)。

在H.264/MPEG-4AVC中,以宏块(通常是16×16像素的块)单位进行编码。该宏块有时也被分割为子块。编码方法中包含的编码步骤及/或解码方法中包含的解码步骤以子块单位执行。

[1-1.混合影像编码]

以下,对混合编码简单地说明。

典型地,在混合影像编码的编码步骤中,包括空间性预测(空间预测)及/或时间性预测(时间预测)。即,使用在空间上相邻的块或在时间上相邻的块,即、使用已编码影像帧预测各编码对象块。接着,计算作为编码对象块与预测结果的差分的残差块。接着,将残差块从空间(像素)域变换到频域。该变换的目的是降低输入块的相关性。

接着,将通过变换得到的变换系数进行量化。该量化是不可逆压缩。此外,将得到的量化系数通过熵编码进行可逆压缩。此外,将为了重构编码影像信号而所需的辅助信息编码,并与编码影像信号一起输出。该信息例如是有关空间性预测、时间性预测或/及量化的信息。

[1-2.图像编码装置的结构]

图1是表示依据H.264/MPEG-4AVC及/或HEVC的图像编码装置(编码器100)的一例的图。

如图1所示,编码器100具备减法器105、变换部110、量化部120、逆变换部130、加法器140、解块滤波器150、自适应循环滤波器160、帧存储器170、预测部180和熵编码部190。

预测部180通过时间性预测或空间性预测,导出预测信号s2。在预测部180中使用的预测的类型可以按每个帧或按每个块而不同。时间性预测被称作帧间预测,空间性预测被称作帧内预测。此外,将使用基于时间性预测的预测信号s2的编码称作帧间编码,将使用基于空间性预测的预测信号s2的编码称作帧内编码。在使用时间性预测的预测信号的导出中,使用保存在存储器中的已编码的图像。在使用空间性预测的预测信号的导出中,使用保存在存储器中的已编码或解码的相邻块的边界像素值。帧内预测的预测方向的数量根据编码单位(CU,CodingUnit)的尺寸来决定。另外,关于预测的详细情况在后面叙述。

减法器105导出输入图像的编码对象块(=输入信号s1)与对应的预测块(=预测信号s2)的差分(=预测误差信号e)。该差分用于编码对象块的预测。另外,预测误差信号e还称作预测残差信号。

变换部110将预测误差信号e变换为系数。一般而言,在变换部110中,使用2维离散余弦变换(DCT)或其整数版等的正交变换。通过正交变换,能够将输入信号s1(编码前的影像信号)的相关有效率地削减。此外,一般对画质而言低频成分比高频成分更重要,所以与高频成分相比,低频成分中使用更多的位(bit)。

量化部120对系数进行量化而导出量化系数。

熵编码部190对量化系数进行熵编码。通过熵编码,将量化系数可逆地压缩。进而,通过进行熵编码,能够将向存储器保存的数据的数据量及发送的数据(比特流)的数据量进一步削减。熵编码主要通过采用使用可变长的代码字的编码处理来实现。该代码字的长度基于发生概率来选择。

熵编码部190将2维排列的量化系数变换为1维排列。熵编码部190典型地通过所谓锯齿形(ZigZag)扫描进行变换。在锯齿形扫描中,从处于2维排列的左上角的DC系数到处于右下角的AC系数,以规定的顺序将2维排列进行扫描。通常,在2维排列的量化系数中,能量集中在左上部分。一般而言,越靠左上侧的系数,越是低频成分的系数,越靠右下侧的系数,越是高频成分的系数。因此,如果进行锯齿形扫描,则最后成为1或多个零连续的1维排列。由此,作为实际的熵编码的一部分或作为其前处理,能够进行使用游程长度(run length)编码的高效率的编码。

在H.264/MPEG-4AVC及HEVC中,使用多种熵编码。在句法元素中也有以固定长度被编码的元素,但几乎全部的句法元素被可变长编码。特别是,在句法中的预测误差信号(预测残差信号)的编码中,使用上下文自适应可变长编码(CABAC)。在其他句法元素的编码中,一般使用与上下文自适应可变长编码不同的各种整数编码,但也可以使用上下文自适应算术编码。

通过可变长编码,能够将已编码比特流可逆地压缩。但是,由于代码字是可变长,所以必须将代码字连续地解码。即,不将熵编码重新启动(初始化)或不将最初解码的代码字(开始点)的位置单独表示就不能在将先行的代码字编码或解码之前将代码字编码或解码。

通过基于规定的概率模型的算术编码,将位串编码为1个代码字。规定的概率模型根据CABAC的情况下的影像序列的内容来决定。由此,编码对象比特流的长度越长,越高效地进行算术编码及CABAC。即,适用于位串的CABAC可以说在较大的块中更有效。在各序列的开头,重新启动CABAC。即,在各影像序列的开头,将概率模型用既定值或规定值初始化。

熵编码部190将包括编码后的量化系数(编码后的影像信号)和编码后的辅助信息的比特流向解码器侧发送。

H.264/MPEG-4、H.264/MPEG-4AVC及HEVC具有视频编码层(VCL)和网络抽象层(NAL)这两个功能层。如上述那样,VCL提供编码功能。NAL根据使用通道的发送或向存储装置的保存等的用途,以被称作NAL单元的标准单位将信息(信息元素)封装。在通过NAL封装的信息元素中,例如包括(1)编码后的预测误差信号(压缩影像数据)及(2)预测类型、量化参数及运动矢量等的影像信号的解码所需的辅助信息(关联信息)。辅助信息中包括封装了与影像序列整体关联的参数集等追加数据的non-VCL单元及提供能够用于解码效率的改善的追加信息的附加扩展信息(SEI)。

non-VCL单元中例如包括参数集。所谓参数集,是与一定的影像序列的编码及解码有关的多个参数的集合。参数集中例如有包括与图片序列整体的编码及解码关联的参数的序列参数集(SPS)。特别是,序列参数集具有包括句法元素的句法构造。句法元素适用于由seq_parameter_set_id的内容决定的零以上的编码影像序列整体。seq_parameter_set_id是被pic_parameter_set_id参照的(以下说明)图片参数集中包含的句法元素。pic_parameter_set_id是各切片(slice)头中包含的句法元素。

图片参数集(PPS)是对适用于图片序列(影像序列)的图片的编码及解码的参数进行定义的参数集。特别是,PPS具有包括句法元素的句法构造。句法元素适用于由各切片头中包含的句法元素即pic_parameter_set_id决定的零以上的编码图片整体。

由此,与PPS相比,SPS的持续跟踪更容易。这是因为,PPS针对各图片发生变化,相对于此,SPS针对有可能达到几分钟或几小时的影像序列整体是一定的。

在编码器100中,为了导出重构信号(所谓的解码信号)s3而装入有重构部(所谓的解码部)。通过重构部,生成将已编码的图像重构(解码)的重构图像,向帧存储器170存储。

重构部包括逆变换部130、加法器140、解块滤波器150和自适应循环滤波器160。

逆变换部130按照上述编码步骤执行逆量化及逆变换。另外,由逆变换部130导出的预测误差信号e’由于还称作量化噪声的量化误差而与预测误差信号e不同。

加法器140通过将由逆变换部130重构的预测误差信号e’与预测信号s2相加,导出重构信号s’。

解块滤波器150执行将因量化而重叠在重构信号s’上的量化噪声削减的解块滤波处理。这里,由于上述编码步骤被以块单位进行,所以噪声被重叠,因此有时块边界变显眼(噪声的阻塞特性)。重叠的噪声还被称作阻塞噪声。特别是,在量化部120中进行了强量化的情况下,重构图像(解码图像)的块边界更显著地显眼。这样的阻塞噪声在人的视觉辨识中看起来像画质劣化。为了削减该阻塞噪声,解块滤波器150对重构信号s’(重构块)执行解块滤波处理。

例如,在H.264/MPEG-4AVC的解块滤波处理中,按每个区域选择适合于该区域的滤波处理。例如,在阻塞噪声大的情况下使用强的(窄频带)低通滤波器,在阻塞噪声小的情况下使用弱的(宽频带)低通滤波器。该低通滤波器的强度根据预测信号s2及预测误差信号e’决定。通过该解块滤波处理,块的边缘被平滑化。由此,解码图像信号的主观的画质得以改善。此外,已滤波处理的图像用于下个图像的运动补偿预测。因此,通过该滤波处理还削减预测误差,所以能够改善编码效率。

自适应循环滤波器160通过对在解块滤波器150中进行解块滤波处理后的重构信号s”采用试样自适应偏移(Sample adaptive offset,SAO)处理及/或自适应循环滤波(Adaptive Loop Filter,ALF)处理,导出重构信号(解码信号)s3。

这里,解块滤波器150的解块滤波处理以主观的品质的改善为目的。另一方面,自适应循环滤波器160的ALF处理及SAO处理以像素单位的可靠性(客观的品质)的改善为目的。SAO处理是使用接近像素的像素值对各像素的像素值追加偏移值的处理。ALF处理是为了将通过压缩产生的图像的失真进行补偿而使用的处理。通常,在ALF处理中使用的滤波器是具有以使重构信号s’与输入信号s1的平均平方误差(MSE)最小化的方式决定的滤波器系数的维纳滤波器。对ALF处理的滤波器系数而言,例如以帧单位计算及发送。ALF处理既可以适用于帧整体(图像),也可以适用于局部区域(块)。此外,也可以将表示进行滤波的区域的辅助信息以块单位、帧单位或四叉树单位发送。

帧存储器(帧缓存)170保存被编码并重构(解码)后的重构图像(重构信号s3)的一部分。保存的重构图像用于将帧间编码后的块解码。

在预测部180中,为了保持编码器侧和解码器侧的兼容性,使用能够在编码器侧及解码器侧的两侧利用的(相同的)信号来导出预测信号s2。能够在编码器侧及解码器侧的两侧利用的信号在编码器侧是被编码并重构(解码)后的重构信号s3(自适应循环滤波器160的滤波处理后的影像信号),在解码器侧是从比特流解码的解码信号s4(图2的自适应循环滤波器260的滤波处理后的影像信号)。

预测部180在通过帧间编码生成预测信号s2的情况下,进行基于运动补偿预测的预测。预测部180的运动推测器(未图示)从以前被编码并重构的影像帧中包含的块中,寻找最适合于编码对象块的最优块。该最优块成为预测信号。此外,编码对象块与最优块间的相对的偏差(运动)以3维运动矢量的形式,作为在辅助信息中包含的运动数据而通过信号传递。该信号被与编码影像数据一起发送。3维运动矢量包括空间的2维的运动矢量和时间的1维运动矢量。为了将预测精度最优化,也可以以1/2像素分辨率或1/4像素分辨率等的空间性子像素分辨率求出运动矢量。空间性子像素分辨率的运动矢量也可以表示没有实际存在的像素值的重构帧内的空间位置,即子像素的位置。因此,为了进行运动补偿预测,需要这样的像素值的空间性插补。这也可以通过插补滤波器(在图1中统一为预测部180)实现。

[1-3.图像解码装置的结构]

基于图2对解码器(图像解码装置)的结构进行说明。

图2是表示依据H.264/MPEG-4AVC或HEVC影像编码规格的解码器200的一例的框图。

如图2所示,解码器200具备熵解码部290、逆变换部230、加法器240、解块滤波器250、自适应循环滤波器260、帧存储器270和预测部280。

输入到解码器200中的比特流(编码后的影像信号)首先发送至熵解码部290。

熵解码部290从比特流中提取被编码的量化系数和被编码的辅助信息,将被编码的量化系数和被编码的辅助信息解码。辅助信息如上述那样,是在运动数据(运动矢量)及预测模式(预测类型)等的解码中需要的信息。

熵解码部290将解码后的量化系数通过逆扫描从一维排列变换为2维排列。熵解码部290将变换为2维排列后的量化系数向逆变换部230输入。

逆变换部230对变换为2维排列后的量化系数执行逆量化及逆变换,导出预测误差信号e’。预测误差信号e’在没有量化噪声、没有发生误差的情况下相当于从输入到编码器中的信号减去预测信号而求出的差分。

预测部280通过时间性预测或空间性预测导出预测信号s2。在帧内预测(空间性预测)的情况下,利用辅助信息中包含的预测类型等信息。此外,在运动补偿预测(帧间预测、时间性预测)的情况下,利用辅助信息中包含的运动数据等信息。

加法器240将从逆变换部230取得的预测误差信号e’和从预测部280取得的预测信号s2相加,导出重构信号s’。

解块滤波器250对重构信号s’应用解块滤波处理。自适应循环滤波器260对由解块滤波器250应用了解块滤波处理的重构信号s”应用SAO处理及ALF处理。在自适应循环滤波器260中应用了SAO处理及ALF处理的结果得到的解码信号S4被保存至帧存储器270。保存在帧存储器270中的解码信号S4在预测部280中用于下一个解码对象块或解码对象图像的预测。

[1-4.处理效率]

作为在编码处理及解码处理中提高处理效率的方法,一般可以考虑处理的并行化。

如果与H.264/MPEG-4AVC比较,则HEVC具有辅助编码处理及解码处理的高度的并行处理(并行化处理)的功能。与H.264/MPEG-4AVC同样,在HEVC中,能够将帧分割为多个切片。这里,各切片包括在扫描顺序上连续的多个LCU。在H.264/MPEG-4AVC中,切片分别能够单独解码,不进行跨越切片的空间性预测。由此,能够以切片单位进行并行处理。

但是,切片具有相当大的头,此外,由于在切片间没有依赖性,所以压缩的效率下降。此外,CABAC编码在对较小的数据块进行的情况下效率性受损。

对此,为了能够进行更高效率的并行处理,提出了波阵面并行处理(WPP)。在WPP中,不是如上述并行处理那样以切片单位完全独立,而具有一定的依赖性。

在以下的说明中,以图片由配置为矩阵状的多个LCU构成、各LCU行构成1个切片的情况为例进行说明(参照图3)。在WPP中,作为用来将构成处理对象LCU行32的LCU中的第1个LCU(开头的LCU)的CABAC状态进行复位的CABAC概率模型,利用对前LCU行31的第2个LCU进行的处理刚结束后的CABAC概率模型。由此,维持块间的依赖性。此外,能够实现多个LCU行的解码处理的并行化。但是,各LCU行的处理的开始定时相对于前LCU行延迟了两个LCU。在切片的头中,包含用来开始LCU行的解码的开始点的信息。关于WPP的详细情况记载在非专利文献1中。

作为用于并行化改善的别的方法,有使用瓦片(tile)的方法。帧(图片)被分割为多个瓦片。各瓦片是长方形,包括多个LCU。对瓦片间的边界而言,以将图片分割为矩阵状的方式设定。此外,将多个瓦片以光栅扫描顺序进行处理。

此外,在各瓦片的边界丧失全部的依赖性。CABAC等的熵编码也在各瓦片的开头被复位。另外,只有解块滤波处理和试样自适应偏移处理跨越瓦片间的边界来应用。因此,能够将多个瓦片并行地编码或解码。另外,关于瓦片的详细情况,记载在非专利文献2及非专利文献3中。

此外,为了使切片的概念相比作为H.264/MPEG-4AVC中的切片的本来的目的的错误耐受性、成为更适合于并行化的概念,提出了依赖切片及熵切片的概念。

即,在HEVC中,使用(1)通常切片、(2)熵切片及(3)依赖切片这3个切片。

(1)通常切片是通过H.264/MPEG-4AVC已经知道的切片。在通常切片间不能进行空间性预测。即,不能进行跨越切片间的边界的预测。换言之,不参照别的切片而将通常切片编码。使CABAC在各切片的开头重新启动,以便能够分别进行这样的切片的解码。

在处理对象切片是通常切片的情况下,CABAC的重新启动包括先行切片末端处的算术编码处理或算术解码处理的末端处理(终止处理)、和在该通常切片的开头将上下文表(概率表)初始化为默认值的处理。

此外,在帧的开头使用通常切片。即,各帧必须从通常切片开始。通常切片具有包含切片数据的解码所需的参数的头。

(2)熵切片是能够在母切片与熵切片之间进行空间性预测的切片。母切片及熵切片的解析独立地进行。

另外,母切片例如是熵切片的紧前的通常切片。在熵切片的像素值的重构中需要母切片。此外,在切片的开头使CABAC也重新启动,以便能够将熵切片独立解析。熵切片的切片头可以使用比通常切片的切片头短的切片头。在熵切片的切片头中包含与通常切片的切片头中包含的信息有关的编码参数子集。从母切片的切片头复制熵切片的切片头中的缺失元素。

在处理对象切片是熵切片的情况下,在CABAC的重新启动中,与通常切片同样,包括先行切片末端处的末端处理(终止处理)和在现行切片开头将上下文表初始化为默认值的处理。

(3)依赖切片与熵切片类似,但在CABAC的重新启动的一部分处理中不同。

在处理对象切片是依赖切片且WPP不是有效的情况下,在CABAC的重新启动中,包括先行切片末端处的末端处理(终止处理)、和在现行切片的开头将上下文表初始化为先行切片的末端的状态值的处理。在处理对象切片是依赖切片且WPP为有效的情况下,在CABAC的重新启动中,包括先行切片末端处的末端处理(终止处理)、和在现行切片的开头将上下文表初始化为属于先行切片且从左端起第2个的LCU处理后的状态值的处理。

如上述那样,在CABAC的重新启动中总是包含终止处理。相对于此,在CABAC的重新启动中,CABAC的状态有时被继承。

没有母切片无法解析依赖切片。因此,在没有取得母切片的情况下,不能将依赖切片解码。母切片通常在编码顺序上为依赖切片的先行切片,是包括完整的切片头的切片。这在熵切片的母切片中也相同。

如以上那样,依赖切片及熵切片使用切片的编码顺序上的紧前的切片的切片头(依赖切片的头中不包含的信息)。该规则被递归性地使用。对象依赖切片所依赖的母切片被识别为能够参照。参照中包括切片间的空间性预测及共同CABAC状态等的利用。依赖切片使用在紧前的切片的末端生成的CABAC上下文表。这样,依赖切片不将CABAC的上下文表初始化为默认值,而继续使用已制作的上下文表。此外,关于熵切片及依赖切片,记载在非专利文献3中。

HEVC提示一些配置(profile)。配置包括适合于特定应用的图像编码装置及图像解码装置的设定。例如,“主要配置”仅包含通常切片及依赖切片,不包含熵切片。

如上述那样,编码切片被封装到NAL单元中,进而例如被封装到实时协议(RTP,实时传输协议)中,最终被封装到因特网协议(IP)包中。通过该协议栈或别的协议栈,在因特网或固有网络等包指向型网络中能够进行编码影像的发送。

典型地,网络至少包括1个以上的路由器,路由器由以超高速动作的专用硬件构成。路由器具有接收IP包并将IP包的头解析、适当将IP包向各个目的地转送的功能。路由器需要对来自许多源的通信进行处理,所以控制逻辑的包必须尽可能简单。路由器至少决定将IP包转送的路径,所以需要确认IP头中包含的目的地地址字段。为了还提供对于服务品质(QoS)的支持,智能(媒体感知)路由器追加地确认IP头、RTP头及NALU(网络抽象层单元)头等网络协议头中的专用字段。

从有关影像编码的上述记载可知,依赖切片及熵切片等为了并行处理而定义的不同类型的切片对于数据缺失时的画质的下降的重要性不同。没有母切片无法将依赖切片解析及解码。这是因为,在依赖切片的开头无法使熵编码部或熵解码部重新启动。因此,可以说在重构图像或影像方面,母切片更为重要。

在HEVC中,作为依赖性的补充性侧面,依赖切片及熵切片取入了切片间的依赖性(帧内的依赖性)。这种依赖性不会被路由器考虑。

即,上述依赖性特别是帧间编码中的切片间的依赖性在网络级别上不被考虑。但是,为了提供对于服务品质的更好的支持,优选的是在网络级别上考虑上述依赖性。要求考虑各切片的依赖性来改善网络级别上的包的处置灵活性。

(课题的详细情况)

[1-5.WPP及依赖切片]

依赖切片可以与WPP或瓦片等的并行处理工具一起使用。此外,通过使用依赖切片,能够生成不引起编码损失而削减传送延迟的波阵面(wavefront)(子流)。

此外,由于在依赖切片中不使CABAC重新启动,所以可以使用依赖切片作为CABAC子流的开始点。此外,由于表示独立的解析的开始点,所以也可以将表示该开始点的信息包含在比特流中而传递。特别是,在将两个以上的CABAC子流封装到通常切片或依赖切片中的情况下,使用每个子流的字节数明确地将开始点进行信号传递。这里,子流表示能够通过开始点分别解析的流的一部分。进而,由于各依赖切片需要NAL单元的头,所以作为开始点的“标记”可以使用依赖切片。即,可以将针对这样的标记的开始点进行信号传递。

通过信号明确地通知开始点的方法和经由依赖切片对开始点进行标记的方法可以同时使用。

这里,需要能够确定各NAL单元的开始点(各NAL头的开头)。另外,关于确定方法,可以使用任意的方法。例如可以使用以下的两个方法。

第一个方法是在各NAL头的开头插入例如3字节的开始码的方法。第二个方法是将各NAL单元打包为不同的包的方法。此外,由于切片的依赖性,也可以缩小切片头的尺寸。

通过这些方法,能够对熵切片进行并行CABAC解析。这是因为,在熵切片的开头CABAC必定重新启动。在CABAC的并行处理中,能够通过连续的像素构建处理后的并行CABAC解析来克服障碍。具体而言,通过WPP并行化工具,能够将各LCU行的解码处理用1个核(IP核(intellectual property core),功能块)实现。另外,向各核的LCU行的分配可以不同。例如,既可以对1个核分配两行,也可以对2个核分配1行。

图3是表示图片300的结构的一例的图。在图3中,图片300被分割为多个LCU行31~3m(m是LCU的行数)。各LCU行3i(i=1~m)由配置为一行的多个LCU3i1~3in(n是LCU的列数)构成。LCU行3i对应于“波阵面i”。波阵面彼此能够进行并行处理。图3的“CABAC状态”的箭头表示参照CABAC状态的LCU与其参照目标的关系。

具体而言,在图3中,首先开始对LCU行31中包含的LCU中的开头的LCU311的处理(编码或解码)。对LCU的处理以LCU311~31n的顺序执行。在LCU行31中将最初的两个LCU311、312处理后,开始LCU行32的处理。在LCU行32的最初的LCU321的处理中,如图3的“CABAC状态”的箭头表示那样,使用对第1行的LCU行31中的LCU312的处理刚结束后的CABAC状态作为CABAC状态的初始状态。即,在两个并行处理之间,存在相当于两个LCU的处理时间的延迟。

图4是表示使用WPP的依赖切片的使用例的图。LCU行41~43对应于“波阵面1”、“波阵面2”及“波阵面3”。LCU行41~43由分别独立的核进行处理。在图4中,LCU行41是通常切片,LCU行42~4m是依赖切片。

依赖切片形成能够改善延迟的WPP。在依赖切片中没有完整的切片头。此外,如果知道开始点(或通过上述那样的规则知道的依赖切片的开始点),则能够与其他切片独立地将依赖切片解码。此外,依赖切片能够不发生编码损失地形成还适合于低延迟应用的WPP。

在将子流(LCU行)封装到切片中的通常的情形中,为了可靠地并行进行熵编码及解码,需要将明确的开始点插入到切片头中。因此,在切片的最后的子流被完全编码后才能够进行切片的传送准备。此外,在切片中的全部的子流的编码完成后,切片头才完成。即,在切片整体的处理结束之前,不能经由RTP/IP层的包碎片(Packet Fragmentation)开始切片的开头的传送。

但是,在使用依赖切片的情况下,由于能够利用依赖切片作为开始点标记,所以不需要进行开始点的基于明确的信号的通知。因而,能够没有编码损失地将通常切片分割为许多依赖切片。此外,如果被封装的子流的编码完成则可以立即(或者在包碎片的情况下比其早)传送依赖切片。

此外,依赖切片并不减弱空间性预测的依赖性。进而,依赖切片也不减弱解析依赖性。这是因为,对象依赖切片的解析中通常需要先行切片的CABAC状态。

在依赖切片不被许可的情况下,能够将各LCU行作为切片。这样的结构改善传送延迟,但同时如上述那样发生较大的编码损失。

设想将帧(图片)整体封装到1个切片的情况。在此情况下,由于能够进行并行解析,所以需要向切片头通过信号来传递子流(LCU行)的开始点。由此,在帧级别上发生传送延迟。即,在将帧整体编码后需要将头进行修正。将图片整体封装到1个切片本身不会恶化传送延迟。例如,也可以在编码完全结束之前开始切片的一部分的传送。但是,在使用WPP的情况下,为了记述开始点而需要之后将切片头进行修正。因而,需要使切片整体的传送延迟。

这样,通过使用依赖切片,能够削减延迟。如图4所示,图片400被分割为作为通常切片的LCU行41、作为依赖切片的LCU行42~4m。在各LCU行是1个依赖切片的情况下,能够没有编码损失地使1个LCU行的传送延迟。这是因为,依赖切片没有减弱空间依赖并且不使CABAC引擎重新启动。

[1-6.包的结构]

如上述那样,网络路由器为了能够实现服务品质的提供而必须将包的头进行分析。服务品质根据应用的种类、及/或服务的优先级、及/或对由包丢失引起的失真的包的关联性的优先级而不同。

图5是表示比特流的封装(打包)的一例的图。

这里,一般在打包中使用实时协议(RTP)。RTP通常被用于实时的媒体发送。此外,在打包中使用的各协议的头的长度基本上被固定。各协议的头具有扩展字段。通过该扩展字段,能够将头的长度进行4字节扩展。例如,IP头能够扩展到20字节。此外,IP头、用户数据报协议(UDP)头及RTP头中包含的句法元素的长度被固定。

图5表示IP包中包含的包头500。在图5所示的包头500中,包括IP头510、UDP头530、RTP头540、RTP H264有效载荷头560及NAL头570。IP头510是具有4字节的扩展字段520的20字节长的头。IP包的有效载荷是UDP包。UDP包包括8字节长的UDP头530和UDP有效载荷。UDP有效载荷由RTP包形成。RTP包具有开头的12字节长的RTP头540和4字节的扩展字段550。RTP包可以通过扩展字段有选择地扩展。RTP包的有效载荷包括0~3字节长的特别的RTP H264有效载荷头560和接着它的2字节长的HEVC的NAL头570。包括编码后的影像包的NALU的有效载荷(在图5中没有图示)后续于包头500。

能够提供改良的服务品质的路由器被称作媒体感知网络元素(Media Aware Network Elements,MANE)。媒体感知网络元素将构成图5所示的包头500的字段中的一些进行解析。MANE例如为了检测接收包内容的丢失及提示顺序,可以将称作“temporal_id”、包含在NAL头570中的句法元素,或者包含在RTP头540中的解码顺序号进行解析。路由器(网络元素)为了使网络的吞吐量更高,将包尽可能快地处理。这样的路由器的逻辑电路为了将网络元素处理的复杂性抑制得较低,需要迅速而简单地访问包头内的字段。NALU被封装在包头500内。NALU在存在切片头的情况下也可以包含切片数据。

NALU被封装在包头500内。NALU在存在切片头的情况下也可以包含切片数据。

图6是表示切片头的句法600的一例的图。dependent_slice_flag601是表示切片是否是依赖切片的句法元素。该句法元素能够识别切片间的依赖性。但是,切片头是NALU的内容。为了在dependent_slice_flag601之前将句法元素解析,需要相当复杂的逻辑电路。这如下述所示,是在通常的路由器中不能有效率地考虑的水平。

如上述那样,NALU如参数集那样,包含多个切片共同的信息,或者直接包含具有切片头中包含的解码所需的信息的编码后的切片。在图6中,表示在熵切片或依赖切片中使用的切片头的句法的一例。图6是表示切片头构造的表。在句法元素“dependent_slice_flag”被设定为1的情况下,需要在解码顺序上先行于对象切片的最初的通常切片(既不是熵切片也不是依赖切片的切片)为止的全部的切片。在这些切片没有被解码的情况下,一般不能将对象依赖切片解码。但是,在特别的情况下,例如在能够利用信号传递或导出的其他辅助信息的情况下,有时能够将依赖切片解码。句法元素dependent_slice_flag601包含在切片头的中央的适当的位置。进而,切片头包括由信息元素num_entry_points_offsets602表示的对象切片内的CABAC子流的数量、和由句法元素entry_points_offsets[i]表示的子流603的字节数。这里,信息元素num_entry_points_offsets602对应于入口点的数量。i是整数,是表示特定的入口点(入口点的偏移)的索引。通过由entry_point_offset[i]603表示的子流的字节数,比特流内的导航变得简单。

[1-7.图片的依赖性]

如上述那样,在基于HEVC的编码中,使用多种依赖性。

图7是表示仅使用既不是依赖切片也不是熵切片的通常切片的情况下的依赖性(依赖度)和其信号传递的图。在图7中,表示3个图片710、720,及730。

图片710是保持在VCL NAL单元1及VCL NAL单元2这两个VCL NALU中的基础层图片。POC表示描绘图片的顺序。在VCLNALU中,分别包括表示图片属于基础层还是属于增强层的句法元素和句法元素temporal_id。表示某个图片属于基础层还是属于增强层的句法元素在包含在图5所示的包头500的NAL头570内的状态下被发送。此外,关于句法元素temporal_id,也在包含在NAL头570内的状态下被发送。句法元素temporal_id表示其他图片的依赖性。例如,temporal_id=0的编码后的图片或切片能够与具有更高的temporal_id的其他图片或切片独立地解码。在HEVC中,将temporal_id包含在NAL头中作为nuh_temporal_id_plus1进行信号发送(参照图9A)。另外,在这些例子中使用的temporal_id与句法元素nuh_temporal_id_plus1之间,成立以下的式1的关系。

[数式1]

temporal_id=nuh_temporal_id_plus1-1···(式1)

temporal_id=1的切片依赖于temporal_id的值更低的切片。即,该情况下的temporal_id的值是0。另外,temporal_id指示图片的预测构造。一般而言,例如temporal_id具有特定的值的切片仅依赖于temporal_id的值更低的切片或temporal_id的值相同的切片。

因而,图7中的图片710能够最先解码。

图片720是与图片710的基础层对应的增强层。因此,有需要将图片720在图片710的解码后解码的依赖性。图片720具有VCLNAL单元3及VCLNAL单元4这两个NALU。图片710及720的POC的值都是0。这表示图片710、720属于一次被显示的相同的图像。该图像具备基础层和增强层。

图片730是包括VCL NAL单元5及VCL NAL单元6这两个NALU的基础层。图片730的POC的值是1。这意味着图片(部分)730是在图片720及710之后被显示的图片。进而,图片730的temporal_id的值是1。这意味着图片730暂时依赖于temporal_id=0的图片。因此,基于包含在NAL头内而被信号发送的依赖性,图片730依赖于图片710。

图8是表示使用依赖切片和熵切片的情况下的依赖性(依赖度)和其信号传递的图。在图8中表示3个图片810、820及830。图8与上述图7不同的是追加了包含在切片头内而被信号发送的依赖切片及熵切片的依赖性。

这里,在图7中,使用图片710及720的例子表示层间的依赖性。进而,使用图片710及730的例子表示时间依赖性。将这些依赖性都包含在NAL头内而进行信号发送。

相对于此,图8所示的切片间的依赖性是依赖切片及熵切片所固有的。特别是,基础层的帧810及增强层的帧820都具有两个切片。两个切片中的1个是母切片(通常切片),另一个是(依赖切片)。在帧810中,VCLNAL单元1的切片是VCLNAL单元2的母切片。在帧820中,VCLNAL单元3的切片是VCLNAL单元4的母切片。如上述那样,依赖切片的“母切片”,是指该依赖切片的依赖目标切片,即其切片头信息被该依赖切片使用的切片。这遵循最初的切片是具有完整的头的先行切片的规则。所谓具有完整的头的切片,例如不是其他的依赖切片而是通常切片。

使用图9A,对与在当前的HEVC特别是在HM8.0中采用的NAL单元头及切片头对应的句法进行说明。

图9A是表示NAL单元头910的句法及切片头920的句法的图。另外,(在最新的标准化中)计划着将层间的依赖性使用句法元素nuh_reserved_zero_6bits包含在NAL单元头内而进行信号发送。对时间依赖性而言,使用句法元素nuh_temporal_id_plus1进行信号发送。切片头920包含表示切片间的依赖性的指示符的信号。切片间的依赖性的指示符由句法元素dependent_slice_flag表示。即,切片间的依赖性(例如,时间依赖性)包含在切片头内的某个位置而被信号发送。

为了将该句法元素解析,必须将先行于dependent_slice_flag的全部的句法元素与先行于dependent_slice_flag的切片头的句法元素的解析所需的参数集的句法元素同样地解析。

[1-8.路由器的处理]

如上述那样,在通信量形成的决定中,优选的是除了包含在NAL头内被信号发送的依赖性以外,还考虑由依赖切片及熵切片导入的依赖性。例如,作为媒体感知移动基站可以使用路由器。下行线路的频带非常有限,需要非常注意而深入管理。设想以下的例子。设想包在上行流中被通常的路由器随机地删除的情况。在此情况下,媒体感知网络元素(MAME)通过确认包号,能够确认包丢失。在包丢失的确认后,将依赖于被删除的包的后续的全部包删除。这是对媒体感知网络元素而言理想的特征。如果这样,则能够更智能地删除包。路由器如果决定NAL单元的删除,则立即推测后续的依赖切片也需要删除。在图9A中导入的对象句法中,对dependent_slice_flag的访问需要相当大的量的信息解析。这在路由器的包路由或通信量形成处理中都不是必须的。为了得到层间及时间间的关系而需要的全部信息在影像参数集之中。影像参数集是在参数集层级中最高层级的参数集。

因此,上述信息包含在NAL头570内而被信号发送。但是,在图9A所示的NAL头及切片头的情况下,要访问表示切片的依赖性的信息,需要跟踪记录PPS及SPS等追加的参数集的经过。另一方面,这会再利用媒体感知网关或路由器的能力。根据图9A可知,切片头920必须被解析到dependent_slice_flag,被解析出的参数对网络动作不起作用。

为了使得能够对先行于dependent_slice_flag的切片地址进行解析,需要在图9B所示的SPS930中包含的句法元素中的以下的句法元素。图9B是表示包含在SPS中的句法的例子的图。

·pic_width_in_luma_samples(图9B的代码931)

·pic_height_in_luma_samples(图9B的代码932)

·log2_min_coding_block_size_minus3(图9B的代码933)

·log2_diff_max_min_coding_block_size(图9B的代码934)

这些参数被表示在图9B的右方的表中,在slice_address的参数的取得中需要。句法元素slice_adress被可变长编码(图9A的slice_address,切片头920的第2栏(右栏),参照记述符“v”的长度)。为了知道被可变长编码的slice_address的参数的长度,需要包含在SPS中的这些句法元素。但是,为了解析dependent_slice_flag,不需要句法元素slice_address的实际的值。为了继续解析处理,只要知道可变长的句法元素的长度即可。

因而,在图9B所示的包含在SPS930中的句法元素中,需要解析到点935的句法元素。需要保存4个句法元素。将这些在之后用在计算句法元素slice_address的长度的公式中。

进而,为了访问先行于dependent_slice_flag的dependent_slice_enabled_flag,在图9C所示的包含在PPS中的句法元素中,需要解析到点945的句法元素。图9C是表示包含在PPS中的句法的例子的图。另外,参照图9A~9C说明了解析方法的切片头、SPS及PPS内的句法元素在通常的路由器的动作中不需要。进而,由于句法元素中的一些是通过可变长编码来编码的,所以不能简单地跳过(skip)。即,即使在比特流内将规定量的比特跳跃(jump),也不能跳跃到dependent_slice_enabled_flag。

总之,为了读出dependent_slice_flag(依赖性指示符),MANE需要进一步推进切片头(参照切片头920)的复杂的解析。

具体而言,必须将first_slice_in_pic_flag解析。first_slice_in_pic_flag是表示切片是否是图片内的最初的切片的标志。

然后,必须将对NALU类型附加了条件的no_output_of_prior_pics_flag解析。

进而,必须将可变长编码后的pic_parameter_set_id解码。pic_parameter_set_id是表示使用多个参数集中的哪个参数集的句法元素(识别参数集的句法元素)。通过将pic_parameter_set_id解析,能够确定要利用的参数集。

最后,需要slice_address。slice_address是表示切片的开始位置的句法元素。该句法元素还需要追加的计算和PPS及SPS的解析。

最后,为了知道dependent_slice_flag是否存在于比特流内,必须从PPS取得dependent_slice_enabled_flag(依赖切片有效化标志)的值。dependent_slice_enabled_flag=0由于依赖切片不是有效的,所以意味着对象切片是通常切片。为了取得dependent_slice_enabled_flag的值,需要将PPS解析到正中间左右。

遗憾的是,数据位置与预先设定的RTP头及NAL头的数据的情况不同,位于dependent_slice_flag之前的句法元素不能跳过而需要解析。这是因为,切片头内的句法元素被可变长编码。因此,需要针对全部的VCLNAL单元计算元素的存在及长度。除此以外,由于之后需要(参照PPS及SPS),所以需要将追加的会话数据进行保存。进而,也有句法元素的存在依赖于设想包含在其他参数构造中的其他句法元素的存在或其值的句法元素(该句法元素有条件地被编码)。

在当前的标准化中,有如下提案:将记述在比特流内包含几个层的视频参数集(VPS)内的视频序列依赖性结构、以及表示各个层间的依赖性的依赖性指示符进行信号发送。VPS在最初的SPS之前被包含在影像的开头中而被信号发送。多个SPS可以参照1个VPS。这意味着1个VPS保持有对多个视频序列有效的信息。VPS的主要的目的是将包含以下的信息的影像内容向路由器或解码器通知。该信息为:包含几个视频序列,它们如何相互关联。SPS仅在视频序列内是有效的,VPS保持与多个视频序列关联的信息。

进而,保持在VPS中的信息的特征特别对于路由器而言是有益的。例如,VPS由于设计没有定型,所以也可以保持流会话的设定所需的信息。路由器将VPS内的信息进行解析。进而,路由器不需要其他参数集(仅观察NAL头),能够决定将哪个数据包发送给解码器,将哪个包删除。

但是,为了发现当前有效的VPS,需要以以下的顺序执行以下的步骤。

将切片头内的PPS_id解析的步骤;

将由PPS_id决定的有效PPS内的SPS_id解析的步骤;

将由SPS_id决定的有效SPS内的VPS_id解析的步骤。

为了解决上述问题,有关本发明的一形态的图像编码方法,是将图片分割为多个切片而执行编码处理的图像编码方法,包括将包含依赖切片有效化标志(dependent_slice_enabled_flag)、切片地址和依赖性指示符(dependent_slice_flag)的比特流发送的步骤,上述依赖切片有效化标志表示依赖于针对处理对象切片以外的其他切片的上述编码处理的结果而被进行上述编码处理的依赖切片是否包含在上述图片中,上述切片地址表示上述处理对象切片的开始位置,上述依赖性指示符表示上述处理对象切片是否是上述依赖切片;上述依赖切片有效化标志配置在上述多个切片共同的参数集内;上述切片地址配置在上述处理对象切片的切片头内;上述依赖性指示符在上述切片头内配置在上述切片地址之前且识别上述参数集的句法元素(pic_parameter_set_id)之后。

在上述结构的图像编码方法中,与切片间的依赖性有关的依赖性指示符配置在适合于路由器的解析的位置。由此,能够使依赖性指示符与其他句法元素独立地即无条件地编码。

例如也可以是,在上述依赖切片有效化标志表示包含上述依赖切片的情况下,上述依赖性指示符包含在上述比特流中。

例如也可以是,上述依赖切片有效化标志配置在上述参数集的开头。

例如也可以是,上述多个切片分别包括多个宏块;在对前一个处理对象切片中的多个宏块中的两个宏块执行上述编码处理之后,开始对上述处理对象切片执行上述编码处理。

例如也可以是,上述依赖性指示符不包含于上述多个切片中的在上述图片的最初被处理的切片的切片头中。

为了解决这样的问题,有关本发明的一形态的图像解码方法,是将图片分割为多个切片而执行解码处理的图像解码方法,包括从编码后的比特流中提取依赖切片有效化标志、切片地址和依赖性指示符的步骤,上述依赖切片有效化标志表示依赖于针对处理对象切片以外的其他切片的上述解码处理的结果而被进行上述解码处理的依赖切片是否包含在上述图片中,上述切片地址表示上述处理对象切片的开始位置,上述依赖性指示符表示上述处理对象切片是否为上述依赖切片;上述依赖切片有效化标志配置在上述多个切片共同的参数集内;上述切片地址配置在上述处理对象切片的切片头内;上述依赖性指示符在上述切片头内配置在上述切片地址之前且识别上述参数集的句法元素之后。

例如也可以是,在上述依赖切片有效化标志表示包含上述依赖切片的情况下,从上述比特流中提取上述依赖性指示符。

例如也可以是,上述依赖切片有效化标志配置在上述参数集的开头。

例如也可以是,上述多个切片分别包括多个宏块;在对前一个处理对象切片中包含的多个宏块中的两个宏块执行上述解码处理之后,开始对上述处理对象切片执行上述解码处理。

例如也可以是,上述依赖性指示符不包含于上述多个切片中的在上述图片的最初被处理的切片的切片头中。

为了解决这样的问题,有关本发明的一形态的图像编码装置,是将图片分割为多个切片而执行编码处理的图像编码装置,包括将包含依赖切片有效化标志、切片地址和依赖性指示符的比特流发送的编码部,上述依赖切片有效化标志表示依赖于针对处理对象切片以外的其他切片的上述编码处理的结果而被进行上述编码处理的依赖切片是否包含在上述图片中,上述切片地址表示上述处理对象切片的开始位置,所述依赖性指示符表示上述处理对象切片是否为上述依赖切片;上述依赖切片有效化标志配置在上述多个切片共同的参数集内;上述切片地址配置在上述处理对象切片的切片头内;上述依赖性指示符在上述切片头内配置在上述切片地址之前且识别上述参数集的句法元素之后。

为了解决这样的问题,有关本发明的一形态的图像解码装置,是将图片分割为多个切片而执行解码处理的图像解码装置,包括从编码的比特流中提取依赖切片有效化标志、切片地址和依赖性指示符的解码部,上述依赖切片有效化标志表示依赖于针对处理对象切片以外的其他切片的上述解码处理的结果而被进行上述解码处理的依赖切片是否包含在上述图片中,上述切片地址表示上述处理对象切片的开始位置,上述依赖性指示符表示上述处理对象切片是否为上述依赖切片;上述依赖切片有效化标志配置在上述多个切片共同的参数集内;上述切片地址配置在上述处理对象切片的切片头内;上述依赖性指示符在上述切片头内配置在上述切片地址之前且识别上述参数集的句法元素之后。

为了这样的问题,有关本发明的一形态的图像编码解码装置具备上述图像编码装置和上述图像解码装置。

根据上述结构的图像编码方法及图像解码方法等,切片间的依赖性指示符被独立地配置在与切片关联的比特流的句法内。依赖性指示符与其他元素分离地配置在不用将其他元素不必要地解析就能够从流解析的位置上。在上述HEVC的例子中,表示切片间的依赖性的指示符dependent_slice_flag在不需要进行与网络动作无关的句法元素的解析的位置上通过信号被传递。

具体而言,提供包括以下数据单元的装置,该数据单元将至少局部地使用可变长编码来进行编码的图像的影像序列的比特流进行解析,将影像序列的编码后的切片进行运送。该装置具备从比特流中提取表示切片的可变长解码或解析是否依赖于其他切片的句法元素即依赖性指示符的解析器(parser),依赖性指示符不需要事先提取其他句法元素,而从其他句法元素独立地从比特流中提取。

这样的装置例如也可以包含在图2的熵解码器290内。从比特流提取的指示包括提取,在该提取中需要的情况下还包括熵解码。熵编码是可变长编码,例如是CABAC那样的算术编码。它在HEVC中适用于图像数据的编码。这里,所谓数据单元,例如是NAL单元或访问单元。所谓“不需要提取其他句法元素”,是指先行于依赖性指示符的多个元素都是存在且知道长度的元素、或者是已经处于已解析的状态的元素、或者是在有条件下完全不被编码的元素的状况。

进而,提供包括以下数据单元的装置,该数据单元生成至少局部地通过可变长编码来编码的视频序列的比特流,保持视频图像的编码切片。该装置具备将表示切片的可变长解码是否依赖于其他切片的句法元素即依赖性指示符嵌入到上述比特流中的比特流生成器,上述依赖性指示符不需要预先嵌入其他句法元素,而从上述其他句法元素独立地嵌入到上述比特流中。

这样的装置例如也可以包含在图1的熵解码器190内。

根据上述结构的图像编码方法及图像解码方法等,比特流包含编码后的切片数据及与该切片有关的头数据,依赖性指示符位于比特流内的切片头的开头。这意味着切片头以表示切片的依赖性的句法元素开始。

另外,依赖性指示符不需要位于切片头的开头。但是,在切片头内在其他条件下编码的句法元素、及/或可变长编码的句法元素不包含在先行于依赖性指示符的句法元素中的情况下是有益的。

例如,也可以将上述先行技术中的dependent_slice_flag的当前位置变更为使其位于切片头的开头。通过该变更,削减需要解析的句法元素的数量。进而,能够避免可变长解码、追加的计算及/或在之后使用的追加的参数保存及/或需要其他参数集的解析的信息的解析等的路由器的复杂的解析处理。进而,削减需要跟踪记录的参数集的数量。

以下,参照附图对实施方式具体地说明。另外,以下说明的实施方式都表示包括性或具体的例子。在以下的实施方式中表示的数值、形状、材料、构成要素、构成要素的配置位置及连接形态、步骤、步骤的顺序等是一例,并不是限定发明范围的意思。此外,关于以下的实施方式的构成要素中的、表示最上位概念的独立权利要求中没有记载的构成要素,设为任意的构成要素进行说明。

(实施方式1)

图10是表示本实施方式的比特流的句法的例子的图。图10所示的NAL头1010与图9A所示的NAL头910相同。即未被变更。

但是,切片头1020的句法构造与图9A的切片头920的句法构造不同。在切片头1020中,特别是dependent_slice_flag在切片头内被移动到上方,以使得没有先行于dependent_slice_flag的句法元素。dependent_slice_flag有条件地被编码,或者通过可变长编码来编码,或者被进行需要追加的计算的解析。

句法元素first_slice_in_pic_flag及dependent_slice_flag实质上都决定空间依赖性。这些句法元素被编码在NAL头的紧后,以使得不需要其他句法元素的解析。first_slice_in_pic_flag还保持与切片间依赖性关联的信息,所以也可以先行于dependent_slice_flag。句法元素first_slice_in_pic_flag是因为全部的帧必须以通常切片开始的规则而设定的标志。即,在设定first_slice_in_pic_flag标志的情况下,意味着切片是通常切片,因此独立。因而,dependent_slice_flag及first_slice_in_pic_flag这两者能够视为切片间的依赖性的指示符。

换言之,依赖性指示符可以定义为包含表示切片是否是图片的最初的切片的第1切片指示符及表示切片的可变长解码是否依赖于其他切片的依赖切片标志。图片的最初的切片总是在可变长解码中不依赖于其他切片的切片。

有利的是,在比特流中包含有表示该比特流是否有可能包含依赖切片的依赖切片有效化标志。仅在依赖切片有效化标志表示在比特流中有可能包含依赖切片的情况下,依赖性指示符包含在比特流中。依赖切片有效化标志在比特流中位于多个切片共同的参数集内且该参数集的开头。参数集例如也可以是保持单一图片中使用的多个参数的图片参数集。或者,依赖切片有效化标志也可以位于保持图像(影像)序列整体中使用的多个参数的序列参数集内。

但是,在本实施方式中,dependent_slice_flag(依赖性指示符)不以句法元素dependent_slice_enabled_flag(依赖切片有效化标志)为必要条件而被编码。在本实施方式中,由于图片参数集id被配置在依赖性指示符之后,所以有利于避免在切片头内将图片参数集id通过信号来传递的情况下可能发生的解析错误。

该变更也可以视为以削减为了决定切片间的依赖性而需要解析的句法元素的数量为目的的、参数集或头中的其他需要的句法元素的位置的变更,及/或也可以通过变更进行插补。

例如,HM8.0的当前的句法的切片头中的句法元素dependent_slice_flag仅在句法元素“dependent_slice_enabled_flag”的值表示比特流内的依赖切片的使用是有效的情况下存在。通过使依赖切片有效,句法元素“dependent_slice_enabled_flag”也还如图9C所示那样包含在PPS中。因而,PPS内的句法元素“dependent_slice_enabled_flag”为了使dependent_slice_flag的解析所需要的自身的解析简单化而在PPS的句法内移动到上方(例如参数集的开头)。这在将dependent_slice_flag在pic_parameter_set_id(识别参数集的句法元素)之后编码的情况下也能够发挥作用。这是因为,通过这样,即使在依赖切片有效化标志需要依赖性指示符的存在的情况下,也能够避免解析错误。

也可以代替在PPS内使“dependent_slice_enabled_flag”移动到上方,而使“dependent_slice_enabled_flag”从PPS移动到SPS及/或VPS中,以使得不需要将层级较低的参数集跟踪记录。

即,根据本实施方式,为了削减需要跟踪记录的参数集的数量而将需要的句法元素的位置变更。这还削减解析的复杂程度。在该文章中,“需要的参数”意味着为了决定切片是否是相互依赖切片而发挥作用的参数。能够直接适用于HEVC的第1可能性,是在依赖切片的切片头的开头附加不以与切片头不同的参数集中包含的依赖切片有效化标志为必要条件的依赖性指示符。能够直接适用于HEVC的第2可能性,是对包含依赖切片有效化标志的参数集进行识别的句法元素的指示符之后提供依赖切片头的依赖性指示符。依赖性指示符也可以将依赖切片有效化标志作为必要条件。在PPS内使依赖切片有效化标志移动到上方或使依赖切片有效化标志移动到SPS内对于这些可能性都是有益的。特别是,对于在依赖性指示符的解析中需要依赖切片有效化标志的第2可能性是有益的。

根据图10可知,NAL单元头与切片头的关联部分一起具有18位(NALU头14位,切片头2位)。根据该例,媒体感知网络元素对于对象切片包也可以如以下这样动作。如果将先行的通常切片、熵切片或依赖切片删除,则网络元素检查对象切片头的开始的2位,即first_slice_in_pic_flag及(比特流容许依赖切片的情况)dependent_slice_flag。

如果NAL单元类型是VCLNAL单元类型,检查出的18位的最后的2位是“01”,则将该NAL单元删除。特别是,如果切片头的开头的位是“1”,则其(根据规则)为不是图片的开头的依赖切片的切片。如果切片头的开头的位是“0”、下个位也是“0”,则该切片独立。因而,仅在切片头的开头的2位是“01”的情况下,该切片依赖。进而,该切片在母切片已经被删除时不能解码,所以必须被删除。因此,first_slice_in_pic_flag及dependent_slice_flag即使属于切片头句法,也可以看作是NAL头的扩展。

在本实施方式中,还提供将网络包接收、分析、并向目的地转送的网络路由器。该路由器具备:接收部,接收网络包,该网络包包括包目的地地址以及具有编码视频数据的比特流部分;解析器,为了判定来自其他包的上述编码视频数据的依赖性,包括在上述或后述的实施方式中记载的对编码视频序列的比特流进行解析的上述装置;以及包分析器(packetanalyzer),对上述接收到的包的目的地地址和判定的依赖性进行分析,判断上述网络包的处置方式。

(实施方式2)

根据本实施方式2,将dependent_slice_enabled_flag从PPS删除。另外,dependent_slice_enabled_flag也可以不删除而移动到SPS中。

图11是表示在访问first_slice_in_pic_flag及dependent_slice_flag之前不需要将dependent_slice_enabled_flag解析的例子的图。

在该例中,dependent_slice_enabled_flag由于不将依赖性指示符的存在作为必要条件,所以不被使用。该例提供不产生因不知对象PPS集的识别而引起的解析上的问题而在切片头的开头配置依赖性指示符的可能性。

(实施方式2的效果等)

在实施方式1中,为了解析dependent_slice_flag,必须解析dependent_slice_enabled_flag。dependent_slice_enabled_flag被包含在PPS内而通过信号传递。这在如上述那样dependent_slice_enabled_flag处在距PPS的起始位置较远的位置、并且先行的句法元素有条件地被编码的情况下,有可能带来解析的开销。

进而,如果在PPS中句法元素pic_parameter_set_id被解析前将句法元素dependent_slice_flag通过信号传递,则可能发生以下这样的解析错误。dependent_slice_flag的存在依赖于包含在PPS内而被通过信号传递的dependent_slice_enabled_flag。但是,当前有效的PPS的id在dependent_slice_flag之后被通过信号传递。因而,在访问先行的元素之前不能将dependent_slice_flag解析。

在本实施方式中,由于将以dependent_slice_enabled_flag为必要条件的解析去除,所以是有益的。如果适用以下的限制则更为有益。即,如果PPS内的dependent_slice_enabled_flag是零则dependent_slice_flag为零。

但是,这些有利的实施方式并不限定本发明的范围。

(实施方式1及2的变形例1)

也可以代替将dependent_slice_enabled_flag去除或对其追加,使dependent_slice_enabled_flag从PPS移动到SPS及/或VPS的某个中。

进而,也可以代替单单使dependent_slice_enabled_flag移动而将dependent_slice_enabled_flag复制到SPS中。在此情况下,SPS及PPS内的指示符也可以强制地设为相同的值。或者,PPS也可以被许可SPS内的指示符的覆盖。

例如,如果sps_dependent_slice_enabled_flag是1,则pps_dependent_slice_enabled_flag有0或1的可能性。sps_dependent_slice_enabled_flag是包含在SPS内被通过信号传递的表示在图片的序列中使用的依赖切片的有效化的指示符,pps_dependent_slice_enabled_flag是包含在PPS内被通过信号传递的表示在图片中使用的依赖切片的有效化的指示符。但是,如果dependent_slice_enabled_flag的值在PPS内能够变化,则这意味着依然需要PPS的解析,能够防止PPS的跟踪记录及解析的频度变低的效果。

这些变形例起到VPS及SPS保持依赖构造的效果。通过VPS及SPS保持依赖构造,网络元素能够形成比特流,即能够将不论怎样都不能解码的依赖包删除,或能够决定为将不是独立切片的依赖切片删除。因而,VPS内的dependent_slice_enabled_flag成为路由器追加地确认或不确认切片头的触发事件。

这些变形例在适用于图10及11的例子的情况下,不是将解析中的复杂度进一步降低。但是,它提供用来保持依赖性构造的更有益的句法构造。总之,根据该例,将表示依赖切片对比特流是否有效的指示符包含在影像参数集内并通过信号传递。这里,影像参数集是适用于多个图片的多个切片的参数集。

dependent_slice_enabled_flag在VPS及/或SPS中通过信号传递的情况下,有两个效果。在将标志单单移动或复制的情况下,不需要将PPS解析,结果,解析的开销被削减。另一个优点是,能够对路由器通知影像序列的预测构造。该效果总是存在。通常,路由器也可以为了知道接收什么而确认VPS/SPS的内容。

VPS是在层级中最高层的参数。SPS及PPS分别对应于1个影像序列及1个图片,相对于此,VPS可以包含与多个影像序列有关的信息。包含在VPS中的信息是比特率或影像序列的temporal_layering构造等。此外,包含与层间的依赖性(不同影像序列间的依赖性)有关的信息。因此,能够将VPS看作多个影像序列的容器,根据VPS,知道各序列的概要。

在HEVC的最新版中,帧的切片间的依赖性由dependent_slice_flag及first_slice_in_pic_flag这两者规定。根据最新的规格书,网络实体不使用非常复杂的解析就不能利用切片间的依赖性。简单的解决方法是在通过包号码的缺失而发现了包的丢失的情况下在找到值为1的first_slice_in_pic_flag之前将全部的包删除。这是因为,图片的开头的切片总是通常切片。

但是,该解决方法带来编码效率的下降。因而,也可以如上述那样采用使切片间依赖性的基于信号进行的传递有效的高效率的解析。这通过在NAL头的紧后的切片头内将dependent_slice_flag及first_slice_in_pic_flag通过信号传递来实现。

代替它或除此以外,将与切片间依赖性关联的句法元素无条件地、即与处在切片头或PPS内的其他句法元素独立地编码。

(实施方式1及2的变形例2)

图12是表示代替上述变形例1的其他变形例2的图。具体而言,NAL单元头1210与图10所示的NAL单元头(图9A所示的NAL单元头910)相同。但是,切片头1220与图10所示的切片头1020相比,句法元素dependent_slice_flag及first_slice_in_pic_flag的顺序相反。特别是,切片头1220中作为最初的句法元素而包括dependent_slice_flag,以dependent_slice_flag的存在为必要条件,作为第2个句法元素而包括句法元素first_slice_in_pic_flag。

根据该例可知,表示切片是否为图片的开头的切片的第1切片指示符包含在句法中。图片的开头的切片总是在可变长解码中不依赖于其他切片的切片。进而,依赖切片标志在比特流中包含在第1切片指示符之前。第1切片指示符仅在依赖切片标志不表示依赖切片的情况下包含在比特流中。该配置带来与附加条件相同的效果。即,依赖性标志将第1切片指示符作为必要条件。根据图12可知,双方的元素也可以被理解为依赖性指示符,包含在切片头的开头。

(实施方式3)

在本实施方式3中,与实施方式1及实施方式2相比,为了减少不必要的句法元素的解析,变更了句法元素的配置方法。

在上述实施方式中,对以dependent_slice_flag的存在为必要条件而包含first_slice_in_pic_flag的情况进行了说明,但first_slice_in_pic_flag及dependent_slice_flag也可以都不以相互的存在为必要条件而包含在比特流中。例如,在上述变形例中的1个中,为了使得从句法元素dependent_slice_enabled_flag独立,将dependent_slice_flag的编码方法变更。

图13是表示本实施方式的切片头的一例的图。在图13所示的例子中,表示依然包括与依赖切片有效化标志有关的依赖性指示符的条件的情况。

具体而言,在本实施方式的切片头中,与图6所示的以往的切片头相比,dependent_slice_flag被配置在slice_address之前。进而,在本实施方式的切片头中,与图10~图12所示的例子比较,dependent_slice_flag被配置在pic_parameter_set_id之后。

在本实施方式中,由于dependent_slice_flag被配置在slice_address之前,所以为了解析dependent_slice_flag,至少不需要解析SPS。如上述那样,slice_address是表示切片的开始的句法元素。进而,slice_address可以仅通过包含在SPS内并通过信号传递的句法元素(pic_parameter_set_id)的辅助来解析。

代替它或除此以外,使dependent_slice_enabled_flag在PPS内移动到上方或移动到SPS及/或VPS中。在有效化标志处于VPS及/或SPS内的情况下,也可以不需要解析及PPS及SPS的跟踪记录。

(实施方式3的变形例、效果等)

(1)在将至少局部地通过可变长编码进行编码的视频序列、且包含保持视频图像的编码切片的数据单元的视频序列的比特流进行解析的装置中,也可以构成为,将具有图13所示的切片头的比特流进行解析。在此情况下,将该装置构成为,具备从比特流提取以下的句法元素的解析器。

-表示切片的可变长解码是否依赖于其他切片的、作为切片头内的句法元素的依赖性指示符,

-包含在用于多个切片的参数集内、表示依赖切片是否包含在比特流内的依赖切片有效化标志,及

-表示比特流内的切片开始的位置的切片地址。

(2)此外,在本实施方式中,依赖性指示符在切片地址之前且用于识别上述参数集的句法元素之后包含在切片头内,被通过信号传递。

因而,在本实施方式中,可以构成为,仅在依赖切片有效化标志表示能够将依赖切片包含在比特流中的情况下不引起解析错误而将依赖性指示符包含在比特流中。

(3)进而,在本实施方式中,依赖切片有效化标志配置在比特流内的形成相同的图片帧的多个切片共同的参数集(PPS)内且上述参数集的开头,但并不限定于此。

也可以代替它(或除此以外),依赖切片有效化标志位于比特流内的形成相同的图片序列的多个切片共同的参数集(SPS)内。进而,也可以代替它(或除此以外),依赖切片有效化标志位于比特流内的形成多个图片帧序列的多个切片共同的参数集(VPS)内。

(4)此外,在本实施方式中,也可以构成为,将VPS_id及SPS_id包含在SEI消息内而明确地通过信号传递。在dependent_slice_enabled_flag包含在SPS内而被通过信号传递的情况下,dependent_slice_flag依然必须后续于pic_parameter_set_id。

否则,SPS_id包含在PPS内而被通过信号传递,所以在解析中被导入依赖性。通过将保持dependent_slice_enabled_flag的对象SPS或VPS的识别通过信号传递,不需要其后的图片参数集的解析,所以也可以将依赖性指示符包含在pic_parameter_set_id之前。进而,保持VPS_id或SPS_id的SEI消息由于它们的ID也通过将PPS解析来决定,所以在解码处理中不需要。由此,可以将SEI消息在网络元素中使用之后,不对解码处理带来影响地删除。

(实施方式4)

在本实施方式4中,将切片间依赖性的信息复制到SEI消息那样的其他NAL单元中(作为包含在切片头及/或参数集内而通过信号传递的信息的补充)。

例如,也可以定义传递全部访问单元内的或各依赖切片之前的切片间依赖性的信息的SEI消息。“访问单元”的用语是指由NAL单元的集合构成的数据单元。访问单元包括多个编码图片切片、即多个VCLNALU。特别是,访问单元也可以定义用于随机访问的点,也可以包含单一图片的多个NALU。但是,访问单元也可以并不一定是随机访问点。

在最新的HEVC规格书中,访问单元被定义为在解码顺序上连续的NAL单元的集合,正好包含1个编码图片。除了编码图片的编码切片NAL单元以外,访问单元也可以还包含不包括编码图片的切片的其他NAL单元。访问单元的解码总是带来解码图片。但是,也可以在HEVC的将来的扩展中(如多视编码(MVC)或可伸缩影像编码(SVC)那样),将访问单元的定义缓和/修正。根据最新的规格书,访问单元由访问单元定界符、SEI消息及VCLNAU形成。

由此,根据本实施方式,依赖性指示符在比特流中位于依赖性指示符所关联的切片的头之外。进而,如果依赖性指示符在比特流中位于依赖切片之前或按每个访问单元包含在比特流内的SEI消息内,则可能是有益的。

(实施方式5)

根据本实施方式5,切片间依赖性信息作为标志、或暗示地作为关联的NAL单元类型而包含在NAL头内,通过信号传递。

作为规则,NAL头的句法元素的解析不依赖于其他任何句法元素。全部的NAL单元头能够独立地解析。NAL头通常是将依赖性信息通过信号传递的地方。因而,根据本实施方式,将切片间依赖性也包含在NAL头中而进行信号发送。

换言之,解析装置也可以在路由器或解码器中采用。解析装置还包括用来将网络自适应层、NAL头追加到编码影像数据的切片及该切片的头的网络自适应层单元。优点是,依赖性指示符在比特流中位于NAL头内,与其他句法元素独立地被编码。

最新的HEVC规格书中的NAL头设想了能够用于此的备用的位,所以依赖性指示符也可以位于NAL头内。对于依赖性指示符的基于信号的传递,可以认为单一位就足够。

或者,依赖性指示符由NAL单元类型表示,为了保持依赖性信息而保存预先定义的NAL单元类型。

(实施方式6)

上述5个实施方式为了能够将网络元素的依赖性的信息高效率地解析,也可以任意地组合。即使它们的使用重复,该实施方式也能够组合。因而,即使在依赖性指示符包含在切片头的开头中而被通过信号传递的情况下,也能够适用依赖性指示符的复制。

图14是表示将图9A所示的NAL单元头910修正的NAL单元头1410的例子的图。NAL单元头1410包括dependent_slice_flag。

进而,使dependent_slice_flag移动到NAL头中,为了由于后方兼容性而将NAL头的尺寸继续固定,从NAL单元头的句法元素nuh_reserved_zero_6bits取得dependent_slice_flag所需的1位。因此,句法元素nuh_reserved_zero_6bits目前仅具有5位。句法元素nuh_reserved_zero_6bits具有用于之后使用的备用的位,以使位的减少不引起任何问题、不需要进一步的修正。

一般而言,对象VCLNAL单元依赖于具有相同的temporal_layer_id的先行的VCLNAL单元。在将dependent_slice_flag包含在NAL头内而通过信号传递的情况下,由于图片切片或参数集等的全部的数据单元具有相同的NAL头,所以在VCL及非VCLNAL单元的两者中被浪费1位。因此,认为dependent_slice_flag也通过信号被传递以在参数集或SEI消息中使用,但这是不必要的。进而,即使依赖切片在序列参数集内成为无效,dependent_slice_flag也总是需要基于信号的传递。这带来不必要的开销。

在上述全部的实施方式中,依赖性指示符也可以是1位的标志。

(实施方式7)

根据本实施方式7,依赖性指示符由NAL单元类型表示,为了保持依赖性信息而保存预先定义的NAL单元类型。

由此,新的(单独的)VCLNAL类型如已有的VCLNAL单元那样,被以类似的符号体系定义。例如,如果NAL_unit_type的值等于15(或没有为了其他预先定义的类型、或其他特定类型的NALU而被保存的NALU),则对象VCL NAL单元依赖于具有相同的temporal_layer_id的先行VCL NAL单元。该依赖性如上述那样,与对象切片对于先行切片的切片头的依赖性、即解析中的依赖性相关联。

在这些情况下,如果在追加的NAL单元类型中包含NAL头内的位则认为是有益的。这可以为了表示对象切片是否为依赖切片而使用。

在依赖性信息除了包含在NAL头内而通过信号传递以外,还能够包含在切片头内而通过信号传递的情况下,通过可选项选择包含在NAL头内而通过信号传递。具体而言,如果NAL头内的NAL_unit_type字段构成为,通过信号传递对象切片是依赖切片,则不能将其他“类型”的信息通过信号传递。例如,有时将对象切片是“序列的开头的图片”(等于10或11的NAL_unit_type)的信息进行传递更加有益。如果(通过被复制到切片头内)能够通过NAL头中的切片间依赖性信息可选项进行选择,则也可以选择将更有价值的信息通过信号来传递。

进而,认为追加(在解析中使用的)“依赖切片RAP图片”或“依赖切片非RAP图片”等两个以上的VCLNAL单元类型是有益的。“RAP”的用语表示随机访问图片。随机访问图片是与其他图片(关于预测)独立地编码的图片,所以也可以作为编码及解码的开始点使用。由此,适合作为随机访问点。

在依赖切片头中,句法元素RapPicFlag用于解析处理。具体而言,句法元素RapPicFlag是表示对象图片是否为随机访问图片的指示符。

RAPPicFlag的值如以下的式2那样依赖于NAL单元类型。

[数式2]

RapPicFlag=(nal_unit_type≥7 && nal_unit_type≤12)…(式2)

即,在图15所示的例子中,随机访问图片被NALU类型为7到12的NALU保持。在本实施方式中,为了使得能够进行正确的解析、提供对于随机访问图片的切片依赖性的可能性,将两个不同的NAL单元类型以保证切片头的正确的解析为目的进行定义。

作为普遍性的规则,即使定义了新的VCLNAL单元类型,切片头的解析也依然能够没有任何问题地进行。将多个NAL类型的某个如上述那样定义,或者利用在解析中不发生问题的方法将依赖切片头变更。

在新的VCLVAL单元类型表示是依赖切片的情况下,将切片头的句法构造如下述那样变更。

上述例子的NAL单元类型“DS_NUT”用来表示处理对象VCL nal单元是依赖切片。如果与非专利文献3中记载的最新的切片头的句法构造比较,则在本实施方式中,可以导出下述两个变更。

(1)no_output_of_prior_pics_flag不包含在依赖切片中。换言之,no_output_of_prior_pics_flag在处理对象切片不是依赖切片的情况下存在。(在处理对象切片不是依赖切片的情况下,no_output_of_prior_pics_flag存在于切片头中)。

(2)与nal_unit_type的值相应地包含first_slice_in_pic_flag。在nal_unit_type的值表示处理对象切片是依赖切片的情况下,句法的元素first_slice_in_pic_flag没有明确地包含,被推测为0。这以相同的品质维持比特率。

根据上述例子,在处理对象切片是依赖切片的情况下,不包含no_output_of_prior_pics_flag。RapPicFlag的值在处理对象切片是依赖切片的情况下,对于评价而言是不需要的。因此,依赖切片的切片头能够没有问题地评价。进而,依赖切片的切片头能够不参照先行的nal单元头的NAL单元头而解析。在先行的nal单元头在解码时不存在的情况下会发生问题。

接着,first_slice_in_pic_flag基于NAL_unit_type的值而被包含。该变更与图12所示的例子相同。在图12中,first_slice_in_pic_flag仅在处理对象切片不是依赖切片(由dependent_slice_flag表示)的情况下包含在切片头中。同样,仅在意味着处理对象切片不是依赖切片的“DS_NUT”与nal_unit_type不相等的情况下,包含上述例子的first_slice_in_pic_flag。

上述两个变更不需要同时进行。此外,在切片头中也可以仅进行一方的变更。各变更的优点与切片是否为依赖切片的确认成本关联。但是,在同时执行了两个变更的情况下,在两个句法元素first_slice_in_pic_flag及no_output_of_prior_pics_flag被连续编码的情况下,两个变更的优点与分别变更的情况下的各自的优点相同。因而,在将两个变更与两个句法元素的连续的编码组合的应用中,与将各个变更独自进行的应用相比更具有优点。

在实施方式的全部说明中,在依赖切片的指标被有条件地编码的情况下,能够从比特流中删除dependent_slice_enabled_flag。换言之,如果将新的NAL单元类型用来表示处理对象切片为依赖切片,则能够从比特流中删除dependent_slice_enabled_flag。

图15是表示与图9A所示的NAL单元头910相同的NAL单元头1510和将图9A所示的切片头920变更的切片头1520的例子的图。切片头1520按照NALU的类型,包括dependent_slice_flag值的末端。特别是,具有15及16的值的NAL_unit_type句法元素定义依赖切片。在NAL_unit_type等于15的情况下,切片的类型是随机访问图片的依赖切片。另一方面,如果NAL_unit_type等于16,则该切片是非随机访问图片的依赖切片。因而,成立以下的式3的关系。

[数式3]

另外,值15及16是单单作为一例选择的。对于本领域的技术人员而言,除此之外也可以采用其他没有被使用的预先定义的任意的号码是显而易见的。具体而言,NALU的第1类型为了识别随机访问图片的依赖切片的内容而被定义,NALU的第2类型为了识别非随机访问图片的依赖切片的内容而被定义。

进而,对依赖切片也可以适用仅在RAP中使用或仅在非RAP中使用的限制。在此情况下,仅需要1个新的NALU类型。

(实施方式8)

图16是表示替代性的解决方法的图。NAL单元头1610与NAL单元头910相同。在切片头1620中,假定NAL_unit_type具有定义上述那样的依赖切片的值15及16。

但是,NAL_unit_type在依赖切片标志的解析中不被使用。由此,编码器对NAL_unit_type的使用可以可选化。因而,本实施方式的效果仅在编码器决定了新的NALU类型的采用时实现。

并且,路由器只要验证NALU类型即可。但是,如果编码器不使用上述新的NALU类型,则可以认为路由器如技术水准那样处理依赖切片。

总之,依赖性指示符也可以由NAL单元类型表示。此外,预先定义的NAL单元类型也可以为了保持切片头依赖于先行切片的切片头的编码后的切片而被保存。优点是对随机访问图片及非随机访问图片提供表示依赖性的个别的NAL单元类型。

总之,上述实施方式涉及保持编码影像序列的比特流的句法。特别是,上述实施方式涉及与切片头依赖于先行切片的切片头的依赖切片及熵切片关联的句法。为了使媒体感知网络元素实质上不增加由其复杂性及解析带来的延迟而考虑这种依赖性,将依赖性的指示符包含在包的开头即作为解析对象的头或参数的附近并通过信号传递。这例如通过在切片头的开头(图10~图12)、如果可能则在识别参数集的句法之后且切片地址之前包含依赖性指示符(图10、图11)、或者通过使用单独的消息对NALU头提供依赖性指示符(图14)、或者通过保持依赖切片的NALU所使用的特别的NALU类型(图15、图16)来实现。

(上述实施方式1~8的变形例、效果等)

本发明并不限定于以上的实施例,能够进行各种变更,当然这些也包含在本发明的范围内。

另外,在上述各实施方式中,各构成要素也可以由专用的硬件(处理电路)构成、或通过执行适合于各构成要素的软件程序来实现。各构成要素也可以通过由CPU或处理器等的程序执行部将记录在硬盘或半导体存储器等记录介质中的软件程序读出并执行来实现。

另外,在上述实施方式1~8中,以波阵面(wavefront)为前提进行了说明,但并不限定于此。

但是,在波阵面的情况下,不能将全部的子流同时开始。如上述那样,关于开头的子流以外的各子流,处理(编码或解码)的开始比先行的子流晚两个LCU。因此,在波阵面中,更加要求处理的缩短。在本实施方式中,通过将依赖性指示符(dependent_slice_flag)配置在识别PPS的句法之后且切片地址之前,能够减少要解析的句法元素的数量,能够缩短处理。

此外,在上述实施方式1~8中,通过将依赖性指示符配置在切片头内的更上方(特别是开头),例如能够在图片的处理的较早的阶段确认各切片是否为依赖切片。

即,在对图片的处理(编码处理或解码处理)开始时,如果针对多个切片分别执行确认是否为依赖切片的步骤,则在对图片的处理开始时能够提取并行处理的开始点。即,在图片中包含多个通常切片的情况下,能够在对图片的处理开始时(或处理的较早的阶段)提取并行处理的开始点。

这里,在如以往那样依赖性指示符配置在切片地址之后的情况下,在该切片地址的解析结束之前,不能确认切片是依赖切片还是通常切片。在此情况下,处于图片的中途的通常切片的处理的开始与处于图片的开头的通常切片的处理的开始相比延迟很多。

相对于此,在上述实施方式1~8中,由于能够在图片的处理的较早的阶段确认各切片是否为依赖切片,所以能够较早地知道处于图片的中途的通常切片的处理开始。换言之,能够使处于图片的中途的通常切片的处理与处于图片的开头的通常切片大致同时开始。

(实施方式9)

通过将用来实现上述各实施方式所示的运动图像编码方法(图像编码方法)或运动图像解码方法(图像解码方法)的结构的程序记录到存储介质中,能够将上述各实施方式所示的处理在独立的计算机系统中简单地实施。存储介质是磁盘、光盘、光磁盘、IC卡、半导体存储器等,只要是能够记录程序的介质就可以。

进而,这里说明在上述各实施方式中示出的运动图像编码方法(图像编码方法)及运动图像解码方法(图像解码方法)的应用例和使用它的系统。该系统的特征在于,具有由使用图像编码方法的图像编码装置及使用图像解码方法的图像解码装置构成的图像编码解码装置。关于系统的其他结构,可以根据情况而适当变更。

图17是表示实现内容分发服务的内容供给系统ex100的整体结构的图。将通信服务的提供区划分为希望的大小,在各小区内分别设置有作为固定无线站的基站ex106、ex107、ex108、ex109、ex110。

该内容供给系统ex100在因特网ex101上经由因特网服务提供商ex102及电话网ex104、及基站ex107~ex110连接着计算机ex111、PDA(Personal Digital Assistant)ex112、照相机ex113、便携电话ex114、游戏机ex115等的各设备。

但是,内容供给系统ex100并不限定于图17那样的结构,也可以将某些元素组合连接。此外,也可以不经由作为固定无线站的基站ex107~ex110将各设备直接连接在电话网ex104上。此外,也可以将各设备经由近距离无线等直接相互连接。

照相机ex113是能够进行数字摄像机等的运动图像摄影的设备,照相机ex116是能够进行数字照相机等的静止图像摄影、运动图像摄影的设备。此外,便携电话ex114是GSM(Global System for Mobile Communications)方式、CDMA(Code Division MultipleAccess)方式、W-CDMA(Wideband-Code Division Multiple Access)方式、或LTE(Long Term Evolution)方式、HSPA(High Speed Packet Access)的便携电话机、或PHS(Personal Handyphone System)等,是哪种都可以。

在内容供给系统ex100中,通过将照相机ex113等经由基站ex109、电话网ex104连接在流媒体服务器ex103上,能够进行现场转播等。在现场转播中,对用户使用照相机ex113摄影的内容(例如音乐会现场的影像等)如在上述各实施方式中说明那样进行编码处理(即,作为本发明的一个方式的图像编码装置发挥作用),向流媒体服务器ex103发送。另一方面,流媒体服务器ex103将发送来的内容数据对有请求的客户端进行流分发。作为客户端,有能够将上述编码处理后的数据解码的计算机ex111、PDAex112、照相机ex113、便携电话ex114、游戏机ex115等。在接收到分发的数据的各设备中,将接收到的数据解码处理而再现(即,作为本发明的一个方式的图像解码装置发挥作用)。

另外,摄影的数据的编码处理既可以由照相机ex113进行,也可以由进行数据的发送处理的流媒体服务器ex103进行,也可以相互分担进行。同样,分发的数据的解码处理既可以由客户端进行,也可以由流媒体服务器ex103进行,也可以相互分担进行。此外,并不限于照相机ex113,也可以将由照相机ex116摄影的静止图像及/或运动图像数据经由计算机ex111向流媒体服务器ex103发送。此情况下的编码处理由照相机ex116、计算机ex111、流媒体服务器ex103的哪个进行都可以,也可以相互分担进行。

此外,这些编码解码处理一般在计算机ex111或各设备具有的LSIex500中处理。LSIex500既可以是单芯片,也可以是由多个芯片构成的结构。另外,也可以将运动图像编码解码用的软件装入到能够由计算机ex111等读取的某些记录介质(CD-ROM、软盘、硬盘等)中、使用该软件进行编码解码处理。进而,在便携电话ex114是带有照相机的情况下,也可以将由该照相机取得的运动图像数据发送。此时的运动图像数据是由便携电话ex114具有的LSIex500编码处理的数据。

此外,也可以是,流媒体服务器ex103是多个服务器或多个计算机,是将数据分散处理、记录、及分发的。

如以上这样,在内容供给系统ex100中,客户端能够接收编码的数据而再现。这样,在内容供给系统ex100中,客户端能够将用户发送的信息实时地接收、解码、再现,即使是没有特别的权利或设备的用户也能够实现个人广播。

另外,并不限定于内容供给系统ex100的例子,如图18所示,在数字广播用系统ex200中也能够装入上述实施方式的至少运动图像编码装置(图像编码装置)或运动图像解码装置(图像解码装置)的某个。具体而言,在广播站ex201中,将对影像数据复用了音乐数据等而得到的复用数据经由电波向通信或广播卫星ex202传送。该影像数据是通过上述各实施方式中说明的运动图像编码方法编码后的数据(即,通过本发明的一个方式的图像编码装置编码后的数据)。接受到该数据的广播卫星ex202发出广播用的电波,能够对该电波进行卫星广播接收的家庭的天线ex204接收该电波,通过电视机(接收机)ex300或机顶盒(STB)ex217等的装置将接收到的复用数据解码并将其再现(即,作为本发明的一个方式的图像解码装置发挥作用)。

此外,也可以是,在将记录在DVD、BD等的记录介质ex215中的复用数据读取并解码、或将影像数据编码再根据情况与音乐信号复用而写入记录介质ex215中的读取器/记录器ex218中也能够安装上述各实施方式所示的运动图像解码装置或运动图像编码装置。在此情况下,可以将再现的影像信号显示在监视器ex219上,通过记录有复用数据的记录介质ex215在其他装置或系统中能够再现影像信号。此外,也可以是,在连接在有线电视用的线缆ex203或卫星/地面波广播的天线ex204上的机顶盒ex217内安装运动图像解码装置,将其用电视机的监视器ex219显示。此时,也可以不是在机顶盒、而在电视机内装入运动图像解码装置。

图19是表示使用在上述各实施方式中说明的运动图像解码方法及运动图像编码方法的电视机(接收机)ex300的图。电视机ex300具备经由接收上述广播的天线ex204或线缆ex203等取得或者输出对影像数据复用了声音数据的复用数据的调谐器ex301、将接收到的复用数据解调或调制为向外部发送的编码数据的调制/解调部ex302、和将解调后的复用数据分离为影像数据、声音数据或将在信号处理部ex306中编码的影像数据、声音数据复用的复用/分离部ex303。

此外,电视机ex300具备:具有将声音数据、影像数据分别解码、或将各自的信息编码的声音信号处理部ex304和影像信号处理部ex305(即,作为本发明的一个方式的图像编码装置或图像解码装置发挥作用)的信号处理部ex306;具有将解码后的声音信号输出的扬声器ex307及显示解码后的影像信号的显示器等的显示部ex308的输出部ex309。进而,电视机ex300具备具有受理用户操作的输入的操作输入部ex312等的接口部ex317。进而,电视机ex300具有合并控制各部的控制部ex310、对各部供给电力的电源电路部ex311。接口部ex317也可以除了操作输入部ex312以外,还具有与读取器/记录器ex218等的外部设备连接的桥接部ex313、用来能够安装SD卡等的记录介质ex216的插槽部ex314、用来与硬盘等的外部记录介质连接的驱动器ex315、与电话网连接的调制解调器ex316等。另外,记录介质ex216是能够通过收存的非易失性/易失性的半导体存储元件电气地进行信息的记录的结构。电视机ex300的各部经由同步总线相互连接。

首先,对电视机ex300将通过天线ex204等从外部取得的复用数据解码、再现的结构进行说明。电视机ex300接受来自遥控器ex220等的用户操作,基于具有CPU等的控制部ex310的控制,将由调制/解调部ex302解调的复用数据用复用/分离部ex303分离。进而,电视机ex300将分离的声音数据用声音信号处理部ex304解码,将分离的影像数据用影像信号处理部ex305使用在上述各实施方式中说明的解码方法解码。将解码后的声音信号、影像信号分别从输出部ex309朝向外部输出。在输出时,可以暂时将这些信号储存到缓冲器ex318、ex319等中,以使声音信号和影像信号同步再现。此外,电视机ex300也可以不是从广播等、而从磁/光盘、SD卡等的记录介质ex215、ex216读出编码的复用数据。接着,对电视机ex300将声音信号或影像信号编码、向外部发送或写入到记录介质等中的结构进行说明。电视机ex300接受来自遥控器ex220等的用户操作,基于控制部ex310的控制,由声音信号处理部ex304将声音信号编码,由影像信号处理部ex305将影像信号使用在上述各实施方式中说明的编码方法编码。将编码后的声音信号、影像信号用复用/分离部ex303复用,向外部输出。在复用时,可以暂时将这些信号储存到缓冲器ex320、ex321等中,以使声音信号和影像信号同步再现。另外,缓冲器ex318、ex319、ex320、ex321既可以如图示那样具备多个,也可以是共用一个以上的缓冲器的结构。进而,在图示以外,也可以是,在例如调制/解调部ex302或复用/分离部ex303之间等也作为避免系统的上溢、下溢的缓冲部而在缓冲器中储存数据。

此外,电视机ex300除了从广播等或记录介质等取得声音数据、影像数据以外,也可以具备受理麦克风或照相机的AV输入的结构,对从它们中取得的数据进行编码处理。另外,这里,将电视机ex300作为能够进行上述编码处理、复用、及外部输出的结构进行了说明,但也可以是,不能进行这些处理,而是仅能够进行上述接收、解码处理、外部输出的结构。

此外,在由读取器/记录器ex218从记录介质将复用数据读出、或写入的情况下,上述解码处理或编码处理由电视机ex300、读取器/记录器ex218的哪个进行都可以,也可以是电视机ex300和读取器/记录器ex218相互分担进行。

作为一例,将从光盘进行数据的读入或写入的情况下的信息再现/记录部ex400的结构表示在图20中。信息再现/记录部ex400具备以下说明的单元ex401、ex402、ex403、ex404、ex405、ex406、ex407。光头ex401对作为光盘的记录介质ex215的记录面照射激光斑而写入信息,检测来自记录介质ex215的记录面的反射光而读入信息。调制记录部ex402电气地驱动内置在光头ex401中的半导体激光器,根据记录数据进行激光的调制。再现解调部ex403将由内置在光头ex401中的光检测器电气地检测到来自记录面的反射光而得到的再现信号放大,将记录在记录介质ex215中的信号成分分离并解调,再现所需要的信息。缓冲器ex404将用来记录到记录介质ex215中的信息及从记录介质ex215再现的信息暂时保持。盘马达ex405使记录介质ex215旋转。伺服控制部ex406一边控制盘马达ex405的旋转驱动一边使光头ex401移动到规定的信息轨道,进行激光斑的追踪处理。系统控制部ex407进行信息再现/记录部ex400整体的控制。上述的读出及写入的处理由系统控制部ex407利用保持在缓冲器ex404中的各种信息、此外根据需要而进行新的信息的生成、追加、并且一边使调制记录部ex402、再现解调部ex403、伺服控制部ex406协调动作、一边通过光头ex401进行信息的记录再现来实现。系统控制部ex407例如由微处理器构成,通过执行读出写入的程序来执行它们的处理。

以上,假设光头ex401照射激光斑而进行了说明,但也可以是使用近场光进行高密度的记录的结构。

在图21中表示作为光盘的记录介质ex215的示意图。在记录介质ex215的记录面上,以螺旋状形成有导引槽(沟),在信息轨道ex230中,预先通过沟的形状的变化而记录有表示盘上的绝对位置的地址信息。该地址信息包括用来确定作为记录数据的单位的记录块ex231的位置的信息,通过在进行记录及再现的装置中将信息轨道ex230再现而读取地址信息,能够确定记录块。此外,记录介质ex215包括数据记录区域ex233、内周区域ex232、外周区域ex234。为了记录用户数据而使用的区域是数据记录区域ex233,配置在比数据记录区域ex233靠内周或外周的内周区域ex232和外周区域ex234用于用户数据的记录以外的特定用途。信息再现/记录部ex400对这样的记录介质ex215的数据记录区域ex233进行编码的声音数据、影像数据或复用了这些数据的编码数据的读写。

以上,举1层的DVD、BD等的光盘为例进行了说明,但并不限定于这些,也可以是多层构造、在表面以外也能够记录的光盘。此外,也可以是在盘的相同的地方使用不同波长的颜色的光记录信息、或从各种角度记录不同的信息的层等、进行多维的记录/再现的构造的光盘。

此外,在数字广播用系统ex200中,也可以由具有天线ex205的车ex210从卫星ex202等接收数据、在车ex210具有的车载导航仪ex211等的显示装置上再现运动图像。另外,车载导航仪ex211的结构可以考虑例如在图19所示的结构中添加GPS接收部的结构,在计算机ex111及便携电话ex114等中也可以考虑同样的结构。

图22A是表示使用在上述实施方式中说明的运动图像解码方法和运动图像编码方法的便携电话ex114的图。便携电话ex114具有由用来在与基站ex110之间收发电波的天线ex350、能够拍摄影像、静止图像的照相机部ex365、显示将由照相机部ex365摄影的影像、由天线ex350接收到的影像等解码后的数据的液晶显示器等的显示部ex358。便携电话ex114还具有包含操作键部ex366的主体部、用来进行声音输出的扬声器等的声音输出部ex357、用来进行声音输入的麦克风等的声音输入部ex356、保存拍摄到的影像、静止图像、录音的声音、或者接收到的影像、静止图像、邮件等的编码后的数据或者解码后的数据的存储器部ex367、或者作为与同样保存数据的记录介质之间的接口部的插槽部ex364。

进而,使用图22B对便携电话ex114的结构例进行说明。便携电话ex114对于合并控制具备显示部ex358及操作键部ex366的主体部的各部的主控制部ex360,将电源电路部ex361、操作输入控制部ex362、影像信号处理部ex355、照相机接口部ex363、LCD(Liquid Crystal Display:液晶显示器)控制部ex359、调制/解调部ex352、复用/分离部ex353、声音信号处理部ex354、插槽部ex364、存储器部ex367经由总线ex370相互连接。

电源电路部ex361如果通过用户的操作使通话结束及电源键成为开启状态,则通过从电池组对各部供给电力,便携电话ex114起动为能够动作的状态。

便携电话ex114基于具有CPU、ROM及RAM等的主控制部ex360的控制,在语音通话模式时,将由声音输入部ex356集音的声音信号通过声音信号处理部ex354变换为数字声音信号,将其用调制/解调部ex352进行波谱扩散处理,由发送/接收部ex351实施数字模拟变换处理及频率变换处理后经由天线ex350发送。此外,便携电话ex114在语音通话模式时,将由天线ex350接收到的接收数据放大并实施频率变换处理及模拟数字变换处理,用调制/解调部ex352进行波谱逆扩散处理,通过声音信号处理部ex354变换为模拟声音数据后,将其经由声音输出部ex357输出。

进而,在数据通信模式时发送电子邮件的情况下,将通过主体部的操作键部ex366等的操作输入的电子邮件的文本数据经由操作输入控制部ex362向主控制部ex360送出。主控制部ex360将文本数据用调制/解调部ex352进行波谱扩散处理,由发送/接收部ex351实施数字模拟变换处理及频率变换处理后,经由天线ex350向基站ex110发送。在接收电子邮件的情况下,对接收到的数据执行上述处理的大致逆处理,并输出到显示部ex358。

在数据通信模式时,在发送影像、静止图像、或者影像和声音的情况下,影像信号处理部ex355将从照相机部ex365供给的影像信号通过上述各实施方式所示的运动图像编码方法进行压缩编码(即,作为本发明的一个方式的图像编码装置发挥作用),将编码后的影像数据送出至复用/分离部ex353。另外,声音信号处理部ex354对通过照相机部ex365拍摄影像、静止图像等的过程中用声音输入部ex356集音的声音信号进行编码,将编码后的声音数据送出至复用/分离部ex353。

复用/分离部ex353通过规定的方式,对从影像信号处理部ex355供给的编码后的影像数据和从声音信号处理部ex354供给的编码后的声音数据进行复用,将其结果得到的复用数据用调制/解调部(调制/解调电路部)ex352进行波谱扩散处理,由发送/接收部ex351实施数字模拟变换处理及频率变换处理后,经由天线ex350发送。

在数据通信模式时接收到链接到主页等的运动图像文件的数据的情况下,或者接收到附加了影像或者声音的电子邮件的情况下,为了对经由天线ex350接收到的复用数据进行解码,复用/分离部ex353通过将复用数据分离,分为影像数据的比特流和声音数据的比特流,经由同步总线ex370将编码后的影像数据向影像信号处理部ex355供给,并将编码后的声音数据向声音信号处理部ex354供给。影像信号处理部ex355通过与上述各实施方式所示的运动图像编码方法相对应的运动图像解码方法进行解码,由此对影像信号进行解码(即,作为本发明的一个方式的图像解码装置发挥作用),经由LCD控制部ex359从显示部ex358显示例如链接到主页的运动图像文件中包含的影像、静止图像。另外,声音信号处理部ex354对声音信号进行解码,从声音输出部ex357输出声音。

此外,上述便携电话ex114等的终端与电视机ex300同样,除了具有编码器、解码器两者的收发型终端以外,还可以考虑只有编码器的发送终端、只有解码器的接收终端的3种安装形式。另外,在数字广播用系统ex200中,设为发送、接收在影像数据中复用了音乐数据等得到的复用数据而进行了说明,但除声音数据之外复用了与影像关联的字符数据等的数据也可以,不是复用数据而是影像数据本身也可以。

这样,将在上述各实施方式中表示的运动图像编码方法或运动图像解码方法用在上述哪种设备、系统中都可以,通过这样,能够得到在上述各实施方式中说明的效果。

此外,本发明并不限定于这样的上述实施方式,能够不脱离本发明的范围而进行各种变形或修正。

(实施方式10)

也可以通过将在上述各实施方式中示出的运动图像编码方法或装置、与依据MPEG-2、MPEG4-AVC、VC-1等不同的标准的运动图像编码方法或装置根据需要而适当切换,来生成影像数据。

这里,在生成分别依据不同的标准的多个影像数据的情况下,在解码时,需要选择对应于各个标准的解码方法。但是,由于不能识别要解码的影像数据依据哪个标准,所以产生不能选择适当的解码方法的问题。

为了解决该问题,在影像数据中复用了声音数据等的复用数据采用包含表示影像数据依据哪个标准的识别信息的结构。以下,说明包括通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据在内的复用数据的具体的结构。复用数据是MPEG-2传输流形式的数字流。

图23是表示复用数据的结构的图。如图23所示,复用数据通过将视频流、音频流、演示图形流(PG)、交互图形流中的1个以上进行复用而得到。视频流表示电影的主影像及副影像,音频流(IG)表示电影的主声音部分和与该主声音混合的副声音,演示图形流表示电影的字幕。这里,所谓主影像,表示显示在画面上的通常的影像,所谓副影像,是在主影像中用较小的画面显示的影像。此外,交互图形流表示通过在画面上配置GUI部件而制作的对话画面。视频流通过在上述各实施方式中示出的运动图像编码方法或装置、依据以往的MPEG-2、MPEG4-AVC、VC-1等标准的运动图像编码方法或装置编码。音频流由杜比AC-3、DolbyDigital Plus、MLP、DTS、DTS-HD、或线性PCM等的方式编码。

包含在复用数据中的各流通过PID被识别。例如,对在电影的影像中使用的视频流分配0x1011,对音频流分配0x1100到0x111F,对演示图形分配0x1200到0x121F,对交互图形流分配0x1400到0x141F,对在电影的副影像中使用的视频流分配0x1B00到0x1B1F,对与主声音混合的副声音中使用的音频流分配0x1A00到0x1A1F。

图24是示意地表示复用数据怎样被复用的图。首先,将由多个视频帧构成的视频流ex235、由多个音频帧构成的音频流ex238分别变换为PES包序列ex236及ex239,并变换为TS包ex237及ex240。同样,将演示图形流ex241及交互图形ex244的数据分别变换为PES包序列ex242及ex245,再变换为TS包ex243及ex246。复用数据ex247通过将这些TS包复用到1条流中而构成。

图25更详细地表示在PES包序列中怎样保存视频流。图25的第1段表示视频流的视频帧序列。第2段表示PES包序列。如图25的箭头yy1、yy2、yy3、yy4所示,视频流中的多个作为Video Presentation Unit的I图片、B图片、P图片按每个图片被分割并保存到PES包的有效载荷中。各PES包具有PES头,在PES头中,保存有作为图片的显示时刻的PTS(Presentation Time-Stamp)及作为图片的解码时刻的DTS(Decoding Time-Stamp)。

图26表示最终写入在复用数据中的TS包的形式。TS包是由具有识别流的PID等信息的4字节的TS头和保存数据的184字节的TS有效载荷构成的188字节固定长度的包,上述PES包被分割并保存到TS有效载荷中。在BD-ROM的情况下,对于TS包赋予4字节的TP_Extra_Header,构成192字节的源包,写入到复用数据中。在TP_Extra_Header中记载有ATS(Arrival_Time_Stamp)等信息。ATS表示该TS包向解码器的PID滤波器的转送开始时刻。在复用数据中,源包如图26下段所示排列,从复用数据的开头起递增的号码被称作SPN(源包号)。

此外,在复用数据所包含的TS包中,除了影像、声音、字幕等的各流以外,还有PAT(ProgramAssociation Table)、PMT(Program Map Table)、PCR(Program Clock Reference)等。PAT表示在复用数据中使用的PMT的PID是什么,PAT自身的PID被登记为0。PMT具有复用数据所包含的影像、声音、字幕等的各流的PID、以及与各PID对应的流的属性信息,还具有关于复用数据的各种描述符。在描述符中,有指示许可/不许可复用数据的拷贝的拷贝控制信息等。PCR为了取得作为ATS的时间轴的ATC(Arrival Time Clock)与作为PTS及DTS的时间轴的STC(System Time Clock)的同步,拥有与该PCR包被转送至解码器的ATS对应的STC时间的信息。

图27是详细地说明PMT的数据构造的图。在PMT的开头,配置有记述了包含在该PMT中的数据的长度等的PMT头。在其后面,配置有多个关于复用数据的描述符。上述拷贝控制信息等被记载为描述符。在描述符之后,配置有多个关于包含在复用数据中的各流的流信息。流信息由记载有用来识别流的压缩编解码器的流类型、流的PID、流的属性信息(帧速率、纵横比等)的流描述符构成。流描述符存在复用数据中存在的流的数量。

在记录到记录介质等中的情况下,将上述复用数据与复用数据信息文件一起记录。

复用数据信息文件如图28所示,是复用数据的管理信息,与复用数据一对一地对应,由复用数据信息、流属性信息以及入口映射构成。

复用数据信息如图28所示,由系统速率、再现开始时刻、再现结束时刻构成。系统速率表示复用数据的向后述的系统目标解码器的PID滤波器的最大转送速率。包含在复用数据中的ATS的间隔设定为成为系统速率以下。再现开始时刻是复用数据的开头的视频帧的PTS,再现结束时刻设定为对复用数据的末端的视频帧的PTS加上1帧量的再现间隔的值。

流属性信息如图29所示,按每个PID登记有关于包含在复用数据中的各流的属性信息。属性信息具有按视频流、音频流、演示图形流、交互图形流而不同的信息。视频流属性信息具有该视频流由怎样的压缩编解码器压缩、构成视频流的各个图片数据的分辨率是多少、纵横比是多少、帧速率是多少等的信息。音频流属性信息具有该音频流由怎样的压缩编解码器压缩、包含在该音频流中的声道数是多少、对应于哪种语言、采样频率是多少等的信息。这些信息用于在播放器再现之前的解码器的初始化等中。

在本实施方式中,使用上述复用数据中的、包含在PMT中的流类型。此外,在记录介质中记录有复用数据的情况下,使用包含在复用数据信息中的视频流属性信息。具体而言,在上述各实施方式示出的运动图像编码方法或装置中,设置如下步骤或单元,该步骤或单元对包含在PMT中的流类型、或视频流属性信息,设定表示是通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据的固有信息。通过该结构,能够识别通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据、和依据其他标准的影像数据。

此外,在图30中表示本实施方式的运动图像解码方法的步骤。在步骤exS100中,从复用数据中取得包含在PMT中的流类型、或包含在复用数据信息中的视频流属性信息。接着,在步骤exS101中,判断流类型、或视频流属性信息是否表示是通过在上述各实施方式中示出的运动图像编码方法或装置生成的复用数据。并且,在判断为流类型、或视频流属性信息是通过在上述各实施方式中示出的运动图像编码方法或装置生成的复用数据情况下,在步骤exS102中,通过在上述各实施方式中示出的运动图像解码方法进行解码。此外,在流类型、或视频流属性信息表示是依据以往的MPEG-2、MPEG4-AVC、VC-1等的标准的复用数据的情况下,在步骤exS103中,通过依据以往的标准的运动图像解码方法进行解码。

这样,通过在流类型、或视频流属性信息中设定新的固有值,在解码时能够判断是否能够通过在上述各实施方式中示出的运动图像解码方法或装置解码。因而,在被输入了依据不同的标准的复用数据的情况下,也能够选择适当的解码方法或装置,所以能够不发生错误地进行解码。此外,将在本实施方式中示出的运动图像编码方法或装置、或者运动图像解码方法或装置用在上述任何设备、系统中。

(实施方式11)

在上述各实施方式中示出的运动图像编码方法及装置、运动图像解码方法及装置典型地可以由作为集成电路的LSI实现。作为一例,在图31中表示1芯片化的LSIex500的结构。LSIex500具备以下说明的单元ex501、ex502、ex503、ex504、ex505、ex506、ex507、ex508、ex509,各单元经由总线ex510连接。电源电路部ex505通过在电源是开启状态的情况下对各部供给电力,起动为能够动作的状态。

例如在进行编码处理的情况下,LSIex500基于具有CPUex502、存储器控制器ex503、流控制器ex504、驱动频率控制部ex512等的控制部ex501的控制,通过AV I/Oex509从麦克风ex117及照相机ex113等输入AV信号。被输入的AV信号暂时储存在SDRAM等的外部的存储器ex511中。基于控制部ex501的控制,将储存的数据根据处理量及处理速度适当地分为多次等,向信号处理部ex507发送,在信号处理部ex507中进行声音信号的编码及/或影像信号的编码。这里,影像信号的编码处理是在上述各实施方式中说明的编码处理。在信号处理部ex507中,还根据情况而进行将编码的声音数据和编码的影像数据复用等的处理,从流I/Oex506向外部输出。将该输出的比特流向基站ex107发送、或写入到记录介质ex215中。另外,在复用时,可以暂时将数据储存到缓冲器ex508中以使其同步。

另外,在上述中,设存储器ex511为LSIex500的外部的结构进行了说明,但也可以是包含在LSIex500的内部中的结构。缓冲器ex508也并不限定于一个,也可以具备多个缓冲器。此外,LSIex500既可以形成1个芯片,也可以形成多个芯片。

此外,在上述中,假设控制部ex510具有CPUex502、存储器控制器ex503、流控制器ex504、驱动频率控制部ex512等,但控制部ex510的结构并不限定于该结构。例如,也可以是信号处理部ex507还具备CPU的结构。通过在信号处理部ex507的内部中也设置CPU,能够进一步提高处理速度。此外,作为其他例,也可以是CPUex502具备信号处理部ex507、或作为信号处理部ex507的一部分的例如声音信号处理部的结构。在这样的情况下,控制部ex501为具备具有信号处理部ex507或其一部分的CPUex502的结构。

另外,这里设为LSI,但根据集成度的差异,也有称作IC、系统LSI、超级(super)LSI、特级(ultra)LSI的情况。

此外,集成电路化的方法并不限定于LSI,也可以由专用电路或通用处理器实现。也可以利用在LSI制造后能够编程的FPGA(FieldProgrammable Gate Array)、或能够重构LSI内部的电路单元的连接及设定的可重构处理器。这样的可编程逻辑设备典型的是,能够通过加载或从存储器等读入构成软件或固件的程序来执行在上述各实施方式中示出的运动图像编码方法或运动图像解码方法。

进而,如果因半导体技术的进步或派生的其他技术而出现代替LSI的集成电路化的技术,则当然也可以使用该技术进行功能模块的集成化。有可能是生物技术的应用等。

(实施方式12)

在将通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据解码的情况下,考虑到与将依据以往的MPEG-2、MPEG4-AVC、VC-1等标准的影像数据的情况相比处理量会增加。因此,在LSIex500中,需要设定为比将依据以往的标准的影像数据解码时的CPUex502的驱动频率更高的驱动频率。但是,如果将驱动频率设得高,则发生消耗电力变高的问题。

为了解决该问题,电视机ex300、LSIex500等的运动图像解码装置采用识别影像数据依据哪个标准、并根据标准切换驱动频率的结构。图32表示本实施方式的结构ex800。驱动频率切换部ex803在影像数据是通过在上述各实施方式中示出的运动图像编码方法或装置生成的情况下,将驱动频率设定得高。并且,对执行在上述各实施方式中示出的运动图像解码方法的解码处理部ex801指示将影像数据解码。另一方面,在影像数据是依据以往的标准的影像数据的情况下,与影像数据是通过在上述各实施方式中示出的运动图像编码方法或装置生成的数据的情况相比,将驱动频率设定得低。并且,对依据以往的标准的解码处理部ex802指示将影像数据解码。

更具体地讲,驱动频率切换部ex803由图31的CPUex502和驱动频率控制部ex512构成。此外,执行在上述各实施方式中示出的运动图像解码方法的解码处理部ex801、以及依据以往的标准的解码处理部ex802对应于图31的信号处理部ex507。CPUex502识别影像数据依据哪个标准。并且,基于来自CPUex502的信号,驱动频率控制部ex512设定驱动频率。此外,基于来自CPUex502的信号,信号处理部ex507进行影像数据的解码。这里,可以考虑在影像数据的识别中使用例如在实施方式10中记载的识别信息。关于识别信息,并不限定于在实施方式10中记载的信息,只要是能够识别影像数据依据哪个标准的信息就可以。例如,在基于识别影像数据利用于电视机还是利用于盘等的外部信号,来能够识别影像数据依据哪个标准的情况下,也可以基于这样的外部信号进行识别。此外,CPUex502的驱动频率的选择例如可以考虑如图34所示的将影像数据的标准与驱动频率建立对应的查找表进行。将查找表预先保存到缓冲器ex508、或LSI的内部存储器中,CPUex502通过参照该查找表,能够选择驱动频率。

图33表示实施本实施方式的方法的步骤。首先,在步骤exS200中,在信号处理部ex507中,从复用数据中取得识别信息。接着,在步骤exS201中,在CPUex502中,基于识别信息识别影像数据是否是通过在上述各实施方式中示出的编码方法或装置生成的数据。在影像数据是通过在上述各实施方式中示出的编码方法或装置生成的数据的情况下,在步骤exS202中,CPUex502向驱动频率控制部ex512发送将驱动频率设定得高的信号。并且,在驱动频率控制部ex512中设定为高的驱动频率。另一方面,在表示是依据以往的MPEG-2、MPEG4-AVC、VC-1等的标准的影像数据的情况下,在步骤exS203中,CPUex502向驱动频率控制部ex512发送将驱动频率设定得低的信号。并且,在驱动频率控制部ex512中,设定为与影像数据是通过在上述各实施方式中示出的编码方法或装置生成的数据的情况相比更低的驱动频率。

进而,通过与驱动频率的切换连动而变更对LSIex500或包括LSIex500的装置施加的电压,由此能够进一步提高节电效果。例如,在将驱动频率设定得低的情况下,随之,可以考虑与将驱动频率设定得高的情况相比,将对LSIex500或包括LSIex500的装置施加的电压设定得低。

此外,驱动频率的设定方法只要是在解码时的处理量大的情况下将驱动频率设定得高、在解码时的处理量小的情况下将驱动频率设定得低就可以,并不限定于上述的设定方法。例如,可以考虑在将依据MPEG4-AVC标准的影像数据解码的处理量大于将通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据解码的处理量的情况下,与上述的情况相反地进行驱动频率的设定。

进而,驱动频率的设定方法并不限定于使驱动频率低的结构。例如,也可以考虑在识别信息是通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据的情况下,将对LSIex500或包括LSIex500的装置施加的电压设定得高,在表示是依据以往的MPEG-2、MPEG4-AVC、VC-1等的标准的影像数据的情况下,将对LSIex500或包括LSIex500的装置施加的电压设定得低。此外,作为另一例,也可以考虑在识别信息表示是通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据的情况下,不使CPUex502的驱动停止,在表示是依据以往的MPEG-2、MPEG4-AVC、VC-1等的标准的影像数据的情况下,由于在处理中有富余,所以使CPUex502的驱动暂停。也可以考虑在识别信息表示是通过在上述各实施方式中示出的运动图像编码方法或装置生成的影像数据的情况下,也只要在处理中有富余则使CPUex502的驱动暂停。在此情况下,可以考虑与表示是依据以往的MPEG-2、MPEG4-AVC、VC-1等的标准的影像数据的情况相比,将停止时间设定得短。

这样,根据影像数据所依据的标准来切换驱动频率,由此能够实现节电化。此外,在使用电池来驱动LSIex500或包括LSIex500的装置的情况下,能够随着节电而延长电池的寿命。

(实施方式13)

在电视机、便携电话等上述的设备、系统中,有时被输入依据不同的标准的多个影像数据。这样,为了使得在被输入了依据不同的标准的多个影像数据的情况下也能够解码,LSIex500的信号处理部ex507需要对应于多个标准。但是,如果单独使用对应于各个标准的信号处理部ex507,则发生LSIex500的电路规模变大、此外成本增加的问题。

为了解决该问题,采用将用来执行在上述各实施方式中示出的运动图像解码方法的解码处理部、和依据以往的MPEG-2、MPEG4-AVC、VC-1等的标准的解码处理部一部分共用的结构。图35A的ex900表示该结构例。例如,在上述各实施方式中示出的运动图像解码方法和依据MPEG4-AVC标准的运动图像解码方法在熵编码、逆量化、解块滤波器、运动补偿等的处理中有一部分处理内容共通。可以考虑如下结构:关于共通的处理内容,共用对应于MPEG4-AVC标准的解码处理部ex902,关于不对应于MPEG4-AVC标准的本发明的一个方式所特有的其他的处理内容,使用专用的解码处理部ex901。关于解码处理部的共用,也可以是如下结构:关于共通的处理内容,共用用来执行在上述各实施方式中示出的运动图像解码方法的解码处理部,关于MPEG4-AVC标准所特有的处理内容,使用专用的解码处理部。

此外,用图35B的ex1000表示将处理一部分共用的另一例。在该例中,采用使用与本发明的一个方式所特有的处理内容对应的专用的解码处理部ex1001、和与其他的以往标准所特有的处理内容对应的专用的解码处理部ex1002、和与在本发明的一个方式的运动图像解码方法和其他的以往标准的运动图像解码方法中共通的处理内容对应的共用的解码处理部ex1003的结构。这里,专用的解码处理部ex1001、ex1002并不一定是为本发明的一个方式、或者其他的以往标准所特有的处理内容而特殊化的,可以是能够执行其他的通用处理的结构。此外,也能够由LSIex500安装本实施方式的结构。

这样,对于在本发明的一个方式的运动图像解码方法和以往的标准的运动图像解码方法中共通的处理内容,共用解码处理部,由此能够减小LSI的电路规模并且降低成本。

工业实用性

有关本发明的图像编码方法及图像解码方法能够适用于所有的多媒体数据。有关本发明的图像编码方法及图像解码方法例如作为使用便携电话、DVD装置及个人计算机等的储存、传送、通信等中的图像编码方法及图像解码方法具有实用性。

标号说明

100 编码器

105 减法器

110 变换部

120 量化部

130、230 逆变换部

140、240 加法器

150、250 解块滤波器

160、260 自适应循环滤波器

170、270 帧存储器

180、280 预测部

190 熵编码部

200 解码器

290 熵解码部

300、400、710 图片

31、32、3i、41、42 LCU行

311、312、3i1、321 LCU

500 包头

510 IP头

520、550 扩展字段

530 UDP头

540 RTP头

560 有效载荷头

570 NAL头

s1 输入信号

s2 预测信号

e、e’ 预测误差信号

s’、s”、s3 重构信号

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1