编码多个输入图像的方法及装置、存放程序的存储介质的制作方法

文档序号：9383431阅读：316来源：国知局

编码多个输入图像的方法及装置、存放程序的存储介质的制作方法
【技术领域】
[0001]本发明涉及对分别包含被摄体的不同信息的不同种类的多个输入图像进行编码的方法及装置、以及存放程序的存储介质。
【背景技术】
[0002]现有技术中，对于由在时域上配置的帧序列构成的运动图像，考虑其帧间的冗余性的影像编码(video coding)方法是已知的(例如，参照非专利文献I)。在典型的影像编码方法中，取代所输入的原始图像而传输P帧(predicted frame ;预测帧)和/或B帧(b1-direct1nal predicted frame ;双向预测帧)。P帧是通过前向预测而计算出的帧，B帧是通过前向预测、后向预测以及双向预测当中的任一者而计算出的帧。
[0003]非专利文献2公开将这样的影像编码的技术扩展至时域以及空间域来进行应用的方法。即，根据非专利文献2的示教内容，能对于在时域以及空间域上配置的多个帧，生成P帧和/或B帧。
[0004]作为在空间域上配置的帧序列的一例，能列举在使用多视点影像提供高清晰度的立体影像的三维影像技术中所使用的帧序列。这样的立体影像通过以非常多的视点(例如，200个视点)分别摄像被摄体而得到的多视点影像来实现。通过使用视点内插，对于在空间域上配置的帧序列，也能适用与针对在时域上配置的帧序列的编码同样的方法，该视点内插使用距离图这样的三维信息来生成P帧和/或B帧。
[0005]非专利文献3公开与多视点影像的编码有关的手法。非专利文献3公开如下手法:不仅在时域上而且在空间域上也使用视点内插，从而根据深度信息等的三维信息来生成P帧和/或B帧。
[0006]此外，在本说明书中，将数据压缩(变换)为与目的相符的码这一动作记为编码(encoding)，将变换后的码复原(解码)为原始的数据这一动作记为译码(decoding)。另夕卜，编码处理(coding)这一用语指编码单体、以及编码和译码这两者。
[0007]现有技术文献
[0008]非专利文献
[0009]非专利文献1: Thomas Wiegand, Gary J.Sullivan, Gisle Bjontegaard, and AjayLuthra, "Overview of the H.264/AVC Video Coding Standard"，IEEE Transact1ns onCircuits and Systems for Video Technology, Vol.13, N0.7, pp.560-576, July 2003
[0010]非专利文献2:Ρ.Merkle, K.Muller, A.Smolic, and T.Wiegand, "EfficientCompress1n of Mult1-view Video Exploiting inter-view dependencies based onH.264/MPEG4-AVC, "Proc.1CME 2006，pp.1717-1720
[0011]非专利文献3: S.Yea, A.Vetro, "View synthesis predict1n for multiviewvideo coding'Signal Processing:1mage Communicat1n 24(2009)pp.89-100.
【发明内容】

[0012]发明要解决的课题
[0013]根据非专利文献I?3所公开的方法，生成的P帧以及B帧是以残差(residualvalue)的形式进行传输的。在此，对残差的信息进一步执行数据压缩处理。在该数据压缩处理中，执行图像变换(典型地，离散余弦变换)、量化、熵编码(entropy coding)等。在数据压缩率高的情况下，由于执行量化，数据尺寸减小，从而产生显著的数据损失。也就是，其值小的残差的信息基于数据压缩处理而丢失。
[0014]另一方面，关于边缘信息(edge informat1n)或边界信息(boundaryinformat1n)这样的几个图像的特征量，必须保证:即使数据压缩率提高，该特征量也不发生丢失。
[0015]对于分别包含被摄体的不同信息的不同种类的多个输入图像，在压缩效率以及压缩质量这两者间取得平衡的编码技术是需要的。
[0016]用于解决课题的手段
[0017]遵照本发明的一局面，提供编码多个输入图像的方法。该方法包含如下步骤:获取多个第I输入图像和多个第2输入图像的步骤，该多个第I输入图像包含被摄体的第I信息，该多个第2输入图像与多个第I输入图像分别对应，且包含与被摄体的第I信息不同的第2信息；针对第I输入图像，根据包含在其他的第I输入图像以及第2输入图像的至少一者中的信息来计算第I预测图像的步骤；根据第I输入图像与对应的第I预测图像的差分来生成第I残差图像的步骤；基于第I残差图像的像素值，在构成第I残差图像的像素当中确定要以余数定义该像素值的区域的步骤；将第I残差图像的要以余数定义的区域中所含的像素值变换成余数的步骤；针对第2输入图像，根据包含在其他的第2输入图像以及第I输入图像的至少一者中的信息来计算第2预测图像的步骤；根据第2输入图像与对应的第2预测图像的差分来生成第2残差图像的步骤；基于第2残差图像的像素值，在构成第2残差图像的像素当中确定要以余数定义该像素值的区域的步骤；将第2残差图像的要以余数定义的区域中所含的像素值变换成余数的步骤；以及对变换后的第I残差图像、变换后的第2残差图像以及附加信息进行编码的步骤，该附加信息用于确定第I残差图像以及第2残差图像各自的要以余数定义的区域。
[0018]优选地，变换成余数的步骤包含如下步骤:对针对要以余数定义的区域的像素值执行取模运算的步骤；获取预测图像的梯度信息的步骤；以及参照梯度强度与成为取模运算的除数的值的预先规定的对应关系，基于获取到的梯度信息来决定成为取模运算的除数的值的步骤。
[0019]优选地，计算第I预测图像的步骤包含使用与计算对象的第I输入图像对应的第2输入图像以及先行的I个以上的第I输入图像来计算第I预测图像的步骤。
[0020]或者优选地，计算第2预测图像的步骤包含使用针对与计算对象的第2输入图像对应的第I输入图像的运动数据来计算第2预测图像的步骤，针对第I输入图像的运动数据表示先行的第I输入图像与计算对象的第I输入图像之间的变化成分。
[0021]优选地，计算第2预测图像的步骤包含使用计算对象的第2输入图像以及先行的I个以上的第2输入图像来计算第2预测图像的步骤。
[0022]遵照本发明的另一局面，提供存放对多个输入图像进行编码的程序的存储介质。该程序使计算机执行如下步骤:获取多个第I输入图像和多个第2输入图像的步骤，该多个第I输入图像包含被摄体的第I信息，该多个第2输入图像与多个第I输入图像分别对应，且包含与被摄体的第I信息不同的第2信息；针对第I输入图像，根据包含在其他的第I输入图像以及第2输入图像的至少一者中的信息来计算第I预测图像的步骤；根据第I输入图像与对应的第I预测图像的差分来生成第I残差图像的步骤；基于第I残差图像的像素值，在构成第I残差图像的像素当中确定要以余数定义该像素值的区域的步骤；将第I残差图像的要以余数定义的区域中所含的像素值变换成余数的步骤；针对第2输入图像，根据包含在其他的第2输入图像以及第I输入图像的至少一者中的信息来计算第2预测图像的步骤；根据第2输入图像与对应的第2预测图像的差分来生成第2残差图像的步骤；基于第2残差图像的像素值，在构成第2残差图像的像素当中确定要以余数定义该像素值的区域的步骤；将第2残差图像的要以余数定义的区域中所含的像素值变换成余数的步骤；以及对变换后的第I残差图像、变换后的第2残差图像以及附加信息进行编码的步骤，该附加信息用于确定第I残差图像以及第2残差图像各自的要以余数定义的区域。
[0023]遵照本发明的又一局面，提供编码多个输入图像的装置。该装置包含如下单元:获取多个第I输入图像和多个第2输入图像的单元，该多个第I输入图像包含被摄体的第I信息，该多个第2输入图像与多个第I输入图像分别对应，且包含与被摄体的第I信息不同的第2信息；针对第I输入图像，根据包含在其他的第I输入图像以及第2输入图像的至少一者中的信息来计算第I预测图像的单元；根据第I输入图像与对应的第I预测图像的差分来生成第I残差图像的单元；基于第I残差图像的像素值，在构成第I残差图像的像素当中确定要以余数定义该像素值的区域的单元；将第I残差图像的要以余数定义的区域中所含的像素值变换成余数的单元；针对第2输入图像，根据包含在其他的第2输入图像以及第I输入图像的至少一者中的信息来计算第2预测图像的单元；根据第2输入图像与对应的第2预测图像的差分来生成第2残差图像的单元；基于第2残差图像的像素值，在构成第2残差图像的像素当中确定要以余数定义该像素值的区域的单元；将第2残差图像的要以余数定义的区域中所含的像素值变换成余数的单元；以及对变换后的第I残差图像、变换后的第2残差图像以及附加信息进行编码的单元，该附加信息用于确定第I残差图像以及第2残差图像各自的要以余数定义的区域。
[0024]发明效果
[0025]根据本发明，能实现对于分别包含被摄体的不同信息的不同种类的多个输入图像取得了压缩效率以及压缩质量的平衡的编码技术。
【附图说明】
[0026]图1是表示包含本发明的实施方式所涉及的编码/译码系统的立体影像再现系统的图。
[0027]图2是本发明的关联技术所涉及的编码器的功能框图。
[0028]图3是本发明的关联技术所涉及的解码器的功能框图。
[0029]图4是表示本发明的关联技术所涉及的面向针对多视点影像的编码的构成的功能框图。
[0030]图5是表示本发明的关联技术所涉及的面向针对多视点影像的译码的构成的功能框图。
[0031]图6是本发明的实施方式所涉及的编码器群的功能框图。
[0032]图7是表示基于本发明的实施方式所涉及的编码的预测图像的生成过程的一例的图。
[0033]图8是用于说明本发明的实施方式所涉及的余数与残差的组合手法的图。
[0034]图9是本发明的实施方式所涉及的数据格式变换部的功能框图。
[0035]图10是表示用于决定在本发明的实施方式所涉及的余数的计算中所使用的系数的查询(Lookup)表的一例的图。
[0036]图11是本发明的实施方式所涉及的数据格式变换部的另一功能框图。
[0037]图12是本发明的实施方式所涉及的数据格式逆变换部的功能框图。
[0038]图13是本发明的实施方式所涉及的解码器群的功能框图。
[0039]图14是表示作为发送机发挥功能的信息处理装置的硬件构成的示意图。
[0040]图15是表示作为接收机发挥功能的信息处理装置的硬件构成的示意图。
【具体实施方式】
[0041]参照附图来详细说明本发明的实施方式。此外，对图中的相同或相当部分赋予同一附图标记并省略其说明。
[0042][A.应用例]
[0043]首先，为了使针对本发明的实施方式所涉及的编码/译码系统的理解容易，说明典型的应用例。此外，当然，本发明的实施方式所涉及的编码/译码系统的应用范围不限于以下所示的构成，能应用于任意的构成。另外，关于对仅执行编码以及译码的任一者的方法、装置、程序、其程序进行存放的存储介质等，也能包含于本发明的范围。
[0044]图1是表示包含本发明的实施方式所涉及的编码/译码系统的立体影像再现系统I的图。参照图1，在立体影像再现系统I中，使用由多个摄像头10组成的摄像头阵列对被摄体2进行摄像来生成多视点影像。多视点影像相当于从多个视点分别摄像被摄体2而得到的图像群。该多视点影像在由作为发送机发挥功能的信息处理装置100编码后进行传输。然后，通过编码而生成的数据由作为接收机发挥功能的信息处理装置200进行译码，并在立体显示装置300中再现该被摄体2。S卩，立体显示装置300显示被摄体2的立体影像。此外，关于从发送机到接收机的数据传输，不问有线以及无线，能使用任意的介质。
[0045]在本发明的实施方式中，对彼此关联的不同种类的图像群执行编码。作为典型例，根据由摄像头阵列获取到的多视点影像来生成多个影像和多个深度信息(depth map ;深度图)，并对各影像和深度信息执行编码。影像包含各视点下的亮度信息或颜色信息(即，各色彩分量的灰度信息)，深度信息包含从摄像的视点起至图像内的各点为止的距离(深度)的信息。典型地，影像包含按色彩分量而定义的灰度图像(灰度值的图)，深度信息包含各像素位置上的将距离作为像素值进行定义的灰度图像(灰度值的图)。
[0046]作为发送机发挥功能的信息处理装置100包含:执行针对所输入的图像的预处理的预处理器110、执行针对影像的编码的编码器120以及执行针对深度信息的编码的编码器140。作为由预处理器110执行的预处理，包含根据影像信号来生成深度信息的处理。编码器120与编码器140彼此共享信息来执行编码。通过在这样的编码器间采用能信息共享的机构，从而利用图像间的关联性(也就是，冗余性)，实现更高效的压缩处理。
[0047]由信息处理装置100执行的各编码如后所述，包含数据格式变换以及数据压缩的处理。S卩，本发明的实施方式所涉及的编码器并行地执行数据格式变换以及数据压缩。
[0048]另一方面，作为接收机发挥功能的信息处理装置200包含:对接收到的数据执行译码的解码器210及230、以及执行后置处理的后处理器240。解码器210对接收到的数据中所含的影像有关的数据进行译码，解码器230对接收到的数据中所含的深度信息有关的数据进行译码。对应于共享上述那样信息的编码，解码器210与解码器230彼此共享信息来执行译码。后处理器240对解码器210以及230的译码结果执行给定的处理，从而按投影机阵列302来生成用于由立体显示装置300再现被摄体2的信号。
[0049]由信息处理装置200执行的各译码如后所述，包含数据格式逆变换以及数据复原的处理。即，本发明的实施方式所涉及的解码器并行地执行数据格式逆变换以及数据复原。
[0050]立体显示装置300包含:主要由扩散膜312及聚光透镜314构成的显示屏310、以及向显示屏310投影多视点影像的投影机阵列302。构成投影机阵列302的各投影机将从信息处理装置200输出的多视点影像的对应的视点的图像向显示屏310投影。
[0051]根据这样的立体影像再现系统1，向位于显示屏310之前的观察者提供被摄体2的再现立体像。此时，根据显示屏310与观察者的相对位置，进入观察者视野的视点的图像将变化，观察者获得仿佛位于被摄体2之前那样的体验。
[0052]这样的立体影像再现系统I作为一般用途，在电影院或娱乐设施等中利用，作为产业用途，期待作为远程医疗系统、工业设计设计系统、公共视图联结(public viewing)等电子广告系统进行利用。
[0053][B.关联技术(其I)]
[0054]首先，说明与本发明的实施方式所涉及的编码/译码系统关联的技术。针对作为运动图像的压缩规格之一的 MPEG - 4AVC(ITU-T Recommendat1n H.264 | IS0/IEC14496-lOAdvanced Video Coding)的编码以及译码进行说明。
[0055]图2是本发明的关联技术所涉及的编码器820的功能框图。图3是本发明的关联技术所涉及的解码器910的功能框图。
[0056]首先，参照图2来说明编码。在图2所示的编码器820中，作为来自输入源的运动图像(即，配置于时域的帧序列)的影像信号的各帧被分割为多个宏块(Macroblock)，各宏块使用帧内预测(intra flame predict1n)或帧间预测(inter flame predict1n)进行内插。帧内预测是从同一帧的其他宏块内插作为对象的宏块的方法。另一方

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迈赫达德·帕纳坡尔·德黑兰尼;石川彰夫;河北真宏;井上直己;藤井俊彰;
技术所有人：国立研究开发法人情报通信研究机构;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。