对从全光相机获取的数据中获得的图像视图矩阵进行编码的方法与流程

文档序号：20365182发布日期：2020-04-10 23:58阅读：173来源：国知局

本公开涉及由全光(plenoptic)相机获取的4d原始光场数据的编码和解码。

背景技术：

本部分旨在向读者介绍本领域的各个方面，这些方面可能与下面描述和/或要求保护的本发明的各个方面有关。相信该讨论有助于向读者提供背景信息，以便更好地理解本发明的各个方面。因此，应当理解的是，这些陈述要在这种角度上阅读，而不是作为对现有技术的承认。

全光相机除了包括常规相机的特征外，还包括恰好位于传感器前面的微透镜阵列集合，如图1中所示或如文献wo2013/180192和gb2488905中所示。在这种架构中，每个微透镜在传感器上投影微透镜图像。因此，全光相机可以记录微透镜图像的集合(通常被称为4d原始光场数据，或者也被称为全光图像)，可以对该微透镜图像的集合进行处理以便执行例如图像的重聚焦(re-focusing)。应当注意，可以将这种4d原始光场数据转换为其他格式/表示(例如，经由与子孔径图像的集合相对应的格式(其中，一个子孔径图像对应于从一个视点捕获的场景的图像，两个子孔径图像之间的视点略有不同；这些子孔径图像给出关于所成像的场景的视差和深度的信息)，或经由与对极图像的集合相对应的格式(例如，参见s.wanner等人发表在isvc2011的会议记录中的题为“利用单透镜聚焦的全光相机生成4d光场的epi表示(generatingepirepresentationofa4dlightfieldswithasinglelensfocusedplenopticcamera)”的文章))。

因此，获得有效的编码技术以用于对作为子孔径图像的集合的数据(也称为子孔径图像矩阵)进行编码是一个繁忙的研究议题，这是由于它可以减少这种经编码数据的存储(或传输)的事实。

用于对作为子孔径图像的集合的数据进行编码的一种解决方案包括使用xiaoranjiang等人在题为“利用基于单应性的低秩近似的光场压缩(lightfieldcompressionwithhomography-basedlowrankapproximation”的文章中描述的技术，该文章提出通过使用一个或多个单应性来对齐不同的子孔径图像以获得光场低秩表示，然后使用经典的hevc编码技术对这种光场低秩表示进行编码。

用于对作为子孔径图像的集合的数据进行编码的另一种解决方案包括使用经典的编码技术，诸如在文献us2015/0319456中提到的hevc(“高效视频编码”)或mv-hevc(“多视图高效视频编码”)，其中在子孔径图像的集合中选择参考图像。另外，在文献us2015/0319456中，可以根据压缩参数(例如，运动搜索窗口、最大编码单位大小等)和相机参数(焦距、主透镜孔径等)完成对子孔径图像的编码。因此，在某些情况下，通过使用如hevc编码方案所提出的帧内编码技术，可以独立于其他子孔径图像对每个子孔径图像进行编码。在变型中，在子孔径图像的集合之中选择一个或多个参考图像(例如，参见文献us2015/0319456的[0086]段)，以基于空间预测来执行编码。文献us2016/0241855详细描述了全光图像序列的编码，该全光图像序列可以被视为子孔径图像矩阵的序列。

然而，文献us2015/0319456和文献us2016/0241855都没有解决如何必须在子孔径图像的集合之中选择一个或多个参考图像的问题。实际上，仅使用来自多视图编码技术的经典技术。

所提出的技术提供了一种在从全光图像中导出的子孔径图像的集合中选择一个或多个参考图像的有效方式，以用于压缩目的。

技术实现要素：

说明书中对“一个实施例”、“实施例”、“示例实施例”的引用指示所描述的实施例可以包括特定的特征、结构或特性，但是每个实施例可以不必包括该特定的特征、结构或特征。而且，这样的短语不一定指相同的实施例。此外，当结合实施例描述特定的特征、结构或特性时，无论是否明确描述，都认为结合其他实施例影响这样的特征、结构或特性是在本领域技术人员的知识范围内的。

本公开针对一种用于对从全光相机获取的数据中获得的图像视图矩阵进行编码的方法。该方法的显著之处在于它包括：

从来自所述图像视图矩阵的至少两个图像视图的组合中获得至少一个参考图像视图；

基于所述至少一个参考图像视图，对不同于所述至少一个参考图像视图的图像视图进行编码。

应当注意，由于从全光相机获得图像视图矩阵(也称为子孔径图像矩阵)的事实，因此子孔径图像彼此之间具有一些光通量(flux)变化。实际上，子孔径图像之间的这种光通量变化对于视频编码可能是一个问题。光通量变化是由全光相机的设计引起的。实际上，它可能来自全光相机中的微图像的采样和主透镜的渐晕(vignetting)。因此，所提出的技术的目的是当设备对从全光相机获得/导出的图像视图矩阵进行编码时减小光通量变化的影响。

在优选实施例中，该方法的显著之处在于，所述组合对应于包括在所述矩阵中的所有图像视图的平均。

在优选实施例中，该方法的显著之处在于，所述获得包括通过使用用于组合来自所述矩阵的图像视图的可逆混合矩阵来确定多个参考图像视图，并且其中，所述编码使用所述多个参考图像视图。

在优选实施例中，该方法的显著之处在于，所述编码符合hevc编码技术或h.264编码技术。

在优选实施例中，该方法的显著之处在于，它还包括生成包括与所述组合有关的信息数据的元数据。

在本公开的另一实施例中，提出了一种用于对从全光相机获取的数据中获得的编码图像视图矩阵进行解码的方法。该方法的显著之处在于它包括：

解码所述编码图像视图，传递第一图像视图矩阵；

获得作为所述第一图像视图矩阵和元数据的函数的图像视图矩阵，所述元数据包括与所述第一图像视图矩阵中的图像视图的组合有关的信息数据。

在优选实施例中，用于解码的方法的显著之处在于，它还包括从存储器单元获得所述元数据。

在优选实施例中，用于解码的方法的显著之处在于，所述解码符合hevc解码技术或h.264解码技术。

根据示例性实施方式，该方法的不同步骤通过一个或多个计算机软件程序来实现，该软件程序包括软件指令，该软件指令被设计为根据本公开由继电器模块的数据处理器执行，并且被设计为控制该方法的不同步骤的执行。

因此，本公开的一个方面还涉及一种易于由计算机或数据处理器执行的程序，该程序包括命令执行如上所述的方法的步骤的指令。

该程序可以使用无论任何编程语言，并且可以以源代码、目标代码或介于源代码和目标代码之间的代码的形式，诸如以部分编译的形式或任何其他期望的形式。

本公开还涉及一种数据处理器可读的信息介质，该信息介质包括如上所述的程序的指令。

信息介质可以是能够存储程序的任何实体或设备。例如，介质可以包括诸如rom(其代表“只读存储器”)的存储部件，例如cd-rom(其代表“压缩盘-只读存储器”)、或微电子电路rom，再或者是磁记录部件，例如软盘或硬盘驱动器。

此外，信息介质可以是可传输载体，诸如可以通过电缆或光缆、通过无线电或其他手段传送的电或光信号。特别地，程序可以下载到互联网类型的网络中。

替代地，信息介质可以是其中包含有程序的集成电路，该电路适于执行所讨论的方法或者在所讨论的方法的执行中使用。

根据一个实施例，通过软件和/或硬件组件来实现本公开的实施例。从这个观点来看，在本文中术语“模块”既可以对应于软件组件、又可以对应于硬件组件、或者对应于硬件和软件组件的集合。

软件组件对应于一个或多个计算机程序、程序的一个或多个子程序、或者更一般地对应于能够实现根据下面针对相关模块在此描述的内容的功能或一组功能的程序或软件程序的任何元件。一个这样的软件组件由物理实体(终端、服务器等)的数据处理器执行，并且能够访问该物理实体的硬件资源(存储器、记录介质、通信总线、输入/输出电子板、用户界面等)。

类似地，硬件组件对应于能够实现根据下面针对相关模块在此描述的内容的功能或一组功能的硬件单元的任何元件。它可以是可编程硬件组件，或者是具有用于执行软件的集成电路的组件，例如集成电路、智能卡、存储卡、用于执行固件的电子板等。在变型中，硬件组件包括作为集成电路的处理器，诸如中央处理器和/或微处理器、和/或专用集成电路(asic)、和/或专用指令集处理器(asip)、和/或图形处理单元(gpu)、和/或物理处理单元(ppu)、和/或数字信号处理器(dsp)、和/或图像处理器、和/或协处理器和/或浮点单元、和/或网络处理器、和/或音频处理器、和/或多核处理器。而且，硬件组件还可以包括基带处理器(例如包括存储器单元和固件)和/或接收或发送无线电信号的无线电电子电路(其可以包括天线)。在一个实施例中，硬件组件符合一个或多个标准，诸如iso/iec18092/ecma-340、iso/iec21481/ecma-352、gsma、stolpan、etsi/scp(智能卡平台)、globalplatform(即，安全元件)。在变型中，硬件组件是射频标识(rfid)标签。在一个实施例中，硬件组件包括使得能够进行蓝牙通信、和/或wi-fi通信、和/或zigbee通信、和/或usb通信、和/或火线通信、和/或nfc(代表近场)通信的电路。

还应当注意，在本文中获得元素/值的步骤可以被看作是在电子设备的存储器单元中读取这样的元素/值的步骤，或者是经由通信部件从另一电子设备接收这样的元素/值的步骤。

在本公开的另一实施例中，提出了一种用于对从全光相机获取的数据中获得的图像视图矩阵进行编码的电子设备。该电子设备包括处理器和耦合至所述处理器的至少一个存储器单元。另外，处理器被配置为：

从来自所述图像视图矩阵的至少两个图像视图的组合中获得至少一个参考图像视图；

基于所述至少一个参考图像视图，对不同于所述至少一个参考图像视图的图像视图进行编码。

在优选实施例中，用于编码的电子设备的显著之处在于，所述组合对应于包括在所述矩阵中的所有图像视图的平均。

在优选实施例中，用于编码的电子设备的显著之处在于，所述处理器还被配置为通过使用用于组合来自所述矩阵的图像视图的可逆混合矩阵来确定多个参考图像视图，并且其中，所述处理器还被配置为在其被配置为对图像视图进行编码时使用所述多个参考图像视图。

在优选实施例中，用于编码的电子设备的显著之处在于，所述处理器还被配置为生成包括与所述组合有关的信息数据的元数据。

在本公开的另一实施例中，提出了一种用于对从全光相机获取的数据中获得的编码图像视图矩阵进行解码的电子设备。该电子设备包括处理器和耦合至所述处理器的至少一个存储器单元。另外，处理器被配置为：

解码所述编码图像视图，传递第一图像视图矩阵；

获得作为所述第一图像视图矩阵和元数据的函数的图像视图矩阵，所述元数据包括与所述第一图像视图矩阵中的图像视图的组合有关的信息数据。

在优选实施例中，用于解码的电子设备的显著之处在于，所述处理器还被配置为从存储器单元获得所述元数据。

在优选实施例中，用于解码的电子设备的显著之处在于，所述处理器还被配置为根据hevc解码技术或h.264解码技术进行解码。

附图说明

通过以下参考附图对本发明的示例性实施例的详细描述，本发明的以上和其他方面将变得更加明显，在附图中：

-图1以示意性方式描绘了根据现有技术的全光相机中所包括的特征；

-图2呈现了根据现有技术如何通过全光相机内的图像传感器记录由微透镜生成的微图像；

-图3呈现了根据现有技术的第一示意性全光ii型相机；

-图4呈现了根据现有技术的第二示意性全光ii型相机；

-图5呈现了根据现有技术的示意性全光i型相机；

-图6(a)和图6(b)呈现了光场像素到子孔径图像的转换的示例；

-图7呈现了光场像素的采样的示例；

-图8呈现了包括4个图像视图(或子孔径图像)s(0，0)、s(1，0)、s(0，1)和s(1，1)的图像视图矩阵的示例；

-图9呈现了与图8的4个图像视图(或子孔径图像)s(0，0)、s(1，0)、s(0，1)和s(1，1)之和对应的图像视图；

-图10呈现了根据本公开的一个实施例的包括从全光相机获得的4个图像视图s(0，0)、s(1，0)、s(0，1)和s(1，1)的图像视图矩阵的示例，该全光相机的微图像正好等于2×2个像素；

-图11呈现了具有稍小于2个像素的台阶(step)的微透镜阵列，使得相应的微透镜图像具有正好2个像素的台阶(这允许产生没有通量变化的子孔径图像)；

-图12呈现了立体视频编码方案中的相互依赖性的示例；

-图13呈现了多视图视频编码方案中的相互依赖性的示例；

-图14示出了本公开的一个实施例，其中组合子孔径图像s(i，j)以便生成要被编码的图像视图v(i，j)；

-图15描绘了将p²个视图v(i，j)转换为子孔径图像s(i，j)；

-图15示出了本公开的一个实施例，其中图像视图v(i，j)被转换为子孔径图像s(i，j)；

-图16呈现了用于将p²个视图v(i，j)转换为子孔径图像s(i，j)的值的示例；

-图17呈现了用于测试或基准化分析(benchmarking)本技术的全光相机的示例；

-图18呈现了用于本技术的测试或基准化分析的测试图图像的示例；

-图19呈现了描绘psnr(以db为单位)作为用于参考编码(虚线或点曲线)和优化编码(平坦曲线)的比特率的函数的曲线图；

-图20呈现了根据使用分别来自图17和图18的配置和测试图的测试的详细结果。

-图21以示意图呈现了可用于执行本文中公开的方法的一个或多个步骤的设备的示例。

具体实施方式

图1以示意性方式描绘了根据现有技术的全光相机中所包括的特征。

通常，全光相机包括位于主透镜和图像传感器之间的微透镜阵列。全光相机的传感器记录由布置在2d图像内的一组2d小图像构成的图像。二维小图像被称为微透镜图像，并且它们是由微透镜阵列中的透镜生成的。通常，可以在2d坐标系(诸如笛卡尔坐标系，其中用一对整数(i，j)标识透镜)内标识透镜和对应的微透镜图像。因此，图像传感器的像素(其也可以在2d坐标系内被标识)可以与4个坐标(x，y，i，j)相关联。因此，图像传感器的像素可以记录作为4d光场的l(x，y，i，j)。

图2示出了由传感器记录的图像。实际上，图2呈现了根据现有技术如何通过全光相机内的图像传感器记录由微透镜生成的微图像。

主透镜是具有焦距f和直径φ的理想薄透镜。主透镜的f数为o＝f/φ。

微透镜阵列由焦距为f的微透镜构成。微透镜的间距(pitch)为φ。微透镜的f数为o＝f/φ(假设微透镜的直径等于微透镜间距)。微透镜阵列位于距主透镜的固定距离d处。微透镜可以具有任何形状，如圆形或正方形。形状的直径小于或等于φ。可以考虑微透镜是针孔的特殊情况。在这种情形下，以下等式仍然有效，其中f＝d。

传感器由物理大小为δ的像素的正方形点阵构成。δ以米每像素为单位。传感器位于距微透镜阵列的固定距离d处。

物体(在图3和图4中不可见)位于主透镜的距离z处。该物体被主透镜在距主透镜的距离z'处聚焦。两个连续透镜之间的物体的差距等于w。2个微透镜图像中心之间的距离为p。

每个微透镜产生由圆圈表示的微图像(小图像的形状取决于通常为圆形的微透镜的形状)。像素坐标被标记为(x，y)。p是两个连续微图像的中心之间的距离，p不一定是整数值。通常，选择微透镜使得p大于像素大小δ。微透镜图像通过它们的坐标(i，j)来引用。每个微透镜图像利用(u，v)坐标系对主透镜的光瞳(pupil)进行采样。一些像素可能不从任何微透镜接收任何光子；这些像素被丢弃。实际上，微透镜间空间被遮蔽以防止光子从微透镜向外部传播(如果微透镜具有正方形形状，则不需要遮蔽)。微透镜图像(i，j)的中心位于传感器上的坐标(xi,j，yi,j)处。θ是像素的正方形点阵和微透镜的正方形点阵之间的角度，在图2中，θ＝0。假设微透镜按照规则的正方形点阵布置，则可以通过考虑微透镜图像(0，0)的像素坐标(x0,0，y0,0)的以下等式来计算(xi,j，yi,j)：

图2还示出了来自场景的物体在多个相邻的微透镜图像上可见(由黑点表示)。物体的两个连续视图之间的距离记为w，该距离在本文中将被称为复制(replication)距离。物体在r个连续微透镜图像上可见，其中：

r是在一个维度中的连续微透镜图像的数量。物体在r²个微透镜图像中可见。取决于微透镜图像的形状，物体的r²个视图中的一些可能不可见。

全光相机的光学属性

在前面的部分中介绍的距离p和w以像素为单位给出。通过将它们乘以像素大小δ，将它们分别转换为物理单位距离(米)p和w：w＝δw以及p＝δρ。这些距离取决于全光相机的特性。

图3呈现了根据现有技术的其中w＞p的示意性的全光ii型相机，并且图4呈现了根据现有技术的其中w＜p的示意性的全光ii型相机。

在图3和图4的全光相机中，主透镜具有焦距f和孔径φ。微透镜阵列包括焦距为f的微透镜。微透镜阵列的间距为φ。微透镜阵列位于距主透镜的距离d以及距传感器的距离d处。物体(在图上不可见)位于距主透镜的距离z处(即，在图中主透镜的左侧)。该物体被主透镜在距主透镜的距离z'处(即，在主透镜的右侧)聚焦。图3和图4分别示出了d>z'和d<z'的情况。在这两种情况下，微透镜图像都可以依据d和f对焦(infocus)。这种设计被称为所谓的ii型全光相机。

一种类似的设计在于固定f＝d，这就是所谓的i型全光相机(参见图5)。进行这种设计以使主透镜对接近微透镜阵列的图像进行聚焦。如果主透镜正好聚焦在微透镜阵列上，则w＝∞。同样，微透镜图像完全失焦(out-of-focus)并且等于常数(不考虑噪声)。

复制距离w随物体的距离z的变化而变化。为了建立w和z之间的关系，可以依赖于薄透镜等式：

以及thales定律：

混合前面的两个等式，推导出：

w与z之间的关系并未假设微透镜图像是对焦的。根据薄透镜等式，微透镜图像是严格对焦的：

同样，根据thales定律可以导出p

比率e定义了微透镜间距和微透镜图像间距之间的增大。由于d>>d，所以该比率非常接近1。

子孔径图像

可以将微图像重新组织成所谓的子孔径图像(也称为图像视图)。子孔径图像收集具有相同(u，v)坐标的所有4d光场像素(即与光瞳的分解的相同部分相关联的像素)。令i×j是覆盖传感器的微透镜的数量，并且nx×ny是传感器的像素的数量。子孔径图像的数量等于p×p。每个子孔径图像的大小为(i，j)＝(nx/p，ny/p)个像素。

图6(a)和图6(b)示出了所捕获的光场图像坐标l(x，y，i，j)(参见图6(a))到一系列子孔径图像s(α，β，u，v)(参见图6(b))之间的转换。每个子孔径图像的大小为(i，j)个像素，轴被标记为(α，β)，其中(α，β)∈[0，i[×[0，j[。s(u，v)表示由i×j个像素构成的与(u，v)光瞳坐标相对应的2d图像。

(x，y，i，j)和(α，β，u，v)之间的关系定义如下：

其中，表示底函数，而mod表示模函数。

如果p不正好是整数而是接近整数，则考虑微透镜图像之间的距离等于恰好小于p的整数可以轻松计算子孔径图像。这种情况尤其在微透镜直径φ等于整数数量的像素时发生。在该情况下，由于e＝(d+d)/d略大于1，因此p＝φe略大于φ。考虑的优点在于，无需插值即可计算子孔径图像，因为一个像素l(x，y，i，j)对应于整数坐标子孔径像素s(α，β，u，v)。缺点在于，在给定的子孔径图像s(u，v)内，从中记录光子的光瞳的部分不是恒定的。更确切地说，s(u，v)子孔径图像未准确采样(u，v)光瞳坐标。然而，即使子孔径图像正在采样随像素坐标(α，β)略有变化的(u，v)坐标，所提出的技术也是有效的。如果p不是整数，或者如果相对于像素阵列旋转微透镜阵列，则需要使用插值来确定或计算子孔径图像，因为微透镜的中心(xi,j，ui,j)不是整数。

在下文中，打算考虑微图像间距的整数部分来计算子孔径图像。优点在于，提取子孔径图像而没有任何信号损失，并且还可以恢复原始图像而没有任何信号劣化。另外，通过过度使用符号，认为和p是等效的。

图像重聚焦

子孔径图像上的差距

在光场图像l(x，y，i，j)内，使物体在复制距离为w的多个微图像上可见。在子孔径图像上，物体也多次可见。从一个子孔径图像到下一个水平子孔径图像，物体坐标(α，β)出现了差距为ρ的偏移。通过下式定义ρ和w之间的关系：

同样，通过混合等式(5)和等式(9)，可以建立差距ρ和物体的距离z之间的关系：

将光场像素投影在重聚焦图像上

图像重聚焦在于将传感器记录的光场像素l(x，y，i，j)投影到坐标为(x，y)的2d重聚焦图像中。通过偏移微图像(i，j)进行投影：

其中，wfocus是对应于zfocus的选定的复制距离，zfocus是在所计算的重聚焦图像中对焦的物体的距离，s是控制重聚焦图像的大小的缩放因子。在坐标(x，y)处，在重聚焦图像上添加光场像素l(x，y，i，j)的值。如果投影坐标为非整数，则使用插值来添加像素。为了记录投影到重聚焦图像中的像素的数量，创建具有与重聚焦图像相同大小的权重图图像。将该图像初步设置为0。对于在重聚焦图像上投影的每个光场像素，在坐标(x，y)处将值1.0添加到权重图。如果使用插值，则将相同的插值核用于重聚焦图像和权重图图像两者。之后，投影所有光场像素，逐像素地将重聚焦图像除以权重图图像。该归一化步骤确保了归一化的重聚焦图像的亮度一致性。

子孔径图像的相加以计算重聚焦图像

等效地，可以在考虑差距ρfocus的情况下通过对子孔径图像s(α，β)求和来计算重聚焦图像，其中处于距离zfocus处的物体是对焦的。

子孔径像素被投影在重聚焦图像上，并且权重图按照与上述相同的过程记录该像素的贡献。

子孔径图像之间的通量尺度变化

通常，子孔径图像显示了它们之间的通量变化。当必须对子孔径图像进行编码(即，压缩)时，由微图像的采样和/或主透镜的渐晕所引起的子孔径之间的通量变化可能是一个问题。

微图像的采样

当构建光场传感器时，通常粘贴微透镜阵列，其中微透镜直径φ严格等于φ＝kδ，其中δ是像素的物理大小，并且k是整数。图7示出了其中k＝2；φ＝2δ的情况。微透镜覆盖2×2个像素。该图示出了穿过主透镜的中心和一些微透镜(假设为薄透镜光学元件)的中心的未修改的光线。未修改的光线指示微图像的位置。可以注意到，微图像中心仅在接近主透镜的光轴的传感器的中心处等于2×2像素的中间。

为了说明这种效果，已使用被扩展为模拟全光相机的pbrt(基于物理的渲染软件)模拟了用理想全光相机捕获的合成全光图像。对于这种全光相机，可以考虑以下特征：

该模拟是用所谓的1型全光相机(即，其中f＝d，如图5中所描绘的)进行的，但是所提出的公开不限于该约束。主透镜被认为是理想的完美薄透镜。合成图像由被均匀照亮的测试图构成。图8示出了从原始彩色全光图像提取的2×2子孔径图像。可以观察到光通量贯穿每个子孔径图像而变化。

然而，看起来这4个子孔径图像之和几乎是恒定的(如图9中所呈现的)。更确切地说，从该和得出的图像并非是严格恒定的，因为这些微图像的大小为2eo/o×2eo/o个像素(其中e＝d+d/d),并且并不正好以2×2像素的中间为中心。因此，在传感器的边界处观察到的属于微透镜的一些光子丢失了。但是，这4个图像之和的光通量的变化几乎可以忽略，并且如果主透镜的孔径减小(φ更小)，则该变化可能为零。

对p×p个子孔径图像求和成为单个图像等效于拥有一个2d相机，其主透镜和像素阵列具有光场传感器p倍的像素大小。因此，子孔径图像之和示出了由2d相机捕获的普通图像。

针对子孔径图像中的均匀通量的微图像的采样

为了校正子孔径之间的通量变化，必须将微透镜的直径φ稍微减小以使得p＝2δ。根据等式(7)，可以推导出：φ＝pd/d+d＝11.99114μm。该结果可以推广到用于具有复杂光学设计的主透镜。在这种情况下，距离d等于主透镜的出瞳距离。

图10示出了利用光场传感器获得的4个子孔径图像，其中微图像正好以2×2像素的中间为中心。在该情况下，没有观察到通量变化。

在这种设计中，微透镜阵列的台阶略微小于2个像素之间的距离。定位微透镜阵列以使得位于微透镜阵列的中心的微透镜与传感器中间处的2×2像素精确对齐。图11示意性地示出了如何相对于像素阵列来定位微透镜阵列。严格定位微透镜阵列的中间处的粗体微透镜，使得其中心与像素阵列的2×2像素的中间对齐。在该图中，圆圈示出的是微透镜，而不是微图像。

通过设计，微图像的大小可以被适配为等于整数数量的像素，但是该设计仅对主透镜和微透镜阵列之间的固定距离d(或者考虑实际主透镜情况下的出瞳距离)有效。如果主透镜被移动以聚焦在附近的物体上，则距离d发生变化，并且子孔径图像将接收不均匀的通量。同样，如果可以用其他主透镜(例如可互换透镜相机)替换主透镜，则距离d将发生变化(除了所有主透镜共享相同的出瞳距离的理想情况之外)。因此，通常在整个视场中子孔径图像的通量是不均匀的。

如本文的背景技术部分中所解释的，可以使用几种解决方案来对全光相机从光场内容获得的图像视图矩阵(即，子孔径图像的集合)进行编码。

图12和图13示出了在对多视图内容(诸如图12中的立体内容以及图13中的5视图内容)的编码中使用的原理。

多视图视频编码(mvc)和最近的多视图高效视频编码(mv-hevc)标准专用于通常由相机矩阵拍摄的相同场景的多个图像。为了利用相机间的冗余，这些标准定义了视图间预测(inter-viewprediction)。即使来自不同视图的视差发生变化，场景的各种视图也是冗余的，因此需要此功能。视图间预测是mvc和mv-hevc的关键元素，与视图的独立编码相比，在类似的质量水平下，它允许将比特流的比特率平均降低25％。

多视图编解码器定义了将根据常规2d视频编解码器进行编码的一个参考视图，即基本视图。使用视图间预测，其他视图可以受益于包括基本视图的先前编码/解码的参考视图。

图12示出了具有两个视图(立体视频)的示例性设置。左视图对应于基本视图，并且仅执行时间预测，通过水平箭头和曲线箭头来描绘。可以从时间和视图间参考帧来预测作为从属视图的右视图的帧。

当立体被扩展到多视图时，视图间预测和时间预测的更高级的组合已经被标准化。图13示出了考虑5个视图的情况，5个视图从记为cam1，……，cam5的5个不同的相机获得。cam1对应于基本视图。垂直关系对应于视图间预测。例如，在时间1处，可以从视图1预测视图3(与cam3相关联)，并且视图2取决于视图1和视图3。

然而，直接应用多视点编码技术来对子孔径图像进行编码引起了定义哪些子孔径图像必须用作参考的问题。这种选择并非显而易见，尤其是考虑到在非均匀子孔径采样(微图像中心不对应于的p×p像素块的中间)的情况下通过子孔径图像的通量的强烈变化时。例如，图8示出了4个子孔径图像，这些子孔径图像在整个视场中显示出强烈的通量变化。选择子孔径图像之一作为多视图编解码器的参考/基本视图并不是最优的，尤其是在子孔径图像在图像的一个角处趋于变暗的情况下。

所提出的公开提供了对该问题的解决方案。在本公开的一个实施例中，提出了使用多视图编解码器对子孔径图像进行编码，其中基本视图图像(或参考视图图像)是对应于所有子孔径图像的平均的图像。令v(i，j)为将由多视图编解码器编码的p²个视图，其中(i，j)∈[0，p[。对p²个子孔径图像序列s(i，j)进行平均以产生参考视图子孔径图像序列的平均确保了平均值的动态等于子孔径视图的动态。图14示出了本公开的一个实施例，其中子孔径图像被组合以便生成要被编码的视图。

在该示例性解决方案中，其他视图被定义为v(i，j)＝s(i，j)，其中(i，j)≠[0,0]。换句话说，基本/参考图像视图是所有子孔径图像的平均和。其他视图对应于一个子孔径图像。因此，在本公开的这种实施例中，只有子孔径图像s(0，0)不被直接编码，而是可以通过减去参考视图来取回它，其中所有编码的视图均来自以下关系：图15示出了如何组合解码的视图以形成子孔径视图。

将参考视图定义为所有子孔径图像的平均和的一个优点在于，参考视图对2d视频信号进行编码，就像常规摄像机会记录的那样。根据多视图视频编码标准，可以独立于其他视图提取该参考图像视图。

值得注意的是，所提出的公开不限于1类相机(f＝d)。实际上，相机的类型不改变v和s之间的关系。

在本公开的第一实施例中，只有参考图像视图是子孔径图像的组合。在本公开的另一实施例中，提出将这种过程推广到其他图像视图(以便确定多个参考图像视图)。子孔径图像s(i，j)与要编码的视图v(i，j)之间的一般关系由以下矩阵给出：

其中，vjp+i＝v(i，j)，并且sjp+i＝s(i，j)。p×p个系数mi,j为0或正实数，它们属于矩阵m。可以自由选择系数，只要det(m)不为零，并且使得

等式13给出了作为子孔径图像的函数来计算要被编码的mvc图像视图的关系。该关系在编码器侧使用。在解码器侧，一旦执行了解码过程以便恢复图像视图v(i，j)，则必须使用矩阵m的逆来获得子孔径图像s(i，j)：

将多个子孔径图像平均成为单个视图的一个动机是为了防止可能受到不均匀照明(即，由图像传感器记录的不均匀的光通量变化)的强烈影响的单个子孔径图像的编码，如图8中所示。

因此，在图14中描述的本公开的实施例对应于以下4×4矩阵m：

如图15所示的逆关系由以下m的逆矩阵给出：

在下文中，讨论关于矩阵m的特定选择的一些评述：

在本公开的一个实施例中，应当选择子孔径图像的平均以使得被平均的子孔径图像是相邻的。实际上，对子孔径图像求和类似于在主透镜的光瞳中定义特殊形状。该形状应当是紧凑的，以防止相应的平均图像显示失焦的物体的“重复”视图。

例如，如果p＝4，则定义v(0,0)＝(s(0,0)+s(1,0)+s(0,1)+s(l，l))/4是便利的。然后，v(0,0)对应于利用同一相机观察到的图像，具有2×2的较大像素，并且因此对应于p＝2。相比之下：定义v(0,0)＝(s(0,0)+s(3,0)+s(0,3)+s(3,3))/4不是最优的，因为它对应于非相邻的子孔径图像。失焦的物体在(0,0)上将平均出现4次，从而降低了预测编码的效率。

·p＝2，则对3个子孔径图像进行平均，以产生几乎没有暗角的视图；

·如果p＝4，则以“分层(hierarchical)”方式组合子孔径图像：

在本公开的另一实施例中，一些元数据与矩阵m相关联。

实际上，由于可以在编码器侧选择矩阵m，因此在本公开的一个实施例中，需要将与这种矩阵(或这种矩阵的逆)有关的信息发送到编码的比特流中，以使得解码器能够恢复子孔径图像视图。例如，元数据结构可以描述矩阵m的p²个系数。这种结构通常可以在元素的高级语法组内发送，诸如包含所有视图的参数的视频参数集(vps)。在变型中，与矩阵m(或矩阵m的逆矩阵)有关的元数据可以存储在解码器的存储器单元中(或在连接到解码器的设备的存储器单元中)，并且在解码过程期间必要时可以读取元数据。

为了基准化分析所提出的技术，已经使用了多视图hevc(mv-hevc)编码器。另外，使用已被扩展到模拟全光相机的合成图像渲染器pbrt(http://www.pbrt.org/)来计算全光图像。pbrt的扩展版本能够在考虑任何光学像差(以及色差)的情况下模拟真实的透镜。模拟情形通过以下特征定义：

光学系统：模拟的主透镜是真实的透镜，如文献us8373933中所描述的。它的焦距是25mm，以1.46的f数打开。透镜由11个玻璃元件构成。元件由2个界面描述，这2个界面为球形或非球形。下表中给出了界面的几何描述。对于非球形界面18和19，a、b、c、d和e项分别给出2、4、6、8和10阶的多项式项。

传感器：传感器由6000×4000个像素构成，大小为24mm×16mm，像素大小为δ＝4μm。微透镜覆盖几乎2×2个像素：微透镜直径等于φ＝7.99931340μm。已经计算这些值使得微透镜图像直径严格等于p＝2个像素。已经使用等式(7)推导φ，考虑传感器与微透镜阵列之间的距离d＝12μm，以及主透镜的出瞳d＝139.8079mm(由光学软件zemax给出)。通过f＝d＝12μm定义微透镜阵列以得到1型全光传感器。微透镜的f数o＝f/φ等于主透镜的f数1.5。

测试图：使用从pentax相机(8000×5000像素)拍摄的具有非常高分辨率的测试图图像，并将其定位在距模拟的相机1.6m处(例如，参见图18的测试图图像)。

计算全光图像，然后将其转换为2×2个子孔径图像。以两种不同的方式使用mv-hevc编解码器：

1.参考编码—第一子孔径图像用作mv-hevc编解码器的参考。其他三个子孔径图像被编码为其他3个视图。总共对4个视图进行编码。

2.已测试的优化编码—将4个子孔径图像平均为单个图像，该单个图像被编码为参考图像。然后，将4个子孔径图像编码为4个附加视图。

总共对5个视图进行编码，其中只有4个视图足以重建4个子孔径图像。

使用了定义配置输入文件的mpeg通用测试条件。具体地，所测试的量化参数(qp)的范围是22到37。

如图19中所示，虽然优化编码有冗余(编码了五个视图而不是四个视图)，但是在较大的比特率范围内，关于比特率/失真的压缩折衷好于参考编码。

图20详细说明了实验/测试的结果。“已测试”部分代表“已测试的优化”方法。顶部部分显示了考虑了总比特率和每个子孔径的psnr的bjontegaard比特率/失真分数，而底部部分显示了4个子孔径的平均psnr。

实际上，顶部部分详细说明了每个子孔径的psnr。在已测试方法的情况下未报告mv-hevc中基本视图的psnr，因为它未对应于输出子孔径。可以注意到，对于参考设置，子孔径00具有较高的psnr。这是由于mv-hevc基本配置，其倾向于提高将用作其他帧的参考的基本视图的质量(利用较低的量化参数对基本视图进行编码)。在优化的情况下，以较高的质量对平均图片进行编码。优化的方法因此可以使关于该图像的平均增益为12.54％，还提供了一些有趣的特征：

-对应于平均图片的基本视图可以利用hevc解码器进行解码，

hevc解码器是mv-hevc的特征。则与子孔径不兼容或不需要该特征的设备可以仅解码平均图像。该特征可以被视为子孔径可扩展性。

-子孔径得到相似的质量，这使得接下来的处理阶段依赖相似的内容。

图21呈现了可用于执行本文中公开的方法的一个或多个步骤的设备。

标记为2100的这种设备包括标记为2101的计算单元(例如，cpu，代表“中央处理单元”)和标记为2102的一个或多个存储器单元(例如，ram(代表“随机访问存储器”)块，在执行计算机程序的指令期间可以在其中临时存储中间结果；或rom块，在其中除了其他内容外存储计算机程序；或eeprom(“电可擦可编程只读存储器”)块；或闪存块)。计算机程序由可以由计算单元执行的指令构成。该设备2100还可以包括标记为2103的专用单元，其构成输入-输出接口以允许设备2100与其他设备通信。具体地，该专用单元2103可以与天线连接(以便在无触点的情况下进行通信)，或与串行端口连接(以承载通信“触点”)。应当注意，图21中的箭头表示链接的单元可以例如通过总线一起交换数据。

在替代实施例中，可以以可编程fpga(“现场可编程门阵列”)组件或asic(“专用集成电路”)组件中的硬件来实现前述方法的一些或全部步骤。

在替代实施例中，可以在如图21中公开的包括存储器单元和处理单元的电子设备上执行前述方法的一些或全部步骤。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：B.范达姆;F.拉卡普;G.博伊森
技术所有人：交互数字VC控股公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。