用于表示视觉信息的方法、计算机程序、计算机程序产品和系统与流程

文档序号：26803943发布日期：2021-09-29 02:17阅读：98来源：国知局

1.本公开涉及表示视觉信息，例如光场数据。

背景技术：

2.在过去的十年中，计算摄影领域，特别是光场和多视图成像，作为成像和视频技术的一个新的范例，已经出现并成熟。这些技术实现了一系列新颖的应用，从高级的多维图像处理到电影编辑，无眼镜3d显示系统，单传感器光场相机，光谱成像和外观捕捉。使用这些新的视觉信息格式的挑战与所产生数据的大小有关。由于数据量大而引起的两个重要问题是数据的有效存储和从传感器系统传输捕获的数据所需的基础结构。数据压缩和图像压缩是两个成熟的研究领域，致力于解决处理和存储大数据量的挑战。

技术实现要素：

3.捕获、存储和处理高维数据所固有的一个非常重要且仍未解决的挑战是处理非常大的数据大小。
4.本发明涉及该问题的解决方案。
5.本发明涉及用于表示包括表示视觉信息的n维数据元素的数据集的计算机实现的方法，该方法包括获得视觉信息的步骤，获得字典集合的步骤，字典包括基函数集，将数据元素分配给字典的步骤，利用相应基函数集将数据元素变换到由系数集表示的变换域的步骤，稀疏所述系数集的步骤以及基于稀疏系数集和基函数的相应字典来形成视觉信息表示的步骤。形成视觉信息的表示的步骤可以包括压缩稀疏系数集。
6.如上所述的方法的一个优点是可以提高视觉信息的压缩率。
7.如上所述的方法的一个优点是可以减少压缩视觉信息的重构误差。
8.如上所述的方法的一个优点是改进视觉信息的压缩感知。
9.如本文所定义的本发明使得能够改进压缩视觉信息的选择性重建。
10.获得包括视觉信息的数据元素的数据集的步骤可以包括获得多维视觉信息。数据元素包括至少一个数据点。视觉信息可以包括基于传感器数据以及传感器数据的可能内插值的数据元素和/或数据点。视觉信息可以包括基于计算机生成的图像以及计算机生成的图像的可能内插值的数据元素和/或数据点。
11.该方法可以特别用于非常大的数据集的捕获、存储和处理中，该数据集诸如视角数据之类的高维数据。该方法可以用于压缩任何种类的多维数据。该方法可以使用非本地聚类。该方法可以用于多维数据集的非本地聚类。该方法允许对压缩的可能多维数据进行有效的本地重建。
12.获得包括基函数的字典集合的步骤可以包括学习字典集合。字典集合包括基函数集，这些基函数表示m维变换域中视觉信息的n维数据元素。变换域的维数m可以等于或大于2。变换域的维数m可以等于或大于视觉信息的维数n。本公开涉及用于在任意维数之间进行
变换的方法。基函数集可以在变换域中以其各种维度独立表示视觉信息。将视觉信息的数据元素变换为多维变换域可以使特定的数据元素重建，例如重建视频的单个帧，而不是重建整个视频。可以将包括表示视觉信息的n维数据元素的视觉信息各自分配给字典。可以基于稀疏性来分配数据元素。基于稀疏性分配数据元素允许使用字典来变换特定稀疏度范围内的所有数据元素，该字典包含适用于将稀疏性范围内的数据元素变换到变换域的基函数集，其中，数据元素由相关的系数集表示。
13.如本文中所使用的术语变换域是指通过系数集和对应的基函数集来表示视觉信息。通过具有基函数e
‑
2πiwx
的傅里叶变换可以实现众所周知的变换，该函数将时间函数变换为不同频率的正弦波之和，每个正弦波都代表频率分量。频域中的频率分量代表时间函数。类似地，在本公开中，系数集表示由每个字典的基函数定义的变换域中的视觉信息。
14.术语视觉信息是指传感器数据和计算机生成的图像。
15.如本文所使用的术语“数据元素”是指包括至少一个数据点的视觉信息的子块。图像子块也称为“图像块”或“窗口”。子块可以是一小幅图像，例如10x10像素区域。
16.如本文所使用的术语“数据点”是指数据的最小单位，例如像素的红色、绿色或蓝色值。
17.术语系数集包括一组值，如果将这些值插入到基函数集中，则会描述视觉信息的子块。
18.可以将获得的字典集合的至少一部分作为获得字典集合的步骤的一部分来创建，和/或通过使用相同维数n的预聚类训练视觉信息作为视觉信息的训练过程预先创建。训练过程旨在创建字典，以形成训练视觉信息的预聚类的尽可能稀疏的系数集。训练视觉信息可以与视觉信息具有相同的类型，例如既可以是实况视频也可以是动画视频。创建字典集合的训练过程可以是机器学习辅助的过程。现有的集合可以被扩展和/或减少。创建集合的过程可以是使用其他字典扩展现有字典集合的过程。创建集合的过程可以是通过删除现有字典来限制现有字典集合的过程。预期对某种类型的视觉信息训练的字典集合在表示变换域中相似视觉信息的系数集中将显示出高度的稀疏性。稀疏系数集的创建和所述集合的稀疏性是有效压缩和采样的重要因素。字典集合通常将包含多个基函数，但是与数据集大小相比，其内存占用量非常低，因此可以大大提高编码和解码效率。
19.当涉及将每个数据元素分配给字典的步骤时，可以基于稀疏性将数据元素分配给字典。该方法包括将每个数据元素变换到变换域的步骤，其中每个数据元素由基函数的一个字典和系数集表示。表示由相应字典的基函数集定义的变换域中的数据元素的系数集包括系数值。在某个绝对值以下，接近零的系数值对相应的重建数据元素的数据点值的影响可以忽略不计。期望通过训练包括与待变换的数据元素具有相似类型和稀疏性的视觉信息数据元素的视觉信息进行学习的字典集合的基函数集生成大量系数值接近零的系数集。本公开利用以下事实：视觉信息特征上仅局部稀疏。
20.该方法包括稀疏化步骤，其中，将接近零的系数值设置为零。在其之下系数值的绝对值被截断为零的阈值可以基于在创建字典集合的过程中确定的预定值。在其之下系数值的绝对值被截断的阈值可以基于系数值对数据元素中的数据点的贡献的至少一个归一化的绝对值。在截断步骤之后，每个系数集都应包含大量的零值，该系数集被认为是稀疏的。稀疏为零的系数越多，则压缩系数集的大小预计将越小。稀疏化为零的系数越多，视觉信息
的信息就丢失越多，并且预期会有更大的重构误差。由于小尺寸和信息丢失之间的反相关关系，可以基于稀疏化的视觉信息的类型来调整稀疏化步骤。
21.形成视觉信息的表示的步骤可以包括压缩至少一个系数集。压缩至少一个系数集可以包括使用压缩算法。
22.该方法可以包括重构步骤，包括选择数据元素，并选择用于重构所述数据元素中数据点的至少一个维度，以及从基函数的相应的系数集和字典在所选择的至少一个维度中重构至少一个数据点。重建2d视频数据集的单个帧可能需要重构大量数据元素中大量数据点，但是，重建完整的数据集可能需要显著大量计算。该方法可以被安排为变换包括关键帧的数据集并重建包括中间帧的数据集。中间帧是已知关键帧之间的帧，例如，如果将关键帧的20fps视频变换并重建为60fps视频，则会生成额外的帧。
23.该方法的重构误差可以通过重构数据元素的至少一部分并且将重构的数据元素的至少一部分与对应的原始数据元素进行比较来计算。为了计算重构误差，可以重构数据元素的所有数据点以进行比较。
24.本公开还涉及用于表示包括表示视觉信息的n维数据元素的数据集的计算机程序。该计算机程序包括用于执行根据本公开的方法的例程。在一个示例中，计算机程序是传感器系统上的应用程序。
25.本公开还涉及计算机程序产品。该计算机程序产品包括存储在可读数据存储介质上的程序代码，用于表示包括表示视觉信息的n维数据元素的数据集。数据存储介质可以是非易失性的。程序代码被配置为执行根据本公开的方法。该计算机程序产品可以控制传感器系统。所述计算机程序产品可以是传感器系统的应用。
26.本公开还涉及用于表示包括表示视觉信息的n维数据元素的数据集的系统，该系统包括处理器，包括计算机程序产品的存储器，至少一个视觉信息生成装置，其中处理器被布置为：将数据存储在存储器中，控制至少一个视觉信息生成装置，从至少一个视觉信息生成装置接收视觉信息，运行被布置为执行上述步骤的计算机程序产品，并提供基于稀疏系数集的视觉信息的表示。该系统可以是个人计算机。该系统可以包括传感器系统。该系统可以是传感器系统。该系统可以是压缩传感器系统，其被布置为提供所捕获的视觉信息的显著压缩的表示。该系统可以是压缩光场照相机。处理器可以被布置为控制至少一个视觉信息生成装置。至少一个视觉信息生成装置可以是照相机。至少一个视觉信息装置可以是包括视觉信息的数据库。该系统可以包括用于处理器与至少一个视觉信息生成装置中的至少一个之间的无线通信的硬件。
附图说明
27.图1示出包括基函数的字典集合的示例。
28.图2示出用于表示视觉信息的方法的示例。
29.图3示出用于学习字典集合的方法的示例。
30.图4示出用于表示视觉信息的系统的示例。
具体实施方式
31.在所有附图中，相同的附图标记指代相同的部件、概念和/或元件。因此，除非另外
明确指出，否则关于一个附图中的附图标记的说法将同样适用于其他附图中的相同附图标记。
32.图1示出包括基函数102的字典集合100的示例。
33.集合100包括至少一个字典101。集合100可以包括多个字典。每个字典101包括至少一个基函数102。每个字典101可以包括多个基函数102，形成多维字典集合100。
34.视觉信息包括至少一个数据元素110，其包括至少一个数据点111。维数为n的数据元素110可以由其分配的基函数102的字典101进行变换，在变换域中形成表示数据元素110的稀疏系数集120。稀疏系数120可以保存到诸如数据库或固态驱动器的存储器中。稀疏系数集120和对应的字典101可以用于构成重构数据元素130。在重构时，不需要重构数据元素130的所有数据点131。可以选择数据元素130中沿着至少一个维度的至少一个数据点131进行重构。通过将数据元素110或至少一个数据点111与对应的重构数据元素130或至少一个重构数据点131进行比较，可以计算出重构误差。
35.可以通过在与要压缩的视觉信息类似类型的视觉信息(例如实况2d视频或动画2d视频)的训练视觉信息上训练字典集合来创建字典集合100。训练视觉信息可以包括要压缩的视觉信息的至少一部分。可以通过基于稀疏性将训练视觉信息划分为预聚类并且学习每个预聚类的字典的预聚类集合，来对字典集合100进行训练。学习所获得的字典的预聚类集合，以使字典的预聚类集合表示具有稀疏系数集的变换域中的训练视觉信息的预聚类。所学习的字典的预聚类集合可以被组合以形成字典集合100。
36.图2示出用于表示视觉信息的方法200的示例。
37.方法200包括获得包括至少一个数据元素110的视觉信息的步骤210。视觉信息可以是多维的。视觉信息可以包括计算机生成的图像。视觉信息可以从非易失性存储介质获得。视觉信息可以从传感器系统连续获得。视觉信息可以从至少一个捕获物理场景的相机获得。视觉信息可以是基于传感器数据的内插的数据元素110和/或数据点111。视觉信息可以是基于计算机生成的图像的内插的数据元素110和/或数据点111。
38.该方法包括获得字典集合100的步骤220，字典包括至少一个基函数102集。字典集合100包括基函数102集，这些基函数被布置为将视觉信息的数据元素110变换到变换域。基函数102集可以将视觉信息变换为相等或更高维数的变换域。变换域的维数m可以等于或大于2。基函数102集和相应的系数集120可以在变换域中以其各个维数独立地表示视觉信息。获得字典集合100的步骤220可以包括创建和/或训练和/或学习和/或修改字典集合100。
39.该方法包括将每个数据元素111分配给字典101的步骤230。将每个数据元素111分配给字典的步骤230可以将数据元素111分配给比集合100中的字典101少的字典101。数据元素111到字典101的分配可以基于稀疏性。数据元素111到字典101的分配可以包括机器学习。
40.该方法包括将视觉信息的数据元素111变换到变换域中的步骤240，其中每个系数集120和对应的基函数102集描述了视觉信息的数据元素111。对于基于训练与将要由基函数集102变换的视觉信息具有相似类型和稀疏性的视觉信息而创建的字典集合100，期望生成具有大量接近于零的值的系数120的系数集120。
41.该方法包括稀疏系数集120的步骤250。系数集的稀疏步骤250是不可逆的步骤，因为信息永久丢失。稀疏化的步骤250可以允许增加的潜力来压缩系数集。稀疏度、重构误差
和潜在的数据压缩率之间的相关性是可预期的，然而，期望小的重构误差和大的数据压缩率。稀疏系数集120的步骤250可以包括将系数120的值设置为接近零至零。稀疏系数集120的步骤250可以包括将对视觉信息的数据元素具有较低相对贡献的系数120的值设置为零。可以通过可容忍的误差量来定义用于将系数120的值设置为接近零至零的阈值。
42.该方法包括形成视觉信息的表示的步骤260，该视觉信息包括系数数据集和相应的字典。系数数据集可包括至少一个系数集。形成视觉信息的表示的步骤260可以包括压缩至少一个系数集。至少一个系数集的压缩可以包括适合于压缩稀疏数据的压缩算法。
43.图3示出用于学习字典集合100的方法300的示例。在用于表示视觉信息的方法200中获得字典集合100的步骤220可以包括用于学习字典集合或其步骤的方法300。
44.用于学习字典集合100的方法300，包括获得包括表示训练视觉信息的训练数据元素的训练数据集的步骤310，将训练视觉信息预聚类到至少一个预聚类的步骤320，为每个预聚类初始化字典的预聚类集合的步骤330，通过将每个训练数据元素分配给相应的预聚类集合中的字典来对至少一个预聚类进行聚类的步骤340，训练至少一个预聚类集合以最小化重构误差并最大化对应训练数据元素的系数的稀疏性的步骤350，更新聚类并迭代训练步骤350直到满足至少一个条件的步骤360，以及将至少一个预聚类集合中的至少一个进行组合以形成字典集合100的步骤370。
45.用于学习字典集合100的方法300可以是机器学习辅助过程。获得训练数据集的步骤310可以包括与将在以后的阶段中由学习的字典集合100表示的视觉信息的数据元素111具有相同维数和类型的训练数据集。预聚类训练视觉信息的步骤320可以基于稀疏性。预聚类训练视觉信息的步骤320可以包括机器学习。为每个预聚类初始化字典的预聚类集合的步骤330可以包括基于相应的预聚类的稀疏性来初始化预聚类集合。通过将每个训练数据元素分配给字典来对至少一个预聚类进行聚类的步骤340可以基于稀疏性。通过将每个训练数据元素分配给字典来对至少一个预聚类进行聚类的步骤340可以包括机器学习。训练至少一个预聚类集合的步骤350可以被布置为最小化对编码和解码的计算要求。更新聚类和迭代训练步骤350的步骤360可以被布置为最小化分配了训练数据元素的字典的数量。将至少一个预聚类集合的至少一个进行组合以形成字典集合100的步骤370可以包括将至少一个预聚类集合和至少一个其他字典集合100中的至少一个字典进行组合。
46.图4示出用于表示视觉信息的系统400的示例。用于表示数据集的系统400包括表示视觉信息的n维数据元素110，包括处理器410，包括计算机程序产品的存储器420，至少一个视觉信息生成装置430，其中，处理器410被布置为将数据存储在存储器420上，从至少一个视觉信息生成装置430接收视觉信息，运行被布置为执行根据权利要求1至15中任一项的步骤的计算机程序产品，并基于稀疏系数集120提供视觉信息的表示。该系统可以是个人计算机。该系统可以包括传感器系统。该系统可以是传感器系统。处理器410可以被布置为控制至少一个视觉信息生成装置430。至少一个视觉信息生成装置430可以是至少一个相机。至少一个视觉信息装置430可以是包括视觉信息的数据库。该系统可以包括用于处理器410和至少一个视觉信息生成装置430之间的无线通信的硬件。
47.存储器420被布置为存储用于执行关于图2和图3描述的所公开的方法的至少一部分的计算机程序产品。所述计算机程序产品可以至少部分地在所述处理器410上运行。所述计算机程序产品可以包括用于控制至少一个视觉信息生成装置430中的任何一个的例程。
所述计算机程序产品可以包括用于处理器与至少一个视觉信息生成装置430之间的无线通信的例程。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：约纳斯
技术所有人：马特瑞勒耶斯公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。