根据单个图像估计深度的制作方法

文档序号:9602564阅读:573来源:国知局
根据单个图像估计深度的制作方法
【专利说明】
[0001] 相关申请
[0002] 本国际申请要求2014年5月27日提交的美国专利申请No. 14/288,233(代理人案 卷号No. 2043. E73US1)以及2013年9月5日提交的美国临时专利申请No. 61/874,096(代 理人案卷号No. 2043. E73PRV)的优先权,这些申请的全部以引用的方式并入本文。
技术领域
[0003] 本文中公开的主题大体上涉及图像的处理。具体地,本公开涉及用于促进图像处 理和根据图像处理获得的图像数据的使用的系统和方法。
【背景技术】
[0004] 特别是从用户观察图像或促进电子商务("e-commerce")的角度来看,可以使用 图像来以更高效地或者以文本不能实现的方式来传递信息。然而,为了基于图像中包含的 大量信息来使用图像,执行图像处理以提取、鉴别或以其他方式识别图像的属性。一旦提取 出了图像数据,图像数据就可以在各种应用中使用。取决于具体应用,可以优先于其他图像 来实现某些类型的图像的处理。
【附图说明】
[0005] 在附图的图中以示例的方式而非限制的方式示出了 一些实施例。
[0006] 图1是示出了根据一些示例实施例的适合于根据单个图像来估计深度的网络环 境的网络图。
[0007] 图2是示出了根据一些示例实施例的适合于根据单个图像来估计深度的图像处 理机的组件的框图。
[0008] 图3是示出了根据一些示例实施例的使用图像处理机来根据单个图像估计深度 的工作流的框图。
[0009] 图4-6是示出了根据一些示例实施例的图像处理机在执行根据单个图像估计深 度的方法时的操作的流程图。
[0010] 图7是示出了根据一些示例实施例的、能够从机器可读介质中读取指令并执行本 文中讨论的方法中的任意一个或多个方法的机器的组件的框图。
【具体实施方式】
[0011] 实例方法和系统涉及根据单个图像估计深度。示例仅仅作为可能的变化的典型例 子。除非另行明确声明,否则组件和功能是可选的并可以组合或细分,并且操作可以在次序 上变化或者可以组合或者细分。在以下描述中,出于解释的目的,对多个具体细节进行阐 述,以提供对示例实施例的透彻理解。然而对于本领域技术人员将显而易见的是:本主题可 以在没有这些具体细节的情况下实施。
[0012] 机器可以(例如通过硬件、软件或二者)被配置为执行包括根据单个图像来估计 深度信息的图像处理任务。这样的机器可以形成用于执行这样的图像处理任务的系统的全 部或一部分。
[0013] 在训练阶段期间,机器访问存储了具有对应深度信息的图像的参考集的参考数据 库(例如训练数据库)。基于该访问到的信息,机器计算在图像中(例如根据彩色像素数据 来计算)和在深度信息中表现的特征的描述符。这些描述符可以被看做是包含这些特征的 图像部分或深度图部分的高度压缩的版本。具体地,机器计算视觉描述符(例如根据参考 图像中的彩色像素来计算)并且计算它们的对应的深度描述符(例如根据对应的深度信息 来计算)。然后,机器生成将这些视觉描述符与它们对应的深度描述符进行相关的数据结构 (例如存储在存储器或其它机器可读介质中的矩阵)。这些数据的生成可以被称作构建跨 域图,该跨域图用于将视觉描述符的词典翻译成对应的深度描述符的词典,或反之。
[0014] 在训练阶段之后,机器可以在后训练阶段(例如使用阶段或运行时间阶段)中操 作,在该阶段中,机器被配置为基于缺少深度信息的单个图像(例如查询图像)来执行深度 估计。具体地,机器可以分析(例如在针对深度信息的查询中提交的或在估计深度信息的 请求中提交的)单个图像,并且计算一个或多个视觉描述符(例如根据提交的单个图像中 的彩色像素来计算)。然后,机器可以通过访问之前生成的数据结构(例如矩阵)来获取针 对每个视觉描述符的对应深度描述符。基于从数据结构中获取的一个或多个深度描述符, 机器可以创建与提交的单个图像相对应的深度信息。
[0015] 机器可以响应于查询或请求来提供该深度信息(例如作为深度图或深度图像)。 此后,机器可以向任何机器或软件应用(例如运输应用、视觉化应用、或者它们的任何合适 的组合)提供该深度信息。
[0016] 在训练阶段期间,参考数据库可以存储彩色图像(例如三色图像),该彩色图像是 包含像素的二维图像,并且这些像素可通过每个像素三个颜色值来在色彩空间中定义(例 如三个三色值,例如红绿蓝(RGB)图像中的红色值、绿色值和蓝色值)。在一些示例实施 例中,彩色图像中的一个或多个具有通过每个像素四个颜色值来定义的像素(例如青-洋 红-黄-黑(CMYK)图像中的青色值、洋红色值、黄色值以及黑色值)。在其它示例实施例中, 针对每个像素的第四颜色值是透明度值(例如红绿蓝alpha(RGBA)图像中的alpha值)。 在任意事件中,彩色图像可以与对应的深度图(例如深度图像)一起存储在参考数据库中, 该深度图是二维图像或其它数组。这些深度图中的每一个可以包含针对对应彩色图像中的 像素的深度(D)值。根据各种示例实施例,图像信息包括亮度信息(例如亮度(luma) (Y) 值),亮度信息可以由多个颜色值(例如红绿蓝(RGB)像素中的红色值、绿色值、以及蓝色 值)共同定义,并且不需要由单个颜色值(例如YUV像素中的亮度值)来定义。
[0017] 备选地,由于深度值可以被当做深度像素,参考数据库可以存储将颜色和深度信 息二者相结合的参考图像。例如,参考数据库可以存储红-绿-蓝-深度(RGB-D)图像,其 中每个RGB-D图像包括针对红、绿、蓝和深度值的通道(例如分别的数组)。为清楚起见,下 文的讨论主要集中于RGB色彩空间(例如RGB图像)中的彩色图像。然而,本文中讨论的 系统和方法适于其它色彩空间中的彩色图像。
[0018] 作为说明性的示例,假设在训练阶段使用RGB-D图像的数据库,其中每个图像包 括红绿蓝(RGB)和深度(D)通道二者,机器学习从RGB描述符的词典向深度描述符的词典 的转换。每个词典可以是整个描述符数据库,或者可以通过将描述符聚类(cluster)来进 行二次采样。每个训练图像可以被表示为RGB空间和深度空间中基本元素的稀疏线性组 合,其可以分别被称为RGB投影和深度投影。然后,可以估计训练数据库中的所有图像的 RGB投影与深度投影之间的转换。
[0019] 说明性的示例继续进行,假设使用测试时的查询图像,只有该图像的RGB信息可 以是可用的。估计查询图像的RGB投影,接下来是应用转换,该转换估计、预测或以其他方 式获取对应的深度投影。深度投影与深度词典相结合以创建对应的深度图。可使用查询图 像的分段来对产生的深度图进行后期处理,以确保查询图像中描绘的物体之间的深度转变 是锐利的。由此,当查询RGB图像到达时,学习到的映射函数能够用于将其RGB像素值转换 成深度像素值。
[0020] 根据物体的单个图像快照估计的深度图可以被用于测量这些物体的尺寸。这在受 益于实时测量的运输和产品中得到应用。深度图可以与根据查询图像的头部信息获取的相 机参数相结合,以计算物体上的点的三维(3D)坐标。这些点之间的测量到的距离对应于自 然物体的物理尺寸的测量。这样的估计出的物体尺寸可以向运输应用提供,以促进一个或 多个运输任务(例如针对将要运输的物品来选择合适的运输容器)。
[0021] 根据单个图像快照估计的深度图可以被用于创建可视化(例如3D飞行图像),该 可视化用于对物品查看页面中的电子商务库存进行增强浏览。深度图可以与根据查询图像 的头部信息获取的相机参数相结合,以生成对查询图像中描绘的场景和场景中的物体进行 建模的3D点云。可以向再现引擎提供该3D点云,以创建场景的令人满意的3D可视化,这 可以导致产生和发现新颖的视角(例如,场景从不同角度的修正视角)。可以使用网页浏览 器或移动浏览器上的虚拟现实建模语言(VRML)插件来对这样的再现进行可视化。这可以 具有在查看场景的单个图像快照时提高用户体验的效果。
[0022] 图1是示出了根据一些示例实施例的适合于根据单个图像来估计深度的网络环 境100的网络示意图。网络环境100包括图像处理机110、数据库115、以及设备130,上述 设备全部经由网络190相互通信耦合。图像处理机110可以形成基于网络的系统105 (例 如被配置为向设备130提供一个或多个图像处理服务的基于云的服务器系统)的全部或一 部分。服务器机110和设备130可以各自整体或部分地在计算机系统中实现,如下文参照 图7所述。
[0023] 在图1中还示出了用户132。用户132可以是人类用户(例如人类)、机器用户 (例如由软件程序配置的用于与设备130交互的计算机)、或者其任何合适的组合(例如由 机器辅助的人类或由人类监督的机器)。用户132并不是网络环境100的一部分,但是可以 与设备130相关联,并且可以是设备130的用户。例如,设备130可以是属于用户132的台 式计算机、车辆计算机、平板计算机、导航设备、便携式媒体设备、智能电话、或可穿戴设备 (例如智能手表或智能眼镜)。
[0024] 图1中示出的任何机器、数据库或设备可以在通过软件(例如一个或多个软件模 块)改进的(例如配置的或编程的)通用计算机中实现,来变成具体被配置为执行针对该 机器、数据库或设备的在本文中描述的功能中的一个或多个的专用计算机。例如,在下文中 参照图7讨论了能够实现本文中描述的方法中任意一个或多个方法的计算机系统。如本文 中使用的,"数据库"是数据存储资源,并且可以存储被构建为文本文件、表格、电子数据表、 关系数据库(例如对象关系数据库)、三元组库、分层数据存储、或者其任意合适的组合。此 外,图1中示出的机器、数据库或设备中的任意两个或多个可以组合为单个机器,并且针对 本文中描述的任意单个机器、数据库或设备的功能可在多个机器、数据库或设备之间细分。
[0025] 网络190可以是能够在机器、数据库和设备(例如图像处理机110和设备130)之 间或之中通信的
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1