降低飞行时间深度成像的功耗的制作方法

文档序号:11277340阅读:281来源:国知局
降低飞行时间深度成像的功耗的制造方法与工艺

本公开涉及用于降低飞行时间深度成像的功耗的系统及方法。



背景技术:

设备与对象之间的距离的感测可以通过从设备发射光且测量光从该对象反射且然后被设备采集所花费的时间来执行。距离感测设备可以包括光传感器,该光传感器采集由设备发射且然后从环境中的对象反射的光。

在飞行时间(tof)三维(3d)图像传感器中,图像传感器捕获二维图像。图像传感器进一步配备有光源,光源照射对象,对象距设备的距离是通过检测发射的光返回到图像传感器所花费的时间来测量的。这提供了第三维信息,允许生成3d图像。为确定对象距成像设备的距离的目的而使用光源来照射对象会使用大量的电力。



技术实现要素:

实施方案的方面涉及操作成像设备的方法。该方法可以包括:由图像传感器捕获第一图像;识别所捕获的图像中的对象的至少一部分;通过所述图像传感器捕获第二图像;从所述第二图像确定所述对象的所述至少一部分的位置的变化;以及基于所述对象的所述至少一部分的位置的变化来更新深度图。

实施方案的方面涉及一种包括图像传感器的成像设备;光源;和图像处理器。成像设备被配置为通过图像传感器捕获第一图像;识别所捕获的图像中的对象的至少一部分;通过所述图像传感器捕获第二图像;从所述第二图像确定所述对象的所述至少一部分的位置的变化;以及基于所述对象的所述至少一部分的位置的变化来更新深度图。

附图说明

将参考以下图来对本申请的各方面和实施方案进行说明。将意识到,图不一定是按比例绘制。在多个图中出现的项在它们出现的所有图中由相同的附图标记来表示。

图1a描绘根据一些实施方案的经配置以感测距离的说明性的成像设备;

图1b描绘根据一些实施方案的由图1a中所示的成像设备产生的说明性的距离映射;

图2是根据一些实施方案的成像设备的框图;

图3是描绘根据一些实施方案的确定距离信息的方法的流程图;

图4示出根据一些实施方案的用于确定到对象的距离的脉冲调制技术;

图5描绘根据一些实施方案的单个成像帧内的说明性的脉冲调制模式;

图6示出了在一些但不是全部帧中发射照射光的帧序列。

图7示出包括本文所述类型的成像设备的系统的实施例;

图8示出包括有本文所述类型的成像设备的移动设备;

图9示出包括本文所述类型的成像设备的游戏控制台;和

图10示出包括本文所述类型的成像设备的机器人。

图11是根据本公开的实施方案的使用成像设备进行成像的过程流程图。

图12a是根据本公开的实施方案的用于确定用于从同一场景的较低质量图像提供来自场景的较高质量图像的一个或多个算法参数的过程流程图。

图12b是根据本公开的实施方案的使用确定的算法参数以从捕获的较低质量图像提供较高质量图像的过程流程图。

图13a是根据本公开的实施方案的用于确定算法参数以从所捕获的图像提供特征提取的过程流程图。

图13b是根据本公开的实施方案的从由成像系统捕获的一组帧中进行特征提取的过程流程图。

图14是根据本公开的实施方案的用于过滤低功率深度图像的过程流程图。

图15是根据本公开的实施方案的用于通过刚体转换信息来更新深度图的过程流程图。

图16是根据本公开的实施方案的用于确定图像的逐像素平移以更新深度图的过程流程图。

图17是根据一些实施方案的具有惯性测量单元(imu)的成像设备的框图。

图18a是使用结合使用rgb图像的深度图估计的imu测量数据来更新深度图的过程流程图。

图18b是根据本公开的实施方案的用于使用惯性测量单元信息来估计深度图的过程流程图。

图19是根据本公开的实施方案的用于使用对物体的运动的分块式估计来更新深度图的过程流程图。

图20是用于外推更新的深度图的背景像素的过程流程图。

具体实施方式

本申请的方面提供用于操作tof3d感测系统的功率高效技术,使得tof3d感测系统的照射源的操作频率比距离信息所需要的每一帧低。例如通过比较两个二维(2d)图像来确定距离的低功率替代方式可以用于当不使用照射源时确定到对象的距离。然后,在至少一些实施方案中,仅当其他低功率技术不足时,即当低功率替代距离确定机制不能确定到被成像对象的距离时,才使用照射源来确定距离。以这种方式,可以减少照射源消耗的功率。

从二维图像获得关于第三维中的距离的信息可有益于多种应用,诸如那些期望三维图像的应用。三维图像本身在一些设置中可能是期望的最终目标,而在其它设置中,所确定的第三维中的距离信息可允许跟踪对象的移动或可以辅助做出关于要采取的措施的决策,例如导航物理环境。为获得关于对象或环境的第三维的信息,可以使用关于光照射对象/环境所花费的时间的信息,称为“飞行时间”或简称为“tof”。然而,对于图像或图像序列的每帧进行照射和计算飞行时间信息既是处理器密集的,又是能量密集的。为降低处理要求和功率要求,披露了多种用于图像感测系统的技术。在一些实施方案中,图像感测系统使用飞行时间照射技术以及可替代的距离感测技术,使得飞行时间技术基于在对象或环境中何时检测到变化或者某时间段已经经过之后来执行。

根据本文所述的一些实施方案,可以利用成像设备来确定距离信息,成像设备被配置成发射照射光且感测从环境中的对象反射回到设备的照射光。在一些情况下,同一成像设备可另外地捕获环境的二维图像(例如,使用与用来感测反射的照射光的相同的图像传感器,或通过其它方式)。在图1a的tof3d感测系统100中描绘了示例性的成像设备。

在图1a的实施例中,成像设备110包括图像传感器112和照射光源114,两者都由处理器116控制。三个示例性的对象105a,105b和105c定位成分别距成像设备的距离为d2,d1和d3。照射光源114可以是激光光源比如激光二极管,其发射照射光(例如,激光),激光从成像设备向外行进,从对象105a-105c反射,并且入射到图像传感器112上。将意识到,为清晰,仅在图中描绘了那些既入射到对象105a,105b或105c又反射到图像传感器的那些光线。而且通常存在其它从照射光源发射的光线以及沿除了图中所示的方向之外的方向反射的光线。

图像传感器112可被配置成识别可见光和红外光(例如,可以是组合rgb和ir传感器)。在这些情况下,照射光源可以是红外辐射源,使得图像传感器112能够在同时接收到的红外辐射(其包含从环境中的对象反射的照射光)以及可见光(来自可见谱内的环境中的观察对象)之间进行区分。图像传感器112可以包括任何适合的图像传感器技术,包括但不限于,电荷耦合器件(ccd)或互补金属氧化物半导体(cmos)成像设备。

在一些实现中,图像传感器112可以包括采集由成像设备观察到的场景的部分的反射照射光的多个像素。通过分析接收的光,图像传感器能够确定,对于每个像素,距该像素所观察到的对象的距离。因此,场景的“距离映射”可以通过图像传感器成像,其类似于常规的二维(2d)图像,除了每个像素测量距离而非光强度。图1a所描绘的场景的示例性的距离映射150显示在图1b中。在图1b所示的图像160中,距所感测的对象定位距所述成像设备越远,则像素越暗。结果,从成像设备所观察到的对应于对象105b的矩形形状被测量为相对靠近成像设备(浅灰色);从成像设备所观察到的对应于对象105a的三角形形状被测量处于距成像设备的中间距离(中灰色);并且从成像设备所观察到的对应于对象105c的圆形形状被测量为距成像设备相对较远(深灰色)。

照射光源114会消耗大量的电力来提供足够强以到达对象105a-105c且反射回图像传感器的光。该功耗可以表示tof3d感测系统的可用电力的大部分,尤其是当tof3d感测系统是电池供电操作时,例如用于便携式设备。

申请人已经认识且意识到距离感测可以通过成像设备在期望距离确定的仅一些而非全部情况下发射照射光以较高功率效率来执行。在照射光不由设备发射的那些情况下,图像分析技术可通过比较成像设备所捕获的2d图像以及检测那些图像中的一个对象或多个对象如何随时间变化而用来估计距离。

根据一些实施方案,当照射光被产生且捕获时所预先确定的距离可用作辅助利用2d图像分析技术估计距离的参考。例如,照射光可周期性地发射以周期性地确定距离,并且在那些发射之间可以执行图像分析以确定距离(例如,使用利用照射光作为参考点而预先确定的距离)。

根据一些实施方案,是否发射照射光(以通过采集反射的照射光来确定距离)的决策可基于2d图像的分析。该分析可以基于一个或多个2d图像来确定距离估计将有多精确,使得当精度降至可接受阈值以下时,做出利用照射光获得更精确的距离确定的决策。以这种方式,仅当2d图像分析不产生可接受地精确的距离测量时才发射照射光,这可以降低发射照射光的频率,从而降低电力使用。

虽然本公开的各方面可用于任何适合的成像设备,在多个帧期间(例如,在视频捕获中)捕获光的成像设备内应用这些方面尤其有利。一些成像设备可被配置成最终保留单个图像,而在图像设备已经被激活以保留单个图像之前和/或之后多次捕获图像(例如,设备被配置成在单个图像捕获之前显示场景,以达到预览静像的目的,和/或设备被配置成当被激活捕获单个图像时捕获多个图像,使得可以选择单个图像和/或从多个图像合成单个图像)。为了本文论述的目的,“帧”被视为能适用于如下期间的图像捕获:(i)视频捕获;以及(ii)静像捕获,其中在静像捕获过程中多个图像寄存在设备中(包括但不限于上文的那些实施例)。

根据一些实施方案,基于2d图像的分析确定是否发射照射光可以在与捕获2d图像的相同的帧内来执行。在相同的帧内做出确定可以确保,在确定不发射照射光的情况下,可以在后续帧期间内捕获2d图像,而不存在要做出确定的中间帧。因此,通过在每帧期间捕获图像,成像设备可以高效地工作。根据一些实施方案,一旦确定要发射照射光,在与做出确定的相同的帧内发射照射光。可替代地,如果在捕获2d图像的帧内没有足够的时间来确定发射照射光以及还发射照射光(例如,因为成像设备不具有在该帧内执行全部这些步骤的处理容量,因为帧时间极短,和/或由于设备的处理局限性),照射光的发射可以在后续帧中发生。

根据一些实施方案,使用照射光比如来自激光二极管的激光确定距离可以使用脉冲调制技术。在脉冲调制中,照射光被发射为已知持续时间的脉冲,使得可以识别反射光脉冲,并且测量其飞行时间(以及因此确定距对象的距离)。在一些实现中,脉冲调制技术可以利用多个快门来操作图像传感器,每个快门捕获所反射的照射光脉冲的一段。在每个快门期间所测得的反射照射光的小部分可以暗示光脉冲的飞行时间。该方法的实施例将在下文结合图4进行说明。

根据一些实施方案,使用照射光确定距离可使用连续波技术。在该技术中,通过测量从对象反射的光想相移来确定到对象的距离。当照射光的波长已知时,相移指示距对象的距离。

下面接着是与距离感测的技术和实施方案有关的各概念的更详细说明。应当理解的是,本文所述的各个方面可以通过多种方式中的任一种来实现。在本文提供了具体的实现的实施例仅为了示例说明的目的。另外,在下面的实施方案中所描述的各个方面可单独或组合使用,并且不限于本文明确描述的组合。

图2是根据一些实施方案的tof3d感测系统200的框图。tof3d感测系统200包括成像设备201,成像设备包括经由透镜205和可变光阑208接收来自成像设备外的光的图像传感器210。成像设备还包括被配置成从设备发射照射光的照射光源220。照射光源220可以是激光二极管,并且照射光可以是激光,但是替代选择是可能的。照射光源220由定时发射器214控制,定时发生器214还控制可变光阑208,允许图像传感器210处于关闭状态(不采集光)或打开状态(采集光)。由图像传感器210所采集的光由前端212读出,前端212可包括任何适合的电路系统且根据由定时发生器214所定义的时钟来操作。处理器216可以将同步信号提供给定时发生器214且从前端212读取数字图像数据。

在图2的实施例中,照射光源220是激光二极管,但是照射光源通常可以包括任何被配置成产生激光或其它类型的光的设备。根据一些实施方案,照射光源220可以包括非可见波长的光(例如,红外光或近红外光,作为非限制实施例)。根据一些实施方案,照射光源可以产生单波长光。根据一些实施方案,照射光源可以包括将来自源的光引导至环境内的多个对象的一个或多个扩散器和/或其它光学组件。

在图2的实施例中,任选的驱动器211和217被包含且如图所示定位以分别提供图像传感器输出信号和提供给照射光源的照射信号的适当的放大功能。

根据一些实施方案,图像传感器210可被配置成采集用于产生2d图像的目的的光以及采集由照射光源220发射且从环境中的对象反射的照射光。图像传感器210可以多种方式配置而使得这两个光源可被区分开。作为实施例,根据一些实施方案,图像传感器的一个或多个像素可以包括颜色过滤器(例如,拜耳模式或其它的红色、绿色和蓝色过滤器)。根据一些实施方案,图像传感器210可以是组合rgb和ir传感器。

根据一些实施方案,图像传感器210可以包括两组单独的像素,每组被配置成唯一地捕获两个光源中的一个(用于2d图像的光和反射的照射光)。如上文所述,照射光可以包括非可见波长的光,允许其与采集用于2d图像的可见光区分开)。两个光源可以分开(例如,通过棱镜)且被引导至不同的图像传感器。

根据一些实施方案,图像传感器210可以包括两种不同类型的像素(例如,散布的,例如以棋盘模式),每种像素被配置成捕获两个光源中的一个(用于2d图像的光和反射的照射光)。入射到成像设备上的光因此可以都被引导到图像传感器的像素,其中一部分(例如,一半)采集可用于产生2d图像的可见光,一部分(例如,一半)采集可用于确定距离信息的反射的照射光(例如,红外光)。

根据一些实施方案,图像传感器210可以包括被配置成采集两种光源(用于2d图像的光和反射的照射光)的像素。该像素可各自产生指示所采集的可见光的量的第一信号(其可用于产生2d图像)和指示所采集的反射的照射光的量的第二信号(其可用于确定距离信息)。

处理器216可以实现用于操作照射光源和/或图像传感器来产生2d图像同时测量距离信息的适合的方案,如本文所述的。例如,处理器216可以实现下面所述的方法300和/或关于下面的图4和图5所论述的脉冲调制方案中的任一个。

图3是描绘根据一些实施方案的利用tof3d感测系统确定距离信息的方法的流程图。方法300的实施例可通过例如图2所示的成像设备201和/或图1所示的成像设备110来执行。更特别地,方法300可以通过成像设备内的一个处理或多个处理器控制图像传感器和照射光源来执行。

在方法300中,成像设备利用照射光确定参考距离,然后使用2d图像来估计或精确地确定相对于参考距离的距离变化。如上文所述,在一些实施方案中,成像设备可以得出结论,照射光将要被发射且在确定利用一个或多个2d图像所估计的距离不足够精确(例如在某预设阈值精度以下)时确定利用照射光来确定距离。方法300是确定何时发射照射光的该方法的一个示例性的实施例。

方法300开始于动作302,其中照射光源被操作(例如,通过定时发生器和/或其它控制器)以发射照射光,图像传感器被操作(例如,通过定时发生器和/或其它控制器)以采集反射的照射光。照射光可被发射作为已知持续时间的脉冲或者作为连续波,并且可以包括任何适当波长的光,比如红外的。例如,动作302可以包括下文结合图4所描述的脉冲调制分析的步骤。

在动作304中,在动作302中所采集的照射光被分析以确定距一个或多个对象的距离。例如,图像传感器的每个像素可以接收反射的照射光且可以独立地确定距该像素所观察到的对象(或对象的一部分)的距离。根据一些实施方案,所采集的照射光可被分析以确定光所展现的相移(根据上述的连续波测量技术)。根据一些实施方案,照射光可以在多个快门周期内被采集以确定所发射的照射光脉冲的飞行时间(根据下面要说明的脉冲调制测量技术)。

在动作306中,通过图像传感器捕获2d图像。如上文所述,图像传感器可使用与用于采集反射的照射光的像素相同或不同的像素来捕获2d图像。

在动作308中,在动作306中所捕获的2d图像被分析以估计对象面积和/或形状变化。这些变化可相对于在对象出现在动作304中所确定的距离映射中时对象的形状来确定,和/或相对于在对象出现在先前捕获的2d图像中时对象的形状来确定。广义地讲,分析可以检查在先前所获得的距离映射和/或2d图像中所观察到的对象的形状并且确定较前状态和较后状态之间的对象的形状和/或表观面积的变化。例如,在距离映射和/或先前的2d图像被捕获之后朝向成像设备移动的对象将期望在后续的2d图像中看起来较大(具有较大的面积)。动作308的分析可使用除了在动作306中捕获的2d图像之外的、在动作308中之前所捕获的任意数量的距离映射和/或2d图像来估计形状/面积变化。

在动作310中,做出如下确定:在动作308中估计的面积/形状变化是否足够良定而使得无需额外的照射光来确定精确距离。在一些情况下,对象可以相对于成像设备移动而使得确定它们的新位置和/或取向是困难的。例如,对象可以移动和/或旋转以产生谱高亮,其使得确定对象的表观尺寸不精确(因为在该情况下接收到的光可能无法明确指示对象的形状)。而且,在一些实施方案中,在动作306中所捕获的2d图像可以在与先前捕获的图像不同的场景中,使得用于动作306中捕获的2d图像的距离信息无法通过与先前的2d图像比较来确定。

根据一些实施方案,动作308可以产生所确定的面积/形状变化的估计精度的置信水平和/或其它指示,并且是否发射照射光以确定距离的确定可以至少部分地基于该精度是否落到预选阈值以上或以下。

根据一些实施方案,动作310中的确定可以考虑多个对象以及它们的面积/形状变化可能在动作308中被精确(或不精确地)确定的程度。例如,在一些实现中,如果单个对象具有低于预设阈值的面积/形状变化估计精度,即使其它对象的面积/形状变化是以阈值以上的精度估计的,也可能期望发射照射光。另外地,或者可选地,可以考虑全部对象的形状/面积估计的平均精度(以及相对于预设阈值比较)来确定是否使用照射光。其它基于对象形状/面积变化估计精度的总效应的方案可以替代地实现。

如果在动作310中确定要发射额外的照射光来确定距离,则方法300返回到动作302。可替代的,如果确定不使用额外的照射光,则在动作312中确定在动作308中所估计的面积/形状变化所暗示(以及基于其)的距离变化。

在任选的动作309中,除了在动作308和/或动作304中确定的距离之外,可以利用在动作306中捕获的2d图像来生成3维图像(3d)图像。该动作可以包括:除了距离信息之外,基于在动作306中捕获的2d图像来生成立体图像。虽然在图3的实施例中动作309被描绘在动作312与314之间,将理解到,动作309可以发生在已经确定了距对象的距离之后的任意时间。

在动作314中,基于在动作312中确定的距离变化来更新先前在动作304中所确定的参考距离。在动作314的后续实例中,多个距离变化可应用于动作304中所确定的距离变化。然后,在动作306和动作308中捕获另一2d图像,任选地309,310,312和314重复,直到在动作310的实例中确定要使用另外的照射光来以期望的精度确定距离。

方法300的最终结果是,仅当在动作310中确定对象面积/形状变化估计不足够精确而使得额外的照射光将是有益的时候,在动作302中发射照射光。使用适当的算法来估计这些面积/形状变化,可以期望照射光仅在成像设备的帧的小部分中发射,从而降低功耗。在一些实施方案中,功耗可以降低2或以上的因子。根据一些实施方案,照射光以不到全部帧的一半或者不到全部帧的四分之一或者不到全部帧的10%发射。

虽然在图3的实施例中动作312描绘于动作310之后,将理解到,动作312还可以在动作310之前执行,使得所确定的距离,而非对象面积/形状变化,被用于确定在动作310中是否需要额外的距离信息。

图4示出了根据一些实施方案的确定距对象的距离的脉冲调制技术。如上文所述,在一些实施方案中,脉冲调制技术可应用确定距离。图400说明了可由比如图1a和图2所示的那些的图像传感器使用的该技术的一个实施例。

在图4的实施例中,在周期tld(其可以是例如10ns与30ns之间,15ns与25ns之间,22ns或在这些范围内的任意值或值的范围)内发射照射光。该图示出了当返回到图像传感器而不是由于将从以下说明理解的原因而发射时的光脉冲。图中所示的时间轴开始于照射光脉冲开始发射时。当脉冲开始发射时,第一快门周期(标记为“s0快门”)开始,在该期间内图像传感器采集照射光。当第一快门周期结束时,在该周期内所采集的光从图像传感器读出,并且第二快门周期(标记为“s1快门”)开始.当第二快门周期结束时,在该周期内所采集的光也从图像传感器读出。

在第二快门周期结束之后,在所示的“背景快门”所指示的时间由图像传感器捕获背景图像。背景快门可以利用图像传感器捕获背景光。根据一些实施方案,背景快门信号可从s0快门周期和/或s1快门周期期间所采集的光中减除以估计在没有任何背景光的情况下在那些快门周期内所接收到的照射脉冲光(其可以表示在s0快门周期和s1快门周期期间所采集的光的“噪声”成分)。

根据一些实施方案,s0快门周期和/或s1快门周期和背景图像捕获快门可以都发生在图像传感器的单个帧内。根据一些实施方案,s0快门周期和/或s1快门周期、背景图像捕获快门和图像传感器额外捕获2d图像可以都发生在图像传感器的单个帧内。

在图4的实施例中,在s0中所采集的照射光(标记为“s0信号”)相对于在s1中所采集的照射光(标记为“s1信号”)的比率指示反射照射光的对象距图像传感器的距离。因为照射光在已知持续时间的脉冲内发射,所以与s1快门周期相比在s0快门周期内所采集的光越多,对象越靠近图像传感器。在图中示出了示例性的返回的照射光脉冲,该脉冲的大部分光是在第二快门周期内采集的,如s1信号具有比s0信号更大的持续时间所表明的。基于该方法,距对象的距离可经由以下公式来确定:

在上述公式中,“s0”和“s1”分别是指在s0和s1快门周期内接收到的信号的量值,“bg”是指在背景快门周期内接收到的信号的量值。例如,这些信号的量值可以是由图像传感器所产生的光强度信号(例如,在s0和/或s1的情况下照射光强度信号)。而且,在该公式中,“c”是光速,d是所确定的距对象的距离。

根据一些实施方案,为确定距离映射,图像传感器可以基于在s0和s1快门周期中的每一个期间内像素采集多少光来对于每个像素独立地执行上述计算。照射光脉冲可从单个照射光源发射并且利用如上所述的扩散器而散布到环境中的对象上。

图5描绘了根据一些实施方案的在单个成像帧内的照射光源的脉冲调制的示例性的模式。在一些情况下,有利的是在图像传感器的单个帧内发射照射光的多个脉冲且进行反射的照射光的多次测量。该方法可以例如比图4所示以及上文所述的单一测量产生更精确的距离测量。例如,通过图像传感器所捕获的额外光的背景噪声可通过进行照射光的反复测量而得以滤除。图5所示的图500描绘了使用关于图4所描述的方法在单个帧内执行多个脉冲调制测量的一个示例性的模式。

在图5的实施例中,相继发射多个照射光脉冲(下轴线)。当这些脉冲中的每一个被发射时,在从脉冲发射开始起始且以脉冲发射结束而结束的时间段内执行其中图像传感器采集光的s0快门周期(如图4所示)。在图5的实施例中,在一行内执行多个照射光脉冲与s0快门周期测量组合,而无需执行任何s1快门周期。

在s0相位脉冲组之后,相继发射另一组照射光脉冲。当这些脉冲中的每一个被发射时,在从脉冲发射结束为起始且以等于此后脉冲的持续时间的时间段结束的时间段内执行其中图像传感器采集光的s1快门(如图4所示)。

在s1相位脉冲组之后,s0和s1快门周期中的每一个期间所采集的光量的测量可以经整理且用于确定距离(例如,通过使用上述等式1)。因为期望照射光脉冲的长度较短(例如,不到30ns),甚至在如图5所示的多个周期内对象通常将不移动很多(如果真的移动)。例如,即使使用在s0和s1相位脉冲组期间的图5所示的十四个照射光脉冲,两个相位脉冲组可以在实质上不到一微秒内完成。

在s0和s1相位脉冲组完成之后,可以在多个快门周期内捕获背景图像(在该时间内不发射对应的照射光)。如上文所述,背景图像可被捕获以获得在s0相位组信号和s1相位组信号中存在的背景“噪声”的估计,并且可用于从s0/s1信号中减除该噪声。根据一些实施方案,2d图像可以在图5所示的同一帧期间内进一步由图像传感器捕获。

图6示出了在一些而非全部帧内发射照射光的帧序列。如上文所述,在帧序列中,可以在帧序列中的每一个内做出是否应发射照射光的判定。在不到全部的这些帧内,所得到的判定可以是不应发射照射光。作为该使用情况的示例性的实施例,图6示出了帧序列601-606,其中在帧601和605中而不是在帧602,603,604或606中发射照射光。

在图7中示出了可包含上述类型的成像设备的系统700的示例性的实现方式。系统700包括图2的成像设备201,但是根据本文所述的替代实施方案的成像设备可以替代地被包含。供电装置702可以被提供以对成像设备201供电,同时可能对系统的其它组件供电。供电装置702在一些实施方案中可以是电池,比如通常在移动电话、平板设备和其它消费电子产品中所使用的电池。如已经说明的,在一些实施方案中,成像设备201可以提供低功率操作,并且因此可以利于使用低功率电池作为供电装置702。然而,在所有实施方案中,供电装置702不限于电池,也不限于特定类型的电池。

系统700还包括存储器704和非易失性存储设备706。这些组件可以以任意适当的方式(比如经由共享通信链路708)与成像设备201通信耦合。共享通信链路708可以是总线或其它适当的连接。存储器704和/或非易失性存储设备706可以存储用于控制成像设备201的操作的处理器可执行指令,例如以结合图3所描述的方式来操作,和/或由成像设备201所捕获的数据。结合例如如本文所述的距离感测技术,用于例如对照射光源发信号以产生一个或多个光脉冲、打开和/或关闭图像传感器的快门、读出图像传感器的像素、基于所采集的照射光执行距离计算等的代码可以存储在存储器704或非易失性存储设备706中的一个或多个上。处理器216可以执行任何此类代码以提供如本文所述的距离感测技术。存储器704可以存储表示成像设备201所捕获的2d和/或3d图像的数据。在至少一些实施方案中,存储器704或非易失性存储设备706可以是非暂态存储器。

本文所述的成像系统可以在各种应用中使用,其一些实施例结合图8-10进行了说明。第一实施例是移动设备,比如智能电话、平板式计算机、智能手表、或其它移动设备。本文所述的类型的成像系统,比如成像设备201或系统700,可以用作为移动设备的照相机组件。图8示出了实施例,在该情况下是移动电话。移动电话800包括照相机802,照相机802可以是本文所述的用于捕获和生成3d图像的类型的成像设备,比如成像设备201。使用成像设备201作为照相机802可通过低功耗操作来促进,例如根据本申请的各方面本文结合成像设备所描述的操作方式。诸如移动电话800的移动设备通常借助电池电力来操作,并且因此消耗大功率的组件在这些设备内使用是不切实际的。相反,本文所描述的类型的成像设备可以以功率高效的方式部署在此类设备内。

图9示出了实现本文所述的类型的成像系统的娱乐系统。娱乐系统900包括控制台902和显示器904。该控制台可以是被配置成在显示器904上生成视频游戏的图像的视频游戏控制台,并且可以包括照相机906。照相机906可以是本文所述的类型的成像系统,其被配置成捕获3d图像,比如成像设备201。在图9的实施例中,用户908可以经由控制器910与娱乐系统交互,例如玩视频游戏。照相机906可以捕获用户和/或控制器的图像,并且可以确定距用户的距离d1。该距离信息可用于生成3d图像以显示在显示器904上或用于控制娱乐系统的某其它方面。例如,用户902可以利用手势来控制娱乐系统,并且可以至少部分地通过捕获距离信息d1来确定姿势。

本文所述的类型的成像系统还可以用于机器人。图10示出了具有成像系统1004的机器人1002的实施例。机器人可以是移动式的,由成像系统1004所采集的信息可用于辅助机器人的导航和/或电动机控制。成像系统1004可以是本文所述的类型,例如是系统700或成像设备201。移动机器人通常由电池供电,并且因此本文所述的根据一些所述的实施方案可以在相对低功率下操作的类型的成像系统可促进其与机器人的集成。

本文所描述的除图8-10中所示的那些之外的术语的使用的实施例也是可能的。例如,汽车和安全照相机可以实现本文所述的类型的3d成像设备。

本文在说明书和权利要求书中所使用的措辞“和/或”应当理解成意指如此联合的元素中的“任一者或两者”,即在一些情况下联合地存在而在其它情况下分离地存在的元素。在一些实施方案中,术语“近似”和“大约”可以用来意指在目标值的20%的均值内,在一些实施方案中意指目标值的±10%以内,在一些实施方案中意指目标值的5%以内,而在一些实施方案中在目标值的±2%以内。术语“近似”和“大约”可以包括目标值。

利用具有优化时变光强度的飞行时间深度感测

使用飞行时间相机的深度感测的大能量消耗源来自对照射场景的激光器供电。为了获得高信噪比(snr),相机传感器暴露于足够量的光,这目前通常限制对插入设备的飞行时间感测。许多应用需要电池供电的解决方案,例如无人机感测,增强现实,汽车感测。

为了以最小的深度图像精度损失来降低功耗,本公开描述了机器学习和计算机视觉算法,以增强从使用低功率光源的飞行时间相机获得的低质量深度图像(即通过对给定帧发送较少的光脉冲)。使用从低功率设置获得的低质量深度图像来获得更高质量的深度图像就好像这些更高质量的深度图像是使用机器学习技术在高功率设置中收集的思想,是使用机器学习技术来将用有限资源(例如,功率,曝光时间,像素计数)获得的数据映射到利用更丰富的资源获得的数据的更一般理念的子集。一个其他实施例是将低snr图像映射到可能已经被记录为高snr图像的图像。由于这种资源的限制可能在用有限资源获得的数据中以系统的方式表现出来,所以如果存在足够的训练数据,则数据驱动/机器学习方法具有成功建模和补偿这种差异的潜力。

为了获得高质量深度图,实施方案包括在低质量深度图像旁边使用时间不敏感帧(例如,rgb帧)。作为实施例,rgb相机的功率消耗小于用于基于激光的深度图像捕获的功率消耗,并且rgb帧可以用于增加深度感测的分辨率。这种系统以数据驱动方法训练,例如通过经训练以在给定当前rgb图像和低质量深度图的情况下预测当前帧的高质量深度图的神经网络。为了进一步节省功率,还训练系统以输出置信度得分,置信度得分反映其可使用当前rgb图像和先前的深度估计有多精确地预测当前帧中的深度。当置信度得分低时,该系统可以打开激光器(或其他照射源)和/或使用更少的脉冲来获得低质量深度图。该低质量深度图可以与rgb图像一起使用以获得更高质量的深度图。

图11是根据本公开的实施方案的使用成像设备进行成像的过程流程图1100。该算法可以在1102处开始。成像系统处理器可以确定是否存储了现有的深度图(1104)。如果没有存储深度图,则成像系统可以使用激光脉冲捕获深度图(1106)。系统可以存储深度图(1108)。

如果存在深度图,则成像系统可以捕获一个或多个帧(例如,时间不敏感的帧,例如rgb帧)(1110)。该系统可以在固定的时间量内获取时间不敏感的图像。在实施方案中,系统可以对时间不敏感的图像执行分析并且获取时间不敏感的图像,直到对时间不敏感的图像的分析显示深度估计精度的置信度低于阈值。在实施方案中,可以分析时间不敏感图像的运动。诸如3d光流算法的图像处理或计算机视觉算法可以用于从时间不敏感和深度图图像来估计深度。

在设置的时间量之后,或当使用时间不敏感帧或运动量获得的深度估计的置信水平高于阈值时,可以使用飞行时间成像来测量新的深度图,而不使用时间不敏感图像(1112)。

可以基于更新的深度图来计算置信度得分(1114)。成像系统可以确定置信度得分是否高于阈值(例如,c>t)(1116)。如果置信度得分高于阈值,则不采用新的深度图图片(1120),并且成像系统可以继续获取时间不敏感帧(1510)。

如果置信度小于(或小于或等于)阈值(例如,c≤t),则成像系统可以基于置信度得分来调整用于捕获新的深度图像的激光功率(1118)。通常,激光功率可以基于激光功率函数f(c)来确定,其接收置信度得分并输出用于捕获新深度图的期望激光功率。例如,低置信度得分将导致较高的激光功率函数。

成像系统可使用经调整的激光功率来捕获新的深度图像(1506),并存储新的深度图(1108)。

图12a是根据本公开的实施方案的用于确定用于从同一场景的较低质量图像提供来自场景的较高质量图像的一个或多个算法参数的过程流程图1200。首先,可以捕获多个高质量图像并将其存储在数据库中(1202)。同样,为了训练目的,可以捕获多个类似的低质量图像(1204)。高质量图像和相应的低质量图像可以提供给训练算法(1206)。训练算法可以调整可以用于从低质量图像获得高质量图像的一个或多个算法参数(1208)。高质量图像包括具有高分辨率、高snr、高功率或高资源消耗图像或上述的组合的图像。低质量图像可以是低分辨率、低snr、低功率或资源消耗图像,或上述的组合。通过机器学习、训练、数据驱动分析等,来自高质量图像的方面可以与低质量图像进行比较。可以基于一个或多个算法参数来调整低质量图像以增加它们的质量。这些算法参数可以被存储用于通过成像系统处理器进行的即时质量调整。

在实施方案中,训练图像可以包括时间敏感图像(例如,飞行时间深度图像),并且还可以包括一个或多个时间不敏感图像(例如,不包括时间测量的rgb或ir图像)。值得注意的是,在即时质量调整期间,捕获的图像的类型将匹配训练中使用的那些类型(即,如果时间敏感图像和时间不敏感图像的组合用于训练目的,在正常的相机操作期间应使用时间敏感图像和时间不敏感图像的同一组合)。

图12b是根据本公开的实施方案的使用确定的算法参数从较低质量的捕获图像提供较高质量图像的过程流程图1250。在正常的图像捕获期间,可以通过捕获低质量图像来降低功耗(1252)。例如,可以使用低照射功率、低曝光时间、低分辨率等来捕获低质量图像。可以使用机器学习算法来处理低质量图像,所述机器学习算法使用从图12a确定的算法参数(1254)。成像系统可以输出通过使用算法参数处理低质量图像所形成的高质量图像(1256)。

使用机器学习特征提取算法的可变snr深度图像采集

飞行时间相机拍摄场景的图片,其中每个像素表示场景中的对应点到相机的距离。通过使用光脉冲(例如,ir光)照射场景并通过测量脉冲从相机到表面和从表面返回到传感器所花费的时间来估计距离。代替发射脉冲,一些飞行时间相机发射调幅的连续光波并测量发射的连续波(cw)和反射波之间的相移。飞行时间相机可用于包括虚拟现实(vr)、增强现实(ar)、自治汽车导航、机器人导航、无人驾驶导航等的许多应用中。

上述应用一般使用深度图像作为执行某种类型的特征提取的机器学习算法的输入,诸如手势识别(例如,识别手指收缩运动)。例如,手势识别算法可以具有不同的阶段,例如:分割,其中在3d图像中识别身体部位,以及跟踪,其中跟踪检测到的身体部位的空间中的轨迹,以及何时提取手势。可以使用特征提取的其他应用包括对象检测和碰撞避免(例如,检测汽车/机器人/无人机附近的人/物体)。术语“特征”可以包括可以从自像素子集获得的帧提取的任何信息,并且在一些情况下,信息可以在一定量的时间内并且在多个帧上改变。

在一些实施方案中,可以通过对表示不同特征的深度图像(或深度图像和时间不敏感图像的组合)的帧(或视频)的标记序列的数据集的算法训练来执行特征识别。在例如手势识别的情况下,训练阶段可以包括向算法提供代表各种姿势的多个帧序列并调整其参数,直到算法能够将它们分类在正确的类别(例如,手指收缩运动)中。

如在常规相机中,由传感器捕获的光的量确定信噪比(snr):捕获的光越多,snr越好。可以通过(1)增加光源的功率或通过(2)增加曝光时间来增加收集的光量。由于眼睛安全的原因,增加光源的功率通常在消费者应用中是不可行的。替代解决方案是用较不强大的光源将传感器曝光较长时间。以较长曝光时间捕获图像也降低了帧速率,这在需要实时深度视频时可能成为问题。此外,长曝光时间导致图像中更多的模糊,因为对象更可能在较长时间窗口期间被捕获移动。

对于这两种解决方案,增加snr意味着在光源中消耗更多的能量,这可能例如在便携式应用中耗尽电池。激光功率通常是飞行时间相机中能量消耗的主要来源,因此,寻找减少其使用的方法是一个挑战。

包括对深度图像/视频执行特征提取的机器学习算法的本公开的实施方案通常假定使用给定帧速率(通常为30fps)的帧的序列(视频)来描述感兴趣的场景。每个帧可以仅包含深度图像,仅包含从时间不敏感传感器获得的图像或者两者的组合。本公开集中于每个帧包含至少由飞行时间相机获取的深度图像的情况。

本公开描述了一种算法,其学习序列中的哪些深度帧对于给定特征更重要,使得仅获取帧的子集。因为大多数感兴趣的场景是非常结构化的(例如缓慢移动的手),所以大多数信息实际上包含在有限数量的帧中,并且通过适当地选择那些帧,可以减少深度图像的数量,并因此降低光源功率。例如,在手势识别的情况下,可以在分割阶段期间捕获几个连续的帧,然后在跟踪阶段期间捕获较少的帧。在对象检测或碰撞避免的情况下,当没有物体出现在照相机附近时可以降低帧速率(或每个深度图像的snr),并且当物体更靠近相机时增加帧速率(或snr)。

在本公开中,训练被执行特征提取的算法被训练以向每个深度图像分配snr值(没有帧等同于具有零snr的帧,具有高光源功率的帧具有较高的snr)。在手势识别的情况下,算法可以获知,当手势未被识别时在第一帧中需要高snr(即,精确的深度图像/高功率深度图像),并且一旦算法对于该手势是置信的则可以使用较低的snr。

图13a是根据本公开的实施例的用于确定算法参数以从所捕获的图像提供特征提取的过程流程图1300。首先,可以存储多个帧序列并且分配至少一个标签。标签对应于与帧序列相关联的特征,例如一个特定的手势。预先记录的帧序列与标签一起存储,并且被检索并输入到机器学习算法中(1302)。机器学习算法可以使用算法参数(1316)对帧序列(或者,在实施方案中,对来自帧序列的每个帧的像素的子集)进行操作(1304)。

机器学习算法处理每个预先记录的帧序列并且尝试提取与帧序列相关联的特征,并且输出对应于特征的估计的标记(1306)。训练包括确定与所存储的帧序列相关联的正确标记与由算法确定的估计标记之间的误差(1308)。如果误差高(例如,误差>阈值),则可以调整算法参数(1314),并且由机器学习算法使用调整的算法参数以提供修正的估计标记(1316,1304)。机器学习算法的参数被迭代地调整(1314),直到预测标签和数据库中的帧的图像系列的实际标签之间的误差低于某个阈值(1310)。

算法参数可以包括诸如滤波器或插值参数的参数,但是还可以包括相机控制参数,诸如每个捕获的帧的照明功率、snr等。

如果误差<阈值,则来自机器学习的估计标签输出与来自所存储的帧序列的正确标签充分匹配,并且用于机器学习的算法参数被存储以供相机使用(1312)。换句话说,如果误差<阈值,则机器学习已充分地识别来自帧序列的特征(例如,手势)。

图13b是根据本公开的实施方案的用于从成像系统捕获的一组帧中进行特征提取的过程流程图1350。成像系统可以捕获包括一个或多个特征的帧或视频(1352)。成像系统可以使用来自图13a的存储的机器学习参数对捕获的帧/视频执行机器学习(1354)。成像系统可以使用机器学习来识别特征(1358)。在一些实施方案中,机器学习可输出一个或多个相机参数调整以调整图像捕获质量(达到机器学习算法的较高准确度)(1356)。将调整提供给成像系统,其可以使用新的相机参数来捕获新的帧。

在实施方案中,捕获的帧包括rbg和深度图像,其可以用于使用机器学习的特征提取(例如手势识别)。

用于深度感测的引导滤波

通过最小化脉冲数量来获得可靠的深度测量可以具有诸如降低功率的优点,允许更多的tof相机被同时使用,允许更快地获取深度图像,允许更快的帧速率等。

在本部分中,描述了使用适于深度估计的边缘保留低通滤波器来获取深度图像的技术。这种滤波器用于从在低功率设置中获得的深度图中去除噪声。例如,可以使用双边滤波器,但是典型的双边滤波器可能需要高计算资源。

本公开描述了一种称为“引导滤波器”的滤波器类型,其可以用于深度图的噪声滤波的边缘保留。在本公开中,这种引导滤波器可以被称为“深度感知引导滤波”,但是在不偏离本公开的范围的情况下也可以使用其它滤波器,例如根据本公开的实施方案适用或使用的双边滤波器。通常,本公开描述了对于为深度成像捕获的s0和s1像素集合中的每一个保持滤波器的某些参数恒定。滤波可以减少深度图像的每个分量(s0和s1)上的低功率图像中的噪声,这允许以用于图像捕获的减少数量的脉冲的形式使用低功率。

在描述“深度感知引导滤波器”之前,为了完整性和清楚起见,在本部分中描述了传统的引导滤波器。以下总结了示例的引导滤波技术:

让:

w是待滤波的单个图像(rgb、深度或其它)的当前补片中的像素的nxn区域;

pij是当前补片中的原始像素值;

a,b是对于当前补片中的中心像素进行计算的系数,其中a可以被视为该区域中的像素值的差异的指示(例如,越靠近边缘,差异越大),并且在本文称为缩放系数。系数b可以被视为该区域中的像素值的平均值的指示(例如,b可以靠近平坦区域中的每个像素值)。系数(a,b)对于每个nxn区域可以不同。

λ是对于我们的待滤波的图像的所有补片所共有的规则化常数;

经滤波的像素表示为系数可通过求解以下的优化问题来得到:

该边缘保留滤波器在λ参数被恰当选择时是有效的。例如,增加λ会得到更平滑的图像,但是具有更模糊的边缘;而减小λ会得到更清晰的边缘,但是具有较差的噪声抑制。λ的值可被选择以平衡竞争利益。当像素的基础补片w视觉上平滑时,可以期望a≈0且其中是指在像素的补片(也称为窗口)w中的像素值上所取的平均值。可替代地,当基础补片不平滑和/或具有高的差异时(例如,当有边缘时),期望a≈1且b≈0。该优化等式可以被精确地求解,得到以下a和b的等式:

可以通过在整个图像上划动nxn窗来对图像滤波以获得不同的图像补片且对于以补片为中心的每个像素计算a和b。作为另一后处理步骤,可以被处理为两个图像本身的每个像素的a和b的统一值可以利用nxn盒平均核心进一步滤波。该过程的输出是两个2d信号,a和b,它们分别由a和b的滤波值构成。

如果原始图像表示为i,则引导滤波器的输出是

上面的相乘和相加是逐元素进行的。

深度感知引导滤波器:

注意的是,在一些实施方案中,利用tof相机获得的深度图可以利用两个图像(标示为s0和s1)来获得。深度图(标示为d)的一个计算与下式成比例

本公开描述了将引导滤波器应用于s0和s1。在这样做时,会出现的一个问题是在边缘附近引入伪迹。如果边缘周围的a值在s0和s1中不同,则围绕边缘的深度估计将失真。s0和s1中边缘重叠,并且可以通过将缩放系数“a”约束为对于s0和s1中的同一图像补片相同以最小化可能的伪迹来通过数学方式强制该重叠。因为边缘更直接地受“a”影响,可以允许系数“b”在s0和s1之间变化。确保对于s0和s1中的同一补片绑定“a”的一种方法是如下选择参数:

其中b0是用于s0的系数b,b1是用于s1的系数b。该问题以类似于引导滤波器情况的方式解决,其中由于附加的参数“b”矩阵等式中的矩阵将是3x3,而不是2x2。

通过将引导滤波器应用于s0和s1并且在对于s0和s1的滤波过程之间保持系数“a”对于每个相应像素窗口恒定,可以利用低功率技术来捕获s0和s1,例如使用较少的激光脉冲(例如,500个激光脉冲,与4000相对)。

图14是依照本公开的实施方案对低功率深度图像滤波的过程流程图1400。可以在第一时间段捕获第一图像(s0)(1402)。可以在不同于第一时间段的第二时间段捕获第二图像(s1)(1404)。可以以如图4-5中上述类似的方式来捕获s0和s1。

对于每个像素窗口(即,一组像素值)可以根据捕获图像之一来确定一组滤波系数(1406)。例如,可以利用以下等式利用每个s0和s1的像素(一组像素)的nxn窗口来确定系数。

引导滤波器可以利用受约束的“a”系数而应用于s0的每个像素(1408)。例如引导滤波器可利用相同的受约束系数“a”而应用于s1的每个像素(1410)。例如可基于s1^与s0^的比率来确定改进的深度图像(1412)。

可以使用硬件处理、软件算法或硬件和软件的组合来执行上述的引导滤波处理,以实现实时深度估计。

在一些实施方案中,针对第一图像s0和第二图像s1中的每一个的比例系数。可以针对第一捕获图像的每个对应组的像素强制执行一个或多个系数之间的差的绝对值,并且第二捕获图像低于阈值:

其中α是尺度系数a0和a1的代价系数。

被动深度确定

计算机视觉技术可以用于被动深度确定。被动深度确定意味着在一些帧中获得深度信息,即使不执行直接(或“主动”)深度确定,例如以节省功率。计算机视觉技术可以首先分割出图像中的刚体。使用2d图像和优化,本文描述的技术可以用于估计刚体在三维中的运动,使得可以从在帧1给出的深度图推断深度估计,而不是取新的深度图像。

在该部分中,描述了一种算法,其能够通过跟踪经历平移的对象而不必连续地打开激光器来更新帧序列中的深度图像。假定期望深度的对象在场景中是已知的。该过程允许估计每个对象的深度如何在给定使用标称激光功率和一系列“廉价获取”图像获得的初始深度测量值的情况下改变。这些“廉价获取的”图像可以是使用数字相机获取的rgb图像或者以低功率设置获取的ir图像。

在第一种情况中,假定对象是刚性的,这意味着对象的所有部分以相同的方式移动(即对象不收缩,扩展,扭曲等)。在第二种情况下,组成对象的每个点可以以其自己的方式移动。

让:

i(x,y,t)是图像。坐标x和y表示图像中的像素,例如第二行和第三列中的像素将具有x=2且y=3。时间t表示帧数,i(x,y,t)是每个像素处的强度。i将是缩写;

f是相机的焦距;

x,y,z是现实世界坐标;

u,v,w分别是x,y,z下的现实世界速度;

x,y是逐像素坐标。这些坐标相对于相机原点是已知的;

u,v分别是x和y下的逐像素速度;这还称为“光流”。

在实施方案的实现方式中,可以给出初始深度图、一系列低功率或rgb图像和焦距;即,已知z,各坐标x,y,和f。对于每个像素给定z,例如,如果对于x=2且y=3,z=2米,这意味着在成像设备的第二行、第三列中的像素中所捕获的光来自2米远处的对象的部分。

为获得其余变量中的一些,可以使用如下所示的角度投射。

本文所描述的算法能够用于恢复u,v,和w(以及扩展地,u和v)。u,v,和w与u和v之间的关系显示如下,其是通过相对于时间进行微分而获得的。

这里描述的算法的基础是亮度恒定性假设。亮度恒定性假设表明在小时间段内经历小平移的像素在强度上不改变。数学上,这可以表示如下。

让下角标x,y,t表示相对于那些变量的偏导数

ix+viy+it=0

按u,v,w重写u和v

重新安排各项,下面的等式可称为等式a。

fixu+fiyv-(xix+yiy)w+zit=0

刚体平移

可以计算刚体平移以确定图像中的已知体如何改变位置。这样的信息可以用于更新深度图,而不依赖于获取另外的高成本深度估计(高成本暗示高功率、基于激光的深度图)。如前面部分所述,刚体运动意味着组成对象的所有点都以相同的位移矢量移动。再有,假设期望深度信息的对象在图像中是已知的。

假设和记号:

r是图像中正进行刚体平移的区域;

u,v,w对于所有点r是恒定的;

z是从先前深度图测量得到的;

为求解刚体平移,我们求解u,v和w以使对于区域r中的所有像素在最小二乘意义上尽可能满足等式[00166]。这等价于最小化以下目标函数j(u,v,w):

j(u,v,w)=∫∫(x,y)∈r(fixu+fiyv-(xix-yiy)w+zit)2dxdy(等式j(u,v,w))

最小化j(u,v,w)的解如下:

该等式给出了对象的三维速度,其可以用于更新深度图。刚体的假设意味着对象的速度u,v和w对于对象中的所有像素是相同的,因此它们不依赖于像素的坐标x,y。等式j(u,v,w)从初始深度帧获取深度图z,使用亮度恒定性假设并最小化等式j(u,v,w)以获得刚性对象的速度u,v,w。

帧t+1的估计深度图以如下方式获得:在帧t处取像素(x,y),具有相关联的现实世界深度z。其现实世界x和y坐标从下式获得:现在给定速度u,v和w,在帧t处在像素(x,y)处获得的对象的部分的帧t+1处的位置(可称为x’,y’,z’)以如下方式获得:x’=x+u,y’=y+v,z’=z+w(其中我们将帧间的时间步骤归一化1)。还有,使用可以在帧t+1处估计像素位置(x’,y’),这对应于(x+u)=(z+w)x’/f,(y+v)=(z+w)y’/f。在这些等式中,唯一未知的是x’和y’,因此可以提取它们。因此,在帧t+1处,位置(x’,y’)处的像素具有深度z+w。如果(x’,y’)不是整数,则(x’,y’)可以舍入到最近的整数以填充该像素处的深度图。

图15是根据本公开的实施方案的用于通过刚体平移信息来更新深度图的过程流程图1500。首先,为刚体平移算法识别一个或多个刚体(1502)。可以给出初始深度图(例如,先前捕获的高功率深度图,例如在帧1中)、一系列图像和焦距;即z,坐标x,y和f是已知的。图像中的刚体可以被分割到x和y中的刚体的逐像素位置(1504)。可以捕获场景的一个或多个低功率图像(1506)。例如,可以使用rgb相机或使用低功率ir源的相机来捕获场景的一个或多个图像。可以使用上述技术来分析一个或多个图像,以确定刚体在从初始高功率图像的起始点和低功率图像中的至少一个之间的平移(1508)。可以使用刚体平移信息来更新初始深度图(1510)。平移的逐像素估计

本部分描述了使用运动的逐像素估计来更新深度图。注意,使用等式a对单个像素的u,v,和w的确定是未确定的问题,因为(u,v,w)值的几个三元组将满足等式a而没有任何附加约束,其中在刚体运动情况下,所需的附加约束来自所有像素以相同的u,v,w移动的事实。为了约束等式a以获得合理的解,一种方法是对u,v,和w施加“平滑”。这种方法的开发如下所示。

为了简化推导,假设逐像素速度u和v是已知的(即,光流是已知的);

u,v,和w是2d函数;

λ是常数;

假设z已经从先前的深度图测量获得;

定义

并且

其中s和h是用于确定坐标u,v的中间函数

f标示为被积函数,并且相对于每个变量的拉格朗日-欧拉方程为:

省略代数,以下是示例推导:

尽可能地省略u,v,和w的坐标以避免杂乱,但是这些方程对于每个像素是真的。此外,观察拉格朗日-欧拉方程涉及u,v,和w的拉普拉斯算子。对于图像,拉普拉斯算子的一个这样的近似是:

其中

κ=3

这种推导到目前为止提出了迭代方案。对于每个点:

每个像素的相对运动可以用于更新深度估计。

图16是根据本公开的实施方案的用于确定图像的逐像素平移以更新深度图的过程流程图1600。首先,可以知道运动中的物体,并且可以知道物体速度(1602)。可以识别图像的已知深度图,或者如果现在先前捕获,则可以使用高功率深度估计技术捕获深度图(1604)。可以捕获场景的一个或多个低功率图像(例如,2drgb图像或低功率ir图像)(1606)。可以例如使用上述算法(1608)来估计或计算物体的逐像素位置。可以使用物体的位置变化的逐像素计算来更新深度图(1610)。

使用惯性测量单元(imu)进行帧插值

图17是根据一些实施方案的包括进一步配备有惯性测量单元(imu)1702(包括加速度计,陀螺仪)的飞行时间(tof)成像设备1701的感测系统1700的示意图。感测系统1700类似于系统200。imu1702提供关于tof成像设备1701的运动的信息,诸如平移加速和旋转运动。由imu提供的信息可以用于利用板载处理器216估计tof成像设备1701的运动。

根据具有帧抽取方案以降低激光发射功率的tof成像设备1701的一些实施方案,抽取帧中的深度图从tof成像设备1701和rgb图像或其他光敏设备在抽取帧期间捕获的测量深度图内插。内插过程涉及计算复杂的算法以分割图像并通过相对于tof成像设备1701内插这些分段的运动来内插每个分段的深度图。

图18a是对组合使用tof成像设备1701的运动信息获得的静止对象的内插深度图和使用rgb图像的运动对象的深度图内插的场景的深度图进行插值的过程的实施方案。可通过处理从一个或多个惯性测量单元(1802)接收的数据来确定tof成像设备1701的运动。基于先前rgb帧1805和来自先前帧1814的对应深度图来高效地计算具有对应深度图1806的估计rgb帧。然后将估计的rgb帧与在当前帧1804中捕获的rgb图像进行比较,可以从场景中识别和提取移动对象1808和静止对象1810的深度图。根据一些实施方案,使用数据驱动算法基于当前帧1804和先前帧1805的rgb图像来估计移动对象1812的深度图。通过组合移动对象1812和静止对象1810的深度图来产生当前帧1814的整个场景的内插深度图。

imu可以用于辅助第一2d图像和第二2d图像之间的估计平移、旋转和重新缩放矢量。例如,imu可以提供与图像传感器如何相对于场景中的对象移动有关的准确信息。该运动信息可以用于确定两个2d捕获图像之间的像素补片的平移、旋转和/或重新缩放。

图18b是根据本公开的实施方案的使用惯性测量单元信息来估计深度图的过程流程图1850。首先,诸如成像系统1701的成像系统可以在成像系统移动时收集imu信息(1852)。在先前帧中,成像系统可以捕获二维图像,例如rgb图像和场景的深度图(1855)。成像系统1701可以使用imu信息和先前捕获的二维图像和深度图来估计下一帧的新的二维图像和/或深度图(1856)。imu可以提供关于在场景中的一个或多个对象如何可能在帧之间已经改变的信息,诸如变换信息。

物体运动的逐补片评估

图19是根据本公开的实施方案的使用对物体的运动的逐补片估计来更新深度图的过程流程图1900。首先,捕获第一帧(帧1),其可以是用于创建深度图(即,使用高功率深度估计技术)的高功率捕获(1902)。在由低功率或2drgb技术捕获的一个或多个后来帧中(1904),其中,深度是未知的或有噪声的,图像的一个或多个补片(或像素的窗口)可以被评估,以找到也存在于帧1中的对应的补片(1906)。例如,对应的补片可以包括存在于每个帧中的对象或对象的部分。来自低功率/rgb图像的补片可以与高功率的图像中的在此补片附近的可能不同大小的补片进行比较,以估计该对象或对象的部分移动(平移)多少,改变多少尺寸(重新缩放),和/或旋转多少(1908)。可以使用诸如像素值的差的和的度量来执行比较,其中大的值对应于大的视差,并且正在寻找具有最小视差的补片。在实施方案中,可以实施相邻补片之间的变换的平滑度(1910)。

可以通过确定对象或对象的部分或其他感兴趣区域如何在两个图像之间改变来估计深度(1912)。例如,如果补片较大,那么对象比其在帧中更接近相机。在实施方案中,尺寸或其它运动的变化可以被量化以估计深度的变化。此外,旋转估计能力的使用可以帮助识别两个图像之间的补片(或像素组)。在第二图像中识别对应的像素补片之后,平移和重新缩放(以及在一些实施方案中的旋转)可以用于深度估计目的。

用于识别图像之间的像素位置的变化、重新缩放和/或旋转的算法的示例包括光流、块匹配、补片匹配、快速傅里叶变换等的变型。

在一些实施方案中,本文所描述的算法可受益于数据驱动方法以增加可靠性。可以收集包括以高脉冲计数获得的高精度深度图和一个或多个低功率或2drgb图像的大图像集合。可以训练数据驱动算法,例如神经网络、支持向量机,以提高精度和/或速度。这样的数据驱动算法可以应用于实时图像处理技术以增强低功率深度图更新。例如,可以收集包括深度图的大数据集,以学习比较度量以比较补片。

作为使用补片位置、缩放或旋转的变化的实施例,可以捕获第一2d图像以及第一2d图像中的对象的深度图或深度估计。然后可以捕获第二2d图像。从第一2d图像,识别与像素(x,y)相邻并且接近的像素的补片,并将其分配给第一2d图像中的像素(x,y)。形成补片的像素的数量可以基于期望的分辨率、功耗、处理器利用率等选择。可以使用例如所捕获的整个图像的深度图来确定第一2d图像的像素的每个补片的深度图。来自第一2d图像的像素的深度可以由f(x,y)表示,其中f(x,y)表示位置(x,y)处的像素的深度。

可以例如使用上述一个或多个算法来确定补片的位置、缩放或旋转的变化。在该实施例中,可以确定像素补片已经历重新缩放和平移。像素的平移可以由t=(x'-x,y'-y)表示,其中(x',y')表示第二2d图像中的对应像素的新像素位置。重新缩放可以由因子α表示。第二2d图像中的像素的新深度可以表示为:

g(x’,y’)=(1/α)*f(x,y)=(1/α)*f((x’,y’)-t),

其中g(x’,y’)是第二2d图像的位置(x’,y’)处的每个像素的估计深度。

在实施方案中,可以对第二2d图像的每个像素执行深度估计。在实施方案中,第一2d图像和第二2d图像之间的像素(x,y)的深度变化可以用作分配给像素(x,y)的像素补片的像素深度的代表性变化。例如,来自第二2d图像的(x',y')处的像素可以被估计为在深度g(x',y')处,其与第一2d图像中在(x,y)处的像素的深度之差为量a=g(x',y')-f(x,y)。如果假设每个补片中的像素以相似的方式在第一2d图像和第二2d图像之间移动,则分配给第二2d图像中的像素(x',y')的补片中的像素的深度将相差量a。换句话说,分配给像素(x'y')的补片中的像素的深度将是分配给第一图像中的像素(x,y)的补片中的像素的深度加上a。

在实施方案中,对于形成分配给像素(x,y)的整个像素补片的每个像素,t和/或α可以保持恒定,可以估计块的深度,而不单独估计补片中每个像素的深度。

背景完成

虽然被动深度确定算法(刚体运动和逐像素方向运动版本)都可以用于监控场景中运动对象的深度,但是这些对象的运动也暴露背景中来自前一帧的深度测量不可用的区域。为了“填充”这些区域,可能的技术包括图像修复、块匹配等。例如,通过在“廉价获得”帧中使用块匹配,可以识别与未覆盖的背景补片最接近的匹配补片,然后使用位于来自高质量深度图的相同区域的补片来“填充”未覆盖区域。我们的方法将使用被动深度确定算法与这些“填充”方法一起来产生完整的深度图。

图20是用于外推更新的深度图的背景像素的过程流程图2000。成像系统可以识别其外推深度图的方法将不给出正确的深度估计的像素(2002)。例如,当对象或对象的部分从第一图像移动到第二图像时,显示由对象隐藏的任何东西。因为对象阻挡了背景的区域,所以隐藏的背景的深度不是初始深度图的部分。表示背景的像素在第二图像中被显示,但是深度是未知的。可以针对背景完成来识别那些像素。

成像系统可以定位图像中的、可用于估计新显露像素的深度的、具有正确深度估计的区域(2004)。上述背景完成可以用于基于图像中深度被正确估计的区域来估计深度(2006)。

在实施方案中,成像设备可以使用成像传感器从场景进行测量。术语“测量”可以包括捕获二维图像和深度图像(例如,可以用于构造深度图的深度信息)。术语“二维图像”包括不是深度图像的任何图像,例如颜色(rgb)图像、灰度图像、红外图像、其他常规图像等。

各种发明构思可以体现为至少一个非暂态性计算机可读存储介质(例如,计算机存储器,一个或多个软盘,压缩盘,光盘,磁带,闪存,现场可编程门阵列或其它半导体器件中的电路配置等)或用一个或多个程序编码的计算机可读存储设备(其可以包括前述示例),当在一个或多个计算机或其他处理器上执行时,一个或多个程序实现本申请的各个实施方案。

已经描述了本申请的技术的若干方面和实施方案,应当理解,本领域普通技术人员将容易想到各种改变、修改和改进。这样的改变、修改和改进旨在在本申请中描述的技术的精神和范围内。因此,应当理解,前述实施例仅以示例的方式给出,并且在所附权利要求及其等同物的范围内,本发明实施例可以以不同于具体描述的方式实施。此外,如果这些特征、系统、制品、材料和/或方法不相互矛盾,则本文所述的两个或更多个特征、系统、物品、材料和/或方法的任何组合包括在本公开的范围内。

此外,如所描述的,一些方面可以被具体化为一个或多个方法。作为方法的一部分执行的动作可以以任何合适的方式排序。因此,可以构造其中以不同于所示的顺序执行动作的实施方案,其可以包括同时执行一些动作,即使在说明性的实施方案中示出为顺序的动作。

本文定义和使用的所有定义应理解为高于字典定义,通过引用并入的文献中的定义和/或所定义术语的普通含义。

如本文在说明书和权利要求书中使用的短语“和/或”应当被理解为是指这样连接的元件中的“任一个或两个”,即在一些情况下连接存在而在其他情况下分离地存在的元件。

如本文在说明书和权利要求书中所使用的,关于一个或多个元件的列表的短语“至少一个”应当被理解为表示选自元素列表中的任意一个或多个元素的至少一个元素,但不一定包括在元素列表中具体列出的每个元素中的至少一个,并且不排除元素列表中的元素的任何组合。该定义还允许元素可以可选地存在,除了不是短语“至少一个”所指的元素列表中具体标识的元素之外,无论与具体标识的那些元素相关或不相关。

术语“近似”和“大约”可以用于表示在一些实施方案中在目标值的±20%内,在一些实施方案中在目标值的±10%内,在一些实施方案中在目标值的±5%内,并且在一些实施方案中在目标值的±2%内。术语“近似”和“大约”可以包括目标值。

在权利要求中以及在上述说明书中,所有过渡短语例如“包括”,“包含”,“携带”,“具有”,“含有”,“涉及”,“保持”、“由...构成”等是开放式的,即意思是包括但不限于。过渡性短语“由...组成”和“基本上由...组成”应分别是闭合或半闭合过渡短语。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1