基于光衰减来生成深度图像的制作方法

文档序号:6498263阅读:209来源:国知局
基于光衰减来生成深度图像的制作方法
【专利摘要】本文描述了关于基于光衰减原理来计算包括移动对象的场景的深度图像的各技术。捕捉包括移动对象的场景的红外图像,其中该红外图像具有多个像素,这多个像素具有相应的多个强度值。至少部分地基于该红外图像中的相应强度值的平方根来计算该场景的深度图像。
【专利说明】基于光衰减来生成深度图像
[0001]背景
[0002]计算设备的制造者以及在此类计算设备上执行的操作系统的开发者正持续改善其各自的产品,以促进与此类计算设备、操作系统、以及其上执行的应用的直观且方便的用户交互。常规上,已经采用输入设备(诸如键盘和鼠标)接收来自用户的输入,其中该输入被用来执行某一计算操作。因此,如果用户希望计算设备、操作系统、和/或应用执行特定任务,则用户通过一系列鼠标点击、鼠标的移动和/或键击将指令传送至计算设备。
[0003]近来,在与上述常规用户输入设备相比较时,消费级计算设备已经配备有促进与之更直观且方便的交互的技术。例如,许多移动电话配备有触敏显示屏,使得用户可以通过用一个或多个手指接触显示屏以及相对于图形对象执行姿势来在显示屏上与该图形对象进行交互。然而,可以容易地查明,触敏显示器能识别的姿势在某种程度上可能是有限的,因为常规触敏显示屏不支持手指/手的歧义消除,也不支持深度识别。此外,因为用户必须直接与显示屏进行交互,所以姿势受到显示屏大小的限制。
[0004]识别用户在三维空间中作出的姿势可以扩展用户可通过此类姿势向计算设备阐明的指令集。用于识别对象(人类的手)相对于参考点或面(计算设备或显示屏上的特定点)的深度的常规技术要么对于大规模生产而言实际部署起来过于昂贵,要么缺少足够的分辨率来支持相对小粒度姿势的识别。例如,当前用来执行三维深度识别的技术类型包括双眼视觉系统、结构化光系统、以及飞行时间系统。双眼视觉系统通过匹配来自立体安排的RGB相机的图像来计算对象上的点的深度。通常与双眼视觉系统相关联的缺点是要求其距参考点的深度期望被查明的对象必需具有特定类型的纹理。此外,所得深度图像的分辨率可能不足以允许足够准确地识别小粒度姿势,诸如手指的微小运动。
[0005]结构化光系统使用以红外光图案照射场景的红外光源,并且场景中的对象相对于红外光源的深度基于在捕捉到的红外图像中的此类图案中检测到的变形来计算。在生成深度图像时,必须分析捕捉到的红外图像中的众多像素以识别图案——因此,同样,所得深度图像的分辨率可能不足以准确地识别特定姿势。飞行时间系统包括测量红外光从红外发射器被传送时与此类光被检测器接收到时(在从场景中的对象上反射离开之后)之间的时间量的传感器。在消费级设备中要包括此类系统在当前是极其昂贵的;如果采用较便宜的传感器,则所得深度图像又可能缺乏足够的分辨率以允许对小粒度姿势的准确检测。
[0006]概述
[0007]以下是在本文详细描述的主题的简要概述。本概述不旨在是关于权利要求的范围的限制。
[0008]本文描述了关于生成深度图像的各种技术,深度图像指示对象的各部分随时间相对于参考点或面的深度。更具体地,本文描述了基于光衰减原理来生成场景的深度图像的各种技术。在示例性实施例中,人类的手、手臂或人类身体的其他部分作出的姿势可以通过利用深度感测技术来识别,深度感测技术采用光衰减原理来生成表示人类手、手臂或人类身体的其他部分相对于传感器单元的距离的深度图像。此类姿势识别技术可以结合常规台式计算设备、膝上型计算设备、移动电话、平板计算设备等来采用。
[0009]在一个示例性实施例中,结合生成场景的深度图像来采用的传感器单元包括用红外光照射场景的红外光源。传感器单元进一步包括捕捉场景的红外图像的红外相机,其中场景包括移动对象,诸如一只或多只人类的手。例如,红外相机可以是以每秒30帧或超过每秒30帧的帧速率来捕捉图像的红外摄像机。因此,红外相机可以随时间捕捉场景中的对象的运动。红外相机捕捉到的每一图像包括具有相应多个强度值的多个像素。可以采用每一像素的强度值来计算该像素所表示的场景的该部分的深度值。因此,如果需要,场景的深度图像可以具有与红外相机捕捉到的图像的分辨率相等的分辨率。
[0010]如上所述,深度图像可以通过采用光衰减原理来计算(其中,红外图像中捕捉到的红外光的强度基于距红外光源的距离的逆平方)。因此,在一个示例性实施例中,与图像中的特定像素对应的深度值可以基于该像素的强度值和一常数来计算,其中该常数基于红外光源发射的红外光的强度、该像素所表示的对象的一部分的反射率、以及该像素所表示的对象的该部分相对于红外光源的定向。在一个示例性实施例中,该常数可以基于红外光源的已知强度、典型人类的手的已知反射率、以及人类的手相对于红外光源的平均定向(潜在地取决于人类的手在捕捉到的红外图像中的位置)来设置。此外,该常数可以通过经验测试来细化。
[0011]在另一示例性实施例中,可以采用常规深度感测系统以第一分辨率生成场景的第一深度图像。随后,以第二分辨率生成场景的第二深度图像,其中第二分辨率高于第一分辨率。场景的第二深度图像可以基于第一深度图像和光衰减原理来生成。可以重复该过程以随时间生成场景的多个高分辨率深度图像。
[0012]可以随时间监视高分辨率深度图像,以执行运动捕捉以及相对于显示在计算设备的显示屏上的一个或多个图形对象的姿势识别。人类的手作出的可以基于深度图像序列来识别的示例性姿势包括但不限于:手绕着手腕向上转动(向上挥手),当伸出手的手指且手的手掌与显示屏表面平行时手绕着手腕向左或向右转动(向左或向右挥手),伸出食指且食指朝向显示屏上显示的图形对象移动,食指和拇指捏合在一起并且释放这一捏合,当手的手指伸出与显示屏表面正交且手的手掌与显示屏底部平行时手绕着手腕向左或向右转动等其他姿势。在一个示例性实施例中,可识别的手(或其他身体)的姿势可以在离计算设备(或红外相机)的显示屏至少一厘米处以及离计算设备(或红外相机)的显示屏至多20厘米处被执行。在其他实施例中,可以增加红外光源的强度以检测当用户被定位在距传感器单元若干英尺时用户作出的姿势。
[0013]在阅读并理解了附图和描述后,可以明白其他方面。

【专利附图】

【附图说明】
[0014]图1是促进生成场景的深度图像的示例性系统的功能框图。
[0015]图2和3是促进在三维空间中识别人类的手作出的姿势的示例性系统的功能框图。
[0016]图4是示例性传感器单元的功能框图。
[0017]图5是示出用于通过利用光衰减原理来生成场景的深度图像的示例性方法的流程图。
[0018]图6是示出用于至少部分地基于识别出的姿势来在计算设备的显示屏上渲染图形数据的示例性方法的流程图。
[0019]图7示出了相对于计算设备的显示屏上的一个或多个图形对象所采取的示例性姿势。
[0020]图8示出了结合图7中所示的示例性姿势向用户呈递的图形用户界面(GUI)序列。
[0021]图9示出了相对于计算设备的显示屏上显示的一个或多个图形对象所采取的另一示例性姿势。
[0022]图10示出了结合图9中所示的示例性姿势向用户呈递的图形用户界面序列。
[0023]图11示出了相对于计算设备的显示屏上显示的一个或多个图形对象所采取的又一个示例性姿势。
[0024]图12示出了结合图11中所示的示例性姿势向用户呈递的图形用户界面序列。
[0025]图13示出了相对于计算设备的显示屏上显示的一个或多个图形对象所采取的再一个示例性姿势。
[0026]图14示出了相对于计算设备的显示屏上显示的一个或多个图形对象所采取的另一示例性姿势。
[0027]图15示出了结合图14中所示的示例性姿势向用户呈递的图形用户界面序列。
[0028]图16示出了相对于计算设备的显示屏上显示的一个或多个图形对象所采取的又一个示例性姿势。
[0029]图17示出了结合图16中所示的示例性姿势向用户呈递的图形用户界面序列。
[0030]图18示出了相对于计算设备的显示屏上显示的一个或多个图形对象所采取的再一个示例性姿势。
[0031]图19示出了结合图18中所示的示例性姿势向用户呈递的图形用户界面序列。
[0032]图20示出了相对于计算设备的显示屏上显示的一个或多个图形对象所采取的另一示例性姿势。
[0033]图21示出了结合图20中所示的示例性姿势向用户呈递的图形用户界面序列。
[0034]图22是示例性计算系统。

【具体实施方式】
[0035]现在将参考附图来描述关于生成场景的深度图像、识别在场景中的三维空间中作出的姿势、以及基于识别出的姿势在计算设备的显示屏上渲染图形数据的各种技术,在全部附图中相同的附图标记表示相同的元素。另外,本文出于解释的目的示出并描述了各示例性系统的若干功能框图;然而可以理解,被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地,例如,一组件可被配置成执行被描述为由多个组件执行的功能。另夕卜,如此处所用的,术语“示例性”旨在表示用作某些事物的图示或示例,而不意图指示优选。
[0036]如本文所使用的,术语“组件”和“系统”旨在包含用使得在被处理器执行时执行特定功能的计算机可执行指令配置的计算机可读数据存储。因此,“组件”旨在包含硬件和软件的组合。计算机可执行指令可包括例程、功能等等。还可以理解,组件或系统可以位于单个设备上或分布在若干设备上。此外,术语“存储器”和“处理器”旨在包含单数和复数形式两者;因此,处理器旨在包含执行指令的单个处理器以及串行或并行地执行指令的多个处理器。
[0037]现在参考图1,示出了促进生成包括至少一个对象的场景的深度图像的示例性系统100。在一个示例性实施例中,移动计算设备可以包括系统100的至少一部分,其中移动计算设备可以是移动电话、平板计算设备、膝上型计算设备等等。在另一示例性实施例中,台式计算设备可以包括系统100的至少一部分。因此,外壳可以包括系统100的至少一部分。
[0038]系统100包括传感器单元102,传感器单元102包括红外发射器104和红外相机106。红外发射器104被配置成用已知强度/频率的红外光照射场景。红外相机106捕捉由红外发射器104输出的红外光所照射的场景的图像。根据一个示例,红外相机106可以以(例如,每秒30帧或更高的)视频速率来捕捉图像。在另一示例中,红外相机106可以以介于每秒10帧与每秒30帧之间的某一速率来捕捉图像。如图所示,红外相机106所成像的场景可以包括对象108,其中对象108是移动对象。在一个示例性实施例中,对象108是以下各项之一:人类的手或手的集合、人类的手臂、人类的腿、或其他合适的身体部位。红外相机106所生成和输出的场景的每一图像具有多个像素,这多个像素具有多个相应强度值。
[0039]系统100进一步包括随时间从红外相机106接收场景的红外图像序列的接收器组件110。深度计算器组件112与接收器组件110处于通信,并且针对红外相机106捕捉到的相应图像计算场景的深度图像。深度计算器组件112计算出的深度图像包括多个像素以及相应深度值,其中深度值的子集指示对象108的各部分相对于红外发射器104的深度。在一个示例性实施例中,深度计算器组件112可采用光衰减原理来计算场景的深度图像,其中深度图像的分辨率与深度计算器组件用来计算深度图像的红外图像的分辨率相等。
[0040]系统100进一步包括计算设备的显示屏114。渲染器组件116接收深度计算器组件112计算出的深度图像,并且至少部分地基于深度计算器组件112计算出的深度图像来在显示屏114上渲染图形数据118。如上所述,在一个示例性实施例中,对象108可以是正相对于显示屏114上显示的图形对象作出姿势的人类的手。深度计算器组件112可以生成包括人类的手的深度图像序列,并且人类的手作出的姿势可以通过分析深度图像序列来识另O。渲染器组件116随后可以至少部分地基于识别出的姿势来生成图形数据118。可以在三维空间中作出姿势,并且可以在距显示屏114或传感器单元102某一距离处采取姿势。例如,人类的手距显示屏114或传感器单元102可以在I厘米与20厘米之间。在另一示例中,人类的手距显示屏114或传感器单元102可以在5厘米至20厘米。在又一示例中,人类的手距显示屏114或传感器单元102可以在一米至5米。因此,可以查明显示屏114不必是触敏显示屏。
[0041]如上所述,深度计算器组件112可以采用光衰减原理来生成深度图像。光衰减原理注意到,检测器所(红外相机106)观察到的光的强度与距光源(红外发射器104)的距离的逆平方成比例。在算法上,且参考红外相机106捕捉到的红外图像,该原理可如下表示:.?

【权利要求】
1.一种系统,包括: 接收器组件(110),所述接收器组件接收包括移动对象的场景的红外图像序列,所述红外图像序列由红外相机(106)随时间捕捉,所述红外图像序列中的每一红外图像包括具有多个相应强度值的多个像素; 深度计算器组件(112),所述深度计算器组件针对所述图像序列中的每一图像计算相应深度图像,所述深度图像包括多个像素,所述多个像素具有指示所述对象的分别由所述多个像素表示的各点相对于发射红外光以照射所述场景的发射器(104)的深度的相应多个值,所述多个值至少部分地基于所述红外图像中的所述多个像素的相应强度值的平方根来计算;以及 渲染器组件(116),所述渲染器组件至少部分地基于所述深度计算器组件计算出的所述深度图像来在计算设备的显示屏上渲染图形数据。
2.如权利要求1所述的系统,其特征在于,所述系统包括移动计算设备。
3.如权利要求1所述的系统,其特征在于,所述深度计算器组件通过以下算法来计算所述多个值:
其中,I(P)是所述红外图像中像素P的强度值,rp是所述发射器与所述对象上由像素P表示的点之间的距离,并且kp是常数。
4.如权利要求1所述的系统,其特征在于,所述接收器组件进一步接收: 第一 RGB相机捕捉到的所述场景的第一图像;以及 第二 RGB相机捕捉到的所述场景的第二图像,所述第一 RGB相机与所述第二 RGB相机被立体地安排, 其中,所述深度计算器组件至少部分地基于所述第一 RGB相机捕捉到的所述第一图像和所述第二 RGB相机捕捉到的所述第二图像来计算所述深度图像。
5.如权利要求4所述的系统,其特征在于,所述多个组件进一步包括校准器组件,所述校准器组件校准以下各项: 所述深度计数器组件基于双眼视觉技术计算出的深度图像;以及 所述深度计数器组件基于所述红外相机捕捉到的用于学习校准参数的图像计算出的深度图像,所述校准参数指示以下两项之间的映射: 所述深度计数器组件基于双眼视觉技术计算出的深度图像的像素;以及 所述深度计算器基于所述红外相机捕捉到的图像计算出的深度图像。
6.如权利要求5所述的系统,其特征在于,所述深度计算器组件基于所述第一RGB相机捕捉到的所述第一图像和所述第二 RGB相机捕捉到的所述第二图像来计算所述场景的初始深度图像,其中所述深度计算器组件至少部分地基于所述初始深度图像来计算所述深度图像。
7.如权利要求6所述的系统,其特征在于,所述深度计算器组件将所述初始深度图像分割成多个分段,每一分段包括所述初始深度图像中深度值落入相应范围中的像素,其中所述深度计算器组件基于所述校准参数将所述多个分段映射到所述红外图像的相应部分,并且其中所述深度计算器组件至少部分地基于所述多个分段到所述红外图像的相应部分的映射来计算所述深度图像。
8.如权利要求1所述的系统,其特征在于,所述对象是人类的手,其中所述多个组件进一步包括姿势识别器组件,所述姿势识别器组件至少部分地基于所述深度图像来识别所述人类的手相对于所述计算设备的显示屏上显示的至少一个图形对象作出的姿势,并且其中所述渲染器组件至少部分地基于所述人类的手作出的所述姿势来在所述计算设备的显示屏上渲染所述图形数据。
9.一种方法,包括: 从红外相机接收包括移动对象的场景的红外图像序列,其中所述红外图像序列中的每一红外图像包括具有相应多个强度值的多个像素; 针对所述红外图像序列中的每一图像,计算所述对象的相应部分的深度值,以便生成所述对象的相应部分的深度值序列,其中相应红外图像的所述深度值至少部分地基于所述红外图像的相应多个强度值的平方根来计算;以及 至少部分地基于所述对象的相应部分的深度值序列来在计算设备的显示屏上渲染图形数据。
10.如权利要求9所述的方法,其特征在于,所述对象是人类的手,并且所述方法进一步包括: 至少部分地基于所述人类的手的相应部分的深度值序列来识别所述人类的手相对于所述计算设备的显示屏上的图形对象作出的姿势;以及 至少部分地基于识别所述人类的手作出的姿势来在所述计算设备的显示屏上渲染所述图形数据。
【文档编号】G06T7/00GK104169966SQ201280071139
【公开日】2014年11月26日 申请日期:2012年3月5日 优先权日:2012年3月5日
【发明者】C·赵, J·严, J·顾, F-H·许, S·宋, M·王, J·李 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1