概率分布云的多质心压缩的制作方法

文档序号:6423743阅读:188来源:国知局
专利名称:概率分布云的多质心压缩的制作方法
技术领域
本发明涉及人机接口,尤其涉及识别身体部位。
背景技术
计算机游戏和多媒体应用已开始使用照相机和软件姿势识别引擎来提供人机接口(“HCI”)。使用HCI,检测、解释用户身体部位和移动并将其用于控制游戏人物或应用的其他方面。HCI系统的一个困难之处是标识身体部位。样本分类是一种方法,其中向每个像素分配身体部位上的一概率分布。一次取一个身体部位,导出一新的单色图像,其中向一像素分配一概率,如其属于一给定部位的似然度。然而,存在许多像素,并且如果分类结果被缩小到一组原型位置则可以有益于性能,这些原型位置在此被称为质心。对于性能而言,对于每个身体部位产生单个质心将是理想的,但这不太可能。基于位置特征来对像素进行分类的样本可以产生多个不相交的高概率区域。最多,仅仅其中之一将对应于真实的身体部位。计算全局质心会把与正确身体部位有关的像素与来自错误分类区域的像素进行平均化。这对作为样本输出的概要而言是不可靠的,因为其将落在这些多个区域的中央,但不确保其本身是个有意义的点。因此需要一种方法来为一身体部位计算零或更多个有意义的质心,其中每个质心与样本输出中的非零概率的区域相吻合。

发明内容
此处描述的是通过将所分类的图像数据压缩(condense)成所捕捉的对象是正确标识的身体部位的概率的质心,来标识由深度照相机捕捉的图像的系统和方法。由深度照相机捕捉的图像数据被处理以产生样本输出,其中向深度图像中的每个像素分配其所对应的身体部位的概率分布。本技术取得该输出,并对其进行处理以检测非零概率像素的空间局部簇。对于每个簇,生成一质心,这通常导致用于每个身体部位的多个质心。基于簇的大小和形状以及该簇构成像素的概率,对每个质心分配置信度值,指示其对应于真实身体部位的似然度。本技术具有多个不同实施例,例如通过高度并行执行(例如,在图形处理单元上)来实现的实施例,以及适用于具有有限存储器带宽的系统的实施例。在多个实施例中,本技术涉及一种方法,通过以下步骤来标识由深度照相机捕捉的对象a)确定由捕捉设备所捕捉的一组采样的深度信息;b)向由捕捉设备所捕捉这组采样分配概率,所分配的概率与这些采样属于真实世界对象的概率有关;以及C)将这些采样的一个或多个子分组群集在一起以形成所述真实世界对象的一个或多个候选质心,步骤C) 中对一个或多个子分组的群集取决于采样之间的接近程度、由采样所表示的空间区域、以及采样表示真实世界对象的概率。在另一实施例中,本技术涉及一种方法,通过以下步骤来标识由捕捉设备捕捉的身体部位a)确定由捕捉设备所捕捉的一组像素的深度信息;b)接收样本分类结果,所述样本分类结果分配一组捕捉的像素属于一特定身体部位的概率;C)对候选项分配置信得分,所述候选项是所捕捉的该组像素中的像素,或是由所捕捉的该组像素中的像素所形成的置信,置信得分部分基于所述步骤b)中的样本分类;迭代地评估候选项阵列,以基于以下因素将候选项合并在一起以形成下一级的候选项候选项彼此之间在空间中的接近程度、由候选项所表示的空间区域、以及在步骤C)中确定的候选项的置信得分。在又一实施例中,本技术涉及一种方法,通过以下步骤来标识由捕捉设备捕捉的身体部位通过将深度图像分段为多个近似恒定深度的区域,来确定深度小块(patch);对每一小块分配与其邻接的小块列表,以定义邻域图;通过计算由样本处理对小块内的像素所分配的平均概率得分来处理样本;将具有比其所有邻居高的得分的一组小块标识为种子簇;并从种子小块向外增长簇。提供本发明内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。


图1示出了当用户玩游戏时的目标识别、分析和跟踪系统的示例实施方式。图2示出了可在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施方式。图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例实施方式。图IBB示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的另一示例实施方式。图4是根据本技术的多个实施例的对图像进行压缩的流程图。图5是图4的步骤414的更详细的流程图。图6是图5的步骤472的更详细的流程图。图7是图5的步骤476的更详细的流程图。图8是根据本技术的多个替换实施例的对图像进行压缩的流程图。图9是图8的步骤520的更详细的流程图。
具体实施例方式以下将参考附图1-9描述本技术的多个实施例,其一般涉及一种通过将分类的图像数据压缩成捕捉对象被正确标识的概率的质心来对深度照相机所捕捉的对象进行标识的方法。这样的系统示例性地可被用于在游戏或其他应用中的人-机接口中标识所捕捉的图像对象。参照图1-2,用于实现本发明的技术的硬件包括目标识别、分析和跟踪系统10,它可用于识别、分析、跟踪和标识诸如用户18的人类目标的各部分。系统10的各实施例包括用于执行游戏或其他应用的计算环境12,以及用于从游戏或其他应用提供音频和视觉表示的视听设备16。视听设备16在游戏应用程序中是有用的,但可以理解到,本技术不必要有视听设备来进行其操作。本系统10还包括用于捕捉用户18的位置和所执行的移动的捕捉设备20,计算环境接收、解释并使用这些位置和移动来控制游戏或其他应用。这些组件中的
5每一个都会在以下详细描述。图1提供了一示例,其中计算环境12能标识捕捉设备20的视野中的一个或多个对象,诸如用户的手18a。在图1的示例中,执行在计算环境12上的应用程序可向用户18 呈现用户界面(UI) 19。UI可以是游戏或其他应用的一部分,并且在多个实施例中可以是用于访问游戏或其他应用的所选择区域的导航菜单。用户可以通过经由用户移动(例如,通过用户的手18a进行指点)所控制的光标与界面19进行交互。通过标识用户的手,本技术可以将其设置为光标控制器。此后,游戏可提供关于用户正在指点视听设备16上的具体位置的闭环反馈。如上所述,图1仅仅是一个示例。本技术可被用于为大量的其他应用程序标识由捕捉设备所捕捉的对象。图2示出根据本技术可被用于捕捉对象以进行标识的捕捉设备20的示例性实施例。捕捉设备的类型对本技术而言不是关键的,只要该设备能够捕捉所捕捉的图像的深度信息即可。然而,涉及用于本技术的捕捉设备的一个示例的进一步细节在题为“Device For Identifying And Tracking Multiple Humans Over Time (用于随时间标识和跟踪多个人的设备)”的共同待批的美国专利申请号12/475,308中描述,该申请通过引用而整体结合于此。在一个示例性实施例中,捕捉设备20可被配置成经由任何合适的技术捕捉带有可包括深度值的深度图像的视频,这些技术包括例如飞行时间、结构化光、立体图像等。根据一实施例,捕捉设备20可将所计算的深度信息组织为“Z层”,或可与从深度照相机沿其视线延伸的Z轴垂直的层。如图2所示,捕捉设备20可包括图像照相机组件22。根据一示例实施例,图像相机组件22可以是可捕捉场景的深度图像的深度照相机。深度图像可包括所捕捉的场景的二维O-D)像素区域,其中2-D像素区域中的每一像素可表示来自照相机的所捕捉的场景中的对象的长度,该长度可采用例如厘米、毫米等为单位。虽然下述描述涉及像素,可以理解到本技术在其它实施例中可使用其他数据点来进行执行。如图2所示,根据一示例实施方式,图像照相机组件22可包括可用于捕捉场景的深度图像的顶光组件对、三维(3-D)照相机沈、和RGB照相机28。例如,在飞行时间分析中,捕捉设备20的顶光组件M可将红外光发射到场景上,然后可使用传感器(未示出), 使用例如3-D相机沈和/或RGB相机观,来检测来自场景中的一个或多个目标和对象的表面的反向散射光。根据另一实施例,捕捉设备20可包括两个或更多物理上分开的照相机,这些照相机可从不同角度查看场景以获得视觉立体数据,该视觉立体数据可被解析以生成深度信息。捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号的变换器或换能器。根据一实施例,话筒30可用于减少目标识别、分析和跟踪系统10中的捕捉设备20与计算环境12之间的反馈。另外,话筒30可用于接收也可由用户提供的音频信号,以控制可由计算环境12执行的诸如游戏应用、非游戏应用等应用。在一示例实施例中,捕捉设备20还可包括可与图像照相机组件22进行操作通信的处理器32。处理器32可包括可执行指令的标准处理器、专用处理器、微处理器等,这些指令可以用于接收深度图像、用于确定合适的目标是否可被包括在深度图像中、用于将合适的目标转换成该目标的骨骼表示或模型、或任何其他合适的指令。
捕捉设备20还可包括存储器组件34,存储器组件34可存储可由处理器32执行的指令、由3-D照相机或RGB照相机所捕捉的图像或图像的帧、或任何其他合适的信息、图像等等。根据一示例实施例,存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、 高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示,在一实施例中,存储器组件34可以是与图像相机组件22和处理器32进行通信的单独组件。根据另一实施例,存储器组件34可被集成到处理器32和/或图像相机组件22中。如图2所示,捕捉设备20可经由通信链路36与计算环境12进行通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线 802. lib,802. llg、802. Ila或802. Iln连接等无线连接。根据一实施例,计算环境12可经由通信链路36向捕捉设备20提供可用于确定何时捕捉诸如一场景的时钟。此外,捕捉设备20可提供由诸如3D照相机沈和/或RGB照相机观所捕捉的深度信息和图像。该信息可被用于使用骨骼映射技术来生成骨骼模型。这些技术允许对用户骨骼上的多个点(诸如例如手、腕、肘、膝盖、鼻子、脚踝、肩、以及骨盆与脊柱相交处的关节)进行标识。其他技术包括将图像变换成该人的身体模型表示以及将图像变换成该人的网格模型表示。由诸如3D照相机沈和/或RGB照相机观所捕捉的深度信息和图像也可被图像压缩引擎190用于根据下述的本技术标识图像中的特定对象。图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个用户移动的计算环境的示例实施方式。以下参考附图1-2所描述的诸如计算环境12的计算环境可以是多媒体控制台100,诸如游戏控制台。如图3A所示,多媒体控制台100包括具有1级高速缓存102、2级高速缓存104和闪存ROM 106的中央处理单元(CPU) 101。1级高速缓存102 和2级高速缓存104临时性地存储数据并因此减少存储器访问周期数,由此改进处理速度和吞吐量。CPU 101可以设置成具有一个以上的核,以及由此的附加的1级和2级高速缓存 102和104。闪存ROM 106可存储在当多媒体控制台100通电时的引导过程的初始阶段期间加载的可执行代码。图形处理单元(GPU) 108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。经由总线从GPU 108向视频编码器/ 视频编解码器114运送数据。视频处理流水线向A/V(音频/视频)端口 140输出数据,用于传输至电视机或其他显示器。存储器控制器110连接到GPU 108以方便处理器访问各种类型的存储器112,诸如但不局限于RAM。多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一 USB主控制器126、第二 USB主控制器 1 和前面板I/O子部件130。USB控制器126和1 用作外围控制器142 (1)-142 (2)、无线适配器148、和外置存储器设备146(例如闪存、外置⑶/DVD ROM驱动器、可移动介质等) 的主机。网络接口 1 和/或无线适配器148提供对网络(例如,因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中任何一种。提供系统存储器143来存储在引导进程期间加载的应用数据。提供媒体驱动器 144,且其可包括DVD/⑶驱动器、硬盘驱动器、或其他可移动媒体驱动器等。媒体驱动器144 可以是对多媒体控制器100内置的或外置的。应用数据可经由媒体驱动器144来访问,以由多媒体控制台100执行、回放等。媒体驱动器144经由诸如串行ATA总线或其他高速连接(例如IEEE 1394)等总线连接到I/O控制器120。系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。 音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口 140以供外置音频播放器或具有音频能力的设备再现。前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150 和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连,包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例,这种架构可以包括外围部件互连(PCI)总线、 PCI-Express 总线等。当多媒体控制台100通电时,应用程序数据可从系统存储器143加载到存储器112 和/或高速缓存102、104中并在CPU 101上执行。应用程序可呈现图形用户界面,图形用户界面当导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验。在操作中,媒体驱动器144中包含的应用和/或其它媒体可从媒体驱动器144启动或播放,以向多媒体控制台100提供附加功能。多媒体控制台100可通过将该系统简单地连接到电视机或其它显示器而作为独立系统来操作。在该独立模式中,多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而,随着通过网络接口 1 或无线适配器148可用的宽带连接的集成, 多媒体控制台100还可作为较大网络社区中的参与者来操作。当多媒体控制台100通电时,可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可包括存储器的保留量(诸如,16MB)、CPU和GPU周期的保留量(诸如,5% )、网络带宽的保留量(诸如,Slcbs),等等。因为这些资源是在系统引导时间保留的,所保留的资源对于应用程序视角而言是不存在的。具体地,存储器保留量较佳地足够大,以包含启动内核、并发系统应用和驱动程序。CPU保留量较佳地为恒定,使得若所保留的CPU用量不被系统应用使用,则空闲线程将消耗任何未使用的周期。对于GPU保留量,通过使用GPU中断来显示由系统应用生成的轻量消息(例如,弹出窗口),以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小,并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用使用完整用户界面的情况下,优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率,从而无需改变频率,也就不会引起TV重新同步。在多媒体控制台100引导且系统资源被保留之后,就执行并发系统应用来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 101上运行,以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存分裂最小化。
当并发系统应用需要音频时,则由于时间敏感性而异步调度音频处理给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平 (例如,静音、衰减)。输入设备(例如,控制器142(1)和142( )由游戏应用和系统应用共享。输入设备不是所保留的资源,但却在系统应用和游戏应用之间切换以使其各自具有设备的焦点。 应用管理器较佳地控制输入流的切换,而无需知晓游戏应用的知识,并且驱动程序维护有关焦点切换的状态信息。照相机26J8和捕捉设备20可定义控制台100的附加输入设备。图;3B示出了计算环境220的另一个示例性实施例,其可以是图12中所示的计算环境12,用于在目标识别、分析和跟踪系统中的解释一个或多个用户移动。计算系统环境 220只是合适的计算环境的一个示例,并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算环境220解释为对示例性操作环境220中示出的任一组件或其组合有任何依赖性或要求。在某些实施方式中,所描绘的各种计算元件可包括被配置成实例化本发明的具体方面的电路。例如,本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。在其他示例实施方式中,术语电路可包括由具体化可操作来执行功能的逻辑的软件指令来配置的通用处理单元等。在电路包括硬件与软件组合的示例实施方式中,实现者可编写实施逻辑的源代码且该源代码可被编译成可由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步,因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地,本领域技术人员可以明白软件进程可被变换成等价的硬件结构,而硬件结构本身可被变换成等价的软件进程。因此,对于硬件实现还是软件实现的选择是设计选择并留给实现者。在图;3B中,计算环境220包括计算机Ml,其通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括以诸如ROM 223和RAM 260之类的易失性和/或非易失性存储器的形式存在的计算机存储介质。基本输入/输出系统2M(BI0S) 包括如在启动时帮助在计算机Ml内的元件之间传输信息的基本例程,它通常储存在ROM 223中。RAM 260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制,图:3B示出了操作系统225、应用程序226、其它程序模块227 和程序数据228。计算机241还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图3B示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器238,对可移动、非易失性磁盘邪4进行读写的磁盘驱动器239,以及对诸如CD ROM或其它光学介质等可移动、非易失性光盘253进行读写的光盘驱动器M0。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由不可移动存储器接口,诸如接口 234连接至系统总线221,磁盘驱动器239和光盘驱动器240通常由可移动存储器接口,诸如接口 235连接至系统总线221。以上讨论并在图;3B中示出的驱动器及其相关联的计算机存储介质为计算机241 提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图3B中,例如,硬盘
9驱动器238被示为存储操作系统258、应用程序257、其他程序模块256和程序数据255。注意,这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据2 相同, 也可以与它们不同。在此给操作系统258、应用程序257、其他程序模块256、以及程序数据 255提供了不同的编号,以说明至少它们是不同的副本。用户可以通过诸如键盘251和指示设备252(通常被称为鼠标、轨迹球或触摸板)之类的输入设备向计算机241中输入命令和信息。其他输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口 236连接至处理单元 259,但也可以由其他接口和总线结构,诸如并行端口、游戏端口或通用串行总线(USB)来连接。照相机26J8和捕捉设备20可定义控制台100的附加输入设备。监视器242或其他类型的显示设备也通过接口,诸如视频接口 232,连接至系统总线221。除监视器以外,计算机还可以包括其他外围输出设备,诸如扬声器244和打印机M3,它们可以通过输出外围接口 233连接。计算机241可以使用到诸如远程计算机246之类的一个或多个远程计算机的逻辑连接在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、 对等设备或其他常见的网络节点,且通常包括许多或所有以上相对于计算机241描述的元件,尽管在图3B中仅示出了存储器存储设备M7。图;3B中所示的逻辑连接包括局域网 (LAN)245和广域网(WAN) M9,但也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。当在LAN联网环境中使用时,计算机241通过网络接口或适配器237连接至 LAN245.当在WAN联网环境中使用时,计算机241通常包括调制解调器250或用于通过诸如因特网等WAN 249建立通信的其他装置。调制解调器250可以是内置或外置的,它可以通过用户输入接口 236或其他适当的机制连接至系统总线221。在联网环境中,相对于计算机Ml所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制,图:3B示出了远程应用程序248驻留在存储器设备247上。能够理解,所示的网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其他手段。现在将参考附图4到9来解释图像压缩引擎190的操作。通常,图像压缩引擎190 将图像数据压缩成在此称为质心的多个组。本技术将各个分类分布归组在一起,并将它们合并为质心。质心可以被认为是3D空间中最佳捕捉所有有贡献的分类采样的位置。质心具有相关联的概率,该概率是所捕捉的对象被正确标识为给定对象(诸如,手、脸、手臂等等) 的概率。一旦从深度照相机接收到深度图像,已知执行在此称为样本处理的处理,其将身体的深度图像处理为身体姿势的估计。样本处理的任务是通过对每个像素分配其可对应的身体部位上的概率分布来对每个像素进行分类。因此,例如,实际上来自用户右手的给定像素可以被分配其属于右手的70%的可能性、其属于左手的20%的可能性、以及各个其他身体部位上的10%的可能性分布。要求处理的后续阶段来将该概率图转换成骨骼估计。本技术涉及接收到样本输出之后的处理阶段。即,本技术将分类的像素阵列变换为身体部位的候选位置。后续的处理将使用这些候选项来辅助估计全局骨骼配置。如下所解释的,由图像压缩引擎190所执行的本技术包括计算多个质心的方法。图像压缩引擎190可由图像处理单元108/2 所执行。然而,本领域技术人员可以理解,图像压缩引擎190的操作可由除图像处理单元108/2 以外或替代图像处理单元108/2 的计算环境12中的其他处理组件和/或捕捉设备20来完成。如在此所使用的,质心是身体部位被正确标识的非零概率的局部簇。如下所解释的,对质心进行迭代处理以导出该簇的示例性“中心”。除了位置信息,簇具有形状、表面积大小以及质量(其组成像素的概率得分)。该簇可被分析以确定簇的形状、表面积大小和质量对应于给定身体部位的似然度。图像压缩引擎190执行一方法,该方法通过分层合并和排序处理适于高度并行的执行(诸如,在图像处理单元108/2 上)。然而,在其它实施例中处理可被串行化执行。 本发明将来自局部区域的大小不断增加的身体部位分布结合成多个代表性质心。每个质心包括定义空间中所结合的身体部位分布的中心的三维位置,以及从簇中的聚集概率中所导出的置信度值。合并是基于重力模型的,其中使用标准化的置信度值作为质量的体现。如前所述,在初始样本处理步骤之后,系统具有一分类图,其中使用像素属于特定身体部位的概率来对像素进行分类。系统也具有来自捕捉设备20的深度图。现在参考图4 的流程图,在步骤400中,对于输入分类图和深度图中的每个像素,将二维像素位置和在该地点采样的深度转换成三维空间位置。随后在步骤404中计算像素的密度,作为该像素在空间中在所标识的深度上的表面积。即,覆盖一远离捕捉设备的区域的像素与覆盖离捕捉设备较近的一区域的像素而言在密度上具有线性比例差。随后在步骤408中为样本处理中定义的每个身体部位计算绝对置信度值。每个像素的绝对置信度值由样本处理分配给该像素的身体部位概率所定标的密度。其身体部位概率为零的像素将具有零置信度值,并且将无法对任何后续的用于该部位的质心形成作贡献。在步骤409中,每个像素的三维空间位置、密度、以及绝对身体部位置信度集合被联合以形成一组局部质心。在步骤410中,每个身体部位的局部质心被分组,并且在步骤 414中,将一组中的每个质心相对于该组中的其他质心进行评估。在多个实施例中,可以从输入将质心形成为质心的2x2对准组,虽然在其它实施例中它们可以2x2大。从第一像素行中导出的两个质心相对于彼此进行评估,从第二像素行中导出的两个质心相对于彼此进行评估。在第一遍时,可替换地相对于彼此评估对应列中的质心。关于评估步骤414的进一步细节将在以下参考附图5的流程图解释。在步骤470 中,计算两个候选质心(在此也简称为“候选项”)的空间位置之间的平方距离。在步骤472 中,计算候选质心的标准化置信度(步骤472将在以下结合附图6的流程图进行更详细的解释)。在步骤474中,如果所计算的平方距离小于第一候选项的标准化置信度乘以第二候选项的标准化置信度乘以一恒定“合并阈值”,则通过步骤476中的内插操作将两个候选项合并在一起。合并阈值可以类似于当质心合并时的重力恒定设置,以使得合并不会是太敏感或太抗拒的。可以认识到合并阈值可对每个身体部位被设置为不同的值或可以在替换实施例中被完全忽略。以下将结合附图7的流程图更详细地解释步骤476,但通常,如果两个质心对于它们被正确分类的概率在空间中足够靠近,那这两个质心会合并。如果不是,则由候选项的标准化置信度对候选项进行排序(具有更大置信度的候选项排列在先)。图6提供了对如何标准化和计算每个候选项的置信度的进一步细节。通常,候选项首先被标准化,使得它们可以彼此进行比较。在步骤480,假设候选项是从出现在视野 (FOV)中的候选深度处的单个像素中形成的,通过计算候选项的空间表面积来获得候选项的基准密度。在步骤482中,候选项的密度除以此基准密度,得到密度比率(近似对形成候选项作贡献的采样的数量)。替换实施例替代地维护作贡献的采样的实际数量,交换用于处理工作的额外存储和带宽。在步骤486中,一开始将标准化置信度计算为分配给该候选项 (步骤408)的绝对置信度除以候选项密度。随后骤490中,通过将标准化置信度乘以一加上密度比率与扩散比例常数的乘积,来调整标准化置信度以抵消样本概率扩散压力,扩散标准化置信度=(候选项绝对置信度/候选项密度)x(l+(密度比率X扩散比例))在步骤492中进一步将标准化置信度夹紧,使其不能超过其初始标准化置信度的
某一倍数。扩散标准化置信度=最小值(扩散标准化置信度,候选项绝对置信度χ (候选项密度X扩散比例限值))接下来在步骤496中,通过乘以衰减因数,以渐进方式对扩散标准化置信度进行衰减。步骤496的目的是当其他质心被迭代合并时衰减单个质心的概率。例如,如果从连续质心合并的多个源像素中形成一质心簇,并且存在从未经合并的单个像素中形成的另一质心,它们可能具有可比较的概率,并可能是在空间中彼此相对靠近的。如果两个质心(包括大簇和单个像素)简单地被合并,后一个单像素质心将会对所产生的质心的合成具有不恰当的影响。因此,本技术相对于从相对较大的像素采样所形成的质心,对从个别像素或小像素组所形成的质心的概率进行衰减。替换实施例可通过当质心置信度包括更大数量的分类采样时对质心置信度的渐进放大来达成类似的结果。通过将密度比率除以二的幂来计算衰减因数,其中幂是评估候选项的分层级别。 评估的级别和衰减因数均被进一步“夹紧”以分别不超过级别衰减限值以及1. 0。因此,最终衰减置信度由如下给定最终衰减置信度=扩散标准化置信度χ最小值(1.0,密度比率/(2~最小值(级别,级别衰减限值)))如果候选项的密度等于零,则最终衰减置信度将同样被设置为零。如上在图5的步骤474中所述,如果候选项之间所计算的平方距离小于第一候选项的标准化置信度乘以第二候选项的标准化置信度乘以一恒定合并阈值,则通过步骤476 中的内插操作将两个候选项合并在一起。关于合并步骤476的进一步细节现在将参考附图 7的流程图解释。在步骤500中确定两个合并候选项的绝对置信度是绝对置信度之和。合并绝对置信度=候选项0绝对置信度+候选项1绝对置信度通过绝对置信度的内插在步骤504中确定两个合并候选项的位置,使得合并位置由以下给定合并位置=(候选项0位置χ候选项0绝对置信度+候选项1位置χ候选项1绝对置信度)/ 合并绝对置信度
接着,在步骤508将两个合并候选项的密度确定为候选项密度之和合并密度= 候选项0密度+候选项1密度当单个组中的第一行和第二行质心被合并或排序之后,将会有两个、三个或四个得到的质心。具体地,如果来自两行的质心均按如上所述的被合并,则将会有两个质心。如果仅来自两行中的一行的质心被合并,那么会有三个质心。并且如果没有一个质心被合并, 那么会有四个质心(在值上等于四个候选质心)。再次参考图4的流程图,来自两行的得到的质心在步骤418中被类似地相对于彼此而评估,用于合并和排序。再次执行图5-7的步骤。带有最大置信度的质心将首先相对于彼此进行评估,用于合并/排序。如果它们成功合并,则具有最低置信度的质心将相对于彼此进行评估,用于合并。如果它们无法合并,那么具有第二大置信度的质心将相对于具有第三大置信度的质心(如果存在的话)进行评估。该处理继续,试图相对于彼此评估所有的候选质心,并将产生一到四个结果质心,根据它们的标准化置信度以降序排序。具有最大标准化置信度的质心将接着成为后续分层遍中来自局部区域的代表性质心,后续分层遍将该局部区域相对于邻近区域进行评估以用于进一步的质心合并。任何具有较小置信度的质心,如果它们无法与邻近区域的代表性质心进行组合(在如下所描述的步骤中),将在身体部位建议的最终集合中被保留为独立局部簇。替代性实施例可在后续分层遍中支持来自局部区域的多个代表性质心,其中也可传播一个或多个具有较小置信度的质心。作为一个示例,假设在存储首行中的两个质心被合并,但在末行中的质心不够强而无法与末行中的另一质心合并在一起。当随后这两行被相对彼此而评估时,首行质心将与末行的两个质心中的较强质心合并,并产生单个质心。胜出并作为该2x2组的代表性质心而被继续处理的那个质心将是从与末行采样组合的两个首行采样形成的质心或是来自末行的剩下的未被合并的质心候选项中最强的那个(最高置信度值)。或者如果首行质心不与来自末行的两个质心中的任意一个质心合并,那么结果是来自首行的一个质心以及来自末行的两个其他质心(因为它们没有合并)。在这种情况下,胜出的那个质心将是来自末行的两个候选项或从首行形成的新质心中具有最大置信度的那个。给定基于像素的输入以及质心存储中的空间子划分固有的本质,将质心候选项的评估限制在仅仅2x2组的评估将是限制性的。仅仅因为质心候选项无法与对准子划分中的邻居合并不代表它无法与其他直接邻近项合并。例如,存储在2x2组中的右下的质心的位置将位于远离该组中其他三个质心,而与在右侧邻近的2x2组的左下存储的质心在空间上非常靠近。在该情况中,当一质心无法与其组内的任何其他质心合并并在合并结果中具有相对较低的置信度时,该质心将得益于相对于其邻近组的进一步评估。因此,来自步骤422 的输出被在另一遍中处理,其中来自每个合并/排序的像素组得出的零到三个质心(排除具有最大置信度的质心)被评估以用于与来自邻近组的具有最大置信度的质心进行合并。 邻近组包括上方、下方、左侧和/或右侧的组。在其它实施例中所检查的组可以是这些组的某一子集,或是某个扩展集以包括左上、右上、左下、右下的邻近对角组。其它实施例也将邻近组中的候选质心扩展为包括不仅仅具有最大置信度的质心,而是所有得到的质心(具有相应的规则以限制质心跨组合并的方向)。如果,在步骤422的检查中,两个质心相对于它们的标准化置信度以及合并阈值的平方距离足够小,则来自该组的候选质心将被指示至与邻居进行合并(在后续的遍中执行以获得完全的并行化)。再次将组中具有最高置信度的质心排除在考虑之外,没有被指示与邻居进行合并的剩余质心将可选地在步骤424中被挑出,如果它们的(使用最终分层级别的值来计算的)标准化置信度没有超过一阈值。执行该步骤以通过移除具有低置信度的质心来减少后续提取期间的质心搜索时间。在其他实施例中可以省略步骤424。在步骤 426中通过驻留信息(诸如,每个质心存储一比特,用于指示在该位置是否存在有效质心) 来标识存活的质心。在步骤430中,读取从每个组的上方、下方、左侧、右侧的像素组的合并指示。本系统随后从邻近组中选择合适的较低置信度质心。在步骤434中,将这些质心(通过内插处理)与给定组中具有最高置信度的质心进行合并。再次,该处理可以使用并行处理在所有组之上执行。步骤410到434的上述步骤以分层方式重复,直到在步骤438中没有其它要合并或排序的质心。来自每个2x2组中的具有最高标准化置信度的质心在存储集合中被收集在一起,其在每个维度上为原始分辨率的一半。该集合本身被分成多个2x2组,并且处理重复步骤410到434,直到该集合无法再被水平或垂直细分,最终产生按照标准化置信度进行区域化排序的质心金字塔,并在结构上形成四叉树。因为正方形输入图像不是必须的,当集合降至Nxl或IxN维(或维度N本身不是二的倍数)时,该集合可用初始为具有零密度、置信度、位置和驻留的质心的添补的存储位置添补为Nx2或hN。当四叉树金字塔被构建时,附加地准备驻留信息以包括用于每个节点组的一比特,该比特跟踪节点的任何后代中有效质心的存在。该比特提供了提取中的有用优化,如果该比特没有被设置,则不需要对源自给定节点的子树检查质心。如果在一节点处具有最高置信度的质心不大于在搜索期间已经标识的质心,则附加地跳过该子树。在每个所标识的身体部位上迭代地执行上述步骤。因此,在步骤440中,处理检查是否存在其它身体部位需要分析。如果存在,流程回到步骤408并在下一个身体部位上执行步骤408到438。本处理在已经考虑了所有身体部位时结束。给定上述描述,本领域技术人员可以认识到其他步骤可以被加入或替换一个或多个以上描述的步骤。在一个这样的示例中,可在本技术中使用平均偏移群集(mean shift clustering),用于将像素群集为上述质心。平均偏移群集算法的其它细节在D. Comaniciu 禾口 P. Meer 所著的题 % "Mean Shift :A Robust Approach Toward Feature Space Analysis (平均偏移对特征空间分析的强健方法)”,IEEE模式分析和机器智能学报,24 603-619,2002的出版物中描述,其公开整体结合在此作为参考。图8示出本技术的另一实施例,用于通过将深度阵列预处理为低维度表示来生成质心,其可被具有低存储器带宽的系统所使用。然而,可以理解到图8的实施例可用于以上所描述的图4的实施例可使用的任何场合。图8的实施例包括对于每个新的深度图进行一次的预处理步骤。对每个身体部位重复其余的阶段。预处理步骤包括计算深度小块的步骤510。具体地,将深度图像分段为多个大致恒定深度的区域。这些区域的每一个随后被正面平行平面小块(frontoparallel planar patch)所近似。大多数后续处理将按照这些小块来进行。当频繁地存在比像素少一个或两个数量级的小块时,该近似提供了本方法在存储器(带宽)要求中的极大减少。在步骤512中通过对每个小块分配与其邻接的小块列表(即,与该小块共享边界的那些小块)来定义邻域图。在步骤516中处理样本。对于每个小块,计算该小块中由样本处理对像素分配的平均概率。将其称之为值小块得分。在步骤518中,本系统标识种子簇。在该步骤中,计算作为局部图形极大值的所有小块的集合,即,具有比其所有邻居高的得分的小块的集合。随后修剪该集合,以仅包括具有比给定阈值高的得分的种子小块。随后在步骤520中“增长”多个簇。通过从种子小块向外增长来使用邻域图来形成更大的簇。 关于种子簇增长的进一步细节在下文参照图9的流程图来解释。如图9所示,种子簇的增长从种子小块的初始化开始。在步骤526中向每个种子小块分配唯一的簇,在步骤5 中将每个种子小块增加到一增长候选项集合中。在步骤532 中,对每个簇分配等于其种子小块的得分的得分值。在步骤536中,移除具有最低置信度的增长候选项集合的成员。在步骤538中,可向正在增长的小块的簇添加邻近簇。在确定是否添加邻近簇时,应用下面三条规则。规则 1 如果邻居未被分配到任何簇,则将其分配给正在增长的小块的簇。规则2 如果邻居被分配给一不同的簇,则应用用“增长竞争规则”。增长竞争规则规定当两个簇竞争一小块时, 根据哪个簇更适宜来分配小块。一种选择是将竞争小块分配给目前为止具有最大置信度的簇。规则3 除非达到“停止条件”,将所访问的邻居添加到增长候选项集合。当专用于小块所分配的簇的总区域超过某些预定最大值时,达到该停止条件。在步骤MO中,已经添加了新小块的簇得分可被更新。用于该更新的选项包括但不限于将簇得分按照所添加的小块的得分递增、或按照对前述的图形处理单元实施方式所用的合并规则的某一变量递增。在步骤544中,本系统检查增长候选项集合是否为空。如果不为空,则本系统重复步骤536到M0。当增长候选项集合为空时,算法结束。对于被分配一个或多个小块的每个簇,使用由簇的组成小块的平均位置所给定的位置来计算质心,并且置信度等于簇的最终得分。虽然以上在根据对深度图像的分类来压缩质心的上下文中描述了本技术,可以构建一种样本处理的变形以用于彩色或任何其他任意概率分布上。本技术包括根据二维或三维(用于2D的操作是类似的,但是使用二维位置和均一的初始密度)中的任何类型的概率分布云来压缩质心的可能性。此外,样本分类和/或质心压缩是可替换地用于合成图像。例如,上述的压缩处理可被用于寻找计算机生成的“地面真值”上的质心,其中使用合成人类模型来呈现骨骼姿势,该合成人类模型包括用于不同的身体部位的纹理映射多种色彩。在此,计算而非捕捉深度信息,并且分类是事先已知的而非分析得出的。本发明系统的前述详细描述是出于说明和描述的目的而提供的。这并不旨在穷举本发明系统或将本发明系统限于所公开的精确形式。鉴于上述教导,许多修改和变型都是可能的。选择所述实施方式以最好地解释本发明系统的原理及其实践应用,从而允许本领域技术人员能够在各种实施方式中并采用各种适于所构想的特定用途的修改来最好地利用本发明系统。本发明系统的范围旨在由所附权利要求书来定义。
1权利要求
1.一种根据表示对象(18)的部位的概率分布云来压缩质心的方法,所述方法包括a)对数据采样集进行样本处理(步骤404、408)来向采样分配概率,所分配的概率与采样属于所述对象的相应部位的概率有关;b)将采样位置与所分配的概率组合以生成概率分布云(步骤409、410);c)将采样的一个或多个子组群集在一起以形成用于所述对象的部位的一个或多个候选质心(步骤434),所述步骤c)中对一个或多个子组的群集取决于采样之间的接近程度以及采样表示所述对象的部位的概率。
2.如权利要求1所述的方法,其特征在于,还包括如下步骤将置信度值分配给所述一个或多个候选质心,质心的置信度值指示所述质心对应于所述对象的正确部位的似然度。
3.如权利要求2所述的方法,其特征在于,所述将置信度值分配给所述一个或多个候选质心的步骤包括如下步骤基于子组的大小和形状以及其组成采样的概率来分配置信度值。
4.如权利要求1所述的方法,其特征在于,所述将采样的一个或多个子组群集在一起以形成一个或多个候选质心的步骤c)包括如下步骤如果子组中的一对采样相对于它们被正确分类的概率在空间上足够接近,则将所述一对采样合并。
5.如权利要求1所述的方法,其特征在于,所述将采样的一个或多个子组群集在一起以形成一个或多个候选质心的步骤c)包括如下步骤d)将两个候选采样的空间位置之间的距离平方化;e)确定两个候选采样的标准化置信度;以及f)如果步骤d)中所计算的距离小于在步骤e)中确定的第一候选项的标准化置信度乘以在步骤e)中确定的第二候选项的标准化置信度乘以一恒定合并阈值,则将所述两个采样合并。
6.如权利要求5所述的方法,其特征在于,还包括步骤g)如果两个候选采样在步骤 f)中没有被合并,则根据所述两个候选采样各自的标准化置信度对所述两个候选采样进行排序。
7.如权利要求5所述的方法,其特征在于,还包括如下步骤基于合并以形成采样的采样的数量以及采样所表示的空间区域与在步骤f)中已经合并的其他采样的大小,衰减或放大采样的置信度。
8.在一系统(10)中的标识真实世界对象的方法,所述系统(10)包括耦合到捕捉设备 (20)的计算环境(12),捕捉设备00)用于捕捉身体(18)的深度图像,所述方法包括a)确定(步骤400)由所述捕捉设备所捕捉的像素组的深度信息;b)接收(步骤404)样本分类结果,所述样本分类结果分配所捕捉的像素组属于真实世界对象的概率;c)对候选项分配(步骤408)置信度得分,所述候选项是所捕捉的像素组中的像素或是从所捕捉的像素组中的像素形成的质心,所述置信度得分部分基于所述步骤b)中的样本分类;以及d)迭代评估候选项阵列以便合并在一起(步骤410-438)以基于候选项在空间中彼此之间的接近程度以及在所述步骤c)中确定的它们的置信度得分来形成下一级的候选项。
9.如权利要求8所述的方法,其特征在于,所述对候选项分配置信度得分的步骤c)包括如下步骤基于像素组的大小和形状以及在步骤b)所分配的其组成像素的概率来分配置信度值。
10.如权利要求8所述的方法,其特征在于,还包括步骤f)对在所述步骤c)中所分配的置信度得分进行标准化。
11.如权利要求10所述的方法,其特征在于,所述迭代评估候选项阵列的步骤d)包括g)将两个候选项的空间位置之间的距离平方化;h)确定两个候选项的标准化置信度;以及j)如果步骤g)中所计算的距离小于在步骤h)中确定的第一候选项的标准化置信度乘以在步骤h)中确定的第二候选项的标准化置信度乘以一恒定合并阈值,则将所述两个候选项合并。
12.如权利要求11所述的方法,其特征在于,还包括步骤k)如果两个候选项点在步骤f)中没有被合并,则根据所述两个候选项各自的标准化置信度对所述两个候选项进行排序。
13.在一系统(10)中的标识真实世界对象的方法,所述系统(10)包括耦合到捕捉设备 (20)的计算环境(12),捕捉设备00)用于捕捉身体(18)的深度图像,所述方法包括a)通过将所述深度图像分为大致恒定深度的多个区域,确定(步骤510)深度小块;b)对每条小块分配(步骤51 与其邻接的小块列表,以定义邻域图;c)通过计算由样本处理对小块内的像素所分配的平均概率得分来处理样本(步骤 516);d)将种子簇标识(步骤518)为具有比所有其所有邻居高的得分的一组小块;以及e)从所述种子小块向外增长(步骤520)簇。
14.如权利要求13所述的方法,其特征在于,所述步骤e)包括如下步骤如果出现以下情况则将邻居簇添加到当前种子簇中i)邻居没有被分配给任何簇; )邻居被分配给另一个簇,但当前种子簇具有更高的置信度值,其中所述置信度值是至少部分基于在所述步骤c)中所处理的样本的;以及iii)专用于当前种子簇的总区域没有超过某个预定义最大值。
15.如权利要求14所述的方法,其特征在于,还包括如下步骤在已经将邻居添加到当前种子簇之后,更新概率得分。
全文摘要
描述了概率分布云的多质心压缩的机制。描述了用于通过将所分类的图像数据压缩为所捕捉的对象是正确标识的实体的概率的质心,来标识由深度照相机所捕捉的对象的系统和方法。处理输出样本以检测非零概率像素的空间局部簇。对于每个簇,生成一质心,这通常导致用于每个区别对象的多个质心。基于簇的大小和形状以及其所组成像素的概率,对每个质心分配一置信度值,指示其对应于真实对象的似然度。
文档编号G06F3/01GK102184558SQ20111011823
公开日2011年9月14日 申请日期2011年4月28日 优先权日2010年4月29日
发明者A·费茨吉本, J·肖顿, M·布龙德尔, O·威廉姆斯, R·盖斯 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1