根据rgb和深度图像的表面分割的制作方法

文档序号:6380267阅读:184来源:国知局
专利名称:根据rgb和深度图像的表面分割的制作方法
技术领域
本发明涉及图像处理领域,更具体地,涉及一种图像分割的计算机实现方法和图像分割系统。
背景技术
室内场景的计算机解释对于诸如机器人学、安全和交互式游戏的多种应用是有用的。自动化室内场景解释的一个方面是对于墙、天花板、地板和支撑表面的3D平面参数和范围的确定。确定这些可以使得计算机能够得到诸如房间的大小和房间内的物体的位置的信息。
然而,尽管室内场景通常是高度结构化的,但是它们可能是复杂的。例如,从任意给定视点,场景的大部分可能是被遮蔽的,从而要求计算机越过可视表面而进行推理。用于根据图像解释室内图像的一些技术使用来自各个线索的简单几何模型,或者试图推出度量表示,但是如果遮蔽过大则可能较艰难。
以下描述的实施例不限于解决已知的室内场景解释技术的任意或所有缺点的实现。发明内容
以下给出了本公开内容的简化概述以为读者提供基本的理解。该概述不是本公开内容的大范围概况,并且其不标定重要/关键的要素或者界定说明书的范围。其唯一的目的在于以简化形式给出此处公开的概念的选集,作为稍后给出的更详细描述的序言。
描述了根据RGB和深度图像的表面分割。在一个示例中,计算机接收场景的图像。 图像具有每个均具有相关联的颜色值和相关联的深度值的像素,该深度值表示从图像传感器到场景中的表面的距离。计算机使用深度值来得到存在于场景内的三维平面集合。成本函数用于确定每个像素是否属于平面之一,并且相应地标记图像元素。成本函数具有与像素的深度值以及像素和至少一个相邻像素的颜色值相关的项。在各个示例中,平面可以延伸直至它们相交以确定场景的范围,并且不属于平面的像素可以被标记为表面上的物体。
当多个附带特征通过参考结合附图考虑的以下详细描述而变得更好理解时,这些附带特征将更容易明白。


本描述将根据以下按照附图阅读的详细描述而更好理解,其中
图I示出了场景的RGB和深度图像以及所解释的俯视图2不出了用于捕获RGB和深度图像的捕获装置的不意图3示出了用于使用RGB和深度图像来分割表面的总体处理;
图4示出了用于在分割之前对图像进行预处理的处理的流程图5示出了用于确定场景的图像中存在的平面的处理的流程图;以及
图6示出了可实现表面分割技术的实施例的示例性的基于计算的装置。
相同的附图标记用于表示附图中的相同部分。
具体实施方式
以下结合附图提供的详细描述旨在作为本示例的描述并且不旨在仅表示可构造或利用本示例的形式。该描述阐述了示例的功能和用于构造和操作示例的步骤序列。然而, 相同的或等同的功能和序列可由不同的示例来实现。
图I示出了使用以下描述的技术对室内场景执行的解释的类型的示例。图I示出可见光摄像装置捕获的示例室内场景的红绿蓝或RGB图像102和深度摄像装置捕获的同一场景的深度图像104。
RGB图像102由多个图像元素构成,每个图像元素表示对于图像的该点的可见光颜色值(例如,RGB强度)。注意,在下文中使用术语“图像元素”来指示像素、像素组、体素或图像的其它高阶分量。注意,在一些示例中,可见光图像不需要为RGB图像的形式,而是可以使用任意类型的适当颜色值表示。RGB图像102示出了典型室内场景的各种元素,包括墙106、地板107、靠着右手侧墙的第一物体108、靠近摄像装置的第二物体110以及在房间的左手侧角落的第三物体112。第一、第二和第三物体都是具有支撑表面的大物体,诸如桌子、椅子、沙发等。换言之,另外的物体可以放置在这些物体上。例如,图I示出了放置在第一物体108上的杯子114以及放置在第三物体112的顶部上的球116。
深度图像104示出了与RGB图像102相同的场景,并且也包括多个图像元素。然而,在深度图像104中,每个图像元素不表示元素而是表示深度摄像装置与场景中的该点处的物体或表面之间的距离。在图I的示例中,距离被表示为灰度级值,其中黑色图像元素表示近值,并且白色图像元素表示远值,二者之间为灰色阴影。注意,包围图I中的物体的黑色边缘线仅是为了清楚,并且不存在真实的深度图像中。
RGB图像102和深度图像104在一起的组合因此提供了关于场景中的物体的颜色和空间布局两者的信息。以下描述的图像分割技术使用关于场景的这两种信息源来解释室内环境的布局。这在图I的俯视图118中示出。俯视图指示房间的范围,即,边界墙106遇到的地方。这如下所述自动地来确定,甚至在这被遮蔽而无法查看的情况下也可自动地确定。例如,在图I中,地板与远处的墙相遇的房间的两个角落被物体遮蔽。俯视图118还指示房间内的物体相对于边界墙的位置。
注意,俯视图仅是场景的一种可能解释,并且被提供以易于图形表示。以下描述的技术也可以以2D和3D从任意其它透视来解释场景。
现在参照图2,其示出了可以用于捕获如图I所示的场景的RGB图像102和深度图像104的捕获装置200的示意图。如图2所示,捕获装置200包括至少一个图像传感器 200。在图2所示的示例中,图像传感器202包括被布置成捕获场景的深度图像的深度摄像装置204。如以上所指出的,所捕获的深度图像可以包括所捕获的场景的2D区域,其中2D 区域中的每个图像元素表示深度值,诸如从深度摄像装置204到所捕获的场景中的物体的长度或距离。
可以使用任意适当的技术来获得深度信息,这些适当的技术包括例如飞行时间、 结构化光、立体图像等。在一些示例中,捕获装置200可以将深度信息组织到“Z层”或可与从深度摄像装置沿着其视线延伸的Z轴垂直的层中。
捕获装置200还可以包括发射器206,发射器206被布置成以深度信息可以由深度摄像装置204确定的方式来照射场景。在一个示例中,捕获装置200可以使用结构化光来捕获深度信息。在这样的技术中,可以使用发射器206将图案化的光(例如,被显示为已知的图案(诸如点、网格或条纹图案)的光)投射到场景上。图案化的光 可以是例如来自激光器的红外(IR)光,以使得其对于人眼不可见。在撞到场景中的一个或多个目标或物体的表面时,图案发生变形。这样的图案变形可以由深度摄像装置204 (其可以对IR光敏感)来捕获并且然后被分析以确定从捕获装置200到场景中的物体上的位置的物理距离。
在另一示例中,在深度摄像装置204是IR飞行时间摄像装置的情况下,发射器206 将IR光发射到场景上,并且深度摄像装置204被布置成检测来自场景中的一个或多个目标和物体的表面的反向散射光。在一些不例中,可以从发射器206发射脉冲红外光,以使得在出射光脉冲与相应的入射光脉冲之间的时间可以由深度摄像装置来检测并且被测量和用于确定从捕获装置200到场景中的目标或物体上的位置的物理距离。另外,在一些示例中, 可以将来自发射器206的出射光波的相位与在深度摄像装置204处的入射光波的相位进行比较以确定相移。然后,可以使用相移来确定从捕获装置200到目标或物体上的位置的物理距离。在另一示例中,可以使用飞行时间分析来通过经由各种技术(包括例如快门光脉冲成像(shuttered light pulse imaging))分析反射光束随时间的强度来间接地确定从捕获装置200到目标或物体上的位置的物理距离。
在另一示例中,深度摄像装置204可以为从不同角度查看场景的两个或更多个物理上分开的摄像装置的形式,以获得可以被分解以生成深度信息的视觉立体数据。在该情况下,发射器206可以用于照射场景或者可以被省略。
除了深度摄像装置204之外,图像传感器202还包括被称为RGB摄像装置208的常规摄像装置。RGB摄像装置208被布置成以上述方式以可见光频率捕获场景的图像。
图2所示的捕获装置200还包括至少一个处理器210,该处理器210与图像传感器 202 (B卩,图2的示例中的深度摄像装置204和RGB摄像装置208)和发射器206通信。处理器210可以为通用微处理器或者专用信号/图像处理器。处理器210被布置成执行指令以控制成像传感器202和发射器206捕获深度图像和/或RGB图像。处理器210还可以可选地被布置成如在下文中更详细地描述的那样对这些图像执行处理。
图2所示的捕获装置200还包括存储器212,存储器212被布置成存储用于由处理器210执行的指令、深度摄像装置204或RGB摄像装置208捕获的图像或者任意其它适当的信息、图像等。在一些示例中,存储器212可以包括随机存取存储器(RAM)、只读存储器 (ROM),缓存、闪存、硬盘或者任意其它适当的存储部件。存储器212可以是与处理器210通信的分开部件或者被集成到处理器210中。
捕获装置200还包括与处理器210通信的输出接口 214并且被布置成经由通信链路将数据提供到计算装置216。计算装置216然后可以如以下所描述的那样对RGB和深度图像执行解释。以下参照图6提供关于计算装置216的结构的更多细节。通信链路可以例如是有线连接(诸如USB、火线、以太网等)和/或无线连接(诸如WiFi、蓝牙等)。在其它示例中,输出接口 214可以与一个或多个通信网络(诸如因特网)接口并且经由这些网络将数据提供到计算装置216。
现在参照图3,其示出了用于使用RGB和深度图像来分割表面和解释场景的总体处理。图3的处理初始地对RGB和深度图像进行预处理,并且然后对RGB和深度图像执行分开的计算。在图3中,这些分开的计算被示出为并行的,但是它们也可以顺序地执行。来自图3的处理的输出是存在于场景中的3D平面的集合和表示图像元素属于哪个平面(在存在的情况下)的每个图像元素的标记。通过评估成本函数来执行对图像元素加标记。成本函数具有与图像元素的RGB和深度值相关的项,并因此组合且同时考虑RGB和深度信息。以下提供关于该处理的操作的更多细节。
在更详细地描述该处理的操作之前,首先概述一些符号。在下文中,(U,V)定义图像中的图像元素(例如,像素)坐标的列和行。(X,Y,Z)或XYZ或X是3D世界坐标(B卩,场景本身内的坐标)。(NX,NY,NZ)或N是3D表面法线。P=[a b c d]是3D平面参数。每个场景被认为具有地板、墙的集合以及支撑表面的集合。这些表面中的每个是平面化的并且由平面方程aX+bY+cZ+d=0、3D范围以及指示可视区域的像素坐标集合来表示。
如所指出的,图3的处理中的第一步骤是对图像进行预处理302。现在参照图4更详细地描述该预处理。预处理操作的输入是RGB图像102和深度图像104,RGB图像102和深度图像104是对准的,使得其相应的图像元素与场景中的同一点相关。如果需要,可以使用RGB和深度摄像装置的内在和外在参数以及标准多视图几何技术来执行深度图像和RGB 图像的对准。
由于用于确定深度信息的技术(例如,结构化光),深度图像可能具有缺失或噪声值。为了对此进行校正,填充402缺失的深度值。这可以使用描绘技术来执行,在描绘技术中,通过沿着RGB图像中的类似颜色传播附近深度值来找到缺失的深度值。作为填充缺失的深度值的结果,在每个图像元素处,现在是颜色值和XYZ距离值,其中,根据图像元素坐标U,V)、深度Z (来自深度摄像装置测量)以及已知焦距f和光心(uQ,v0)的深度摄像装置参数来计算X和Y坐标。
接下来,在分析场景之前,将图像坐标与房间坐标对齐,以使得地板法线为Y (向上)方向。对齐基于曼哈顿世界假设,即,大部分可视表面(诸如桌子、地板和墙)将沿着三个正交方向(称为三个主方向)之一。为了获得主方向的候选,从RGB图像提取404直线,并且计算406每条所提取的直线的3D方向。这可以使用奇异值分解(具有最大特征值的特征向量)来执行。
通常,这可以导致主方向的大量(例如,100至200个)候选。选择408大致在Y方向上的线,并且对于每条所选择的线,采样410两个正交候选以形成三元组vi、v2、v3。使用以下公式来计算412每个三元组的得分
权利要求
1.一种图像分割的计算机实现方法,包括 在处理器(600)处接收包括多个图像元素的场景的图像,每个图像元素均具有相关联的颜色值和相关联的深度值,所述深度值表示从图像传感器(202)到场景元件的距离; 使用所述深度值来得到存在于所述场景内的三维平面集合;以及 对于每个图像元素,确定所述图像元素是否属于来自所述集合的平面并且相应地对所述图像元素加标记,其中,所述确定包括评估关于所述平面集合的成本函数,所述成本函数具有与所述图像元素的深度值以及所述图像元素和至少ー个相邻图像元素的顔色值相关的项。
2.根据权利要求I所述的方法,其中,评估所述成本函数的步骤包括针对每个图像元素选择相关联的平面以使得所述成本函数最小化。
3.根据权利要求I所述的方法,其中,所述成本函数包括一元项和成对项。
4.根据权利要求3所述的方法,其中,评估步骤包括使用所述图像元素的深度值来计算所述一元项以及使用所述图像元素和所述至少ー个相邻图像元素的顔色值来计算所述成对项。
5.根据权利要求4所述的方法,还包括以下步骤对于每个图像元素,计算所述图像元素的红绿蓝强度值与所述至少ー个相邻图像元素的红绿蓝强度值之间的强度差别,并且其中,计算所述成对项的步骤使用所述强度差别。
6.根据权利要求I所述的方法,其中,使用所述深度值来得到存在于所述场景内的三维平面集合包括使用所述深度值应用随机抽样一致性RANSAC过程以生成多个所提出的平面,以及基于具有关于所提出的平面的阈值距离的深度值的图像元素的数量来从所提出的平面选择所述平面集合。
7.根据权利要求6所述的方法,其中,所述RANSAC过程包括 i)从所述图像选择三个采样图像元素; ii)将三维平面拟合于所述采样图像元素的深度值; iii)确定所述图像元素的至少一部分的深度值与所述三维平面之间的距离; iv)将在所述平面的阈值距离内的那些图像元素设置为内围; V)存储所述平面的内围的数量;以及 针对多个不同的采样图像元素,重复步骤i)至V)。
8.根据权利要求I所述的方法,还包括以下步骤 延伸存在于所述场景内的所述三维平面以确定所述平面之间的相交; 确定距所述图像传感器的最远相交;以及 将所述最远相交设置为所述场景的范围。
9.根据权利要求I所述的方法,还包括以下步骤如果所述图像元素不属于所述平面之一,则将所述图像元素标记为物体。
10.一种图像分割系统,包括 输入接ロ(602),被布置成从捕获装置(200)接收场景的图像,所述图像包括多个图像元素,每个图像元素均具有相关联的颜色值和相关联的深度值,所述深度值表示从所述捕获装置(200)到所述场景中的表面的距离; 至少ー个处理器(600),被布置成使用所述深度值来得到存在于所述场景内的三维平面集合,并且对于每个图像元素,确定所述图像元素是否属于来自所述集合的平面以及相应地对所述图像元素加标记, 其中,所述至少一个处理器(600)被布置成通过评估关于所述平面集合的成本函数来确定所述图像元素是否属于平面,所述成本函数具有与所述图像元素的深度值以及所述图像元素和至少ー个相邻图像元素的颜色值相关的项。
全文摘要
描述了根据RGB和深度图像的表面分割。在一个示例中,计算机接收场景的图像。图像具有像素,每个像素均具有相关联的颜色值和相关联的深度值,该深度值表示从图像传感器到场景中的表面的距离。计算机使用深度值来得到存在于场景内的三维平面集合。成本函数用于确定每个像素是否属于平面之一,并且相应地对图像元素加标记。成本函数具有与像素的深度值以及像素和至少一个相邻像素的颜色值相关的项。在各个示例中,可以扩展平面直至其相交以确定场景的范围,并且可以将不属于平面的像素标记为表面上的物体。
文档编号G06T7/40GK102982560SQ20121043074
公开日2013年3月20日 申请日期2012年11月1日 优先权日2011年11月2日
发明者德里克·赫耶姆, 普什米特·科利 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1