一种室内语义地图的自动化构建方法与流程

文档序号:15447508发布日期:2018-09-14 23:32阅读:142来源:国知局

本发明涉及移动计算和图像信息处理领域,特别是指一种室内语义地图的自动化构建方法。



背景技术:

近年来,语义地图重建成为了计算机视觉和移动计算的研究热点之一。语义地图被广泛应用于机器人、导航和人机交互等领域。室内语义地图包含空间属性信息,如建筑物的平面结构,房间分布等,还包括语义属性信息,如各个房间的号码、逻辑功能、房间内一般实体的位置信息等。语义地图重建的目标是精确地在地图上标记语义信息。

现有技术中,通常基于运动信号或视觉信息进行室内空间语义地图的重建。其中运动信号指的是用户在室内的运动轨迹,该方法通过采集大量用户在室内空间的运动轨迹,来学习和推理室内空间的语义信息,并将语义信息标记在室内空间的语义地图上。然而,这种方法仅关注识别和分类特定的室内空间内的语义信息,例如房间号码、商店店名等。基于视觉信息的方法通过采集大量的视觉信息,即图像,然后采用恢复室内空间的三维模型来学习和推理室内空间的语义信息,并将语义信息标记在室内语义地图上。这种方法能够标记丰富的语义信息,但对室内空间的纹理较为敏感,且计算复杂度较高。



技术实现要素:

有鉴于此,本发明的目的在于提出一种室内语义地图的自动化构建方法。

基于上述目的本发明提供的一种室内语义地图的自动化构建方法,应用于摄像装置、位置确定装置以及计算装置构成的系统中,所述摄像装置用于获取场景中多幅图像的特征点信息,所述位置确定装置用于确定图像的初始全局位置信息,所述方法包括所述计算装置执行的:

基于所述场景中多幅图像的特征点信息和所述初始全局位置信息,确定对应的目标场景图;

基于所述目标场景图,计算每幅所述图像的优化全局位姿信息和语义方向;

根据所述优化全局位姿信息和所述语义方向估计所述图像中的实体在所述室内语义地图上的位置信息;

根据所述位置信息将所述实体在所述室内语义地图中进行标记。

在一实施例中,所述基于所述场景中多幅图像的特征点信息和初始全局位置信息,确定对应的目标场景图,包括:

确定所述多幅图像中的实体的特征点信息;

基于所述特征点信息进行特征点匹配;

将相同特征点信息的数量超过设定数量阈值的特征点对应的图像进行聚类,并分别生成对应的场景图,作为目标场景图;

在一实施例中,所述生成对应的场景图,包括:

基于图像的所述初始全局位置信息验证所生成的场景图,得到目标场景图。

在一实施例中,所述确定对应的目标场景图之后,所述方法还包括:

确定图像中的实体的语义信息;

基于所述语义信息将各目标场景图分别划分为至少一个子场景图。

在一实施例中,所述基于所述目标场景图,计算每幅所述图像的优化全局位姿信息,包括:

计算各幅所述图像的初始全局姿态信息;

计算各所述子场景图中的每对图像之间的相对位置信息和相对姿态信息;

基于所述相对位置信息对所述初始全局位置信息进行优化,得到优化全局位置信息,基于所述相对姿态信息对所述初始全局姿态信息进行优化,得到优化全局姿态信息,所述优化全局位置信息及所述优化全局姿态信息构成所述优化全局位姿信息。

在一实施例中,所述计算各所述子场景图中的每对图像之间的相对位置信息和相对姿态信息,包括:

基于所述子场景图中的实体在两幅图像上的投影,确定所述两幅图像之间的相对位置信息和相对姿态信息。

在一实施例中,所述相对位置信息和所述相对姿态信息通过对极几何算法进行计算得到。

在一实施例中,计算语义方向,包括:

确定拍摄所述图像的摄像头的视角及焦距;

基于所述视角及所述焦距,计算所述图像中的实体与所述摄像头之间的语义方向。

在一实施例中,所述根据所述优化全局位姿信息和所述语义方向估计所述图像中的实体在所述室内语义地图中的位置信息,包括:

基于所述优化全局位姿信息和各摄像头与实体之间的语义方向估计所述图像中的实体在室内语义地图中的位置区域;

基于各所述位置区域的交集确定所述图像中的实体在所述室内语义地图中的位置信息。

在一实施例中,所述基于各估计位置区域的交集确定估计位置信息,包括:

将所述交集的重心位置确定为所述位置信息。

从上面所述可以看出,本发明提供的室内语义地图的自动化构建方法,基于图像的特征点信息及初始全局位置信息来确定场景图,能够提高场景图的精确度,通过对图像的初始全局位姿信息进行优化,能够保证图像中的实体标记在室内语义地图的精确度,而且成本较低。

附图说明

图1为本发明实施例示出的一种室内语义地图的自动化构建方法的流程图;

图2a为本发明实施例示出的另一种室内语义地图的自动化构建方法的流程图;

图2b为本发明实施例示出的另一种室内语义地图的自动化构建方法的场景图;

图3a为本发明实施例示出的另一种室内语义地图的自动化构建方法的流程图;

图3b为本发明实施例示出的另一种室内语义地图的自动化构建方法的场景图;

图4a为本发明实施例示出的另一种室内语义地图的自动化构建方法的流程图;

图4b为本发明实施例示出的另一种室内语义地图的自动化构建方法的场景图;

图5a为本发明实施例示出的另一种室内语义地图的自动化构建方法的流程图;

图5b为本发明实施例示出的另一种室内语义地图的自动化构建方法的场景图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

图1是本发明实施例示出的一种室内语义地图的自动化构建方法的流程图,该方法应用于摄像装置、位置确定装置以及计算装置构成的系统中,其中摄像装置用于拍摄场景中的图像,可以为摄像头,并可以获取多幅图像的特征点信息;位置确定装置用于确定图像的初始全局位置信息,可以为惯性传感器;计算装置可以为计算机,用于执行下述步骤101-104;如图1所示,该大规模室内语义地图的自动化构建方法可以包括以下步骤101-104:

步骤101、基于场景中多幅图像的特征点信息和初始全局位置信息,确定对应的目标场景图。

其中,场景可以为室内空间,例如楼层、房间等,实体可以为场景中的物体,例如办公桌、沙发、电器等,本实施例可以通过位于不同位置的多个摄像头拍摄场景的多幅图像。场景图用于描述室内空间中的实体之间的位置关系及其语义信息。场景图中可以包括室内空间的多幅图像,图像以顶点的方式存在于场景图中,相邻的两幅图像之间通过边进行连接,边表示的是该两幅图像的重合度。

对于同一场景,可以对应多个场景图,例如,该场景中朝向相反的图像,由于不存在重合的地方,因而位于不同的场景图中。在一个实例中,对于一个房间,所拍摄的图像都是朝南和朝北的图像,那么可以基于朝南的图像生成一幅场景图,基于朝北的图像生成另一幅场景图。

本公开步骤中,可以通过现有技术中的posenet(一种视觉定位模型,能够通过一张彩色图像定位位姿信息),或pdr(pedestriandeadreckoning,行人航位推算)方法来确定图像的全局位置信息,为了与后续步骤中优化的全局位置信息相区分,将本步骤中的全局位置信息称为初始全局位置信息。

步骤102、基于目标场景图,计算每幅图像的优化全局位姿信息和语义方向。

在一实施例中,优化全局位姿信息可以包括优化全局位置信息及优化全局姿态信息,即优化过了的全局位置信息及全局姿态信息。

语义方向,指的是摄像头与图像中的实体之间的方向。

位置信息,指的是图像中的实体位于室内语义地图中的位置。

步骤103、根据优化全局位姿信息和语义方向估计图像中的实体在室内语义地图中的位置信息。

步骤104、根据位置信息将实体在室内语义地图中进行标记。

现有技术中,通常基于图像的特征点信息来生成场景图,这种方法可能导致的问题是,位于不同空间中的相似实体的图像出现在同一场景图中,例如同款办公桌,位于不同的办公室内,但是由于办公桌高度相似,因而生成在了同一场景图中。为了提高场景图的精确度,本实施例中,不仅基于图像的特征点信息,还结合图像的初始全局位置信息来确定对应的场景图,从而保证同一场景图中的图像都来自同一场景。

图2a是根据本发明实施例示出的另一种室内语义地图的自动化构建方法的流程图;本实施例利用本公开实施例提供的上述方法,以如何基于获取的场景中多幅图像的特征点信息和初始全局位置信息,确定对应的场景图为例并结合图2b进行示例性说明,如图2a所示,包括如下步骤201-206:

步骤201、确定多幅图像中的实体的特征点信息。

本公开步骤中,首先确定实体的特征点信息,特征点可以为实体上的任一点。本实施例中可以通过现有技术中的colmap方法来确定特征点,在此不再赘述。

步骤202、根据特征点信息计算特征描述子信息,并根据特征描述子信息进行特征点匹配。

本公开步骤中,将各实体的特征描述子信息进行匹配,例如相似度超过设定相似度阈值的特征点认为是相似特征点,或相近特征点。

步骤203、将相同特征点信息的数量超过设定数量阈值的特征点对应的图像进行聚类,并分别生成对应的场景图,作为目标场景图。

举例而言,在一场景中,包含三种实体:桌子、椅子和电脑。那么,所拍摄的该场景的图像中,显然包括桌子的图像的相同或相近特征点信息的数量能够超过设定数量阈值,包括椅子的图像的相同或相近特征点信息的数量能够超过设定数量阈值,包括电脑的图像的相同或相近特征点信息的数量能够超过设定数量阈值,那么可以分别将包含桌子的图像进行聚类,生成一场景图,将包含椅子的图像进行聚类,生成另一场景图,将包含电脑的图像进行聚类,生成另一场景图。如果有的图像包含一种以上的实体,例如既包含椅子又包含电脑,那么显然该图像既存在于椅子聚类生成的场景图中,也存在于电脑聚类所生成的场景图中。

为了进一步确保场景图的精确性,还可以通过下述步骤对场景图进行验证,这种情况下将步骤203得到的场景图作为初始场景图。

步骤204、基于图像的初始全局位置信息验证所生成的场景图,得到目标场景图。

本公开步骤中可以通过现有技术中的posenet或pdr方法来确定图像的初始全局位置信息,然后基于初始全局位置信息验证生成的场景图,能够得到更精确的目标场景图。

举例而言,在步骤101的场景图所包含的五幅图像中,有四幅椅子图像的全局位置信息是房间101,而另一幅椅子图像的全局位置信息是房间102,那么即使这些椅子的特征点信息的相似度超过设定阈值,验证结果也是该房间102的椅子图像不属于该场景图,那么从该场景图中将房间102的椅子图像剔除。也就是说,属于同一场景图的图像的全局位置信息应该是相同的。

步骤205、确定图像中实体的语义信息。

本公开步骤中,通过yolov2算法来识别图像中的实体,得到实体的语义信息,该语义信息可以为实体的名称,例如办公桌、笔记本。

步骤206、基于语义信息将各个目标场景图分别划分为多个子场景图。

本公开步骤中,基于识别出的实体的名称将目标场景图划分为多个子场景图。

在一个场景图内,包含相同实体的图像被划分到同一子场景图中。如图2b所示,在左下方子场景图中,图像均含有桌子实体,在右下方子场景图中,图像均含有椅子实体。由于很多情况下,只需将特定实体在室内语义地图中进行定位标记即可,因而将目标场景图划分为子场景图,在后续步骤中只针对性的基于包含特定实体的子场景图进行定位即可,从而提高定位的精度和效率。

图3a是根据本发明实施例示出的另一种室内语义地图的自动化构建方法的流程图;本实施例利用本公开实施例提供的上述方法,以如何计算每幅图像的优化全局信息为例并结合图3b进行示例性说明,如图3a所示,包括如下步骤301-303:

步骤301、计算各幅图像的初始全局姿态信息。

本公开步骤中,可以通过现有技术中的posenet或pdr方法来计算图像的初始全局位置信息和初始全局姿态信息,这些方法为现有技术,在此不再赘述。

步骤302、计算各子场景图中的每对图像之间的相对位置信息和相对姿态信息。

本公开步骤中,通过2d-2d对极几何方法计算每幅子场景图中的任意两幅图像之间的相对位置信息和相对姿态信息。

对于2d-2d方法,可以这样理解,在室内空间中,给定两台摄像机,在室内空间指定任意一点,点在两个摄像机所拍摄的图像上的投影分别为沿着线的点和沿着线的点。那么,这两幅图像之间的空间关系,即旋转矩阵和平移向量可以通过下列公式1进行计算:

公式1

这里以r和t来表示相对位置信息和相对姿态信息,也就是说可以基于所述子场景图中的实体在两幅图像上的投影,确定所述两幅图像之间的相对位置信息和相对姿态信息。

步骤303、通过相对位置信息对初始全局位置信息进行优化,得到优化全局位置信息,并通过相对姿态信息对初始全局姿态信息进行优化,得到优化全局姿态信息。

本实施例中,将求取优化全局位置信息和优化全局姿态信息的过程转换为最大似然估计问题进行计算,具体而言,给定幅图像,及第幅图像在坐标系下的全局位置信息,以及第幅图像在世界坐标系下的全局姿态信息,得到。定义分别为图像在图像坐标系下的相对位置信息和相对姿态信息。定义分别为相对位置信息的观测数量,,和相对姿态信息的观测数量,其中分别为实体在局部坐标系下的位置信息和姿态信息。那么最大似然估计问题的目标是在观测值为下得到最优的。为了简化该问题,本实施例通过最小化如下目标函数求解,其中位置信息和姿态信息是独立的:

公式2

进一步地,本章使用gaussian模型来简化公式2,得到:

公式3

对上述公式3进行求解,得到最优全局位置信息和最优全局姿态信息。

如图3b所示,在一实例中,假设有三幅图像1、2和3,每一幅图像的初始全局位置信息(在图3b中由带有向左斜线的圆圈1、2和3进行表示)通过posenet或pdr算法估计得到。每两幅图像之间的相对位置信息和相对姿态信息由2d-2d对极几何算法得到。通过使用每对图像的相对位置信息和相对姿态信息,可以构建出多边形约束,即图3b中由虚线连接的三个三角形,然后,根据每一幅图像的观测位置,即初始全局位置(在图3b中由带有向左斜线的圆圈1、2和3进行表示)和相对位姿信息(相对位置信息和相对姿态信息)能够计算出其他两个图像的可能位置(在图3b中由与带有向左斜线的圆圈1虚线连接的空白圆圈2和3,与带有向左斜线的圆圈2虚线连接的空白圆圈1和3,以及与带有向左斜线的圆圈3虚线连接的空白圆圈1和2进行表示)。最后,这三个位置的重心被用来估计图像的位置(在图3b中由带有向右斜线的圆圈进行表示),即优化过后的全局位姿信息,也就是说通过相对位姿信息对初始全局位姿信息进行优化,得到优化全局位姿信息。其中,图3中所示的带有横线的圆圈为图像的真实位置,可以看出,经过优化,优化全局位置信息更接近真实位置,也就是说精确度更高。

如前文所述,图像的初始全局位置信息和初始全局姿态信息由算法posenet或pdr得到。然而,在实际应用中,由于图像数据和惯性传感器存在数据噪音,这种方式获得的图像的位置存在误差,甚至误差可达几米。为了提高图像位置信息的精度,本实施例通过将上述问题转换为最大似然估计问题,来优化图像的位置精度。

图4a是根据一示例性实施例示出的另一种室内语义地图的自动化构建方法的流程图;本实施例利用本公开实施例提供的上述方法,以如何基于所述场景图,计算语义方向为例并结合图4b进行示例性说明,如图4a所示,包括如下步骤:

步骤401、确定拍摄图像的摄像头的视角及焦距。

步骤402、基于视角及焦距,计算图像中的实体与摄像头之间的语义方向。

本实施例中,假定实体p和摄像头c之间的语义方向为1的方向。如图4b所示,该算法的目标是计算foe,即1。给定摄像头的视角aob为,焦距为d。那么线段ab的长度可基于图像的像素计算得到。因此,1可以通过下列方法进行计算:

首先,线段od的长度为

然后,计算2和3:

最后,1=2+3。

从而,计算得到实体和摄像头之间的语义方向。

图5a是根据一示例性实施例示出的另一种室内语义地图的自动化构建方法的流程图;本实施例利用本公开实施例提供的上述方法,以如何基于所述场景图,计算语义方向为例并结合图5b进行示例性说明,如图5a所示,包括如下步骤:

步骤501、基于优化全局位置信息、优化全局姿态信息、以及各摄像头与实体之间的语义方向估计位置区域。

步骤502、基于各估计位置区域的交集确定图像中的实体在室内语义地图中的位置信息。

本实施例中,通过下述公式4的优化方程l来确定估计位置信息:

公式4

其中,为图像的数量,为图像的图像方向,即初始全局姿态信息,为图像在图像坐标系下得到的图像方向,即根据初始全局姿态信息及相对姿态信息得到的估计姿态信息,为实体和摄像头之间的方向(由和语义方向计算得到),为实体和摄像头之间的估计方向(由.和语义方向得到)。

由于公式4是非凸的,凸优化方法并不能够直接来求解该方程。因此,本实施例提出了一种启发式方法来计算语义位置。该方法的核心思想是确定由1和三个摄像头()确定的区域的交集,即图5b中的区域ii。具体而言,实体和摄像头之间的语义方向已在上一步骤中计算得到,从而可以估计出每一幅图像和语义方向组成的区域,在图5b中即每个摄像头上的两条虚线组成的角的方向,其中区域指的是实体v0可能在室内空间的位置。例如对于摄像头c1,区域i为所估计出的实体v0可能在室内空间的位置。之后,通过选取使得公式4最小化的区域作为实体的估计位置区域。最后,区域的重心位置即为实体在室内语义地图上的估计位置。

通过上述方法能够获得实体在室内语义地图上的精确位置,并且该算法能够有效滤除噪声点,并且对室内场景的结构和纹理特征是鲁棒性的。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1