基于视觉的全自动移动终端室内定位系统的制作方法

文档序号：11384000阅读：220来源：国知局

本发明涉及一种基于视觉的全自动移动终端室内定位系统。

背景技术：

随着移动互联网的飞速发展，基于地理位置的服务在许多应用上发挥着越来越重要的作用。如今大多数定位应用都是基于全球定位系统(globalpositioningsystem，简称gps)或基站等室外定位环境，而对于人们大部分时间活动的室内环境，gps卫星信号收到混凝土等众多障碍物的阻挡导致信号严重衰减，定位精度很难达到要求。因此，方便而且精确的室内定位技术具有重要的商业价值。

而照片和视频慢慢成为了全球人们生活中不可缺少的一部分，计算机视觉技术也在近年来受到了越来越多的关注。室内场景中的视觉特征相对于传统的无线射频信号特征来说，具有更直观、更稳定的特征，而且除了相机之外不需要额外的特殊设备部署，可以广泛应用在室内商场导航导购，机器人自动送货等场景，具有广阔的商业应用前景。

现有基于计算机视觉的方法包括基于2d图像的方法以及基于3d模型的方法。基于2d图像的方法通常分为图像特征匹配与位置确定两部分，首先利用sift、surf等局部特征或颜色直方图等全局特征表示用户拍摄的图像，与图像数据库进行匹配确定用户拍摄的照片所对应的位置，接着使用罗盘或陀螺仪测量用户拍摄照片时候手机的的朝向与旋转角，构建三角定位模型确定用户位置。基于3d模型的方法通常使用sfm算法，利用一组二维图像序列构建出室内场景的三维模型。在定位阶段找到用户拍摄的2d照片特征点与3d点云匹配的对应关系，从而估算出相机姿态以及相机所在的位置

在实际场景中，现有的技术普遍存在如下几个方面的缺点：

1.基于2d图像的室内定位的用户操作很繁琐，用户对准特定的目标(roi，regionofinterest,如商场的店铺招牌等)进行拍摄，如果roi选择错误或者拍摄方向没有正对roi都会导致定位误差。同时，不能方便地移植到无人的移动设备上实现全自动定位。

2.基于计算机视觉的室内定位的定位精度很大程度上依赖于图像或特征点的匹配准确率，传统的图像匹配算法(如sift，surf，orb等)的匹配准确率不高，还有较大提升的空间。

3.基于3d模型在建立点云阶段需要大量室内场景的照片，并且定位阶段的运算量很大或者需要一些如深度摄像头之类的特定设备。

技术实现要素：

本发明提供了一种基于视觉的全自动移动终端室内定位系统，以使得装备有摄像头的设备有效地在室内场景中自动定位，并使用深度学习获得较高的图像匹配准确率，最后，使用增量构建和更新图像数据库的方式减少系统部署成本。为实现上述目的本发明技术方案如下：

一种基于视觉的全自动移动终端室内定位系统，包括：

图像数据库，从互联网获取一部分目标室内场景的图像，标注出图像中roi区域以及它们在室内地图上的坐标后构建而成；

深度学习模块，使用图像数据库训练快速区域提取卷积神经网络(fasterr-cnn)模型以及深度卷积神经网络(cnn)模型；

图像匹配模块，接收移动设备采集的视频数据，在视频中提取roi区域并对roi区域进行匹配，并根据视频的连续性针对roi序列进行过滤以提高匹配准确率；

定位模块，用于将图像匹配模块中提取的roi序列与传感器数据进行结合，考虑传感器的误差后建立优化模型估算出设备在室内场景中的位置。

一种基于视觉的全自动移动终端室内定位方法，包括以下步骤：

在离线阶段，系统从互联网获取一部分目标室内场景的图像，标注出图像中roi区域以及它们在室内地图上的坐标后构建图像数据库；

通过深度学习模块，使用图像数据库训练快速区域提取卷积神经网络(fasterr-cnn)模型以及深度卷积神经网络(cnn)模型；

在线阶段中，通过图像匹配模块接收移动设备采集的视频数据，在视频中提取roi区域并对roi区域进行匹配，最后根据视频的连续性针对roi序列进行过滤以提高匹配准确率；

通过定位模块，将图像匹配模块中提取的roi序列与传感器数据进行结合，考虑传感器的误差后建立优化模型估算出设备在室内场景中的位置。

本发明提供的基于视觉的全自动移动终端室内定位系统，通过自动在视频中自动提取roi区域实现了带摄像头设备在室内场景下的全自动定位，并获得了较高精度的定位结果。同时，利用用户定位成功的视频数据，增量构建和更新图像数据库。这种方法有效利用了大量的视频数据，降低了部署所需要的工作量，同时能及时更新数据库以应对由于装修等导致的室内场景的改变。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的不当限定，在附图中：

图1是本发明实施例系统模块设计图；

图2是本发明实施例roi区域示意图；

图3是本发明实施例关键帧提取流程图；

图4是本发明实施例roi匹配模块流程图；

图5是本发明实施例roi提取与匹配结果效果图；

图6是本发明实施例三角不等式过滤示意图；

图7是本发明实施例roi序列过滤流程图；

图8是本发明实施例定位模型示意图；

图9是本发明实施例定位模块原理图；

图10是本发明实施例聚类效果示意图；

图11是本发明实施例增量构建图像数据库模块流程图。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，在此本发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

实施例

系统总体设计及理论基础

系统由图像匹配模块、定位模块、深度学习模块、增量构建与更新数据库模块组成。首先在离线阶段，系统从互联网获取一部分目标室内场景的图像，标注出图像中roi区域以及它们在室内地图上的坐标后构建图像数据库。深度学习模块是使用图像数据库训练快速区域提取卷积神经网络(fasterr-cnn)模型以及深度卷积神经网络(cnn)模型，分别与用户图像匹配模块中的roi区域提取以及roi匹配。在线阶段中图像匹配模块接收移动设备采集的视频数据，在视频中提取roi区域并对区域进行匹配，为了提高匹配准确率，最后根据视频的连续性针对roi序列进行过滤。定位模块将图像匹配模块中提取的roi序列与传感器数据进行结合，考虑传感器的误差后建立优化模型估算出设备在室内场景中的位置。系统模块设计图如图1所示。

图像匹配模块的设计与实现

该模块主要负责接收移动设备的视频数据，并提取视频中的roi序列。其中包括三个部分，分别是关键帧提取，基于深度学习的roi匹配以及roi序列过滤。

关键帧提取部分设计与实现

在这个部分中，需要在视频中提取出关键帧以及对应的roi区域。在本系统中，视频帧中的roi区域一般为店铺招牌区域，如图2所示。关键帧定义为存在一个roi区域位于视野中间的帧。首先训练一个fasterr-cnn神经网络用于在图像中提取roi区域，fasterr-cnn输入为视频中的某一帧，输出为一个矩形区域的集合，还有这些矩形区域为roi的概率。选取满足公式(1)条件的矩形区域为roi区域：

pi>δ(1)

其中pi为举行区域i为属于roi的概率，δ为一个概率的阈值。

为了加快roi区域提取速度，考虑到视频帧与帧之间是连续而且有关联的，本专利书结合视频目标跟踪的算法kcf提出了一个关键帧选择的算法。算法流程图3如所示，首先使用fasterr-cnn提取给定帧视频中的roi区域，然后使用kcf算法跟踪这些每一个roi区域，记录他们在视频视野内所有的位置，选择出该roi区域的中心位置与视野中心距离最短的那一帧为这个roi对应的关键帧。当给定的帧的所有roi区域都找到对应的关键帧后，在kcf算法跟踪到的最后一帧开始重复上述过程，直到提取完整个视频所有roi的关键帧。得到关键帧后，记录关键帧对应的一系列roi区域以及罗盘方向读数，用于后续进行匹配以及位置的计算。

roi匹配部分设计与实现

roi匹配部分的主要工作是在数据库中找到与视频中提取出的roi区域以及它们在实际的坐标。利用图像数据库中的roi区域照片训练了卷积神经网络分类器后，每个roi在视频的每一帧出现的区域都能得到一个匹配结果。因此，需要综合考虑同一个roi在每一帧出现的区域的匹配结果来得到该roi的匹配结果。

匹配过程设计如下：假设第i个roi有ni个的矩形区域，首先第k个矩形区域的fast特征点，fast特征点越多表示该矩形区域的匹配结果对roi匹配结果的影响越大。然后按照公式(2)根据fast特征点个数计算的概率最后按照公式(3)综合计算出该roi对应数据库中第j类的概率

roi匹配模块的流程图如图4所示，匹配效果如图5所示。

roi序列过滤设计与实现

由于视频拍摄是连续的，拍摄到相邻的roi在实际地图上也应该是相邻的。因此，可以过滤一部分可能存在的匹配错误的结果，提高匹配准确率。roi序列过滤分为两步，首先过滤不满足公式(4)的roi区域ri，其中ò为距离差的阈值。

|ri-1ri|+|riri+1|-|ri-1ri+1|＜ò(4)

该约束条件的示意图如图6所示，虚线部分为室内地图的一部分，a、b、c分别为三个相邻的店铺，他们之间满足|ab|+|bc|-|ac|＜ò的条件。然后计算出可能的最长roi序列，与视频中提取出的roi序列进行比较选取最长公共子序列为roi序列过滤结果。

roi序列过滤的流程图如图7所示。

定位模块的设计与实现

功能和结构设计

已知拍摄的其中两个roi的坐标p⁽¹⁾和p⁽²⁾，以及拍摄的时候面对他们的罗盘读数θ1和θ2，可以通过如图8所示模型进行定位。所示模型进行定位。而视频中可能提取到roi序列中有三个或者更多的roi，每两个roi都可以确定一个设备所在的位置。但由于罗盘读数往往存在误差，每两个roi确定的位置可能不唯一。因此本专利书提出一个方法，考虑到罗盘读数的误差以及各个roi组合所确定的位置，综合得到一个误差更小的定位结果。

如图9所示为定位模块的原理图。所示为定位模块的原理图。首先假设观测每个roi的时候罗盘都有误差δθ，然后计算出每个roi组合所确定的位置li,j，以及它们的平均位置l，通过遗传算法调整δθ的值，使得公式(5)所表示的误差函数j(δθ)最小，此时平均位置l即为最终设备的定位结果。

增量构建图像数据库模块的设计与实现

构建图像数据库往往需要较大的工作量，本专利书提出了一个增量构建图像数据库的方法，利用用户上传的定位成功的视频，找出在数据库中没有的roi并把这些roi的位置与矩形区域图像更新到数据库中，能够使得数据库得到及时的更新和维护，使定位系统更加稳定。

首先，需要对一段时间内的多个视频中提取出的矩形区域进行聚类，找到在不同的视频中属于同一个roi的矩形区域。聚类过程为先使用googlenet神经网络提取矩形区域的高维深度特征，然后对深度特征进行meanshift聚类，聚类的结果如图10所示，每个矩形区域都来自不同的视频片段，属于同一个roi的矩形区域被划分到了同一类里。接着使用上述定位模块中的定位算法计算出roi在地图中的坐标，如果该坐标与某一个已有的roi坐标距离很近，那可能是那个roi有了装修等情况导致图像的变化，那么把新的矩形区域图像更新到数据库中替换原有的图像，否则，把得到的roi坐标与矩形区域图像作为一类加入到数据库中。最后数据库更新完毕后需要重新训练图像分类模块中的训练神经网络分类器。

增量构建图像数据库模块的流程图如图11所示。

本发明提出了基于视频的室内定位系统，通过自动在视频中自动提取roi区域实现了带摄像头设备在室内场景下的全自动定位，并获得了较高精度的定位结果。同时，利用用户定位成功的视频数据，增量构建和更新图像数据库。这种方法有效利用了大量的视频数据，降低了部署所需要的工作量，同时能及时更新数据库以应对由于装修等导致的室内场景的改变。

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时，对于本领域的一般技术人员，依据本发明实施例，在具体实施方式以及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宁;李明宽;牛群;刘畅
技术所有人：中山大学
我是此专利的发明人

上一篇：一种英语学习机的制造方法与工艺
上一篇：一种大学物理教学信息展示辅助装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。