一种基于投票平滑的单张图片地理定位方法和系统与流程

文档序号：18465150发布日期：2019-08-17 02:23阅读：242来源：国知局

本发明涉及图像定位技术领域，尤其涉及一种基于投票平滑的单张图片地理定位方法。

背景技术：

随着互联网的飞速发展，网络中存储了亿级以上的图片和视频，它们涉及社会发展的各个方面。尽管现在的相机和移动设备带有gps装置，但大量的公开媒体依然缺乏地理标签信息。国外的twitter和instagram网站上，大约只有2％和25％的媒体带有地理标签。

近来，有工作提出了基于最近邻特征匹配的大规模街景图片地理定位方法。zamir(注：此为人名)为每个查询特征检索第一最近邻，对地理位置图片的投票值进行高斯平滑，使用启发式投票机制选择与查询图片匹配特征数最大的参考图片作为最佳匹配。在接下来的工作中，该作者把第一最近邻扩展到多重最近邻，使用广义最小团对多重最近邻中的每个查询特征选择具有全局一致性的局部最优最近邻，然后使用启发式投票机制来选择匹配图片。最新的工作采用两个步骤，即基于主导集的特征匹配和后处理。zemene(此为人名)对多重最近邻进行聚类，用主导集(dsc)寻找具有全局一致性的局部最优解，进而用启发式投票机制初步确定匹配图片；在后处理步骤(dscwithpost-processing)中，他们用受限主导集从多个局部最优解中选择最终结果。

在基于最近邻特征匹配方法中，由于方法特性决定，查询图片的匹配图片只能是最近邻对应的参考图片，本发明将这些参考图片作为候选图片。后面两个方法(zamir和zemene的方法)均是在多重最近邻中寻找满足全局一致性的点，其求解算法是np-hard问题且所求结果均是局部最优解。直观地，满足要求的最近邻在空间位置上高度紧密，并且它们对应的一张或多张候选图片在地理位置上呈现相邻关系。在zamir最早的工作中，他采用图片的地理gps作为全局特征来平滑不同地理位置对应图片的投票数，但是全局特征也可以为其他图片全局特征，故其表达方式可以进一步规范化。

技术实现要素：

为了解决图片地理定位的匹配速度慢、所求结果是局部最优解和定位精度低的问题，本发明公开了一种基于投票平滑的单张图片地理定位方法，具有匹配速度快、所求结果是全局最优解和算法复杂度低的特点。

本发明解决其技术问题所采用的技术方案是：

s1、首先，从查询图片中提取局部sift描述子作为查询特征；s2、其次，对每个查询特征在预处理建立的数据索引中检索部分最近邻并修剪不显著的查询特征以及对应的最近邻；s3、再次，把所有最近邻对应的参考图片作为候选图片，计算每个候选图片与查询图片的匹配特征数；s4、然后，寻找候选图片一定地理范围内的其它候选图片，将它们所有的特征数之和视作当前候选图片与查询图片的匹配约束特征数；s4、最后，采用投票机制选择最大约束特征数的候选图片作为查询图片的最佳匹配。

优选地，具体步骤可包括：

s2具体包括：修剪多重最近邻。令q＝{qi|i＝1，2…n}表示从查询图片中提取的n个特征描述子,作为查询特征。令υi·表示查询特征qi对应的最近邻,满足||ξ(qi)-ξ(υij)||≤||ξ(qi)-ξ(υi(j+1))||，其中υij表示qi的第j个最近邻；ξ(·)表示操作算子，返回特征点的特征描述子；||·||表示度量算子，计算描述子之间的距离。本发明通过检查第s个最近邻和第1个最近邻的相似程度，以移除非显著的查询特征以及它们对应的最近邻。定义若θi＞0.8，则移除查询特征qi以及对应的最近邻，其中s设置为10(s是大于1的整数，在发明专利的具体实施例中，最佳取值为10；当参考特征数量变大时，排序靠前的最近邻的相似性会增加，本发明人研究发现s取10较为适合)。

s3具体包括：计算匹配特征数。令表示修剪步骤后查询特征的数量，k表示每个查询特征对应的最近邻的数量。由预处理的步骤“建立局部特征点与其所提取街景图片的映射表”这句话可知，每个最近邻唯一对应一张参考图片，这里将所有最近邻对应的参考图片表示为其中i(·)表示操作算子，返回最近邻对应的参考图片。这里采用简单的遍历算法，剔除重复的图片，得到唯一的参考图片序列并将它们称为候选图片。

令求出的候选图片序列为其中l表示候选图片的数量。算法2给出了多重最近邻中每个候选图片与查询图片的局部特征匹配个数的求解方法：给定候选图片遍历q中的每个查询特征，判断qi对应的前k个nn里是否有nn对应的参考图片是若存在，则nm+1；若无，则进入下一个查询特征qi+1。

步取s4具体包括：求和约束特征数。这里将这些地理距离较近的多张候选图片作为一个匹配整体，建立它们与查询图片的匹配关系。给定第i张候选图片，定义其与查询图片的约束特征数为其中ρ(·)表示操作算子，返回参考图片的全局特征。这里使用候选图片的gps位置作为其全局特征，r称为约束半径。本文选择最大的约束特征数对应的候选图片作为查询图片的最佳匹配。

更进一步地，所述预处理过程用于提取街景图片的局部特征点作为参考特征集，建立局部特征点与其所提取街景图片的映射表，将所述参考特征集建立成索引结构；预处理过程具体步骤包括：

a1：将街景图片进行压缩；

a2：对街景图片提取局部特征点，将其作为参考特征集，同时建立每个局部特征点和所提取街景图片的映射表；

a3：将所述参考特征集建立成索引结构。

更进一步地，步骤a2中，所述特征点是sift、surf或orb等特征描述子。

更进一步地，步骤a3中，所述索引结构是用相似性搜索工具faiss或快速最近邻搜索库flann将其建立成索引结构。

本发明的有益效果是：本发明的图片地理定位方法建立了所有候选图片与查询图片的匹配关系，匹配结果是全局最优解，同时算法复杂度低，计算所有候选图片的约束特征数的最大复杂度为o(n²),其中n为提取的查询特征个数。在zamir公开的测试数据集上，本发明实施例(cgv)比基于dscwithpost-processing的方法匹配准确度提高了2％，定位精度更高，同时方法的匹配速度是基于dsc方法速度的32倍以上。

附图说明

图1是本发明实施例基于投票平滑的单张图片地理定位方法流程示意图；

图2是本发明实施例一张查询图片定位的示意图；

图3是本发明实施例公开测试数据集的匹配正确率；

图4是本发明实施例抽取的4张测试图；

图5是本发明实施例方法(cgv)与基于dsc方法的匹配时间比较图；

图6是本发明实施例中所用到的算法1(遍历算法)流程图；

图7是本发明实施例中所用到的算法2(多重最近邻中每个候选图片与查询图片的局部特征匹配个数的求解方法)流程图；

图8是本发明实施例中所用到的算法3(约束特征数的求解方法)流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，基于大规模街景数据的图片地理定位方法，它包括预处理部分，以及实时处理部分。

对街景数据集，这里采用了zamir公开的超过102k带有gps标签的google街景图片，测试数据集采用了从flickr、panoramio和picasa图片分享网站上的地区用户随机上传的644张带有gps标签的图片。本具体实施例在服务器上ubuntu环境下用python2.7脚本语言下执行，其中服务器内存至少需要100g；

如图2所示为一张查询图片定位过程中所需要的主要步骤的形象化示意。

其中预处理部分是提取街景图片的局部特征点作为参考特征集，建立局部特征点与其所提取街景图片的映射表，将所述参考特征集建立成索引结构；具体步骤如下：

a1：将街景图片进行0.7等比例压缩；

a2：提取所有街景图片的特征点，sift特征总数为125077125，将其作为参考特征集，同时建立每个局部特征点和所提取街景图片的映射表，在变通实施列中可以使用surf特征点；

a3：将参考特征集用相似性搜索工具faiss将其建立成索引结构，在变通实施列中可以使用快速最近邻搜索库flann。

其中实时匹配是从查询图片中提取局部sift描述子作为查询特征；其次，对每个查询特征在预处理建立的数据索引中检索前最近邻并修剪不显著的查询特征以及对应的最近邻；再次，把所有最近邻对应的参考图片作为候选图片，计算每个候选图片与查询图片的匹配特征数；然后，寻找候选图片一定地理范围内的其它候选图片，将它们所有的特征数之和视作当前候选图片与查询图片的匹配约束特征数；最后，采用投票机制选择最大约束特征数的候选图片作为查询图片的最佳匹配。具体步骤如下：

b1：修剪多重最近邻。令q＝{qi|i＝1，2…n}表示从查询图片中提取的n个特征描述子,作为查询特征。令υi·表示查询特征qi对应的最近邻,满足||ξ(qi)-ξ(υij)||≤||ξ(qi)-ξ(υi(j+1))||，其中υij表示qi的第j个最近邻；ξ(·)表示操作算子，返回特征点的特征描述子；||·||表示度量算子，计算描述子之间的距离。本发明通过检查第s个最近邻和第1个最近邻的相似程度，以移除非显著的查询特征以及它们对应的最近邻。定义若θi＞0.8，则移除查询特征qi以及对应的最近邻，其中s设置为10。

b2：计算匹配特征数。令表示修剪步骤后查询特征的数量，k表示每个查询特征对应的最近邻的数量。由预处理的步骤可知，每个最近邻唯一对应一张参考图片，这里将所有最近邻对应的参考图片表示为其中i(·)表示操作算子，返回最近邻对应的参考图片。这里采用简单的遍历算法，剔除重复的图片，得到唯一的参考图片序列并将它们称为候选图片，见图6所示算法1，其伪代码示例如下：

令求出的候选图片序列为其中l表示候选图片的数量。图7所示算法2给出了多重最近邻中每个候选图片与查询图片的局部特征匹配个数的求解方法：给定候选图片遍历q中的每个查询特征，判断qi对应的前k个nn里是否有nn对应的参考图片是若存在，则nm+1；若无，则进入下一个查询特征qi+1。算法2的伪代码示例如下：

b3：求和约束特征数。这里将这些地理距离较近的多张候选图片作为一个匹配整体，建立它们与查询图片的匹配关系。给定第i张候选图片，定义其与查询图片的约束特征数为其中ρ(·)表示操作算子，返回参考图片的全局特征。这里使用候选图片的gps位置作为其全局特征，r称为约束半径。图8所示算法3给出了约束特征数的求解方法，其算法复杂度为o(l²)，由于故该步骤最大复杂度为o(n²)。本文选择对应的候选图片作为查询图片的最佳匹配。算法3伪代码示例如下：

本具体实施例中，通过步骤3可得到，有2张候选图片的约束特征数为69，故随机选择其中的一张候选图片作为查询图片的匹配图片，将匹配图片的地理位置作为查询图片的地理位置。

如图3所示，本发明和最先进方法的地理定位结果进行了比较。图中，横轴显示查询图片的匹配位置和它真实位置的误差阈值，纵轴显示测试集在误差阈值内的定位百分比。-□-曲线显示zamir方法的定位结果，他们对每个查询特征检索5个近似最近邻，用广义最小团问题(gmcp)从多重最近邻中选择具有全局一致性的特征，然后用投票机制选择最佳的参考图片。-◇-曲线显示zemene方法的定位结果，他们用主导集(dsc)从动态nn中生成多个局部最优解，然后用受限主导集(cdsc)从中选择一张最佳匹配。-○-曲线显示本发明提出方法的定位结果，其中参数最近邻k＝5、修剪特征s＝10、约束半径r＝65(m)。在300m的误差范围内，本发明(图中cgv)比基于dscwithpost-processing的方法匹配准确度提高了2％，定位精度高。

如图5所示，为显示基于cgv方法在匹配速度上的优势，以下在相同条件下比较了提出的方法和基于dsc方法的时间成本。本节随机从查询图片中提取固定数量的特征描述子，对每个查询特征检索前5个最近邻并跳过特征修剪步骤，其中dsc采用zemene工作中使用的inimdyn方法求解。图中，右边的横轴表示查询特征数量，纵轴表示基于dsc方法需要的匹配时间与本发明提出方法的匹配时间的比值。结果显示基于cgv方法比dsc方法快32倍以上，特别地，目前最先进的地理定位方法zemene提出的两个步骤(dsc和后处理，即dscwithpost-processing)，故本发明提出的cgv方法的匹配速度大大超过最先进的方法。

该方法求出的候选图片参考特征集为全局最优解，而并非dsc算法求出的局部最优解。

以上结合附图对本发明进行了详细说明，但本发明不仅仅局限于上述具体实施方式，本领域的普通技术人员根据所具备的知识，还可以在不脱离本发明宗旨的前提下做出各种变化。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张凯;邓文泉;董宇涵
技术所有人：清华大学深圳研究生院
我是此专利的发明人

上一篇：一种高效低应力电子束熔丝沉积成形方法与流程
上一篇：电子束丝束同轴熔丝沉积成形方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。