一种基于地理位置信息的场景检索方法

文档序号:8473052阅读:577来源:国知局
一种基于地理位置信息的场景检索方法
【技术领域】
[0001] 本发明涉及一种基于地理位置信息的真实场景检索方法,是属于数字图像处理中 的图像检索和识别领域。
【背景技术】
[0002] 场景检索和识别是数字图像处理中的一个重要研宄领域,研发人员提出了很多方 法来进行场景的识别。目前主流的识别方法是基于内容的场景识别方法,其通过提取图像 中的特征,将图像表示成特征向量,并选择合适的分类器进行识别。已有基于内容的场景识 别方法根据提取的特征不同可以分为两类。第一类方法为基于底层特征方法,该类方法提 取图像的底层特征来表示图像,比如:颜色直方图等。第二类为基于语义特征的方法,该类 方法又可以分为:基于局部特征的方法和基于部件的方法。基于局部特征的方法是当前效 果最好的方法。该类方法将图像表示成局部特征(SIFT、SURF等)的集合,然后通过局部特 征匹配,利用分类器进行分类。这类方法都需要构建场景识别分类器,也就是需要预先定义 场景的类别,然后通过训练得到针对不同类别的分类器。所以这些方法很难应用于一般的 场景识别应用需求,比如:辅助导航,场景信息检索等。不同于以往的方法,本专利发明了一 种面向通用室外场景的基于检索的场景识别方法。发明的方法通过图像检索技术检索出与 查询图像相似的图像,然后采用投票法来确定场景信息。
[0003] 另外,随着智能手机的普及,以及GPS信息的广泛应用,获取图像拍摄时的地理信 息也变得容易。智能手机的地理位置信息已经被广泛应用于很多领域,最常用的就是导航 系统。近年来,也有研宄人员提出通过提取拍摄场景时的地理位置信息来提高场景图像检 索的准确率和效率。基于智能手机的地理位置信息的场景检索和识别技术可应用于室外目 标检索和辅助导航等应用领域。室外目标检索对旅游景点中特定的目标查询具有非常重要 的实际应用价值。比如,登泰山的路上有很多的石刻,如果不知道其历史,就可以用智能手 机的拍照功能拍摄目标图像,并通过基于场景图像的检索技术来查询感兴趣目标的相关信 息,便于用户获得更好的旅游体验,并提高旅游景点的服务质量。此外,当前的地图需要用 户确定方向,并人工确认当前目标是否为目的地。这些确认工作对于那些对周围环境不熟 悉的用户来说是比较困难的。如果能够通过场景图像的检索和识别技术自动地确认场景目 标是否与用户的目的地一致对当前的地图系统具有重要的辅助意义。本发明方法的场景图 像检索和识别技术可以较好的满足这类应用技术需求。
[0004] 不同于以往的基于内容的图像检索和识别方法,本发明方法是一种基于地 理信息的场景图像检索技术。近年来,已有一些研宄工作在基于地理信息的图像检 索方面进行开展,提出了一些方法,比如:GabrielTakacs提出的检索方法(Gabriel Takacs,etc."Outdoorsaugmentedrealityonmobilephoneusingloxel-based visualfeatureorganization,"InProc.ofthe1stACMinternationalconference onMultimediainformationretrieval,2008,Vancouver,BritishColumbia,Canada)〇该 方法通过地理信息构建图像的SURF特征集合,查询时通过匹配特征点和几何验证实现图 像的检索。这种基于图像特征点匹配的方法是用特征点描述子来表示图像,如:SIFT描述 子、SURF。这种方法对光照、旋转等具有较好的鲁棒性,在进行图像匹配的时候匹配效果相 对比较好。但是,由于每个特征点由描述子向量来表示,而每一幅图像又有几百甚至几千个 特征点,这样对于一个包含大量图像的数据集来说,它们在存储需求和计算速度上都是一 个不小的挑战。因此,有研宄者将局部特征描述子进行量化,提出基于视觉词汇的方法。其 不再是用多个特征点描述子来描述一幅图像,而是将特征点描述子量化为一个视觉词汇, 视觉词汇类似于文本中的字。然后将图像表示为一个视觉词汇的集合,这不仅减少了存储 需求,也提高了处理的速度。但是这种方法也存在明显的缺点,就是量化导致的视觉词汇区 分能力变弱,并且缺少空间信息,所以需要进行进一步的空间验证。本发明方法是在已有工 作的基础上,针对当前存在的问题提出的新的融合地理信息和视觉词汇实现的快速场景图 像检索的方法。

【发明内容】

[0005] 本发明的目的主要是针对现有室外场景检索的应用需求以及存在的效率问题,提 出了一种基于地理信息的场景检索方法。本方法能够实现快速准确的场景检索和识别功 能。
[0006] 一种基于地理位置信息的场景检索方法,具体包括如下步骤:
[0007] 步骤1、在索引过程中对场景图像的地理信息和全局描述子进行索引,并构建空间 4叉树索引结构;
[0008] 步骤2、在查询过程中通过层级验证方式确定相似图像集,并通过投票方式和相似 图像的信息来获得待查询的场景图像的信息。
[0009] 步骤1所述的全局描述子的构建具体如下:
[0010] 1-1.提取场景图像的局部特征点,将场景图像表示成局部特征的集合;
[0011] 1-2.根据视觉词汇词典将局部特征点的描述子进行量化,得到对应的视觉词汇;
[0012] 1-3.将提取的视觉词汇集合投影到随机投影矩阵上得到场景图像的全局描述子。
[0013] 步骤1所述的构建空间4叉树索引结构,采用区域中目标的水平和垂直投影直方 图的波谷进行分割,具体分割如下:
[0014] 首先将地图上感兴趣区域分割成相同的单元格;
[0015] 然后通过单元格中图像的数量确定其值;统计所有图像在每个水平和垂直位置的 数量,从而在左边和下边分别形成水平直方图和垂直直方图;
[0016] 最后通过滑动平均进行平滑,平滑窗口大小为3,其平滑的权重分别 为:[0. 2,0.6,0. 2]。通过H(i)>H(i-l)并且H(i)>H(i+l)来判断是否为波峰,迭代平滑直 到直方图为双峰形状,计算双峰之间最低点的位置作为分割位置,如果迭代平滑无法得到 双峰形状则直接采用均匀划分方法划分为四个区域。
[0017] 步骤2所述的层级验证方法采用三层特征进行验证,先后进行地理信息约束、全 局描述子验证、视觉词汇空间验证三个验证过程。
[0018] 所述的全局描述子通过将视觉词汇集合投影到一个随机生成的由-1和1构成的 投影矩阵上,并对投影结果进行二值化,得到有0、1序列表示的全局描述子,具体如下:
[0019] 随机生成一个由1和-1组成的K行M列的随机投影矩阵P,其中K表示全局描述 子长度,M表示词典中视觉词汇数;所有视觉词汇集合都在该生成的投影矩阵上进行投影; 然后根据词典中的视觉词汇是否在图像中出现将视觉词汇集合表示成M维的向量形式V_ Img;若出现则对应位置为1否则为O;然后根据V_Result=V_ImgXPjfV_Img投影到P 上,得到长度为K的特征向量V_Result;最后根据V_Result向量中元素的正负来进行量 化,若元素大于等于〇则赋值为1,若小于〇则赋值为〇,从而形成一个〇, 1序列;该〇, 1序 列为图像视觉词汇集合的全局描述子。
[0020] 所述的地理信息约束验证过程中对查询图像的经炜度进行扩展,具体如下:
[0021]设查询图像的经炜度为(Lon_l,Lat_l),先将点(Lon_l,Lat_l)扩展成4个 点:(Lon_l_Dist,Lat_l_Dist),(Lon_l_Dist,Lat_l+Dist),(Lon_l+Dist,Lat_l_Dist), (Lon_l+Dist,Lat_l+Dist);该 4 个点分别对应以(Lon_l,Lat_l)为中心、以 2XDist为边 长的正方形区域。将扩展后的四点在空间4叉树下进行近邻查询,然后合并查询到的候选 图像集,然后再利用欧式距离选择距离最近的若干幅图像作为候选图像。
[0022] 所述的全局描述子验证采用汉明距离来验证全局描述子的一致性。
[0023] 场景图像的局部特征点采用SIFT、SURF或MSER进行提取。
[0024] 所述的视觉词汇空间验证采用随机抽样一致算法进行验证。
[0025] 本发明有益效果如下:
[0026] 本发明是在图像地理信息的基础上,通过地理信息和空间索引结构,高效的过滤 掉了大量的非相关图像。而基于全局描述子的验证通过汉明距离实现,其计算复杂度也非 常低。而视觉词汇的量化也有助于提高视觉词汇空间验证的效率;视觉词汇的空间验证提 高了图像匹配的准确率。
【附图说明】
[0027] 图1是表示了基于地理位置信息的场景检索方法的流程图。
[0028] 图2是四叉树空间索引结构。
[0029] 图3是基于区域中目标的水平和垂直投影直方图分割区域样例图。
[0030] 图4(a)是一幅空间验证前的匹配情况。
[0031] 图4(b)是空间验证后的匹配请况。
[0032] 图5(a)是一幅测试图像。
[0033] 图5 (b)是在地理信息约束的基础上得到的候选图像集。
[0034] 图5 (C)是在地理信息约束的基础上进行全局描述子验证的结果。
[0035] 图5 (d)是在地理信息约束的基础上采用全局描述子验证和视觉词汇空间验证的 结果。
【具体实施方式】
[0036] 根据参考附图详细介绍本发明的实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1