一种路网上空间关键字检索的方法

文档序号:6636420阅读:199来源:国知局
一种路网上空间关键字检索的方法
【专利摘要】本发明设计了并实现了路网上的高效空间关键字检索的方法,共提出三个方法,SNE,FITG和SG-TRee,其中SG-Tree的方法性能最好,是本次发明的主要方法。具体如下,SNE方法通过对路网上的每条边建立对应的签名,利用Dijkstra算法,通过网络扩展的方式遍历网络,效率较低。FITG方法结合了新颖的空间索引和文本倒排索引,根据先文本后空间的剪枝原则串行执行查询过程,效率提升很大。但是依然有不足之处,因此,我们又利用了空间索引和文本索引签名技术,提出了一个混合的索引SG-Tree,该索引通过对空间索引G-Tree的每个结点都建立的相应的签名,这应可以高效的检查该结点是否包含符合查询的目标,可以同时从空间和文本两个维度进行剪枝,极大的提高了查询效率。
【专利说明】一种路网上空间关键字检索的方法

【技术领域】
[0001] 本发明属于空间文本索引领域,具体涉及一种利用空间索引树实现路网上的高效 的空间关键字检索的方法。

【背景技术】
[0002] 随着空间定位技术的飞速发展,移动设备(e. g,smartphones)在我们的日常生活 中越来越普及,基于位置的服务也随之快速发展,其与人类的生活也越来越紧密。在日常生 活中,每天通过移动设备会产生大量的带有地理位置标签的文本数据。例如,在基于位置搜 索服务中(e.g,Google Maps, Yahoo ! Maps etc)提供了一些目标位置信息并且带有简短 的文本描述,人们可以通过这些应用程序发布带有地理位置的文本信息,其中涉及到空间 关键字查询的技术。
[0003] 当前的空间关键字查询大多是在欧氏距离空间的基础上,然而,对于这些巨大的 空间文本数据库,一个关键的挑战在于如何建立有效的查询处理机制能实时响应用户的查 询需求。以往的查询方法大都是在欧氏距离空间下。在现实生活中,人们的日常行为受到 路网的约束,目标之间的欧氏距离不同于路网中的实际距离,在路网上的两个位置之间的 网络距离可能比他们之间的欧氏距离大的多。比如,位于河流两岸的两个目标之间的欧氏 距离远远小于它们之间的实际网络距离,这就导致在欧氏空间下得到的结果在实际中可能 并不相近,因此,我们需要新的查询处理方法,能快速找到路网上距离最近且符合文本描述 的目标,如图1所示。
[0004] 以往的空间关键字的研究主要是集中在欧式空间下,并不能直接应用与路网上。 而传统的路网上的空间关键字查询方法是通过网络扩展的方式,时间和空间复杂度较高。 近年来,有部分工作研究路网上的空间关键字查询,虽然也取得了一些成果,但是这些技术 并不能高效的实现路网上空间关键字查询技术,效率低下。例如,在论文Top k Spatial Keyword Queries On Road Networks中,作者第一次提出路网上的空间关键字查询,论文中 提出一种层次结构的空间索引,并对路网建立一个空间层次树,利用层的优势实现高效剪 枝。但是,该方法和其他方法都存在一个共同的缺点,即都不适合复杂或者路网数据非常的 大的情况。它们的扩展性较差,时间空间复杂度较高。
[0005] 鉴于上述原因,本发明利用一种新颖的空间索引结构GTree,结合相应的文本索引 技术,提出一种1?效的索引结构实现路网上的空间关键字检索。


【发明内容】

[0006] 本发明提出路网上空间关键字检索的方法,其中SG-Tree和FITG方法是本次发明 的主要方法,性能比较好,而SNE则效率较为低下,其中SNE方法,对路网上的每条边都建立 对应的签名,并通过Dijkstra算法扩展遍历网络。
[0007] 优选的,本方法利用CCAM结构存储路网以及顶点信息,并且为每条边按照空间文 本信息建立对应的签名,方便查询的过程的检测该边上是否包含查询关键字。
[0008] 本发明还提供一种路网上空间关键字检索的方法FITG,该方法将空间索引和文本 倒排索引结合,并根据先文本剪枝,后空间剪枝的原则串行执行查询过程。
[0009] 优选的,将在空间和文本索引分离开,以两个独立的索引相结合串联执行,在文本 上展开剪枝能力。
[0010] 本发明还提供一种路网上空间关键字检索的方法SG-Tree,该方法对空间索引中 的每个节点建立各自的签名,在查询过程中,判断树上的节点签名是否匹配查询签名,若不 匹配,则剪掉对应的根节点及其子节点。
[0011] 优选的,对空间索引中的每个节点,都建立一个距离矩阵以存储边界点之间的最 短距离,从而计算两端之间的最短路径,筛选出候选集后,对每个候选集建立当前列表。
[0012] 优选的,本方法采用距离优先算法,将候选集的都按照距离查询位置的远近的顺 序进行排序,优先计算距离查询位置较近的目标,其中,所述方法利用文本和空间两个维度 同时进行剪枝。
[0013] 本发明提出检索方法中,SG-Tree方法效率最高,是本发明的主要方法,该方法将 空间索引和文本索引结合,提出了非常优秀的索引结构,能够同时实现空间和文本上的剪 枝,极大的提升了查询效率。

【专利附图】

【附图说明】
[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0015] 图1是现有技术中路网的空间文本对象示意图;
[0016] 图2是本发明较佳实施例提供的SG-Tree的模型图。

【具体实施方式】
[0017] 为更好的理解本发明,下面首先对相应术语进行说明。
[0018] 一、路网
[0019] 此处使用一个权重图G表示路网(即road network)。G = (V,E, W),其中V表示 road network中的所有顶点的集合,E表示所有的边的集合,W是G中所有边的权重的集合, 即顶点对之间的距离。如u GV则说明u是6中的road network中边的交集或者终点。 而(u, V) G E则表示(u, V)是路网中的某一路段,而对应的w",v则表示边(u, V)对 应的权重,即边上的距离。其中,I I u,V I I表示边(u,V)上的最短距离即I I u,V I I = W",v,而查询 q 到目标 〇 之间的最短距离为 I I q, 〇 I I = min(| I q, U I | + | |〇,U I I,I I q, V I I + l〇, v I I)。
[0020] 二、图分割
[0021] 给定一个图G = (V,E),其中V是顶点的集合,E是边的集合,如果现在存在一个集 合G= {gi,g2--gf},其中gf = (Vf, Ef),满足如下条件,则称gf为G的一个子图:
[0022] (HgUi = V
[0023] (2). fori ^ j, U:' l!
[0024] (3) VulVefzi, if ( u , v) GE, then ( u , v ) G Ei
[0025] 三、边界点
[0026] 对于原始图G的一个子图gi,如果存在一个顶点u G Vi,假如存在边(u,v ) G E 并且则说明u是一个边界点。通常用一个集合B(gi)来表示该子图gi的边界点集 合。因为在原始图中,有些顶点之间原来是连通的,但是经过图分割之后,被分散在不同的 子图当中,这样原来某些存在原图当中的边则不存在了,但是如果需要计算两个子图之间 的距离,则两个子图的边界点之间的最短距离即为两个子图的最短距离。
[0027] 四、空间文本对象
[0028] 通常用2维平面中的一个带有坐标的点,并且含有一个用来描述它的关键字集合 来表示一个空间文本对象。例如〇 = {loc, term},其中Ioc表示位置,loc. Iat和loc. long 分别表示经纟韦度坐标,term表示一个描述该文本的关键字的集合term = It1, t2--tf},简 单的来说,每个目标都落在图G相应的边上(路段)。
[0029] 五、空间关键字查询
[0030] 根据上述空间文本对象定义,使用D来表示数据库中的所有空间文本为: D-{〇 {aloc.o.tcrmj |
[0031] 空间关键字查询在二维空间上找到k个距离查询的查询位置最近的对象, 根据它们与查询之间的相关性得分sc 〇re(q,〇)进行排名,利用公式SC〇re(q,〇)= tS5sPatiaI(IO) + tKext(CLO)进行计算。其中tKext(IO)是文本相关性得分,此处 tKext(IO) =1,由于object要求包含查询的所有关键字,ctspatial( q,〇)为文本的空间相关性得分。最 后返回结果集》,,结果集满足条件= ^
[0032] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0033] 本发明较佳实施例提供一种路网上空间关键字检索的方法,包括:对路网上的每 条边都建立对应的签名,并通过Dijkstra算法扩展遍历网络。
[0034] 具体而言,在路网上做空间关键字查询的基本方法是利用网络扩展的方式。此处 基于网络扩展的思想给出一个基本的方法Signature based Network Expansion,即SNE方 法。其中对路网上的每条边都建立对应的签名(Signature),提高文本剪枝效率。于此,所 述SNE方法是通过Di jkstra算法扩展遍历网络。
[0035] 在SNE索引结构中,本发明采用了非常流行的connectivity-clustered access method(即CCAM)数据结构来存储路网G以及顶点信息,并且为每条边按照空间文本信息 建立对应的签名,方便查询的过程的检测该边上是否包含查询关键字。同时,为路网上的每 个结点都建立领结链表,并对每个顶点进行编码后,将所有顶点按其编码大小进行排序。于 此,使用Z-ordering对顶点进行编码。同时,使用了 two-way-patition方法,这样做的优 势是可以实现局部访问,降低了 1/0消耗。
[0036] 另夕卜,本实施例还建立Network R-tree用于存储节点,以及相应的边上 polyline。实际上,只有polyline的MBR被存储在NetworkR-tree上,其详细的信息被存 储在Ployline文件中。于此,为了避免大量无关的对象被加载进来,很多无用的边可能在 遍历的过程中大量浪费时间,因此采用Signature的技术组织对象。使用I (e, term)来表 示每条边的签名,假如I (e, term) = 1则说明边e上至少存在一个对象包含关键字term,否 则不存在。这样在进行网络扩展的时候,至少包含一个关键字的对象才会被加载进来,大大 减少了计算时间,提高查询效率。
[0037] 下面是SNE算法不例。
[0038]

【权利要求】
1. 一种路网上空间关键字检索的方法,其特征在于,包括:对路网上的每条边都建立 对应的签名,并通过Dijkstra算法扩展遍历网络。
2. 根据权利要求1所述的方法,其特征在于,利用CCAM结构存储路网以及顶点信息,并 且为每条边按照空间文本信息建立对应的签名,方便查询的过程的检测该边上是否包含查 询关键字。
3. -种路网上空间关键字检索的方法,其特征在于,包括:将空间索引和文本倒排索 引结合,并根据先文本剪枝,后空间剪枝的原则串行执行查询过程。
4. 根据权利要求3所述的方法,其特征在于,将在空间和文本索引分离开,以两个独立 的索引相结合串联执行,在文本上展开剪枝能力。
5. -种路网上空间关键字检索的方法,其特征在于,包括:对空间索引中的每个节点 建立各自的签名,在查询过程中,判断树上的节点签名是否匹配查询签名,若不匹配,则剪 掉对应的根节点及其子节点。
6. 根据权利要求5所述的方法,其特征在于,对空间索引中的每个节点,都建立一个距 离矩阵以存储边界点之间的最短距离,从而计算两端之间的最短路径,筛选出候选集后,对 每个候选集建立当前列表。
7. 根据权利要求5所述的方法,其特征在于,采用距离优先算法,将候选集的都按照距 离查询位置的远近的顺序进行排序,优先计算距离查询位置较近的目标,其中,所述方法利 用文本和空间两个维度同时进行剪枝。
【文档编号】G06F17/30GK104376112SQ201410708031
【公开日】2015年2月25日 申请日期:2014年11月27日 优先权日:2014年11月27日
【发明者】赵朋朋, 方海林, 许佳捷, 周晓方 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1