一种路网上空间关键字检索的方法

文档序号：6636420阅读：199来源：国知局

一种路网上空间关键字检索的方法
【专利摘要】本发明设计了并实现了路网上的高效空间关键字检索的方法，共提出三个方法,SNE,FITG和SG-TRee,其中SG-Tree的方法性能最好,是本次发明的主要方法。具体如下，SNE方法通过对路网上的每条边建立对应的签名，利用Dijkstra算法，通过网络扩展的方式遍历网络，效率较低。FITG方法结合了新颖的空间索引和文本倒排索引，根据先文本后空间的剪枝原则串行执行查询过程，效率提升很大。但是依然有不足之处，因此，我们又利用了空间索引和文本索引签名技术，提出了一个混合的索引SG-Tree,该索引通过对空间索引G-Tree的每个结点都建立的相应的签名，这应可以高效的检查该结点是否包含符合查询的目标，可以同时从空间和文本两个维度进行剪枝，极大的提高了查询效率。
【专利说明】一种路网上空间关键字检索的方法

【技术领域】
[0001] 本发明属于空间文本索引领域，具体涉及一种利用空间索引树实现路网上的高效的空间关键字检索的方法。

【背景技术】
[0002] 随着空间定位技术的飞速发展，移动设备（e. g，smartphones)在我们的日常生活中越来越普及，基于位置的服务也随之快速发展，其与人类的生活也越来越紧密。在日常生活中，每天通过移动设备会产生大量的带有地理位置标签的文本数据。例如，在基于位置搜索服务中（e.g，Google Maps, Yahoo ! Maps etc)提供了一些目标位置信息并且带有简短的文本描述，人们可以通过这些应用程序发布带有地理位置的文本信息，其中涉及到空间关键字查询的技术。
[0003] 当前的空间关键字查询大多是在欧氏距离空间的基础上，然而，对于这些巨大的空间文本数据库，一个关键的挑战在于如何建立有效的查询处理机制能实时响应用户的查询需求。以往的查询方法大都是在欧氏距离空间下。在现实生活中，人们的日常行为受到路网的约束，目标之间的欧氏距离不同于路网中的实际距离，在路网上的两个位置之间的网络距离可能比他们之间的欧氏距离大的多。比如，位于河流两岸的两个目标之间的欧氏距离远远小于它们之间的实际网络距离，这就导致在欧氏空间下得到的结果在实际中可能并不相近，因此，我们需要新的查询处理方法，能快速找到路网上距离最近且符合文本描述的目标，如图1所示。
[0004] 以往的空间关键字的研究主要是集中在欧式空间下，并不能直接应用与路网上。而传统的路网上的空间关键字查询方法是通过网络扩展的方式，时间和空间复杂度较高。近年来，有部分工作研究路网上的空间关键字查询，虽然也取得了一些成果，但是这些技术并不能高效的实现路网上空间关键字查询技术，效率低下。例如，在论文Top k Spatial Keyword Queries On Road Networks中，作者第一次提出路网上的空间关键字查询，论文中提出一种层次结构的空间索引，并对路网建立一个空间层次树，利用层的优势实现高效剪枝。但是，该方法和其他方法都存在一个共同的缺点，即都不适合复杂或者路网数据非常的大的情况。它们的扩展性较差，时间空间复杂度较高。
[0005] 鉴于上述原因，本发明利用一种新颖的空间索引结构GTree，结合相应的文本索引技术，提出一种1?效的索引结构实现路网上的空间关键字检索。

【发明内容】

[0006] 本发明提出路网上空间关键字检索的方法，其中SG-Tree和FITG方法是本次发明的主要方法，性能比较好，而SNE则效率较为低下，其中SNE方法，对路网上的每条边都建立对应的签名，并通过Dijkstra算法扩展遍历网络。
[0007] 优选的，本方法利用CCAM结构存储路网以及顶点信息，并且为每条边按照空间文本信息建立对应的签名，方便查询的过程的检测该边上是否包含查询关键字。
[0008] 本发明还提供一种路网上空间关键字检索的方法FITG，该方法将空间索引和文本倒排索引结合，并根据先文本剪枝，后空间剪枝的原则串行执行查询过程。
[0009] 优选的，将在空间和文本索引分离开，以两个独立的索引相结合串联执行，在文本上展开剪枝能力。
[0010] 本发明还提供一种路网上空间关键字检索的方法SG-Tree，该方法对空间索引中的每个节点建立各自的签名，在查询过程中，判断树上的节点签名是否匹配查询签名，若不匹配，则剪掉对应的根节点及其子节点。
[0011] 优选的，对空间索引中的每个节点，都建立一个距离矩阵以存储边界点之间的最短距离，从而计算两端之间的最短路径，筛选出候选集后，对每个候选集建立当前列表。
[0012] 优选的，本方法采用距离优先算法，将候选集的都按照距离查询位置的远近的顺序进行排序，优先计算距离查询位置较近的目标，其中，所述方法利用文本和空间两个维度同时进行剪枝。
[0013] 本发明提出检索方法中，SG-Tree方法效率最高，是本发明的主要方法，该方法将空间索引和文本索引结合，提出了非常优秀的索引结构，能够同时实现空间和文本上的剪枝，极大的提升了查询效率。

【专利附图】

【附图说明】
[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0015] 图1是现有技术中路网的空间文本对象示意图；
[0016] 图2是本发明较佳实施例提供的SG-Tree的模型图。

【具体实施方式】
[0017] 为更好的理解本发明，下面首先对相应术语进行说明。
[0018] 一、路网
[0019] 此处使用一个权重图G表示路网（即road network)。G = (V，E, W)，其中V表示 road network中的所有顶点的集合，E表示所有的边的集合，W是G中所有边的权重的集合，即顶点对之间的距离。如u GV则说明u是6中的road network中边的交集或者终点。而（u, V) G E则表示（u, V)是路网中的某一路段，而对应的w"，v则表示边（u, V)对应的权重，即边上的距离。其中，I I u，V I I表示边（u，V)上的最短距离即I I u，V I I = W"，v,而查询 q 到目标〇之间的最短距离为 I I q, 〇 I I = min(| I q, U I | + | |〇，U I I，I I q, V I I + l〇, v I I)。
[0020] 二、图分割
[0021] 给定一个图G = (V，E)，其中V是顶点的集合，E是边的集合，如果现在存在一个集合G= {gi，g2--gf}，其中gf = (Vf, Ef)，满足如下条件，则称gf为G的一个子图：
[0022] (HgUi = V
[0023] (2). fori ^ j, U：' l!
[0024] (3) VulVefzi, if ( u , v) GE, then ( u , v ) G Ei
[0025] 三、边界点
[0026] 对于原始图G的一个子图gi，如果存在一个顶点u G Vi,假如存在边（u，v ) G E 并且则说明u是一个边界点。通常用一个集合B(gi)来表示该子图gi的边界点集合。因为在原始图中，有些顶点之间原来是连通的，但是经过图分割之后，被分散在不同的子图当中，这样原来某些存在原图当中的边则不存在了，但是如果需要计算两个子图之间的距离，则两个子图的边界点之间的最短距离即为两个子图的最短距离。
[0027] 四、空间文本对象
[0028] 通常用2维平面中的一个带有坐标的点，并且含有一个用来描述它的关键字集合来表示一个空间文本对象。例如〇 = {loc, term}，其中Ioc表示位置，loc. Iat和loc. long 分别表示经纟韦度坐标，term表示一个描述该文本的关键字的集合term = It1, t2--tf}，简单的来说，每个目标都落在图G相应的边上（路段）。
[0029] 五、空间关键字查询
[0030] 根据上述空间文本对象定义，使用D来表示数据库中的所有空间文本为： D-{〇 {aloc.o.tcrmj |
[0031] 空间关键字查询在二维空间上找到k个距离查询的查询位置最近的对象，根据它们与查询之间的相关性得分sc 〇re(q，〇)进行排名，利用公式SC〇re(q，〇)= tS5sPatiaI(IO) + tKext(CLO)进行计算。其中tKext(IO)是文本相关性得分，此处 tKext(IO) =1，由于object要求包含查询的所有关键字，ctspatial( q，〇)为文本的空间相关性得分。最后返回结果集》，，结果集满足条件= ^
[0032] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
[0033] 本发明较佳实施例提供一种路网上空间关键字检索的方法，包括：对路网上的每条边都建立对应的签名，并通过Dijkstra算法扩展遍历网络。
[0034] 具体而言，在路网上做空间关键字查询的基本方法是利用网络扩展的方式。此处基于网络扩展的思想给出一个基本的方法Signature based Network Expansion,即SNE方法。其中对路网上的每条边都建立对应的签名（Signature)，提高文本剪枝效率。于此，所述SNE方法是通过Di jkstra算法扩展遍历网络。
[0035] 在SNE索引结构中，本发明采用了非常流行的connectivity-clustered access method(即CCAM)数据结构来存储路网G以及顶点信息，并且为每条边按照空间文本信息建立对应的签名，方便查询的过程的检测该边上是否包含查询关键字。同时，为路网上的每个结点都建立领结链表，并对每个顶点进行编码后，将所有顶点按其编码大小进行排序。于此，使用Z-ordering对顶点进行编码。同时，使用了 two-way-patition方法，这样做的优势是可以实现局部访问，降低了 1/0消耗。
[0036] 另夕卜，本实施例还建立Network R-tree用于存储节点，以及相应的边上 polyline。实际上，只有polyline的MBR被存储在NetworkR-tree上，其详细的信息被存储在Ployline文件中。于此，为了避免大量无关的对象被加载进来，很多无用的边可能在遍历的过程中大量浪费时间，因此采用Signature的技术组织对象。使用I (e, term)来表示每条边的签名，假如I (e, term) = 1则说明边e上至少存在一个对象包含关键字term,否则不存在。这样在进行网络扩展的时候，至少包含一个关键字的对象才会被加载进来，大大减少了计算时间，提高查询效率。
[0037] 下面是SNE算法不例。
[0038]

【权利要求】
1. 一种路网上空间关键字检索的方法，其特征在于，包括：对路网上的每条边都建立对应的签名，并通过Dijkstra算法扩展遍历网络。
2. 根据权利要求1所述的方法，其特征在于，利用CCAM结构存储路网以及顶点信息，并且为每条边按照空间文本信息建立对应的签名，方便查询的过程的检测该边上是否包含查询关键字。
3. -种路网上空间关键字检索的方法，其特征在于，包括：将空间索引和文本倒排索引结合，并根据先文本剪枝，后空间剪枝的原则串行执行查询过程。
4. 根据权利要求3所述的方法，其特征在于，将在空间和文本索引分离开，以两个独立的索引相结合串联执行，在文本上展开剪枝能力。
5. -种路网上空间关键字检索的方法，其特征在于，包括：对空间索引中的每个节点建立各自的签名，在查询过程中，判断树上的节点签名是否匹配查询签名，若不匹配，则剪掉对应的根节点及其子节点。
6. 根据权利要求5所述的方法，其特征在于，对空间索引中的每个节点，都建立一个距离矩阵以存储边界点之间的最短距离，从而计算两端之间的最短路径，筛选出候选集后，对每个候选集建立当前列表。
7. 根据权利要求5所述的方法，其特征在于，采用距离优先算法，将候选集的都按照距离查询位置的远近的顺序进行排序，优先计算距离查询位置较近的目标，其中，所述方法利用文本和空间两个维度同时进行剪枝。
【文档编号】G06F17/30GK104376112SQ201410708031
【公开日】2015年2月25日申请日期:2014年11月27日优先权日:2014年11月27日
【发明者】赵朋朋, 方海林, 许佳捷, 周晓方申请人:苏州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵朋朋;方海林;许佳捷;周晓方;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：基于打印二维码的快消品营销方法以及系统的制作方法
上一篇：基于打印二维码的数据交互系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。