一种空间关键字查询强隐私保护方法及系统与流程

文档序号:36331586发布日期:2023-12-10 09:07阅读:148来源:国知局
一种空间关键字查询强隐私保护方法及系统与流程

本发明涉及数据查询,具体涉及一种空间关键字查询强隐私保护方法及系统。


背景技术:

1、现有技术中最早提出的空间关键字查询问题,一共考虑了三种索引方式:基于空间优先的索引,基于文本优先的索引以及基于空间文本混合的索引。有研究提出了ir-tree(inverted file r-tree),dir-tree和cdir-tree三种紧密混合索引结构,其主要思想是利用r-树对空间进行索引,然后在树节点中加入子节点的文本信息,来实现尽早裁剪不合理分支的功能,从而提高查询效率。同时通过考虑节点中文档的文本相似度来进一步提高裁剪能力。因前面的工作均存在维护索引结构代价过大的问题,出现了一种s2i(spatialinvertedindex)索引结构,对于频繁出现的关键字,利用构建ar-tree(aggregated r-tree,ar-tree)来索引包含该单词的所有对象;对于非频繁出现的关键字,则将与其相关的所有对象存储在一个数据块(block)中。利用ar-tree和block两种数据结构,提出了针对单关键字查询和多关键字查询的高效查询算法。除此之外,还有一些关于空间关键字查询的变种,如模糊空间关键字查询,方向感知的空间关键字查询等。然而以上这些工作均集中在空间关键字查询的性能优化上,并没有考虑查询过程中对用户查询隐私的保护。对于已有的查询隐私保护工作,主要分为两类:一类是单纯基于查询中空间位置信息的隐私保护,这类工作大致可分为基于数据失真的方法,基于抑制发布的方法,基于数据加密的方法,以及基于私有信息检索技术的强隐私保护方法。还有一类是单纯基于查询中文本信息的隐私保护,主要包括基于查询模糊化的方法,通过为用户生成一些假查询提交到服务器来隐藏查询用户真实的意图。综上,可知已有的工作主要集中在设计空间查询或关键字查询的隐私保护上。并不能直接应用到top-k空间关键字查询的隐私保护问题上。如果简单地将两类保护方案结合,并不能有效地支持空间关键字的隐私保护问题。由于文本相似度和空间相似度同时影响到对查询空间的裁剪,因此需要有效的方式来处理top-k空间关键字查询的隐私保护问题。如何保证查询用户不泄露信息的情况下检索,现有技术包括两种情况:第一,当查询用户提交查询时,触发服务器将整个数据集发送到客户端,查询处理过程在客户端执行,从而保证服务器无法获知查询内容的任何信息。这种方式从信息论的意义上保证了用户查询的安全性,但是该方法因为沉重的通信代价是现阶段所不能接受的。第二,在客户端和服务器端均采用加密技术,使得服务器在转换空间中可以找到匹配客户端查询的值。然而该类技术无法避免的让服务器获知了匹配值,从而可以对查询用户的查询内容进行推测。此外,现有的同时针对查询位置以及查询关键字进行保护的工作是基于加密的方法。然而,即使对数据进行加密,仍然不能抵御攻击者的访问模式攻击,无法达到top-k空间关键字查询时的强隐私保护。


技术实现思路

1、本发明所要解决的技术问题是现有技术应用到top-k空间关键字查询时,无法对数据进行加密,目的在于提供一种空间关键字查询强隐私保护方法及系统,保证了top-k空间关键字查询的信息安全性,实现了空间关键字查询强隐私保护,并得到精确的查询结果,解决了上述技术问题。

2、本发明通过下述技术方案实现:

3、一种空间关键字查询强隐私保护方法,包括:服务器将poi数据集中的所有poi点根据文本相似度进行排序后,根据预设组数均匀地划分为多个组;上述服务器将每组上述poi点按照预设粒度划分为多个网格单元,并指出每个上述网格单元中任意位置的对象点下查询时,需检索包含对应一个或多个上述poi点的数据访问页面集合;客户端提出top-k空间关键字查询时,将查询点发送到上述服务器;上述服务器针对上述查询点返回给上述客户端多个对象集合,各上述对象集合包括任意一个上述网格单元的多个上述对象点;上述客户端调整各上述对象点与关键词查询点之间的空间相似度和文本相似度的权重,以计算得到各上述对象点与关键词查询点之间的总相似度;各上述对象集合中的多个上述对象点按照与上述查询点之间的上述总相似度大小依次排名; 上述客户端根据各上述对象集合中的所有上述对象点的排名,连续从上述服务器查询对应一个或多个上述poi点的上述数据访问页面集合,且按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同,直到获取需要的所有检索结果。

4、上述服务器针对多个上述关键字的上述poi数据集分别构建独立数据库,每个上述独立数据库中的上述poi点对应于其中一个上述关键字;然后将多个上述独立数据库整合成一个空间文本数据库,并给其中每个上述数据访问页面分配一个全局标示符,上述服务器通过配置的安全协处理器提供pir接口,以通过pir协议得到上述全局标示符对应上述独立数据库的上述数据访问页面。

5、当给定上述关键字时,设定所有poi点的上述文本相似度的范围为:[,];

6、其中,表示上述文本相似度的最小值;表示上述文本相似度的最大值;

7、根据预设组数均匀地划分为多个组后,计算每组相邻上述poi点的上述文本相似度之间的间隔表示为:(-)×2/n;

8、式中,n表示上述预设组数;

9、上述服务器将每组上述poi点按照预设粒度划分为多个网格单元后,所有上述poi点组成的区域左下角坐标表示为(,),右上角坐标表示为(,),计算相邻上述网格单元之间的任意两个上述poi点的上述空间相似度之间的间隔:

10、;

11、式中,为上述预设粒度;表示上述空间文本数据库中任意两个上述poi点之间的最大距离;

12、令每组相邻上述poi点的上述文本相似度之间的间隔和相邻上述网格单元之间的任意两个上述poi点的上述空间相似度之间的间隔相等,得到:

13、;

14、采用二分查找确定和的最佳取值。

15、各上述对象点定义为:(o.loc,o.term);

16、其中,o.loc表示上述对象点o的经纬度坐标;o.term表示上述对象点o的文本描述,即多个带权关键字的集合;

17、每个上述网格单元表示为:<id,sim,pos>;

18、其中,id表示上述poi点的标示符;sim表示上述poi点与给定上述关键字的上述文本相似度;pos表示上述poi点的经纬度坐标,用于计算上述poi点与上述查询点的上述空间相似度;

19、上述空间相似度采用标准化欧氏距离的方式来定义:

20、φs(o.loc,q.location)=dist(o.loc,q.location)÷maxdist;

21、式中,q.location表示上述网格单元中的上述查询点位置;φs(o.loc,q.location)表示o.loc与q.location的空间相似度;dist(o.loc,q.location)表示o.loc与q.location的欧氏距离;maxdist表示上述空间文本数据库中任意两个上述poi点之间的最大距离;

22、各上述对象点与关键词查询点之间的上述总相似度通过以下公式来计算:

23、φ(o,q)=×φs(o.loc,q.location)+(1-)×φt(o.term,q.keyword);

24、式中,∈(0,1),表示用于调整各上述对象点与上述查询点之间的上述空间相似度和上述文本相似度的权重的平衡参数;φs(o.loc,q.location)表示o.loc与q.location的上述空间相似度;φt(o.term,q.keyword)表示o.term与q.keyword的上述文本相关度;其中,q.keyword为上述查询点。

25、将每i+1(i=0,1,2...)个文本划分为一个上述网格单元,则同一个上述网格单元的上述文本相似度的范围表示为:

26、;

27、式中,表示所有上述poi点的上述文本相似度的最大值;表示所有上述poi点的上述文本相似度的最小值;

28、上述网格单元的上述空间相似度范围表示如下:

29、;

30、式中,表示所述网格单元;(1≤≤4)表示的四个顶点;(1≤≤4)表示所述查询点q所在样本网格单元的四个顶点;表示和之间的欧氏距离;

31、给定上述平衡参数后,计算各上述对象点与关键词查询点之间的上述总相似度:

32、;

33、式中,表示上述空间相似度;表示上述文本相似度;

34、此时,各上述对象点与关键词查询点之间的上述总相似度的范围表示为:

35、;

36、其中,表示上述文本相似度的最小值;表示上述空间相似度的最小值;表示上述文本相似度的最大值;表示上述空间相似度的最大值。

37、各上述对象点与关键词查询点之间的上述总相似度的范围,包括如下三种情况:

38、当各上述poi点的上述文本相似度的最大值小于上述空间相似度的最小值时,上述总相似度的范围为:[,];

39、当各上述poi点的上述空间相似度的最大值小于上述文本相似度的最小值时,上述总相似度的范围为:[,];

40、当各上述poi点的上述空间相似度的最小值≤上述文本相似度的最小值≤上述文本相似度的最大值≤上述空间相似度的最大值时,上述总相似度的范围为:[,];

41、当检索到两个上述网格单元a,b的上述总相似度范围相重叠,且上述网格单元a的上述总相似度的最小值大于上述网格单元b的上述总相似度的最大值时,从中选择上述网格单元a进行检索;

42、当检索到两个上述网格单元a,b的上述总相似度范围不重叠,且上述网格单元a的上述空间相似度的最小值大于上述网格单元b的上述空间相似度的最大值,以及上述网格单元a的上述文本相似度的最小值大于上述网格单元b的上述文本相似度的最大值时;当网格单元b内各上述对象点与关键词查询点之间的上述总相似度,大于上述网格单元a内各上述对象点与关键词查询点之间的上述总相似度时,从中选择上述网格单元b进行检索。

43、当检索到三个及以上上述网格单元的上述总相似度范围部分重叠时,输入位于不同区间的多个上述平衡参数分别进行检索。

44、上述服务器执行如下安全查询处理协议:攻击者成功猜测出查询qu′的概率pr不能高于随机查询值,表示为:pr(qu′=qu)≤1/2+ε(n);

45、式中,ε(n)是相对于安全参数n的一个不可忽略的值;qu表示所述客户端得到的所述随机查询值,其中u的取值范围为{0,1}。

46、上述服务器针对已检索的上述网格单元中的上述poi点,得到上述总相似度的最小值;如果未检索的上述网格单元的上述总相似度的最大值小于已检索的上述poi点中上述总相似度的最小值;此时,对于上述查询点所在样本网格单元的任意查询位置的查询,将上述样本网络单元的最大pir检索次数作为上述poi点的检索计划轮次数。

47、一种空间关键字查询强隐私保护系统,包括:文本分组模块,用于供服务器将poi数据集中的所有poi点根据文本相似度进行排序后,根据预设组数均匀地划分为多个组;网格划分模块,用于供上述服务器将每组上述poi点按照预设粒度划分为多个网格单元,并指出每个上述网格单元中任意位置的对象点下查询时,需检索包含对应一个或多个上述poi点的数据访问页面集合;空间查询模块,用于供客户端提出top-k空间关键字查询时,将查询点发送到上述服务器;上述服务器针对上述查询点返回给上述客户端多个对象集合,各上述对象集合包括任意一个上述网格单元的多个上述对象点;相似分析模块,用于供上述客户端调整各上述对象点与关键词查询点之间的空间相似度和文本相似度的权重,以计算得到各上述对象点与关键词查询点之间的总相似度;各上述对象集合中的多个上述对象点按照与上述查询点之间的上述总相似度大小依次进行排名;数据访问模块,用于供上述客户端根据各上述对象集合中的所有上述对象点的排名,连续从上述服务器查询对应一个或多个上述poi点的上述数据访问页面集合,且按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同,直到获取需要的所有检索结果。

48、本发明与现有技术相比,具有如下的优点和有益效果:

49、本技术通过服务器将poi数据集中的所有poi点根据文本相似度进行排序,并根据预设组数均匀划分为多组,按照预设粒度将每组poi点进一步划分为多个网格单元,以此保证每个网格中的poi有相近的空间相似度;并得到各网格单元在任意位置的对象点下提交查询时,映射到需要检索的对应poi点的数据访问页面集合,实现了对poi数据集即空间文本数据库的空间文本联合划分;当客户端提出top-k空间关键字查询并发送到服务器后,服务器返回给客户端多个对象集合,从而利用不同对象集合的对象点映射到多个网格单元的对应位置,满足了从服务器中查询对象点结果;对象集合中的所有对象点按照与查询点之间的总相似度从大到小进行排名,在进行空间文本联合划分后,综合了空间相似度和文本相关度获得较高总得分的poi点的情况,使得攻击者无法获取用户的查询位置和文本,提高了查询数据的准确性,更加适应于top-k空间关键字的查询;客户端调整各对象点与查询点之间的空间相似度和文本相似度的权重,以计算得到各上述对象点与关键词查询点之间的总相似度,从而根据用户意向调整检索数据的分布进而得到更精确的查询结果;按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同连续查询数据访问页面,直到获取到最终检索结果,进一步防止攻击者将用户频繁查询的关键字与频繁访问的数据库相关联,从而导致的查询隐私泄露问题,加强了top-k空间关键字查询的信息隐私性。本发明结合了私有信息检索加密技术实现快速获取准确查询结果,降低了计算和通信代价,同时还保证了top-k空间关键字查询的信息安全性,实现了空间关键字查询强隐私保护;解决了现有技术应用到top-k空间关键字查询时,无法对数据进行加密的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1