一种基于差分隐私的位置近邻查询方法与流程

文档序号:22042945发布日期:2020-08-28 18:21阅读:312来源:国知局
一种基于差分隐私的位置近邻查询方法与流程

本发明属于互联网技术领域,具体涉及一种基于差分隐私的位置近邻查询方法。



背景技术:

随着智能便携终端的普及、无线定位技术的进步以及移动互联网的发展,基于位置的服务成为当前移动终端服务中的热点。lbs已经进入到了人们生活的方方面面,大到尖端科技,例如:无人驾驶,小到日常生活,如:驾车导航,都能看到lbs的影子。在社交网络中,通过用户位置信息进行近邻查询,是lbs的重要应用场景,基于位置的近邻查询可以根据用户属性检索到具有共同兴趣点的附近用户,还可以根据空间距离发现潜在的邻近好友。然而,人们也日益关注可能带来的隐私泄漏风险,通过组合查询、交叉攻击等方式,攻击者可以推测出用户的空间位置、兴趣爱好、健康状况等隐私信息,这对用户的个人隐私安全构成了严重的威胁。

目前,位置近邻查询算法得到了广泛研究,yiu等人提出了spacetwist近邻查询方法,使用客户机-服务器架构,摆脱了对第三方匿名服务器的依赖,在真实位置附近随机产生锚点,代替原有真实位置,进行增量近邻查询;但是,spacetwist算法中锚点的生成是随机的,位置隐私安全性难以度量和调节;andrés等人提出了geo-indistinguishability位置保护机制,通过改进差分隐私模型,将laplace机制应用到位置数据集中,是一种与背景知识无关且隐私强度可度量的位置隐私保护机制;但是,社交网络中,使用差分隐私机制对位置数据添加噪声,用户上传到lbs服务器的是干扰位置,与传统的lbs近邻查询相比,查询的目标不再是具有真实位置的实体,例如:商场、餐厅,而是空间位置已经发生偏移的用户。现有的这些近邻查询方法,考虑了查询位置因位置隐私保护导致位置偏移所带来的查询误差,但并没有考虑查询目标的位置偏移所带来的误差,存在严重的效用性问题。



技术实现要素:

针对以上问题,本发明首先使用地理不可区分性机制,对位置数据进行加噪,生成干扰位置,为了能够根据用户的隐私需求添加干扰噪声,根据地理位置的访问量,提出了一种用户位置隐私预算分配方法,合理分配查询位置的隐私预算,并在干扰位置的基础上,采用组合增量查询算法,保证供应空间包含查询目标的可能偏移区域,有效降低了因为查询目标位置发生偏移带来的误差。

为了达到上述目的,本发明所采用的技术方案是:一种基于差分隐私的位置近邻查询方法,包括以下步骤:

s1、根据地理位置的访问量,合理分配用户查询位置的隐私预算;

s2、根据分配的隐私预算,使用基于差分隐私模型的地理不可区分性机制对查询位置添加噪声,生成干扰位置;

s3、将生成的干扰位置作为查询锚点,并在spacetwist算法查询条件的基础上,引入最大偏移量rmax,以扩大供应空间的查询范围;

s4、采用spacetwist算法进行近邻查询;

s5、对查询位置重复进行加噪,并重复步骤s3和s4,得到多个近邻查询结果;

s6、将得到的多个近邻查询结果取交集,以缩小近邻查询结果的规模。

进一步的,所述的步骤s1,在分配用户查询位置的隐私预算时,通过统计用户在不同区域访问量来直接反应用户在该区域的敏感度,区域访问量越大,伴随的敏感度则越高,分配的隐私预算则越小。

进一步的,在统计用户在不同区域访问量的过程中,对于公有敏感区域,根据该区域的功能特性,手动分配隐私预算,隐私预算的取值在0到1之间。

进一步的,所述的步骤s3,引入最大偏移量rmax的过程具体包括以下步骤:

s21、定义用户的真实位置为x,锚点位置为z,需求空间范围半径为rdemand,供应空间的范围半径为rsupply;

s22、扩大近邻查询的范围,使供应空间半径rsupply和需求空间半径rdemand之间满足:rsupply≥rdemand+dis(x,z)+rmax,其中,dis(x,z)为真实位置和干扰位置之间的偏移量,rmax为最大偏移量。

与现有技术相比,本发明的有益效果是:本发明通过使用差分隐私模型对位置数据加噪,通过位置访问量分配隐私预算,保护查询位置的隐私;为了保证扰动数据的可用性,提升查询结果的命中率,提出了组合增量近邻查询算法,克服了干扰位置的近邻查询结果与真实位置的近邻查询结果之间存在较大差异的问题,保证查询位置数据的隐私性和可用性。

附图说明

图1是一种基于差分隐私的位置近邻查询方法的流程示意图;

图2是实施例中组合增量近邻查询算法的状态示意图;

图3是对访问区域的空间位置进行网格化处理后得到的网格g的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明首先使用地理不可区分性机制,对位置数据进行加噪,生成干扰位置,为了能够根据用户的隐私需求添加扰动噪声,根据地理位置的访问量,提出了一种用户位置隐私预算分配方法,合理分配查询位置的隐私预算,并在干扰位置的基础上,采用组合增量查询算法,保证供应空间包含查询目标的可能偏移区域,有效降低了因为查询目标位置发生偏移带来的误差,具体包括以下步骤:

一、查询位置的隐私保护

本发明使用基于差分隐私模型的地理不可区分性机制生成干扰位置,在生成干扰位置之前,需要给用户的查询位置分配合理的隐私预算,在使用地理不可区分性机制生成干扰位置时,位置隐私预算的大小代表着用户查询位置的敏感程度,隐私预算越小,位置敏感度越高,为了防止位置信息的泄露,在生成干扰位置时,则需要分配更小的隐私预算,保证更高的隐私水平。用户在某区域的位置敏感度不仅与位置的自身特性相关,不同用户在相同区域的位置敏感度也存在差异,例如,相对于顾客而言,咖啡厅是休闲娱乐的场所,但对于咖啡厅工作人员,是他们工作的地方,两者在相同区域的位置敏感度存在较大差异。本发明利用用户在一段时间内的位置访问量来计算位置的隐私预算,在大多数情况下,人类的活动出行模式是有规律的、可探寻的,家庭、办公场所等地点是人们必不可少的高频次访问区域,于此同时,这些区域也是人们个人的敏感区域,因此,可以通过统计用户在不同区域访问量来直接反应用户在该区域的敏感度,区域访问量越大,伴随的敏感度则越高,分配的隐私预算则越小;但是,访问量也不能完全代表用户的位置敏感度,例如,正常情况下,人们去医院的次数比较少,但是医院区域的位置敏感度却很高,这和医院的自身功能属性相关,攻击者发现攻击目标出现在医院,很容易联想到攻击目标是否生病。对于这些公有敏感区域,根据该区域的功能特性,可以手动分配隐私预算(隐私预算的取值在0到1之间)。

在一段时间内,每当用户发起lbs请求时,都会记录用户的真实位置信息,从而获得用户的访问区域,使用最小和最大经纬度数据,组合构建矩形空间访问区域,然后将用户访问区域以十字递进的方式,递归的对空间区域进行四分,划分为若干个大小相等的网格,使用完全四叉树来存储每个单元格的信息。在完全四叉树中,叶子节点存储着单个用户在单元格区域的访问量、空间区域范围以及手动划分的隐私预算,非叶子节点存储自身的空间范围以及子节点的索引信息。对用户区域进行网格化处理时,划分粒度可以动态调节,粒度越小,单元格的空间范围就越大,访问量可能就越大,位置敏感度就越高,但位置敏感度的代表性却会降低。

在对空间区域划分后,并通过完全四叉树构建空间索引模型,将网格数据使用完全四叉树来存储,然后遍历四叉树中的叶子节点,计算隐私预算,假设单个用户分配的总隐私预算为e,各个用户之间相互独立,根据差分隐私的组合性特征,除手动划分隐私预算的单元格区域之外,每个单元格的区域隐私预算εi满足:

式中:ni为单元格区域的用户访问量;εj为手动划分的隐私预算,隐私预算与用户访问量之间呈反比,可以看出,单个单元格的区域访问量ni越大,1/ni则越小,分配的隐私预算εi则越少,隐私保护程度就越高,符合差分隐私的定义。但是,值得注意的是,在上面的公式中,位置访问量越少,分配的隐私预算越多,对于访问量较少的区域,会获得更多的隐私预算,然而,隐私预算是有限的,随着隐私预算的消耗,可用于分配的隐私预算越来越少,最终导致无隐私预算可用于分配的状况,从而造成位置隐私的泄露,为了节省隐私预算的消耗,设置位置访问量阈值,过滤掉自身非敏感并且访问量较少的区域。根据分配的隐私预算,使用地理不可区分性机制对查询位置添加噪声,生成干扰位置。

二、组合增量近邻查询

在对查询位置添加噪声后,lbs服务器获取的是干扰位置,在spacetwist算法中,使用随机选择的空间位置节点作为查询锚点,代替真实位置,发送近邻查询请求,摆脱了对第三方匿名服务器的依赖。但spacetwist算法存在两个问题:第一,查询锚点是随机生成的,存在隐私保护强度无法度量的问题;第二,spacetwist算法考虑了查询位置的扰动所产生的查询误差,但是,没有考虑查询目标的位置扰动所产生的查询命中率偏低的问题。在本发明中,使用地理不可区分性机制生成干扰位置作为查询锚点,设用户的真实位置为x,锚点位置为z,需求空间范围半径为rdemand,供应空间的范围半径为rsupply,在spacetwist算法中,查询结束的临界条件是需要保证:rsupply≥rdemand+dis(x,z),其中,dis(x,z)为真实位置和干扰位置之间的偏移量。然而,上面的条件只能在查询目标的位置未发生改变的条件下,才能保证较高的查询命中率,在社交网络中,查询目标的位置同样也发生了干扰,本发明扩大近邻查询的范围,使供应空间半径rsupply和需求空间半径rdemand之间满足:rsupply≥rdemand+dis(x,z)+rmax,其中rmax为最大偏移量,上述条件在原有spacetwist的查询条件基础上,引入了rmax,扩大了供应空间的查询范围,保证rsupply能够涵盖检索目标的可能偏移区域。与此同时,由于查询范围扩大,在能够有效获取查询目标结果集的同时,供应空间也会包含不必要的位置节点数据,产生大量的位置数据冗余,为了解决这个问题,本发明通过迭代组合查询的方式,对真实查询位置重复加噪,生成干扰位置、进行近邻查询,由于每次查询都能涵盖大部分的需求空间以及可能的偏移区域,通过组合查询取交集的方式,能够缩小查询结果的规模,从而过滤冗余数据。

本发明的组合增量近邻查询算法的关键步骤,如图2所示,子图(a)、(b)、(c)表示在真实位置数据集中,spacetwist的查询过程,其中阴影区域代表供应空间,图(a)为查询的初始状态,需求半径rdemand为无穷大,需求空间为整个查询空间;图(b)为查询的中间状态,此时,供应空间在不断扩大,需求空间的范围在不断缩小,图(c)为查询结束的临界状态,此时,供应空间完全包含需求空间,查询结束,供应空间包含的位置节点就是近邻查询结果。而在图(d)中,查询目标也添加了随机噪声,例如:真实位置e通过位置扰动后,生成的干扰位置为e’,按照原来的spacetwist算法进行查询,图(d)的供应空间与图(c)相比,两者空间区域存在较大差异,导致查询命中率降低;图(e)中通过设置最大偏移量和扩大供应空间的查询范围,使供应空间能够包含查询目标的可能偏移区域,提高查询命中率;在图(f)中,点p、z都是真实位置x生成的干扰位置,阴影区域为两点供应空间的交集,可以看出,相对于图(e)供应空间的区域范围在缩小,冗余的位置数据在减少,但是包含在两个供应空间公共区域中的查询目标位置节点不会被过滤掉。

基于图2的组合增量近邻算法的关键步骤,在社交网络场景下,对于目标用户u,本发明的技术方案可具体实施如下:

(1)从数据库中获取用户u一个月的位置访问记录,并对访问区域的空间位置进行网格化处理,得到网格g,如图3所示。其中每个单元格包含位置访问量和手动划分的隐私预算,其中使用∞表示未手动分配隐私预算。

(2)根据网格g计算用户u在当前位置的隐私预算,然后使用地理不可区分性机制对用户u的真实位置x添加噪声,生成干扰位置z。

(3)使用干扰位置z进行组合增量近邻查询,令最大偏移量rmax=2km,组合查询次数num=3,将组合查询的结果返回给用户,并计算查询结果的命中率:|p∩p’|/|p|,其中p为用户真实位置x在真实位置集合中的近邻查询结果,p’为用户干扰位置z在真实位置集合或干扰位置集合中近邻查询结果集。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1