面向道路网络连续查询攻击的用户隐私保护方法与流程

文档序号:17589027发布日期:2019-05-03 21:36阅读:147来源:国知局
面向道路网络连续查询攻击的用户隐私保护方法与流程

本发明涉及面向道路网络的用户隐私保护方法,属于位置服务与隐私保护应用结合的技术领域。



背景技术:

在一般欧式空间场景中,用户可以移动至空间内任意一点,且其移动模式只与移动速度、方向和时间有关。然而,在道路网络场景中,用户的移动模式还受到道路限速、交通禁则等因素的约束。如果将欧式空间适用的隐私保护策略直接应用到道路网络场景中,将导致严重的隐私泄露问题。例如,在符合k匿名和l差异性度量的隐匿区域中,可能只有一条道路在当前用户可以到达的范围。因此,我们需要针对用户在道路约束场景中的移动特征,研究适用的隐私保护策略。

基于网络扩张(networkexpansion)的模糊算法是目前针对道路网络约束的隐私保护中关注较多的课题。其基本思想是从用户所在路段开始,根据指定计算方法选择用以混淆的路段加入匿名集合,直至达到隐私需求。gustav根据位置语义和最短距离原则选取扩张路段,并将k匿名和l差异性作为扩张停止的标准,即匿名集中的用户数至少为k,包含的路段数至少为l。

图1展示了2种典型的路段扩张算法,满足k=3,l=3。其中,“○”标记了多位用户的位置,用户u正在发起查询。图1中的(a)随机选择包含路段s13的连通子网作为路段匿名集;图1中的(b)从s13开始,利用迪杰斯特拉(dijkstra)算法根据路段间的距离(一般定义为路段中点间的距离)由近至远扩张,直到满足k=3,l=3。随机扩张具有不确定性,从而更有效地保护用户位置信息,然而扩张的范围可能比较广,导致查询结果的处理成本大幅上升。相反,基于dijkstra算法扩张能获得相对集中的匿名集,但是随着处理成本的下降,隐私也更容易暴露。因此,对于路段扩张算法的研究必须要考虑好匿名效果和处理成本之间的权衡。

上述扩张算法只考虑到了当前的快照信息,无法抵御攻击者从历史相关性中推断更多隐私。传统欧氏空间适用的连续查询隐私保护方案因为忽略了网络拓扑属性,不能直接应用到道路环境中。有相关文献提出基于k匿名和l多样性提出了道路环境适用的连续查询隐私保护框架。首先根据人口密度、历史轨迹和网路拓扑属性划分子网,通过子网的逐步合并建立自底向上的垂直分层架构,然后根据用户的距离度量标准选择合适的子网作为隐匿集。攻击者在了解用户的算法后,运行重现攻击(replayattack)和查询采样攻击(querysamplingattack)等推断用户的真实位置。实验结果表明上述攻击行为在最好的情况下,能够降低约80%的成功请求率。然而,这些典型的攻击算法要想获得良好的攻击效果,必须要知道用户的具体保护算法,不适用于无法获知用户具体决策的场景。

在道路约束的场景中,用户的行为模式因为受到交通规则的影响会呈现不同的特征。攻击者可以在不知道用户的具体扩张算法的情况下,仅根据最大移动速度和时间来确定一个位置范围。现有扩张算法大都没有考虑这种攻击,导致生成的匿名路段集在被攻击以后收缩到较小的范围,真实位置有较高的暴露概率。



技术实现要素:

本发明所要解决的技术问题是:针对背景技术中现有方法容易受到攻击,真实位置有较高的暴露概率这一问题,本发明提出一种面向道路网络连续查询攻击的用户隐私保护方法,首先采用通用的连续查询攻击算法,可以在无法获知用户的具体保护算法的情况下根据历史相关性推断隐私信息;然后针对这一攻击行为,改进路段扩张算法,在满足成本约束的前提下最大化连续查询隐私。

本发明为解决上述技术问题采用以下技术方案:

本发明提出面向道路网络连续查询攻击的用户隐私保护方法,包括如下步骤:

步骤(1)、将实际地图转换为抽象的带权有向图模型,引入位置熵作为隐私度量标准;

步骤(2)、结合道路网络对用户行动的约束特点和最大移动速度攻击思想,提出路段扩张攻击算法msarn;

步骤(3):以步骤(2)提出的路段扩张攻击算法为防御目标,设计用户位置隐私保护算法core,使用户位于匿名路段集合中每一条路的概率尽量相等,实现对用户的隐私保护。

进一步,本发明的面向道路网络连续查询攻击的用户隐私保护方法,在步骤(1)将实际地图转换为抽象的带权有向图模型,引入位置熵作为隐私度量标准,具体是:

将路段间距离定义为路段中心点之间的距离d,则攻击行为的期望距离误差d为:

其中s(i)为路段si产生的匿名集合,是指用户某一时刻处在路段si,而攻击者分析出用户在路段的概率,距离si越远,攻击效果越差,借助位置熵来衡量攻击的不确定性,其中位置熵ε定义为:

ε值越大表明攻击者对于猜测结果越不确定,也间接反映出隐私保护效果的优劣。

进一步,本发明的面向道路网络连续查询攻击的用户隐私保护方法,步骤(2)所述路段扩张攻击算法的步骤具体如下:

201、初始化当前时刻的用户查询,用户在t时刻采用任意路段扩张算法,得到自身的匿名集st;

202、遍历查询列表,并调用一步攻击函数f(s)逐步推断用户位置,其中根据st初步判断出t+1时刻,用户可能的位置范围为f(st);若t+1时用户再一次透露出匿名集st+1,那么缩小用户范围至f(st)∩st+1,记为s't+1;将t+1时刻的攻击结果加入到输出队列中;在t+2时刻,攻击者不再使用st+1作为当前匿名集,而换成s't+1以获得更准确的攻击效果。

进一步,本发明的面向道路网络连续查询攻击的用户隐私保护方法,步骤(3)所述设计用户位置隐私保护算法core,是在t+1时刻从集合f(st)中选取合适的扩张路段组成匿名集q,具体如下:

定义随机变量y∈{0,1},若yi=1,则将路段si选取到匿名集中,即

若给定最远扩张距离dmax和平均距离误差的下限值结合公式(2),将用户的最佳隐私保护策略规划为:

上述策略的目标是计算出最佳匿名集q,其中q为上一步攻击后用户位置范围f(st)的非空子集;公式(8a)对所有可能的匿名集计算位置熵ε,并试图找出满足限制条件约束的最大熵,以降低攻击准确度;公式(8b)和(8c)分别要求该匿名集满足l差异性和k匿名,其中函数n()用于计算路段包含的用户数量;公式(8d)中的表示用户所能承受的最小平均攻击距离误差;公式(8e)指出了最大扩张距离dmax,反映了结果集处理的成本约束;si、su分别代表攻击路段位置、用户实际所处路段位置;

满足以上条件,最终求出的q便是t+1时刻最佳的匿名集。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

(1):提出适用于路网环境的最大可能移动速度攻击算法(msarn)不需要知道用户的具体扩张算法,另一方面它可以在任意道路隐私保护模型中作为专用攻击算法的补充部分,以从时间相关性中获取更多隐私。

(2):面向连续查询的随机路段扩张算法(core)算法能够达到最好的隐私保护效果,同时其扩张成本接近基于dijkstra扩张算法。

(3):仿真结果证明,msarn攻击算法在连续查询场景中的优越性和core隐私保护算法对msarn有良好的防御力。

综上所述,本发明解决了现有方法容易受到攻击,真实位置有较高的暴露概率这一问题,有效的保护了面向道路网络的用户隐私。

附图说明

图1是背景技术中所提及的2种典型的路段扩张算法示意图。

图2是本发明实施例中查询处理框架示意图。

图3是提取道路特征示意图。

图4是抽象道路模型示意图。

图5是简单最大移动速度攻击示意图。

图6是用户移动模式示例图。

图7是本发明的方法流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

参考图7所示,本发明通过分析典型的路段扩张算法,将实际地图转换为抽象的带权有向图模型,引入位置熵作为隐私度量标准,量化行驶用户的路口转向偏好等属性;然后结合道路网络对用户行动的约束特点和最大移动速度攻击思想,设计通用的连续攻击算法,可以在无需获知具体扩张算法的情况下,根据用户的行为模式推断出更多隐私;最后针对上述连续攻击,提出面向连续查询的路段扩张算法,用于选择合适的路段集合以最大化位置熵。

以下对本发明的具体过程进行详细说明。

1、道路匿名模型

1.1、查询处理框架

由于路段扩张会导致结果集的传输和提取成本大幅提高,所以采用第三方可信任中心匿名服务器(ttp)架构可以缩短数据处理时间,减轻用户端的计算和能量负担,以满足在道路中高速移动设备的低延迟响应需求。

图2展示了处理查询的过程,其中实线箭头标识数据流向。位于道路网络中“○”所标记位置的移动用户以当前坐标为参数发起lbs查询q;匿名代理服务器在收到请求后沿位置点坐标扩张路段,并以扩张得到的匿名路段集合(图中加粗路段所构成的集合)作为新参数重包装请求为q';lbs服务器解析从代理服务器收到的匿名集,对其中所有位置点作查询处理,并将查询结果合并成结果超集res(q')返回给代理;最后代理服务器从res(q')中提取出移动设备所请求的内容res(q),并返回给用户以完成查询过程。

举例来说,用户u在某时刻发出查询q:<u,l,others>,其中l表示u所在的位置坐标,others包含其他请求参数。因为用户不想让攻击者知道自己所在位置,甚至所在路段,所以代理服务器采用如图1中的(a)或(b)的方式计算出一个匿名路段集合s作为新参数重包装请求。若将路段si产生的集合记作s(i),则s(13)={s13,s14,s17}或s(13)={s13,s18,s19}。在经历上述变换之后,攻击者从服务器获取的查询数据为q':<u,s(13),others>。

1.2、道路网络生成

如图2所示,查询处理框架中的道路网络是利用sumo工具(wikipedia,“simulationofurbanmobility”.http://sumo.dlr.de/wiki/main_page,retrievedmar.2017.)将实际地图简化得到的。简化过程只保留道路结构、流量特征和poi分布情况。图3中的(a)呈现了南京新街口地区的原始地图,图3中的(b)只保留了道路结构和poi分布情况。

如果用户在系统中完全遵守交通规则,那么攻击者能观察到的数据不仅仅是特征地图,还可以结合其他背景知识来进行更深层次的攻击,包括道路限速、人口密度和特定时间的流向特征等。为了综合考虑以上信息,图4将特征地图中的两个道路交叉口进一步抽象为有向带权图。“有向”体现在道路的车流流向特征,单行道所对应的边只有一个方向。为简化问题,双行道这里不采用双向边定义,而是被拆分成两条单行道表示,如图4中的(a)。“权”则用于辅助判断用户在交叉路口的转向偏好。在图4中的(b)所示的抽象道路模型子图中,假定车辆只能按照箭头方向行驶。路段s2的“权重”为0.7,这意味着车辆由s1进入岔路口后,有0.7的概率转向s2行驶。在没有部署监控的情况下,攻击者可以根据路段在请求数据中出现的频率来估算用户的路口转向偏好。

由于道路拓扑结构的更新频数很小,ttp可以离线计算道路的方向和权重(详尽考虑特定时间的流向特征,如早晚高峰期、节假日等),并定期更新。因为相邻路段数是有限的,所以上述有向加权图的邻接表可记为稀疏矩阵p。pij记录了从si经由路口转向sj的概率。若pij=0,则表示si到sj因为地理上不相邻或者道路禁则(如禁止掉头和左转)限制不能直接到达。

1.3、隐私度量

除了基本的k匿名和l差异性度量之外,我们还需要定义道路网络场景专用的隐私度量标准。如果用户某一时刻处在路段si,且攻击者分析出用户在路段的概率为那么从用户的角度看来,距离si越远,攻击效果越差。这里,我们将路段间距离定义为路段中心点之间的距离d。那么上述攻击行为的期望距离误差

其中s(i)为路段si产生的匿名集合。虽然值越大(d值越大),隐私保护效果越好,但是太远的扩张距离将导致很高的结果集提取成本。因此,用户可以指定最大的扩张距离约束dmax,控制处理成本。

由于攻击者无法获知用户的真实位置,所以期望距离误差不适用于攻击度量。从攻击者的角度看来,一次最无效的攻击就是匿名集合内的所有路段是真实位置的概率都相等。所以我们可以借助位置熵来衡量攻击的不确定性,其中位置熵ε定义为

ε值越大表明攻击者对于猜测结果越不确定,也间接反映出较好的隐私保护效果。

2、连续查询攻击

对于采用路段扩张来进行隐私保护的策略,攻击者通常会对目标匿名路段集进行重现攻击推断原始数据。在重现攻击中,匿名集中的每条路段都被假想为用户的真实位置,并分别计算出生成目标匿名集的概率。接着,采用贝叶斯计算方法得到每条路段是真实位置的概率。然而,重现攻击等现有的攻击算法都需要知道用户具体的扩张策略,并且大多数仅适用于快照查询场景,在面对连续查询场景时攻击效果大幅下降。虽然最大可能移动速度攻击算法针对连续查询有很好的攻击效果,但是并不能直接应用到道路网络模型中,否则会出现如图5所示情景。已知用户u的最大移动速度为vm,在路段s3上利用匿名集s(3)={s1,s2,s3}发出查询。攻击者运行最大移动速度攻击后认为时间t后用户在图中虚线区域内。尽管路段s4、s5和s6都被包含在区域内,但根据道路行驶规定,用户无法以vm在时间t内到达s6。此类误判现象说明不能简单地将最大可能移动速度攻击算法直接应用到道路网络场景中。

针对以上问题,提出适用于路网环境的最大可能移动速度攻击(maximumpossiblemovingspeedattackinroadnetworks,msarn)。一方面,msarn不需要知道用户的具体扩张算法,另一方面它可以在任意道路隐私保护模型中作为专用攻击算法的补充部分,以从时间相关性中获取更多隐私。

2.1、攻击原理

首先举一个简单例子来解释msarn的攻击原理。图6考虑只有两条路段的情况,其中k=1,l=1。用户u在t时刻处于s1中与路端点o相距xt的位置附近(0≤xt≤λ1,λ1为路段s1的长度),在t+1时刻处于xt+1附近。利用位置函数l记作l(t)=xt,l(t+1)=xt+1,并且假设用户位于很小的范围δx内(当δx→0时,代表位置点)。

在用户u首次以匿名集s(1)={s1}发出查询请求时,攻击者知道用户在t时刻处于s1的概率p(s1)=1,在路口由路段s1转向s2的概率p[1][2]=1。若只给出首次查询的匿名集,我们可以运行快照查询中采用的攻击算法计算出路段si为真实位置的概率p(si),甚至可以计算出用户t时刻位于位置x处的概率p(t,x)。假设首次查询时,路段内可能位置点的分布是均匀的,那么用户在δx范围内的概率为

若u在最大速度vm允许的范围(r=vmδt)内等概率地行驶到任意一点,那么u从xt处行驶到xt+1处的概率为

由此可以计算t+1时刻u在路网上位置分布概率p为

需要注意的是,公式(3)在非首次查询时不一定以均匀分布概率来计算,可以沿用上一时刻的攻击结果。此外,δx为系统提供了灵活的自定义攻击粒度。δx值越小,粒度越细,攻击精度越准确。当δx→0时,攻击可以精确到位置点。然而由于位置点为真实坐标的概率并不是依据单一密度函数分布,所以攻击者的攻击粒度越细,计算复杂度随之迅速增长。当精确到位置点时,公式(5)可细化为

其中,pt+1,t=p(l(t+1)==xt+1|l(t)==xt)。

实际地图拓扑远不止图6呈现的那么简单,每个路口可能汇聚了三条及以上路段,所以匿名路段集的规模也更大。对于路段集中的每一条路段,都需要进行以上步骤,并将所有结果取并集才能得到用户下一时刻可能的位置范围。选定一条路段后,λ需要更新为该路段的长度。而且,当λ<xt+1≤λ+r时,要对超出该路段范围的分支根据p进行分权,即对每条相邻路段都要根据公式(5)或者(6),代入转向偏好概率进行迭代计算。我们把以上根据最大移动速度和匿名路段集合s来初步判断用户位置范围的整个过程,记录到一步攻击子函数f(s)。

2.2、算法描述

连续查询场景中,用户会连续地发出包含匿名路段集的查询。算法1描述了路网环境中的最大可能移动速度攻击msarn对连续查询列表q[]的攻击过程。第2-3行初始化了当前时刻的用户查询,用户在t时刻采用任意路段扩张算法,得到自身的匿名集st。第4-10遍历查询列表,并调用一步攻击函数f(s)逐步推断用户位置。其中第6行根据st初步判断出t+1时刻,用户可能的位置范围为f(st)。若t+1时用户再一次透露出匿名集st+1,那么可以缩小用户范围至f(st)∩st+1,记为s't+1。第7行将t+1时刻的攻击结果加入到输出队列中。第8行表示,在t+2时刻,攻击者不再使用st+1作为当前匿名集,而是换成s't+1以获得更准确的攻击效果。分析可知,该算法的时间复杂度主要取决于f(s)的计算复杂度,即与攻击粒度δx等因素有关。

3、连续查询保护

本发明提出的msarn攻击算法可以在快照隐私以外,根据时间上相邻查询的相关性推断出更多信息。更重要的是,攻击者可以在不知道用户的具体扩张算法的情况下,仅根据最大移动速度和时间来确定一个位置范围。现有扩张算法大都没有考虑这种攻击,导致生成的匿名路段集在被攻击以后收缩到较小的范围,真实位置有较高的暴露概率。为了进一步保护时间相关性泄露的隐私,我们需要在扩张路段时考虑最大移动速度和位置熵等因素,提出面向连续查询的随机路段扩张算法(continuousquery-orientedrandexpansion,core)。

3.1、扩张原理

core规定,匿名集除了要满足k匿名和l差异要求,还应尽量让用户在匿名集中的分布概率更均匀,也就是让攻击者无法以较高概率反推出用户真实位置。由于在上一次查询之后,攻击者已经确认用户处于f(st)中,所以t+1时刻只需要从集合f(st)中选取合适的扩张路段组成匿名集q。

定义随机变量y∈{0,1},若yi=1,则将路段si选取到匿名集中,即

若给定最远扩张距离dmax和平均距离误差的下限值结合公式(2),用户的最佳隐私保护策略可以规划为:

上述策略的目标是计算出最佳匿名集q,其中q为上一步攻击后用户位置范围f(st)的非空子集。公式(8a)对所有可能的匿名集计算位置熵ε,并试图找出满足限制条件约束的最大熵,以降低攻击准确度。公式(8b)和(8c)分别要求该匿名集满足l差异性和k匿名,其中函数n()用于计算路段包含的用户数量。公式(8d)中的表示用户所能承受的最小平均攻击距离误差。公式(8e)指出了最大扩张距离,反映了结果集处理的成本约束。满足以上条件,最终求出的q便是t+1时刻最佳的匿名集。

3.2、算法描述

算法2采用枚举法求解上述最优扩张策略,其中上一步攻击后用户的位置范围f(st)和扩张距离约束等均为已知数据。第4行枚举所有可能的匿名路段集合(f(st)的所有非空子集);第6-8行筛选掉不符合k匿名和l差异性的候选集;第9-15行计算每个候选集的位置熵,并找出满足公式(8d)和(8e)的最大熵及对应的匿名路段集合z[max]。虽然算法的时间复杂度为o(n2),但是能够找到满足条件的最优解。

随着查询次数的增加,用户可能无法找到满足公式(8)的匿名集。那么,我们认为此时用户的位置隐私已经泄露。

本技术领域技术人员可以理解的是,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

上面结合附图对本发明的实施方式作了详细地说明,但是本发明并不局限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1