一种地理空间数据的用户隐私保护方法及系统的制作方法

文档序号:9350298阅读:983来源:国知局
一种地理空间数据的用户隐私保护方法及系统的制作方法
【技术领域】
[0001] 本发明属于信息安全隐私保护领域,特别涉及一种地理空间数据的用户隐私保护 方法及系统。
【背景技术】
[0002] 信息时代的飞速发展,使得数据的获取变得日益容易,如用户的移动轨迹数据、购 物记录数据和办公/家庭地址数据等,所有这些由位置点构成的数据称之为地理空间数 据。通过对地理空间数据进行分析,能够获取很多有用信息。对于交通部门,可以通过分析 用户移动轨迹数据,得出当前交通状况,为城市交通控制提供数据支持;对于商家,可以分 析用户购物记录数据或车辆移动轨迹数据,得出用户感兴趣的区域或者聚集地,为商业布 局提供数据支持;对于城市规划局,可以分析用户家庭地址数据,得出城市住宅布局信息, 为城市规划提供数据支持。
[0003] 上述决策制定离不开对数据的分析,这些数据的发布与共享为决策制定与科研分 析提供了极大便利,然而,数据的分析不可避免地涉及到用户隐私安全,存在隐私泄露风 险。例如,2015年,麻省理工学院研究员DeMontjoye等证明,在一个110万人的匿名购物 记录数据中,仅需要四条购物记录中的日期和位置信息,便能识别出数据集中90%的用户, 当今,用户隐私问题已经成为地理空间数据应用的阻碍,如何确保数据高可用性的同时保 证用户隐私安全是我们需要考虑的问题。
[0004] 地理空间数据的广泛应用为数据的安全性提出了更高的要求,如安全可控和严格 地可证明安全性,传统的基于匿名模型(如k-匿名、1-多样性)的方法存在泄露用户隐私 的风险,并且不能提供安全可控的隐私保护。与此相反,差分隐私是一种严格证明和安全可 控的隐私保护技术,在数据分析和应用的同时,能够保护用户隐私数据不被泄露,差分隐私 已经成为信息安全研究领域隐私保护事实上的标准。差分隐私通过噪音机制实现,即向输 出结果中添加随机噪声来保护数据安全,添加的噪声越大,数据越安全,然而,数据的可用 性越低,反之亦然,即数据安全性与数据可用性是一对矛盾关系。
[0005] 基于差分隐私的数据隐私保护为了提高数据的可用性,增强查询精度,提出了基 于树型结构的隐私空间分解方法,它主要是将一个整体数据空间划分成为若干个独立单元 格,然后统计每个单元格中的点数。
[0006] Cormode等基于完全四叉树提出一种算法,此算法主要采用等比预算分配策略为 四叉树每层分配不同隐私预算,以提高数据查询精度。Fan等利用四叉树将数据空间递归划 分成四等份,与kd-树划分相比,四叉树递归划分效率高。然而,当数据比较稀疏时,会导致 较大误差。为了降低添加噪声大小,提高数据查询精确度,Fan等人将相似单元格合并到一 个划分中以克服数据的稀疏性,并向此划分添加噪声,降低了每个单元格中噪声大小。针对 二维地理空间数据,通过树型结构对数据域进行分割以提高数据可用性时,树深是影响数 据查询结果的关键因素,而上述文献没有给出具体树深或者划分粒度的理论支持。Qardaji 等从数据域的划分粒度出发,研究如何构建差分隐私数据集,并提出一种基于噪声误差和 均匀假设误差的粒度划分模型,开辟了提高数据可用性的新方向,然而其模型建立时假设 数据查询形状为正方形,长等于宽,不符合数据查询实际情况,并且设均匀假设误差正比于 查询边界单元格中总点数,未考虑单元格面积因素。

【发明内容】

[0007] 针对现有技术存在的不足,本发明结合一种新颖的数据域粒度划分模型和均匀性 度量参数,提供了一种面向地理空间数据的用户隐私保护技术方案。
[0008] 本发明的技术方案提供一种地理空间数据的用户隐私保护方法,包括以下步骤,
[0009] 步骤1,根据数据域粒度划分模型对数据空间进行分割,包括以下步骤,
[0010] 步骤1. 1,根据数据空间大小得到数据空间的长度L和宽度H;
[0011] 步骤1. 2,根据以下数据域粒度划分模型,将数据空间划分为mXm个单元格,
[0012]
[0013] 其中,k为相对误差与面积的比例系数,e为隐私预算,
[0014] 计算横轴上每个单元格长度1,I=L/m,
[0015] 计算纵轴上每个单元格长度h,h=H/m,
[0016] 根据1和h的值,依次记录每个单元格Ci的左、上、右、下四个边框的坐标值,i= 1,2,? ? ?,mXm ;
[0017]步骤1. 3,从数据集中依次取出一个数据点point(X,y),如果point(X,y)落于单 元格C1,则C1增加一个计数,否则不增加;
[0018] 步骤1.4,返回步骤1.3从数据集中依次取出下一个数据点进行处理, 直到数据集中所有数据点都取完成为止,最后得到一个数据空间S的单元格集合 Ic1,C2,…Ci,…CmxJ,对应的计数集合为(X1,X2,…Xi,…XmxJ,Xi为单元格Ci中的数据 点计数;
[0019] 步骤2,基于均匀性度量参数,将相似单元格合并到同一个划分,包括以下步骤,
[0020] 步骤2. 1,从数据空间S的mXm个单元格中依次取出一个单元格Ci,计算均勾性 度量参数U(S),
[0022] 其中,X(Ci)为当前单元格中数据点集计数,X(Cj)为除当前单元格的其他单元格 中数据点集计数,Ix(Ci)-X(Cj) I不超过相应给定阈值,Num为Ix(Ci)-X(Cj) I不超过相应给 定阈值的单元格总个数;
[0023] 步骤2. 2,若U(S)小于等于相应给定阈值,则单元格(^与c^合并到一个划分,若 大于相应给定阈值,则单元格(^与c,不合并到一个划分;
[0024] 若当前单元格C1没有与任何单元格进行合并,则当前单元格c1单独作为一个划 分;
[0025] 将合并的单元格从数据空间S中移除;
[0026] 步骤2. 3,返回步骤2. 1从数据空间S中依次取出下一个单元格进行处理,直到数 据空间S为空,设得到N个划分,最后得到一个数据空间S的划分集合{Pl,p2,...pn,...pN}, n= 1,2,. ..,N;步骤3,向每个划分中分别添加符合拉普拉斯分布的随机噪声,得到含噪数 据集,包括以下步骤,
[0027] 步骤3. 1,计算符合拉普拉斯分布的随机噪声noise~Lap(Af/e),相应位置参 数为〇,尺度参数为△f/e,其中,△f为全局敏感度;
[0028] 步骤3. 2,从数据空间S的划分集合{Pl,p2, ...pn,...pN}中依次取出一个划分pn, 向划分Pn中添加噪声noise(pn);
[0029] 步骤3. 3,计算划分pn中每个单元格噪声的大小,设某单元格c;为划分pn中所包 含的单元格,相应噪声noise(Ci) =noise(pn)/pn.size(),pn.size()为划分pn中所包含的 单元格个数;
[0030] 步骤3. 4,返回步骤3. 2从数据空间S的划分集合{Pl,p2, ...pn,...pN}中依次取 出下一个划分进行处理,直到数据空间S的N个划分都取完为止,最后得到一个含噪数据集 {无,天,....?,,...元/,,,},每个含噪计数.|;对应一个单元格 (;1;
[0031] 步骤4,基于含噪数据集对外提供数据查询结果,包括以下步骤,
[0032] 步骤4. 1,给定一个查询Q,指定左、上、右、下四个边框的坐标值,Q为正方形或矩 形;
[0033] 步骤4. 2,从数据空间S的mXm个单元格中依次取出一个单元格C1,若C1完全包 含于查询Q,则Q得到单元格C1的噪声计数果'=笨,若C1不完全包含于查询Q,Q与c,的交 集为I1,通过I1的面积与c,面积的比值乘以噪声计数尾得到交集I1中的噪声计数足、
[0034] 步骤4. 3,返回步骤4. 2从数据空间S的mXm个单元格中依次取出下一个单元格 进行处理,直到数据空间S的mXm个单元格都取完为止,求得查询Q包含的单元格中噪声 计数&'之和%
[0035] 步骤4. 4,为查询Q返回含噪结果X6
[0036] 而且,步骤3. 1中,全局敏感度Af= 1。
[0037] 而且,步骤4. 2中,若C1不完全包含于查询Q,Q与单元格ci交集Ii的噪声计数 X' =.yXarea(/)jarea(c),area(Ii)为Q与单元格Ci交集I;的面积,area(c;)为单元格 C1的面积。
[0038] 本发明提供一种地理空间数据的用户隐私保护系统,包括以下模块,
[0039] 数据空间分割模块,用于根据数据域粒度划分模型对数据空间进行分割,包括以 下子模块,
[
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1