一种基于隐私保护的数据索引方法

文档序号:6622400阅读:463来源:国知局
一种基于隐私保护的数据索引方法
【专利摘要】本发明公开了一种基于隐私保护的数据索引方法,属于数据处理【技术领域】。本发明包括:提出了一种R-tree划分算法,使得任意两个叶子节点之间都没有重叠,在叶子节点上独立地添加噪音使得本地索引PR-tree满足差分隐私;针对选取的部分PR-tree节点,采用了一种映射机制将每一个PR-tree节点映射到相应的CAN服务器上从而构建全局索引。本发明设计了一种基于隐私保护的两层分布式索引PR-CAN给用户提供范围计数查询,不仅能够有效地保护用户隐私安全而且加快了用户查询的速度,提升了查询吞吐率,同时所有查询用户都能够访问云平台上的索引数据,增强了数据的共享程度。
【专利说明】一种基于隐私保护的数据索弓I方法

【技术领域】
[0001]本发明属于数据处理【技术领域】,更具体地,涉及一种基于隐私保护的数据索引方法。

【背景技术】
[0002]随着云计算应用的发展,云计算中的隐私保护问题受到越来越多研究者的关注。目前,云计算中面向查询处理的隐私保护技术主要是基于加密的方式。在众多相关研究中,可查询的加密技术能够有效地通过加密的方式保护个体的隐私,允许用户安全地在密文上进行查询。数据拥有者发布到云服务器上的数据是以加密的方式存储的。用户的查询也用相同的方式加密,查询请求发送到云服务器进行查询处理,最后将结果返回给查询用户。但是加密技术也存在一些弊端,例如加密/解密操作的时间开销很大,查询响应时间必然较长,而且只有授权用户能够访问加密后的云数据,数据的共享程度不足。
[0003]目前,隐私保护中的匿名化技术及噪音扰乱技术被广泛应用于数据隐私安全领域中,其不需要对数据进行加密/解密操作,同样也能为用户数据提供强隐私保护。近年来,差分隐私已经成为一种新的隐私保护模型,该模型通过向查询或者分析结果中添加噪音以达到隐私保护效果,最常见的算法是采用噪音添加机制,并且这种噪音的添加服从拉普拉斯分布。
[0004]为了使查询用户能够更好、更快地访问云平台上的数据,在云平台上构建高效的索引显得尤为重要。目前已经有很多研究者对云计算环境下的分布式索引技术展开了深入的研究。然而,如何在构建索引的同时保护用户数据的隐私,为查询用户提供基于隐私保护的数据发布视图还很少有人研究。


【发明内容】

[0005]针对现有技术的缺陷,本发明的目的在于提供一种基于云平台隐私数据的索引方法。数据拥有者将数据托管到云平台上,必须要保证用户的隐私信息不被泄露。同时云平台会对数据建立高效的索引,方便用户进行快速的查询。云数据对所有的用户共享,即所有的用户都可以访问云数据。
[0006]为实现上述目的,本发明提供一种基于隐私数据保护的索引方法,包括以下步骤:
[0007]步骤I创建基于差分隐私保护的本地索引PR-tree,具体包括以下子步骤:
[0008](1-1)本地数据采用R-tree索引;
[0009](1-2)对所述R-tree索引重新进行划分,使得任意两个叶子节点的范围都不存在相互重叠的情形,且所有叶子节点索引的数据加起来正好是整个数据集;
[0010](1-3)在每一叶子节点索引的数据上独立地添加噪音,创建满足差分隐私要求的本地索引PR-tree ;
[0011]步骤2构建分布式全局索引PR-CAN,具体包括以下子步骤:
[0012](2-1)采用索引选取算法,从每个本地索引PR-tree上选取部分PR-tree节点形成节点集,其中所述索引选取算法保证选取的节点产生最小的查询开销总和;
[0013](2-2)将选取的每一个PR-tree节点映射到相应的CAN节点上。
[0014]通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
[0015](I)与现有算法Quad-opt相比,分布式索引PR-CAN在提供同等隐私保护力度的情形下,能够保证更高的数据可用性。这是因为分布式索引PR-CAN采用了 R-tree索引方式将数据层面上相隔较近的数据划分到了一个区域中,而不是简单地将数据空间进行分割。另一方面,也是因为分布式索引PR-CAN采用了较好的噪音添加机制,只在互斥的叶子节点上独立地添加了噪音,对上层节点不添加任何噪音;
[0016](2)采用噪音扰乱的方式对数据信息进行了强隐私保护,避开了操作耗时的加密/解密技术。查询用户发送查询请求后,就能较快速地从系统获取查询的结果值,不需要繁琐的交互时间开销;
[0017](3)构建的全局索引并不是全部的PR-tree索引节点,也不是简单地存放在Master节点上,而是选取部分PR-tree节点构建而成,全局索引分布在不同的服务器上,这样能够避免Master节点成为索引查询的性能瓶颈。

【专利附图】

【附图说明】
[0018]图1是本发明分布式索引PR-CAN的框架图;
[0019]图2是本发明基于隐私保护的数据索引方法的流程图;
[0020]图3是本发明构建全局索引PR-CAN的详细流程图;
[0021]图4是本发明查询请求的处理流程图;
[0022]图5是本发明本地索引PR-tree的查询处理流程图。

【具体实施方式】
[0023]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0024]图1所示为本发明基于隐私保护的分布式索引PR-CAN的框架图。图中的服务器节点按职能分为三种=Master节点、存储节点和CAN节点。分布式存储系统就是由存储节点构成,每一个存储节点负责存放一部分的应用数据,然后在这些数据之上构建一个满足差分的本地索引PR-tree,为用户提供基于隐私保护的范围计数查询。在本地索引PR-tree之上,还构建了一层辅助索引,即全局索引PR-CAN,该全局索引PR-CAN分布式存放于CAN节点之上,并由CAN覆盖网络组织。其中起到关键作用的是Master节点,其负责整个索引的构建和查询处理过程,并且需要实时地和客户端及其他节点保持通信。一方面,Master节点需要将客户端传送来的查询负载按照一定的策略分布式发送给其他节点;另一方面,从每个本地索引上查询到的部分结果最终也要在Master节点上汇集,然后将查询结果返回给客户端。
[0025]图2所示为本发明基于隐私保护的数据索引方法的流程图,具体包括以下步骤:
[0026](I)创建基于差分隐私保护的本地索引PR-tree,具体包括以下子步骤:
[0027](1-1)在初始化情况下,本地数据采用R-tree索引,同层节点之间可能存在重叠区域。
[0028](1-2)对R-tree索引重新进行划分,使得任意两个叶子节点的范围都不存在相互重叠的情形,即相当于所有新的叶子节点将整个数据空间做了一个互斥的划分,且每一个叶子节点索引的数据加起来正好是整个数据集,非叶子节点包含的数据个数由其孩子节点所包含的数据求和而得。
[0029](1-3)在每一个新的叶子节点索引的数据上独立地添加噪音,然后将添加了噪音的数据发布出去,使得R-tree索引满足差分隐私保护的要求,以下简称为PR-tree索引。
[0030]在本发明实施例中,采用添加噪音的方式实现差分隐私。对于提供差分隐私的随机函数Α,只要随机函数A能够满足差分隐私模型的具体要求,攻击者就窃取不了目标对象的隐私信息。具体地,添加的噪音服从参数为s (f)/e的拉普拉斯分布,其中s (f)为敏感度,ε为隐私预算。
[0031](2)创建基于内容寻址网络(Content Addressable Network,以下简称CAN)的分布式索引PR-CAN,这里PR-CAN索引包含了基于差分隐私保护的本地索引PR-tree和在本地索引之上的一层全局索引。构建的全局索引分布式存放于多台服务器上,这样能够避免将全局索引存放于一台服务器上造成的性能瓶颈。具体包括以下子步骤:
[0032](2-1)采用索引选取算法,从每个本地索引PR-tree上选取部分PR-tree节点形成节点集。该索引选取算法是自适应的,根据给定的具体查询负载,能够保证选取的节点产生最小的查询开销总和。
[0033](2-2)将选取的所有PR-tree节点映射到相应的CAN节点上,每一个PR-tree节点可能拥有多个副本。
[0034](3)执行索引微调算法,调整上述选取的PR-tree节点集以适应实时查询的具体需求。具体地,如果在实时查询中,有些节点被访问的频率过高,就用其孩子节点替换该节点进行发布;如果有些节点被访问的频率过低,就将其用其父亲节点替换该节点进行发布。
[0035]图3所示为本发明构建全局索引PR-CAN的详细流程图。在本发明实施例中,给定任意一个本地索引PR-tree和阈值Vthri,具体包含以下步骤:
[0036](I)采用索引选取算法从当前本地索引PR-tree上选取部分PR-tree节点放入集合之中,得到初始化结点集S。假定存储服务器Ni选取了部分PR-tree结点集S,索引选取算法必须保证结点集S的两个特性:完整性(3% ^S,Vt^Ni,数据t 一定能够被PR-tree结点Iii检索到),独一性(给定结点集S中的任意两个PR-tree结点不存在同一条从某个叶子结点到根结点的路径)。
[0037]为了更好地说明索引选取算法,引入了查询开销模型,该索引选取算法能够保证针对当前查询获取最小的查询开销。具体地,只考虑单个查询q的查询处理开销模型Cp (q),包含以下三个方面的查询开销:
[0038]给定一个查询q,路由到每一个与待查范围相交的CAN节点上的开销是

【权利要求】
1.一种基于隐私保护的数据索引方法,其特征在于,包括: 步骤I创建基于差分隐私保护的本地索引PR-tree,具体包括以下子步骤: (1-1)本地数据采用R-tree索引; (1-2)对所述R-tree索引重新进行划分,使得任意两个叶子节点的范围都不存在相互重叠的情形,且所有叶子节点索引的数据加起来正好是整个数据集; (1-3)在每一叶子节点索引的数据上独立地添加噪音,创建满足差分隐私要求的本地索引 PR-tree ; 步骤2构建分布式全局索引PR-CAN,具体包括以下子步骤: (2-1)采用索引选取算法,从每个本地索引PR-tree上选取部分PR-tree节点形成节点集,其中所述索引选取算法保证选取的节点产生最小的查询开销总和; (2-2)将选取的每一个PR-tree节点映射到相应的CAN节点上。
2.如权利要求1所述的方法,其特征在于,还包括: 步骤3执行索引微调算法,调整所述步骤(2-1)形成的节点集以适应实时查询的具体需求,如果在实时查询中有些节点被访问的频率过高,就用其孩子节点替换所述节点进行数据发布;如果有些节点被访问的频率过低,就将其用其父亲节点替换所述节点进行数据发布。
3.如权利要求1或2所述的方法,其特征在于,所述步骤(1-3)添加的噪音服从参数为s(f)/e的拉普拉斯分布,其中s (f)为敏感度,ε为隐私预算。
4.如权利要求1或2所述的方法,其特征在于,所述步骤(2-1)中,所述选取的节点产生的查询开销总和包含以下三个方面的查询开销: (a)将单个查询q路由到每一个与待查范围相交的CAN节点上的开销是
,其中N是网络中组织的服务器个数,t是范围与所述查询q的待查范围有重叠的CAN服务器个数,d是数据维度; (b)在查询过程中可能出现某个待查CAN节点的全局索引中,没有一个索引项与所述查询q的查询范围有重叠,记这种无效的过程开销为
,其中Sfk(Nm)表示CAN节点Ntji中与查询范围不相交的所有全局索引项,m是CAN节点的个数; (C)虽然某些候选节点的范围与所述查询q的查询范围有重叠,但也有可能查询不到任何满足条件的结果,记这种无效查询过程引发的开销为
、其中Spi(Nsi)表示选取于Nsi本地索引的所有候选PR-tree节点集,Ns为存储服务器的个数,C为PR-tree节点的最大分支数,h」表示PR-tree节点η」所在本地索引PR-tree的高度,则Clfty可以看作在以所述PR-tree节点η」作为根节点的子树上做查询时所经过的总的节点数。
5.如权利要求1或2所述的方法,其特征在于,所述步骤(2-2)具体包括以下子步骤: (2-2-1)判断所述步骤(2-1)形成的所述结点集是否为空,是则结束流程,否则执行步骤(2-2-2); (2-2-2)对于结点集中的每一个PR-tree节点叫,计算其中心点Ci和半径Ri ;(2-2-3)对于给定的阈值vthri,如果Ri > Vthrd,则所述PR-tree节点Iii将被映射到所有与其范围有重叠的CAN节点上;如果Ri ( Vthrd,则所述PR-tree节点Iii就会被映射到一个范围包含了所述中心点Ci的CAN节点上; (2-2-4)对于所述步骤(2-2-3)中每一个满足条件的CAN节点,将所述PR-tree节点Iii作为一个索引项插入到其全局索引之中,再执行步骤(2-2-1)。
6.如权利要求1或2所述的方法,其特征在于,所述步骤(1-3)中所述本地索引PR-tree的查询处理具体包括以下步骤: 步骤A判断查询范围R是否包含根节点T的最小边界矩形,如果所述根节点T的所述最小边界矩形完全包含在所述查询范围R之中,则将所述根节点T索引的数据个数添加到查询结果之中,输出查询结果后流程结束,否则执行步骤B ; 步骤B判断所述根节点T是否为叶子节点,如果所述根节点T不是叶子节点,判断所述根节点T的每一个分支E是否与所述查询范围R有重叠区域,如果有重叠区域,则对于每一个与所 述查询范围R有重叠区域的孩子节点Ei,算法将递归执行,所述根节点T被赋值为Ei,所述查询范围R不变,然后执行所述步骤A ;如果没有重叠区域,则流程结束;如果所述根节点T是叶子节点且所述最小边界矩形与所述查询范围R存在重叠区域Area (R Π T),则执行步骤C ; 步骤C计算所述重叠区域Area (R Π T)大小与所述根节点T的所述最小边界矩形大小的比例
,然后将所述比例f乘以所述根节点T索引的数据个数后添加到查
询结果中并输出查询结果。
【文档编号】G06F17/30GK104133903SQ201410379668
【公开日】2014年11月5日 申请日期:2014年8月4日 优先权日:2014年8月4日
【发明者】丁晓锋, 金海 , 喻青, 徐慧 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1