一种基于差分隐私预算分配的数据查询方法及系统与流程

文档序号:14774436发布日期:2018-06-23 02:41阅读:2864来源:国知局
一种基于差分隐私预算分配的数据查询方法及系统与流程

本发明涉及一种数据查询服务中的差分隐私预算分配方案,属于信息安全技术领域。



背景技术:

信息时代的飞速发展,使得数据的获取变得日益容易,这为数据查询的安全性提出了更高的要求。随着隐私保护技术的提出与发展,差分隐私保护方法成为目前一种热门的隐私保护技术。隐私预算如何分配是差分隐私保护技术中经常涉及到的重要问题。差分隐私通过噪声机制实现,即向输出结果中添加随机噪声来保护数据安全,添加的噪声越大,数据越安全,然而,数据的可用性越低,反之亦然。

对于差分隐私预算ε的无穷分配,较为常规的一种思路是二分法,即分配给第i次查询的隐私预算这一方案简单易操作,但是会导致隐私预算耗尽过快,在查询次数较大时,分得的隐私预算接近于0,因此效果并不理想。



技术实现要素:

本发明所要解决的问题就是针对背景技术中的缺陷,本发明提出一种数据查询服务中可行的差分隐私预算分配方案,实现隐私预算ε的无穷分配,即从而使得无穷次数据查询满足ε-差分隐私保护要求。

为了解决上述问题,采用如下技术方案:

一种基于差分隐私预算分配的数据查询方法,该方法包括以下步骤:

步骤一、根据隐私保护需求程度,设定差分隐私预算总量ε;

步骤二、生成差分隐私预算序列:

计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},i∈N+,其中N+为所有大于0的正整数集合,根据级数和公式:

εi的取值由下列公式计算:

则有n为自然数;

步骤三、根据用户提交的查询以及该查询的敏感度,采用差分隐私机制计算随机噪声;

步骤四、计算含有噪声的查询结果,并向用户返回该结果。

进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,步骤一中设定差分隐私预算总量ε∈[0.01,1]。

进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,ε的大小决定了差分隐私方法对隐私的保护的安全程度,ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。

进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,计算随机噪声具体如下:

记fi为用户提交的第f个查询,Δfi是该查询的敏感度,根据差分隐私机制,生成服从Laplace分布的随机噪声,记为η,

进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,所述Laplace分布的位置参数为0、尺度参数为λ,记为Laplace(λ),其概率密度函数如下:

其中:λ为尺度参数,e为自然常数。

进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,查询的敏感度与查询种类有关;对计数查询,敏感度值取1。

进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,在步骤四中,对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。

本发明还提出一种基于差分隐私预算分配的数据查询系统,包括:

差分隐私预算总量设定模块,用于根据隐私保护需求程度,设定差分隐私预算总量;

差分隐私预算序列生成模块,用于计算在每次数据查询中的差分隐私预算,生成差分隐私预算序列;

随机噪声计算模块,用于根据用户提交的查询、该查询的敏感度,采用差分隐私预算序列计算随机噪声;

查询结果返回模块,用于计算含有噪声的查询结果,并向用户返回该结果。

本发明采用上述技术方案,与现有技术相比,具有以下技术效果:

本发明针对现有技术中隐私预算耗尽过快的缺陷,提出一种更为理想的分配方案,使得差分隐私预算消耗得更为缓慢,本发明方法简单、易操作且不限制查询种类,既保证了隐私预算可以无穷分割,满足差分隐私保护条件,又能保证添加噪声的增加速度变慢,使发布的数据尽可能反映真实数据,且又保护了数据的隐私。

附图说明

图1是本发明的差分隐私预算序列{εi}生成流程图。

图2是无穷次数据查询的噪声结果生成流程图。

具体实施方式

下面结合附图对本发明的技术方案的实施作进一步的详细描述,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

在数据查询服务中,记作用于数据集D上的随机算法为Mi(f∈N+),满足Mi(D)=fi(D)+η,其中fi(D)为查询fi的真实结果,Δfi为查询fi的敏感度,εi为隐私保护预算。根据差分隐私的序列组合性质,如果则算法M(M1(D),M2(D),...)提供ε-差分隐私保护,即无穷次数据查询不违背ε-差分隐私保护要求。基于此,本发明提出一种基于差分隐私预算分配的数据查询方法,该方法包括以下步骤:

步骤一:设定差分隐私预算总量

取差分隐私预算总量ε∈[0.01,1],ε的大小决定了差分隐私方法对隐私的保护的安全程度。ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。不同的保护需求决定了ε的不同取值。

步骤二:生成差分隐私预算序列

计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},f∈N+,其中N+为所有大于0的正整数集合。根据级数和公式:

εi的取值可由下列公式计算:

则有满足差分隐私序列组合性质。

步骤三:根据用户提交的查询,计算随机噪声

记fi为用户提交的第f个查询(f∈N+),Δfi是该查询的敏感度,与查询种类有关。对计数查询,敏感度值取1。所述Laplace分布的位置参数为0、尺度参数为λ,记为Laplace(λ),其概率密度函数如下:

其中:λ为尺度参数,e为自然常数。

根据差分隐私机制,生成服从Laplace分布的随机噪声,记为η,

步骤四:计算含有噪声的查询结果

对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。

步骤五:向用户返回噪声结果

针对用户的上述查询fi(f∈N+),返回用户查询结果Mi(D)。由于Mi(D)中包含了满足差分隐私保护的随机噪声,真实数据得到了保护。

以下进一步介绍本发明的具体实施例:

本发明的差分隐私预算序列{εi}生成方式如图1所示,令ε=0.1,因为所以有:

美国年龄收入数据共有21583529条记录,记该数据集为D。每条记录包含了年龄和收入信息,下面对该数据集进行查询。为了简化操作,我们设查询集F={f|f求收入在区间[2000,5000]内的总人数},即f1=f2=...=fn=...=f,Δf1=Δf2=...=Δfn=...=Δf=1,f1(D)=f2(D)=...=fn(D)=...=f(D)=941026。

如图2所示,无穷次查询实现过程如下:

Step 1初始化f=1;

Step 2输入fi;

Stcp 3生成εi,并产生随机噪声

Step 4计算Mi(D)=fi(D)+η;

Step 5输出Mi(D);

Step 6f++;

Step 7转Step 2。

作为本发明进一步的具体实施例,无穷次数据查询的噪声结果生成过程如下:

(1)当用户提交查询f1时,将产生一个随机噪声即

例如,η=2.0453,那么查询f1的噪声结果M1(D)=941026+2.0453=941028.0453。

(2)当用户提交查询f2时,将产生一个随机噪声即例如,η=-2.6791,那么查询f2的噪声结果M2(D)=941026-2.6791=941023.3209。

(3)当用户提交查询f3时,将产生一个随机噪声即例如,η=10.3418,那么查询f3的噪声结果M3(D)=941026+10.3418=941036.3418。

(4)后面的查询以此类推。

经过100次查询,消耗的隐私预算量累计为:0.099009900990099;

经过1000次查询,消耗的隐私预算量累计为:0.099900099900100。

综上所述,本发明提出了一种差分隐私预算分配方案,通过对隐私预算总量ε进行无穷次、非均匀分割,从而实现无穷次数据查询消耗的隐私预算永远小于等于隐私预算总量,根据差分隐私的序列组合性质,无穷次查询始终满足ε-差分隐私保护要求。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1