一种基于直方图的面向数据流差分隐私发布方法

文档序号:9327243阅读:310来源:国知局
一种基于直方图的面向数据流差分隐私发布方法
【技术领域】
[0001] 本发明涉及差分隐私发布技术领域,特别是涉及一种基于直方图的面向数据流差 分隐私发布方法。
【背景技术】
[0002] 由于信息化技术的快速发展,用户的隐私信息泄露的问题逐渐凸显,隐私保护技 术也引起人们的关注。差分隐私是一种强隐私保护模型,该模型假定攻击者具有除某一条 记录以外的其他所有记录信息,即使在这一最大化背景知识下,差分隐私仍然能保证这条 记录的隐私信息不被泄露。
[0003] 目前关于数据流的差分隐私发布技术主要针对的是{〇, 1}所组成的二进制流,这 些方法不足以应用于真实的应用程序中,真实的应用程序是基于窗口的,并且数据流也不 会仅仅局限于二进制流,而应是任意数值型数据流。由于每个窗口中的隐私预算是固定的, 若考虑给每个子窗口分配相同的隐私预算,当窗口的大小增大时,每个子窗口分配的隐私 预算会减小,使得添加的噪声增大,导致数据的可用性降低。面向更一般的数据流,如何在 保证每个窗口中的隐私总预算不超过ε时,合理的分配隐私预算,并且能有效的快速发布 直方图统计信息,同时保证数据具有一定的可用性,成为一项急需解决的任务。

【发明内容】

[0004] 本发明所要解决的技术问题是提供一种基于直方图的面向数据流差分隐私发布 方法,以达到每个窗口中隐私总预算不超过ε时,发布数据的可用性较好。
[0005] 本发明解决其技术问题所采用的技术方案是:提供一种基于直方图的面向数据流 差分隐私发布方法,包括以下步骤:
[0006] (1)对于每一个时刻i,数据流接收的数据集为D1,对数据集D1中属性A出现的不 同元素值进行统计,并按照元素值的大小升序排列,对频数进行归一化处理为P ;
[0007] (2)记最后一次发布的含噪局部最优直方图所对应的真实数据的分布归一化后为 Q,计算 P 与 Q 的 EMD (Earth Mover' s Distance)相似度 τ ;
[0008] (3)若τ > σ,则给数据集D1分配隐私预算
给数据集〇1添加相应的拉普拉斯噪声得到数据集O1,其中,σ为设定的阈值,ε为隐私总 预算,w为滑动窗口大小,ε ]为第j个子窗口已分配的预算大小;
[0009] (4)对数据集O1利用分组与合并策略,进行局部最优直方图发布。
[0010] 所述步骤⑶中若τ彡〇时,则不发布数据集D1,即数据集O 1= null。
[0011] 所述步骤⑶中数据集O1= Djs Lap(Ai) >m,其中,
普拉斯噪声、m的大小为数据集D1中属性A出现的不同元素值的个数。
[0012] 所述步骤⑶中若在一个窗口内,数据集连续突变,为了减缓入馮增速度,需减 缓ε i的分配,则给数据集D i分配隐私预算
[0013] 所述步骤(4)中局部最优直方图发布包括以下子步骤:
[0014] (41)假设每个分组为包含固定长度L个不同的含噪统计结果值,则将数据集仏分 成[m/L]个不相交的组;
[0015] (42)对每个分组进行最优直方图算法,计算出每个分组所对应的最优直方图划分 结果;
[0016] (43)对所有分组的最优直方图结果进行合并,得到局部最优直方图发布。
[0017] 有益效果
[0018] 由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效 果:本发明基于滑动窗口模型下,利用相邻两个时间戳的数据集分布的相似性,来动态合理 分配隐私预算,使得每一个窗口的总预算不超过ε,并利用分组与合并策略,快速计算出局 部最优直方图,从而达到高效的动态流式差分隐私发布策略。
【具体实施方式】
[0019] 下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明 而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人 员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定 的范围。
[0020] 本发明的实施方式涉及一种基于直方图的面向数据流差分隐私发布方法,包括以 下步骤:
[0021] 步骤1、对于每一个时刻i,数据流接收的数据集为D1,对数据集D1中属性A出现 的不同元素值进行统计,并按照元素值的大小升序排列,SDi= {{x pl, fpl},{xp2, fp2},. . . {xpm ,ffj},其中1"为元素值的大小,且x Pi< x p2< x P;5< . . < x Pm,为数据集D i中出现x w 的频数。对fw进行归一化处理,即4
(1彡j彡m),则P = {{xpl, wpl},{xp2, w p2^,· · · (Xpm,Wpinl } ο
[0022] 步骤2、记最后一次发布的含噪局部最优直方图所对应的真实数据的分 布归一化后为Q,计算P与Q的EMD相似度。P、Q间EMD相似度的计算公式为:
(1彡i彡m,1彡j彡η),&为Q中的元素值的大小,由于P、Q均为归一化后的数据集,故 可以采用最邻近距离填补法来计算P、Q间EMD相似度τ。
[0023] 步骤3、令阈值为σ ;若τ > 〇,则给D1分配隐私预算
,并给数据集D1 添加相应的拉普拉斯噪声得到数据集O1,其中·
SLap(Ai) >'其中,ε为隐私总预算,w为滑动窗口大小,ε ,为第j个子窗口已分配 的预算大小,< LapO >为拉普拉斯噪声,m的大小为数据集D1中属性A出现的不同元素值 的个数。若在一个窗口内,数据集连续突变,导致A 1W 2的指数递增,使得第i时刻添加 的噪声较大。为了减缓11递增速度,需减缓ε i的分配,故可以采用
时,贝1J不发布Di,即拉普拉斯噪声Oi= null。
[0024] 步骤4、对数据集O1利用分组与合并策略,进行局部最优直方图发布。
[0025] 直方图是一种描述数据统计信息的有效方式,主要是将数据集划分成不相交的 桶。若数据流的数据范围跨度较大,对数据集(^直接进行全局最优直方图发布,算法执行 效率较低,难以满足数据流的快速响应要求。由于数据集D 1中数据统计是按照key值进行 排序的,而桶的合并主要发生在相邻的桶间,故可以直接对整个数据集O1进行分组。
[0026] 局部最优直方图发布策略:
[0027] 1)假设每个分组为包含固定长度L个不同的含噪统计结果值,则将数据集O1分成 m/L个不相交的组。
[0028] 2)对每个分组进行最优直方图算法,计算出每个分组所对应的最优直方图划分结 果。
[0029] 3)对所有分组的最优直方图结果进行合并,得到局部最优直方图发布f= {(I1, Γι,C1),…,(lk,rk,ck)},其中(^为0 i中落在(?,)区间的平均值,其中,1 ,和r ,分 别表示每个桶的左右边界所对应的下标。
【主权项】
1. 一种基于直方图的面向数据流差分隐私发布方法,其特征在于,包括以下步骤: (1) 对于每一个时刻i,数据流接收的数据集为D1,对数据集D1中属性A出现的不同元 素值进行统计,并按照元素值的大小升序排列,对频数进行归一化处理为P; (2) 记最后一次发布的含噪局部最优直方图所对应的真实数据的分布归一化后为Q, 计算P与Q的EMD相似度T;〇1添加相应的拉普拉斯噪声得到数据集O1,其中,〇为设定的阈值,e为隐私总预算,w为 滑动窗口大小,£ 为第j个子窗口已分配的预算大小; (4)对数据集O1利用分组与合并策略,进行局部最优直方图发布。2. 根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于, 所述步骤(3)中若T彡。时,则不发布数据集D1,即数据集O1=null。3. 根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于,声、m的大小为数据集D1中属性A出现的不同元素值的个数。4. 根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于,5. 根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于, 所述步骤(4)中局部最优直方图发布包括以下子步骤: (41) 假设每个分组为包含固定长度L个不同的含噪统计结果值,则将数据集O1分成 「》/£1个不相交的组; (42) 对每个分组进行最优直方图算法,计算出每个分组所对应的最优直方图划分结 果; (43) 对所有分组的最优直方图结果进行合并,得到局部最优直方图发布。
【专利摘要】本发明涉及一种基于直方图的面向数据流差分隐私发布方法,包括以下步骤:对于每一个时刻i,数据流接收的数据集为Di,对数据集Di中属性A出现的不同元素值进行统计,并按照元素值的大小升序排列,对频数进行归一化处理为P;记最后一次发布的含噪局部最优直方图所对应的真实数据的分布归一化后为Q,计算P与Q的EMD相似度τ;若τ>σ,则给数据集Di分配隐私预算,其中,,并给数据集Di添加相应的拉普拉斯噪声得到数据集Oi;对数据集Oi利用分组与合并策略,进行局部最优直方图发布。本发明在保证每个窗口中隐私总预算不超过ε时,发布数据的可用性较好。
【IPC分类】G06F21/60
【公开号】CN105046160
【申请号】CN201510430312
【发明人】夏小玲, 刘慧艺, 石秀金, 王绍宇, 于守健
【申请人】东华大学
【公开日】2015年11月11日
【申请日】2015年7月21日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1