一种基于差分隐私的直方图发布方法

文档序号:8488073阅读:147来源:国知局
一种基于差分隐私的直方图发布方法
【技术领域】
[0001] 本发明涉及数据隐私保护技术领域,尤其涉及一种基于差分隐私的直方图发布方 法。
【背景技术】
[0002] 随着互联网和物联网的快速发展,用户的不断增多,网络上保存了用户大量的信 息,其中有越来越多的数据记录在网络上公开。这些公开的数据集,一方面方便研宄人员 进行相应的科学研宄,另一方面挖掘到的信息也可为提供数据的互联网公司带来更好的服 务,从而提升公司的效益。这些数据不仅包含用户的一些行为信息,而且还包含一些用户不 想公布的敏感信息。在发布数据时,如何保护用户的隐私成为隐私保护领域内的热点问题。
[0003] 早期的数据隐私保护模型,比如k-匿名、1-多样和t-closeness等,虽然对发布数 据做了一些匿名化处理,但是他们的隐私保护强度都很差。这些模型虽然被提出,但是很快 又被攻破,主要因为他们对真实数据做了一些不太合理的假设,并且缺少严格的理论证明。 差分隐私是一种理论性很强的隐私保护模型,而且对攻击者知道的背景知识做了最强的假 设一一攻击者知道除一条记录以外的所有记录。
[0004] 最初的差分隐私模型是针对统计信息的,其直接在原始数据上进行差分隐私处 理,这样发布的数据误差很大,数据有用性非常差。

【发明内容】

[0005] 本发明的目的是提供一种基于差分隐私的直方图发布方法,可以保证差分隐私的 情况下,提升发布数据的有用性。
[0006] 本发明的目的是通过以下技术方案实现的:
[0007] 一种基于差分隐私的直方图发布方法,该方法包括:
[0008] 从原始数据库中非连续区域抽取直方图信息;
[0009] 为抽取的直方图信息添加随机的拉普拉斯噪音,得到满足差分隐私的加噪数据;
[0010] 对该加噪数据进行降低噪音量的后处理,获得可发布的数据。
[0011] 所述降低噪音量的后处理包括:
[0012] 依次执行的基于密度的聚类处理和阈值化处理。
[0013] 所述基于密度的聚类处理包括:
[0014] 计算加噪数据中每个结点i的局部密度Pi;结点i的局部密度为落入以结点i为 球心,以d为半径的高维球内的结点个数,其表式为:
【主权项】
1. 一种基于差分隐私的直方图发布方法,其特征在于,该方法包括: 从原始数据库中非连续区域抽取直方图信息; 为抽取的直方图信息添加随机的拉普拉斯噪音,得到满足差分隐私的加噪数据; 对该加噪数据进行降低噪音量的后处理,获得可发布的数据。
2. 根据权利要求1所述的方法,其特征在于,所述降低噪音量的后处理包括: 依次执行的基于密度的聚类处理和阈值化处理。
3. 根据权利要求2所述的方法,其特征在于,所述基于密度的聚类处理包括: 计算加噪数据中每个结点i的局部密度Pi;结点i的局部密度为落入以结点i为球 心,以d为半径的高维球内的结点个数,其表式为
C中,&为结点i和 结点j的距离,d为距离阈值;x为自定义的函数,如果,&-(!〈0,则x(dij-d) = 1,否则x(dij-d) = 0 ; 计算加噪数据中结点i的最小距离Si;结点i的最小距离为距离比结点i的密度大 的结点集的最小距离,其表示为4 = &(./j;如果结点i的局部密度Pi最大,则si -nicix (d^j); 局部密度超过阈值及最小距离超过阈值的结点为局部密度极大点,而且被一些具有局 部密度小于阈值的结点包围着,将局部密度极大点作为聚类的簇中心点; 计算每个结点到每个簇中心的距离,将其划分到距离其最近的簇中。
4. 根据权利要求2所述的方法,其特征在于,所述阈值化处理包括: 设置一阈值对聚类处理后的数据做阈值化处理,将小于等于该阈值的数据作〇处理。
【专利摘要】本发明公开了一种基于差分隐私的直方图发布方法,该方法包括:从原始数据库中非连续区域抽取直方图信息;为抽取的直方图信息添加随机的拉普拉斯噪音,得到满足差分隐私的加噪数据;对该加噪数据进行降低噪音的聚类和阈值化处理,获得可发布的数据。通过采用本发明公开的方法,可以保证差分隐私的情况下,提升发布数据的有用性。
【IPC分类】G06F21-62
【公开号】CN104809408
【申请号】CN201510237298
【发明人】孙广中, 李小康
【申请人】中国科学技术大学
【公开日】2015年7月29日
【申请日】2015年5月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1