一种列联表数据发布的隐私保护方法

文档序号:6626464阅读:196来源:国知局
一种列联表数据发布的隐私保护方法
【专利摘要】本发明公开了一种列联表数据发布的隐私保护方法,属于计算机数据隐私保护领域。本发明包括:确定列联表内每个分组的初始替换基数和最终替换基数,记录敏感值基于指数机制进行的随机替换,重新计算替换后的每个分组并输出新的列联表。本发明能够使处理后的列联表满足e-差分隐私的安全需求,同时支持任意原数据所支持的查询,并且处理后的数据误差小,精确度高,使得数据可用性更强。
【专利说明】一种列联表数据发布的隐私保护方法

【技术领域】
[0001] 本发明属于计算机数据隐私保护【技术领域】,更具体地,涉及一种列联表数据发布 的隐私保护方法。

【背景技术】
[0002] 数据发布的隐私保护技术是近年来数据挖掘领域的一项研究热点。随着大数据时 代的到来,越来越多的数据正在被一些统计机构采集和分析。有时,这些机构会发布一些数 据供第三方使用,而这些数据可能涵盖数据被采集者的一些敏感信息,例如某病人患有某 种疾病等。因此,直接发布这些数据会造成数据被采集者的隐私泄露。为了保护数据被采 集者的隐私,数据发布方必须采取隐私保护措施。
[0003] 列联表(Contingency Table)指的是按两个或多个属性将数据分类时所列出的频 数表,是一种典型的非交互式数据发布形式。例如,在发布数据的时候,按"准身份标识属 性"与"敏感属性"将数据分类,排列为一个mXn的二维列联表,记作T。准身份标识属性 指的是类似"性别"、"年龄"、"邮编"这种可以通过联接外部数据获取个体身份的属性,记作 UQI = {qVl,qv2, . . .,qvm},包含m个变量值。敏感属性指的包含个体隐私信息的属性,例如所 患疾病等,记作US= {8¥1,8¥2,...,8¥11},包含11个变量值。二维列联表1'中的分组1'(3,;〇 表示准身份标识属性值为qv a、敏感属性值为SVi的样本个数。
[0004] ε -差分隐私(ε-Differential Privacy)是一种隐私安全模型,其假设一个足 够强大的攻击者对于整个数据集有且仅有一个元素是未知的,并要求一个安全的算法应该 保证无论一个用户是否出现在该数据集中,都不会给查询结果造成显著差异。参数ε限制 了元素"在"与"不在"数据集中的可能性之间的差异程度。ε越小,差异性就应该越小,安 全要求也越高。基于ε-差分隐私模型的算法都采用随机机制,让攻击者根据输出结果无 法分辨某个目标人物是否出现在原数据集中。
[0005] 给定一个隐私保护机制Μ和数据集D,如果对于任意数据集D'(D与D'最多相差一 个元素),以及

【权利要求】
1. 一种列联表数据发布的隐私保护方法,其特征在于,包括: 步骤1确定列联表T的每个分组T (a,i)的替换基数Φ (a,i),包括以下子步骤: (1-1)确定每个分组T(a,i)的初始替换基数(^(a,i),其中,1彡a彡m,1彡i彡η ; (1-2)为每个初始替换基数Oja,i)加上一个随机非负整数yi,得到每个分组T(a,i) 的所述替换基数Φ (a,i); 步骤2对于每一个分组T (a,i),根据其所述替换基数Φ (a,i),取任意Φ (a,i)条记 录,将其原有的敏感值随机替换为敏感属性集合Us中的任意敏感值,其中,所述敏感属性 集合Us为包含个体隐私信息属性的集合; 步骤3重新计算每个分组T(a,i)的记录个数,得到新分组f(a,i)并输出。
2. 如权利要求1所述的方法,其特征在于,在所述子步骤(1-1)中,所述初始替换基数 Φ(Ι(3, i)按照如下公式确定:
即当所述分组T(a,i)的记录个数大于等于1的时候,其初始替换基数Oja,i)设为 1 ;当所述分组T(a,i)的记录个数等于0的时候,其初始替换基数Oja,i)设为0。
3. 如权利要求1或2所述的方法,其特征在于,在所述子步骤(1-2)中,由拉普拉斯 分布产生随机正整数Y,再将所述随机正整数Y按均匀分布随机分配为η个正整数之和,即
其中,η表示所述列联表Τ的列数。
4. 如权利要求1或2所述的方法,其特征在于,在所述步骤2中,所述敏感值的随机替 换基于指数机制,即所述敏感属性集合Us中元素被随机抽样的概率为 :
其中,dist (sVi, sVj)表示敏感值sVi与sVj之间的距离;λ = Δ dist/ε,Δ dist表示 距离函数dist的敏感度,ε表示用户自定义的安全参数。
5. 如权利要求1或2所述的方法,其特征在于,所述步骤3中计算所述新分组f(a,i) 的值的方法为由每个分组T(a,i)减去被替换的记录个数,再加上新添加的记录个数而得。
【文档编号】G06F21/60GK104216994SQ201410457822
【公开日】2014年12月17日 申请日期:2014年9月10日 优先权日:2014年9月10日
【发明者】丁晓锋, 金海 , 欧洋伶 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1