一种基于k-匿名的健康数据隐私保护方法

文档序号:9751220阅读:2838来源:国知局
一种基于k-匿名的健康数据隐私保护方法
【技术领域】
[0001] 本发明属于隐私保护领域,尤其涉及一种数据发布过程中的基于κ-匿名的低信息 损失的隐私保护方法。
【背景技术】
[0002] 随着数据挖掘和数据发布等数据库应用的出现与发展,如何保护隐私数据和防止 敏感信息泄漏成为当前面临的重大挑战。隐私保护问题已经成为数据挖掘应用及数据安全 领域的一个主要研究方向。隐私保护技术研究一般是通过改进关联规则、挖掘算法等,或在 数据表发布之前进行隐私保护的相应处理,来实现个体隐私的保护。
[0003] 在早期的研究中,大多数统计问题需要保持发布数据的可用性,统计数据库(SDB) 一般是通过访问控制的机制和策略对不同的用户赋予不同的数据访问权限,然而随着数据 挖掘技术的不断发展,个人隐私泄漏问题越来越严重,人们对隐私保护的需求日益高涨,之 前所提出来的相关技术已经无法满足人们越来越高的隐私保护需求,与此同时,随着各类 共享信息的不断增多和搜索技术的不断进步,越来越多的个人隐私信息被发掘出来。目前 防止隐私泄露的方法的主要有抽样、微聚合、Recording、数据约束、向原始数据添加噪声、 数据交换、数据泛化等。
[0004] K-匿名(K-Anonymity)模型在众多的数据挖掘隐私保护模型中以其简单实用而引 起了国内外学者的广泛关注和研究。K-匿名(K-Anonymity)模型是一个典型的数据发布模 型,与基于传统的访问控制等隐私保护技术不同,为了满足匿名的需求,它首先对原始数据 集进行预处理,然后发布经过处理的数据集。K-匿名是在特定的应用背景被提出,在选举、 求职、医疗等需要数据发布的各种应用场合中,既要能把个人的标识信息隐匿起来,还要确 保不能通过发布出来的信息将相关的选民、求职者、病患的隐私信息推导出来,这就是数据 发布中隐私保护的重要意义所在。
[0005] 传统的K-匿名模型可以有效地防止链接攻击,却无法防止一致性攻击和背景知识 攻击。而目前针对K-匿名进行的改进也多以牺牲信息损失度为代价进行的。

【发明内容】

[0006] 为了解决链接攻击以及传统的K-匿名方法无法防止的一致性攻击,本文提出了基 于三阈值的K-匿名改进方法,即基于K-匿名的健康数据隐私保护方法。该方法具有很高灵 活性,可以根据阈值的设置来改变匿名处理的速度以及信息损失度,该方法包括步骤:
[0007] (1)确定发布数据的标识符属性、敏感属性、准标识符属性;
[0008] (2)依据敏感程度,对敏感属性进行分组,并设置相关的阈值参数;进行过分组之 后得到敏感属性分组S = ( Sgl,Sg2,. . .,Sgm),并设置组隐私约束率a3 = (aSgl,asg2,. . .,aSgm), 且&冲元素的敏感值相同即S中共有m个敏感值;同时设置参数ai,a2的值,ai表示是否对原 始数据直接进行匿名处理的阈值;a 2表示每个等价类中应至少出现的不同敏感值的个数;
[0009] (3)根据阈值&1来判定对数据是否直接进行下一步的聚类处理还是先对原始数据 进行处理使之满足阈值&1的要求;进行al判定,判定阈值al是否得到满足,若得到满足则直 接进入下一环节进行处理,否则,对数据进行处理,将一定比例的隐私约束率为1的数据,即 不需要进行保护的数据直接发布,使剩余的数据满足阈值ai,便得到数据集T。
[0010] (4)对步骤(3)得到的数据集T进行聚类处理;
[0011] 步骤4.1,判断敏感属性值的个数是否大于a2,是则执行下一步,否则跳出流程;定 义QIS={},QIS为等价类的集合;
[0012] 步骤4.2,从数据集T中随机选取一个元组t,T = T-{t};生成聚类集C = {t},把t作 为聚类的中心;
[0013] 步骤4.3,如果C中敏感属性组个数小于a2,则从T中寻找一个元组ti,t与ti中的敏 感属性值属于不同的敏感属性组,且Dis(t,ti)的值最小;C = CU {ti} ;T = T_{ti};直至C中 的敏感属性组个数为a2个;
[0014] 用下述公式计算元组tl和t2的距离:
[0015]
/=1
[0016] 数值型数据之间的距离使用下述公式进行计算:
[0017]
[0018] 分类型数据之间的距离使用下述公式进行计算:
[0019]
[0020] 步骤4.4,当C中元组个数小于K时,从T中找一个元组使得与聚类集C的距离最 小;统计聚类集C中与元组属于同一个敏感属性组的个数I Sgl I,计算GPleak(Sgl);如果 GPleak(Sgi) < asgi,则进行下面操作,C = CU {tj} ;T = T-{tj}。将得到的聚类集C存放在QIS 中,K为每个聚类中元组的个数;
[0021] 步骤4.5,重复前面的步骤,直至T中的数据都经过了匿名化处理;
[0022] (5)对经过聚类得到的数据进行泛化;
[0023]将一个聚类内的数据泛化为一个值,具体操作如下:
[0024]步骤5.1,制定泛化格;
[0025]步骤5.2,泛化时泛化规则从泛化格底部开始选择,判定能否将所有聚类集进行泛 化,如可以则选择该泛化策略,否则根据泛化格向上选取下一个泛化策略;
[0026] (6)获得经过匿名化的数据集Τ'。
[0027] 本发明的有益效果是:在安全性方面,一、对数据进行Κ-匿名处理,因此处理后的 数据可以抵抗链接攻击;二、对数据进行匿名处理的过程中进行了 a2阈值的限定从而可以 有效地防止一致性攻击。在效率方面,该发明设置了阈值,从而使得匿名处理更加灵活, 对于只有少量的用户信息具有较高的保护要求时,可以只对部分数据进行匿名化处理。同 时也可以根据实际情况来对灵活地设置 ai的取值,来平衡处理速度与信息损失度的关系。
【附图说明】
[0028]图1示出了本发明一种基于K-匿名的健康数据隐私保护方法的流程图;
[0029]图2示出了该方法中阈值al判定流程;
[0030]图3示出了聚类处理的方法流程;
[0031]图4示出了本实施实例中应用的泛化技术;
[0032]图5示出了本实施实例中泛化格的处理技术;
[0033]图6示出了本实施实例使用泛化格操作流程。
【具体实施方式】
[0034]下面结合附图和实施例对本发明做进一步说明:
[0035] -种基于K-匿名的健康数据隐私保护方法,包含以下步骤:
[0036] 确定发布数据的标识符属性、敏感属性、准标识符属性;
[0037] 标识符属性:数据表中的某属性如果能够唯一标识出个体身份,即能够直接确定 某个具体的个体,例如姓名、护照号、电话号码等属性,这样的属性就称为标识符属性。数据 发布时,一般直接从表中移除该属性。
[0038] 准标识符属性((>)皿8;[-1(16111^;^6^,(>)1) :准标识符属性是同时存在于发布数据表 和外部数据源表中的一组属性,例如邮编、出生日期、性别的属性集合。利用该属性集合对 数据表进行链接,推导出标识个人的隐私信息,该属性集合称为准标识符属性。
[0039] 敏感属性(Sensitive Attribute):发布数据时,个体不愿意其他用户所知道的信 息属性,即需要被保护的属性,例如疾病信息、个人收入、婚姻状况等。
[0040] 如图1所示,本实施包括属性分组,阈值确定,聚类,泛化模块。具体为:
[0041 ]步骤1,对信息中的敏感属性进行分组,如疾病信息为敏感属性,可将疾病信息进 行分组,将艾滋病、癌症等隐私性强的疾病信息分为一组,将高血压、糖尿病分为一组,发 烧、感冒分为一组(分组是根据疾病的敏感程度来进行的)。进行过分组之后可以得到敏感 属性分组S = ( Sgl,Sg2,· · ·,Sgm),并设置组隐私约束率a3 = (aSgl,aSg2,· · ·,aSgm),且Sgi中兀素 的敏感值相同即S中共有m个敏感值。设置参数ai,a 2的值。&1表示是否对原始数据直接进行 匿名处理的阈值,只有当敏感属性中不能直接发布的元组的比例达到 &1时,才对数据进行 匿名化处理,否则先对其进行相应处理,如此,本算法更加灵活,系统开销也能够得到更好 地控制; &2表示每个等价类中应至少出现的不同敏感值的个数,此做法是为了进一步提升 算法的安全性。
[0042]等价类E的定义:
[0043]给定数据表AT,其准标识符属性为QI,则AT在QI上具有相同映射值的所有元组构 成等价类E。即等价类E中所有元组在QI上的属性值是不可区分的。
[0044] 定义8、组隐私泄露约束定义:
[0045]给定数据集D,准标识符属性QI,敏感属性组S为敏感属性值的集合,且S={sgl, sg2, · · ·,sgm}为敏感属性根据敏感性的一个分组,((E,Sgi))表示在等价类E中敏感属性组s gi 的隐私程度,33为专家(8卩人为)设置的参数,0〈33〈=1,3!^1,3!^2,...,3¥分别为各个敏感组 的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1