一种基于排序的微聚集匿名化方法与流程

文档序号:14452772阅读:137来源:国知局

本发明涉及一种基于排序的微聚集匿名化方法,属于信息安全领域中的数据隐私保护方法。



背景技术:

在目前信息化时代,数据的发布是有益于数据分析领域的,例如发布选举选票信息,人口普查信息,医疗健康信息等,通过此类信息的挖掘,可以判断选举信息的走势,人口增长的趋势以及国民的健康情况。但这些发布的数据或多或少地包含着某些敏感信息,譬如个人隐私等。为了避免数据隐私外泄的威胁,数据在发布之前应该先对其匿名化处理。

在目前匿名化领域中,最为广泛应用的匿名技术是k-匿名,其主要思想是使得每一条记录至少和其他的k-1条记录无法区分。一般的实现流程是通过属性泛化和局部抑制组合的方式来达到匿名效果,另一种匿名方法是微聚集技术,该方法特别适用于属性无明显泛化层次结构的数据。

微聚集算法将所有的记录划分为不同的类组,不同的类组中所属记录是相对同一的,而每个类组之间必须达到异构的特征,最终使得处理后数据集信息损失率很低。类似的数据集合方式也被称为聚集,所需的隐私级别是由一个安全参数k控制即聚类中记录的最小数目。在本质上,参数k指定最大可接受的风险披露等级,一旦k值被数据保护者所选定,那么剩下的工作就是最大限度地提高数据的可用性。

目前最具代表性的微聚集算法是mdav算法,但是该算法在处理数据时主要的缺点体现在划分与聚集操作两方面,一是在距离计算上缺乏数据集本身多敏感属性特征的考虑,单一的敏感属性使得记录与记录之间距离的运算不具代表性,多维数据集的处理无法实现;二是在形成等价类过程中其类中心的选择机制缺乏系统性的选择规则,类中心的选取具有随机性和不稳定性。这方面的缺陷使得该算法无法应对多维数据集中敏感属性增多的情况,也不能保证其等价类之间相异度最大,所以最终其信息损失率也不能达到最小。



技术实现要素:

发明目的:针对现有技术中多维数据集的处理无法实现和信息损失率略高的不足,本发明结合数据排序划分操作和微聚集技术,提出一种安全性较好且其信息损失率较低的基于排序的微聚集匿名化方法。

技术方案:本发明所述的基于排序的微聚集匿名化方法,该方法包括以下步骤:

(1)排序操作:基于ql准标识符对数据集划分为多个类,使得k-划分是所述数据

集基于ql准标识符的,k是匿名参数,依据数值型属性值对所述数据集排序。

(2)基于排序的划分操作:从排序操作后的数据集初始化的第一条和最后一条两个极端记录开始分别系统地形成等价类,等价类的记录数保持在k之内。

(3)聚集操作:以所述两个极端记录的中心点作为每个等价类的质心点,以所述等价类的均值代替所有的敏感属性值形成匿名等价类。

优选的,步骤(1)中,所述使得k-划分是所述数据集基于ql准标识符的是指符合公式对其中,ni是第i个类的记录数,k是匿名参数,g是指对所述数据集进行划分的类的个数,n是指所述数据集记录总数。

优选的,所述排序操作的具体步骤包括:

1)将所述数据集t,所述数据集记录总数n和所述数据集的属性总数p作为输入,首先定义所述数据集t所有记录的索引,遍历所有属性y1,y2,...,yp,然后遍历所述每个属性下的所有记录yij,yij表示第i个属性的第j个记录;其中,1≤i≤p,1≤j≤n。

2)输出为每一个记录到所述记录相应的质心距离的测度sfj,表示为

3)在所述数据集t中,按照2)中的所述sfj进行升序排列得到所述排序操作后的数据集t'。

优选的,步骤(2)中,所述基于排序的划分操作具体包括:

1)将所述排序操作后的数据集t'作为输入,当所述排序操作后的数据集|t'|≥3k时,找到所述t'中第一条记录和最后一条记录。

2)分别以所述第一条和最后一条记录为等价类中心,与其最近的k-1条记录组成等价类s1、s2,并且把所述等价类在所述数据集t'中删除得到新的数据集t',所述新的数据集t'包含剩下的n-2k条记录。

3)当所述新的数据集2k≤|t'|<3k时,找到所述新的数据集t'中第一条记录和最后一条记录;并分别以此为等价类中心,与其最近的k-1条记录组成等价类s3、s4,并且把此等价类在数据集t'中删除得到最新的数据集t'。

4)当所述最新的数据集|t'|<2k则自成一类s5。

5)将所述1)2)3)4)中得到的所述等价类合并在一起形成一个等价类集合。

优选的,步骤(3)中,所述聚集操作具体步骤包括:

1)所述原始数据集t,t包含p个属性,对t进行基于ql的划分后,类的数量为g,所述ql是t的准标识符,对于所有的所述类,每个类中的质心值来逐个代替上述排序划分操作得到的等价类记录的各值。

2)计算每个类的质心平均值其中表示每个类的质心值,n表示所述t的记录总数,yi表示第i个类的质心。

3)用计算得到的每个类中的所述质心值逐个代替所述排序划分操作得到的等价类记录的各值,形成匿名等价类。

有益效果:本发明与现有技术相比,其显著优点是:1、根据均值排序技术对k-划分过程进行有效的改进,确保其信息损失率降到最低,提高了算法的执行效率并且在引入排序的概念后可以处理多维数据集;2、根据排序的结果系统化地选取第一条以及最后一条记录作为初始两个极端等价类的中心,再分别进行聚类,保证等价类类内同构、类间异构的形式最佳,攻击者链接的成功降低,风险也随之降低,能够提高略高的隐私保护。

附图说明

图1是本发明的排序划分微聚集流程图;

图2是本发明涉及的ps-mdav算法流程图;

图3是信息损失对比表;

图4是ds1信息损失率对比图;

图5是ds2信息损失率对比图;

图6是ds3信息损失率对比图;

图7是不同数据集信息损失率对比图;

图8是安全分析对比图;

图9是两种算法运行时间差值对比图。

具体实施方式

本发明提供了一种基于排序的微聚集匿名化方法,根据均值排序技术对k-划分过程进行有效的改进,确保其信息损失率降到最低,提高了算法的执行效率并且在引入排序的概念后可以处理多维数据集,并且能够提高略高的隐私保护。

本实施例采用java编程语言和myeclipse10平台进行仿真,其中,具体pc配置为cpu-i7,ddr-8g,sata1-tb,operatingsystem-win8。

实验数据集采用的是作为研究基准来评估各种微聚集方法的三种数据集,分别是数据集ds1:“tarragona”、ds2:“census”和ds3:“eia”,其中,ds1数据集包含834个实例,13个数值型属性,ds2数据集包含1080个实例,13个数值型属性,ds3数据集包含4092个实例,11个数值型属性。

如图1,本发明技术方案包括以下步骤:

(1)排序操作:基于ql准标识符对数据集划分为多个类,使得k-划分是所述数据集基于ql准标识符的,k是匿名参数,依据数值型属性值对所述数据集排序。

存在数据集ds1:“tarragona”包含834条记录和13种属性,属性分别为y1,y2,...,y13,每一个记录可以用一个13维的向量表示,yij是第i(i=1,2...,13)个属性的第j(j=1,2...,834)个记录,是第i个属性的质心值,k=4是匿名参数,依据数值型属性值进行数据集排序。

步骤1:将数据集ds1:“tarragona”,数据集记录总数834,ds1的属性总数13作为输入,定义数据集ds1所有记录的索引,遍历所有属性y1,y2,...,y13,然后再遍历每个属性下的所有记录yij,yij表示第i(i=1,2...,13)个属性的第j(j=1,2...,834)个记录。

步骤2:通过步骤1得到的中yij计算得到其中,sfj输出代表每一个记录到该记录相应的质心距离的测度。

步骤3:在数据集ds1中,按照步骤2的sfj进行升序排列得到数据集ds1'。

(2)基于排序的划分操作:从排序操作后的数据集初始化的第一条和最后一条两个极端记录开始分别系统地形成等价类,等价类的记录数保持在k之内。

步骤1:将上述排序操作后的数据集ds1'作为输入,当数据集ds1'≥12时,找到ds1'中第一条记录和最后一条记录。

步骤2:分别以步骤1中得到的第一条和最后一条记录为等价类中心,与其最近的3条记录组成等价类s1、s2,并且把此等价类在数据集ds1'中删除得到新的数据集ds1'(包含剩下的826条记录)。

步骤3:当步骤2后得到的数据集8≤ds1'<12时,找到ds1'中第一条记录和最后一条记录,并分别以此为等价类中心,与其最近的3条记录组成等价类s3、s4,并且把此等价类在数据集ds1'中删除得到新的数据集ds1'。

步骤4:当步骤3后的数据集ds1'<8则自成一类s5。

步骤5:将上述所有步骤中得到的等价类合并在一起形成一个等价类集合。

(3)聚集操作:以所述两个极端记录的中心点作为每个等价类的质心点,以所述等价类的均值代替所有的敏感属性值形成匿名等价类。

设ds1为原始数据集,对数据集ds1进行划分是基于ql的,该数据集包含13个属性,划分后类的数量为g,对于所有的i,质心代替所有值,其中,第i个类的质心为yi。

步骤1:计算每个类的质心值其中表示每个类的质心值,n表示数据集ds1的记录总数,yi表示是第i个类的质心。

步骤2:用步骤1中计算得到的每个类中的质心值来逐个代替上述排序划分操作得到的等价类记录的各值,从而形成匿名等价类。

其中,上述对于基于ql准标识符的划分方法如下:对有834条记录的13维数据集ds1,正整数4为微聚集等价类参数,则基于ql划分的类g={g1,g2,...,gg}应满足:

1)对于基于q1划分的类应保证他们互相之间无交集,则对于所有的i≠j=1,2,...,g,有gi∩gj=φ。

2)划分后的所有的类合并起来应该和原来的数据集一样,则有

3)信息损失最低;

4)等价类的维度应该大于等于匿名参数,则对于所有的gi∈ds1,gi∈g则|gi|≥4。

因此,微聚集主要的实现过程由划分和聚集两部分组成,划分是将原始数据集进行k-划分,得到不同的等价类,接着对所有的等价类进行聚集操作,最后用等价类的质心取代类内所有的值,生成的新数据集就是微聚集匿名后的数据集。

信息损失评价标准

信息损失量是用来衡量数据集在应用微聚集方法后所产生信息损失的程度,本发明采用最普遍的信息损失量的定义,il=sse/sst,il代表信息损失率,sse是类内的平方误差,即每一个记录xij到类质心之间的欧氏距离之和:

sst是整个数据集的平方误差,即每一个记录xij到整个数据集的中心之间的欧氏距离之和

对于一个给定的数据集t,无论数据集怎么划分sst是固定不变的,相比而言,sse是随着数据集的划分的不同而改变。从本质上来说,sse测量着一个等价类内所有记录的相似度。sse越低,说明类内记录的同质性越高,sse越高,则说明类内记录的同质性越低。如果每个类组内的记录是相同的,那么sse为0,表示没有信息损失,另一方面,如果一个类组内的记录更加多样性,那么sse就会变得很大,表明信息的损失率很高。在本发明中sse作为等价类的同质性测度。

信息安全评价标准

信息安全量是用来衡量数据在遭受数据隐私泄露后被外部攻击的程度。我们采用数据在隐私保护技术处理前后的关联程度来比较两者之间的变化,主要采用基于距离记录链接这种方式的量化主要以统计链接成功的比例来实现,用trl的值来评估整个数据集的安全性能,trl=lr/tr,lr是指链接成功的记录数,tr是指整个数据集的大小,所被链接成功的记录越大,安全性就越低。由于每个数据集的数据类型各有差异,因此在利用这种方式评估之前,先要选择好不同的距离计算方法,额外地还要根据需求对少数的属性进行权重的赋值,以便达到更准确的安全性能评估效果。

在匿名参数为4的情况下分别采用ds2数据集包含n=1080个实例,p=13个数值型属性和ds3数据集包含n=4092个实例,p=11个数值型属性,分别使用上述排序操作、基于排序的划分操作和聚集操作来获得各自的匿名等价类并依次通过信息损失和安全评价标准来测定本发明技术中的优缺点,然后再修改匿名参数等于3,5,6,7,8,9,10的情况下来采用数据集ds1、ds2、ds3通过微聚集匿名操作通过信息损失和安全评价标准来测定本发明技术中的优缺点。

对本发明涉及的算法性能具体分析

ps-mdav算法流程如图2,本实验通过较为直观的立方图将图3三种算法进行信息损失量的数据对比分析,通过图4、5和6比较结果可以看出mdav、(k,e)mdav算法的信息损失量在相同数据集的情况下较本发明提出的ps-mdav算法高,且ps-mdav算法的信息损失量还远远低于上述任何一种算法,表明保护数据具有较高的可用性。由图可知每一个算法的信息损失率均和参数k值成正比,因为k值越大导致其中等价类内的记录数增大,要形成等价类,则必须对更多的记录进行操作。所以随着k增大,算法中信息损失量均增大,因为类的增大,相同参数下,导致类的同质性减小,即sse增大,il会增大即信息损失率增大。

不同数据集信息损失率对比图如图7所示,此图表明在不同数据下ps-mdav算法随着k的增大,每个等价类的记录数增大,数据的变化情况增多,sse也随之增大,但是eia数据集的规模(4092条记录数)大于其他两个数据集,其总体的信息损失量要低于其他两个数据集,导致这一情况的原因是因为eia的数据集的属性值低于两者,所以数据之间的同质性要稍高一些,所以相同参数条件下,信息损失量也较小。

安全性能实验采用的数据集为“tarragona”和“eia”,由于数据规模和属性数量两者的差异最大,所以实验结果对比也更明显,实验结果如图8所示,ps-mdav算法能够提高略高的隐私保护,因为该算法使用极端值作为等价类中心进行聚集,每个等价类的异构性较强,攻击者链接的成功降低,风险也随之降低,但由于较于mdav算法都是基于k-匿名,所以安全性的差异不是很大。可以看出不同数据集下的算法的安全性也有差别,数据规模小且属性数量之间差异较小的情况下数据泄密的风险更小一点,原因是可能在计算记录之间距离上,规模小数据集的更迅速,链接的关联更小,风险也就越低。

采用时间差值法来比较算法mdav和ps-mdav时间效率的差异情况,为了更为直观地展示两者之间的对比关系,本次采用规模最大的数据集eia作用于不同的算法,计算执行时间并进行差值运算(ps-mdav算法运行时间减去mdav算法运行时间),最终的结果如图9所示,所有的时间差值均大于0,且随着k值的变化而变化,那么ps-mdav算法相对mdav算法而言,运行时间较多,效率较低。因此ps-mdav算法是以效率降低为代价,提高数据的可用性的,但总体效率损失不是很大,在小规模数据集内可忽略不计。

由上述性能分析可知,本发明方法较现有的算法其信息损失率较低,可用性较高,安全性较好,在该领域具有较好的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1