基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法与流程

文档序号:23419229发布日期:2020-12-25 11:41阅读:295来源:国知局
本发明涉及高维数据隐私处理
技术领域
:,具体来说是基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法。
背景技术
::随着信息技术的不断发展和应用,各行各业的信息系统中都积累了丰富的数据资源,这些数据往往蕴含着巨大的研究价值。然而,由于原始数据里通常包含着许多个人的隐私信息,直接将其进行发布将导致敏感信息泄露。因此,在发布数据之前,需要使用特殊的隐私防护技术对数据进行处理。传统的隐私保护技术(如k-匿名、l-多样性和t-保密等)能够在一定程度上保护个人隐私,但都很难抵御背景知识攻击,远不足以保证隐私信息的安全。差分隐私的提出为隐私发布提供了新的解决思路,其能量化对数据隐私的保护强度,为数据发布提供更为强大的隐私保护。现有研究对低维数据的发布问题做了诸多努力,但随着大数据时代的来临,高维数据在现实生活中更加普遍存在。对于高维数据,直接使用低维数据的发布方法会引入极大的噪音值,进而使得发布结果的可用性较低,其主要原因在于维度与维度值域的增加会带来“维度灾难”和“值域多样”等问题。因此,如何解决高维数据发布的隐私问题和数据的低效用性问题,成为新的研究焦点。解决高维数据发布问题通常使用的方法是降维。先对数据降维得到低维数据,对转换后的低维数据集添加噪声,进而生成新的数据集进行发布。qardaji等人(见文献qardajiwh,yangweining,lininghui.priview:practicaldifferentiallyprivatereleaseofmarginalcontingencytables[c].procofthe2014acmsigmodintconfonmanagementofdata.newyork:acm,2014:1435-1446)提出的priview方法通过构建属性对的k-way边缘分布来估计高维数据的联合分布。day等人(见文献daywy,lininghui.differentiallyprivatepublishingofhigh-dimensionaldatareleaseusingsensitivitycontrol[c].procofthe10thacmsymponinformation,computerandcommunicationsecurity(asiaccs2015).newyork:acm,2015,451-462)提出了一种基于阈值过滤技术的差分隐私发布方法,通过构建低敏感度质量函数,达到限制敏感度范围的目的。但以上方法没有考虑到属性之间的依赖关系,因此研究者们进一步依据属性之间的相关性来进行降维处理,如xu等人(见文献xuc,renj,zhangy,etal.dppro:differentiallyprivatehigh-dimensionaldatareleaseviarandomprojection[j].ieeetransactionsoninformationforensicsandsecurity,2017:1-1.)设计了一种基于随机投影技术的高维数据发布算法,可以生成高维向量之间具有与原始数据集相似平方欧氏距离的合成数据集来实现差分隐私。也有研究通过构建概率图对数据维度相关性进行开采,zhang等人(见文献zhangjun,cormodeg,procopiuccm,etal.privbayes:privbayesprivatedatareleaseviabayesiannetworks[c].procofthe2014acmsigmodintconfonmanagementofdata.newyork:acm,2014:1423-1434.)提出的privbayes方法利用基于指数机制的贝叶斯网络来推理属性之间的关联性,从而得到一个能反映高维数据固有特性的低维数据集。chen等人(见文献chenrui,xiaoqian,zhangyu,etal.differentiallyprivatehigh-dimensiondatapublicationviasample-basedinference[c].procofthe21stacmsigmodintconfonknowledgediscoveryanddatamining.newyork:acm,2015:129-138.)提出的jtree方法利用markov网络构建联合树来处理高维数据发布问题。在依据属性间相关性构建概率图进行降维处理时,需要的关键步骤是对两两属性之间的关联性进行判别。但当属性对繁多时,意味着需要把有限的隐私预算进行多次分割,势必会造成很大的噪声,且数据维数越高,产生的网络结构越复杂,造成表达式超指数的增长,算法运行时间也大大增加。即传统的贝叶斯网络直接将所有属性构建一个贝叶斯网络,这样在构建时属性的ap对候选空间过大、隐私预算分割次数多,加入噪音会极大降低指数机制选择精度,最终导致算法可用性低,而且高维属性环境下,随着属节点增加,算法运行时间呈指数级增长。因此,如何针对高维数据实现有效可行的隐私数据发布已经成为急需解决的技术问题。技术实现要素:本发明的目的是为了解决了高维隐私数据加噪发布误差大、可用性差、效率低的缺陷,提供一种基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法来解决上述问题。为了实现上述目的,本发明的技术方案如下:基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,包括以下步骤:11)高维数据的获取:获取待发布的高维数据形成原始数据集d,对高维数据进行属性归纳,形成高维数据属性集;12)属性子集的聚类划分:通过计算高维数据属性之间的相关性,利用属性聚类方法将高维属性集划分成c个属性子集,进而根据属性子集将原始数据集d划分成c个数据子集di(i=1,..,c);13)构建加噪贝叶斯网络:使用贪婪贝叶斯方法对得到的数据子集di(i=1,..,c)构建加噪贝叶斯网络ni(i=1,..,c),其中,分配的总隐私预算为ε1,每个数据子集根据拥有的属性个数占c个属性子集簇拥有的总属性个数比例分配隐私预算使构建的每个贝叶斯网络满足ε1i的差分隐私;14)生成加噪条件分布:对于每一个贝叶斯网络ni,计算其联合概率分布pr[vi,∏i]并加噪得到pr*[vi,∏i],据此计算加噪条件概率分布pr*[vi|∏i],其中,分配的总隐私预算为ε2,每个贝叶斯网络根据属性节点个数占c个贝叶斯网络拥有的总属性节点个数比例分配隐私预算使构建的每个条件概率分布满足ε2i的差分隐私;ε1与ε2之和等于给定的总隐私预算ε,即ε=ε1+ε2,使得整个数据发布过程满足ε的差分隐私;15)合成数据集的发布:对于c个数据子集,根据其贝叶斯网络ni和加噪条件分布pr*[vi|∏i]以i的增加顺序依次采样每个属性,生成扰动数据集di*(i=1,..,c),根据此生成合成数据集d*,合成数据集d*即为高维隐私数据,最终将高维隐私数据进行发布。所述属性子集的聚类划分包括以下步骤:21)针对高维数据集,计算高维数据属性之间的相关性,其计算方法如下:给定任意两个属性vi和vj,属性之间相对依赖关系表示为其中,i代表两个属性之间的互信息,h代表两个属性之间的联合熵值;对于任意一个属性vi,它到其他属性的关系和表示为22)随机选择c个属性作为中心属性,其中c是属性子集的个数;23)对于计算vi与各中心属性之间的相对依赖关系,并将其分配给依赖值最大的中心属性cr所在子集簇,重复此步骤直至分配完所有属性;24)更新中心属性,对于每一个属性子集,如果有属性vi到其他属性的关系和大于中心属性到其他属性的关系和,即mr(vi)≥mr(vj)(vj∈cr,j≠i),则将vi设置为新的cr;25)重复23)步骤与24)步骤直到c个中心属性不变,或者当迭代次数达到预设定值时,终止迭代,得到c个属性子集,进而得到c个数据子集di(i=1,..,c)。所述构建加噪贝叶斯网络包括以下步骤:31)初始化:初始化设定贝叶斯网络n为已选取属性节点集合s为a为数据集属性数列;32)初始节点选取:随机选择一个属性v1作为贝叶斯网络的初始节点,将v1添加到集合s,并将属性-父节点集合ap对添加到n;33)ap对候选集列举:初始化ap对候选集ω为对于和将(v,∏)存入ap对候选集ω中,其中k为贝叶斯网络的度;34)ap对评分求解:使用函数f为评分函数,计算ω中所有ap对的评分f(v,∏),求解公式如下:其中p°[v,π]是ap对(v,π)的所有最大联合分布的集合;35)ap对选取:基于指数机制选取ap对(vi,∏i)添加至网络n,并将vi添加到s中;其表达式如下:使得从ω中挑选ap对的采样概率与成比例,其中,△f为评分函数的全局敏感性,n=|d|;36)贝叶斯网络更新:对a中除v1外的所有属性重复上述33)到35)步骤的过程,直至依次选完所有属性节点,即得到完整的贝叶斯网络n。所述生成加噪条件分布包括以下步骤:41)初始化:初始化加噪条件分布集p*;42)加噪联合分布生成:根据贝叶斯网络ni计算原始联合分布pr[vi,∏i],加入laplace噪音得到加噪的联合分布pr*[vi,∏i],将pr*[vi,∏i]中的负值设置为0,进行标准化;43)加噪条件分布生成:对于基于pr*[vi,∏i]计算得到pr*[vk+1|∏k+1],...,pr*[vd|∏d],将其加入加噪条件分布集p*;对于基于pr*[vk+1,∏k+1]计算得到pr*[v1|∏1],...,pr*[vk|∏k],将其加入加噪条件分布集p*。有益效果本发明的基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,与现有技术相比可在确保数据隐私安全与可用性的同时,缩短数据发布算法的运行时间,实现高维大数据环境下隐私数据的有效发布。本发明通过对维度相关性进行开采,保留了数据间的相关性,保证合成数据集与原始数据集具有尽可能相似的概率分布与统计特性;在构建贝叶斯网络时先通过属性聚类形成属性子集簇,可以减少隐私预算的分割次数,缩短产生贝叶斯网络的程序运行时间;考虑到划分的多个低维属性子集之间相对独立,在原始数据集维度很高时,可以将mapreduce编程模式应用于贝叶斯网络和扰动数据集构建,能有效解决大数据环境下计算效率的问题。附图说明图1为本发明的方法顺序图;图2为本发明所涉及的算法流程框架图;图3(a)为本发明的nltcs数据集下svm(money)分类结果;图3(b)为本发明的nltcs数据集下svm(bathing)分类结果;图3(c)为本发明的nltcs数据集下svm(traveling)分类结果;图4(a)为本发明的acs数据集下svm(mortgage)分类结果;图4(b)为本发明的acs数据集下svm(multi-gen)分类结果;图4(c)为本发明的acs数据集下svm(school)分类结果;图5(a)为本发明的adult数据集下svm(gender)分类结果;图5(b)为本发明的adult数据集下svm(martial)分类结果;图5(c)为本发明的adult数据集下svm(education)分类结果;图6(a)为k=2时本发明方法和privbayes方法的运行时间对比;图6(b)为k=3时本发明方法和privbayes方法的运行时间对比图。具体实施方式为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:如图1和图2所示,本发明所述的一种基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,包括以下步骤:第一步,高维数据的获取:获取待发布的高维数据,对高维数据进行属性归纳,形成高维数据属性集。第二步,属性子集的聚类划分:通过计算高维数据属性之间的相关性,利用属性聚类方法将高维属性集划分成c个属性子集,进而根据属性子集将原始数据集d划分成c个数据子集di(i=1,..,c)。在构建加噪贝叶斯网络时,属性节点的增加在会造成隐私预算的急剧减小,严重影响数据发布可用性。通过定义关系函数,度量得出属性之间的相互依赖关系,并应用k-means聚类算法的思想划分属性子集簇,能预先探索属性间的相互依赖关系,减少属性对选择范围。因此,本发明将属性聚类算法与构建加噪贝叶斯网络相结合用于高维隐私数据发布,在有效保证高维数据发布结果可用性同时,提高大数据环境下算法运行效率。其具体步骤如下:(1)针对高维数据集,计算高维数据属性之间的相关性,其计算方法如下:给定任意两个属性vi和vj,属性之间相对依赖关系表示为其中,i代表两个属性之间的互信息,h代表两个属性之间的联合熵值;对于任意一个属性vi,它到其他属性的关系和表示为(2)随机选择c个属性作为中心属性,其中c是属性子集的个数;(3)对于计算vi与各中心属性之间的相对依赖关系,并将其分配给依赖值最大的中心属性cr所在子集簇,重复此步骤直至分配完所有属性;(4)更新中心属性,对于每一个属性子集,如果有属性vi到其他属性的关系和大于中心属性到其他属性的关系和,即mr(vi)≥mr(vj)(vj∈cr,j≠i),则将vi设置为新的cr;(5)重复上述(3)步骤与(4)步骤直到c个中心属性不变,或者当迭代次数达到预设定值时,终止迭代,得到c个属性子集,进而得到c个数据子集di(i=1,..,c)。第三步,构建加噪贝叶斯网络。使用贪婪贝叶斯方法对得到的数据子集di(i=1,..,c)构建加噪贝叶斯网络ni(i=1,..,c),其中,分配的总隐私预算为ε1,每个数据子集根据拥有的属性个数占c个属性子集簇拥有的总属性个数比例分配隐私预算使构建的每个贝叶斯网络满足ε1i的差分隐私。贝叶斯网络用属性节点间的条件概率大小来表示节点之间的依赖程度,在降维时能较好保持属性间概率的一致性和完整性。对于每一个属性子集簇,组内属性间具有高度的相互依赖性,可以通过构建贝叶斯网络进一步开采属性间相关性。其具体步骤如下:(1)初始化:初始化设定贝叶斯网络n为已选取属性节点集合s为a为数据集属性数列;(2)初始节点选取:随机选择一个属性v1作为贝叶斯网络的初始节点,将v1添加到集合s,并将ap对添加到n;(3)ap对候选集列举:初始化ap对候选集ω为对于和将(v,∏)存入ap对候选集ω中,其中k为贝叶斯网络的度;(4)ap对评分求解:使用函数f为评分函数,计算ω中所有ap对的评分f(v,∏),求解公式如下:其中p°[v,π]是ap对(v,π)的所有最大联合分布的集合;(5)ap对选取:基于指数机制选取ap对(vi,∏i)添加至网络n,并将vi添加到s中;其表达式如下:使得从ω中挑选ap对的采样概率与成比例,其中,△f为评分函数的全局敏感性,n=|d|;(6)贝叶斯网络更新:对a中除v1外的所有属性重复上述(3)到(5)步骤的过程,直至依次选完所有属性节点,即得到完整的贝叶斯网络n。第四步,生成加噪条件分布。对于每一个贝叶斯网络ni,计算其联合概率分布pr[vi,∏i]并加噪得到pr*[vi,∏i],据此计算加噪条件概率分布pr*[vi|∏i],其中,分配的总隐私预算为ε2,根据来分配隐私预算,使构建的每个条件概率分布满足ε2i的差分隐私;ε1与ε2之和等于给定的总隐私预算ε,即ε=ε1+ε2,使得整个数据发布过程满足ε的差分隐私。其具体步骤如下:(1)初始化:初始化加噪条件分布集p*;(2)加噪联合分布生成:根据贝叶斯网络ni计算原始联合分布pr[vi,∏i],加入laplace噪音得到加噪的联合分布pr*[vi,∏i],将pr*[vi,∏i]中的负值设置为0,进行标准化;(3)加噪条件分布生成:对于基于pr*[vi,∏i]计算得到pr*[vk+1|∏k+1],...,pr*[vd|∏d],将其加入加噪条件分布集p*;对于基于pr*[vk+1,∏k+1]计算得到pr*[v1|∏1],...,pr*[vk|∏k],将其加入加噪条件分布集p*。第五步,合成数据集的发布:对于c个数据子集,根据其贝叶斯网络ni和加噪条件分布pr*[vi|∏i]以i的增加顺序依次采样每个属性,生成扰动数据集根据此生成合成数据集d*,合成数据集d*即为高维隐私数据,最终将高维隐私数据进行发布。为了对本发明方法的有效性和运行效率进行验证,下面将在真实数据集上采用具体的实验进行验证与说明。实验环境:windows10操作系统,intel(r)core(tm)i5-6200cpu(2.30ghz),12gb内存。所涉及算法代码用python及java语言实现。实验数据:实验所使用的3个数据集nltcs,acs,adult均被广泛使用于高维数据发布。nltcs数据集源自美国护理调查中心,包含了21574名残疾人护理调查的记录;acs数据集源自ipumsusa的acs样本集,包含了从2013和2014年中获得的47461行个人信息;adult数据集源自美国人口普查中心,包含了45222条个人信息。三个数据集的具体细节如表1所示:表1数据集信息描述对比表参考图3(a)~(c)、参考图4(a)~(c)、参考图5(a)~(c)分别展示了nltcs、acs、adult三个数据集上,本发明方法与privbayes方法、不加噪声(noprivacy)方法、laplace加噪方法以及majority方法在svm分类任务上基于参数ε变化的平均误分类率比较。在nltcs数据集上,分别以(1)是否能够管理资金;(2)是否能够游泳;(3)是否能够旅行作为分类属性做出预测。在acs数据集上,分别以(1)是否拥有抵押贷款;(2)是否生活在多代同堂家庭中;(3)是否上学作为分类属性做出预测。在adult数据集上,分别以(1)是否是男性;(2)是否结婚;(3)是否拥有大专学历作为分类属性做出预测。从图3、图4和图5可以发现,对比privbayes方法,本发明方法在不同数据集上的属性误分类率均有所改进,并在很大程度上优于laplace加噪方法及majority方法,这说明本发明方法在有效保证发布数据隐私信息的同时,数据集的效用性也有所提高。参考图6(a)~(b)分别展示了nltcs,acs,adult三个数据集上,贝叶斯网络的度k=2,k=3时本发明方法与privbayes方法的运行时间比较(由于3600数值过大,在此图6(b)提供的是截断图)。从图中可看出,本发明方法在数据集维度较小时运行时间与privbayes方法大致相当,但随着数据集维度的增大,本发明方法运行时间短于privbayes方法,如图6(a)中,adult数据集上privbayes方法是本发明方法的4倍左右。此外,随着贝叶斯网络度k增大,本发明方法运行时间的缩短效率更加显著,说明了本发明方法在高维大数据环境下运行效率的有效性。且当数据集维度更高时,可在本发明方法搭建的框架上使用mapreduce并行编程模式,进一步缩短数据发布时间。在高维数据发布大背景下,本发明提出了一种基于属性聚类贝叶斯网络的差分隐私高维数据发布方法。首先进行属性聚类得到各个数据子集,随后基于指数机制构建满足差分隐私的贝叶斯网络,并根据贝叶斯网络和加噪条件分布依次采样每个属性得到扰动数据集,最终合成新的数据集进行发布。通过在真实数据集上开展实验,从svm误分类率和算法运行时间两个方面验证了本发明方法的可用性与运行效率。以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1