一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法与流程

文档序号:23419227发布日期:2020-12-25 11:41阅读:253来源:国知局
一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法与流程

本发明涉及数据隐私发布技术领域,具体来说是一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法。



背景技术:

近年来,移动社交网络、车联网等许多实际热门应用产生了大量二维空间数据,使得二维空间数据及其统计数据的采集和使用越来越便捷。随着信息技术的发展,需要将大量的用户数据进行发布,为数据挖掘、分析处理等工作提供支持,然而这些数据的直接发布会给个人隐私造成威胁,用户的隐私保护问题亟需得到保护。

针对这一问题,传统基于k匿名的隐私保护技术需要对攻击者的能力和背景知识进行假设估计,在实际应用中存在一定局限性。目前,差分隐私技术作为一种新出现的隐私保护框架,通过对发布数据进行随机扰动,能够为防止攻击者在任意背景知识下的攻击提供有力保护,在数据安全发布领域得到了广泛应用。然而二维空间大数据尤为庞大,实际生活中的大数据随着区域不同,其分布变化多样,与差分隐私模型相结合后长范围查询误差累积问题严重,所带来的噪音误差造成了数据的可用性降低,因此,在二维空间数据发布时如何平衡数据的隐私安全和数据的可用性,是当前隐私保护技术的一个主要目的。

对于二维空间统计数据的发布,通常需要将数据集进行划分,其中常用的有基于网格结构和树结构的划分方法。在网格划分方法中,均匀网格划分算法(见文献qardajiw,yangw,lin.differentiallyprivategridsforgeospatialdata[c]//2013ieee29thinternationalconferenceondataengineering(icde).ieee,2013:757-758)对二维空间数据均匀的划分为等宽的单元格,为每个单元格计数添加拉普拉斯噪音,没有考虑到数据分布的不均匀性;自适应划分策略(见文献qardajiw,yangw,lin.differentiallyprivategridsforgeospatialdata[c]//2013ieee29thinternationalconferenceondataengineering(icde).ieee,2013:757-758)先以α·ε(0<α<1)的隐私预算使用均匀网格进行粗粒度划分,再根据网格的密度以(1-α)·ε的隐私预算进行第二次自适应网格划分,其考虑到数据分布的密度,但是没有给出启发式规则来区分数据稠密和稀疏的边界。

树结构划分中分为数据依赖的划分方法和数据独立的划分方法,数据依赖的划分方法中常用的kd树划分(见文献cormodeg,procopiucm,shene,etal.differentiallyprivatespatialdecompositions[c]//2012ieee28thinternationalconferenceondataengineering.ieee,2012.cormodeg,procopiucm,shene,etal.differentiallyprivatespatialdecompositions[c]//2012ieee28thinternationalconferenceondataengineering(icde).ieee,2012:20-31)根据数据空间的中值数确定划分线,但在此过程中容易披露中值数的真实值,需要耗费一部分差分隐私预算;数据独立的划分方法中多采用完全四分树结构(见文献cormodeg,procopiucm,shene,etal.differentiallyprivatespatialdecompositions[c]//2012ieee28thinternationalconferenceondataengineering.ieee,2012.cormodeg,procopiucm,shene,etal.differentiallyprivatespatialdecompositions[c]//2012ieee28thinternationalconferenceondataengineering(icde).ieee,2012:20-31)对数据空间自顶向下划分,其需要事先定义树的高度且均匀假设误差较高。晏燕等人(见文献晏燕,郝晓弘.差分隐私密度自适应网格划分发布方法[j].山东大学学报(理学版),2018,53(09):12-22.)提出的adg方法,对二维空间数据进行两层密度自适应网格划分的方法,其对于非均匀分布的数据集较为适用,在处理分布较为均匀数据集时效率较差。吴英杰等人(见文献吴英杰,卢清,蔡剑平,王晓东.基于四分树的差分隐私二维数据划分发布算法[j].华中科技大学学报(自然科学版),2016,44(03):99-104.)提出的quad-heu方法首先对二维空间进行h层完全四叉树划分,然后根据事先设定的均匀性判定条件对划分结果进行自底向上的调整合并,从而降低均匀假设误差提高查询精度,但是在不同的密度区域和不同的隐私预算下,固定的均匀性判定条件无法自适应的准确判断四分树节点是否分布均匀。

综上所述,现有的二维空间发布方法基本可以对二维空间数据进行安全发布,但是仍然一些缺点:首先空间大数据分布情况复杂,现有的大多数算法难以自适应划分多种分布情况的数据;其次,空间大数据的长范围误差累计问题较为严重,数据可用性上仍有很大的提升空间。因此,需要更加深入地研究自适应的划分方法和后置处理方法,使其能够适用于不同分布情况的数据,在数据安全发布的前提下,降低长范围查询的误差,提升数据的可用性。



技术实现要素:

本发明的目的是为了解决现有技术中难以划分多种分布情况、数据可用性差的缺陷,提供一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法来解决上述问题。

为了实现上述目的,本发明的技术方案如下:

一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法,包括以下步骤:

二维空间数据的获取,获取待进行隐私发布的二维空间数据;

网格区域的划分:对二维空间数据进行聚类,将二维空间数据根据密度聚类形成自适应网格,将数据空间划分为不同密度的区域;

自适应网格区域的划分处理:对自适应网格区域中数据分布最为稀疏的区域计数根据隐私预算直接添加噪音;对剩余密度区域作为密集区域采用四叉树分割数据空间,将粗粒度区域进一步划分为均匀细粒度区块,以降低区域内的均匀假设误差;

对四叉树进行后置处理:对于纵向结构,采用重构算法自底向上改进四叉树,有效减小均匀假设误差;对于横向结构,结合抽样排序和贪心算法,将四叉树划分结果分层合并,有效减小长范围区间查询的误差累计;

二维空间数据差分隐私的发布:对密集区域添加噪音分配隐私预算:将四叉树与个性化分配隐私预算相结合,根据需求个性化调整相邻两层分配的隐私预算;对四叉树分层添加噪音后融合已添加噪声的稀疏区域后对外发布数据。

所述网格区域的划分包括以下步骤:

根据待发布的二维数据集合l,创建两个集合:一个只包含所有横坐标位置记为lx,另一个只包含所有纵坐标位置记为ly;

定义横坐标和纵坐标的区间长度δx和δy,分别根据lx、ly计算区间的密度,对区间进行密度判定,密度相似的临近区间进行聚类,形成横坐标和纵坐标的稠密区间和稀疏区间;

根据区间划分结果,对二维数据集合l进行密度自适应网格划分,得到粗粒度区块,得到不同密度的区域。

所述自适应网格区域划分处理包括以下步骤:

对于位于稀疏区域的第一层区块,不再划分,直接对其原始计数结果添加隐私预算为ε的laplace噪声;

已经进行网格划分的数据集,根据第一层网格的划分结果,对于横轴和纵轴都处于密集区域的区块,将区块定义为一个根节点,进行四叉树划分;

对密集区块的数据进行初始化分割,建立完整的满四叉树,将所有的二维数据存储于相应四叉树节点中。

所述对四叉树进行后置处理包括以下步骤:

自底向上的对处于同一父节点下的叶子节点的计数值求均值,使用(1)式计算四叉树向上重构后这部分区域加噪后的误差err;

其中,y是规定的隐私预算下的平均噪音,numi是四个叶子节点的真实计数值,i是同一父节点下四个叶子节点的编号;

通过比较err与原始节点计数直接加噪后的误差大小,来启发式地判断父节点区域是否均匀,如果直接加噪的节点误差比重构后节点的误差大,则将节点向上缩减重构来减小误差;

分别对四叉树各层节点进行抽样排序,抽样排序所需隐私预算为ε1;

排序后,采用指数机制每次以正比于的概率选择某层节点中最相似的两个邻近节点进行合并,

其中,ε2为合并相似节点所设置的隐私预算,ε3为第i层节点添加拉普拉斯噪音的隐私预算,gs为误差最小的n个可行合并方案集合;

采用贪心的思想对其进行合并加噪,利用(2)式计算总误差error,直到总误差达到最小,

error=re+ne,(2)

其中,re为合并误差,ne为噪音误差。

所述对密集区域添加噪音分配隐私预算包括以下步骤:

获取四叉树的深度h,定义相邻两层分配的隐私预算比值q(q>1),根据总添加拉普拉斯噪音隐私预算ε3以及qi,给四叉树的第i层分配不同的隐私预算其中各层隐私预算满足条件

按照所分配的隐私预算对四叉树各层节点计数添加拉普拉斯噪音发布四叉树各层区域的噪音计数。

有益效果

本发明的一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法,与现有技术相比能够有效的划分各种分布形式的二维空间数据集,降低数据的长范围查询误差,实现二维空间数据的差分隐私有效发布。

本发明具有如下优点:

1、通过对满四叉树结构进行改进,使得四分树结构能够根据节点的均匀程度自适应划分区域;通过提出一种启发式的方法,其能够在不同的隐私预算下以不同的衡量标准判断划分的叶子节点是否均匀,通过重构划分均匀的节点来减小噪音误差。

2、通过对四叉树各层节点根据计数大小进行分组处理,进一步提高长范围查询精度;对相似计数的节点分组后加噪,能够有效分担噪音,大大降低了长范围区间查询的噪音误差累积。

3、通过将四叉树结构和隐私预算分配策略相结合,根据隐私保护度的需要和查询精确度的需要个性化设置相邻两层分配的隐私预算的比值,使得每层的查询精度能够根据需要动态调整,确保隐私预算合理分配,进而提高了位置数据范围计数查询的精确度。

附图说明

图1为本发明的方法顺序图;

图2为本发明所涉及的网格四叉树划分示意图;

图3为本发明所涉及的四叉树重构示意图;

图4为本发明所涉及的四叉树重构算法的均匀假设误差对比图;

图5为本发明所涉及的四叉树结构划分算法的查询精度比较图;

图6为本发明所涉及的网格四分树结构的误差比较图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:

如图1所示,本发明所述的一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法,包括以下步骤:

第一步,二维空间数据的获取,获取待进行隐私发布的二维空间数据。

第二步,网格区域的划分:对二维空间数据进行聚类,将二维空间数据根据密度聚类形成自适应网格,将数据空间划分为不同密度的区域。

划分算法对位置数据的保护非常适用,常用的自适应网格算法中,是在均匀网格划分的基础上,对密集区域再进行一次网格划分。其考虑到数据分布的密度,但是没有给出启发式规则来区分数据稠密和稀疏的边界,因此在划分时,容易产生较多空节点,造成噪音过大的问题。为了解决这一问题,需要根据密度对数据空间进行非均匀网格划分的方法。

其具体步骤如下:

(1)根据待发布的二维数据集合l,创建两个集合:一个只包含所有横坐标位置记为lx,另一个只包含所有纵坐标位置记为ly;

(2)定义横坐标和纵坐标的区间长度δx和δy,分别根据lx、ly计算区间的密度,对区间进行密度判定,密度相似的临近区间进行聚类,形成横坐标和纵坐标的稠密区间和稀疏区间;

(3)根据区间划分结果,对二维数据集合l进行密度自适应网格划分,得到粗粒度区块,得到不同密度的区域。

第三步,自适应网格区域的划分处理。对自适应网格区域中数据分布最为稀疏的区域计数根据隐私预算直接添加噪音;对剩余密度区域作为密集区域采用四叉树分割数据空间,将粗粒度区域进一步划分为均匀细粒度区块,以降低区域内的均匀假设误差。

不同密度区域的数据空间具有不同的特征,在稀疏区域数据分布较为分散,继续划分容易造成空节点增多,而在密集区域则需要继续进行划分,本发明采用四叉树算法进行划分,相比网格划分算法,四叉树划分算法能够提高查询效率,有利于后续设计高效的后置处理算法,提高发布数据的精度。

其具体步骤如下:

(1)对于位于稀疏区域的第一层区块,不再划分,直接对其原始计数结果添加隐私预算为ε的laplace噪声;

(2)已经进行网格划分的数据集,根据第一层网格的划分结果,对于横轴和纵轴都处于密集区域的区块,将区块定义为一个根节点,进行四叉树划分;

(3)对密集区块的数据进行初始化分割,建立完整的满四叉树,将所有的二维数据存储于相应四叉树节点中。

第四步,对四叉树进行后置处理:对于纵向结构,采用重构算法自底向上改进四叉树,有效减小均匀假设误差;对于横向结构,结合抽样排序和贪心算法,将四叉树划分结果分层合并,有效减小长范围区间查询的误差累计。

在此,对满四叉树结构进行改进,使得四分树结构能够根据节点的均匀程度自适应划分区域。提出一种启发式的方法,其能够在不同的隐私预算下以不同的衡量标准判断划分的叶子节点是否均匀,通过重构划分均匀的节点来减小噪音误差。其具体步骤如下:

(1)自底向上的对处于同一父节点下的叶子节点的计数值求均值,使用(1)式计算四叉树向上重构后这部分区域加噪后的误差err;

其中,y是规定的隐私预算下的平均噪音,numi是四个叶子节点的真实计数值,i是同一父节点下四个叶子节点的编号;

(2)通过比较err与原始节点计数直接加噪后的误差大小,来启发式地判断父节点区域是否均匀,如果直接加噪的节点误差比重构后节点的误差大,则将节点向上缩减重构来减小误差;

(3)分别对四叉树各层节点进行抽样排序,抽样排序所需隐私预算为ε1;

(4)排序后,采用指数机制每次以正比于的概率选择某层节点中最相似的两个邻近节点进行合并,

其中,ε2为合并相似节点所设置的隐私预算,ε3为第i层节点添加拉普拉斯噪音的隐私预算,gs为误差最小的n个可行合并方案集合;

(5)采用贪心的思想对其进行合并加噪,利用(2)式计算总误差error,直到总误差达到最小,

error=re+ne,(2)

其中,re为合并误差,ne为噪音误差。

第五步,二维空间数据差分隐私的发布:对密集区域添加噪音分配隐私预算:将四叉树与个性化分配隐私预算相结合,根据需求个性化调整相邻两层分配的隐私预算。对四叉树分层添加噪音后融合已添加噪声的稀疏区域后对外发布数据。其中,对密集区域添加噪音分配隐私预算包括以下步骤:

(1)获取四叉树的深度h,定义相邻两层分配的隐私预算比值q(q>1),根据总添加拉普拉斯噪音隐私预算ε3以及qi,给四叉树的第i层分配不同的隐私预算其中各层隐私预算满足条件

(2)按照所分配的隐私预算对四叉树各层节点计数添加拉普拉斯噪音发布四叉树各层区域的噪音计数。

对于发布的四叉树,可以进行范围计数查询,对于数据使用者所需查询的区域,遍历四叉树找到与查询区域相交的节点,按照查询区域与所有相交节点的面积之比,估计查询范围内的计数,将估计数返回给查询者。

在此,以待发布的二维数据l为例,本发明具体实施步骤如下:

步骤1:对二维空间数据进行聚类,将数据空间划分为不同密度的区域,包含以下内容:

1.对整个数据集进行网格划分,以待发布的二维数据l为初始矩阵,创建2个集合:一个只包含所有横坐标位置(记为lx),另一个只包含所有纵坐标位置(记为ly);

2.定义横坐标和纵坐标的区间长度δx和δy,分别根据lx和ly计算区间的密度,对区间进行密度判定,密度相似的临近区间进行聚类,形成横坐标和纵坐标的稠密区间和稀疏区间;

3.根据区间划分结果,对二维数据集合l进行密度自适应网格划分,得到第一层粗粒度区块。

步骤2:对数据集的不同密度区域进行第二层划分,包含以下内容:

1.根据第一层网格的划分结果,对于横轴和纵轴都处于密集区域的区块,将区块定义为一个根节点,进行四叉树划分,具体过程如图2所示;

2.四叉树在4~7层时效果较好,根据区域的数据量,定义四叉树的层数;

3.对稠密区块数据进行初始化分割,建立完整的满四叉树,将所有的二维数据存储于相应四叉树节点中;

4.对于处于剩余的稀疏区域不再进行划分,以减少空白区块,然后对剩余区域中区块的原始计数结果添加隐私预算为ε的laplace噪声。

步骤3:对四叉树结构进行后置处理,包含以下内容:

对满四叉树结构进行改进,使得四分树结构能够根据节点的均匀程度自适应划分区域。提出一种启发式的方法,其能够在不同的隐私预算下以不同的衡量标准判断划分的叶子节点是否均匀,通过重构划分均匀的节点来减小噪音误差;

自底向上的对处于同一父节点下叶子节点的计数值求均值,将四个节点的计数均值进行加噪,使用下式计算四个子节点的总误差err,其中y是规定的隐私预算下的平均噪音,numi是四个叶子节点的真实计数值;

将err与将原始节点计数直接加噪所得误差err=4y进行比较(其中y是规定的隐私预算下的平均噪音),来启发式地判断父节点区域是否均匀,如果直接加噪的节点误差比重构后节点的误差大,则将当前父节点下的四个叶子节点删除,通过节点向上缩进重构来降低噪音误差;

具体过程如图3所示,[b1,b2,b3,b4]四个节点是叶子节点,且同为父节点b的子节点,假设在当前的隐私预算下y=1,四个子节点的计数值分别为[num1,num2,num3,num4],将四个节点的计数均值进行加噪,使用公式计算四个子节点的总误差err,若err<4y,则将[b1,b2,b3,b4]四个叶子节点删除,节点b成为叶子节点;

在以往的方法中,数据分布是否均匀的标准通常是固定的,但是当隐私预算水平较小时,噪音干扰较大,对于数据分布均匀的容忍度应适当增大。本文这种方法对于数据分布均匀的判断非常灵活,在不同的隐私预算情况下,y为不同值,数据分布均匀的标准随之产生变化,因此这种方法在差分隐私模型中更加适用。

采用轮盘赌抽样排序法,分别对四叉树各层节点计数值进行排序。对某层节点进行排序时,考虑到直接排序有可能会破坏差分隐私模型,因此采用轮盘赌抽样的方式进行排序,其步骤如下:

第一步,选取某一层中计数值最小的节点作为bs;

第二步,利用分别计算剩余节点与当前所选节点的适应度,其中bi为剩余节点,u(bs,bi)=-|bs-bi|,适应度越大表示与当前所选节点越接近,抽样概率越大;第三步选择适应度最大的m个节点,将适应度作为抽样概率进行轮盘赌抽样,得到一个新的节点,将新的节点作为bs;

重复第二步和第三步,直到剩余节点个数小于m;最后,按照抽样选择的顺序排列节点,将剩余m个节点放入队列末端,得到排序后的节点顺序。

合并算法的思想是每次选择某层节点中相似的两个相邻节点进行合并,利用贪心的思想直到误差达到最小。

由于直接选择最相似的节点合并违背了差分隐私的定义,因此将合并算法与指数机制结合,首先初始化最小误差err_min,每次消耗一定的隐私预算来选择相似的两个节点进行合并分组,并根据(2)式计算当前误差error,其中re为合并误差,ne为噪音误差,每个合并组的噪音误差为y,y的值与隐私预算相关;

error=re+ne(2)

如果error<err_min,将当前误差error作为最小误差,继续进行合并相似节点操作,如果error>err_min,则合并过程停止并输出最终的合并组;

其中合并节点的选择机制如下:合并相似节点设置的隐私预算为ε2,计算出下一步合并节点后误差降低的所有合并方案,选择误差最小的n个可行合并方案放入集合gs,以正比于的概率,选出下一步的合并方案。

步骤4:对四叉树结构进行加噪处理,包含以下内容:

定义总的隐私预算ε并获取四叉树的深度h,个性化调整相邻两层分配的隐私预算比值qi;对四叉树各层计数按照所分配的隐私预算分层添加噪音;发布四叉树各层区域的噪音计数,按照查询区域与相交节点的面积之比,估计查询范围内的计数。

对以上步骤配以实验分析如下:

为了验证本发明方法的有效性,下面使用模拟数据集进行实验,说明本发明所提算法在提升数据可用性上的良好性能。

实验环境:intel(r)core(tm)i5-3570cpu@3.4ghz,8.0gb内存,win7操作系统。实验所涉及代码使用python语言编写。

将进行自适应重构算法后的四分树,与原始四叉树的真实计数进行查询精度对比,查询尺寸根据数据集的比例范围生成,比例范围分为(0,5%)、(5%,10%)、(10%,20%)、(20%,30%),对于每个查询尺寸随机生成1000个查询范围求出平均误差,对查询计数误差进行对比,结果如图4所示。实验表明,进行重构后相比于划分粒度更细的原始四分树,查询误差没有降低,说明这种重构方法可以较为准确地辨别区域是否为均匀分布,不会增加均匀假设误差。

隐私预算ε=1时,对本发明的四叉树后置加噪处理方法(re-quad)与四分树划分方法(quad)方法的加噪计数进行长范围查询精度对比,查询尺寸根据数据集的比例范围生成,比例范围分为(5%,10%)、(10%,20%)、(20%,30%),对于每个查询尺寸随机生成1000个查询范围求出平均误差,对查询计数误差进行对比,结果如图5所示。使用laplace噪音对计数值保护后,进行后置处理的四叉树查询误差相比于原始四叉树查询误差得到的明显降低,四分树后置处理方法可以提升查询准确度。

在不同的隐私预算条件下,隐私预算比值时,将本发明方法(ag+quad)与密度自适应网格方法(adg)以及四分树方法(quad)的发布总误差进行对比,结果如图6所示,相比同类其他方法,本方法的总误差最小,验证了本发明方法对于降低发布数据的误差具有良好的效果。

本发明方法在四叉树划分中根据区域的分布均匀度,通过最小化扰动误差和均匀假设误差的和来自适应调整四叉树的结构,比传统的满四叉树更加灵活。其次,本发明通过对各层节点分组,结合隐私预算分配策略,对四分树的各层实现个性化加噪,降低发布数据的查询误差率,增加了数据发布的可用性,适合应用于二维空间大数据的隐私安全发布。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1