一种基于图论和互信息量的差分隐私度量方法与流程

文档序号:19156610发布日期:2019-11-16 00:52阅读:1209来源:国知局
一种基于图论和互信息量的差分隐私度量方法与流程

本发明涉及信息安全技术领域,尤其是一种基于图论和互信息量的差分隐私度量方法。



背景技术:

大数据时代的到来和移动互联网的普及,在产生巨大商业和社会价值的同时,引发了人们对隐私的广泛关注和担忧,更加隐蔽、多样的数据收集和存储及数据挖掘,导致隐私泄露和隐私窃取更加频繁,危害和影响更加巨大。一方面,数据拥有者未经任何保护处理直接发布含有隐私信息的数据,将会造成个人隐私信息的泄露;另一方面,恶意攻击者利用已成熟的数据挖掘等技术窃取发布数据中的敏感信息。因此,解决隐私泄露问题迫在眉睫。

数据的隐私保护问题研究已久,其最早可以追溯到1977年统计学家dalenuis提出的数据库隐私信息的概念,他认为,在访问数据的过程中,即使攻击者拥有背景知识也无法获得关于任何个体的确切信息。在该定义下,相应的隐私保护模型及方法被相继提出。早期的隐私保护技术主要是基于匿名模型,基本思想是通过对记录中的准标识符进行匿名化处理,使得所有记录被划分为若干个等价类,从而实现将一条记录隐藏在另一组记录中。尽管传统的匿名保护模型及其衍生的算法模型能够在一定程度上保护用户的个人隐私信息,但是均无法抵御背景知识攻击、同质攻击和相似性攻击。知道2006年微软研究院的dwork提出差分隐私保护概念,改模型忽略最大背景知识攻击,保证至多相差一条记录的邻近数据集在概率输出上具有不可区分性。

差分隐私保护是一种基于数据失真的隐私保护技术,通过在原始数据集或统计结果中添加噪声扰动来实现隐私保护,同时保持数据集中的某些数据属性或统计属性不变。差分隐私保护技术确保了数据集中单个记录的变化不会影响查询结果,即使攻击者具有无限背景知识也可以保证邻近数据集的查询具有概率不可区分性。

差分隐私保护根据实现环境不同可分为两大类:交互式差分隐私和非交互式差分隐私。交互式差分隐私保护机制是指用户通过查询接口想数据拥有者递交查询请求,数据拥有者根据查询请求在原始数据集中进行查询,然后将查询结果添加噪声扰动后反馈给用户。非交互式差分隐私保护机制是指数据管理者直接发布一个满足差分隐私保护后的发布数据集,再依据用户的请求对发布数据集进行查询操作。

差分隐私的隐私预算参数ε代表隐私保护强度,该参数的选取高度依赖经验,仍然缺乏有效的信息量化方法对差分隐私强度和隐私泄露量进行预先量化,因此,如何利用信息论的方法对其隐私泄漏量进行量化,对给定数据集的差分隐私保护程度上界的量化方法,已成为优化差分隐私算法和设计隐私风险评估方案的关键。



技术实现要素:

本发明所要解决的技术问题是提供一种基于图论和互信息量的差分隐私度量方法,它解决差分隐私保护机制中隐私泄露的量化中存在的难题:(1)目前对差分隐私保护的强度和效果仅能后验评估,且高度依赖于经验性选择的隐私预算参数ε,难以预先对隐私保护强度和隐私泄露量进行量化。(2)在差分隐私保护机制中,隐私预算ε一旦耗尽将会破坏差分隐私保护,隐私保护算法将失去其意义。现有的隐私度量方法主要是基于信息熵的隐私度量模型,如何将香农信息论与差分隐私结合对差分隐私保护机制中的隐私泄露进行量化,并证明求解差分隐私保护机制中隐私泄露的上界值是本发明重点解决的难点问题。

本发明是这样实现的:基于图论与互信息量的差分隐私度量方法,包含如下步骤进行:

步骤1:首先以信息论通信模型重构差分隐私保护框架,构造差分隐私的信息通信模型,将差分隐私保护机制中原始数据集表示为信源,发布数据集表示为信宿,差分隐私保护机制表示为通信信道;

步骤2:构造隐私量化模型,将差分隐私通信模型中的通信信道建模为查询机制和噪音机制:

步骤3:再将信源和信宿视为图形结构,以此将信道转移矩阵视为信源图和信宿图的复合图;

步骤4:信道矩阵m转换为最大对角线矩阵m′;将信道矩阵m前n列中每一列元素的最大值移动到对角线上,矩阵m′仍满足ε-差分隐私且原始数据集与发布数据集间的条件熵h(x|y)不变;

步骤5:基于图的距离正则和点传递将最大对角线矩阵转换m′为汉明矩阵m″,使得对角线上的元素都相等且等于矩阵中的最大元素,即且原始数据集与发布数据集间的条件熵h(x|y)不变;

步骤6:利用图的自同构、邻接关系,通过放缩公式的方法证明差分隐私保护机制隐私泄露量存在上界,并给出一个计算隐私泄露上界的公式。

所述步骤2当中基于通信机制的隐私量化模型,将差分隐私保护机制中原始数据集表示为信源,发布数据集表示为信宿,查询机制和噪音机制机制表示为通信信道。

步骤4和步骤5的基于图论的隐私量化方法,利用图的自同构、点传递和正则距离性质给出隐私泄露上界,其中自同构知点集v(g)上的置换σ称为图g的自同构,即对任意顶点v,v′∈v均有如果v~v′则σ(v)~σ(v′);点传递指图g中任意顶点v,v′∈v存在自同构使得σ(v)=v′,则称图g为点传递顶;距离正则指如果存在整数bd和cd(d∈0,1,kdmax)使得图g中任意顶点v,v′,其中d(v,v′)=d,顶点v有bd个邻点属于集合v<d+1>(v),顶点v'有cd个邻点属于集合v<d-1>(v),则称图g为距离正则图。

本发明以信息论通信模型重构了差分隐私保护框架,构造了差分隐私的信息通信模型,将原始数据集表示为信源,发布数据集表示为信宿,查询机制和噪音机制表示为通信信道;进一步将信源和信宿视为图,以此将信道转移矩阵视为信源图和信宿图的复合图,并基于图的距离正则和点传递将信道转移矩阵转换为汉明图,提出差分隐私的隐私泄露互信息量化方法;利用图的自同构、邻接关系,通过放缩公式的方法证明差分隐私保护机制隐私泄露量存在上界,并提出一个计算隐私泄露上界的公式。所提出的差分隐私度量模型以信息通信模型为基础,利用图的特性结合信息熵给出隐私泄露量的互信息化计算方法,隐私泄露量的界仅依赖于原始数据集的属性数量、属性值数量及差分隐私预算参数,对任意分布的原始数据集,任意攻击能力的敌手都成立。

方案中利用了图论与互信息量的结合,相对于传统的依赖于经验性选择隐私预算的后验评估方法,本方法不仅给出一种具体的隐私想、量化方法而且考虑到查询中隐私泄露的上界问题并利用图的自同构、邻接关系,通过放缩公式的方法证明差分隐私保护机制隐私泄露量存在上界且给出隐私泄露上界的计算公式。通过分析证明,本发明提出的差分隐度量方法可给出差分隐私保护的隐私泄露互信息上界,限制条件较少,适用于所有信道,且不依赖原始数据集的分布。

附图说明

图1为本发明的流程示意图;

图2为本发明的差分隐私度量模型图;

图3为本发明的通信模型中信道矩阵转换图。

具体实施方式

下面结合附图和实施对本发明做进一步的说明。

本发明的实施例:一种基于图论与互信息量的差分隐私度量方法与技术流程如图1所示,包括6个步骤,构造差分隐私信道模型和隐私量化模型,再基于图论和互信息量给出度量方法并证明差分隐私保护机制存在隐私泄露上界且给出计算公式。

所述的通信模型中的信道转移过程如图2所示,包括两个步骤:信道矩阵m转换为最大对角线矩阵m′。将信道矩阵m前n列中每一列元素的最大值移动到对角线上;基于图的距离正则和点传递将最大对角线矩阵转换m′为汉明矩阵m″,使得对角线上的元素都相等且等于矩阵中的最大元素。

基于图论和互信息量的差分隐私度量模型如图3所示,基于图2中的差分隐私度量模型对原始数据集与发布数据集间的隐私泄漏量进行量化,记隐私度量模型中发布数据集对原始数据集的最大隐私泄漏量为ml。首先,将原始数据集和分布数据及数据集视为无向图,构造出基于二元图形结构的信道矩阵(信道图),并利用图的距离正则和点传递对信道矩阵m进行转换处理得到汉明矩阵(汉明图);然后,通过对汉明矩阵的邻接关系证明原始数据集与发布数据集的条件熵存在下界,进一步利用汉明矩阵的对称性和自同构关系得到条件熵的下界,并对任意分布的输入数据集,利用互信息的计算方法,计算隐私泄露量的上界。

由条件熵定义知:

再由信息熵的定义及均匀分布最大熵原理得

又因m″i,j≤maxm″,故

又因

因信道矩阵转换为汉明矩阵后,原始数据集和发数据集间的条件熵不变,即hm(x|y)=hm″(x|y),故

h(x|y)≥-log2maxm

由差分隐私的扩展定义知,假设信道矩阵m满足ε-差分隐私,则对于任意列j,以及任意一对行i和h(i~h),有

当h=j时,矩阵m″对角线上的元素相等且等于最大元素值,故,对于每一个元素m″i,j有

maxm″≤eεd(i,j)m″i,j

又因为矩阵m”中任意行元素均为概率分布,则∑jm″i,j=1,故

且根据图形结构元素的距离分组知得到

通过不等式变换得到

若通信模型的输入图形结构为距离正则图和点传递,则对于每一个d∈sg,|x<d>(i)|值均相同且只取决于d,将其值记为nd,即nd=|x<d>(i)|。故

通过改变表示i的u元组中的个体的值,可以得到距x距离为d的每个元素j。这些个体有种可能选择,每一种选择有(v-1)种可能情况,故

又因为

当原始数据集的概率分布为均匀分布时,信息熵有最大值,即h(x)=log2n=log2vu。根据互信息量的定义知

由上述证明推到可知,当原始数据集的概率分布为均匀分布时,原始数据集有最大信息熵,此时互信息量泄露最大,故当原始数据集为任意概率分布时,结果仍然成立。因此,互信息量上界对原始数据集上的任意分布都是有效的。此外,由于在所提出的模型仍满足差分隐私机制,故互信息上界对对手可能具有的任何背景知识都是有效的。

以上结合具体附图对本发明进行了详细的说明,这些并非构成对发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可以作出许多变形和改进,这些也应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1