关联社交网络数据的差分隐私保护方法与流程

文档序号:17697435发布日期:2019-05-17 21:44阅读:631来源:国知局
关联社交网络数据的差分隐私保护方法与流程

本发明涉及社交网络隐私保护技术领域,具体涉及一种关联社交网络数据的差分隐私保护方法。



背景技术:

社交网络在帮助人们建立社会性网络应用服务的同时,收集了大量的用户资料和敏感数据。直接分析社会网络数据会造成敏感信息泄露,对用户隐私构成威胁。传统的基于数据匿名化的技术的隐私保护技术在面对不断提高的背景攻击下显得无能为力。对此,差分隐私作为一种可以严格定义的可量化技术被引入到社会网络的隐私保护中。然而,现有的差分隐私方法均是建立在所有记录彼此独立的假设上,而在网络数据的背景下,这种假设并不总是成立。鉴于大量的社交网络数据之间是具有关联性的,最近的研究表明差分隐私易受数据关联的影响,这阻碍了差分隐私对具有关联性的网络数据的应用。



技术实现要素:

本发明针对现有差分隐私保护方法均是建立在所有记录彼此独立的假设上,并未考虑社交网络数据之间的关联性问题,提供一种关联社交网络数据的差分隐私保护方法。

为解决上述问题,本发明是通过以下技术方案实现的:

关联社交网络数据的差分隐私保护方法,具体包括步骤如下:

步骤1、利用桥将原始社会网络图分解成多个子图;

步骤2、记录桥的个数,并利用差分隐私保护模型对桥的个数信息进行保护;

步骤3、引入层次随机图模型描述每个子图的结构特征,得到每个子图的层次随机图;

步骤4、对于每个子图所对应的多个层次随机图所对应的树集,利用马尔科夫蒙特卡洛方法从中抽取出最佳样本树集;

步骤5、对每个子图的最佳样本数集分别使用拉普拉斯机制添加噪声,得到加噪后的最佳样本树集;

步骤6、将加噪后的最佳样本树集还原为子图形式,以完成每个子图的重构;

步骤7、利用步骤2所得到的加噪后的桥对步骤6所重构出的子图进行连接,以获得满足差分隐私的社会网络图,并对其进行发布。

与现有技术相比,本发明先通过将原始社交网络图利用桥划分成多个子图,由于子图与子图之间相对独立,因此能够分别引入层次随机图模型进行加噪处理,这样能避免数据关联对差分隐私保护的影响,再通过对桥进行差分隐私加噪处理,并利用加噪后的桥对加噪后的子图之间进行连接,进一步提高了所发布的社会网络图的安全性。

附图说明

图1为关联社交网络数据的差分隐私保护方法的原理图。

图2为原始网络图。

图3为图2所划分出的2个子图:(a)为第一子图;(b)为第二子图。

图4为图3(a)所对应的hrg:(a)为hrgt1;(b)为hrgt2。

图5为图4(b)所对应的下三角矩阵。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。

本发明面向关联的社交网络图数据的发布提供了一种基于层次随机图的隐私保护策略:首先,在分析社交网络的特性基础上,将社交网络原图根据节点标签分类为多个子图,保证子图内边的分布比较集中,子图间边的连接较弱。其次,针对分类后的每个子图,使用层次随机图对其结构推理,并在节点概率添加满足差分隐私保护的噪声。最后,根据层次随机图构建待发布子图,在重组成待发布图。

参见图1,一种关联社交网络数据的差分隐私保护方法,其具体包括步骤如下:

步骤1:将原始社交网络图利用桥划分成多个子图,划分后使子图内连接密集,子图间间接稀疏。

桥的概念:连接两个子图之间的边叫做桥,即给定的图g,v是顶点集合,e是边集合,若存在e子集e’,使得b(g-e')>b(g),且对于任意的e’的子集e”,均有b(g-e”)=b(g),其中b(g)表示图g的连通分支树,则称e’是g的边割(简称割集)。若e’={e},则称e为割边或桥。

通过计算原图中的桥从而将原图分解成多个不连通的子图,以保证每个子图内具有较高的关联性。对于一个图来说,拥有共同爱好的用户节点之间存在边的可能性更大,所以采用分类的思想,求解原图的所有不连通子图,使得子图内部连接密集,子图间间接稀疏。设g是原始网络图,x是g的一条边,如果g-x的连通分支数大于g的连通分支数,则称x是g的一个桥。在图2的原始网络图中节点b与节点d的连边就是一个桥。

本发明采用kosaraju算法求解图的强连通分量,它能够在o(|v|+|e|)时间复杂度范围内找到强连通分量。该算法首先对图g进行深度优先搜索(depthfirstsearch,dfs),计算出各顶点完成搜索的时间t;然后计算图的逆图,对其也进行dfs搜索,搜索时顶点的访问顺序不是按照顶点标号的大小,而是按照各顶点t值由大到小的顺序;逆图dfs所得到的森林即对应的连通区域。

本步骤旨在使得分类后的子图具有更高的关联度。对于社交网络而言,拥有某种特性的两个节点相关性的可能性更高,因此可以根据该特性将原图进行分类,分类后的每个子图将以较高概率满足密集分布。

步骤2:记录桥的个数,并对桥的个数信息进行保护。

根据差分隐私保护模型,对其分配一定的隐私预算,使用拉普拉斯机制对桥添加合适的噪声,在最后子图重构的步骤中会用到。

步骤3:引入层次随机图模型描述子图结构特征,得到每个子图的层次随机图。

层次随机图(hierarchicalrandomgraph,hrg)是由claustet等人在2008年提出的,通过寻找描述社会网络的最优二叉树,即最佳层次随机图,可以很好地描述社会网络的层次结构,本发明使用这种模型来构建社会网络的层次结构。hrg和其他基于树形结构的网络描述模型类似,都是用来表示图的社区组成和社区关系。但其强调的是社区内部的强连接和社区之间的弱连接关系。

hrg的层次结构由二叉树表示,其中二叉树的叶子节点即网络节点,hrg赋予二叉树每个内部节点r一个连接概率pr,它表示以r为根的左子树lr与其对应的右子树rr存在一条边概率,它可以反映出左右两个群体(社区)间的连接强度。pr值越大表示连接越紧密,pr可用公式表示为:

其中,|er|表示内部节点r左右两子树的连接边的数量,lr和rr分别表示节点r左子树和右子树,代表左子树中叶节点的个数,代表右子树中叶节点的个数。

图3(a)是一个包含7个节点的子图。其中a,b,c和d构成一个群体,e,f,g构成另一个群体。图3(b)一个包含3个节点的子图。根据pr公式计算群体内部的连接概率,对应根节点的连接概率。

根据hrg的定义可知,一个给定的社会网络存在多棵对应的树状图结构。因此,关键的问题是如何寻找并构建最佳匹配树,它能够最大程度保留社会网络结构属性。通常衡量一个hrg是否是为原图t的最佳匹配树使用相似度度量,其定义如下:

对于一个特定的t而言,最大相似度估计表示的所有内部节点的连接概率乘积,为了计算方便,具体取相似度l的对数:

其中,h(pr)=-prlogpr-(1-pr)log(1-pr)是gibbs-shannon熵函数。

对于图3(a)所示的子图,图4(a)和图4(b)分别给出它对应的两个可能的hrg,由上述的相似度公式分别计算t1,t2的相似度l,

l(t1)=(1/2)(1/2)(1/3)(2/3)2(1/6)2(5/6)10(1/2)(1/2)≈0.0000415

l(t2)=(1/2)(1/2)(1/12)(11/12)11(2/3)2(1/3)(1/2)(1/2)≈0.0002963

l(t1)的值大于l(t2),因此t2更适合描述原始网络图的层次结构。

步骤4:对于每个子图所对应的多个层次随机图,利用马尔科夫蒙特卡洛方法从中抽取出最佳样本树集。

由于一个子图对应多个层次随机图,因此需要获取最佳样本树集。首先将对hrg的候选树打分函数结合到噪声指数生成机制中,并利用马尔科夫蒙特卡洛(mcmc)方法,具体为metropolis采样过程,利用t的转换,来生成下一个邻近样本,对其使用指数机制打分决定接受概率。在mcmc的转移接受概率的设计上加入差分隐私,让构建最佳层次随机图的整个决策过程满足差分隐私的要求。

步骤4.1:对于一个具有n个节点的输入原始子图g1,需要对它的每个可能的hrg都计算其对数似然概率logl(t)作为衡量其好坏的标准。输入社会网络图g,隐私参数ε1,mcmc稳态阈值θ。

步骤4.2:样本树t0,初始化markov链;

步骤4.3:循环执行markov链中的第i步;在ti-1中随机选取一个内部节点r;随机选择r子树的一种构造树作为ti-1的邻居图t’;以接受概率选取t'作为ti;在mcmc的转移接受概率的设计上加入差分隐私,让构建最佳层次随机图的整个决策过程满足差分隐私的要求。

步骤4.4:在稳态markov链生成的树集中选取采样树;

步骤4.5:返回n课样本树sst(ts1,ts2,···,tsn)。

步骤5:对每个子图的最佳样本数集分别使用拉普拉斯机制添加噪声。

步骤5.1:计算加噪后内部节点r的连接概率

步骤5.2:r*的左子树记为rl,laplace加噪(g,ssi,rl,ε2);

步骤5.3:r*的右子树记为rr,laplace加噪(g,ssi,rr,ε2);

步骤6:利用加噪后的最佳样本树集实现每个子图的重构。

步骤6.1:对于t1,t2,t3中的每对叶子节点i,j,找到n棵hrg树的每对叶子节点的公共祖先(即社会网络图中每对节点的连接概率pr);

步骤6.2:将n棵hrg二叉树转换成n个相对应的下三角矩阵|a1,a2,a3,…,an|,计算下三角均值矩阵|a1,a2,a3,…,an|。

其中图5为图4(b)所示hrg图所对应转换出的下三角矩阵。

步骤6.3:输入下三角均值矩阵a,对于v中的每对节点i,j,计算均值矩阵a中aij的连接概率pr;

步骤6.4:以独立概率pr在网络图的i,j间放置边,返回净化图g;

步骤7:通过加噪后的桥,对子图之间进行连接,并发布加噪后的社会网络图。

随机选取两个子图i和j,并将两个子图i和j以概率相连,且连接到子图内随机抽样到的节点。直到添加的边数等于桥时,完成子图重构,发布加噪后的网络图。

上述ei表示子图i的剩余度,ej表示子图j的剩余度,表示所有子图的剩余度数之和,其中每个子图的剩余度ei为:

其中,|gi|表示子图i中节点的个数,表示除去子图间连接的内部节点度数,di表示子图i内节点实际度数。

需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1