基于分层随机图的在线社会网络差分隐私保护方法_3

文档序号:9618714阅读:来源:国知局
似然概率的函数表达式如式(2)所示;
[0092] 式(2)中,£0-)表不树结构Τ的最大似然概率,r表不树结构Τ的一个分枝节点, Λ为采样树节点连接的关联概率,W为以r为节点的左子树,L为以r为节点的右子树。本 实施例中,首先使用分层随机图模型HRG匹配网络数据,找到与网络G相匹配的分层随机图 模型HRG。这里设定所有分层随机图模型HRG先验概率是完全相等的,对一个给定分层随 机图模型(T,{pj)的概率的正确解释是:后验概率或似然概率£在可观察网络产生的模型 中的比例,目标是使得似然概率£最大。更一般的讲,以似然概率£来采样所有产生的模型 所组成的空间。本实施例中这里让E1^代表网络G中边的数量,网络G对应的树T中包含r 个父节点。让k为以r为节点的左子树,L为以r为节点的右子树,则分层随机图模型HRG 的似然概率的函数表达式如式(2-1)所示。
[0094] 式(2-1)中,£0-,?Α.}?为网络G的分层随机图模型(T,{pj)的似然概率,r表示 树结构T的一个分枝节点,Pl^为分枝节点r的连接概率,E 1^代表网络G中边的数量,为以 r为节点的左子树,艮为以r为节点的右子树。本实施例中,约定0°= 1。
[0095] 如果确定了树T,那么很容易找到一组概率值·1?来使得似然概率最大 化。对每个分枝节点r,其概率值计算的函数表达式如式(2-2)所示。
[0097] 式(2-2)中,歹,为分枝节点r连接的关联概率,Pj^为分枝节点r的连接概率,E j^为 网络G中边的数量山为以r为节点的左子树,L为以r为节点的右子树。
[0098] 在式(2-1)和式(2-2)的基础上,可以推导得到分层随机图的最大似然概率的函 数表达式如式(2)所示。且式(2)往往以对数形式出现如式(2-3)所示。
[0100] 式(2-3)中,h()为 Gibbs-Shannon 熵函数,其表达式为 h(p) = -p log p-(l-p) log(l-p)。根据式(2-3)可以发现,中的每一项在R接近〇或1时达到最大化, 即在熵最小时。换句话说,与网络匹配的树是:将节点划分为小的组群,组群间的连接要么 非常常见,要么非常稀少。
[0101] 本实施例通过马尔科夫蒙特卡洛(Markov chain Monte Carlo,MCMC)采样方法来 保证差分隐私数据的可用性,通过马尔科夫蒙特卡洛采样方法以概率比例/·:( Π 来采样树 结构Τ。为了创建马尔科夫链,需要使用一组树τ之间的转换。这些转换包含树下的子树的 重排。一个树结构Τ的每内部节点r与三个子树相关联。马尔科夫链的每一步,首先随机 均匀的选择一个内部节点r (不包含根节点);接着随机均匀从与该r连接和相配的两个子 树中进行选择。结果产生一个新的树T',这种转换的结果具有遍历性。任意一对树可以由 有限的系列转换序列连接在一起。接下来根据标准Metropolis-Hastings规则来接受或放 弃新产生的树。如要接受该新树T - Τ',则= :tegr.(r )-log£(r)要为非负,因此Τ' 与Τ的似然相近。否则,以式(2-4)所示概率来接受这个转换序列。
[0103] 式(2-4)中,/:0-)为采样树结构T的概率比例,为采样树结构Τ'的概率比 例。
[0104] 如果这个转换没有被接受,那么当前树在马尔科夫链上的这一步保持相同。 Metropolis-Hastings规则确保细致平衡,同时与该转换的遍历性结合,保证了限制树的以 按比例的似然性概率分布,由于式(2-3)中唯一的一项就是Τ -Τ'的过程 中涉及到与选择节点相关的子树s、t和全局敏感度u,因此Ak>;g£的值容易计算。在经过 大概0 (η2)步后,似然值达到一个平台,马尔科夫链出现相对快速收敛。
[0105] 本实施例中,步骤5)的详细步骤包括:
[0106] 5. 1)根据预设的隐私预算ε 2计算注入噪音测度值λ b;
[0107] 5. 2)根据预设的隐私预算ε 2计算连接概率测度值λ
[0108] 5.3)判断注入噪音测度值大于或等于τ i且连接概率测度值λ。大于或等 于τ2是否同时成立,如果成立则跳转执行步骤5. 4),否则跳转执行步骤5.7);本实施例 中,"^和τ 2作为差分隐私的域值作为隐私预算的实验下限,τ 1取值为〇.〇5,τ 2取值为 0. 01 ;
[0109] 5. 4)确定以当前节点Ζ为根节点的子树中所有节点间边的数量e ? ;
[0110] 5. 5)计算节点连接概率预测值
[0111] 5. 6)对以当前节点Z为根节点的子树中的每个分枝节点r,将节点连接概率预测 值赋值给设置分枝节点r的连接概率预测值g,跳转执行步骤5. 12);
[0112] 5. 7)计算当前节点Z的连接概率预测值/彳;
[0113] 5. 8)生成当前节点Z的左子树L :
[0114] 5. 9)生成当前节点Z的右子树馬* ;
[0115] 5. 10)以当前节点Z的左子树~作为新的当前节点,跳转执行步骤5. 3);
[0116] 5. 11)以当前节点f的右子树|作为新的当前节点,跳转执行步骤5. 3);
[0117] 5. 12)输出当前节点f的关联概率值{P J。
[0118] 本实施例中,步骤5. 1)中计算注入噪音测度值λ b的函数表达式如式(3)所示;
[0120] 式⑶中,为注入噪音测度值,ε 2为预设的隐私预算,L,为当前节点f的左 子树,<?为当前节点f的右子树。
[0121] 本实施例中,步骤5. 2)中计算连接概率测度值λ。的函数表达式如式(4)所示;
[0123] 式⑷中,λ。为连接概率测度值,ε 2为预设的隐私预算,\为当前节点W的左 子树,?为当前节点f的右子树。
[0124] 本实施例中,步骤5. 5)中计算节点连接概率预测值^的函数表达式如式(5)所 示;
[0126] 式(5)中,?为节点连接概率预测值,为以当前节点f为根节点的子树中所 有节点间边的数量,ε2为预设的隐私预算,&为当前节点f的左子树,为当前节点f 的右子树,Lap ()为拉普拉斯分布函数。
[0127] 本实施例中,步骤5. 7)中计算当前节点Z的节点连接概率预测值/;的函数表达 式如式(6)所示;
[0129] 式(6)中,&为当前节点Z的节点连接概率预测值,心_为以当前节点Z为根节点 的子树中所有节点间边的数量,ε2为预设的隐私预算,&为当前节点r*的左子树,义为当 前节点Z的右子树,Lap ()为拉普拉斯分布函数。
[0130] 本实施例以wiki-Vote网络数据和ca-GrQc网络数据为例,分别对应用本实施 例方法的平均集聚系数如表1所示,测度值F-measure的结果如图4和图5所示。其中, wiki-Vote数据包含维基百科成立以来到2008年1月3日的社区管理员选举的全部投票数 据。ca-GrQc网络是一个广义相对论和量子力学研究领域的学术合作网络,包含1993年1 月到2003年4月,共124月中所有该领域中所有发表论文作者间的学术合作。
[0131] 表1 :wiki_Vote网络数据和ca-GrQc网络数据的测度值F-measure的结果。
[0133] 测度值F-measure的结果越大表示两个数据结果相似度越大,即差分隐私保护 方法所添加的噪音对数据可用性的影响越小。本实施例中当两个网络数据结果相同时, F-measure的结果取最大值1。首先对wiki-Vote网络数据和ca-GrQc网络数据进行预 处理,将网络数据处理为无环图。对两个网络数据分别进行本实施例实验,逐步将隐私预 算ε (ε^Ρ ε 2)的值从〇.〇5调高到1,观察F-measure的值随隐私预算ε的变化情况。 参见图4和图5,其中曲线GPN(Generate Private Network)为本实施例基
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1