基于分层随机图的在线社会网络差分隐私保护方法

文档序号:9618714阅读:466来源:国知局
基于分层随机图的在线社会网络差分隐私保护方法
【技术领域】
[0001] 本发明涉及在线社会网络关键结构的敏感信息保护技术,具体涉及一种基于分层 随机图的在线社会网络差分隐私保护方法。
【背景技术】
[0002] 随着互联网技术的发展与在线社会网络服务的普及,数据的共享变得越来越便 捷,由此引发了人们对自身隐私泄露的担忧。近年来,由数据泄露引发的社会恐慌在国内 外时有发生,如美国著名互联网公司美国在线(A0L)泄露了大量用户的网络搜索记录,有 人根据这些搜索记录找出了对应用户的真实身份,使得大量注册用户的上网习惯被意外曝 光。由该类事件可知,保护个人隐私远远不止隐藏数据记录中的敏感属性那么简单,还要阻 止敏感属性值与特定的实体或个人关联起来,以防止由非敏感属性信息推测出个人的真实 身份。近十几年来数据挖掘技术的高速发展,也为隐私信息的保护带来了新的挑战。因为 数据挖掘的对象往往是海量数据,同时对海量数据进行访问,使得身份认证、权限控制等传 统的数据库安全措施不能有效进行隐私保护。因为这些手段只能防止敏感属性被用户直接 获取,但间接推理获得敏感信息的行为很难预防。
[0003] 2006年研究者首次提出差分隐私(Differential Privacy)的概念。差分隐私概 念源于一个朴素的观察:当数据集D中包含个体A时,对数据集D进行任意查询操作f (如 计数、求和、平均值和中位数等)所得到的结果为f(D),如果将个体A的信息从数据集D中 删除后进行查询得到的结果任然为f(D),则可以认为,个体A的信息并没有因为被包含在 数据集D中而产生额外的风险。差分隐私保护就是要保证任一个体在数据集中或者不在数 据集中时,对最终发布的结果没有影响。
[0004] 现有的隐私保护技术可大致分为:数据失真、数据加密、限制发布和泛化匿名等。 但许多隐私保护技术融合了多种技术,如k-匿名和ι-diversity是基于限制发布的泛化技 术中比较有代表性的两种隐私保护方法。k-匿名可以保证任意一条记录与另外的k-Ι条记 录不可区分。Ι-diversity在基于k-匿名的基础上保证每个等价类中的敏感属性至少有1 个值,避免一个等价类中敏感属性取值单一,使得隐私泄露风险不超过1/1。这些隐私保护 方法的不足之处在于没有严格定义攻击模型,对攻击者所具有的背景知识未能作出定量化 分析。
[0005] 差分隐私保护与传统隐私保护方法的不同之处在于,它定义了一个极为严格的攻 击模型,并对隐私泄露风险给出了严谨、定量化的表示和证明。差分隐私保护在大大降低隐 私泄露风险的同时,极大地保证了数据的可用性。差分隐私保护方法的最大优点是,虽然基 于数据失真技术,但所加入的噪声量与数据集大小无关,因此对于大型数据集,仅通过添加 极少量的噪声就能达到高级别的隐私保护。
[0006] 在线社会网络的发展带来海量的网络数据,这些网络数据中往往包含大量涉及个 人隐私的敏感信息。净化网络是将敏感信息从原始网络数据中移除或者对敏感信息进行加 密形成的网络。而差分隐私保护技术是基于数据失真的隐私保护技术,采用添加符合一定 概率分布的随机噪音使敏感数据失真,但同时保持某些数据或数据属性不变。因此差分隐 私技术用于生成在线社会网络的净化网络时具有多个优点。
[0007] 网络具有层次组织结构,节点可以被划分为组团,组团又划分为社区,因此网络具 有多尺度。在许多实际情况下,这些组群对应着已知的功能单位,如食物链中的小型生态环 境、生化网络中的模块、社会网络中的社区等等。而这种网络层次结构可以用分层随机图 (Hierarchical Random Graph,HRG)来刻画。因此分层随机图模型可以有效刻画大型在线 社会网络层次结构,对网络进行有效建模。

【发明内容】

[0008] 本发明要解决的技术问题:针对现有技术的上述问题,提供一种能够解决社会网 络敏感结构数据信息的隐私保护问题,能够满足差分隐私保护要求、同时保持良好的数据 可用性的基于分层随机图的在线社会网络差分隐私保护方法。
[0009] 为了解决上述技术问题,本发明采用的技术方案为:
[0010] 一种基于分层随机图的在线社会网络差分隐私保护方法,步骤包括:
[0011] 1)输入网络G;
[0012] 2)基于分层随机图模型构建网络G的树结构T ;
[0013] 3)根据预设的隐私预算ε i,由马尔科夫蒙特卡洛方法在网络G的树结构T中进 行米样得到米样树Tsamplf;;
[0014] 4)以采样树的根节点Rroc]t作为初始的当前节点;
[0015] 5)根据预设的隐私预算ε 2,计算当前节点的关联概率值{PJ ;
[0016] 6)在网络G中找到以当前节点作为最近父节点的一组节点对,以关联概率值{PJ 在该组节点对之间设置一条边;
[0017] 7)判断采样树T_ple是否遍历完毕,如果尚未遍历完毕,则在采样树T _ple中查找 下一个节点作为当前节点,跳转执行步骤5);否则跳转执行步骤8);
[0018] 8)将所有组节点之间设置的边及其节点组成的净化网络g输出。
[0019] 优选地,所述步骤2)构建网络G的树结构T为包含一个根节点、η个叶节点及n-1 个父节点的二叉树,所述树结构T中的η个叶节点对应网络G中的η个节点,每一个父节点 r具有属性连接概率Ρρ所述连接概率表示以父节点r为相同父节点的两个叶节点之间 的连接概率。
[0020] 优选地,所述步骤3)的详细步骤包括:
[0021] 3. 1)从网络G的树结构T中选择一个随机的初始采样树T。作为初始化马尔科夫 链的条件,初始化马尔科夫链并开始沿着马尔科夫链移动;
[0022] 3. 2)当沿着马尔科夫链移动到第i步时,从初始采样树T。或者上一步得到的采样 树t i中随机选出一个分枝节点r ;
[0023] 3. 3)随机构造出分枝节点r的子树,通过分枝节点r的子树选出上一步得到的采 样树i的一个邻居树Τ' ;
[0024] 3. 4)根据预设的隐私预算ε i计算转移概率Ρ,根据转移概率Ρ在马尔科夫链中 进行条件转移,同时将邻居树Τ'赋值给本步得到的采样树T1;
[0025] 3. 5)判断马尔科夫链中是否还有剩余树,如果还有剩余树则继续沿着马尔科夫链 移动,并跳转执行步骤3. 2),否则跳转执行步骤3. 6);
[0026] 3. 6)将采样树1\作为最终得到的采样树T __输出。
[0027] 优选地,所述步骤3. 4)中计算转移概率P的函数表达式如式(1)所示;
[0029] 式(1)中,P为转移概率,ε i为预设的隐私预算,Λ u为差分隐私全局敏感度,Τ' 为本步得到的邻居树,?\ i为上一步得到的采样树,£为分层随机图的最大似然概率。
[0030] 优选地,所述分层随机图的最大似然概率的函数表达式如式(2)所示;
[0032] 式⑵中,Α?表不树结构T的最大似然概率,r表不树结构T的一个分枝节点, 瓦为采样树节点连接的关联概率,W为以r为节点的左子树,L为以r为节点的右子树。
[0033] 优选地,所述步骤5)的详细步骤包括:
[0034] 5. 1)根据预设的隐私预算ε 2计算注入噪音测度值λ b;
[0035] 5. 2)根据预设的隐私预算ε 2计算连接概率测度值λ
[0036] 5.3)判断注入噪音测度值λ b大于或等于τ i且连接概率测度值λ。大于或等于 τ 2是否同时成立,如果成立则跳转执行步骤5. 4),否则跳转执行步骤5. 7);
[0037] 5. 4)确定以当前节点f为根节点的子树中所有节点间边的数量e ;
[0038] 5. 5)计算节点连接概率预测值jj
[0039] 5. 6)对以当前节点/为根节点的子树中的每个分枝节点r,将节点连接概率预测 值;;赋值给设置分枝节点r的连接概率
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1