面向社区检测应用的社会网络数据发布隐私保护方法

文档序号:8543977阅读:335来源:国知局
面向社区检测应用的社会网络数据发布隐私保护方法
【技术领域】
[0001] 本发明设及网络数据安全技术领域,具体设及一种面向社区检测应用的社会网络 数据发布隐私保护方法。
【背景技术】
[000引随着社会网络应用的发展,例如化cebook、MySpace等,通过社交网站进行交友、 联系的用户越来越多。该也吸引了更多的数据研究人员和应用开发人员的注意力。通过对 社会网络分析可W为数据挖掘与模式分析提供更丰富、更准确的数据来源。但是,发布社会 网络数据将会导致用户的敏感信息泄露,该在某种程度上将对用户造成危害。由于社会网 络数据中的敏感信息多样化,如节点被识别,节点属性泄露,节点间的关系被识别等,则泄 露的方式也有多种,相对应的匿名防护措施也有多种。而保护社会网络数据的隐私需要基 于网络数据的特点来研究所对应的保护技术。最常用且直观的一种匿名方法为简单匿名, 即移除能唯一标识用户(即图中的节点)的显式标识符属性,如姓名、生日。然而,许多先 前的研究已经证实简单匿名不足W保护用户隐私。
[0003] 为了更好的保护社会网络中的数据隐私,现有的社会网络数据匿名方法有:节点 K-匿名,即依据结构相似或者距离相近,将社会网络中的所有节点聚类形成超级节点,使得 每个超级节点至少包含K个原始网络图节点。同时,超级节点相连的边概化为超级边。由 于,每个超级节点内部的节点相互之间不可区分,所从此匿名网络节点被识别的概率小于 等于1/K;子图K匿名,即假设攻击者知道目标节点所在的特定子图信息,匿名后使社会网 络中至少有K-1个子图与之不可区分。除此之外也有K-度匿名、随机化、差分隐私等方法 来保护用户信息不被泄露。但在当前的社会网络隐私保护研究中,更多地强调特定场景所 对应的匿名模型的隐私保护方法,较少指定发布数据的用途,该样在匿名的过程中,修改边 和节点就会在某种程度上破坏原始的某种结构属性。而在现实生活中,用于发布的社会网 络数据常被用在各种特定用途中,如;数据连接挖掘,社区中屯、发现等,该就需要改进原始 的匿名方法。

【发明内容】

[0004] 本发明所要解决的现有社会网络隐私保护方法会在某种程度上破坏原始网络的 某种结构属性的不足,提供一种面向社区检测应用的社会网络数据发布隐私保护方法,其 在发布数据时,保证匿名要求的同时,更好的保存了原始图的社区结构该一结构信息,有利 于数据分析者做社区的相关分析。
[0005] 为解决上述问题,本发明是通过W下技术方案实现的:
[0006] 面向社区检测应用的社会网络数据发布隐私保护方法,包括如下步骤:
[0007] 步骤1、先初始化数据;再对初始化后的数据进行初步的社区检测,得到匿名前的 初始的社区划分;后将数据的节点集合按度数进行排列,得到新的节点序列;
[000引步骤2、K匿名形成超级节点;即
[0009] 步骤2. 1、选择当前节点序列中度数最大的节点,作为当前超级节点的种子节点, 并在节点集合中除去已选中的节点;
[0010] 步骤2. 2、计算该个超级节点和节点集合中的每个节点的距离,选择最近的节点合 并为超级节点,并在节点集合中除去已选中的节点;
[0011] 步骤2. 3、继续重复上述步骤2. 2,即计算距离、合并节点和更新节点集合的过程, 直到当前超级节点包含的节点个数达到设定的隐私水平K,则开始下一个超级节点的处 理;
[0012] 步骤2. 4、重复上述步骤2. 1-2. 3,直到节点集合中剩下的节点个数小于设定的隐 私水平K;
[0013] 步骤2. 5,分别计算节点集合所剩下的节点和之前已形成的几个超级节点的距离, 并逐个将剩下的节点分别合并到距离最小的超级节点中,直到节点集合为空,即节点集合 的所有节点均聚类成超级节点;
[0014] 步骤3、将数据的边概化为带权重的超级边,其中权重即为原始图中连接两个超级 节点之间的边的数目;
[0015] 步骤4、将超级节点和超级边进行拆分;
[0016] 步骤5、发布匿名后的社会网络数据。
[0017] 步骤1中,初始化数据即是去掉显示的标识属性,改用重新编号的标识符表示。
[00化]步骤1中,采用GN算法来做社区检测。
[0019] 步骤1中将数据的节点集合按度数降序排列,得到新的节点序列;此时,步骤2中 选择当前节点序列中度数最大的节点即排在首位的节点,作为当前超级节点的种子节点。
[0020] 步骤2. 2中,当有多个节点与当前的超级节点的距离最小且相同时,则优先选择 与当前超级节点的种子节点为同一个社区的候选节点合并为超级节点;如果候选节点中没 有与当前超级节点的种子节点为同一个社区的节点时,则优先选择单节点社区节点合并为 超级节点。
[0021] 步骤2. 3和2. 4中,设定的隐私水平K的取值范围为1 <K《n,其中n是原始网 络图中节点总个数。
[002引步骤2. 5中,当前节点集合中的节点与多个超级节点的距离最小且相同时,则将 当前剩下的节点合并到种子节点与之为同一个社区的超级节点中。
[0023] 步骤4中,将超级节点和超级边W等概率进行拆分。
[0024] 与现有技术相比,本发明针对社区检测该一具体的数据使用目的,主要从W下几 方面改进了原始的匿名算法:
[0025] 1、因为要保护社区结构,使之在匿名前后的改变最少。本发明在开始的时候对数 据进行了初步的社区检测,得到初始的社区划分。此外,为了后续的选择节点需要,对节点 列表V按度数降序排列。
[0026] 2、每个超级节点选择距离最小的节点合并为超级节点的过程中,候选节点有多个 时,优选选择与当前超级节点的种子节点为同一个社区的节点。
[0027] 3、候选节点中没有与当前超级节点的种子节点同为一个社区的节点时,选择候选 节点列表中末尾的节点,即度数最小的节点。该样能保证优先选择单节点社区节点(该样 的节点往往度数为零,如果存在该样的节点的话,必为度数最小的,且排在候选节点列表的 末尾),该样能保证更少地破坏其他非单节点社区。
[002引4、当节点列表中的节点数目小于K时,需要将该些节点分别加入到与之距离最小 的超级节点中,当该样的超级节点多于一个的时候,优先加入种子节点Vwed与之为同一社 区的超级节点中。
【附图说明】
[0029] 图1为本发明面向社区检测应用的社会网络数据发布隐私保护方法的流程图。
[0030] 图2为一种社会网络数据的原始图。
[0031] 图3为本发明优选实施例面向社区检测应用的社会网络数据发布隐私保护方法 的流程图。
[0032] 图4为图2的社会网络数据K匿名后按相应概率拆分后的图。
【具体实施方式】
[0033] 面向社区检测应用的社会网络数据发布隐私保护方法,如图1所示,其包括如下 过程:
[0034] 步骤一、初始化数据,即去掉显示的标识属性,改用重新编号的标识符表示。对该 些数据进行初步的社区检测,得到匿名前的社区划分。除此之外,再将节点集
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1