一种基于个性化采样随机响应图结构扰动算法的满足本地差分隐私的链接预测模型的构建方法、设备及介质

文档序号:34651143发布日期:2023-06-29 19:46阅读:20来源:国知局
一种基于个性化采样随机响应图结构扰动算法的满足本地差分隐私的链接预测模型的构建方法、设备及介质与流程

本发明涉及数据安全领域,具体涉及去中心化社交网络下链接预测过程中的图结构隐私保护技术。


背景技术:

1、在现实生活中图数据是一种普遍存在的数据类型,例如社交网络和蛋白质网络。链接预测通过图上已知的图结构去推测节点间将来可能出现的连接关系,因此链接预测可以被社交网站用于新朋友推荐。然而,随着数据隐私越来越受到人们的重视,社交网站直接使用用户间真实的连接关系进行链接预测可能会泄露用户的敏感连接信息,因此用户可能就不愿意将自己与其他用户的连接关系分享给第三方。传统的在图上的隐私保护技术包括k-邻居算法,k-度匿名算法以及差分隐私(differential privacy,dp)。这些隐私保护技术首先假设存在一个可信的中心化平台,然后在这个中心化平台保留有所有用户的数据,平台就可以在用户数据上运行满足隐私保护要求的算法,则这个算法能输出满足隐私保护要求的结果,但是中心平台不总是可信的,它可能因为各种原因泄露用户的敏感数据,例如facebook曾泄露用户的隐私数据,同时平台本身可能也会窃取用户的敏感数据。除此之外,对一些去中心化的社交网络,每个用户拥有自己的一部分连接关系而没有一个中心化的平台保留所有用户间的连接关系,例如万维网,手机联系人网络,邮件联系人网络等,所以在以上这些场景中,用户需要一个去中心化的隐私保护技术。

2、本地差分隐私(local differential privacy,ldp)就是一种常用于保护去中心化用户敏感信息的隐私保护技术。ldp假设第三方平台是不可信的,所以ldp需要用户自己以满足ldp的方式扰动自己的数据,然后发送扰动后的数据给第三方平台。因为第三方平台接收到的是扰动后的数据而不是真实数据,所以用户的敏感信息不能直接被第三方平台获取,这样也就保护了用户的隐私。之前已经有一些在满足ldp条件下处理图数据的工作,这些工作可以分为两类,一类是图数据合成,一类是图上统计量的无偏估计。首先,针对ldp条件下的图数据合成,ldpgen是第一个在去中心化场景下满足ldp定义的合成图方法。这个方法中,作者基于chung-lu图生成模型通过精心设计的节点度收集策略去获得近似的图拓扑结构。随后cggen方法进一步考虑节点间的组内相关性和组间相关性,然后基于节点间的相关性提出了一个合成图方法,该方法解决了可能通过局部图结构相关性泄露隐私的问题。之后psg在收集度向量时更进一步考虑添加噪声的取值范围和生成图时的数据效用。其次,除了以上3个满足ldp条件下的图合成工作外还有一些工作关注于在ldp条件下估计图上的统计量。sun在去中心化场景下提出了一个比edge-ldp隐私保护强度更高的差分隐私定义ddp,ddp定义为同时保护用户自己的连接隐私和邻居的连接隐私。在ddp条件下作者提出了一个估计图上统计量的多阶段框架。然后,ye提出了lf-gdpr框架,lf-gdpr是一个满足edge-ldp的图上统计量的估计框架。lf-gdpr要求需要估计的统计量能被重写为邻接矩阵和节点的度之间的多项式的形式。imola提出了一个估计三角计数和k-计数的方法,该方法通过数据收集者与用户间的多轮交互去减少统计量的估计误差。总结现有的方法我们发现,现有的满足ldp的图合成方法能保留图上的整体性的结构特征,但是不能保留一些边级别的细粒度信息,而图上统计量的无偏估计关注于准确估计目标统计量,忽略了在扰动后的图结构中对原始图结构特征的保留。而现有的一些关于链接预测的工作指出,当我们采用启发式或者基于局部结构相似性计算目标连接出现概率的链接预测算法时,目标节点对的局部封闭子图中的图结构已经包含足够用于链接预测算法的特征。所以我们应该关注于保留更多的目标节点对局部子图所形成的局部图结构。而前面提到的方法都没有直接针对后续链接预测分析的特点进行优化,所以使用现有的方法扰动图数据都会导致后续的链接预测分析有着较差的表现。


技术实现思路

1、本发明目的是针对去中心化场景下的链接预测分析过程中的用户隐私保护问题,为了解决现有技术的不足,使用本地差分隐私技术,个性化采样技术,社区划分等技术,提出了一种基于个性化采样随机响应图结构扰动算法的满足本地差分隐私的链接预测模型的构建方法。

2、本发明是通过以下技术方案实现的,本发明提出一种基于个性化采样随机响应图结构扰动算法的满足本地差分隐私的链接预测模型的构建方法,所述方法具体包括以下步骤:

3、步骤1:数据收集者选择一个现有的没有考虑隐私保护的链接预测算法。数据收集者初始化图结构扰动相关的参数并将第一轮交互和第二轮交互需要的相关参数发送给每个用户。

4、步骤2:用户根据接收到的参数使用个性化采样随机响应算法扰动本地图结构并发送给数据收集者。

5、步骤3:数据收集者根据接收到的图结构使用社区发现算法得到社区发现结果并将社区划分结果再发送给每个用户。

6、步骤4:用户根据收到的社区划分使用基于社区的个性化采样随机响应算法扰动本地图结构并发送给数据收集者。

7、步骤5:数据收集者根据接收到的图结构和任意一个无隐私保护的链接预测算法训练一个满足本地差分隐私的链接预测模型。

8、进一步地,所述步骤1包括以下步骤:

9、步骤1.1:数据收集者设置总的隐私预算参数ε,收集到的图中的真实边占比的期望r,用于第一轮用户数据扰动的隐私预算分配系数α,以及社交网络中的总的用户数n;

10、步骤1.2:数据收集者分别计算用于第一轮交互和第二轮交互需要消耗的隐私预算ε1和ε2。然后将ε1,ε2,n和r发送给每个用户。

11、进一步地,所述步骤2包括以下步骤:

12、步骤2.1:用户将自己与其他用户之间的连接关系构建为一个n维的用户比特向量;

13、步骤2.2:用户根据所述ε1和r,使用所述个性化采样随机响应算法扰动用户比特向量,之后将扰动后的用户比特子集中比特值为1的比特对应的比特索引发送给数据收集者。进一步地,所述步骤3包括以下步骤:

14、步骤3.1:数据收集者接收每个用户发送的用户比特向量中的比特值为1的比特索引,然后根据所有用户发送的比特索引在邻接矩阵对应位置填充1,其余位置填充0从而构建用户邻接矩阵;

15、步骤3.2:数据收集者在用户邻接矩阵上运行社区发现算法获得社区发现结果,之后将所述社区发现结果发送给每个用户。

16、进一步地,所述步骤4包括以下步骤:

17、用户根据接收到的社区发现结果和第二轮交互消耗的隐私预算ε2,使用基于社区的个性化采样随机响应方法扰动用户比特向量的子集,之后再将扰动后的子集中比特值为1的比特索引发送给数据收集者。

18、进一步地,所述步骤5包括以下步骤:

19、步骤5.1:数据收集者接收所有用户发送的比特索引,然后根据比特索引为用户邻接矩阵的对应位置填充比特1,其余位置填充0,之后形成用户邻接矩阵;

20、步骤5.2:数据收集者使用步骤5.1中构建的用户邻接矩阵和任意无隐私保护的链接预测算法训练一个满足本地差分隐私的链接预测模型。

21、本发明还提供一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行上述的一种基于个性化采样随机响应图结构扰动算法的满足本地差分隐私的链接预测模型的构建方法。

22、一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行上述的一种基于个性化采样随机响应图结构扰动算法的满足本地差分隐私的链接预测模型的构建方法。

23、与现有技术相比,本发明通过本地差分隐私技术保护了用户的敏感连接信息,进而保证了去中心化场景下的链接预测过程中不会泄露用户的敏感链接信息。

24、现有的基于随机响应机制设计的满足本地差分隐私的图结构扰动算法可以保留边级别的细粒度特征,但是会导致收集的图产生边密度膨胀问题。

25、本发明相比于现有的同样基于随机响应机制设计的隐私保护方法,我们采用了个性化采样技术缓解了由于使用随机响应机制导致的边密度膨胀问题。

26、当前个性化采样技术被用于增强满足中心化差分隐私的拉普拉斯机制的效用,但是还没有工作将个性化采样技术和随机响应机制结合。个性化采样技术通过有偏采样的方式对数据库中满足条件的记录赋予更大的采样概率,其它的赋予更小的采样概率,从而形成一个满足需要的数据库记录的子集。随机响应机制中对数据集中的每条记录使用相同的保持概率和翻转概率。因此如果数据集中存在大量表示边不存在的记录,则使用随机响应机制会导致大量本来不存在的边被翻转成边。本发明中对表示边存在的记录赋予更大的采样概率,其余赋予更小的采样概率,减少了生成的数据子集中表示边不存在的记录数量。从而减少了数据子集在随机响应之后的大量假边出现,即缓解了边密度的膨胀。同时因为随机响应之后的数据集中的假边减少,所以生成数据集中的有价值信息更多。

27、除此之外使用图上的社区结构可以提升部分链接预测算法的表现,同时为了在扰动后的图上保留与原始图相似的社区划分特征,我们在图结构扰动过程中使用社区划分技术先获得初步的社区划分,然后根据这个初步的社区划分进一步确定当前用户与不同社区中的比特的采样概率,在扰动后的图上保留了图上重要的社区特征。

28、同时我们给定实验条件为真实数据集usair,ns,pb和facebook,以及链接预测过程中的链接预测算法为cn,katz,node2vec和seal,然后隐私预算设置为ε=0.1的条件下。将所述方法与前文提到的ldpgen和lf-gdpr中的结构扰动算法rabv进行对比实验。结果表明所述方法在所有数据集和所有链接预测算法下效果都是最优的,且相比于对比算法性能至少提高了30%以上。

29、综合以上方法我们在去中心化场景下的链接预测过程中实现了满足本地差分隐私的隐私保护,在保护隐私的条件下获得了较好的链接预测性能表现。

30、本发明适用于图结构隐私保护场景,具体地,本发明提出的方法可以适用于分布式社交网络下服务提供商在保护用户敏感链接关系条件下为用户提供朋友推荐服务。以及对手机联系人网络和邮件联系人网络等场景中所有用户间的链接关系被电信或者邮箱公司所有,而该类公司通常不会和研究者合作共享用户的链接关系,所以研究者如果想研究这类网络的特点需要自己以保护用户敏感链接的方式从每个用户那里获得这个网络的结构,本发明提出的方法就能以保护用户敏感链接的方式获得网络的拓扑结构。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1