一种基于矩阵分解的网络结构去匿名化系统及方法与流程

文档序号:20203401发布日期:2020-03-27 20:52阅读:152来源:国知局
一种基于矩阵分解的网络结构去匿名化系统及方法与流程

本发明涉及网络结构去匿名化领域,特别涉及一种基于矩阵分解的网络结构去匿名化系统及方法。



背景技术:

社交网络现在被第三方消费者(如研究人员和广告商)广泛利用以了解用户特征和行为。通常,在发布网络数据之前,收集的数据集中包含的私人信息或敏感信息会匿名化,以防止个人隐私受到损害。为了量化隐私保护机制的保证级别并减轻用户的顾虑,研究基于敏感信息推断的网络去匿名化方法变得尤为重要。

在社交网络中,由于隐私数据与公共数据共存,因此在社交网络数据发布时存在三个重要的隐私风险:内容泄露风险,身份泄露风险和链路泄露风险。目前,已经提出了许多匿名方法,可以分为两类,即基于泛化的方法和基于扰动的方法。具体而言,基于泛化的方法的基本思想是用不太具体但语义一致的信息替换敏感信息。基于扰动的方法包括链路修改策略和随机化策略,其中前者使用链路的添加和删除机制来满足期望约束,例如k-degreeanonymity和k-automorphismanonymity,后者则通过随机添加和删除链路来更改网络结构。此外,还有人提出了差分隐私方法用于网络匿名。

为了加强隐私保护技术并减少隐私泄露,提出了去匿名问题作为匿名化研究的对应物。最近,已经提出了许多去匿名方法来量化匿名技术的实际水平。第一个,也是最值得注意的一个方法是基于配置文件的去匿名方法,其中有关用户行为、位置、网络浏览历史等信息都可通过匿名和辅助网络来匹配账户以识别用户的身份。此外,假设一旦复原用户的真实身份就可以暴露所有敏感属性,则定义基于结构的去匿名方法来匹配账户用以识别用户身份。并且为了推断社交网络用户的敏感关系,开发了基于重建的去匿名方法,以根据匿名数据的结构模式来恢复原始网络。但是大多数现有的网络结构去匿名方法仅基于匿名网络,并且精确性有限以及大多数现有的网络结构去匿名方法仅基于网络节点的局部结构来推断敏感关系,且全局结构信息尚未被广泛利用。



技术实现要素:

针对现在网络结构去匿名方法精确性有限、网络动态变化的特点,本发明提出一种基于矩阵分解的网络结构去匿名化系统及方法,所述系统包括动态网络的获取数据模块,低秩稀疏模型训练模块,非负矩阵分解训练模型的构建模块,优化模块,其中:

动态网络-静态网络转换模块,用于根据实时动态网络的社交网络数据获取静态网络以及静态网络的邻接矩阵;

低秩稀疏模型训练模块,用于约束每个静态网络的局部特征结构同时去除每个静态网络的噪声;

非负矩阵分解训练模型的构建模块,用于捕捉网络内在的固有规律,对网络的潜在特征进行刻画;

优化模块,用于降低网络的随机性,进一步减少网络噪声对预测模型性能的负面影响。

进一步的,动态网络-静态网络转换模块包括原始数据获取模块、基于时间的划分模块以及邻接矩阵划分模块,其中:

原始数据获取模块,用于从现有的社交网络中获取实时动态网络数据;

基于时间的划分模块,用于将获取的实时动态网络数据根据时间区间分为t个静态网络;

邻接矩阵划分模块,用于获取每个静态网络的邻接矩阵。

进一步的,低秩稀疏模型训练模块包括低秩模块和稀疏模块,其中:

低秩模块,用于根据静态网络的邻接矩阵对静态网络的局部特征进行刻画,提取该静态网络中的局部特征;

稀疏模块,用于根据静态网络的邻接矩阵对静态网络的噪声进行刻画,提取该静态网络中的噪声。

进一步的,非负矩阵分解训练模型的构建模块包括降维模块和非负约束模块,其中:

降维模块,用于对低秩稀疏模型训练模块训练后的静态网络进行网络压缩;

非负约束模块,用于对进行网络压缩后的静态网络进行非负约束,使网络中每个元素都为非负。

进一步的,优化模块包括随机扰动模块、相似度评分模块以及叠加模块,其中:

随机扰动模块,用于随机删除或者添加网络中的连接关系,对网络造成随机扰动;

相似度评分模块,用于计算发生扰动之后网络的相似度评分矩阵;

叠加模块,用于对相似度评分矩阵进行叠加,并清除根据扰动变化的连接,固话不根据扰动变化的连接。

本发明提出一种基于矩阵分解的网络结构去匿名化方法,包括以下步骤:

s1、获取数据源,数据源包括各个网络之间的关系的拓扑结构以及网络中用户之间关系的拓扑结构;

s2、将动态社交网络的数据集根据时间划分为t个静态网络数据集,获取每个静态网络结构信息所对应的邻接矩阵;

s3、将邻接矩阵输入根据低秩表示模型进行训练,计算得到目标矩阵;

s4、将目标矩阵输入改进的非负矩阵分解模型进行训练和预测,得到目标矩阵的去匿名化矩阵。

进一步的,为了提高优化效率,将目标矩阵的求解过程表示为:

其中,||st||*表示矩阵s的奇异值之和;||et||1为第t个静态网络的噪音误差矩阵中元素的绝对值之和。

进一步的,将目标矩阵输入改进的非负矩阵分解模型进行训练和预测包括:

s41、将t-1个时刻的数据作为训练集训练模型,将第t个时刻的数据输入训练好的模型,预测t+1时刻的网络结构;

s42、利用社团检测求得社交网络潜在特征的数量;

s43、基于回报函数,求取不同时刻的基矩阵和系数矩阵;

s44、根据不同时刻的基矩阵和系数矩阵计算得到相似度评分矩阵,通过topn排序来寻找可能产生链接的用户对;

s45、对相似度评分矩阵中各个元素的绝对值进行排序,将值最大的n个作为匿名边集,即预测在t+1时刻产生的链接,以此来对网络进行去匿名化,进而对可能被推断出的关系进行匿名隐藏,防止网络推理攻击。

本发明针对动态匿名网络中存在各种不同程度噪声的问题,提出了结合非负矩阵分解和低秩稀疏分解的时序预测方法;针对传统预测方法存在的不足,本方案对网络数据进行低秩训练,结合非负矩阵分解的预测模型,将网络的结构信息和时序演变结合考虑,提高预测准确率。

附图说明

图1为本发明一种基于矩阵分解的网络结构去匿名化方法流程示意图;

图2为本发明一种基于矩阵分解的网络结构去匿名化方法框架图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明要解决的问题是现在网络结构去匿名方法精确性有限、网络动态变化的特点,一次本发明利用匿名网络的邻接矩阵和低秩稀疏模型以及非负矩阵分解模型得到最优结构模式,再通过该结构模式找出网络中的匿名边集,实现网络的去匿名化,从而得到真实稳定的网络结构相关数据进行更加精确的网络分析和应用。

实施例1

在本实施例中,本发明提出一种基于矩阵分解的网络结构去匿名化系统,包括动态网络的获取数据模块,低秩稀疏模型训练模块,非负矩阵分解训练模型的构建模块,优化模块,其中:

动态网络-静态网络转换模块,用于根据实时动态网络的社交网络数据获取静态网络以及静态网络的邻接矩阵;

低秩稀疏模型训练模块,用于约束每个静态网络的局部特征结构同时去除每个静态网络的噪声;

非负矩阵分解训练模型的构建模块,用于捕捉网络内在的固有规律,对网络的潜在特征进行刻画;

优化模块,用于降低网络的随机性,进一步减少网络噪声对预测模型性能的负面影响。

进一步的,动态网络-静态网络转换模块包括原始数据获取模块、基于时间的划分模块以及邻接矩阵划分模块,其中:

原始数据获取模块,用于从现有的社交网络中获取实时动态网络数据;

基于时间的划分模块,用于将获取的实时动态网络数据根据时间区间分为t个静态网络;

邻接矩阵划分模块,用于获取每个静态网络的邻接矩阵。

进一步的,低秩稀疏模型训练模块包括低秩模块和稀疏模块,其中:

低秩模块,用于根据静态网络的邻接矩阵对静态网络的局部特征进行刻画,提取该静态网络中的局部特征;

稀疏模块,用于根据静态网络的邻接矩阵对静态网络的噪声进行刻画,提取该静态网络中的噪声。

进一步的,非负矩阵分解训练模型的构建模块包括降维模块和非负约束模块,其中:

降维模块,用于对低秩稀疏模型训练模块训练后的静态网络进行网络压缩;

非负约束模块,用于对进行网络压缩后的静态网络进行非负约束,使网络中每个元素都为非负。

进一步的,优化模块包括随机扰动模块、相似度评分模块以及叠加模块,其中:

随机扰动模块,用于随机删除或者添加网络中的连接关系,对网络造成随机扰动;

相似度评分模块,用于计算发生扰动之后网络的相似度评分矩阵;

叠加模块,用于对相似度评分矩阵进行叠加,并清除根据扰动变化的连接,固话不根据扰动变化的连接。

在本实施例中,随机添加和删除网络中的连边,来扰动网络,然后把多次扰动的网络作为输入,分别经过本方法提出的模型,得到多个相似度评分矩阵,然后叠加,作为最后的评分矩阵,网络的噪声是随机的,网络情况除了固有的内在规律,其它结构是多变的,叠加后能够消除那些稍微的变化,是不变的部分加强,即对得到的网络进行优化。

实施例2

本实施例提出一种基于矩阵分解的网络结构去匿名化方法,如图1,包括以下步骤:

s1、获取数据源,数据源包括各个网络之间的关系的拓扑结构以及网络中用户之间关系的拓扑结构;即如图2所示的动态网络,比如腾讯微博上的好友关系拓扑可能和facebook上的好友关系拓扑相似,这两个网络拥有一部分共同的用户,即网络之间的关系的拓扑结构,网络中用户之间关系的拓扑结构即为一个网络中用户之间的关系的拓扑结构;

s2、如图2,将动态社交网络的数据集根据时间划分为t个静态网络数据集,获取每个静态网络结构信息所对应的邻接矩阵;

s3、将邻接矩阵输入根据低秩表示(简称lrr)模型进行训练,计算得到目标矩阵;

s4、将目标矩阵输入改进的非负矩阵分解(简称nmf)模型进行训练和预测,得到目标矩阵的去匿名化矩阵,即预测得到的第t+1个时刻的邻接矩阵。

进一步的,将目标矩阵输入改进的非负矩阵分解模型进行训练和预测包括:

s41、将t-1个时刻的数据作为训练集训练模型,将第t个时刻的数据输入训练好的模型,预测t+1时刻的网络结构;

s42、利用社团检测求得社交网络潜在特征的数量;

s43、基于回报函数,求取不同时刻的基矩阵和系数矩阵;

s44、根据不同时刻的基矩阵和系数矩阵计算得到相似度评分矩阵,通过topn排序来寻找可能产生链接的用户对;

s45、对相似度评分矩阵中各个元素的绝对值进行排序,将值最大的n个作为匿名边集,即预测在t+1时刻产生的链接,以此来对网络进行去匿名化,进而对可能被推断出的关系进行匿名隐藏,防止网络推理攻击。

随着对复杂网络性质的物理意义和数学特性的深入研究,人们发现许多复杂网络都具有一个共同的性质,即社团结构;社团内部各节点之间连接紧密,而不同社团节点之间连接稀疏;社团现象在社交关系网络中体现为:物以类聚,人以群分。相同的行为习惯,相同的人际关系都可以是网络的一种潜在特征。

在本发明中网络的局部特征就是网络中普遍存在的社团现象,社团内部的相似性就是局部特征,比如一个有着共同跑步习惯的全体,有着共同的k歌爱好的群体都是社团;即局部特征是潜在特征的一种,即社团内相似性特征,局部特征还包括社团之间的关系特征。

在本实施例中,基于回报函数,求取不同时刻的基矩阵和系数矩阵包括:

其中,j表示回报函数;s(t)表示低秩稀疏模型训练后的输出数据;u(t)表示潜在特征的基矩阵;v(t)表示潜在特征的基矩阵的系数矩阵;u(*)表示为了利用网络各个时刻的拓扑信息而找到的最接近u(t)的矩阵;v(*)表示为了利用网络各个时刻的拓扑信息而找到的最接近v(t)的矩阵;表示f-范数。

本发明的相似度矩阵表示为:

其中,a*为相似度矩阵;r表示扰动的次数;u(*)是表示为了利用网络各个时刻的拓扑信息而找到的最接近u(t)的矩阵;v(*)是为了利用网络各个时刻的拓扑信息而找到的最接近v(t)的矩阵。

实施例3

作为一种可选的实施方案,目标矩阵的求解过程包括:

其中,rank(st)表示;λ表示阻尼系数;et表示第t个静态网络的噪音误差矩阵;at表示第t个静态网络的邻接矩阵;st表示第t个静态网络的目标矩阵;||et||0表示稀疏噪声约束;s表示经过低秩稀疏模型训练后的目标矩阵;e表示网络的噪声误差矩阵。

实施例4

作为另一种可选的实施方法,为了提高优化效率,可将目标矩阵的求解过程的约束条件转化为凸优化问题,表示为:

其中,||st||*表示矩阵s的奇异值之和;||et||1为第t个静态网络的噪音误差矩阵中元素的绝对值之和;λ表示阻尼系数;et表示第t个静态网络的噪音误差矩阵;at表示第t个静态网络的邻接矩阵;st表示第t个静态网络的目标矩阵。

本发明与现有技术的去匿名技术相比,能够更精确的推断出被隐藏的链接,且结合了时序特征,将其应用在动态网络上能够对网络的未来时刻做出预测,更加全面地进行网络的去匿名化。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1