一种基于节点相似性的无向网络连边权值预测方法与流程

文档序号:11708160阅读:2294来源:国知局

本发明涉及链路预测和数据挖掘领域,特别是涉及基于网络节点相似性的连边权值预测方法。



背景技术:

现实中很多系统都能抽象为复杂网络的模型,系统内的个体对象抽象为节点,个体与个体之间的关系抽象为连边,比如社交网络,蛋白质相互作用网络,电力网络等。其中,网络连边作为连接个体对象之间的桥梁,对揭示网络结构有重要的作用。现实中很多网络的连边是带有权值的,这些连边权值都具有明确的物理意义。由于种种原因,部分网络连边权值可能缺失,特别是当缺失的权值包含有重要的网络结构信息时,对这些权值的预测就显得很关键。



技术实现要素:

为了克服现有网络连边权值缺失导致的模型预测结果较差的不足,本发明将利用网络节点相似性,采用多元线性回归模型预测缺失的连边权值,提供一种模型预测结果较好的基于无向网络节点相似性的连边权值预测方法,本发明涉及的是无向网络的权值预测。

本发明解决其技术问题所采用的技术方案如下:

一种基于网络节点相似性的连边权值预测方法,包括以下步骤:

s1:利用已有的无向网络结构数据集,其中包含网络节点与节点之间的连边权值,构建无向网络图g=(v,e);

s2:根据图g=(v,e),利用链路预测中的节点相似性理论,分别计算出如下三类特征:局部相似性指标、全局相似性指标和半局部相似性指标,其中,局部相似性指标包括共同邻居cn、salton指标、jaccard指标、sφrensen指标、大度节点有利指标hpi、大度节点不利指标hdi、lhn-i指标、优先链接指标pa、adamic-adar指标aa和资源分配指标ra;全局相似性指标包括katz指标、lhn-ii指标、平均通勤时间act、基于随机游走的余弦相似性cos+、带重启的随机游走rwr、simrank指标simr和矩阵森林指标mfi;半局部相似性指标包括局部路径指标lp、局部随机游走指标lrw和叠加的局部随机游走指标srw;

s3:根据十折交叉验证方法,将数据集中的网络连边权值平均划分为十份,其中的九份作为训练集,剩下的一份的作为测试集;根据s2中计算出的特征,用r语言进行多元线性回归分析,最后根据拟合的结果与原始数据得到如下评价指标:皮尔森相关系数和均方根值。

本发明的有益效果为:利用节点相似性,采用多元线性回归模型预测缺失的连边权值,模型简单,预测结果较好。

附图说明

图1为本发明实例中结合节点相似性的无向网络连边预测方法的流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1,一种基于节点相似性的无向网络连边权值预测方法,包括以下步骤:

s1:利用已有的线虫的神经网络(c.elegans)数据集,其中节点表示线虫的神经元,边表示神经元突触或者间隙连接,构建无向网络图g=(v,e);

s2:图g的邻接矩阵a=(aij)n×n,i,j∈{1,2,...,n},

其中:

根据邻接矩阵a,分别计算如下相似性指标:

1)共同邻居cn:

其中|q|表示集合q的元素个数,γ(x)定义为节点x的邻居节点集合,表示节点x与节点y之间的cn指标值,下同;

2)salton指标:

其中kx表示x的度值;

3)jaccard指标:

4)sφrensen指标:

5)大度节点有利指标hpi:

6)大度节点不利指标hdi:

7)lhn-i指标:

8)优先链接指标pa:

9)adamic-adar指标aa:

10)资源分配指标(ra):

11)katz指标:

skatz=(i-βa)-1-i

其中,i为单位矩阵,参数β的值必须小于邻接矩阵a的最大特征值λ1的倒数以保证矩阵收敛;

12)lhn-ii指标:

其中,δxy是kronecker函数,当x=y时δxy=1,否则,δxy=0,d为无向网络图g的度矩阵,即dij=kiδij,kx表示x的度值,φ为可调参数,其值范围为(0,1),λ1是邻接矩阵a的最大特征值,m为网络的总边数;

13)平均通勤时间act:

其中,网络g的拉普拉斯矩阵l(l=d-a)的伪逆为l+表示矩阵l+中的元素;

14)基于随机游走的余弦相似性cos+

15)带重启的随机游走rwr:

其中,

元素πxy表示为从节点x出发的粒子最终有多少概率走到节点y,(1-c)为粒子返回概率,p为网络的马尔可夫概率转移矩阵,其元素pxy表示节点x处的粒子下一步走到节点y的概率;

16)simrank指标simr:

其中sxx=1,c∈[0,1]为相似性传递时的衰减参数;

17)矩阵森林指标mfi:

smfi=(i+αl)-1,α>0

其中,网络g的拉普拉斯矩阵为l(l=d-a),i为单位矩阵;

18)局部路径指标lp:

slp=a2+εa3

其中ε的参数值是任意的,当其值为0时,lp等价于cn;

19)局部随机游走指标lrw:

其中,节点x的初始资源分布为qx,为一个n×1的向量,只有第x个元素为1,其他元素为0,即t≥0;

20)叠加的局部随机游走指标srw:

s3:根据十折交叉验证方法,将数据集中的网络连边权值平均划分为十份,其中的九份作为训练集,剩下的一份的作为测试集;根据s2中计算出的特征,用r语言进行多元线性回归分析,得到测试集拟合的结果,并与原始数据比较得到如下评价指标:皮尔森相关系数和均方根值,本发明模型简单并能得到良好的预测结果。

如上所述为本发明在无向网络图中连边权值预测方法的实例介绍,本发明结合网络节点相似性并用多元线性回归模型分析,最终的预测结果较好,达到了实际使用的要求。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1