基于信息传播概率的复杂网络关键节点识别方法

文档序号:31677556发布日期:2022-09-28 03:00阅读:547来源:国知局
基于信息传播概率的复杂网络关键节点识别方法

1.本发明涉及关键节点识别技术领域,特别是涉及一种基于信息传播概率的复杂网络关键节点识别方法。


背景技术:

2.随着网络科学的兴起,研究者们发现对不同类型网络的研究可以解决许多实际的问题,例如,对社交网络的研究可以抑制谣言和舆情的传播;对生物网络的研究可以了解蛋白质的相互作用;对交通网络的研究可以规划更科学的路线;对金融网络的研究可以在经济博弈中占据有利地位。在很长一段时间内,不同领域的研究对象往往是不同类型的网络,为了研究真实网络之间的共性,研究者们早期试图发现类似小世界与无标度等跨越不同网络的宏观上的普适规律,而人类社会的不断网络化使得研究者们需要对不同类型网络的结构和功能有更为细致的认知。这也导致通过社区和群组结构以及节点和连边等中微观层面去解释不同网络所具有的不同特征已经成为了网络科学研究领域的新热点。通过对社区,节点等个体的分析,有望揭示网络功能上精细入微的特征,并以此解决更多的实际问题。
3.现如今,关键节点挖掘已经成为了网络科学领域的重要研究内容之一,所谓的关键节点是指对网络的结构与功能起着决定性作用的一些特殊节点。如在抖音这一视频社交平台中,网红和明星的影响力和普通用户的影响力迥然不同;在企业员工形成的社交网络中,董事长和普通员工的重要性也是天差地别;在全国铁路网中,上海市,北京市与昆明市,南宁市的重要性也是不一样的。而复杂网络的级联,扩展和同步等许多机制往往会受到这些关键节点的高度影响。例如,在网络攻防中,只需要攻击少量关键节点就能够快速破坏原有网络的结构;twitter中的知名用户所发布的内容往往能够快速且大面积的扩散出去;仅仅1%的富人却掌握了全世界超过50%的资产。同时,关键节点的挖掘的结果能够直接用于处理现实生活中的诸多任务。譬如说在抖音和微博等大规模社交平台上,平台需要向用户(特别是新用户)推荐其感兴趣领域的博主,通过领域博主重要性排序结果来给出的推荐关注列表可以帮助用户快速了解该领域的主流内容;又譬如在为某个产品设计市场营销和广告投放策略时,在不同节点上投放广告的成本往往有很大差别,例如签约微博中一个大v用户的花费可能是中v用户的10倍,而通过关键节点挖掘可以有效衡量节点的信息传播能力与其投放成本,从而进行更精准的广告投放;再譬如在2020年席卷全球的新冠疫情中,寻找确定的超级传播者并制定相应的隔离措施,破坏传播网络结构的同时可以有效的延缓疫情的快速传播。因此,准确的识别出复杂网络中的关键节点具有非常重要的理论意义和实际价值。
4.现有的基于路径的排序方法大多是利用最短路径,通过用一个节点与其他节点的最短路径最大值来衡量其重要程度,或者是考虑网络中所有节点对之间路径的数目来衡量节点的重要程度,在前述两种基于路径的方法加入了对每条路径长度对节点的重要性不同的增强程度进行重要性计算。此外,还有模拟随机游走过程,从源节点到目标节点经过某节点的次数来判断某节点的重要性。甚至,还有考虑网络中全局闭环回路上的节点出现次数,
并依据回路的长短综合考虑节点的重要性程度。
5.然而这些方法都有一些问题,主要归纳为以下两个方面:
6.(1)最短路径缺失。存在一些不在任何一条最短路径上的节点,因此基于最短路径的方法不能计算这些特殊节点的中心性。同时,这些方法假定节点间的信息传播仅通过最短路径,并不符合网络中信息传播的实际情况。
7.(2)重复计算导致的时间复杂度变大。考虑网络中所有节点对之间的路径计算方法会将相互加强作用重复计算,因此会生成大量的衰减参数,导致算法的时间复杂度变大。


技术实现要素:

8.本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于信息传播概率的复杂网络关键节点识别方法。
9.为了实现本发明的上述目的,本发明提供了一种基于信息传播概率的复杂网络关键节点识别方法,包括以下步骤:
10.s1,选定源节点,获得源节点到其余节点对应的路径节点集;
11.s2,根据路径节点集计算每个节点的成功获取源节点信息的概率;
12.s3,计算当前源节点的分数;
13.s4,重复步骤s1~s3,直至遍历所有节点作为源节点;
14.s5,给所有源节点的分数进行排序,分数最高的为关键节点。
15.进一步地,所述计算每个节点的成功获取源节点信息的概率的公式为:
[0016][0017]
其中propa(u,w)表示信息从节点u成功传播到节点w的概率;
[0018]
l表示最长传播路径;
[0019]
μ表示信息传播成功概率;
[0020]
l表示路径长度;
[0021]
表示从节点u到节点w的长度为l的路径数。
[0022]
进一步地,所述分数的计算公式为:
[0023][0024]
其中score(u)表示起始节点为u的分数;
[0025]
表示节点w到节点u的路径长度集合;
[0026]
表示起始节点为u长度为1的路径能到达的节点的集合;
[0027]
表示起始节点为u长度为2的路径能到达的节点的集合;
[0028]
表示起始节点为u长度为l的路径能到达的节点的集合;
[0029]
propa(u,w)表示信息从节点u成功传播到节点w的概率。
[0030]
进一步地,所述网络为无向无权网络。
[0031]
进一步地,还包括采用评价指标进行评价:
[0032]
评价指标包括kendall系数。
[0033]
首先通过sir传播模型得到每个节点的传染能力值,得到基准排序;
[0034]
然后将所述方法得到排序,以及现有的方法得到排序;
[0035]
最后将排序和基准排序计算kendall系数。kendall系数越高说明得到的排序更接近基准事实。
[0036]
综上所述,由于采用了上述技术方案,本发明能够使复杂网络中每个节点的中心性都能够使用本发明专利提出的方法被计算到。且通过构建计算节点之间信息传播概率的计算公式,将路径多样性以及信息传播概率引入到复杂网络关键节点识别中。
[0037]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0038]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0039]
图1是本发明路径定义以及路径到达节点集示意图。
[0040]
图2是本发明toy-network以及路径长度分别l=1,2,3时所能到达节点的变化情况示意图。
[0041]
图3是本发明改变路径长度和信息传播成功概率的ir排序和固定感染率βi=1.5的sir模型得到的基准排序之间的kendallτ系数热力图。
[0042]
图4是本发明改变sir模型感染率得到的排序与ir及其五种方法的排序之间的kendallτ系热力图。
[0043]
图5是本发明固定ir参数和五种基准方法在不同感染率排序kendallτ对比图。
具体实施方式
[0044]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0045]
本发明提供了一种基于信息传播概率的复杂网络关键节点识别方法,具体实施例如下:
[0046]
当本方法应用在社交平台识别用户影响力时,具体步骤如下:
[0047]
s1,选定当前用户,获得当前用户到其余用户对应的路径节点集;
[0048]
s2,根据路径节点集计算每个用户的成功获取当前用户信息的概率;
[0049]
s3,计算当前用户的分数;
[0050]
s4,重复步骤s1~s3,直至遍历所有用户作为当前用户;
[0051]
s5,给所有用户的分数进行排序,分数最高的为影响力最大的用户。
[0052]
1.相关技术介绍
[0053]
复杂网络的重要节点识别可看作对复杂网络的节点进行排序,以某种中心性指标进行排序,中心性指标赋予节点一个真实值的度量。有大量假设来开发有效的中心性度量。一般来说,局部邻域信息是网络拓扑结构的关键因素。提出了度中心性来计算直接链接的
邻居的数量。介数是衡量节点对通过网络传播的信息的影响。节点的接近度被定义为与所有其他节点的测地线距离之和的倒数。特征向量中心性是根据高特征向量得分的想法提出的表明一个节点连接到许多节点,这些节点也有很高的分数。介数、接近和特征向量中心性的共同弱点是它们具有昂贵的计算成本并且不能有效地应用于极大的网络。
[0054]
由于传播动力学过程对于发现复杂网络中最有影响力的节点大有作用。陈等人考虑了传播动力学,认为节点的重要性与其传播动态密切相关,即从给定节点到其本地相邻节点的传播可以表示为自身到第i阶相邻节点的传播概率过程,同时提出了名为dynamicrank的复杂网络关键节点识别方法。
[0055]
bao等人提出了一种使用传播概率来衡量节点影响的新方法,传播概率高度依赖于三阶邻居和给定节点之间的最短路径。度中心性、localrank和clusterrank是有限的,因为只涉及局部邻域信息,没有全局网络拓扑结构。kitsak等人。认为节点的重要性不仅取决于其本地信息,而且高度受其在整个网络中的位置的影响。具有大量邻居位于外围外壳的节点可能不如具有少数邻居位于中央外壳。他们提出了一种利用节点残差度将底层网络划分为不同外壳的迭代分解方法。节点的影响由k-shell分解后的壳顺序决定。
[0056]
k-shell分解吸引了学术界的各种研究兴趣,后来又提出了变体方法。曾等人发现仅根据剩余节点之间的链接(剩余链接)对节点进行排名,而使用k-shell分解忽略连接到已删除节点的链接。因此,他们提出了混合度分解(mixeddegreedecomposition,mdd),其中同时考虑了剩余度和耗尽度。liu等人认为有一些类核基团得分高,但使用k-shell分解不位于核壳中。建议使用链接熵来区分真正的核壳和类核壳,因为类核基团通常具有相对的低链接熵。此外,他们定义了每个边缘的扩散重要性度量,以识别冗余边缘。这些多余的边在k-shell分解之前被过滤掉,从而获得了更好的准确性。核心与其他中心性度量之间的关系对于理解中心性度量系列很重要。吕等人发现度、h指数、和核心可以被视为由离散算子控制的序列中的初始、过渡和稳定状态。
[0057]
复杂网络重要节点排序方法可分为四大类,分别是基于节点邻居数量、基于路径的、基于特征向量以及基于节点移除和收缩的方法。这里仅对前三类选取两个著名算法的特性总结在表1。
[0058]
表1六个关键节点排序算法的基本概况
[0059]
[0060]
中dc(u)表示节点u的度中心性,ku表示现有的与节点u相连的边的数量,n-1表示节点u与其他节点都相连的边的数量。
[0061]
中si为节点i使用clusterrank时计算得到的中心性值,γi为节点i的邻居节点的集合,f(ci)是节点i的聚类系数ci的函数,ci越大f(ci)越小;k
jout
是节点j的出度。
[0062]
中bc(u)为节点u的介数中心性值,g
st
是从节点vs到v
t
的所有最短路径的数目,是从节点vs到v
t
的g
st
条最短路径中经过vi的最短路径数目。
[0063]
中cc(u)为节点u的接近中心性值,n为图中所有的节点数,u为待计算接近中心性的节点,d(u,v)是节点v和节点u之间的最短距离,也就是最短路径。
[0064]
中n为节点总数量,prv(t-1)是t-1时刻节点v的pr值,是节点v的出度,a
vu
是整个网络的邻接矩阵中第v行和第u处的元素值,t是某个时间点。
[0065]
中sg(tc)表示背景节点g达到稳态的时间tc时leaderrank计算得到的中心性分值,si(tc)表示节点i达到稳态的时间tc时leaderrank计算得到的中心性分值,n是sg(tc)要给别的节点部分分值的数量。
[0066]
本发明专利认为节点的重要性和其信息传播路径相关,需考虑节点给定路径长度不同时会到达重复节点,即不能单一的认为某个固定长度路径不可达信息则传递失败,因此提出了融合复杂网络中路径多样性以及传播信息概率的复杂网络关键节点识别方法ir。主要思想是节点的重要性需考虑路径的多样性以及信息传播概率的计算方式,将节点给定路径长度后所能到达节点获取信息的概率之和作为节点的重要性指标。
[0067]
2.技术方案
[0068]
2.1相关定义
[0069]
该图为研究各种实际网络提供了统一的方法。图中的节点代表网络中的个体,节点之间的线代表个体之间的相互关系。网络可以定义为其中是节点集,ε={e1,e2,

,em}是边集。一些定义介绍如下:
[0070]
(1)路径
[0071]
路径可以被认为是一种特殊的图,图两端的节点度数为1,中间的节点度数为2。它也可以被认为是网络图的非空子图。实际上,路径是一组不重叠的节点集和边集的组合(即不存在自环),沿着路径中的节点集的顺序及对应的边集顺序最终可以到达另一个节点。
[0072][0073]
其中表示节点u和w之间有i条长度为k-1的路径。因此,是节点u和w之间的第i条路径中的节点集,其中有k个节点,那么是在具有k-1边的第i路径中的边集,有k-1条边。
[0074]
(2)路径到达节点集
[0075]
根据定义1可知,给定一个起始节点和路径长度,可以得到不同的路径,这些路径的起点是给定的节点,终点不同。在提出的方法解释过程中需要用到该定义,因此,这里有必要解释是路径长度从1增长至l时所能到达的节点的集合。
[0076]
对上述定义的解释见图1。u为起始节点,路径长度为3时,u到v之间有3条路径,v表示路径中的节点集合;路径中的节点集合分别为v1={u,w1,w2,w4}和v2={u,w3,w2,w4},v3={u,w5,w6,w7}。节点集v1,v2,v3对应的边集分别为和路径长度为3时节点u可以到达节点集合表示为:那么从节点u开始的长度为l=3的路径可以表示如下:
[0077][0078]
vi是节点u和节点w之间的第i条路径中的节点集,ei表示在节点u和节点w间的路径中第i条路径的边集。
[0079]
2.2提出的方法
[0080]
对于给定的无向无权网络在信息传播过程中,假设节点以μ的概率传输给它的邻居。ir算法的核心体现在:如果节点u试图将信息传播到w,并且节点u和w之间存在一条长度为l的路径,那么传播成功的概率是μ
l
,传播失败的概率则是1-μ
l

[0081]
当节点u和w之间存在多条路径时,仅在所有不同长度的路径传递失败才是真正的传递失败,即信息不会从节点u传播到节点w的概率un_propa(u,w)可以表示为:
[0082][0083]
其中表示从节点u到节点w的长度为l的路径数(路径中不存在自环),最长传播路径l是算法设定的参数,用于限制参与计算的最长路径的长度。当节点u和节点w之间的最短路径长度大于l时,令un_propa(u,w)=1。
[0084]
显然,信息从节点u成功传播到节点w的概率propa(u,w)可以表示为:
[0085][0086]
ir中给节点打分的方式则是通过计算节点u作为起始节点,在路径长度从l=1,2,

,l变化过程中所能到达的节点集的交集节点成功获取信息的概率,将这些节点成功获取信息的概率加一起就是节点u的得分。可表示为下式子:
[0087][0088]
其中表示起始节点为u长度为l的路径能到达的节点的集合。算法1给出了通过公式(4)计算一个节点的得分的过程。
[0089][0090][0091]
这里通过一个toy-network如图2所示,对ir计算一个节点得分的方法进行解释。这个toy-network有8个节点8条边。选定节点1作为源节点即起始节点,ir中的路径长度指定为l=3,信息传播成功概率为μ=0.2。
[0092]
表2 toy-network选择节点1为源节点,到达其余节点的路径节点集及其propa值。propa值为节点1在路径长度l=1,2,3时所能到达节点的propa值。
[0093]
节点路径节点集propa2(1,2)0.20003(1,3),(1,4,6,3)0.20644(1,4),(1,3,6,4)0.20645(1,2,5)0.04006(1,3,6),(1,4,6)0.07847(1,2,5,7)0.0080
8(1,3,6,8),(1,4,6,8)0.0159
[0094]
首先,当l=1时,从源节点1开始能到达的节点集合从源节点1开始路径长度l=1的路径中节点集表示为当l=2时有和同理,当l=3时有和根据前述解释计算步骤可以得到表2的后两列。
[0095]
随后,开始计算每个节点的成功获取源节点信息的概率。根据公式(4)可计算节点2的propa值为其中当l=1时,由表1节点2对应的路径节点集可知进而得propa(1,2)=0.2000。对于节点3则可以观察到存在不同长度的路径从节点1到达节点3,即节点3的进而可得propa(1,3)=1-(1-0.21)1×
(1-0.22)0×
(1-0.23)1=0.2064。节点4与节点3计算方式同理。节点5有故propa(1,5)=0.0400。节点6则存在故propa(1,6)=1-(1-0.21)0×
(1-0.22)2×
(1-0.23)0=0.0784。对于节点7则有进而有propa(1,7)=0.0080。对于节点8,存在两条l=3的路径,可知进而可得propa(1,8)=1-(1-0.21)0×
(1-0.22)0×
(1-0.23)2=0.0159。由此可以完成表1中的最后一列。最后根据公式(5)可计算出节点1的得分为score(1)=0.7551,即将表1最后一列相加。
[0096]
3.实验
[0097]
3.1评价指标
[0098]
(1)sir传播模型
[0099]
在sir模型中,每个节点都处于以下三种状态之一:易感(s)、感染(i)和恢复(r)。易感节点可以在每个时间步被感染。受感染的节点已被感染,并试图在每个时间步以概率βi感染其邻居中的易感节点。恢复的节点已从感染状态恢复,将不再被感染节点感染。在每个时间步,受感染节点将以概率βr恢复,具体实施例中βr=1。如果网络中没有受感染的节点,则该过程终止。设置一个节点被感染,其他节点可以轻松估计网络中单个节点的影响。让节点u被感染,其他节点先易感。f(u)定义为传播过程达到稳定状态时的恢复节点数量。在本发明专利中,用模拟1000次分别得到f(u)除以总节点数量来表示节点u的感染能力。
[0100]
(2)kendallτ系数
[0101]
取出两个随机变量x和y的观测值,组合形成(x1,y1),(x2,y2),

,(xn,yn)联合观测值集合。任何对(xi,yi)和(xj,yj)被认为是一致的当且仅当(xi》xj)和(yi》yj)或(xi《xj)和(yi《yj)。若(xi》xj)和(yi《yj)或(xi《xj)和(yi》yj),则它们被认为是不一致的。若(xi=xj)或(yi=yj),则它们是并列的,既一致也不一致。
[0102][0103]
kendallτ定义在式子中,其中nc是一致对的数量,nd是不一致对的数量,n0=n(n-1)/2,其中ti是x的第i组中的并列值的数量,并且其中tj是y第j组的并列值的数量。
[0104]
4.2基准方法
[0105]
(1)度中心性(degree centrality)描述了节点的直接影响。以节点的度数为中心,度数越大的节点可以直接影响更多的邻居,越重要。节点u的归一化度中心指标为:
[0106][0107]
其中ku是节点u的度数,n为节点总数量,n-1表示节点u与其他节点都相连的边的数量。
[0108]
(2)介数中心性(betweenness centrality)描述了节点沿网络中最短路径控制网络流量的能力。节点u的介数定义为:
[0109][0110]
其中g
st
是从节点s到t的所有最短路径的数量,是g
st
中通过u的最短路径的数量从节点s到t的最短路径。
[0111]
(3)k-shell定义为:
[0112]
k核是包含度k或更多节点的最大子图。节点的核心数是包含该节点的k核的最大值k。
[0113]
(4)dynamicrank定义为:
[0114][0115]
其中节点v表示节点u的第i阶邻居节点集合γi(u)中任一个,score(v,i)是计算节点v到其三阶邻域内节点之间传染概率的总和得到。
[0116]
(5)pagerank(pr)初始时赋予每个节点(网页)相同的pr值,然后进行迭代,每一步把每个节点当前的pr值平分给它所指向的所有节点。每个节点的新pr值为它所获得的pr值之和,于是得到节点u在t时刻的pr值为:
[0117][0118]
其中为节点v的出度,每个节点的pr值稳定时迭代停止。prv(t-1)是t-1时刻节点v的pr值,a
vu
是整个网络的邻接矩阵中第v行和第u处的元素值,n为节点总数量。
[0119]
4.3数据集
[0120]
(1)oz:一个网络包含居住在澳大利亚国立大学校园宿舍的217名学生之间的友谊评级。(2)figeys:人类蛋白质之间相互作用的网络,来自使用基于质谱的方法对人类细胞中蛋白质-蛋白质相互作用的首次大规模研究。(3)vidal:网络代表人类二元蛋白质-蛋白质相互作用的蛋白质组规模图的初始版本。(4)stelzl:网络表示人类(智人)中相互作用的
蛋白质对。(5)jazz:爵士音乐家之间的合作网络。(6)arenas:秀丽隐杆线虫的代谢网络。(7)faa:该网络由美国faa(联邦航空管理局)国家飞行数据中心(nfdc)首选航线数据库构建而成。(8)email:西班牙加泰罗尼亚南部塔拉戈纳大学roviraivirgili的电子邮件通信网络。(9)facebook:从facebook提取的社交友谊网络,由人(节点)组成,边缘代表友谊关系。
[0121]
表3 九个现实世界网络的基本属性。
[0122]
dataje《k》k
max
choz217183916.9560.36281.2165figeys223964325.73140.049.9034vidal302361494.11290.06583.7373stelzl170231553.7950.0064.5557jazz198274227.71000.61751.3948arenas45320258.92370.64654.5258faa122624083.9340.06751.9email113354519.6710.22021.9511facebook288829812.17690.0272119.7577
[0123]
其中j是节点数。e是边数。《k》是节点度的平均度数。k
max
是最大度数。《c》是平均聚类系数。h表示网络的度异质性,h=《k2》/《k》2,《k2》表示节点度的平方的平均度数。
[0124]
4.4参数分析
[0125]
ir有两个参数需要确定,分别是路径长度l和感染率μ。同时,在sir模型中不同的感染率βi去得到的基准事实排序也有区别,因此需要实验观测改变不同的感染率βi是否对ir有大的影响。
[0126]
首先,随机选择sir模型感染率为βi=1.5,ir的路径长度l则是在1~5之间变化,信息传播概率μ则是从0.05~0.5每次增长0.05。实验结果如图3所示。
[0127]
在图3中可以看出ir在不同的数据集上,达到最佳性能时的路径长度l和信息传播概率μ不一样。在oz数据集中ir的路径长度取3、4或5时以及信息传播成功概率μ在0.05到0.15时其表现最佳。在fiegys数据集上,在路径长度取3,信息传播成功概率μ则在0.05到0.15之间其表现均为最佳。vidal数据集有更大范围的信息传播概率可取,当路径长度在4或5时,μ的取值范围在0.1~0.3之内,ir的kendall系数表现均为最佳。stelzl、jazz和arenas数据集则均在路径长度为3、4或5时有最佳的表现,但三个数据集可取的信息传播成功概率范围不同,分别是0.1~0.25、0.05~0.1以及0.05~0.2。faa数据集在路径长度取5,μ取值在0.25~0.5之间,ir表现最佳。email数据集中ir表现最佳的范围则是在路径长度取3、4或5,μ取值0.1~0.35处。ir在其余八个数据集上的kendall系数表现均优于facebook数据集,然而在该数据集上仍有ir的最佳参数取值,即路径长度为2或3,为2时μ取0.05~0.5任意值均为最佳表现,取3时则μ在0.05~0.15表现最佳。
[0128]
根据上述实验,可发现当l=3,μ=0.15时,ir在九个数据集上的节点排序和βi=1.5时得到的基准事实排序kendallτ系数表现很好。随后,将ir参数固定为l=3,μ=0.15,和其他五个传统方法和感染率βi在1.0到2.0之间以0.1步长变化的基准事实排序分别比较,以观测ir和其他五种方法对感染率变化是否影响他们自身的表现。实验结果如图4所
示。
[0129]
由图4可知,oz、fiegys、vidal、stelzl、jazz、arenas、email七个数据集上ir与其余五个方法在感染率不断变化的基础上,他们的kendallτ系数表现并没有很大的改变。在faa数据集上可以观测到ir和其余五个方法在1.0~1.3之间有下降,随后表现逐渐变好。在facebook数据集中ir和pr随着感染率的增加,其表现在不断变好,其余四种方法并没有大的变化。
[0130]
4.5与基准方法比较
[0131]
由上一节的参数分析可知,ir对sir模型的感染率βi的变化并不敏感,同时由图3可知ir在不同的数据集上,最优kendallτ系数表现有不同的路径长度和信息传播成功概率参数组合,如表4所示。
[0132]
表4九个数据集在kendallτ系数方面取得最佳表现时的参数配置。
[0133]
data路径长度l信息传播概率μkendallτ系数oz50.050.929339477726574figeys30.050.87488430180555vidal50.10.913244433313272stelzl50.10.908533792591763jazz40.050.944418807362969arenas40.050.868799937486569faa50.450.909322502247228email40.10.93592794388705facebook20.050.388914102476763
[0134]
结合表4的九个数据集上ir不同的最佳表现相对的参数,将其他五种方法和ir在九个数据集上分别得到的排序进行对比,实验结果如表5。由kendallτ系数观察ir和其余五种方法的相关性。
[0135]
表5 ir与九个网络上的其他五种方法得到的排序结果之间的相关性。
[0136]
datair-dcir-bcir-k-shellir-prir-droz0.79380.53150.66840.73120.8403figeys0.47960.43940.50800.42210.4796vidal0.60950.55100.66000.24780.6128stelzl0.48110.42550.51080.19030.5072jazz0.82180.46730.77440.71270.8477arenas0.64090.47610.66340.51710.6410faa0.47170.25170.55510.17160.5899email0.79940.64510.81530.69150.8154facebook0.25290.29030.25190.41210.2529
[0137]
通过将ir的排序分别和基准方法得到的排序对比,任何两个排序之间的相关性由kendallτ系数来衡量。由此可得出提出的方法ir和这些基准方法之间在不同网络上得到的排序结果相关性不同,说明提出方法的独创性。
[0138]
表5的实验结果表明,ir和k-shell在figeys、vidal、stelzl和arenas网络上高度
相关。它还与oz、jazz、faa和email网络上的dr高度相关。facebook网络上,ir和pr高度相关,而ir和dc以及dr之间的关系相同,其中ir明显优于k-shell因相关性差最小值。
[0139]
最后,固定路径长度l=2以及信息传播成功概率μ=0.2的ir和其余五种方法在九个数据集上,与感染率βi在1.0~2.0以0.1变化的sir模型得到的基准排序即基准事实进行对比实验如图5所示。
[0140]
由图5可知,九个数据集上ir均取得了最优的表现。为数字化准确精准指出ir和其余五种方法准确性差异,在不同的数据集上选择ir的最佳参数组合,将感染率βi在1.0~2.0以0.1变化得到的kendallτ系数取平均值分别给出如表5所示。
[0141]
由表6可以观察出,ir在oz、jazz、faa、和email数据集上的kendallτ系数表现比其余五种方法中最好的dr方法相比分别高了9.29%、10.08%、41.42%和11.99%。figeys、vidal、stelzl和arenas数据集上五种传统方法中k-shell是最好的,而ir在这些数据集上则分别k-shell高出了75.32%、38.44%、80.63%和31.05%。在facebook数据集上ir的表现与其余八个数据集相比有所下降,但仍比其余五个数据集好即得到的排序更接近基准事实,和其中最好的pr相比高了101.40%。
[0142]
表6 ir在九个数据集取表3对应参数,sir模型感染率βi则在1.0~2.0以0.1变化得到的基准排序与ir和五个基准方法的排序之间的kendallτ系数取平均值。
[0143][0144][0145]
其中dc、bc、k-shell、pr、dr分别为度中心性、介数中心性、k-shell分解、pagerank、dynamicrank这五个具有代表性的基准方法,结合表5和表6可知ir和dr在oz、jazz、faa和email数据集上相关性较高,故而dr在这四个数据集当中的排序优于其余四种基准方法,但仍比ir的排序结果差一点。同时,ir和k-shell在figeys、vidal、stelzl以及arenas四个数据集上的相关性指数均在前面ir和dr的相关性指数之下,这与表6得到的结果相符,在这四个数据集上ir比k-shell取得的效果至少比ir和dr效果高30%甚至更多。facebook数据集上ir和pr的最高相关性远低于其余八个数据集上ir和五个基准方法中最优者的相关性系数,故而在表6中也真实反应出ir比pr高出101.40%的系数表现。
[0146]
综上所述,识别关键节点是网络科学中的重要问题。少数关键节点控制整个网络中的传播动态。和现有所有的方法不同,本发明专利提出的方法考虑了半局部的路径,同时还考虑了网络中信息传播的真实情况,实验结果表明了提出方法的有效性。同时,发现在不同网络结构的数据集上ir的表现有所不同,由表4可看出九个数据集中ir在facebook上的排序和基准事实排序的kendallτ系数表现最差,jazz数据集上ir取得的kendallτ系数比最差的高142.84%。但由表6可知,ir即使有所下降仍优于dc等五种基准方法。此外,由表3可知facebook数据集异质性接近120,但表现最好的jazz数据集异质性却不是最低,因此,将
异质性作为判断ir表现性能的原因并没有实际依据。
[0147]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1