一种社交网络节点重要性评估方法及系统与流程

文档序号:16315503发布日期:2018-12-19 05:27阅读:188来源:国知局
一种社交网络节点重要性评估方法及系统与流程
本发明涉及社交网络分析
技术领域
,尤其涉及一种社交网络节点重要性评估方法及系统。
背景技术
近年来,以微信、微博、facebook、linkedin为代表社交软件的繁荣极大地促进了社交网络研究的发展,其中社交网络节点重要性评估是社交网络研究的一个重要方向,快速有效地对网络节点进行重要性评估对进一步识别关键节点、分析网络结构有重要意义。现有的社交网络中节点重要性度量方法根据实现方法,可划分为基于网络局部属性、基于网络全局属性、基于随机游走以及基于社团结构的方法。其中,基于局部属性信息的代表性方法为度中心性方法,节点的度值表示与该节点相连的节点个数,可以直观地反映节点的局部重要性,却无法很好地体现该节点在整个网络中的情况;基于全局属性的度量包括介数中心性、紧密度中心性、特征向量中心性等,这类方法的时间复杂度相对较高,不适合大型网络。h指数最初用来评价研究人员的个人成就影响力,将h指数对应于社交网络中的节点,如果一个节点至少有h个邻居节点的度为h,则该节点的h指数值为h。然而,直接将h指数应用于社交网络节点重要性评估会出现和k-shell分解算法一样的缺陷,同一h值的节点无法区分开。导致这一缺陷的根本原因在于社交网络中节点的重要性不仅取决于其自身的度量值,还取决于其邻居节点对该节点的影响力,或者邻居节点对该节点的依赖程度。为解决此问题,出现了如g指数、k指数、w指数等类h指数。其中,k指数通过邻居节点的总度数之和进行进一步细分,但仍然无法对部分节点进行有效区分。技术实现要素:鉴于上述的分析,本发明旨在提供一种社交网络节点重要性评估方法及系统,用以解决现有基于h指数或类h指数的节点重要性评估方法对节点重要性区分度不高、无法有效对具有相同h值的节点的进行重要性排序的问题。本发明的目的主要是通过以下技术方案实现的:一方面,提供了一种社交网络节点重要性评估方法,包括以下步骤:求取给定社交网络中节点的k指数值;根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度;基于待评估节点的重要度对该待评估节点的重要性进行评估。本发明有益效果如下:本发明充分利用社交网络节点间的连接信息,综合考虑邻居节点的影响力,不仅利用了节点本身的影响力,还充分利用了邻居节点的影响力,可以对相同h指数值的节点重要性进行有效区分,能够快速、准确地对社交网络中的节点重要性进行评估,同时评估结果区分度高,能对大规模社交网络进行分析,便于快速发现重要性节点,适应性强。在上述方案的基础上,本发明还做了如下改进:进一步,所述求取社交网络中节点的k指数值,包括以下步骤:求取给定社交网络中节点的h指数值;在上述节点的邻居节点集合中选取度值不小于该节点h指数值的邻居节点;根据选取出的邻居节点的度值之和,确定该节点的k指数值。进一步,所述根据选取出的邻居节点的度值之和,确定该节点的k指数值,公式为:式中,ki表示社交网络中节点i的k指数值,hi表示节点i的h指数值,表示选取出的邻居节点的度值之和。进一步,根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度,公式为:式中,γ(i)指待评估节点i的邻居节点集合,kj为邻居节点j的k指数值,lk(i)为待评估节点i的重要度。进一步,所述求取给定社交网络中节点的h指数值,包括以下步骤:求取社交网络中所有节点的度值;采用二分查找法计算社交网络中节点的h指数值。另一方面,还提供了一种社交网络节点重要性评估系统,包括:节点k指数值求取模块,用于求取给定社交网络中节点的k指数值;节点重要度确定模块,用于根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度,并输出给节点重要性评估模块;节点重要性评估模块,通过接收到的节点的重要度对该待评估节点的重要性进行评估。本发明有益效果如下:本发明充分利用社交网络节点间的连接信息,综合考虑邻居节点的影响力,不仅利用了节点本身的影响力,还充分利用了邻居节点的影响力,可以对相同h指数值的节点重要性进行有效区分,能够快速、准确地对社交网络中的节点重要性进行评估,同时评估结果区分度高,能对大规模社交网络进行分析,便于快速发现重要性节点,适应性强。在上述方案的基础上,本发明还做了如下改进:进一步,所述节点k指数值求取模块,包括h指数值求取单元、邻居节点选取单元、k指数值确定单元;所述h指数值求取单元,用于求取给定社交网络中节点的h指数值,并输出给邻居节点选取单元;所述邻居节点选取单元,在上述节点的邻居节点集合中选取度值不小于该节点h指数值的邻居节点;所述k指数值确定单元,根据所述邻居节点选取单元选取出的邻居节点的度值之和,确定该节点的k指数值。进一步,根据选取出的邻居节点的度值之和,确定该节点的k指数值,公式为:式中,ki表示社交网络中节点i的k指数值,hi表示节点i的h指数值,表示选取出的邻居节点的度值之和。进一步,根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度,公式为:式中,γ(i)为待评估节点i的邻居节点集合,kj为邻居节点j的k指数值,lk(i)为待评估节点i的重要度。进一步,所述节点h指数值求取单元包括度值求取子单元、h指数值求取子单元:所述度值求取子单元用于求取社交网络中所有节点的度值,并输出给所述h指数值求取子单元;所述h指数值求取子单元用于采用二分查找法计算社交网络中节点的h指数值。本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。附图说明附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。图1为本发明实施例一中所述的社交网络节点重要性评估方法的流程图。图2为本发明实施例二中所述的社交网络节点重要性评估系统的结构示意图。图3为本发明实施例三和四中所述的简单示例网络的拓扑结构示意图。图4为图3所示网络的互补累积分布函数ccdf示意图。图5为本发明实施例四中所述karateclub网络的互补累积分布函数ccdf示意图。图6为本发明实施例四中所述dolphin网络的互补累积分布函数ccdf示意图。图7为本发明实施例四中所述celegan网络的互补累积分布函数ccdf示意图。图8为本发明实施例四中所述lfr网络生成器的n参数变化时不同节点重要性评估方法的区分度指标变化示意图。图9为本发明实施例四中所述lfr网络生成器的μ参数变化时不同节点重要性评估方法的区分度指标变化示意图。图10为本发明实施例四中所述lfr网络生成器的k参数变化时不同节点重要性评估方法的区分度指标变化示意图。图11为本发明实施例四中所述lfr网络生成器的λ参数变化时不同节点重要性评估方法的区分度指标变化示意图。具体实施方式下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。实施例一公开了一种社交网络节点重要性评估方法。如图1所示,包括以下步骤:步骤s1、求取给定社交网络中节点的k指数值;步骤s2、根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度;步骤s3、基于待评估节点的重要度对该待评估节点的重要性进行评估。与现有技术相比,本实施例提供的社交网络节点重要性评估方法,充分利用社交网络节点间的连接信息,综合考虑邻居节点的影响力,不仅利用了节点本身的影响力,还充分利用了节点邻居节点的影响力,可以对相同h指数值的节点重要性进行有效区分,能够快速、准确地对社交网络中的节点重要性进行评估,同时评估结果区分度高,能对大规模社交网络进行分析,便于快速发现重要性节点,适应性强。具体来说,步骤s1中,求取社交网络中节点的k指数值,包括以下步骤:步骤s101,求取给定社交网络中节点的h指数值;首先求取给定社交网络中所有节点的度值;然后依据h指数的定义,根据求取的度值,计算社交网络中节点的h指数值h(节点的h指数值h说明该节点的至少h个邻居节点的度都大于h)。优选的,采用二次查找法计算h指数值h。步骤s102,在节点的邻居节点集合中选取度值不小于该节点h指数值的邻居节点;步骤s103,根据步骤s102中选取出的邻居节点的度值之和,确定该节点的k指数值。其中,节点的k指数值计算公式为:式中,ki表示社交网络中节点i的k指数值,hi表示节点i的h指数值,表示选取出的邻居节点的度值之和。在步骤s2中,根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度,公式为:式中,γ(i)指待评估节点i的邻居节点集合,kj为邻居节点j的k指数值,lk(i)为待评估节点i的重要度。在步骤s3中,基于确定的节点的重要度对该节点的重要性进行评估。在得到社交网络中所有节点的重要度之后,将所有节点按照重要度进行排序,进而评估节点的重要性(重要度数值越大,重要性越高)。实施例二公开了一种社交网络节点重要性评估系统。如图2所示,包括:节点k指数值求取模块、节点重要度确定模块、节点重要性评估模块;其中,节点k指数值求取模块,用于求取给定社交网络中节点的k指数值;节点重要度确定模块,用于根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度,并输出给节点重要性评估模块;节点重要性评估模块,通过接收到的节点的重要度对该待评估节点的重要性进行评估。与现有技术相比,本实施例提供的社交网络节点重要性评估系统,充分利用社交网络节点间的连接信息,综合考虑邻居节点的影响力,不仅利用了节点本身的影响力,还充分利用了邻居节点的影响力,可以对相同h指数值的节点重要性进行有效区分,能够快速、准确地对社交网络中的节点重要性进行评估,同时评估结果区分度高,能对大规模社交网络进行分析,便于快速发现重要性节点,适应性强。具体来说,节点k指数值求取模块,包括h指数值求取单元、邻居节点选取单元、k指数值确定单元;其中,h指数值求取单元,用于求取给定社交网络中节点的h指数值,并输出给邻居节点选取单元;需要说明的是,h指数值求取单元包括度值求取子单元、h指数值求取子单元:度值求取子单元用于求取社交网络中所有节点的度值,并输出给h指数值求取子单元;h指数值求取子单元用于采用二分查找法计算社交网络中节点的h指数值。邻居节点选取单元,在上述节点的邻居节点集合中选取度值不小于该节点h指数值的邻居节点;k指数值确定单元,根据邻居节点选取单元选取出的邻居节点的度值之和,确定该节点的k指数值。需要强调的是,在k指数值确定单元中,节点的k指数值计算公式为:式中,ki表示社交网络中节点i的k指数值,hi表示节点i的h指数值,表示选取出的邻居节点的度值之和。节点重要度确定模块,用于确定待评估节点的重要度,并输出给节点重要性评估模块;具体地,根据待评估节点的所有邻居节点的k指数值之和,确定待评估节点的重要度,公式为:式中,γ(i)指待评估节点i的邻居节点集合,kj为邻居节点j的k指数值,lk(i)为待评估节点i的重要度。节点重要性评估模块,用于获取节点重要度确定模块的节点的重要度,并对该节点的重要性进行评估。在获得社交网络中所有节点的重要度之后,将所有节点按照重要度进行排序,进而评估节点的重要性(重要度数值越大,重要性越高)。实施例三本实施例以一个简单示例网络为例,将实施例一中社交网络节点重要性评估方法用于评估该网络节点的重要性。示例网络的拓扑结构如图3所示,包含17个节点和21条边。具体包括以下步骤:1)对给定的示例网络,依据h指数的定义采用二分查找法计算社交网络中节点的h指数值见表1。表1:示例网络节点的h指数值节点编号h指数值节点编号h指数值1110321113311234113351141621527316182171912)根据在节点的邻居节点集合中选取度值不小于该节点h指数值的邻居节点;并计算选取出的邻居节点的度值之和,得到该节点的k指数值。示例网络结点的k指数值见表2。表2:示例网络节点的k指数值节点编号k指数值节点编号k指数值11.75103.4721.67113.3631.67123.4441.83133.4451.75141.8362.33152.6073.31161.7582.56171.5091.673)计算节点的所有邻居节点的k指数值之和作为该节点的重要度。按照本发明实施例一中所述的节点重要度计算公式,计算出的示例网络节点的重要度见表3。表3:示例网络节点的重要度节点编号重要度节点编号重要度12.331017.9321.831110.3531.831212.8745.671312.8752.33143.4768.64158.6378.36164.1088.44171.7592.56由表3可见,几乎所有的示例网络节点都被赋予了不同的重要度。很好地将示例网络节点的重要度区分开,进而使得重要性评估结果区分度更高。实施例四本实施例以真实网络和人工网络为例,将实施例一中所述社交网络节点重要性评估方法用于上述网络的节点重要性评估,并与其他现有节点重要性评估方法进行比较。选取的典型方法包括:h指数(简称h),k指数(简称k),pagerank算法(简称pr),经典k核分解算法(简称ks),ks-if算法(简称ksif),mdd算法(简称mdd),本发明方法(简称lk)。为了更好地评价各种重要性评估方法的性能,此处引入区分度指标m。区分度指标定义如下:其中,r为网络节点重要性的等级向量,n为向量r的总等级数,nr为第r等级中的节点数量。如果所有节点在同一重要性等级中,区分度指标m的值为0,相应评估方法无法区分每个节点的重要性。如果每一个重要性等级中只包含1个节点,区分度指标m的值为1,相应评估方法能够有效地区分每个节点的重要性,具有最强的区分能力。首先,选取实施例三中(图3)所示的示例网络,采用上述7种方法对示例网络节点重要性进行评估,并按照重要度对节点进行排序,排序结果如表4所示(表4的每一列对应一种重要性评估方法,同一等级的节点具有相同的重要度,“其它”表示剩余的所有节点)。从表4可以看出,与现有的6种典型方法相比,本发明公开的方法能够准确、细致地区分网络节点的重要性,示例性地,每个重要性等级的节点数量最多为2个。表4:示例网络节点重要性的排序结果为了进一步说明本发明方法的有益效果,选取11个不同规模的真实网络(包括:karateclub网络、dolphin网络、jazz网络、prison网络、netscience网络、book网络、celegan网络、e-mail网络、blogs网络、pgp网络和enron网络),分析比较上述7种重要性评估方法的区分度指标m。表5显示了7种重要性评估方法对11个真实网络节点重要性的区分能力。可以看出:针对选取的11个真实网络,本发明公开的方法都能够获得最大的区分度值。相对于其它6种节点重要性评估方法,本发明的方法更能够细致、准确地识别真实网络节点的重要性。表5:不同重要性评估方法对真实网络节点重要性的区分能力网络名称节点边数m(pr)m(ks)m(h)m(k)m(ksif)m(mdd)m(lk)karateclub34780.95420.49580.57660.95420.95420.75360.9542dolphins621590.99790.37690.68410.97480.99790.90410.9979prison671820.99640.30700.60310.97220.99280.86720.9964book1054411.00000.49490.70670.99521.00000.90771.0000football1156131.00000.00030.23490.93160.99910.60891.0000jazz19827420.99930.79440.93830.99900.99930.98820.9993celegan3799140.99510.64210.68250.98480.99440.87480.9950netscience45320250.99920.69620.73110.99590.99750.82150.9983e-mail1133109030.99990.80880.85830.99790.99960.92290.9999blogs1490167180.99930.90580.92640.99910.99920.94430.9993pgp10680243160.99970.48060.51720.99420.99350.66780.9981为了更加直观的展示本发明方法的有益效果,采用互补累积分布函数(ccdf)对表5中数据进行展示。图4~图7分别显示了4个网络(实施例三中网络、karateclub网络、dolphin网络和celegan网络)的ccdf。按照ccdf的原理,如果位于同一重要性等级的节点数量越多,ccdf下降越快,反之,ccdf则会沿斜对角线缓慢下降。从图4~图7可以看出,本发明方法的ccdf沿斜对角线缓慢下降,说明本发明所述方法能够将社交网络中节点间的重要性差异很好地区分开来。另外,借助lfr网络生成器生成人工社交网络,利用人工社交网络对本发明方法进行评估。lfr网络生成器有4个重要参数,分别是节点规模n(numberofnodes),平均节点度k(averagedegreeofnodes),社区结构混合参数μ(mixingparameterofcommunitystructure)以及度幂律分布λ(power-lawofdegreedistribution)。上述4个参数的变化将影响人工社交网络的拓扑结构。图8~图11分别显示了4个参数在保持1个参数变化,其余3个参数不变时,不同节点重要性评估方法区分度指标m的变化情况。可以看出:针对该人工社交网络,本发明所述的方法能够获得最大的区分度值。说明较之其它5种节点重要性评估方法(h、k、ks、ks-if、mdd),本发明所述方法更能够细致、准确地识别人工社交网络的节点重要性。本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1