基于度启发式的社交网络影响力最大化求解方法

文档序号:6441648阅读:386来源:国知局
专利名称:基于度启发式的社交网络影响力最大化求解方法
技术领域
本发明涉及一种社交网络影响力最大化求解方法,特别是基于度启发式的社交网 络影响力最大化求解方法。
背景技术
社交网络影响力最大化问题是指在社交网络中如何寻找一部分节点(种子节 点),使其具有最大影响力,此问题是一个NP难问题,目前提出的解决方法主要采用贪 婪方法,即每次选取影响力增值最大的节点。Kempe等在文献Maximizing the spread ofinfluence through a social network (SIGKDD, pages 137-146,2003)中针对社交网络 影响力最大化问题提出了一种原始的贪婪方法。该方法在每次选择种子节点过程中,选取 加入到种子节点集合后影响力增值最大的节点作为种子节点,并将它加入到种子节点集合 中。该方法得到种子节点的影响力不低于最优方法的(l-1/e),但此贪婪方法每次选择种子 节点需要搜索社交网络所有节点,因此该方法的效率非常低。Leskovec 等在文献中 Cost-effective outbreak detection in networks (SIGKDD, pages420_429,2007)提出一个 CELF(Cost_Effective Lazy Forward selection)优化贪婪方 法,该方法是基于影响力具有子模函数特征提出的,即所有节点的影响力随着种子节点集 合中节点数目增加在减弱,具有单调递减性。该方法分为两个步骤第一个步骤用于选择第 一个种子节点,在全部节点中搜索种子节点,选择影响力最大节点加入到种子节点集合中; 第二个步骤用于选择余下种子节点,利用影响力具有单调递减性这一性质在部分影响力较 大节点中搜索种子节点。由于在第二个步骤中此方法搜索种子节点空间的减少,该方法的 效率有了较大提高。陈卫等在文献中 Efficient influence maximization in social networks (SIGKDD, pp. 199-208,2009)提出了 NewGreedy和MixGreedy两个新的贪婪方法,均用于特定信息传 播模型中,比如独立级联模型、带权级联模型等。其中NewGreedy方法是以节点间影响因 子P选择相关边,建立一个全新的子图,然后在子图中选择度数最大的节点为种子节点。而 MixGreedy方法则分为两部分第一部分用NewGreedy思想选取第一个种子节点,第二部分 用CELF优化贪婪方法思想选取余下种子节点。MixGreedy方法结合了 NewGreedy方法与 CELF优化贪婪方法的优点,其效率比CELF优化贪婪方法有所提高。

发明内容
为了克服现有贪婪方法全搜索社交网络节点具有复杂度高的不足,本发明提供一 种基于度启发式的社交网络影响力最大化求解方法。该方法将大量影响力较小的节点排除 在种子节点搜寻范围之外,可以缩小种子节点搜索范围,节约大量盲目搜寻的时间,明显降 低社交网络影响力最大化求解方法的复杂度并提高效率。本发明解决其技术问题所采用的技术方案一种基于度启发式的社交网络影响力 最大化求解方法,其特征在于包括下述步骤
(a)输入社交网络数据,对节点按度数由大到小排序,选取前1~%的高度数节点形 成新的节点集合;其中r = 1 20 ;(b)申请大小与新的集合节点数目相同的堆栈并清空,在某一特定信息传播模型 中计算新的集合中每个节点的影响力,并将所有节点的影响力建成一个最大堆,影响力最 大的节点在最大堆顶部;将最大堆顶部的节点加入到种子节点集合中,对最大堆顶部清零 并重新排序,第一个种子节点选取过程结束;(c)选取最大堆顶部的节点,重新计算最大堆顶部的节点加入到种子节点集合后 影响力增值
0(S + v)-0(S)式中,0(丨)表示影响力函数,S表示种子节点集合,v表示新加入节点;然后用堆排序算法重新排序,如果最大堆顶部的节点未发生改变或者是在本轮选 择种子过程中重新计算过的节点,则将最大堆顶部的节点加入到种子节点集合中,然后对 最大堆顶部清为零并重新排序,本轮种子节点选取过程结束,否则再次计算最大堆顶部的 节点加入到种子节点集合后影响力增值,并对最大堆重新排序,直到最大堆顶部的节点不 发生改变或者在本轮选择种子中重新计算过的节点为止。本发明的有益效果是传统的贪婪方法采用的是在所有社交网络节点中搜索种子 节点,因而必须计算每个节点的影响力,耗费了大量计算时间。而本发明方法考虑了社交网 络节点度的因素,由于社交网络节点度呈幂律分布,即社交网络存在着大量度数低的节点 和少量度数高的节点,是典型的非均勻网络,而在社交网络中的信息是经过边传播的,实验 表明节点的度数越高,其影响力均值也就越大,因而节点的度与影响力存在很强的关联性, 节点的度呈幂律分布以及节点的度与影响力强关联性说明社交网络存在着大量影响力较 小的节点和少量影响力较大的节点。而在影响力最大化问题中种子节点需要具有较大影响 力,因此大量影响力较小的节点成为种子节点的概率非常低,将影响力较小的节点排除在 种子节点搜寻范围之外,从而缩小了种子节点搜索范围,而种子节点搜寻范围的减少意味 着只需计算少部分影响力较大的节点,节约了大量盲目搜寻的时间,使计算效率有了明显 的提高。通过实验验证和实际测试表明,本发明方法与现有技术贪婪方法相比,在影响力不 受损失的情况下,运行时间只有现有技术方法的10% 50%,运行效率明显提高,并且具 有较好的可扩展性,在求解大规模社交网络影响力最大化问题时,本方法性能更优。下面结合具体实施方式
对本发明作详细说明。
具体实施例方式本方法所涉及的基本概念解释如下(1)信息传播模型用计算机模拟实际网络中信息传播的模型,影响力最大化实 质上是在信息传播模型中寻找具有最大影响力的种子节点集合。目前基本的信息传播模型 主要有三种独立级联模型、带权级联模型和线性阈值模型。(2)影响力节点或节点集合在社交网络中能够影响的节点数目大小。本实施例所涉及的信息传播模型是独立级联模型,介绍如下在独立级联模型中,社交网络被抽象成为一个无向图G = (V ;E),其中V代表网络中的用户,E代表用户间的关系。当信息在网络中传播时,节点有两种状态活跃和非活跃, 其中活跃表示节点接受信息,而非活跃则表示节点还未接受信息,节点只能由非活跃转为 活跃状态,而不能由活跃转为非活跃状态。信息只能通过边E传播,没有边相连的节点则不 能直接相互影响。每个活跃节点对非活跃节点的影响是相互独立的,活跃节点以固定的影 响因子P激活非活跃节点,其中0 < p < 1。信息传播过程如下初始选定K个节点作为活 跃节点集,在每次迭代过程中,活跃节点集中的节点以影响因子P激活其非活跃邻居节点, 并把被激活的邻居节点加入到活跃节点集中,作为下一次迭代过程新的活跃节点集。当不 再有非活跃节点加入时,整个迭代过程结束。本实施例设定独立级联模型的影响因子p为0. 01,种子节点为50个,r值为1。1.选取高度数节点。输入社交网络数据,对节点按度数由大到小排序,选取前1~%的高度数节点形成新 的节点集合,其中r值大小依据经验取值,与社交网络节点规模及拓扑结构、种子节点数目 等相关,一般为1至20之间。如输入一个实际的社交网络数据,来源于论文共享网站arXiv(www. arXiv. org) “高能物理理论”版块,其包含15233个节点和58891条边。对社交网络节点按度数由 大到小排序,依据经验,选取前的节点形成新的节点集合,集合包含152个节点,所有节 点度数均大于70。2.选取第一个种子节点。申请大小与新的集合节点数目相同的堆栈并清空,在某一特定信息传播模型中计 算新的集合中每个节点的影响力,并将所有节点的影响力建成一个最大堆,因而影响力最 大的节点在最大堆顶部。将最大堆顶部的节点加入到种子节点集合中,然后对最大堆顶部 清为零并重新排序,第一个种子节点选取过程结束。如申请一个大小为152的堆栈并清空,在独立级联模型中分别计算152个节点的 影响力,将所有节点的影响力存在堆栈中,并建成一个最大堆,影响力最大的节点位于最大 堆顶部,其度数和影响力大小分别是341和8. 27835。将此节点加入到种子节点集合中,然 后对最大堆顶部清为零,用堆排序算法重新排序,第一个种子选取过程结束。得到的第一个 种子节点影响力为8. 27835。3.选取余下种子节点选取最大堆顶部的节点,重新计算其加入到种子节点集合后影响力增值,即 00 + v)-0(力,其中0W表示影响力函数,S表示种子节点集合,V表示新加入节点。然后 用堆排序算法重新排序。如果最大堆顶部的节点未发生改变或者是在本轮选择种子过程中 重新计算过的节点,则将最大堆顶部的节点加入到种子节点集合中,然后对最大堆顶部清 为零并重新排序,次轮种子节点选取过程结束,否则再次计算最大堆顶部的节点加入到种 子节点集合后影响力增值,并对最大堆重新排序,直到最大堆顶部的节点不发生改变或者 在本轮选择种子中重新计算过的节点为止。其他种子节点选取过程与此过程相同,直到所 有种子节点选取完毕。如选择重新排序后最大堆顶部的节点,计算此节点加入到种子节点集合后影响力 增值,然后在堆栈中重新排序。判断最大堆顶部的节点是否为种子节点,条件是最大堆顶 部的节点未发生改变或者是在本轮选择种子过程中重新计算过的节点,如果条件满足,则将最大堆顶部的节点加入到种子节点集合中,然后对最大堆顶部清为零并重新排序,本轮 种子节点选取过程结束,否则再次计算最大堆顶部的节点加入到种子节点集合后影响力增 值,并对最大堆重新排序,直到最大堆顶部的节点未发生改变或者是在本轮选择种子中重 新计算过的节点为止,得到第二个种子节点影响力增值为5. 44055。其他种子节点选取过程 与此过程相同,直到所有种子节点选取完毕,最终50个种子节点的影响力为133. 52。
权利要求
一种基于度启发式的社交网络影响力最大化求解方法,其特征在于包括下述步骤(a)输入社交网络数据,对节点按度数由大到小排序,选取前r%的高度数节点形成新的节点集合;其中r=1~20;(b)申请大小与新的集合节点数目相同的堆栈并清空,在某一特定信息传播模型中计算新的集合中每个节点的影响力,并将所有节点的影响力建成一个最大堆,影响力最大的节点在最大堆顶部;将最大堆顶部的节点加入到种子节点集合中,对最大堆顶部清零并重新排序,第一个种子节点选取过程结束;(c)选取最大堆顶部的节点,重新计算最大堆顶部的节点加入到种子节点集合后影响力增值式中,表示影响力函数,S表示种子节点集合,v表示新加入节点;然后用堆排序算法重新排序,如果最大堆顶部的节点未发生改变或者是在本轮选择种子过程中重新计算过的节点,则将最大堆顶部的节点加入到种子节点集合中,然后对最大堆顶部清为零并重新排序,本轮种子节点选取过程结束,否则再次计算最大堆顶部的节点加入到种子节点集合后影响力增值,并对最大堆重新排序,直到最大堆顶部的节点不发生改变或者在本轮选择种子中重新计算过的节点为止。FSA00000104156100011.tif,FSA00000104156100012.tif
全文摘要
本发明公开了一种基于度启发式的社交网络影响力最大化求解方法,其目的是解决现有贪婪方法全搜索社交网络节点具有复杂度高的技术问题。技术方案是将大量影响力较小的节点排除在种子节点搜寻范围之外,缩小了种子节点搜索范围,节约了大量盲目搜寻的时间,明显降低了社交网络影响力最大化求解方法的复杂度并提高了效率。实验验证和实际测试表明,本发明方法与现有技术贪婪方法相比,在影响力不受损失的情况下,运行时间只有现有技术方法的10%~50%。
文档编号G06F17/30GK101859315SQ201010162309
公开日2010年10月13日 申请日期2010年4月30日 优先权日2010年4月30日
发明者李勇军, 罗知林, 蔡皖东 申请人:西北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1