独立级联模型下带有unwanteduser的影响力最大化方法与流程

文档序号:15560611发布日期:2018-09-29 02:09阅读:160来源:国知局

本发明属于应用于复杂网络中利用独立级联模型识别影响力最大化的节点的方法,特别涉及独立级联模型下带有unwanteduser的影响力最大化方法。



背景技术:

重要节点是指相比复杂网络中其他节点而言,能够在更大程度上影响网络的结构与功能的一些特殊节点。近年来,识别有影响力节点受到越来越广泛的关注,不仅因为其重大的理论研究意义,更因为其广泛的实际应用价值。

在一些实际问题中,影响力的传播者只希望传递到一部分人群中,不希望传到一些unwanted的人中,例如,在病毒式传销中,商家不希望一些有不良交易记录的顾客参与交易,或者对一些有潜在威胁的用户要尽量避开。又如在一些信息的散布过程中,散布着不希望一部分unwanteduser得到这些信息,这样,就形成了带有unwanteduser的影响力最大化问题。

随着电子设备的发展和社会化媒体的发展,人们之间的联系越来越紧密。社会网络是社会行动者(如个人或组织)及其关系的集合。通常社会网络可以被形式化为一个图,每个节点对应于一个社会参与者,每个边缘对应于一对社会行动者之间的关系。这样的关系可以是合作伙伴,朋友,敌人等等。近年来,随着许多大型的社交网络,如新浪和人人网,社交网络已经成为当今的一个研究热点。在社会网络的研究中,信息如何通过人际在网络中的传播问题越来越受到人们的关注。从口碑营销和病毒式营销等营销策略中发现,营销者可以在人群中选择有代表性的个体子集,从而产生更大的级联效应,这就是影响最大化的问题。将影响最大化问题引入社会网络研究领域,成为近年来的研究热点。所以,复杂网络中影响力节点的识别有着十分重要的理论意义和实际价值重要的研究课题。目前也有很多识别影响力节点的算法被设计出来,比如说ipa、degree、degreediscountic(dic)、cascadediscount(cd)等方法。

在本发明之前,这些方法在识别有影响力方面存在缺陷和不足:degree方法仅仅考虑网络中节点本身的度的大小,忽略节点与整个网络之间的关系,在识别有影响力节点方面缺乏准确性。cascadediscount(cd)虽然将网络中其他的因素,比如说是节点与节点之间的关系,节点与整体网络的关系,但是该方法的考虑到的方面多,计算复杂,内存消耗大且运行时间也比较长,在应用到大规模网络中时所用的时间多而且识别的效果不是特别理想。



技术实现要素:

本发明的目的就是要克服上述缺陷,提供独立级联模型下带有unwanteduser的影响力最大化方法。

本发明的技术方案是:

独立级联模型下带有unwanteduser的影响力最大化方法,其主要技术特征在于,包括如下步骤:(1)在复杂网络中确定种子节点以及unwanteduser数目;

(2)构造传播路径以及子图:本方法是基于独立级联模型(ic),每条边上都赋予对应的概率,依据子图构造方法,找出节点v和节点u之间的所有独立路径,并且将这些路径抽选出来构成一个新的子图;

(3)计算构造路径以及子图的传播概率:根据给定的计算公式进行计算;

(4)计算传播增量产生的新的种子节点:根据给定公式计算出传播增量得到新的种子节点。

所述步骤(2)构造传播路径以及子图:首先,本方法不仅考虑到节点v和u之间所有的有效路径,同时本方法也注意到不同路径之间可能存在边的重合情况,因此本方法进一步进行筛选,找出所有有效路径中没有重合边的独立路径,通过上述描述方法,能够使得本发明所提出的方法更具有公平性和正确性从而能够构造出构造更为精确的路径集合以及子图。

所述步骤(4)计算传播增量产生新的种子节点:通过步骤(2)得到所有独立路径以及子图gw,然后对子图gw中的节点根据给定公式计算出传播概率,通过贪心算法选取节点加入子图中,根据给定公式计算出传播增量,根据传播增量值选择出k个节点,这k个节点构成种子集合s,种子集合s能够最大的影响或者激活复杂网络中的顶点。

本发明的优点和有益效果在于提出一种利用独立路径来分析顶点之间激活的概率的方法,根据独立路径构造子图,从而将复杂网络之间用户关系进行分解,计算得到节点之间的激活概率a(v,u)以及子图的传播概率aw(v,u),其次计算子图中所有节点的传播增量δs(x),最后按照条件筛选出包含k个节点的种子节点集合s。本方法使得预测结果更加的准确,可靠性更高。同时本发明提出的方法只构造独立路径以及子图,避免之前算法中通过节点的入度或者边上概率与阈值的比较构造顶点分层以及缩略图等其他条件,而且能够直接使用传播增量的计算得到最佳的种子节点集合s,从而减少了许多不必要的计算。该技术可以提高识别网络中有影响力节点方面的效率,扩展了该技术在影响力最大化领域的应用范围和实用性。

附图说明

图1——本发明流程示意图。

图2(a)、图2(b)、图2(c)、图2(d)——本发明与其他经典方法在两种不同的独立级联模型下影响力传播范围的比较示意图;

图2(a)表示的是arxiv-collaboration数据集上在权重独立级联模型(wcm)下本发明impp方法与其他方法在影响力传播方面的比较示意图;

图2(b)表示的是arxiv-collaboration数据集上在随机独立级联模型(ricm)下本发明impp方法与其他方法在影响力传播方面的比较示意图;

图2(c)表示的是blogcatalog数据集上在权重独立级联模型下本发明impp方法与其他方法在影响力传播方面的比较示意图;

图2(d)表示的blogcatalog数据集上在随机独立级联模型下本发明impp方法与其他方法在影响力传播方面的比较示意图。图3(a)、图3(b)——本发明与其他发明方法在两种独立级联模型下运行时间的比较示意图;

图3(a)表示的是在arxiv-collaboration数据集内,基于两种独立级联模型本发明impp方法与其他方法在运行时间的比较示意图;

图3(b)表示的是在blogcatalog数据集内,基于两种独立级联模型本发明impp方法与其他方法在运行时间的比较示意图。

具体实施方式

一、步骤描述

下面结合附图和具体实施方式对本发明进行详细说明。

先输入复杂网络和种子节点以及unwanteduser数目。

步骤(2)构造传播路径以及子图:

设有网络g=(v,e,p),v为顶点集合。e为边的集合,设有顶点的子集代表unwanteduser的集合。s为种子集合,设由v到u的路径由边e1,e2,…el依次联结而成,构成路径集合l。若两条路径l1,l2没有互相重叠的边,则称它们为互相独立的路径,设子图gw=(w,ew),其中ew={e|e∈e,e=(v,u),v,u∈w}为w中顶点之间的边的集合。

步骤(3)计算构造路径以及子图的传播概率:

边ei的概率是pi,则v到u的路径l=(e1,e2,…el)的概率:

在ic模型中,设由v到u的独立路径有l1,l2,…lk,则v能激活u的概率为:

因此,a(v,u)可以由以下式计算:

这里γin(u)为u的输入边上的邻居。

我们取a(v,u)的适当的初值,可以用迭代法求得满足(2)的解。

初值:

如果(v,u)∈e,a(0)(v,u)=p(v,u)。其他情况下,a(0)(v,u)=0.

迭代公式:

直至收敛,得到a(v,u)的值,即为v能够激活u的概率。

定义aw(v,u)为在gw中的v激活u的概率,特别的我们记av(v,u)为a(v,u)在g中的激活概率。

引理1.aw+x(v,u)-aw(υ,u)=aw+x(v,x)·aw+x(x,u)(4)

这里x∈v\w为v中的一个顶点记为w∪{x}为w+x

证明:在w中增加顶点x之后,在v到u之间的路径增加了具有v→x→u形式的所有独立路径,他们的概率是:aw+x(v,x)·aw+x(x,u)

步骤(4)计算传播增量产生的新的种子节点:

对于一个种子集合记i(s,u)为种子集合s能够成功激活u的概率,则有:

这里v-s+v表示集合:(v\s)∪{v}根据(1)的定义,种子集合s的传播函数可估计为:

我们采用贪心算法选取顶点加入种子集合s,选取使得传播增量δs(x)最大的顶点x加入s之中,其中,δs(x)的定义如下:

设种子集合为s,x∈v\s,x加入s后的传播增量定义为:

δs(x)=σ(s∪{x})-σ(s)(7)

首先,我们分析x加入s后对某一顶点u的激活概率的影响,给出如下定理:

定理2;i(s+x,u)-i(s+x)=av\s(x,u)[1-i(s+x)](8)这里x∈v\s。

在上式中,∑v∈sav-s+v(v,x)·av-s+v(x,u)在子图gv-s+v中考虑v经x到u的所有独立路径,v→x→u。由于在这些路径不存在环形回路,因此,除了端点v以外,路径上不会再出现顶点v。即在x→u的路径上不应再出现v,因而最后一项av-s+v(x,u)可以用av-s(x,u)代替。则:

根据定理2,我们可以得到对δs(x)的估计,定理3:设为当前的种子集合,顶点x∈v\s,x加入s后的传播增量δs(x)为:

因为我们选取:

拟加入s,在x加入s之后,要对更新i(s,v),根据公式(8),我们有:

i(s+x,v)=i(s,u)+av\s(x,u)[1-i(s,x)](11)

还要对所有顶点对(v,u)更新av\s(v,u)的值根据(4)式。在(4)式中令w=v-s-x,w+x=v-s,则有

av-(s+x)(v,u)=av-s-v(v,u)=av-s(v,u)-av-s(v,x)·av-s(x,u)12

在(11)、(12)式中得到的i(s+x,v)、av-(s+x)(v,u)中,令s+x为更新的s,即s=s∪{x};

计算新的δs(x)(根据公式(9));

再根据(10)式选取新的种子x

如此迭代下去,直至选取k个种子为止。最后输出种子集合s,即能最大影响整个网络的种子节点集合。

二、实施例

影响力的传播比较

图2说明了中在实际的两个数据集中当unwanteduser数目等于100时,本impp方法与其他方法在影响力传播上的比较。证明本发明方法在可行性等方面优于其他方法。其中,图2的(a),(b),(c),(d)分别是数据集arxiv-collaboration在权重独立级联模型、数据集arxiv-collaboration在随机独立级联模型、数据集blogcatalog在权重独立级联模型以及数据集blogcatalog在随机独立级联模型上的影响力传播的比较示意图。我们将本方法—独立级联模型下带有unwanteduser的影响力最大化(impp)与之前已经存在的的random、maxdegree、mh、greedy这四种方法进行对比,从图2的四组实验图中可以直观清晰的显示出本impp方法的影响力传播一直高于其他这四种方法,这说明我们所提出的方法可行性效果好。对比图(a)以及图(b),我们不难发现random、maxdegree方法在两种不同模型下的曲线变化最大,这也就是意味着这两种方法在影响力传播方面的变化幅度大,意味着这两种方法的稳定性和适应性是比较差的。将random、maxdegree方法与本发明方法impp方法对比,不难看出在两个模型中,本方法的曲线一直领先于这两种方法,而且在影响力传播方面一直在两种模型下处于领先地位。除此而外,我们观察图(d),尽管在种子节点小于10,本方法的传播能力与mh和greedy方法没有差别,但是随着种子集合数目的增加,impp方法的传播能力明显与这两种方法产生明显的差别,我们从曲线的倾斜程度可以看出。将图(a)、图(b)、图(c)以及图(d)综合在一起观察,我们发现在两种传播模型下本发明方法的影响力传播曲线一直领先于其他四种方法,也就是说本发明方法的影响力传播能力领先这些方法。综合以上分析,我们发现我们所提出的impp方法的稳定性以及可行性高于其他四种方法。

运行时间比较:

图3说明了中在现实的两个数据集中,本impp方法与其他四种方法在两种不同传播模型下运行时间的比较,通过图3中两组图的比较,结果证明,本发明方法在相同种子集合条件下影响力传播时的运行时间比其他方法少,意味着本方法的效率高于其他几种方法。对比图3的两组图我们不难发现在不管是在权值独立级联模型还是随机独立级联模型中本发明方法的时间比其他方法少,而且每种方法的运行时间在这两种模型上差别不是很明显。我们发现在数据集arxiv-collaboration上本发明方法的运行时间与mh方法的差别不是很大,但是我们结合图2在数据集arxiv-collaboration上的影响力传播我们不难发现,在运行时间上mh方法跟本impp方法相差不是很大,但是在影响力传播方面我们发现mh方法的影响力传播能力是小于本发明方法的。同时,我们发现在两个数据集内maxdegree方法在两种传播模型内的运行时间是最高的,远远高于本impp方法,但是在图2影响力传播能力我们发现maxdegree方法的影响力传播能力远远小于本发明方法的,这意味着本发明能够在较低的运行时间内取得较高的影响力传播能力。综合以上分析,我们发现我们所提出的impp方法的效率高,能极大程度上提高识别有影响力节点的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1