基于图简化技术的社交网络中用户影响力估算方法及装置的制造方法

文档序号:9235507阅读:272来源:国知局
基于图简化技术的社交网络中用户影响力估算方法及装置的制造方法
【技术领域】
[0001]本发明涉及社交网络的影响传播分析、图数据管理,以及图数据挖掘等相关技术领域,尤其涉及一种基于图简化技术的社交网络中用户影响力估算方法及装置。
【背景技术】
[0002]近年来,在线社交网络的分析与挖掘引起了学术界和工业界的广泛兴趣。对于在线社交网络分析,其中的一个重要研宄问题是分析和估计社交网络中用户的影响力(参考文献[I]:D.Kempe, J.Kleinberg, and E.Tardos.Maximizing the spread of influencethrough a social network.1n KDD, 2003)。通过估计用户的影响力,我们可以评估该用户对社交网络中的其它用户的影响程度,从而可以用于社交网络推荐等相关的应用。例如,假设我们知道用户A对用户B具有较大的影响力,那么我们可以推荐A买过的物品给用户B。
[0003]通常,我们可以用一个概率图的模型来对一个在线社交网络进行建模,其中图中的一个顶点对应一个用户,图中的一条边对应用户之间的朋友关系,边上的概率值对应朋友之间的相互影响的概率,并且边与边之间的概率是相互独立的。例如,在图1中,用户Vl对用户v2的影响概率为0.3。
[0004]在一个社交网络中,一个用户的影响力可以定义为该用户在概率图上所能到达的节点个数的期望值。基于这一定义,社交网络中的用户影响力估计问题即为:给定一个用户u和一个概率图G= (V,E,P),估计u在G中所能到达的节点个数的期望。由于这一问题被证明是 #P 完全的(参考文献[2]:W.Chen, Y.Wang, and S.Yang.Efficient influencemaximizat1n in social networks.1n KDD, 2009),所以基本上不可能存在多项式时间的算法,除非P = #Po为了计算节点的影响力,现有的文献都是基于蒙特卡罗抽样算法[1,2]。蒙特卡罗抽样算法的具体流程如下:首先,对概率图上所有的边根据其概率值进行抽样,独立重复这一过程N次,从而生成N个“可能图”(possible graph),也称为生产N个样本。接着,我们分别在这N个“可能图”中计算u节点所能到达的节点的个数。然后,我们取均值,从而得到节点u的影响力的一个无偏估计。然而,这种基于蒙特卡罗抽样的算法通常都会产生较大的方差,因此会降低影响力估计的精度。为减少蒙特卡罗抽样算法的方差,在文献
[3](R.-H.Li, J.X.Yu, R.Mao, and T.Jin.Efficient and accurate query evaluat1n onuncertain graphs via recursive stratified sampling.1n ICDE, 2014)中,Li 等人提出了一种基于递归分层抽样的估计算法。Li等人证明该算法能够显著降低基本的抽样算法的方差,从而提高估计的精度。递归分层抽样的具体做法是,从概率图中任意选取r条边,然后根据这r条边的状态对整个可能图样本空间进行分层。第O层对应所有的r条边的状态都是O ;也即在该层中,所有可能图都不包含这r条边。第I层对应第I条边的状态为1,其它r-Ι条边的状态不确定;也即在该层中,所有可能图都包含第I条边。第2层对应第I条边的状态为0,第2条边的状态为1,其它r-2条边的状态不确定;也即在该层中,所有可能图都包含第2条边,并且不包含第I条边。第3层对应第1,2条边状态为0,第3条边的状态为1,其余r-3条边的状态不确定;也即在该层中,所有可能图都包含第3条边,并且不包含第1,2条边。以此类推,第r层对应第I至r-Ι条的状态为O,第r条边的状态为1,其余边不确定;在该层中,所有可能图都包含第r条边,并且不包含第I至r-Ι条边。具体分层方法详见图2。这种选取r条边进行分层的策略可以递归地运用到每一层,从而得到递归的分层抽样算法。Li等人证明该算法较基本的蒙特卡罗抽样算法具有更小的方差,从而具有更高的精度。
[0005]在上述算法中,基本的蒙特卡罗抽样算法具有较大的方差。因此为了达到一定的估计精度,这一算法通常需要抽取很多可能图。抽取一个可能图通常需要0(m)的时间复杂度,这里的m表示概率图中边的条数。因此,该算法在实践中并不高效。递归分层抽样算法通常能够显著地减少基本蒙特卡罗算法的大方差问题,但是这一算法仍然需要花费0(m)的时间抽取一个可能图,并且该算法有可能会选到一些与计算节点影响力无关的边进行分层,从而降低算法的精度。

【发明内容】

[0006]本发明的目的在于提供一种基于图简化技术的社交网络中用户影响力估算方法及装置,克服传统的递归分层抽样算法中存在的耗费较多估算时间以及估算精度低的缺陷。
[0007]本发明的目的是通过以下技术方案实现的。
[0008]一种基于图简化技术的社交网络中用户影响力估算方法,包括:
[0009](一)获取待估算用户影响力的社交网络的概率图G,预设抽取可能图的个数N、节点U,以及参数r和t ;
[0010]( 二)利用递归分层抽样算法和图简化技术估算概率图G中节点u的影响力。
[0011]其中,所述步骤(二)进一步包括:
[0012]判断所述概率图G中的边数是否小于r或者所述抽取可能图的个数N是否小于t,若否,则循环执行以下步骤:
[0013](SI)从G中任意选取r条边,并对G按照r条边的状态分为r+Ι层;
[0014](S2)从第O层至第r层,循环执行以下步骤:
[0015](S21)对于第i层,根据第i层所对应的r条边的状态简化图G,并令简化后的图为Gi;
[0016](S22)根据递归分层抽样算法计算第i层需要抽取的可能图的个数Ni;
[0017](S23)以参数Gi, Ni, U,r, t递归调用这一算法;
[0018](S24)根据递归分层抽样算法累计估计值。
[0019]其中,所述步骤(二)还包括:在判断所述概率图G中的边数小于r或者所述抽取可能图的个数N小于t时,利用基本的蒙特卡罗抽样估算节点u的影响力。
[0020]一种基于图简化技术的社交网络中用户影响力估算装置,包括:
[0021]概率图获取单元,用于获取待估算用户影响力的社交网络的概率图G,预设抽取可能图的个数N、节点U,以及参数r和t ;
[0022]影响力估算单元,用于利用递归分层抽样算法和图简化技术估算概率图G中节点u的影响力。
[0023]本发明实施例与现有技术相比,本发明具有以下优点:
[0024]本发明实施例基于图简化技术的递归分层抽样方法可以用于估计社交网络中的用户的影响力,该方法集成了图简化的技术,一方面可以较快地剪枝掉那些对估计用户影响力无关的节点和边,从而可以实现快速的影响力估计;另一方面,图简化的过程可以避免在递归分层抽样过程中选取与计算节点影响力无关的边进行分层,从而可以提高算法的精度。总体上讲,基于图简化技术的递归分层抽样方法较现有的递归分层抽样方法具有更快的速度和更高的精度。
【附图说明】
[0025]图1是一个社交网络的概率图;
[0026]图2是基本的递归分层方法示例图;
[0027]图3是本发明实施例提供的基于图简化的递归分层方法示例图;
【具体实施方式】
[0028]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0029]为了解决上述【背景技术】的缺陷,本发明采用的技术方案是开发一种基于图简化技术的递归分层抽样方法。该方法的基本思路是基于递归分层抽样算法之上引入一种图简化的技术。具体地,在每次分层的过程中,由于选中的r条边中有些边是可以确定知道它们不会包含在该层所对应的所有可能图中。例如根据递归分层抽样的算法,在第r层中,前r-1条边的状态为0,也即这r-Ι条边不会出现在该层所对应的所有可能图中。基于这一观察,本发明可以从概率图中删除这r-Ι条边,然后再来对剩余的图进行抽样。注意到,当删除一些边后,剩余图中的某些边可能对计算节点的影响力不起作用,本发明称这些边为无关边。对于无关边,本发明可以一并删除,从而达到简化图的效果。而且,这种图简化的技术可以递归地应用于基本的递归分层抽样算法的每次分层过程中。具体的方法流程如下:
[0030]输入:图G= (V,E,P),抽取可能图的个数N,节点U,以及参数
[00
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1