基于图简化技术的社交网络中用户影响力估算方法及装置的制造方法_2

文档序号：9235507阅读：来源：国知局

31]输出:节点u的影响力的一个无偏估计
[0032]步骤1、如果图G的边数小于r，或者N小于t，则调用基本的蒙特卡罗抽样估计节点u的影响力；
[0033]步骤2、否则执行以下步骤；
[0034]步骤2.1、从G中任意选取r条边，并对G按照r条边的状态分为r+Ι层；
[0035]步骤2.2、从第O层至第r层，循环执行以下步骤:
[0036]步骤2.2.1对于第i层，根据第i层所对应的r条边的状态简化图G，并令简化后的图为Gi;
[0037]步骤2.2.2、根据递归分层抽样算法计算第i层需要抽取的可能图的个数Ni;
[0038]步骤2.2.3、以参数Gi, Ni, U，r, t递归调用这一算法；
[0039]步骤2.2.4、根据递归分层抽样算法累计估计值。
[0040]相对于递归分层抽样算法，本发明中的算法多了 2.2.1这一步骤。在整个算法中，我们可以在0(m)的时间复杂度内实现所有的图简化步骤。具体做法如下:首先，基于图简化的递归分层抽样算法将产生一个递归树。在递归树中的每一个节点都代表了一个分层，也即代表一个可能图的子集。例如，递归树的根节点代表了整个可能图的集合，根节点的r+Ι个孩子节点代表了第一次分层过程中的r+Ι层。我们约定递归树中的每个内部节点的孩子节点从左至右分别代表了在该内部节点分层后所得到的第O，r，…，I层。具体示意图可以详见图3。然后，考虑简化递归树中的第2层的所有r+Ι个内部节点所对应的分层。我们按照从左至右的顺序简化这r+Ι个层。在简化第O层(也即递归树第2层中最左边的节点)时，我们将第O层所对应的状态为O的边删除，然后从u节点出发执行广度优先遍历(BFS)整个图。那些没有被BFS遍历到的节点以及其相连的边都是无用边，可以一并删除。这是因为这些节点在第O层所对应的所有可能图中，对估计节点u的影响力无关。我们将该BFS所遍历到的边进行标记。在第O层中，简化后的图即为被BFS过程访问过的节点和边组成的图。接着，我们采用剪枝的BFS来简化第r层。具体地，我们首先删除第r层所对应的状态为O的边，然后运行剪枝的BFS来遍历整个图。在这个过程中，被之前的BFS访问过的边我们将不再遍历，并且我们同样标记被剪枝的BFS访问过的边。由于第r层比第O层多了一条状态为I的条边(详见图2)。因此，这一剪枝的BFS过程等价于找到那些只能通过这条状态为I的边到达的节点。在第r层中，简化后的图为被这2个BFS过程访问过的节点和边组成的图。依次类推，在简化第r-Ι至第I层时，我们采用类似的剪枝的BFS过程。不难验证，由于我们采用了剪枝的BFS来简化所有的r+Ι层，所以在整个过程中，算法最多访问图中的每条边一次。因此，在简化递归树的第二层的所有节点所对应的r+Ι个分层的时间复杂度为0(m)。同样，在简化递归树的第三层以及其它层时，我们采用类似的从左至右调用剪枝BFS算法来简化所有的内部节点所对应的分层。容易验证，在每一层中，算法所需的时间复杂度为0(m)。由于在实践过程中，r通常为一个相对不小的常数，例如r = 50，而样本大小N通常为10000左右，那样递归树的高度d最多为1g5tl (10000)〈3。因此，整个算法的时间复杂度为O (dm) = 0(m)。
[0041]由于图简化的过程与图的大小呈线性关系，所以整个基于图简化技术的递归分层抽样算法的时间复杂度与普通的递归分层抽样算法一致。但是由于我们集成了图简化的技术，因此在抽取可能图的计算过程中，可以省略那些被简化掉的边，因而可以提高算法的速度。此外，由于该算法能够避免选取无用边做分层，而且图简化的过程本身就是在降低概率图的不确定性，因而可以提高算法的估计精度。
[0042]下面，以图1为例来说明整个算法的运行过程。假设目前需要要估计图1中节点v4的影响力。另外，假设r = 2。下面将考虑一次分层算法的运行过程，多次分层的算法过程与一次分层算法的过程非常类似，因此不再赘述。假设选取(v4，v5)，(v4, vl)两条边来分层。其中第O层的所有可能图都不包含这两条边，第I层的所有可能图包含(v4，v5)这条边，以及第2层的所有可能图包含边(v4，vl)，但不包含边(v4，v5)。在第O层中，本实施例可以简化所有的节点。这是因为删除边(v4，v5)和边(v4，vl)后v4不能到达任何其它节点。所以，第O层所对应的简化后的图为一个零图，即不包含任何节点和边的图。由于在零图中，节点u的影响力显然为0，因此在第O层中，无需抽样即可计算节点u的影响力。然后，根据本发明的图简化方法，开始简化第2层。在第2层中，可以发现(v5，v2)这条边不会被剪枝的BFS过程访问，因此在这一过程中，这条边将会被简化。因此第2层所对应的简化后的图为图1减去边(v4，v5)和(v5，v2)。然后，根据递归分层抽样的算法对简化后的图进行抽样。接着，简化第I层。在简化第I层中，调用剪枝的BFS从V4出发，遍历那些未被之前的BFS访问过的节点和边。容易发现，在此过程中，仅有(v4，v5)和(v5，v2)这2条边才会被本次剪枝的BFS访问。在第I层中，不能简化任何边，因此简化后的图即为原图。然后再根据递归分层抽样的算法对图1进行抽样。在这个过程中，不难发现，所有的BFS和剪枝BFS过程最多只会对图1中的边访问I次，因此整个图简化的过程的时间复杂度为0(m)。
[0043]综上，由于图简化的过程与图的大小呈线性关系，所以整个基于图简化技术的递归分层抽样估算方法的时间复杂度与普通的递归分层抽样算法一致，但是由于本发明集成了图简化的技术，因此在抽取可能图的计算过程中，可以省略那些被简化掉的边，因而可以提高估算速度；此外，由于本发明能够避免选取无用边做分层，而且图简化的过程本身就是在降低概率图的不确定性，因而还可以提高估计精度。
[0044]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
【主权项】
1.一种基于图简化技术的社交网络中用户影响力估算方法，其特征在于，该方法包括: (一)获取待估算用户影响力的社交网络的概率图G，预设抽取可能图的个数N、节点U，以及参数r和t ; (二)利用递归分层抽样算法和图简化技术估算概率图G中节点u的影响力。2.如权利要求1所述的基于图简化技术的社交网络中用户影响力估算方法，其特征在于，所述步骤(二)进一步包括: 判断所述概率图G中的边数是否小于r或者所述抽取可能图的个数N是否小于t，若否，则循环执行以下步骤: (51)从G中任意选取r条边，并对G按照r条边的状态分为r+Ι层； (52)从第O层至第r层，循环执行以下步骤: (521)对于第i层，根据第i层所对应的r条边的状态简化图G，并令简化后的图为Gi; (522)根据递归分层抽样算法计算第i层需要抽取的可能图的个数Ni; (523)以参数Gi,Ni, u，r, t递归调用这一算法； (524)根据递归分层抽样算法累计估计值。3.如权利要求2所述的基于图简化技术的社交网络中用户影响力估算方法，其特征在于，所述步骤(二)还包括:在判断所述概率图G中的边数小于r或者所述抽取可能图的个数N小于t时，利用基本的蒙特卡罗抽样估算节点u的影响力。4.一种基于图简化技术的社交网络中用户影响力估算装置，其特征在于，该装置包括: 概率图获取单元，用于获取待估算用户影响力的社交网络的概率图G，预设抽取可能图的个数N、节点U，以及参数r和t ; 影响力估算单元，用于利用递归分层抽样算法和图简化技术估算概率图G中节点u的影响力。
【专利摘要】本发明提供了一种基于图简化技术的社交网络中用户影响力估算方法及装置，其中的方法包括：(一)获取待估算用户影响力的社交网络的概率图G，预设抽取可能图的个数N、节点u，以及参数r和t；(二)利用递归分层抽样算法和图简化技术估算概率图G中节点u的影响力。本发明实施例基于图简化技术的递归分层抽样方法集成了图简化的技术，一方面可以较快地剪枝掉那些对估计用户影响力无关的节点和边，从而可以实现快速的影响力估计；另一方面，图简化的过程可以避免在递归分层抽样过程中选取与计算节点影响力无关的边进行分层，从而提高算法的精度。总体上讲，基于图简化技术的递归分层抽样方法较现有方法具有更快的速度和更高的精度。
【IPC分类】G06F17/30
【公开号】CN104951531
【申请号】CN201510336864
【发明人】李荣华, 蔡涛涛, 毛睿, 邱宇轩, 秦璐
【申请人】深圳大学
【公开日】2015年9月30日
【申请日】2015年6月17日

完整全部详细技术资料下载

当前第2页1 2