一种社交网络拓扑结构的推断方法

文档序号:10656694阅读:443来源:国知局
一种社交网络拓扑结构的推断方法
【专利摘要】本发明公布了一种社交网络拓扑结构的推断方法,针对存在缺失的级联数据,通过估计在网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序,每次添加似然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构;包括:初始化待推断网络G、进行循环迭代计算边际收益和取边际收益最大的边添加到Gi?1中得到新的网络,完成迭代即得到推断出的网络拓扑结构。本发明方法适用性广,尤其可以应用于级联数据缺失情形;本发明技术方案在保持较高的时间效率基础上,显著提升了网络推断结果的准确率,可以成为真实世界中推断隐藏网络结构的有效手段。
【专利说明】
-种社交网络拓扑结构的推断方法
技术领域
[0001] 本发明属于社交网络分析领域,设及社交网络拓扑结构的推断方法,尤其设及一 种根据缺失信息传播级联数据推断网络拓扑结构的方法。
【背景技术】
[0002] 社交网络平台的流行,使得对社交网络分析的显得尤为必要。通常情况下,人们往 往可W观察到信息在社交网络上传播过程中的激活时间数据,但社交网络的拓扑结构往往 无法直接观测到。例如,我们可W观察到某一网站发布消息的级联传播的过程,但却并没有 注明消息传播的途径;又如某微信用户订阅了公众号,然而向他推荐的用户信息却不得而 知。在大量的真实社交网络场景中,人们往往只能获取信息在社交网络上传播过程中所激 活节点的时间信息(简称级联数据),但是信息传播的路径却无法直接获得。运些级联数据 集为社交网络拓扑结构的推断提供了重要的潜在信息,因此,如何利用运些级联数据推断 出潜在的网络拓扑结构,对社交网络研究和诸多领域的应用(如传染病传播途径推断、谣言 的追踪溯源等)有着重要意义。
[0003] 当前,国际上所有已提出的社交网路拓扑推断方法都假设所观测到的级联数据是 完整的,不存在任何缺失。运是一种要求条件非常严格的假设,而真实世界中所采集到的级 联数据很难完全覆盖所有被激活节点,不可避免的存在缺失疏漏,必然存在缺失现象。截止 目前国际上已经提出的网络拓扑推断方法(如化trate、化tinfo、MMrate等)都忽视了运一 现实特点。现有的基于级联数据的网络拓扑结构推断方法不考虑级联数据缺失的问题,因 而不能很好的适用于现实场景。如果将运些方法直接在缺失的级联数据上推断网络拓扑结 构,已有研究表明,其推断出的网络拓扑精度存在很大偏差,严重影响了现实社交网络的挖 掘分析和应用。

【发明内容】

[0004] 为了克服上述现有技术的不足,本发明提供一种社交网络拓扑结构的推断方法, 面向缺失级联数据的、基于贪屯、思路的网络拓扑结构推断方法,W解决网络推断问题在现 实情形下的精度保证和适用性问题。
[0005] 本发明的原理是:本发明基于贪屯、的网络推断框架、基于仿真的缺失级联数据补 全、缺失级联数据的边际收益计算W及最大级联传播树的合并,解决网络推断问题在缺失 级联数据现实情形下的精度保证和适用性问题。首先,初始化网络边集为空;然后,循环迭 代m次,每次向网络中添加一条边际收益最大的边,直至m条边添加完毕,即得到推断出的边 数为m的网络拓扑结构。其中,边际收益计算如下:执行迭代过程中,基于已观测节点模拟信 息传播过程,实现缺失级联数据的补全,进而计算补全级联数据的边际收益。本发明能够准 确高效的给出网络推断结果,解决缺失级联下的网络推断问题,满足实际应用需求。网络推 断问题是一个NP难的问题,所W只能采用近似的推断方法实现。本发明提出的基于贪屯、的 推断方法,可W在理论上保证该方法推断结果的精度的下界为l-1/e。
[0006] 其中,基于贪屯、的网络推断框架是网络推断的总体架构,其基本思路是基于观测 到的级联传播数据,通过推断(估计)在网络中添加不同边所带来似然值的边际增益的大 小,来确定逐步添加边的顺序,每次添加似然值最大的边,直至所有边添加完成,就完成了 网络结构的推断;在此过程中,本发明对缺失的级联数据采用蒙特卡洛方法进行补全。本发 明提出基于仿真的缺失级联数据补全方法,解决级联数据缺失情形下网络结构推断问题, 如何在当前观测到的级联数据之上估计出缺失的级联传播数据是本发明的核屯、之一。采用 的基本方法是蒙特卡洛仿真,仿真过程按照信息传播的机理重现网络信息传播过程,在当 前网络拓扑结构上估计出缺失的级联数据。运是由于信息传播过程中每个节点激活邻居节 点都是独立进行的,因此在仿真过程中让观测到的级联数据中的每个节点都按照信息传播 的机制在当前网络上进行传播,每个节点都可W得到一棵传播树,把运些传播树进行合并, 可W得到一棵最大级联传播树。根据级联传播树的合并机制,该树就是在当前网络结构下, 使当前缺失级联传播数据取得最大传播似然值的树。
[0007] 本发明提出缺失级联数据的边际收益计算方法,边际收益计算的目的是确定在当 前已推断出的网络拓扑结构的基础上,再添加哪条边,可W使得观测到的级联传播数据的 似然值增益最大。此过程需要枚举当前网络中所有没有出现的边,然后计算他们似然值的 边际收益。似然值的计算依赖于缺失级联数据的蒙特卡洛仿真所产生的最大合并树,基于 该最大合并树可得到该传播级联数据在当前网络上的传播似然值,也就得到了该边添加后 的传播似然值的边际收益。最大级联传播树的合成方法是对当前缺失级联传播树中的每个 节点通过蒙特卡洛仿真得到的传播树,使每棵树的根节点按照传播级联的概率最大化原 贝1J,在其他传播树结构中找到其父节点。在合并的过程中,由于每个节点传播是独立进行 的,因此在不同树结构中会出现节点重复激活的现象。那么对于重复的节点我们只保留激 活时间最早的节点,激活时间晚的所有节点及其对应的子树全部删除。运样就得到一棵没 有重复节点的最大传播生成树。
[0008] 本发明提供的技术方案是:
[0009] -种社交网络拓扑结构的推断方法,针对存在缺失的级联数据,通过估计在所述 网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序,每次添加似 然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构;包括如下步骤:
[0010] 1)初始化社交网络为边集为空的待推断网络G,所述初始的待推断网络G中仅有节 点,节点之间没有边相连;
[0011] 在社交网络中,每次消息的传播过程构成一个级联数据,信息的多次传播过程构 成一个级联传播数据集。每个完整的级联数据包含了本次信息传播所有激活节点的集合W 及每个节点被激活的时间信息;信息缺失的级联数据仅仅是完整的级联数据的子集,其中 的部分激活节点及其时间信息缺失。缺失级联数据集,构成了本发明进行网络推断的数据 基础。
[0012] 2)缺失级联数据集设为日,包含多个独立的缺失级联数据6;所述缺失级联数据£是 完整级联数据的子集,其中缺失部分激活节点和节点时间信息;设定迭代次数为m次,将缺 失级联数据集作为输入,进行循环迭代,每次迭代执行步骤3)~步骤4);
[0013] 3)计算边际收益,所述边际收益是网络Gi-I中添加一条候选边ei变成网络Gi时,对 缺失级联数据集巧中的每个缺失级联数据所带来的概率值的边际增益;计算得到在网络Gi-I 中添加所有候选边的边际收益;
[0014] 4)通过贪屯、算法对网络进行加边,具体是在第3)步计算在网络Gi-I中添加所有候 选边的边际收益计算得到的结果中,取边际收益最大的边添加到Gi-I中,得到网络Gi;
[001引5)完成循环迭代m次,得到包含m条边的图G,即得至雌断出的网络拓扑结构。
[0016] 针对上述社交网络拓扑结构的推断方法,进一步地,步骤2)迭代次数m等于最终推 断出的网络中边的数目。
[0017] 针对上述社交网络拓扑结构的推断方法,进一步地,步骤3)所述计算边际收益的 步骤如下:
[0018] 31)初始化:对于缺失级联数据集S的每个缺失级联数据斬执行M次蒙塔卡罗模拟 仿真,对缺失级联数据中的缺失值进行估计,得到估计值;每次蒙塔卡罗模拟仿真过程执行 如下步骤32);
[0019] 32)对在f中被激活的每个激活节点U,在当前网络Gi中执行一次蒙塔卡罗传播模 拟仿真,得到一棵仿真传播树T(U);将所有激活节点对应传播树T(U)进行合并,构造得到最 大级联传播合并树T*,T*中激活节点的集合为补全的级联数据t;由此得到缺失级联数据中 的缺失值的估计值;
[0020] 33)通过式2计算补令级联数据t在合并树T*上的传播概率:
[0021]
(式 2)
[0022] 式2中,f(t;T^为补全级联t在合并树T*上的传播概率;P(u,v)是节点U和V之间的 传播概率,y是设定的节点激活概率;
[0023] 34)用步骤33)所述补全级联数据t在T*上的传播概率代替补全级联数据t在当前 网络Gi上的最大传播概率f (t ;Gi-i U ei);
[0024] 35)对缺失级联数据集6的传播概率进行估计:
[00巧]通过对缺失级联数据f的M次仿真估计似然值取均值,作为补全缺失级联数据E的 传播概率似然值的估计值;对缺失级联数据集巧中的每个缺失级联数据执行步骤32),对级 联数据f的缺失进行仿真估计,然后对每个级联的概率似然值求积,得到缺失级联数据集O 的概率似然值f (日,Gi)估计,表示为式4:
[0026]
(式 4)
[0027] 式4中,ti'巧O中第i个缺失级联巧在第j次仿真中得到的补全级联。
[002引36)计算边际收益:将缺失级联数据集g在网络Gi-I Uei上的概率值减去S在网络 Gi-I上的概率值,作为本次添加候选边ei的边际收益。
[0029] 针对上述社交网络拓扑结构的推断方法,进一步地,步骤32)所述蒙塔卡罗传播模 拟仿真过程包括如下步骤:
[0030] 321)初始化得到缺失级联数据f和当前网络Gi-iUei;
[0031] 322) 中的每个观测节点U为根节点,对Gi-I U ei中的邻居节点W设定概率丫尝试 激活Gi-I U ei中不在f中的邻居节点;如果激活不成功则停止,再去激活其他Gi-I U ei中不在t 中的邻居节点;当激活成功时,设定概率值区间,从区间中随机采样一个值作为节点U到节 点V之间的传播概率值Puv ;
[0032] 323)赋予所述激活节点V-个激活时间;
[0033] 324)按照步骤322)~323)尝试激活所述激活节点V的邻居节点;当没有新节点被 激活时,Wu为种子节点的传播过程结束,得到一棵Wu为根的传播树T(U)。
[0034] 更进一步地,步骤322)所述设定概率值区间为[0,1]。
[0035] 更进一步地,步骤323)所述赋予所述激活节点V-个激活时间tv,具体根据式5采 样得到:
[0036]
(式 5)
[0037] 式帥,Puv为节点巧Ij节点V之间的传播概率值;a是设定概率值区间中的一个值。
[0038] 针对上述社交网络拓扑结构的推断方法,进一步地,步骤32)所述通过构造得到最 大级联传播合并树T*,补全级联数据t;具体包括如下步骤:
[0039] 341)初始化T*为空;
[0040] 342)将每个已观测节点U的仿真传播树T(U),对当前T*中每个激活时间早于U的节 点V,计算两点间传播概率P(V,U),计算公式如式6:
[0041 ]
(式巧
[0042] 式6中,A tvu为节点U与节点V之间的传播时延。
[0043] 343)将传播概率最大的节点V作为U的父节点,并将边(v,u)加入到T*中;
[0044] 344)对T(U)中的每个节点W,如果在T*存在相同的节点W',比较节点W和W'的激活 时间,将激活时间大的节点连同其级联传播树一同删除;
[0045] 345)直至当前缺失级联数据f中的所有节点按照上述步骤342)~343)处理完毕, 得到最大级联传播树T*,树中的所有节点及其激活时间即为补全的级联数据t。
[0046] 与现有技术相比,本发明的有益效果是:
[0047] 本发明提供一种社交网络拓扑结构的推断方法,针对存在缺失的级联数据,通过 估计在所述网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序, 每次添加似然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构。本发明 的优点是:
[004引(一)本发明方法适用性广,尤其可W应用于级联数据缺失情形;
[0049] (二)本发明技术方案在保持较高的时间效率基础上,显著提升了网络推断结果的 准确率,可W成为真实世界中推断隐藏网络结构的有效手段。
【附图说明】
[0050] 图1是本发明提供的社交网络拓扑结构的推断方法的流程框图。
[0051 ]图2是本发明提供的计算边际收益方法的流程框图。
[0052] 图3是本发明提供的仿真传播过程的流程框图。
[0053] 图4是本发明提供的生成最大合并树过程的流程框图
【具体实施方式】
[0054] 下面结合附图,通过实施例进一步描述本发明,但不W任何方式限制本发明的范 围。
[0055] 图1是本发明提供的社交网络拓扑结构的推断方法的流程框图,包括如下步骤:
[0056] I)初始化:边集为空的待推断网络G,即初始的网络中仅有节点,而节点之间没有 任何边相连;
[0057] 级联信息缺失的数据集设为巧,包含多个独立的缺失级联传播数据?;将级联信息 缺失的数据集巧作为输入,利用本发明提供的推断方法进行推断估计,输出结果为完成推断 的网络拓扑结构。在社交网络中,每次消息的传播过程构成一个级联数据,信息的多次传播 过程构成一个级联传播数据集。每个完整的级联数据包含了本次信息传播所有激活节点的 集合W及每个节点被激活的时间信息;信息缺失的级联数据仅仅是完整的级联数据的子 集,其中的部分激活节点及其时间信息缺失。缺失级联数据集,构成了本发明进行网络推断 的数据基础。
[0058] 2)贪屯、循环迭代:执行m次迭代(迭代次数m与最终推断出的网络中边的数目相等, 取值由用户指定),每次迭代执行步骤3)和步骤4);
[0059] 3)边际收益计算:在第i次迭代过程中,需要对当前已推断出的网络Gi-I中添加一 条候选边61,并对缺失级联数据集O中的每个缺失级联数据I,计算该候选边ei加入Gi-I后 (记做Gi)所带来的概率值的边际增益(具体边际增益计算方法见方法)表示如下:
[0060]
(式 1)
[0061] 4)贪屯、思路加边:在第3)步计算在网络Gi-I中添加所有候选边的边际收益计算结 果中,取边际收益最大的边添加到Gi-I中;
[0062] 5)循环迭代m次:重复步骤3)和步骤4),直至迭代结束;
[0063] 6)网络推断结果:包含m条边的图G即为推断出的网络拓扑结构。
[0064] 方法A,计算边际收益
[0065] 进一步地,步骤3)计算边际收益,图2是本发明提供的计算边际收益方法的流程框 图;边际收益具体指的是确定在向当前网络Gi-I中添加一条选定的候选边ei得到Gi时,所带 来的概率值的边际收益增益;计算边际收益步骤如下:
[0066] 31)初始化:对于缺失级联数据集3的每个缺失级联数据I,执行M次(M次数由用户 设定,一般取1000次)蒙塔卡罗模拟仿真,实现对级联数据中缺失值的估计,每次仿真过程 执行如下步骤32);
[0067] 32)缺失级联数据f的缺失仿真估计:对f中的每个时间戳不等于-的节点U,即U在 玄中被激活,在当前网络Gi中执行一次蒙塔卡罗传播模拟仿真(具体方法见方法B),可W得 到一棵仿真传播树T(U);所有激活节点对应传播树的合并可W得到最大级联传播合并树 T*,树T*中激活节点(包含相应的激活时间)的集合即为补全的级联数据t;
[0068] 33)计算t在合并树T*上传播的概率:计算补全级联t在合并树T*上传播概率的方 法具体如下:
[0069]
(式巧
[0070] 其中,f(t;T^为补全级联t在合并树T*上的传播概率;P(v,u)是节点U和V之间的 传播概率,丫是用户指定的节点激活概率(丫值一般取0到0.1左右)。
[0071] 34)计算t在当前图Gi上传播的概率:由于许多传播树均可产生相同的t,但是根据 最大合并树的构造方法(具体方法步骤见方法C),补全级联数据t在当前网络Gi上的最大传 播概率可用t在最大合并传播树T*上的传播概率替代,即:
[0072] f(t;Gi-iUei) = f(t;T*)(式 3)
[0073] 35)缺失级联数据集0的传播概率估计:对于缺失级联数据i的M次仿真估计似然值 取均值,即为对缺失级联数据1在考虑补全情形下的传播概率似然值估计;对缺失级联数据 集窃中的每个缺失级联数据执行上述步骤32)中的级联数据缺失仿真估计过程,然后对每个 级联的概率似然值求积,则得到缺失级联数据集日的概率似然值f(8, Gi)估计,即:
[0074]
(式 4)
[00巧]36)边际收益的计算:缺失级联数据集6在网络Gi-I Uei上的概率值减去6在网络 Gi-I上的概率值,即^5化-山61)寸巧化-1)为本次添加候选边61的边际收益。
[0076] 方法B,缺失级联数据的蒙塔卡罗仿真
[0077] 图3是本发明提供的仿真传播过程的流程框图;在当前缺失级联数据的基础上,执 行蒙特卡洛模拟传播仿真,对缺失节点值进行估计。主要步骤如下:
[0078] 325)初始化:缺失级联数据L W及当前网络Gi-I U 61,执行如下仿真传播过程;
[0079] 326) 中的每个观测节点U为根节点,对Gi-I Uei中的邻居节点W某一指定概率 丫(丫的取值由用户指定)尝试激活Gi-iUei中不在t中的邻居节点;如果激活不成功则停 止,再去激活其他Gi-I Uei中不在i中的其它邻居节点;如果激活成功,则从[0,1]区间随机 采样一个值作为节点U到节点V之间的传播概率值0UV,并赋予激活节点V-个激活时间;
[0080] 327)v的激活时间tv按如下方法采样得到:
[0081 ]
(式 5)
[0082] 其中,a是用户设置的介于[0,1]之间的参数值。
[0083] 328)对于被激活的缺失节点V,则按照322)、323)的方法尝试激活其邻居节点;
[0084] 当没有新节点被激活时,Wu为种子节点的传播过程结束,得到一棵Wu为根的传 播树T(U)。
[0085] 方法C,生成最大级联传播合并树T*:
[0086] 对于当前缺失级联数据?中的每个节点U对应的Wu为根节点的传播树T(U),合并 后生成最大级联传播合并树T*。图4是本发明提供的生成最大合并树过程的流程框图,主要 步骤如下:
[0087] 341)初始化T*为空;
[008引 342)将每个已观测节点U的仿真传播树T(U),对当前T*中每个激活时间早于U的节 点V,计算两点间传播概率P(v,u),计算公式如下:
[0089]
(式 6)
[0090] 343)将传播概率最大的节点V作为U的父节点,并将边(v,u)加入到T*中;
[0091] 344)同时,对T(U)中的每个节点W,如果在T*存在相同的节点W',此时则进一步比 较他们的激活时间,将激活时间大的节点连同其级联传播树一同删除;
[0092] 345)直至当前缺失级联数据^中的所有节点按照上述步骤342)、343)处理完毕即 得到最大级联传播树T*,树中的所有节点及其激活时间即为补全的级联数据t。
[0093] 本发明一实施例针对某一社交网络平台,通过多次观测,可W得到该社交网络信 息传播节点被激活时间的历史级联数据集,构成了进行网络推断的数据基础。每次消息的 传播过程构成一个级联数据,信息的多次传播过程构成一个级联传播数据集。每个完整的 级联数据包含了本次信息传播所有激活节点的集合W及每个节点被激活的时间信息。需要 指出的是,本发明重点考虑的是对于每次信息传播观测到的级联数据而言,我们所能获取 到的仅仅是完整级联数据的子集,部分激活节点及其时间信息缺失,即缺失的级联数据。运 种缺失可能有由于人为的原因,或者是由于系统的原因,级联数据缺失是现实情形下的最 可能的状态。直接应用现有的基于完全级联数据的网络推断方法应用到缺失级联数据上进 行网络推断,推断精度大大降低。目前针对缺失级联数据进行网络推断的方法尚未提出。本 发明就是要基于运种观测级联数据不完全情形下的如何准确的把网络拓扑结构推断出来。
[0094] 首先,我们获取到MemeTracker平台上的缺失级联数据集和节点集合(没有边信 息)。在MemeTracker平台中,我们W每个网站作为网络中的一个节点,构建初始网络G。一则 新闻(包含特定短语)在网络中传播,所有发布(转发)该新闻的网站及其发布时间构成一条 完整的级联数据。然而现实中可能存在运样的情况,某网站参与了传播过程,但过后自我删 除了相关文章,致使爬取数据时无法观察到该网站的时间信息,即缺失的级联数据集。在本 实施例中,网络中含有500节点和3000条边。按照如下步骤对MemeTracker网络拓扑结构(即 节点之间的边)进行推断:
[0095] 步骤一:提取出尚未在当前社交网络G中出现的潜在边(初始时有500*(500-1)条 有向边)的集合,并从该集合中抽取一条潜在边e,然后添加到当前网络中得到新的网络,记 做G+;
[0096] 步骤二:从缺失级联数据集中提取出一条缺失级联数据,记做i;
[0097] 步骤在当前网络G+上,对缺失级联数据i上的每个激活节点U,利用蒙特卡洛仿 真方法构造级联传播树T(U);
[0098] 步骤四:把缺失级联数据i上的每个激活节点U产生的级联传播树T(U)进行合并, 生成最大级联传播合并树T*;
[0099] 步骤五:基于T*计算该树对应的传播级联概率值,该值即为缺失级联补全后的级 联传播数据在当前网络G+上对应的最大级联传播概率值;
[0100] 步骤六:对于每个缺失级联数据1,按照步骤=至步骤五,计算出M=1000 个最大级 联传播概率值,并求出运个1000个值的均值,即为该缺失级联数据在当前网络上的最大传 播概率值的估计;
[0101] 步骤屯:对缺失级联数据集中的每个缺失级联数据,按照步骤二到步骤六,计算出 所有缺失级联传播数据的概率值,然后进行乘积,即为该缺失级联传播数据集在当前网络G +上的概率值估计;
[0102] 步骤八:当前网络护上的缺失级联数据集的概率估计值,减去在网络G上对缺失级 联数据集的概率值(即上一步迭代得到的估计值),即为在网络G中加上边e所带来的概率值 的边际增益;
[0103] 步骤九:对当前网络G中的所有潜在的边都执行步骤二到步骤八,我们可W得到在 当前网络G上添加每条边所能够得到的概率值的边际增益;
[0104] 步骤十:从所有潜在边的概率值边际增益中选择一个增益值最大的边,添加到当 前网络G中,即为我们本步骤所应该添加的边,实现了网络的增长;
[0105] 步骤十一:按照步骤一到步骤十,按照贪屯、方法执行m = 5000步,每一步在当前网 络中挑选出下一条可W添加的边,循环5000次就实现了从最初的空网络(只有点,没有边) 到添加了 5000条边的网络,完成了网络结构的推断;
[0106] 步骤十二:输出推断出的网络,算法结束。
[0107] 需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技 术人员可W理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是 可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围W权利要求 书界定的范围为准。
【主权项】
1. 一种社交网络拓扑结构的推断方法,其特征是,针对存在缺失的级联数据,通过估计 在所述网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序,每次 添加似然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构;包括如下步 骤: 1) 初始化社交网络为边集为空的待推断网络G,所述初始的待推断网络G中仅有节点, 节点之间没有边相连; 2) 缺失级联数据集设为S,包含多个独立的缺失级联数据石所述缺失级联数据f是完整 级联数据的子集,其中缺失部分激活节点和节点时间信息;设定迭代次数为m次,将缺失级 联数据集作为输入,进行循环迭代,每次迭代执行步骤3)~步骤4); 3) 计算边际收益,所述边际收益是网络Gh中添加一条候选边^变成网络Gdt,对缺失 级联数据集S中的每个缺失级联数据所带来的概率值的边际增益;计算在网络Gh中添加所 有候选边的边际收益; 4) 通过贪心算法加边,在第3)步计算结果中,取边际收益最大的边添加到Gh中,得到 网络Gi; 5) 完成循环迭代m次,得到包含m条边的网络结构,即得到推断出的网络拓扑结构。2. 如权利要求1所述社交网络拓扑结构的推断方法,其特征是,步骤2)所述次数m等于 最终推断出的网络中边的数目。3. 如权利要求1所述社交网络拓扑结构的推断方法,其特征是,步骤3)所述计算边际收 益的步骤如下: 31) 初始化:对于缺失级联数据集S的每个缺失级联数据f,执行M次蒙塔卡罗模拟仿真, 对缺失级联数据中的缺失值进行估计,得到估计值;每次蒙塔卡罗模拟仿真过程执行如下 步骤32); 32) 对在g中被激活的每个激活节点u,在当前网络G1中执行一次蒙塔卡罗传播模拟仿 真,得到一棵仿真传播树T(u);将所有激活节点对应传播树T(U)进行合并,构造得到最大级 联传播合并树T*,T*中激活节点的集合为补全的级联数据t;由此得到缺失级联数据中的缺 失值的估计值; 33) 通过式2计算补全级联数据t在合并树T*上的传播概率:(式2) 式2中,f (t; f")为补全级联t在合并树T*上的传播概率;P (u,V)是节点u和V之间的传播 概率,γ是设定的节点激活概率; 34) 用步骤33)所述补全级联数据t在Τ*上的传播概率代替补全级联数据t在当前网络G1 上的最大传播概率f (t ;Gi-! U ei); 35) 对缺失级联数据集S的传播概率进行估计: 通过对缺失级联数据?的1次仿真估计似然值取均值,作为补全缺失级联数据?的传播概 率似然值的估计值;对缺失级联数据集O中的每个缺失级联数据执行步骤32 ),对级联数据t 的缺失进行仿真估计,然后对每个级联的概率似然值求积,得到缺失级联数据集S的概率 似然值Γ ( a Gi)估计,表示为式4:式4中,中第i个缺失级联P在第j次仿真中得到的补全级联; 36)计算边际收益:将缺失级联数据集δ在网络Gp1 U &上的概率值减去δ在网络Gh上 的概率值,作为本次添加候选边ei的边际收益。4. 如权利要求3所述社交网络拓扑结构的推断方法,其特征是,步骤32)所述蒙塔卡罗 传播模拟仿真过程包括如下步骤: 321) 初始化得到缺失级联数据f和当前网络Gh Ue1; 322) 以i中的每个观测节点u为根节点,对Gh U ei中的邻居节点以设定概率γ尝试激活 Gi-i U ei中不在f中的邻居节点;如果激活不成功则停止,再去激活其他Gi-i U ei中不在f中的 邻居节点;当激活成功时,设定概率值区间,从区间中随机采样一个值作为节点u到节点V之 间的传播概率值 323) 赋予所述激活节点V-个激活时间; 324) 按照步骤322)~323)尝试激活所述激活节点V的邻居节点;当没有新节点被激活 时,以u为种子节点的传播过程结束,得到一棵以u为根的传播树T(u)。5. 如权利要求4所述社交网络拓扑结构的推断方法,其特征是,步骤322)所述设定概率 值区间为[〇,1]。6. 如权利要求4所述社交网络拓扑结构的推断方法,其特征是,步骤323)所述赋予所述 激活节点V-个激活时间tv,具体根据式5采样得到:(式5) 式5中,βυν为节点u到节点V之间的传播概率值;α是设定概率值区间中的一个值。7. 如权利要求3所述社交网络拓扑结构的推断方法,其特征是,步骤34)所述通过构造 得到最大级联传播合并树Τ*,补全级联数据t;具体包括如下步骤: 341) 初始化T*为空; 342) 将每个已观测节点u的仿真传播树T(U),对当前T*中每个激活时间早于u的节点V, 计算两点间传播概率P (V,u ),计算公式如式6:Ab屮,δ tvu73节Hu与节H仏刚,、」1专愤H、J脏; 343) 将传播概率最大的节点V作为u的父节点,并将边(V,u)加入到T*中; 344) 对T(u)中的每个节点w,如果在T*存在相同的节点w',比较节点w和w'的激活时间, 将激活时间大的节点连同其级联传播树一同删除; 345) 直至当前缺失级联数据?中的所有节点按照上述步骤342)~343)处理完毕,得到最 大级联传播树Τ*,树中的所有节点及其激活时间即为补全的级联数据t。
【文档编号】H04L12/24GK106022937SQ201610365770
【公开日】2016年10月12日
【申请日】2016年5月27日
【发明人】宋国杰, 窦芃, 赵彤
【申请人】北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1