基于派系过滤和标签传播的移动通信用户群组构造方法_4

文档序号:9828581阅读:来源:国知局
[0118] 对应的节点标识作为键,邻接表信息作为值输出巧 17: END IF 18: IF value in inpul value set is adjacency list nodcul iid合1 i1 的 元素为邻接表所对应节点标识~ 19; EMIT <adjacency list nodeicL, node\ahel> 20: END IF 21: END FOR Reduce2: 22: FOR each input key nodeid emitted by Rcduccl 23: Do label propagation according io ihc previous design 产标签播 n 24; EMIT <nodeicl nodelahel> 严准济 轮迭代V 25: IF current node converges 26: Convergence node number increases one 严收夕父义点数, VNtdentiial++*/ 27: END IF 28: END FOR END
[0119] (2)利用LFR基准网络对在Hadoop平台下基于MapReduce并行实现的本发明的基于 派系过滤和标签传播的移动通信用户群组构造方法(以下简称本发明方法)进行有效性评 价。
[0120] (2.1)实验背景
[0121] LFR基准网络专门用于验证各种群组构造(社区发现)算法的性能。通过配置LFR基 准网络不同的参数(如表3所示)生成已知群组结构且具有重叠群组特性的复杂网络对基于 标签传播原理的C0PRA(Community Overlap Propagation Algorithm)算法、基于局部扩张 原理的0SL0M(0rder Statistic Local Optimization Method)算法和本发明方法进行验 证。由于LFR基准网络中的群组结构事先已知,因此采用扩展标准互信息(Expanded Normalized Mutual Information,ENMI)作为性能对比的指标。
[0122] 表3 LFR网络配置参数
[0124]其中k表示平均度数;kmax表示最大度数;cmin表示最小社区(群组)大小;c max表示最 大社区(群组)大小,On表示每个重叠节点所属固定社区个数;拓扑混合参数μ*、权值混合参 数yW、重叠节点的个数On为范围值,对比过程中会不断调整它们的值以更深入地观察各个群 组构造算法的性能。
[0125] 实验中,联系紧密度度量参数α取0.4,〇^1^算法的参数奴¥表示一个节点可以同 时最多被划分至V个群组中)设置为〇m,即等于LFR基准网络中重叠节点同时属于的群组个 数。实验中中Speaker策略中Tspeaker和T pcistprci cessing都设置为0.3,迭代停止条件中 1'_胃_?^_和1'。_(^_。(3_^_分别设置为0.001和5。此外,实验中使用的0311)1群组构造算 法的原始程序参见作者的论文"Lancichinetti A,Radicchi F,Ramasco J J,et al.Finding statistically significant communities in networks[J]·PloS one , 2011,6 (4): e 18961. ",且所需的其他参数均采用其程序中的默认值。实验中使用的COPRA群 组构造算法的原始程序参见作者的论文"Gregory S.Finding overlapping communities in networks by label propagation[J].New Journal of Physics,2010,12(10): 103018.",且所需的其他参数均采用其程序中的默认值。
[0126] (2.2)拓扑混合参数μ*对算法的性能影响
[0127] 设置LFR基准网络中节点总个数Ν=50000,权值混合参数μν=0.1,重叠节点个数O n =5000,调整拓扑混合参数,分别使用本发明方法、0SL0M群组构造算法、COPRA群组构造 算法对所生成的模拟基准网络(LFR基准网络)进行群组构造,并计算所构造的各群组与原 始群组的扩展标准互信息,结果如图3示。
[0128] 拓扑混合参数W指节点外部度数占其总度数的比例,μ*越大,所生成基准网络的群 组结构越模糊。如图2所示,总体而言本发明方法的性能均好于0SL0M群组构造算法和COPRA 群组构造算法。起初COPRA群组构造算法与本发明方法的性能基本相当,ENMI均维持在0.86 左右,均好于0SL0M群组构造算法,当大于0.4左右时,性能开始出现差异,本发明方法的 性能开始好于COPRA算法,这主要是因为随着μ*的不断增大,网络中的群组拓扑开始变得不 清晰,这致使初始时为每个节点都分配一个唯一标签的COPRA算法在群组拓扑不明显的情 况下所构造的群组质量下降。而本发明方法由于在群组构造前使用改进的基于派系过滤的 群组构造算法构造种子群组,且所构造的种子群组具有非常强的群组特性,因此在网络群 组拓扑不清晰的情况下仍能基于种子群组构造相应的群组。尽管存在如上差异,但随着W 的增大,四种算法的EWI值都在不断衰减,特别是当大于0.9时三种拓扑的EWI均为0,这 因为群组内节点对外联系度比例过大,网络的群组拓扑结构已不存在。
[0129] (2.3)权值混合参数μν对算法性能的影响
[0130] 设置LFR基准网络中节点总个数N=50000,拓扑混合参数= 0.2,重叠节点个数On = 5000,调整权值混合参数μν,计算三种算法所构造的群组与原始群组的扩展标准互信息, 结果如图4所示。
[0131]权重混合参数W是节点对群组外节点连接边的权值总和与该节点与所有节点连 接边的权值总和的比例值,同样权重混合参数越大,基准网络的群组结构越不明显。如图3 所示,当权值混合参数μ4交小时,本发明方法、COPRA算法的性能基本相当,E匪I值均维持在 0.87左右,均好于0SL0M算法。随着μ ν的增大,算法的性能开始出现明显的差异,当μν大于 0.25左右,COPRA算法性能急剧下降,而本发明方法则是出现了缓慢的下降,这主要是因为 种子群组在较模糊的群组结构中识别了群组内的核心群组关系,致使其性能好于COPRA算 法。由于0SL0M算法基于统计特性反复迭代判断相应的邻接节点是否应该加入群组,致使其 群组构造的结果仍旧相对稳定,而尽管初始时的群组结构由种子群组标识,但是本发明方 法仍旧对权值有较强的依赖,本发明方法依赖权值选择标签,因此在权值混合参数较大时 OSLOM性能超过了本发明方法。同样,当混合参数μν大于0.65时,节点间的权值都主要分散 在不同的群组间,群组结构过于模糊,进而算法性能均趋近于0。
[0132] (2-4)重叠节点数On对算法性能的影响
[0133] 重叠节点数On是指基准网络中重叠节点的个数,重叠节点现象广泛存在于现实世 界中,如某个用户可能既是某个家庭群组的成员又是某个同事群组的成员。设置LFR基准网 络中节点总个数N=50000,拓扑混合参数= 0.3,权值混合参数μ?=0.2,调整重叠节点数 〇η,计算三种算法所构造的群组与原始群组的扩展标准互信息,结果如图5示,为了更清楚 地对结果进行展示,图中横坐标改为重叠节点数O n与网络总节点数N的比值。
[0134] 如图4所不,总体而目本发明方法的性能好于OSLOM算法和COPRA算法。这是因为算 法初始时所注入的种子群组即是有重叠的,而以此重叠种子群组为基础更有利于算法发现 重叠群组,尤其是当重叠节点数量增多时。而⑶PRA算法和OSLOM算法均是相当于从一个节 点作为初始群组进行群组构造,显然当重叠节点数量增多时对算法的性能会有一定的影 响。此外,本发明方法中节点存储所有迭代过程中的历史标签也是能较好构造重叠群组的 保证。
[0?35] (3)利用中国移动真实通话记录数据集对在Hadoop平台下基于MapReduce并行实 现的本发明的基于派系过滤和标签传播的社交关系群组构造方法进行有效性评价。
[0136] (3.1)实验背景
[0137] 中国移动辽宁分公司记录了其所管辖范围内每个用户的每条通话记录,其记录的 内容主要包括本端号码、对端号码、通话时间、通话时长、呼叫类型等共计15个字段。因数据 量巨大,所有通话记录均使用Snappy压缩算法以纯文本的形式存储在Hadoop集群的HDFS 上,从压缩文本大小而言,每天产生约9~IOG的通话记录。
[0138] 本实施方式提取了移动真实数据集中沈阳市共计4766379位用户的三个月通话记 录作为实验的原始输入数据。首先基于通话记录对用户间的联系紧密度值进行度量计算, 然后以用户为节点,用户间的联系紧密度值作为节点间边的权值,将用户间的通话关系抽 象成一张体现用户间社交关系的加权复杂网络,并基于此加权复杂网络使用本发明的方法 进行群组构造。
[0139] 实验验证过程中,共度量出4406891位用户,33728562条有权关系,平均每位用户 拥有7.654条关系。如图6所示,为联系紧密度值所对应关系数的分布图,其中横坐标表示所 计算出的用户间的联系紧密度值(精确至0.1),纵坐标表示相应的联系紧密度值所对应的 关系数,横纵坐标轴均使用以10为底的对数坐标系。
[0140]从分
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1