基于标签传播算法面向寄递数据的并行化社团发现方法_2

文档序号:8943080阅读:来源:国知局
+用以区分后面的〈key, value)键值对)和〈&,S\tR2...\tRk>、<R2, SXtR1...\tRk>、……、<Rk, SXtR1...\tRk !> 等。
[0048]2)在Reduce阶段获取相同key值的〈key, value〉键值对,遍历每一个value,首先获取带“ + ”的value,将其用“\t”划分为数组后,数组中元素均为当前key用户为寄件人时的收件人,将这些邻居用户存于一个HashSet数据结构set_key里。其次,对剩下每一个不带“ + ”的value使用“\t”划分为数组并进行解析,将结果存于一个HashMap数据结构的map中(map的key为经过“\t”划分后数组的第一个元素,value为一个用于存放数组的其他元素的HashSet结构)。最后,遍历这个map,对map中每一个元素的value与set_key求交集,交集的大小为这个元素的key值与当前Reduce的key分别作为寄件人时的共享发送邻居数。
[0049]203:求得共享接收邻居数:对任意存在物流往来的寄件人和收件人,统计他们分别作为收件人时对应存在相同寄件人的数量B,该数量B记为共享接收邻居数。下面具体说明:
[0050]首先,根据步骤201中每个寄件人的邻接表[SVR1 = WAtR2 = W2...\tRk:Wk],为每个收件人建立到寄件人的倒排索引[RAtSAtSp...\tSn],下标1,P, η表示倒排后的寄件人的序号;其次,类比于步骤202求解过程,得到任意两个有物流往来的寄件人和收件人,统计他们分别作为收件人时的共享接收邻居数。
[0051]204:对任意存在物流往来的寄件人和收件人,获取他们之间的共享发送邻居数与共享接收邻居数的和值,该和值作为该寄件人和收件人之间的共享邻居数,并求得整个网络中共享邻居数的最大值,以标准化每一个已有物流往来的寄件人节点和收件人节点的共享邻居数。
[0052]205:将步骤201得到的邻接表的权值和步骤204中得到的共享邻居数按α: 1- α的比例相加后获得同时考虑寄件频数与共同发送邻居数和共同接收邻居数的有向边权值,即邻接表中边的权值占重比例为α,而共同发送邻居数和共同接收邻居数的占重比例为l-α,其中,O < α < 1,用新的有向边权值更新邻接表,将新产生的邻接表上传至HDFS中。
[0053]以上完成构建寄递关系网络模型阶段的数据处理,如图2所示。下面进行挖掘阶段的数据处理,如图3所示。
[0054]步骤S3:利用改进的标签传播算法,运用MapReduce框架并行化挖掘寄递网络中的社团结构。
[0055]改进的标签传播算法采用多次迭代的方式,一次迭代过程具体为:
[0056]301:在步骤S2获得的邻接表的结尾加上对应寄件人节点的唯一标示ID,作为寄件人节点标签Label,完成初始化标签,对应带节点标签的邻接表表示为[SXtR1 = WAtR2: W2...\tRk: Wk\tLabeI]。
[0057]302:Map阶段,根据带节点标签的邻接表输出多个〈key, value)形式键值对,分为寄件人键值对〈S,+R1Iff1XtR2Iff2...\tRk:Wk>(+用以区分后面产生的〈key,value)键值对)和收件人键值对 <Ri, LabeIXtff1)^ <R2, Label\tW2>、......、<Rk, +Label\tffk>0
[0058]303:在Reduce阶段,获取相同key值的〈key, value〉键值对,遍历每个value,首先获取寄件人键值对的value (即带“ + ”的value)用来表示该key值的邻接表的value,并存于变量adjacent中,其次,对于收件人键值对的value (不带“ + ”的value),统计不同Label下权重值之和,并根据不同Label的比重来更新该key值的节点标签NewLabel,其中,Label所占比重越大,当前key节点的标签越可能更新为此Label。
[0059]304:将key节点新产生的标签NewLabel添加到adjacent结尾处,输出一个新的〈key, value〉形式键值对,即〈S, R1 = W1XtR2 = W2...\tRk:ffk\tNewLabel>,并更新邻接表的标签,寄递网络中的社团结构与含有标签的邻接表相对应。
[0060]改进的标签传播算法的迭代终止条件包括以下两种:1、各节点标签基本稳定,即前后两次迭代过程大于设定百分比的节点标签不发生变化,其中,本实施例中设定百分比为90%,2、达到设定的迭代次数,一般取20?30次,本实施例中取25次。
[0061]步骤S4:解析步骤S3获取的社团结构,发现寄递网络中社团,并将结果保存于HDFS中ο具体为:
[0062]根据步骤S3获取的邻接表,将相同标签的节点视为同一社团,从而发现寄递网络中社团。
[0063]综上,构建寄递关系网络模型阶段为数据预处理过程,挖掘阶段迭代过程,迭代过程基于单机标签传播算法实现算法的分布式形式,同时,由于物流的寄递数据的特殊性,本专利在计算寄递网络边的权值方面考虑了 3个方面的指标:1、寄递双方的物流往来频数;2、统计寄递双方分别作为寄件人时对应存在相同收件人的数量;3、统计寄递双方分别作为收件人时对应存在相同寄件人的数量,最后本发明综合这3个指标计算网络中所有边的权值,从而实现准确、高效地挖掘寄递网络中社团。
【主权项】
1.一种基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,包括: 步骤S1:预处理寄递数据,按照设定格式结构化为文本数据; 步骤S2:综合文本数据中节点之间寄递往来信息,标准化节点之间有向边的权值,最终以邻接表形式构建成寄递有向有权关系网络t吴型; 步骤S3:利用改进的标签传播算法,运用MapReduce框架并行化挖掘寄递网络中的社团结构; 步骤S4:解析步骤S3获取的社团结构,发现寄递网络中社团。2.根据权利要求1所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述文本数据上传至Hadoop集群的HDFS中存储与处理。3.根据权利要求1所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述步骤SI具体为:对于每条寄递数据,分别抽取出寄件人姓名、寄件人电话号码、收件人姓名、收件人电话号码,所述寄件人姓名、寄件人电话号码、收件人姓名、收件人电话号码对应为每行文本数据的四列信息。4.根据权利要求1所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述步骤S2具体为: 201:针对每个寄件人,获取该寄件人与其他收件人之间物流往来频数的邻接表,并对邻接表进行标准化处理; 202:对任意存在物流往来的寄件人和收件人,统计他们分别作为寄件人时对应存在相同收件人的数量A,该数量A记为共享发送邻居数; 203:对任意存在物流往来的寄件人和收件人,统计他们分别作为收件人时对应存在相同寄件人的数量B,该数量B记为共享接收邻居数; 204:对任意存在物流往来的寄件人和收件人,获取他们之间的共享发送邻居数与共享接收邻居数的和值,该和值作为该寄件人和收件人之间的共享邻居数,并对共享邻居数进行标准化处理; 205:将步骤201得到的邻接表的权值和步骤204中得到的共享邻居数按α:1-α的比例相加后获得同时考虑寄件频数与共同发送邻居数和共同接收邻居数的有向边权值,并更新邻接表,其中,O < α < I。5.根据权利要求1所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述改进的标签传播算法采用多次迭代的方式,一次迭代过程具体为: 301:在步骤S2获得的邻接表的结尾加上对应寄件人节点的唯一标示ID,作为寄件人节点标签Label,完成初始化标签; 302:根据带节点标签的邻接表输出多个〈key,value)形式键值对,分为寄件人键值对和收件人键值对; 303:获取相同key值的键值对,遍历每个value,首先获取寄件人键值对的value用来表示该key值的邻接表的value,并存于变量adjacent中,其次,对于收件人键值对的value,统计不同Label下权重值之和,并根据不同Label的比重来更新该key值的节点标签 NewLabel ; 304:将NewLabel添加到adjacent结尾处,输出一个新的〈key, value〉形式键值对,并更新邻接表的标签,寄递网络中的社团结构与含有标签的邻接表相对应。6.根据权利要求5所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述改进的标签传播算法的迭代终止条件包括:前后两次迭代过程大于设定百分比的节点标签不发生变化或达到设定的迭代次数。7.根据权利要求6所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述设定百分比为90%。8.根据权利要求6所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述设定的迭代次数为20?30次。9.根据权利要求5所述的基于标签传播算法面向寄递数据的并行化社团发现方法,其特征在于,所述步骤S4具体为:根据步骤S3获取的邻接表,将相同标签的节点视为同一社团。
【专利摘要】本发明涉及一种基于标签传播算法面向寄递数据的并行化社团发现方法,包括:步骤S1:预处理寄递数据,按照设定格式结构化为文本数据;步骤S2:综合文本数据中节点之间寄递往来信息,标准化节点之间有向边的权值,最终以邻接表形式构建成寄递有向有权关系网络模型;步骤S3:利用改进的标签传播算法,运用MapReduce框架并行化挖掘寄递网络中的社团结构;步骤S4:解析步骤S3获取的社团结构,发现寄递网络中社团。与现有技术相比,本发明提高传统标签传播算法的扩展性和运行效率,最终实现准确、高效地挖掘寄递网络中社团。
【IPC分类】G06F17/30
【公开号】CN105159922
【申请号】CN201510469289
【发明人】马云龙, 刘敏, 桂峰, 章锋, 袁菡, 孙源
【申请人】同济大学
【公开日】2015年12月16日
【申请日】2015年8月3日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1