一种社交网络分析方法和装置的制作方法

文档序号:7995529阅读:633来源:国知局
专利名称:一种社交网络分析方法和装置的制作方法
技术领域
本发明涉及一种业务支撑技术,尤其涉及一种社交网络分析方法和装置。
背景技术
社交网络(social network)是指社会个体成员之间因为互动而形成的相对稳定的关系体系,社交网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为。社交网络分析(social network analysis)是从社交网络角度出发,对大规模数据进行全面的,多维度的分析。社交网络可看作是由图表示的异构多关系数据集,图中节点表示对象,边表示对象间联系或相互作用的链接过去的几十年间,社交网络受到越来越多的关注。特别是移动电信网络和互联网的发展,产生了大量的,容易被计算机处理的社交网络数据。从这些海量数据中获取知识,从而理解商业行为,识别业务模式,分析用户行为,更好利用资源,提高服务质量,将成为运营商的核心竞争力之一。电信社群网络是一种以用户为节点、用户之间的通话为边构造的网络,该网络既体现了电信用户之间的通信关联关系,又在一定程度上体现了社会中人与人之间的社交关系。利用通话数据的多维属性,如通话时间、通话时长、频率等,从多个视角对人们日常的通话行为进行了刻画,从而深刻揭示了人们交往行为的模式和内在特征。相对于传统的基于属性向量的分析,社交网络分析(social network analysis)通过考虑对象间连接关系,可以获得如下新知识:根据对象的属性和连接,以及连接到它的对象的属性预测对象的类型;根据所涉及的对象的性质,预测二者间交往链接的类型或目的;预测对象间是否存在交往链接;根据对象的属性和链接,预测两个对象是否事实上相同;根据对象属性和链接结构,预测对象是否处于一个组或簇。目前,对电信通信网络和互联网这样大规模的社交网络进行分析,是一个比较困难的问题。一方面,电信领域的用户通话记录通常是以数据库表的方式存储,而传统的关系数据库和数据仓库没有专门的网络/图数据生成和计算能力。因此,在数据仓库上进行社交网络分析,首先需要采用SQL编程的方式生成网络数据,再进行计算,导致社交网络分析的能力非常有限。目前,中国移动经营分析系统用于用户行为分析的客户流失预测中使用到社会交往圈信息,采用的技术方案是用类似“Select主叫号码,被叫号码,sum(时长)from详单表where条件Groupby主叫号码”的SQL语句,从数据仓库中查询得到客户间主叫与被叫、时长的记录表,代表网络上节点、节点间连接、权重信息。然后将这些信息用于客户流失预测应用中。以一个拥有3000万用户的中等规模省公司为例,平均每个用户每月有100条通话记录,则每月的话单记录数为3000万*60% *100条/月=18亿条/月,目前即使只处理一个月的18亿条话单数据生成交往圈记录表,就需要2天的时间。实际分析应用中,为保证分析效果,通常需要3 6个月的详单进行分析,因此现有方案无法适应从大规模数据生成社交网络。另外,现有技术方案也仅对具有直接通过交往行为的用户之间生成了边表格式的单层网络拓扑结构,而对用户之间的间接交往行为基本无法分析,即无法得到网络整体拓扑特征值。另一方面,针对大规模数据,即使生成了社交网络,传统的社交网络分析软件也往往是单机应用,很难扩展以支持电信级和互联网级大规模海量数据的分析。社交网络中网络整体拓扑特征的分析,即图上各节点和边的各种特征值的计算,是各种社交网络分析应用的基础,也是决定社交网络分析系统效率的关键计算环节。这些特征值的计算,经常需要对整个网络上所有节点和边遍历求解,这也是制约现有社交网络分析系统无法适应大规模海量数据分析的关键因素。比如,社交网络中所有节点和边的pagerank值、单源和多源最短路径值求解,都需要对整个图进行遍历。如果是大规模网络,则基于单机的分析软件,可能会出现内存无法承受的情况;或者由于各特征值的求解方法通常是η3时间复杂度,导致系统无法响应大规模网络特征计算任务。现有技术的主要缺点包括:1、现有基于数据仓库/数据库的社交网络生成和分析应用,无法处理由大规模数据生成社交网络的任务,且网络分析只能针对网络的单层拓扑结构特征进行分析,对网络整体拓扑结构特征的分析基本无能为力。2、现有社交网络分析软件是基于单机的应用,无法适应电信级和互联网级海量数据形成的大规模社交网络的分析任务,尤其是对网络整体拓扑特征值分析时,需要对全部节点和边在整个网络上遍历求解的情形,成为制约系统效率和处理能力的瓶颈。

发明内容
本发明的目的在于,提供一种社交网络分析方法和装置,可以针对大规模的社交网络进行快速、高效的分析。为实现上述目的,根据本发明的一个方面,提供一种社交网络分析方法,包括:根据社交网络文件生成针对每个节点的节点信息;控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。其中,所述节点信息包括:节点ID,邻接点列表及本节点当前已知遍历信息;控制所述社交网络中所有节点根据相应的节点信息进行遍历包括:控制所述社交网络中所有节点发送各自的当前已知遍历信息到其邻接节点,同时接收其邻接节点发送来的邻接节点的当前已知遍历信息。优选地,该方法还包括:根据推进标识控制所述社交网络中所有节点根据相应的节点信息进行遍历:当所述推进标识为待推进状态时,控制所述社交网络中的所有节点继续进行遍历;当所述推进标识为停止推进状态时,控制所述社交网络中的所有节点停止遍历。优选地,该方法还包括:当任意节点接收到的遍历信息被更新时,将所述推进标识设置为待推进状态。
具体地,根据社交网络文件生成针对每个节点的节点信息的操作包括:对于邻接表格式的社交网络文件,将所述社交网络文件中每条邻接表格式记录直接映射为节点的节点信息;对于边表格式的社交网络文件,依照边表记录,将具有相同源节点的记录汇总,形成所述源节点对应的邻接表格式记录,并映射为所述源节点的节点信息。优选地,该方法还包括:根据交往记录文件生成社交网络文件的,该操作包括:根据预设的过滤规则对所述交往记录文件中的交往记录进行过滤;将过滤后的交往记录形成边表格式或邻接表格式的社交网络文件。其中,利用多个计算节点并行执行上述操作。为实现上述目的,根据本发明的另一个方面,提供一种社交网络分析装置,包括:节点信息生成模块,用于根据社交网络文件生成针对每个节点的节点信息;遍历模块,用于控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。其中,所述节点信息包括:节点ID,邻接点列表及本节点当前已知遍历信息;所述遍历模块,用于控制所述社交网络中所有节点发送各自的当前已知遍历信息到其邻接节点,同时接收其邻接节点发送来的邻接节点的当前已知遍历信息。优选地,该装置还包括: 标识状态分析模块,用于分析所述推进标识的状态;所述遍历模块,用于根据推进标识控制所述社交网络中所有节点根据相应的节点信息进行遍历:当所述推进标识为待推进状态时,控制所述社交网络中的所有节点继续进行遍历;当所述推进标识为停止推进状态时,控制所述社交网络中的所有节点停止遍历。优选地,该装置还包括:节点状态分析模块,用于分析所述社交网络中的节点接收到的遍历信息是否被更新;推进标识设置模块,用于当任意节点接收到的遍历信息被更新时,将推进标识设置为待推进状态。其中,所述节点信息生成模块包括:映射子模块,对于邻接表格式的社交网络文件,将所述社交网络文件中每条邻接表格式记录直接映射为节点的节点信息;或所述节点信息生成模块包括:格式转换子模块,用于对于边表格式的社交网络文件,依照边表记录,将具有相同源节点的记录汇总,形成所述源节点对应的邻接表格式记录;和映射子模块,用于将所述邻接表格式记录映射为源节点的节点信息。上述各个装置所进行的操作由多个计算节点并行执行。本发明的社交网络分析方法和装置,通过采用多个节点同时并发的机制,即所有节点都并行推送遍历信息,解决了社交网络中需要多次迭代才能遍历完数据的问题,降低了分析的时间复杂度,提高分析效率。另外,本发明通过采用根据推进标识确定是否遍历完信息,解决如何确保并发过程中数据遍历完成的问题,从而实现对网络整体拓扑结构的分析,进一步降低了分析的时间复杂度,提高分析效率。另外,本发明通过采用并行数据处理机制,即将需要处理的文件分割成数据分片后,由多个计算节点分别进行处理后并行输出操作结果,在进行汇总得到文件的最终处理结果,更好的适应大规模海量社交网络的特征分析任务;可以通过增加计算节点来应对网络数据规模不断增加的问题;另外,降低了对数据处理时间复杂度,提高数据处理效率。


图1是本发明社交网络分析方法实施例的流程图;图2是本发明社交网络分析方法另一实施例的流程图;图3是本发明并行数据处理的流程示意图;图4是本发明社交网络分析装置实施例的结构图;图5是本发明节点状态分析模块实施例的结构图;图6是发明社交网络分析装置另一实施例的结构图。
具体实施例方式本发明主要是通过对社交网络进行分析,得到网络整体拓扑特征值,如pagerank值、betweenness值、单源最短路径、多源最短路径等。以下结合附图对本发明进行详细说明。

方法实施例如图1所示,本发明社交网络分析方法实施例包括:步骤101,从业务记录中提取节点间的交往记录,得到包含所述交往记录的交往记录文件;例如,通信交往圈分析中,需要从详单中提取出主叫号码、被叫号码、通话时长、通话开始时间、短信发送号码、短信接收号码等属性列,这些属性列将用于生成语音通话或短信交往圈网络中节点对象、边、权重。数据提取步骤输出的是包含了对象间交往明细的交往记录文件,该文件是被提取列的全表记录文件,该文件中的每一行代表两个对象间的一次交往活动,如下表I所示。表I
权利要求
1.一种社交网络分析方法,其特征在于,包括: 根据社交网络文件生成针对每个节点的节点信息; 控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。
2.根据权利要求1所述的社交网络分析方法,其特征在于,所述节点信息包括:节点ID,邻接点列表及本节点当前已知遍历信息; 控制所述社交网络中所有节点根据相应的节点信息进行遍历包括: 控制所述社交网络中所有节点发送各自的当前已知遍历信息到其邻接节点,同时接收其邻接节点发送来的邻接节点的当前已知遍历信息。
3.根据权利要求1所述的社交网络分析方法,其特征在于,还包括: 根据推进标识控制所述社交网络中所有节点根据相应的节点信息进行遍历: 当所述推进标识为待推进状态时,控制所述社交网络中的所有节点继续进行遍历; 当所述推进标识为停止推进状态时,控制所述社交网络中的所有节点停止遍历。
4.根据权利要求3所述的社交网络分析方法,其特征在于,还包括: 当任意节点接收到的遍历信息被更新时,将所述推进标识设置为待推进状态。
5.根据权利要求1所述的社交网络分析方法,其特征在于,根据社交网络文件生成针对每个节点的节点信息的操作包括:对于邻接表格式的社交网络文件,将所述社交网络文件中每条邻接表格式记录直接映射为节点的节点信息; 对于边表格式的社交网络文件,依照边表记录,将具有相同源节点的记录汇总,形成所述源节点对应的邻接表格式记录,并映射为所述源节点的节点信息。
6.根据权利要求1所述的社交网络分析方法,其特征在于,还包括:根据交往记录文件生成社交网络文件的,该操作包括: 根据预设的过滤规则对所述交往记录文件中的交往记录进行过滤; 将过滤后的交往记录形成边表格式或邻接表格式的社交网络文件。
7.根据权利要求1-6任一所述的社交网络分析方法,其特征在于, 利用多个计算节点并行执行上述操作。
8.一种社交网络分析装置,其特征在于,包括: 节点信息生成模块,用于根据社交网络文件生成针对每个节点的节点信息; 遍历模块,用于控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。
9.根据权利要求8所述的社交网络分析装置,其特征在于,所述节点信息包括:节点ID,邻接点列表及本节点当前已知遍历信息; 所述遍历模块,用于控制所述社交网络中所有节点发送各自的当前已知遍历信息到其邻接节点,同时接收其邻接节点发送来的邻接节点的当前已知遍历信息。
10.根据权利要求8所述的社交网络分析装置,其特征在于,还包括: 标识状态分析模块,用于分析所述推进标识的状态; 所述遍历模块,用于根据推进标识控制所述社交网络中所有节点根据相应的节点信息进行遍历:当所述推进标识为待推进状态时,控制所述社交网络中的所有节点继续进行遍历;当所述推进标识为停止推进状态时,控制所述社交网络中的所有节点停止遍历。
11.根据权利要求10所述的社交网络分析装置,其特征在于,还包括: 节点状态分析模块,用于分析所述社交网络中的节点接收到的遍历信息是否被更新;推进标识设置模块,用于当任意节点接收到的遍历信息被更新时,将推进标识设置为待推进状态。
12.根据权利要求8所述的社交网络分析装置,其特征在于,所述节点信息生成模块包括: 映射子模块,对于邻接表格式的社交网络文件,将所述社交网络文件中每条邻接表格式记录直接映射为节点的节点信息; 或所述节点信息生成模块包括: 格式转换子模块,用于对于边表格式的社交网络文件,依照边表记录,将具有相同源节点的记录汇总,形成所述源节点对应的邻接表格式记录; 和映射子模块,用于将所述邻接表格式记录映射为源节点的节点信息。
13.根据权利要求8-12任一所述的社交网络分析装置,其特征在于, 上述各个装置所进行的操作 由多个计算节点并行执行。
全文摘要
本发明公开了一种社交网络分析方法和装置。其中该方法包括根据社交网络文件生成针对每个节点的节点信息;控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。本发明通过采用多个节点同时并发的机制,即所有节点都并行推送遍历信息,解决了社交网络中需要多次迭代才能遍历完数据的问题,降低了分析的时间复杂度,提高分析效率。
文档编号H04L12/24GK103138981SQ20111039129
公开日2013年6月5日 申请日期2011年11月30日 优先权日2011年11月30日
发明者邓超, 高丹, 江志雄, 徐萌, 罗治国, 钱岭, 孙少陵 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1