基于图结构匹配的社交网络分析方法

文档序号:9396887阅读:520来源:国知局
基于图结构匹配的社交网络分析方法
【技术领域】
[0001]本发明涉及社交网络分析方法,特别涉及基于图结构匹配的社交网络分析方法。
【背景技术】
[0002]近年来,互联网的持续快速发展,社交网络等新兴信息模式的迅猛发展,对个人和社会群体的行为产生了深远影响。以Facebook为例,我们发现其:(I)用户规模大,全球注册用户超8.5亿,用户间联系逾千亿;(2)使用频繁,超过一半的用户每天登陆Facebook,所有用户每月在线时间达7000亿分钟;(3)商业价值高,是排名第一的广告发布接受网站,每天有超过10亿条包括视频、照片、新闻等信息在用户间分享。
[0003]庞大的社交网络为人们提供了丰富的信息,然而如何快速有效地发现社交网络海量信息背后所蕴含的知识,是亟待人们解决的问题。
[0004]由于社交网络可以抽象为图结构一一用户可被视为图的顶点,用户之间的关系可被看作图的边,因此,基于图结构匹配的分析技术已成为社交网络分析的主要技术之一,并且已经和正在帮助人们进行专家推荐、社交圈子识别,社会位置分析等。简言之,图结构匹配是在一个大图G中查询与给定模式图Q匹配的子图(可形式化描述为Q(G))。然而,由于社交网络图数据“海量”及“非结构化”的特点,通过传统技术对社交网络“大数据”进行分析已难以满足人们的迫切需要。具体原因表现在:(I)图结构匹配兼顾数据和拓扑结构,从而导致对该问题的运算往往较为复杂,例如:基于子图同构的图结构匹配属于一类极难解决的问题一一NP完全问题;(2)社交网络的数据往往是分布式存储的。例如=Twitter社交图的FlockDB,Yahoo !互联网应用的PNUTS,开源社区的Neo4j和HypergraphDB等。另一方面,图结构匹配经常需要访问多个数据节点,例如:访问多个数据站点以取得匹配计算所需要的全部信息。因此,在分布式环境下,图结构匹配的求值更加困难;(3)现实世界的社交网络是不断变化的。在一周内有10%的节点及节点关系更新是常见的情况。当更新出现的时候,昂贵的查询需要被重新计算。这样的计算在面对频繁的请求时往往是无法进行的。
[4]可视化管理工具的缺失。与关键词搜索和结构化查询不同,图结构匹配查询条件(如模式图Q)的描述更加复杂,且对结果的理解也需要更加直观的方式。

【发明内容】

[0005]本发明所要解决的技术问题,就是提供一种基于图结构匹配的社交网络分析方法以实现高效、便捷的数据分析与维护,进而为专家推荐、社交圈子识别,社会位置分析等热点应用提供关键技术支撑。
[0006]本发明解决所述技术问题,采用的技术方案是,基于图结构匹配的社交网络分析方法,包括以下步骤:
[0007]步骤1、用户通过系统构建模式图Q,选择待分析的图数据,并发出模式图Q的匹配查询请求;
[0008]步骤2、系统采用十字链表作为待分析的图数据的基础数据结构,并对十字链表结构的图数据G进行数据管理操作;
[0009]步骤3、系统将模式图Q的匹配查询请求发送至十字链表结构的图数据G的各个数据站点,数据站点计为(S1, S2...Sn);我们将数据量很大的图数据G分割成很多个子图,并存放在不同的网络站点中,数据站点是指各个子图所在的网络站点。
[0010]步骤4、系统对各数据站点并行执行本地计算,计算出匹配结果;
[0011]步骤5、系统对匹配结果进行排序显示。
[0012]具体的,所述步骤3中,系统接收模式图Q的匹配查询请求后,首先检测当前站点S1的边界节点V ^,如果其与模式图Q中的某个节点Uci具有相同的节点标签,则S 1向其他站点S,请求边界节点V ^的邻居节点,S i接收到S ,返回的数据后,进入步骤4。
[0013]具体的,所述步骤4中,系统并行调用经全双工方式优化后的VF2算法对十字链表结构的图数据G的各数据站点并行执行本地计算。传统的VF2将整个图作为输入,而经全双工方式优化后的VF2算法只将可能与Q匹配的子结构作为输入,进行结构匹配计算。
[0014]具体的,所述步骤5中,系统根据匹配结果的出入度对匹配结果进行排序显示,出度及入度的和越大,系统排序越靠前。
[0015]具体的,所述方法还包括系统通过运用增量算法,对匹配结果进行增量计算,具体包括以下步骤:
[0016]步骤61、系统将模式图Q转换为无向图Q’,并计算出Q’的直径d ;
[0017]步骤62、系统将十字链表结构的图数据G中每一条边的更新计为Δ e = (V,V’),分别计算V和V’在d步内可达的节点;
[0018]步骤63、系统并十字链表结构的图数据G中导出包含上述节点的子图,计为G(Ae1Q);
[0019]步骤64、系统对子图G(Ae,Q)进行模式图Q的同构计算,得出新的匹配结果,返回步骤4。
[0020]具体的,所述步骤I中,用户通过输入节点和边,构建模式图Q。
[0021]具体的,所述步骤I中,对十字链表结构的图数据G进行数据管理操作包括节点查询、节点的增删改和/或边的增删改。
[0022]本发明的有益效果是:系统通过全双工方式,对经典的VF2算法进行拓展,实现分布式图结构匹配计算;基础数据采用十字链表结构,便于双向(延父节点,或子节点)遍历,在十字链表的基础上,实现了非常高效的节点、边的增删改操作,使得图数据的维护非常便利;从输入输出变化的角度,设计增量维护算法,使得对查询结果的动态维护更加高效,实现了增量维护计算,以克服社交网络更新频繁,而批量计算又开销巨大的严重瓶颈;通过“所见即所得”的可视化方式帮助用户构建查询,管理图数据,并可视化查询结果。
【具体实施方式】
[0023]下面结合实施例详细描述本发明的技术方案:
[0024]本发明针对现有技术中由于社交网络图数据“海量”及“非结构化”的特点,通过传统技术对社交网络“大数据”进行分析已难以满足人们的迫切需要的问题,提供一种基于图结构匹配的社交网络分析方法,首先,用户构建模式图Q,选择待分析的图数据,并发出模式图Q的匹配查询请求;其次,系统采用十字链表作为待分析的图数据的基础数据结构,并对十字链表结构的图数据G进行数据管理操作;然后,系统将模式图Q的匹配查询请求发送至十字链表结构的图数据G的各个数据站点,数据站点计为(S1, S2...SJ ;再然后,系统对各数据站点并行执行本地计算,计算出匹配结果;最后,系统对匹配结果进行排序显示。系统通过全双工方式,对经典的VF2算法进行拓展,实现分布式图结构匹配计算;基础数据采用十字链表结构,便于双向(延父节点,或子节点)遍历,在十字链表的基础上,实现了非常高效的节点、边的增删改操作,使得图数据的维护非常便利;从输入输出变化的角度,设计增量维护算法,使得对查询结果的动态维护更加高效,实现了增量维护计算,以克服社交网络更新频繁,而批量计算又开销巨大的严重瓶颈;通过“所见即所得”的可视化方式帮助用户构建查询,管理图数据,并可视化查询结果。
[0025]实施例
[0026]本例针对社交网络“大数据”,通过分布式,可视化及增量计算技术,实现高效、便捷的数据分析与维护,进而为专家推荐、社交圈子识别,社会位置分析等热点应用提供关键技术支撑。为了有效的克服以上困难,更加高效、便捷地对社交网络“大数据”进行分析,我们对传统技术进行了如下三方面的扩展:(I)采用分布式技术管理
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1