面向不均衡社交网络的图采样方法

文档序号:35146923发布日期:2023-08-18 04:37阅读:24来源:国知局
面向不均衡社交网络的图采样方法

本发明属于图可视化,特别是涉及一种面向不均衡社交网络的图采样方法。


背景技术:

1、图是一种常用的可视化手段,在二维平面空间使用节点和边来描述对象及对象间关联关系,社交网络指的是由众多成员及成员关联关系组成的复杂的图。社交网络中的成员社交关系通常十分复杂,并且经常存在局部聚集性,即部分成员之间联系紧密形成社区结构,不同社区结构的成员之间的联系较稀疏。真实世界的社交网络中成员紧密联系形成的社区结构规模通常是不同的,意味着真实世界的社交网络是不均衡的,不均衡社交网络图指的就是包含了复杂社区结构并且社区结构规模大小不一的社交网络图,因此真实世界的社交网络也可以称为不均衡社交网络。

2、不均衡社交网络中一个社区结构内部的成员及成员关联关系通常是相似的,表现为一个社区结构可以通过少量的成员节点及关联关系来表示,因此经常存在节点和连边冗余现象,造成可视化视觉混淆。

3、目前,已经有一些研究提出了图采样方法,可以分为单起点图采样方法和多起点图采样方法。单起点图采样方法的核心思想是在图中选择一个起点节点,然后以遍历、随机游走等统计学方式对图中其他节点进行访问,将所有访问到的节点及其连边都保留,没有访问到的都去除,能够从统计学的角度得到较好的图采样结果,保留了图的更多统计特征,比如图的节点平均度等。多起点图采样方法则是在单起点图采样的基础上选择了多个起点,通过控制多个起点异步进行图采样,最后将多个图采样结果合并,相较于单起点而言多起点存在局部采样的特性,能够有利于挖掘和保留图的结构特征,比如不均衡社交网络中的社区结构,多起点图采样结果在统计特征和结构特征上都具有较好的保持。

4、但以上方法都存在一些缺点,在面对具有复杂关系的图,尤其是针对具有社区结构并且社区结构规模差异较大的不均衡社交网络的采样时,上述方法都不能够很好的平衡对社区结构内部和社区结构之间的采样,因为单起点图采样方法存在起点单一这一局限性,难以对图中所有节点都有很好地访问,并且容易过多保留同一个社区内部的成员节点,导致图采样结果会丢失一些关键社区结构;多起点图采样方法则存在结果不连通这一局限性,将多个起点尽可能分布在图中的各个地方,尽管能够更好地对图中节点进行访问,减少了采样结果丢失关键社区结构的可能,但是对各个起点的图采样结果合并后经常会出现不连通的问题,表现为不均衡社交网络的社区结构之间的关联关系破坏。这些问题都会导致对不均衡社交网络的采样结果不能够真实地反映原有的不均衡社交网络,影响到后续对不均衡社交网络可视分析的准确性。

5、因此亟需一种不均衡社交网络的图采样方法,该方法能够去除不均衡社交网络中冗余的成员节点和连边,保留不均衡社交网络的社区结构、社区结构间的关联关系、社区结构的规模分布以及相关统计特征,减少不均衡社交网络的可视化视觉混淆,能够直观、清晰展现不均衡社交网络的关键信息和总体分布,使分析人员快速、准确地在不均衡社交网络的二维可视化中发现核心成员信息、潜在的社交关系圈和不同的社交圈的关联关系。


技术实现思路

1、本发明实施例的目的在于提供一种面向不均衡社交网络的图采样方法,以解决现有图采样方法在针对不均衡社交网络进行图采样后容易出现社区结构丢失、社区结构关联关系破坏以及社区结构规模分布失真,导致分析人员无法快速准确的在不均衡社交网络等问题。

2、为解决上述技术问题,本发明所采用的技术方案是,一种面向不均衡社交网络的图采样方法,包括以下步骤:

3、步骤s1、候选种子节点识别:从初始不均衡社交网络图中识别出候选种子节点;

4、步骤s2、种子节点筛选:删除候选种子节点中的社区内中心节点,保留桥梁节点;

5、步骤s3、种子节点精选:通过优化函数对步骤s2得到的桥梁节点进行精选,得到图采样起点节点;

6、步骤s4、通过度引导的随机游走采样方法从图采样起点节点开始进行图采样,得到采样后的不均衡社交网络图。

7、进一步地,所述步骤s1具体为:

8、步骤s11、获取真实世界中的不均衡社交网络数据,以节点代表成员,以连边代表成员间的关联关系,进行二维平面可视化,得到一个初始的不均衡社交网络图;

9、步骤s12、对所有成员节点计算中介中心性,选取所有节点的中介中心性的平均值作为分隔阈值,将中介中心性高于分割阈值的成员节点保留,作为候选种子节点。

10、进一步地,所述步骤s12中成员节点v的中介中心性通过以下公式计算:

11、

12、其中,对每一个成员节点v,选择任意一个其他节点s作为起点和节点t作为终点,pathst表示节点s和节点t在图中的路径数量,pathst(v)表示节点s和节点t在图中的所有路径中包含节点v的路径的数量。

13、进一步地,所述步骤s2中社区内中心节点的判断方法具体为:

14、(1)在不均衡社交网络中移除某个成员节点及其直接连边;

15、(2)检测所述成员节点的直接邻居在移除了该节点后是否依然保持连通;

16、(3)如果移除所述成员节点后,其直接邻居不再保持连通,那么所述成员节点是桥梁节点,否则是社区结构中心节点。

17、进一步地,所述步骤s3具体为:采用贪心策略,对步骤s2得到的桥梁节点计算优化函数值,每轮都去除优化函数值最小的节点,保证在去除过程中总的优化函数之和始终最大,直到剩余的节点数量满足图采样起点数量要求为止;

18、所述优化函数的计算公式如下:

19、

20、

21、其中,wi是权重系数,w1、w2、w3分别代表第一优化指标factorbc(v)、第二优化指标factordegree(v)、第三优化指标factorcommunity(v)的权重系数;

22、其中,第一优化指标factorbc(v)用公式表示为:

23、

24、其中betweenness_centrality(v)表示步骤s2得到的桥梁节点中的成员节点v的中介中心性,∑betweenness_centrality(u)表示步骤s2得到的所有桥梁节点的中介中心性的和;factorbc(v)的值属于(0,1]区间内,第一优化指标的指标值越大,表明成员节点v连接多个社区结构的能力越强;

25、第二优化指标factordegree(v)用公式表示为:

26、

27、其中degree(v)表示成员节点v的节点度,∑degree(u)表示步骤s2中得到的所有桥梁节点的节点度之和,第二优化指标的值属于(0,1]区间内,第二优化指标的指标值越小,表明成员节点连接小社区的能力越强;

28、第三优化指标factorcommunity(v)用公式表示为:

29、

30、其中seed_ratio(v)表示成员节点v的直接邻居节点中的桥梁节点数量占直接邻居节点的数量的比例,∑seed_ratio(u)表示步骤s2得到的所有桥梁节点的seed_ratio(v)之和;第三优化指标的值属于(0,1]区间内,第三优化指标的值越小表明成员节点v是桥端节点的能力越强。

31、进一步地,所述步骤s4具体为:

32、步骤s41、基于节点的度计算所有起点的选择区间;

33、步骤s42、使用随机数从采样区间随机选择一个采样起点;

34、步骤s43、随机选择采样起点的任一直接邻居节点进行保留;

35、步骤s44、生成诱导子图,完成不均衡社交网络图采样。

36、进一步地,所述步骤s41中选择区间select_interval(vi)的计算公式表示为:

37、

38、其中,k是起点节点的总数量,vi表示起点节点的集合中的第i个起点节点;p(vi)表示起点节点vi被选中的概率,p(vi)的计算公式表示为:

39、

40、其中,degree(vi)表示起点节点vi的度,∑degree(u)是步骤s3得到的所有起点节点的度之和。

41、进一步地,所述步骤s42具体为:产生一个(0,1]之间的随机数,并查询所述随机数位于起点集合中哪个起点节点的选择区间内,选择所述起点节点作为图采样的起点。

42、进一步地,所述步骤s43具体为:

43、根据步骤s42中选择的起点,随机均匀地从所述起点的直接邻居节点中选择一个进行保留,并将所述直接邻居节点作为新的起点在起点集合中替换原起点,重新进行步骤s41计算起点集合中所有节点的选择区间,不断重复步骤s41~步骤s43直到保留的节点数量达到了图采样的数量要求。

44、进一步地,所述步骤s44具体为:

45、对原不均衡社交网络图的连边进行遍历,如果某条连边的两个节点都在步骤s43中被保留了,那么所述连边也被保留,否则所述连边不保留,最终得到一个更清晰的不均衡社交网络图。

46、本发明的有益效果是:

47、本发明的方法实现了对不均衡社交网络的准确、高效的采样,能够将不均衡社交网络中冗余的成员节点及成员间关联关系去除,以保留关键的成员及关联关系信息,并且在图采样后对不均衡社交网络中普遍存在且大小不均衡的社区结构有较好地保留效果,体现在采样后不丢失和新增社区结构、有效保留社区结构之间的关联关系以及较好保持社区结构的大小规模分布,利用本发明能够对不均衡社交网络进行采样,得到清晰、直观的样本图,有利于研究人员快速、准确地观察与分析不均衡社交网络的关键成员、潜在的社交圈以及不同的社交圈的关联关系。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1