一种新型社会网络采样方法

文档序号:8396338阅读:204来源:国知局
一种新型社会网络采样方法
【技术领域】
[0001] 本发明提出一种可W保持社区结构的基于社会网络的采样方法,属于复杂网络技 术领域。
【背景技术】
[0002] 近年来人们发现,各种各样的社交网络(complexnetwork)不断地涌现,如新浪微 博,微信,人人网等。通常社交网络有复杂的结构和数W万计的节点。除此之外,复杂网络 的节点和边可能是动态变化的。例如微博等社交网络中有数亿个节点和无数动态变化的好 友关系。在中国至少已经有10亿的QQ用户,并在进一步扩大中,而且用户之间的好友关系 也在不断地变化。因此,如何处理超大规模的社交网络数据,已经成为研究者亟待解决的关 键科学问题之一。
[0003] 社区结构已成为社交网络最普遍和最重要的拓扑结构属性之一。通常来说,网络 社区结构具有社区内部节点相互连接紧密、社区之间节点连接稀疏的特点。研究复杂网络 社区结构对于研究复杂网络具有重要的理论意义。同时,社区结构研究已被应用于恐怖组 织识别、社会网络分析与管理、未知蛋白质功能预测、好友推荐、主控基因识别、推荐系统W 及Web社区挖掘和捜索引擎等众多领域,具有极其广阔的应用前景。

【发明内容】

[0004] 由于网络的结构日益复杂,数据越来越多,直接在原始网络上进行计算对计算能 力和存储空间有巨大的要求,而且大多数目前的采样方法都没有将保持社区结构作为目 标。本发明提出了一种新型社会网络采样方法,W实现能较好地维持原网络的社区结构的 前提下,很大程度上减小需要处理的数据规模,适用于由于现有硬件条件的限制下对大规 模数据分析的数据采样。
[0005] 将社区网络用无向无权图G= (V,巧表示,V表示网络中节点集合,E表示网络中 边集合,设网络中节点总数为n,边总数为m,用(y,V)表示网络中的一条边,y,VGV; 对于V中任一节点V,设节点V的度数为ky。
[0006] 首先定义社区聚集系数和社区聚集中屯、两个概念:
[0007] 社区聚集系数定义为节点任意两个邻居是好友的概率,节点V的社区聚集系数CCy 为:
[000引
【主权项】
1. 一种新型社会网络采样方法,将社区网络用无向无权图G= (V,E)表示,V表示网络 中节点集合,E表示网络中边集合,设网络中节点总数为n,边总数为m,对于V中的任一节 点V,用、表示节点V的度数;其特征在于: 首先定义社区聚集系数和社区聚集中心两个概念: 社区聚集系数定义为节点任意两个邻居是好友的概率,节点V的社区聚集系数〇;为:
其中节点i和节点j是节点V的任意两个邻居节点, e(i,j)用于标记节点i和节点j是否是邻居节点关系,若是e(i,j)的值为1,否则e(i,j) 的值为〇 ; 社区聚集中心定义为社区聚集系数极大值的网络节点,如果节点V的社区聚集系数大 于等于它的所有邻居节点的社区聚集系数,则节点V被称为社区聚集中心; 所述的社会网络采样方法通过以下步骤实现: 步骤1 :遍历V中的所有节点,找到所有的社区聚集中心; 步骤2 :利用PageRank方法对V中所有节点进行网络排名; 步骤3:在未被采样的社区聚集中心中,选择网络排名最低的节点作为采样的起始节 点;标记选取的社区聚集中心为节点V; 步骤4 :设置节点V的采样大小Samsize=cur_sizeXRv;cur_size表示本次采样方 法要求采样的节点总数,1表示节点V的采样比例;RV通过下式确定:
实中,队表示节点V的邻居节点的集合,C表示所有社区聚集中心 的集合,C中节点i的度数为Ici,节点i的邻居节点的集合为Ni,队中的节点h的度数为kh; 步骤5 :利用森林火灾采样方法进行采样,如果达到步骤4设置的采样大小或者没有继 续烧下去的节点时,进入步骤6执行; 步骤6 :判断是否达到本次采样方法要求采样的节点总数,若是,停止采样,输出采样 节点;若否,继续转步骤3执行。
2. 根据权利要求1所述的一种新型社会网络采样方法,其特征在于,所述的步骤2具体 是:初始设置V中各节点的权值为1,然后进行权值传递,直到所有节点的权值传递完成,按 照权值大小将节点进行排序;在进行权值传递时,节点V传递的值为wv/degree(V),Wv代表 节点V的权值,degree(V)代表节点V的邻居总数。
3. 根据权利要求1所述的一种新型社会网络采样方法,其特征在于,所述的步骤5循 环执行下面步骤5. 1~步骤5. 2,直到达到步骤4设置的采样大小或者没有继续烧下去的节 占. 步骤5. 1 :取采样节点的r个未被访问的邻居节点作为新的采样节点,r为正整数,采样 节点q的邻居节点X被选取的概率px=pfXminG^/X,I),kq是节点q的度数,kx是节点X 的度数;初始的采样节点为起始节点v; 步骤5. 2 :对新的采样节点执行步骤5. 1。
【专利摘要】本发明提出一种新型社会网络采样方法,属于复杂网络技术领域。本方法适用于由于现有硬件条件的限制下对大规模数据分析的数据采样,提供了社区聚集系数和社区聚集中心两个概念,步骤包括:根据节点的社区聚集系数找出所有社区聚集中心;利用PageRank方法对所有节点进行网络排名;每次采样的起始节点选取网络排名最低的未被采样社区聚集中心;按比例设置采样大小;利用森林火灾采样方法进行采样。经过实验证明,本发明方法得到的采样结果的社区结构和原图的社区结构比较相似,较好地保持了社区结构,很大程度上减小需要处理的数据规模,大规模的降低计算和存储的成本。
【IPC分类】G06Q50-00
【公开号】CN104715418
【申请号】CN201510114130
【发明人】童超, 连宇, 牛建伟, 谢忠玉, 张杨
【申请人】北京航空航天大学
【公开日】2015年6月17日
【申请日】2015年3月16日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1