专利名称:针对复杂网络的基于群思想改进的Fast-Newman聚类方法
技术领域:
本发明属于社区网络的数据挖掘领域,针对复杂网络簇结构的聚类,具体涉及一种基于群思想改进目标函数的优化类聚类方法。
背景技术:
随着计算机、数学、物理、生物、社会学、复杂性科学等学科的不断发展,人们发现,现实世界中的众多系统都以复杂网络的形式存在,如因特网、移动电话网、带白纸交互网、神经元网等。由于这类网络中节点和连接关系的异构性,簇结构(cluster structure)成为复杂网络最普遍和最重要的拓扑结构属性之一。网络簇结构具有簇内节点相互连接紧密、簇间节点连接稀疏的特点。研究复杂网络聚类算法和揭示真实的网络簇结构是分析复杂网络中节点关系随时间的演化过程、信号或信息在网络中的传播速度与范围以及预测网络中节点的行为等众多问题的基础,具有重要的理论意义。同时,聚类算法已被应用于恐怖组织识别、社会网络分析与组织管理、未知蛋白质功能预测、主控基因识别以及Web社区挖掘和搜索弓I擎等众多领域,具有广阔的应用前景。早期的复杂网络聚类算法有谱方法和Kernighan-Lin算法(KL算法)。谱方法将复杂网络建模为一个图,并将聚类问题转化成二次型优化问题,通过计算特殊矩阵的特征向量来最小化预定义的“截函数”,从而产生分割网络的效果。谱方法终止时需要依赖先验知识,并且其递归平衡二分策略对于多簇网络结构具有明显劣势。KL算法同样基于图分割思想,将极小化簇间连接与簇内连接数目之差作为优化目标,通过不断调整节点所属簇结构,选择并接受可以使目标函数极小化的候选解。KL算法在应用中同样依赖先验知识,并对初始解非常敏感,不好的初始解会导致聚类过程收敛速度缓慢并且结果较差。2002年,Flake等人基于最大流-最小截定理提出了启发式聚类算法MaximumFlow Community (MFC算法)。Flake认为具有簇结构的网络中,网络“瓶颈”由簇间连接构成,MFC算法通过计算最小截集,识别网络“瓶颈”,删除簇间连接,将网络逐渐分割成簇结构。但MFC算法基于连接进行聚类,不适用于节点异构的网络。同年,Girvan和Newman提出了 Girvan-Newman算法(GN算法)。该算法同样使用启发式规则,通过反复计算网络中的边介数,识别并删除簇间连接,生成一颗自顶向下的层次聚类树。GN算法最大的缺点在于计算量过大,算法收敛速度慢,不适合应用于大规模网络。2004年,Newman提出了的i^ast-Newman算法(FN算法),该算法是一种优化算法,优化目标是Newman和Girvan在同年提出的著名的网络模块性评价函数(或称Q函数)。初始状态下,FN算法将每一个节点看作一个簇,通过在迭代过程中最大化Q函数的合并操作,计算出自底向上的包含层次聚类过程的簇结构关系树。基于Q函数,Guimera和Amaral提出了融合模拟退火算法的Guimera-Amaral算法(GA算法),该算法通过计算候选解对应的Q函数值来评价其优劣,并通过模拟退火策略的Metropolis准则决定是否接受候选解,这一算法是目前聚类精度最高的算法。除此以外,很多复杂网络聚类算法都以最大化Q函数为优化目标,这类算法解决了过度依赖初始解和启发式算法中收敛速度过慢的问题。
但是,Q函数的优化依然存在缺陷首先,基于优化思想的聚类算法所识别出的网络簇结构优劣完全取决于优化的目标函数,“有偏”的目标函数会导致“有偏”的解。由于Q函数是有偏的目标函数,所以,聚类精度在Q函数达到全局最大值时并非最高,此时的优化算法聚类结果并不能完全准确地刻画真实的网络簇结构。其次,随着复杂网络规模的不断扩大,优化算法中目标函数值计算和迭代过程本身时间复杂度不断提高,导致聚类运算消耗的时间和资源越来越多。
发明内容
针对目前FN算法中Q函数的优化存在的缺陷聚类精度在Q函数达到全局最大值时并非最高,此时的聚类结果并不能完全准确地刻画真实的网络簇结构,并且随着复杂网络规模的不断扩大,聚类消耗的时间和资源越来越多,本发明提出了一种针对复杂网络的基于群思想改进的i^ast-Newman聚类方法。本发明提出的一种针对复杂网络的基于群思想改进的i^st-Newman聚类方法,具体包括如下步骤步骤1 统计网络中的所有节点,并为每个节点顺序编号,设节点总数为N,i为节点的编号,1 < i ^ N,对网络中的每个节点i,设置其所在的社区号为i ;步骤2 为每个节点i创建一个社区结构,并为各社区设置用于表示该社区是否存在的存活标记alive,将节点i加入社区i的社区成员中,设置该社区结构的参数alive的值为ture,ture表示该社区存在,false表示该社区不存在;设置当前网络中存在的社区总数nalive为网络中总的节点数N ;步骤3:对每个社区i,确定其内部的边数in_edge[i]以及其内部的度数degree [i];步骤4:对每对社区i,j,确定两者之间的边数croSS_edge[i] [j],l≤i≤N,1≤j≤N,且i乒j ;步骤5 确定每个社区i的模块性评价函数值Q' [i]
权利要求
1. 一种针对复杂网络的基于群思想改进的i^st-Newman聚类方法,其特征在于,具体包括如下步骤步骤1 统计网络中的所有节点,并为每个节点顺序编号,设节点总数为N,i为节点的编号,1 < i < N,对网络中的每个节点i,设置其所在的社区号为i ;步骤2 为每个节点i创建一个社区结构,并为各社区设置用于表示该社区是否存在的存活标记alive,将节点i加入社区i的社区成员中,设置该社区结构的参数alive的值为ture, ture表示该社区存在,false表示该社区不存在;设置当前网络中存在的社区总数nalive为网络中总的节点数N;步骤3:对每个社区i,确定其内部的边数in_edge[i]以及其内部的度数degree[i];步骤4:对每对社区i,j,确定两者之间的边数croSS_edge[i] [j],l彡i彡N,1彡j彡N,且i乒j ;步骤5 确定每个社区i的模块性评价函数值Q' [i]n4^e m d2m0 =Σ(1)1=1 rn dqm其中,m代表整个网络的边数,Hii代表社区i内的边数iruedgetiLdiR表社区i内所有节点的度之和degree[i],q代表社区i对应的群,m,代表群q内的边数,d,代表群q内所有节点的度之和;社区i对应的群q是指社区i与社区i相邻社区的集合;所述的相邻社区的定义为若社区i中至少存在一个节点与社区P中任意节点存在至少一条连边,则社区i与社区P就是相邻社区;步骤6:设置变量maxQ',用于保存当前网络中社区的最大Q'值;步骤7 判断当前网络中是否存在大于一个的社区,若存在,则列举当前网络中所有的社区对i、j,然后执行步骤8 ;否则,执行步骤12 ;1彡i ^nalivea ^ j彡nalive,且i ^ j ;步骤8 判断当前网络中所有的社区对是否都已经被取过,若没有,任意取一对没有取过的社区对i,j,若全部被取过,转步骤12执行;步骤9 判断社区i和社区j之间是否存在连接的边,若存在,执行步骤10,若不存在,转步骤8执行;步骤10:假定将社区i和社区j进行合并得到新社区i',i'为新社区号,确定新社区i'的内部的总边数in_edge[i']以及内部的总度数degree [i ‘],然后确定新社区i'的模块性评价函数值Q' [i']nalive'… (P Πm aqm其中,nalive'为假定将社区i和社区j进行合并情况下的当前网络中存在的社区总数,其值为当前网络中存在的社区总数nalive-1 代表社区i'对应的群,m代表整个网络的边数,HV代表社区i'内的边数in_edge[i' ],πν代表群q'内的边数,‘代表社区i'内所有节点的度之和,&代表群q'内所有节点的度之和;步骤11:比较得到的模块性评价函数值Q' [i']是否大于当前的最大Q'值的变量maxQ',若否,不作更新,转步骤8执行;若是,更新maxQ'的值为新社区的模块性评价函数值Q' [i],并将社区j合并到社区i中,然后转步骤7执行;步骤12:保存当前变量maxQ'中最大Q'值,以及最终社区划分结构,然后结束本方法。
2.根据权利要求1所述的一种针对复杂网络的基于群思想改进的i^st-Newman聚类方法,其特征在于,步骤10中所述的新社区i'内部的总边数in_edge[i'],是将社区i的内部边数加上社区j的内部边数,再加上社区i和社区j之间连接的边数得到,所述新社区i'内部的总度数degree[i']将社区j的度数加社区i的度数得到。
3.根据权利要求1所述的一种针对复杂网络的基于群思想改进的i^st-Newman聚类方法,其特征在于,步骤11中所述的将社区j合并到社区i中,具体包括如下操作将社区j中的节点加入到社区i的社区成员中,将社区j中的节点的社区号修改为i,设置社区j的存活标记alive的值为false,更新社区i的内部的边数in_edge[i]以及内部的总度数degree [i],更新社区i与当前整个网络中存在的其他社区之间的边数。
全文摘要
本发明公开了一种应用于复杂网络的基于群思想改进的Fast-Newman聚类方法,引入群的思想,根据复杂网络簇结构特点,定义了相邻簇概念,改进了Newman提出的模块性评价函数,并保存最大的模块性评价函数值,使得聚类精度避免了在达到全局最大值时并非最高的问题,得到的聚类结果能够更加准确地刻画真实的网络簇结构。本发明方法对大规模复杂网络聚类分析的精度比原FN聚类方法有显著提高,对于常见的具有规模大、连接稀疏且关系不均匀的复杂网络,聚类效果尤其突出。
文档编号H04L29/08GK102571431SQ201210004690
公开日2012年7月11日 申请日期2012年1月9日 优先权日2011年12月2日
发明者戴彬, 牛建伟, 童超, 韩军威 申请人:北京航空航天大学