一种基于全局划分和局部扩展的网络重叠社团检测方法

文档序号:6459659阅读:155来源:国知局
专利名称:一种基于全局划分和局部扩展的网络重叠社团检测方法
技术领域
本发明属Web和数据库技术领域,具体涉及一种基于全局划分和局部扩展的网络重 叠社团结构检测方法。
背景技术
许多网络系统都表现了社团结构的特征,如社会网络和生物群落等,简要地说,社 团是整个网络中那些联系相对紧密的结点的集合。近年来,社团结构识别技术引起了物 理、应用数学和计算机科学等领域的广泛关注。
已经提出的方法大都关注地是网络的划分,应用最小割边划分原则把网络结构划分 成几个不相交的子网络。许多方法的检测规则是网络中的每个结点最多只能划分到一个 社团,基于这样的规则,就无法找到有重叠结点的社团。这样的划分有时是不合理的, 因为在现实生活中的很多情况下重叠结点是很有必要的,比如在社会网络中, 一个人因 为代表不同的利益因而可以在不同的社团中充当不同的角色,如果我们要对社会网络进 行划分,这个人在不同的社团中都应该存在。所以针对这种情形,应该提出新的方法来 进行社团发现。

发明内容
本发明的目的在于提出了一种基于全局划分和局部扩展的网络重叠社团结构检测 方法,该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点。
一种基于全局划分和局部扩展的网络重叠社团检测方法DOCS,它是这样实现的
该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点, 具体步骤为-
第一步,我们应用谱划分方法生成种子集合,并用这些种子来产生重叠社团结构,
这个经典方法从网路结构的全局角度和社团结构的全局属性来产生最优种子;
第二步,根据产生的种子,从局部最优角度对社团进行扩展。我们利用模块函数Q 来衡量社团每一步要扩展的结点,对每一个扫描到的结点,我们计算此结点加入后对模
块Q的贡献和模块间的重叠率,比较这两个衡量标准,我们给出一个定理来决定要加入
和删除的结点;
第三步是社团扩展终止条件。当扫描的结点的规范化概率低于特定阈值时或社团间 的重叠率超过用户的容许值时算法停止。
本发明利用全局信息来寻找种子结点,并从局部最优角度用随机行进方法来进行社 团扩展,在随机行进中我们并不考虑当前要扩展的结点是否已经属于其它社团,所以我 们得到的不同社团中允许有重复的结点,这样就可以预防重要信息的丢失。


图l为描述一个新的结点被加入到候选社团的过程。
具体实施例方式
1.与本发明有关的一些概念和定义。1网络模型
本发明中,网络可以建模成图G-(V,E),其中V是图中结点集合,E是图中边的集合。 我们用^-(4)^来表示网络关联矩阵,其中
_ Jl如果i和j之间有边相连, ^'7 = i 0其它情况
我们用D^D》,来表示对角矩阵,其中Dy =ZA4t,如果卜y,其它情况下
矩阵A和D是基础矩阵,其它矩阵如拉普拉斯矩阵L和转换矩阵P都可由这两个矩阵得到, 其中1 = 1)-AP = D-1爿。
2边缘边(割)
一个社团S的边缘边B(S)是这样的边,其中边的一个端点在S中,另一个端点在其它 社团中,形式化定义如下-
B (S) = {{w,v} I {w,v} e £,w e S,v g 5},
且| I表示社团S的割的大小。3模块度
如果网络被划分成/^,其中k是划分的社团的个数,则模块度函数Q形式化定义如下 ,=f『 )_ ,
其中J(F',K") = Z^,v,w(M,v), w(w,v)是连接结点u, v的边的权重。定义中
j<y f) 爿(y n
、""测量边在同一个社团C的概率,"^^测量一个点至少在社团C中的边的概率。
4社团重叠率-
给定网络中的一个社团集合(C,,…,,这个集合与社团C,有重叠,则社团C, 的社团重叠率形式化定义如下
IC,I
其中CQ/ 是社团重叠率(Community Overlapping Rate)的縮写,| C, |表示社团C,中边 的个数,I C,. I表示社团C,.和社团中相同的边的个数。
针对本发明具体内容的说明
1检测重叠社团结构的算法DOCS(Detecting Overlapping Community Structures):
DOCS算法基于全局信息对社团进行划分并利用局部策略对社团进行扩展,算法分为 三步。第一步,我们应用图的谱划分方法生成种子集合,并用这些种子来产生重叠社团 结构的基础。第二步,根据产生的种子,从局部最优角度对社团进行扩展。我们利用模 块度函数Q来衡量社团每一步要扩展的结点。对每一个扫描到的结点,我们计算此结点 加入后对模块Q的贡献值和模块间的重叠率,比较这两个衡量标准,我们给出一个定理 来决定要加入和删除的结点。第三步是社团扩展终止条件。当扫描的结点的概率低于特 定阈值时或社团间的重叠率超过用户的容许值时算法就停止。DOCS算法利用全局划分的 结果集作为产生社团结构的种子,大大减少了社团向关联不紧密结点扩展的概率,使我 们能有效的发现重叠社团结构。当产生的社团中的总边数小于3时,我们去除这个种子, 因为这样的社团种子无法显示目标社团的整体结构。2DOCS算法社团扩展过程
根据产生的种子结点,我们利用懒散的随机行走技术来进行社团扩展。扩展过程用 时间t来度量。在每一步,我们对扫描到的结点按其规范化的概率降序排列,如果加入
此结点能对候选社团的模块函数Q带来好的变化,则把此结点加入社团。图l给出了一个 新的结点被加入到候选社团的过程。
连接种子内部结点的边成为内部种子连接,这些边的个数记为IILI,种子团连向外 部的边称为外部种子连接,这些边的个数记为IOLl。当要决定是否在社团中加入某结点 时,这两种边影响模块函数Q的值。我们利用模块函数公式来计算模块度Q的值和相应的 变化。
初始种子记为S,种子大小为ISl,割的大小为IB(S)I,则初始模块度Q的值为-
<formula>complex formula see original document page 6</formula>
当加入一个新的邻居结点后,模块度为-
l五l l五l
则模块度Q的改变值为
<formula>complex formula see original document page 6</formula>
如果此改变值大于O,则此结点为由贡献结点,否则此结点为无贡献结点。局部最优扩 展过程要选择有贡献的结点加入到社团中。当社团扩展到一定步数就到了随机行走的收 敛时间。如果此时图是连通的,择结点度的概率收敛成统一静态分布甲,,且结点度和甲, 的差值我们可以通过计算得到,通过这个差值,我们可以停止社团扩展过程并且可以安 全去除一些具有低概率的结点。
以上是对本发明的描述而非限定,基于本发明思想的其它实施方式, 均在本发明的保护范围之中。
权利要求
1、一种基于全局划分和局部扩展的网络重叠社团检测方法DOCS,该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点,具体步骤为第一步,我们应用谱划分方法生成种子集合,并用这些种子来产生重叠社团结构,这个经典方法从网路结构的全局角度和社团结构的全局属性来产生最优种子;第二步,根据产生的种子,从局部最优角度对社团进行扩展。我们利用模块函数Q来衡量社团每一步要扩展的结点,对每一个扫描到的结点,我们计算此结点加入后对模块Q的贡献和模块间的重叠率,比较这两个衡量标准,我们给出一个定理来决定要加入和删除的结点;第三步是社团扩展终止条件。当扫描的结点的规范化概率低于特定阈值时或社团间的重叠率超过用户的容许值时算法停止。
2、 根据权利要求1所述的D0CS算法,其特征在于利用全局信息来寻找 种子结点,并从局部最优角度用随机行走方法来进行社团扩展,在随机行进中我 们并不考虑当前要扩展的结点是否已经属于其它社团,所以我们得到的不同社团 中允许有重复的结点,这样就可以预防重要结构信息的丢失,利用全局划分结果集作为产生社团结构的种子,大大减少了社团向关联不紧 密结点扩展的概率,使我们能有效的发现重叠社团结构,当产生的社团中的总边数小于3时,我们去除这个种子,因为这样的社团无 法显示目标社团的整体结构。
3、根据权利要求1所述的DOCS算法,其特征在于利用懒散随机行走 技术来进行社团扩展,扩展过程用时间t来衡量,在每一步,我们对扫描到的结点按其规范化的概率降序排列,如果加入此 结点能对候选社团的模块函数Q带来好的变化,则把此结点加入社团,局部最优扩展过程选择有贡献的结点加入到社团中,当社团扩展到一定步 数就到了随机行走的收敛时间。如果此时图是连通的,择结点度的概率收敛成统 一静态分布甲,,且结点度和甲,的差值我们可以通过计算得到,通过这个差值, 我们可以停止社团扩展过程并且可以安全删除一些具有低概率的结点。
全文摘要
本发明提出了一种基于全局划分和局部扩展的网络重叠社团结构检测方法,具体属Web和数据库技术领域。该方法引入了用种子结点来发现社团且允许不同的社团内有重复的结点,并利用全局信息来寻找种子结点,并从局部最优角度用随机行进方法来进行社团扩展。在随机行进中并不考虑当前要扩展的结点是否已经属于其它社团,得到的不同社团允许有重复的结点,有效预防了重要信息的丢失。
文档编号G06Q10/00GK101344940SQ200810041958
公开日2009年1月14日 申请日期2008年8月21日 优先权日2008年8月21日
发明者芳 魏 申请人:芳 魏
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1