一种异质网络社团结构以及基于该结构的社团发现方法与流程

文档序号:11134103阅读:2128来源:国知局
一种异质网络社团结构以及基于该结构的社团发现方法与制造工艺

本发明属于异质网络领域,特别涉及一种异质网络社团结构以及社团寻找方法。



背景技术:

随着网络的不断发展,其规模已经增长到了一个非常庞大的数量级。在这些大规模网络中,以往小规模网络研究中的重要问题,诸如移除某个结点或某条边对整个网络结构的影响这类问题,已不再有重要的研究价值,因为一个结点或一条边的移除对大型网络的结构影响是可以忽略不计的。人们往往更关心关于网络结构的一些统计特征的研究,例如整个网络的结点度的取值分布的形态,要破坏多大比例的网络结点或边才能使整个网络结构被破坏等等。以往认为研究一个复杂系统,只需将系统的组成要素的性质单独研究清楚,就能得到整个复杂系统的行为特性,但是研究表明,复杂系统的行为特性不能靠仅仅独立研究其各组成要素,而应将各组成要素当一个整体来进行研究。在这种大背景下,随着网络研究的不断深入,人们发现在不同类型的网络中得到的反映网络结构的性质和行为机制往往是一致的,在一个网络上得到的规律可以很容易地映射到另一个网络的研究中。这种不同网络具有一致或相似的结构性质或行为特征的现象,推动着网络研究以一个前所未有的速度向前发展,这类研究的对象——大规模网络,常常被称作复杂网络。

研究表明,实际的复杂网络是具有一定组织特性的网络结构,如小世界性,聚集性和结点度的分布不均匀性等等。这种组织结构特性可以用网络社团来描述。从直观上讲,社团是指由网络节点组成的一个个节点子集合,子集合内部节点之间连接紧密,而各子集合之间节点连接稀疏。网络社团的这种直观意义表明社团内的节点通常是一组具有某种共同属性或起某种相似作用的节点集合。

模块度是衡量网络社团划分质量的标准,其基本想法是把社团划分后的网络与相应的零模型进行比较,以度量社团划分的质量。模块度值的大小主要取决于网络的社团划分情况,可以用来定量的衡量网络社团划分质量,其值越接近1,表示网络划分出的社团结构的强度越强,也就是划分质量越好。因此可以通过最大化模块度Q来获得最优的网络社团划分。

传统的复杂网络社团发现大多针对同质网络,而复杂网络中的节点类型不同且边类型不同的网络称为多关系异质网络,即通常所说的异质网络。在现实社会中,由于节点类型、节点关系多种多样,致使异质网络模型更加符合网络的实际形态,加之异质网络自身具有的复杂性及信息的多样性,分析异质网络模型对理解现实社会中的实际网络具有重要作用。因此,采用异质网络构建实际网络模型,并对异质网络进行社团发现,能够准确挖掘实际网络中的社团结构。与同质网络社团划分方法类似,异质网络的社团发现首先需要提出衡量异质网络社团的参数,即异质网络模块度。

由于当今网络趋向于复杂化,多种不同类型的对象之间存在各种潜在关系,所以异质网络的引入,为复杂网络的分析提供了一种新的重要的手段。在对复杂网络的分析中,往往可以发现其社团结构,模块度是衡量社团划分结果的一种评判标准,可以利用模块度最大的方式对网络进行社团划分。

2006年,M.E.J.Newman提出了基于模块度的社团发现方法,作者研究了图的矩阵表示,并基于模块度进行社团发现。文章首先介绍了传统的图划分方法,而后提出模块度的概念,并构建模块度矩阵,最后讲述了用模块度进行社团发现。这里作者只提出同质网络的社团结构,其方法并不适用于异质网络,没有考虑到异质网络中的异质连接问题。

2010年,Peter J.Mucha等人提出了针对多片网络进行社团发现,作者提出已有模块度算法只适用于单网络情况,并不适用于多网络分析,而后主要研究了多片网络下的模块度计算方法,该方法可以应用于多特征网络的研究,从而为在更大网络范围内研究社团结构提供了可能。同样,作者提出的多网络模块度也是基于多个同质网络的,并不适合异质网络分析。

2012年,Comar P M等人对异质网络进行了社团发现与图分类,通过研究异质网络的多任务学习方法,从一个异质网络中导出两个同质网络的子网络,一个子网络用于分类,一个子网络用于社团划分。通过两个子网络在异质网络中的关联性,对二者同时进行了分类和社团划分,并通过实验证明这样的准确率要远高于独立的分类与社团划分。作者提出的异质网络社团划分方法,并没有从异质网络社团的自身结构出发,准确率较差。

基于以上的研究,在异质网络的分析方面可以引入模块度对其进行社团检测,针对异质网络中的社团结构,做出更深入的分析。



技术实现要素:

本发明为解决上述技术问题,提出了一种异质网络社团结构以及基于该结构的社团发现方法;通过定义异质网络的社团结构,并提出了基于异质网络模块度最大化的异质网络社团发现算法,有效地发现了异质网络中的社团结构。

本发明采用的技术方案为:一种异质网络社团结构,包括:

A1、建立异质网络,具体为:将不同类型的对象作为节点,不同对象之间的不同关系作为边生成的网络,即为异质网络;

A2、采用邻接矩阵表示异质网络,具体为:

HW={AS,…,HSR,…},SR∈T;

其中,HW表示异质网络,T表示节点类型集合,表示异质网络中同质节点的邻接矩阵,i、j′表示S类中的节点,NS表示S类的节点个数,表示第S类节点与第R类节点的邻接矩阵,i表示S类中的节点,j表示R类中的节点,NR表示R类的节点个数;

A3、采用随机游走过程建立异质网络的1阶零模型;

A4、基于异质网络的零模型建立异质网络模块度,具体为:异质网络模块度Qh=(异质网络中社团实际连边数量-1阶零模型中的期望连边数),并以进行归一化处理;

A5、定义异质网络社团,具体为:给定一个异质网络HW=[AS,…,HSR,…],S,R∈T,一个异质网络社团HC,且HC=(HW′,s.t.Qh=Qhmax),HW′表示HW的子图,通过将HW划分为不同的子图HW′,使得异质网络模块度Qh最大时划分出的子图HW′即为异质网络社团HC。

进一步地,所述矩阵AS中的元素取值确定过程为:当存在从S类中的节点i指向S类中的节点j′的边,则否则

进一步地,所述矩阵HSR中的元素取值确定过程为:当存在从S类中的节点i指向R类中的节点j的边,则否则

进一步地,步骤A3所述1阶零模型,具体为:与原网络具有相同的节点类型集合T、每一类节点数NS,S∈T、同质节点度分布P(k)以及异质节点度分布P(hk)的随机化网络;且该随机化网络的成边概率为:

其中,表示R类节点j与R类节点连接的同质度数;表示S类节点i与S类节点连接的同质度数;表示R类节点j与非R类节点连接的异质度数;表示S类节点i与非S类节点连接的异质度数;δSR表示冲击函数;表示反冲击函数;HM表示一个变量,表示异质连接的边数量,MS表示S类中的同质边数量,Si表示S类中的节点i,Rj表示R类中的节点j。

进一步地,步骤A4所述异质网络模块度Qh,具体为:

其中,E(Si,Rj)表示实际异质网络中社团实际连边数量,且P(Si,Rj)表示1阶零模型中的期望连边数,且Si表示S类中的节点i,Rj表示R类中的节点j。

本申请还提出一种基于该异质网络社团结构的社团发现方法,包括:

B1、将异质网络中每个节点初始化为一个社团;

B2、遍历异质网络中每个节点z,找出所有与节点z相连的节点,并对每个相连的节点计算模块度增量;

B3、找出模块度增量最大值所对应的相连的节点,将节点z添加至该相连的节点所在社团;

B4、重复步骤B2、B3得到若干新的社团,将每个新的社团作为一个新的异质网络节点,得到若干新的异质网络节点;

B5、重复步骤B2-B4,直到所有节点的模块度增量小于或等于0时,社团划分完成。

进一步地,步骤B2所述模块度增量的计算式为:

其中,ΔQij表示模块度增量,表示在S类中节点z′与节点i′的连接关系,若是节点z′与节点i′相连,则否则表示在S类中节点z′与R类中节点x的连接关系,若节点z′与节点x相连,则否则

本发明的有益效果:本申请提出了异质网络的零模型,并在其基础上进一步提出了适用于异质网络的,一种全新的衡量异质网络社团结构的功能函数——异质网络的模块度;并在异质网络模块度的基础上,定义了异质网络的社团结构,提出了基于异质网络模块度最大化的异质网络社团发现方法,并验证了该方法的有效性,本申请的方法具有如下优点:

(1)采用同质、异质邻接矩阵全面、有效地描述异质网络连接关系;

(2)提出异质网络的零模型,为研究复杂网络中异质网络结构提供了基础的随机化网络模型;

(3)提出异质网络模块度,一种全新的衡量异质网络社团结构的功能函数,为异质网络社团评价提供了新方法;

(4)在异质网络模块度的基础上,定义了新的异质网络的社团结构,提出了基于异质网络模块度最大化的异质网络社团发现算法,有效地发现了异质网络中的社团结构。

附图说明

图1为本申请的建立异质网络流程图。

图2为本申请的基于异质网络社团结构的社团发现方法流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。

如图1所示为本申请的建立异质网络流程图,本申请的技术方案之一为:一种异质网络社团结构,包括:

A1、建立异质网络,具体为:

定义1:异质网络:在本发明中,异质网络指的是将不同类型的对象作为节点,不同对象之间的不同关系作为边生成的网络。

根据异质网络的定义,能够将复杂网络中网络存在的基本模式纳为以下三种:

(1)单一关系同质网络:网络中节点类型相同有且仅有一种类型的边;

(2)多关系同质网络:网络中节点类型相同,存在表示多种关系的多类型的边;

(3)多关系异质网络:网络中节点类型不同且边类型不同。

A2、为了便于计算,采用网络邻接矩阵表示异质网络,网络邻接矩阵A=(aij)N×N是一个N阶方阵,N表示网络中节点个数,网络邻接矩阵中的元素aij取值确定过程为:如果有从节点i指向节点j的边,则aij=1;如果没有从节点i指向节点j的边,则aij=0;根据网络邻接矩阵的定义,本申请的异质网络HW具体为:

HW={AS,…,HSR,…},SR∈T;

其中,HW表示异质网络,T表示节点类型集合,表示异质网络中同质节点的邻接矩阵,i、j′表示S类中的节点,NS表示S类的节点个数,表示第S类节点与第R类节点的邻接矩阵,i表示S类中的节点,j表示R类中的节点,NR表示R类的节点个数;

矩阵AS中的元素取值确定过程为:当存在从S类中的节点i指向S类中的节点j′的边,则否则

矩阵HSR中的元素取值确定过程为:当存在从S类中的节点i指向R类中的节点j的边,则否则

A3、采用随机游走过程建立异质网络的1阶零模型;

一般地,把与一个实际网络具有相同节点数和相同的某些性质B的随机网络称为该实际网络的随机网络。这里的“某些性质B”可以是平均度,度分布,聚类系数,同配系数等等,或者是他们的某种组合。从统计学角度看,“具有性质B的网络G也具有某一性质P”是一个零假设,而为了要验证这一假设是否成立,就需要与原网络G具有相同规模和相同性质B的随机网络作为参照系,以判别性质P是否为这类随机网络的典型特征。这类随机网络模型在统计学上称为零模型。

按照约束条件从少到多,可以定义不同阶次的零模型:

(1)0阶零模型:与原网络具有相同节点数N和边数M的随机化网络。

(2)1阶零模型:与原网络具有相同节点数N和度分布P(k)的随机化网络,通常做法是每个节点的度值都保持不变,即度序列保持不变。

(3)2阶零模型:与原网络具有相同节点数N和二阶度相关特性P(k,k’)的随机化网络。

以此类推,还可以定义更高阶的零模型。

同理,在异质网络中,本发明对异质网络的零模型定义如下:

异质网络的零模型:与原异质网络HW具有相同规模和相同性质B的随机网络。

由于异质网络中异质连接的存在,按照约束条件不同,可以定义不同阶次的异质网络零模型如下:

(1)0阶零模型:与原异质网络具有相同的节点类型T、同质节点数N、异质节点数HN、同质边数M以及异质边数HM的随机化异质网络。

(2)1阶零模型:与原网络具具有相同的节点类型T、同质节点数N、异质节点数HN、同质节点度分布P(k)以及异质节点度分布P(hk)的随机化网络

(3)2阶零模型:与原网络具有相同的节点类型T、同质节点数N、异质节点数HN、同质节点二阶度相关特性P(k,k’)以及异质节点二阶度相关特性P(hk,hk’)的随机化网络。

在本发明中,选用异质网络1阶零模型构建异质网络的模块度,因为1阶异质网络零模型同时具有一定的随机性以及与原网络相同的度特性。构造的零模型首先是一个不具有社团结构的随机化网络,而零模型阶数越高,其社团结构越明显。同时,在社团划分中,对于度越大的节点之间的单一连接,对于其端点的连接紧密度贡献越小,这一社团结构规律在零模型中应该得到反映,因此,本发明使用1阶零模型同时满足随机性以及网络度特性的要求,未做特殊说明,本发明中异质网络零模型均指异质网络的1阶零模型。

本发明采用随机游走过程建立异质网络的零模型。首先考虑一个实际的同质网络:若节点i到节点j有存在连边,则说明节点i到节点j可达,一个行者在网络中随机找点游走,该过程可视为一个马尔科夫过程,即行者每次游走是完全独立随机的,与上次游走结果无关,那么行者从第n个状态在节点j游走至节点i的概率为:

其中,aij表示节点i与节点j的连接关系,kj表示节点j的度数,pi表示行者在节点j的概率。

现在考虑一个异质网络,在异质网络中,节点分为同质节点与异质节点,因此行者游走时,应分别考虑其在同质节点之间游走以及在异质节点之间游走的过程,因此,行者从第n个状态在R类节点j游走至S类节点i的概率为:

其中,表示当节点i与节点j均属于S类时其之间的连接关系;表示S类节点i与R类节点j之间的连接关系;δSR表示冲击函数,即当S=R时,δSR=1;表示反冲击函数,即当S≠R时,表示行者在R类节点j的概率;指R类节j的总度数,即同质度数与异质度数之和,具体表示为:

其中,表示R类节点j与R类节点连接的同质度数,异质度表示R类节点j与非R类节点连接的异质度数。

因此,在异质网络零模型中,行者从R类的节点j走到S类的节点i的条件概率为:

其中,MS表示S类中的边数,HM表示异质边数。

在随意游走马尔科夫过程达到稳态时,可以得到行者在R类节点j的稳态概率为:

其中,M表示异质网络的总边数。因此,在随机游走过程中,本申请异质网络零模型中S类节点i和R类节点j的联合成边概率p(Si,Rj)为:

A4、基于异质网络的零模型建立异质网络模块度;

在2006年,Newman将模块度Q定义为Q=(社团中的实际连边数量-这些边的期望数量)。同理,在构建异质网络模块度时,本专利使用异质网络的1阶零模型作为网络模型,即与原网络具有相同的节点类型T、同质节点数N、异质节点数HN、同质节点度分布P(k)以及异质节点度分布P(hk)的随机化网络。通过第2.2.2节分析,该网络模型的成边概率为:

因此,本申请网络模型中的期望连边数为:

本申请实际异质网络的连边数为:

因此,本发明对异质网络的模块度定义如下:

异质网络模块度:具体为:异质网络模块度Qh=(异质网络中社团实际连边数量-1阶零模型中的期望连边数),并以进行归一化处理;即:

根据异质网络模块度的定义,公式中分为同质模块度与异质模块度两部分,可以理解为异质网络中的模块度Qh是网络中同质部分模块度与异质部分模块度之和,能够全面反映出异质网络社团结构性质。

A5、定义异质网络社团,与同质网络类似,异质网络中同样存在社团结构,即联系紧密的多类型节点的集合。本发明采用异质网络中的模块度衡量异质社团联系的紧密程度,当异质模块度最大时,异质网络的社团划分结果最为理想。异质社团的定义如下:

给定一个异质网络HW=[AS,…,HSR,…],S,R∈T,一个异质网络社团HC,且HC=(HW′,s.t.Qh=Qhmax),HW′表示HW的子图,通过将HW划分为不同的子图HW′,使得异质网络模块度Qh最大时划分出的子图HW′即为异质网络社团HC。

如图2所示为本申请的基于异质网络社团结构的社团发现方法流程图,本申请的另一技术方案为:一种基于该异质网络社团结构的社团发现方法,包括:

B1、将异质网络中每个节点初始化为一个社团,得到社团数量为∑b Nb,∑b Nb表示将各节点类型所包含节点个数相加,Nb表示序号为b的节点类型所包含的节点个数,b表示节点类型的序号;

B2、遍历异质网络中每个节点z,找出所有与节点i相连的节点,并对每个相连的节点计算模块度增量;

其中,ΔQij表示模块度增量,表示在S类中节点z′与节点i′的连接关系,若是节点z′与节点i′相连,则否则表示在S类中节点z′与R类中节点x的连接关系,若节点z′与节点x相连,则否则

B3、找出模块度增量最大值所对应的相连的节点,将节点i添加至该相连的节点所在社团;

B4、重复步骤B2、B3得到若干新的社团,将每个新的社团作为一个新的异质网络节点,得到若干新的异质网络节点,将新的社团内部的连接作为新的异质网络节点的自环,权重为新的社团内部连接关系总和;将新的社团之间的连接作为新的异质网络节点之间的边,边的权重为两个新的社团中所有节点连接关系总和;

B5、重复步骤B2-B4,直到所有节点的模块度增量小于或等于0时,社团划分完成。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1