基于栈式自编码器的动态网络社团结构识别方法与流程

文档序号:17642809发布日期:2019-05-11 00:47阅读:204来源:国知局
基于栈式自编码器的动态网络社团结构识别方法与流程
本发明属于人工智能与复杂网络领域,涉及基于栈式自编码器的动态网络社团结构识别方法。
背景技术
:现实生活中许多复杂系统可以用复杂网络进行刻画和建模,例如移动通信网络、社交网络、internet网络、生物网络、交通网络等。网络中节点代表系统中的实体,边代表实体间的关系。这些网络广泛而深刻的影响着人们日常生活。网络科学主要研究不同领域中复杂系统的共性问题,以及处理这些问题的普适方法。随着网络科学研究深入,学者们发现社团结构是现实网络中广泛存在的性质,也就是说网络可以划分为若干个子网络,每个子网络内部连接紧密,而子网络间连接稀疏。社团结构的研究不仅对分析复杂网络拓扑结构、理解复杂网络功能、挖掘复杂网络中规律和预测复杂网络演化有重要意义,而且有着广泛的应用前景,如社交网络信息传播分析,城市交通流量预测,推荐算法优化等等。虽然社团挖掘在方法和应用上取得了长足的进步,但大多都针对静态网络。实际上,几乎所有的复杂系统都具有某种动态特点,所以用动态网络对复杂系统进行模拟和刻画是一种更合理的方式。以交通网络为例,无论是公交车人流量还是出租车载客路线,在不同日期,甚至一天中不同时段都有明显差别。不同时刻的交通网络所包含的社团结构也不尽相同。动态网络下的社团挖掘因其具有揭示自然规律和探究社会现象的巨大潜力受到广泛关注。同时,动态网络的引入也对社团挖掘算法提出了新的要求和挑战。移动通信网络也是复杂网络研究一种应用网络,随着通信技术的不断发展和移动互联网的快速普及,导致手机用户大量增加和通话记录的频繁增长。挖掘用户通话的行为模式和研究市民移动特征规律,已成为当今的热点话题。在复杂网络的背景下,应用基于网络的分析方法,可以揭示城市手机网络和居民移动网络的结构演变特征。通过对用户使用手机行为模式的社团聚集分析,可以帮助我们研究城市功能区划分和市民移动行为规律识别,了解用户行为习惯,进一步帮助施行稳定的移动基站建设,提高移动通讯系统的高效稳定。为了解决动态网络社团结构识别的问题,现在已经提出了很多方案。根据其所采用的求解策略,可大致分为以下两种:1、基于的增量聚类方法,将动态网络看成是时间序列网络,序列中的每个网络假定为静态的。处理网络序列的方法主要又可分为两种:一种是在单一时间点上进行分析,如对每一个时间点上的网络进行社团划分,其优点是精度高,结果准确,但对每个时刻的网络重新划分导致计算代价过高;另一种是在多个时间点上进行分析,如基于前一个时刻的社团划分结果,将新增的节点归入一个已有社团,该方法的优点是充分利用之前的计算结果,计算代价低,但是对网络拓扑结构变化不敏感,结果准确率较低。还有将两种方法结合,即在少部分时间点上,重新对网络聚类,大部分时间点基于上一时间点的聚类结构进行划分。这种策略能保证一定的精度,同时降低了计算代价,但是怎样结合,即在哪些时间点进行重新聚类,还有待讨论和优化;2、基于进化聚类的方法,依据网络变化的渐进特点,进化聚类算法在对每个时刻的网络进行社团划分的同时也顾及相邻时间点网络结构冲突小的准则,既要使社团结构符合当前时刻网络结构特点,又要使当前社团划分结果与上一时刻的划分结果差异较小。引入了快照质量(snapshotquality,sq)和历史开销(temporalcost,hc)的概念,前者用于衡量当前社团划分结果基于当前网络的质量,后者用于衡量与前一个时间点的划分结果的差异性。目前权衡快照质量和历史开销的方法主要有四种:(1)基于随机块模型;(2)基于密度和拓扑结构;(3)基于多目标优化算法;(4)基于非负矩阵分解。目前,动态网络下社团挖掘问题的主要挑战在于:(1)在动态网络中,点和边会随着时间而改变,如增加、减少、改变属性。所以目前动态社团识别主要关注的是如何处理网络拓扑结构的变化以及如何降低算法开销。(2)在非负矩阵分解算法中,算法将动态网络的邻接矩阵映射到隐含低维子空间,然后对特征矩阵进行聚类。但是这种映射关系是线性的。真实世界的网络通常呈现出非线性的特征。所以如何提高算法的准确性和有效性,成为当前必须解决的问题。在深度学习领域,自编码器广泛应用于无标签数据的聚类问题。因为自编器是一种纯无监督学习模型,通过表示特征学习,能够近似地还原出原始数据。自编码器由两个部分组成,一个编码器,它能够把原始数据压缩成为低维嵌入矩阵;另一个是解码器,它能够把隐含的数据还原成原始数据;通过优化方法来降低输入输出数据之间的误差。目前,深度学习已经成功应用到图像识别和自然语言处理。随着神经网络层数的增加,参数维度呈现指数增长,导致不能够有效地优化参数。一个可行的方案是,逐层地训练神经网络。于是,提出了栈式自编码模型,将若干个自编码器堆叠在一起。通俗来讲,就是上一层自编码器的输出作为这一层的输入。技术实现要素:本发明的目的在于提供一种基于栈式自编码器的动态网络社团结构识别方法,通过构造动态网络时序矩阵和相应的模块度矩阵,并且增加基于时间平滑的一致性约束到正则项中,使之具有较高的准确率和鲁棒性。为达到上述目的,本发明提供如下技术方案:基于栈式自编码器的动态网络社团结构识别方法,该方法包括以下步骤:s1:输入动态网络g={g1,g2,...,gt}的邻接矩阵a={a1,a2,...,at};s2:初始化时间约束比例系数ratio和正则化系数λ;s3:基于输入的动态网络g和邻接矩阵a,构造t时刻的时序矩阵;初始化方式为:s4:构建的模块度矩阵,其定义为:bt=[bijt]∈rn*n,其中n和m分别是t时刻网络中的节点数和边数,kit是节点i的度数,如果节点i和节点j,则aijt=1,否则为0;s5:将bt作为自编码器的输入,实际上是t时刻网络有n个节点,作为n个样本的训练集输入到自编码器中,每个样本的特征维度是n,表示该点与其他各点的连接情况;s6:堆叠构造成3层栈式自编码器进行深度学习,具体来说,对于bt输入而言,得到了第一层自编码器的表示隐含层继续训练第ith层自编码器,把第ith-1的隐含层当作输入,得到表示隐含层其中li<li-1,di是第ith层的神经元规模;s7:将时间平滑约束加入loss函数中的正则项中,解决自编码器容易过拟合的问题;记录历史时刻网络社团划分的结果,将上一时刻网络的社团划分当作先验信息,指引当前时刻网络中节点的嵌入学习;基于这样一个假设:如果节点i和节点j在t-1时刻属于同一个社团,如果t时刻网络社团结果没有出现剧烈的偏差,那么t时刻的向量hi和hj之间的欧氏距离很近;通过定义正则化矩阵o=[oij]∈rn*n,如果节点i和节点j属于用同一个社团,则oij=1,否则为0;d是对角矩阵,其中的元素值是o矩阵每行所有元素的和,l是o的拉普拉斯矩阵,l=d-o,时间约束项定义如下:通过加入时间约束的正则项,自编码器的完整loss函数表示如下:其中λ是正则项系数,权衡重构误差和社团一致性之间的重要程度;通过bp反向传播算法可以求解权重向量θ;s8:将每层得到的特征矩阵作为k-means算法的输入,进行图聚类,最后用标准互信息(nmi)来评价聚类的结果,nmi的定义如下:s9:选出最高nmi值对应的聚类结果当作t时刻网络的社团划分,并保存划分结果;s10:判断是否到达最终时刻t,若判定结果为“是”,则执行步骤s11,否则执行t=t+1,并回到步骤s3;s11:输出动态网络的社团划分c={c1,c2,...,ct}。本发明的有益效果在于:(1)通过利用栈式自编码器的非线性表示学习能力,挖掘出动态网络中潜在特征。(2)通过构造时序矩阵和模块度矩阵,使得方案能够考虑前后时刻两个网络的拓扑结构,保证了此时刻网络的社团质量。(3)将时间平滑约束加入loss函数中的正则项中,解决自编码器容易过拟合的问题。记录历史时刻网络社团划分的结果,将上一时刻网络的社团划分当作先验信息,指引当前时刻网络中节点的嵌入学习。(4)该方法既能够适应动态无权网络,也能适应动态有权网络。将本发明的设计方案与其他方案在人工数据集和真实世界网络上进行对比测试,结果表明我们的方案优于其他的对比方案,具有较高准确性,能够有效应用于动态网络社团结构识别。附图说明为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:图1为本发明的流程图;图2为本发明的详细图解;图3展示了在syn基准网络上的社团挖掘结果。图3(a)为在syn(z=5,nc=10%)网络上的社团挖掘结果;图3(b)为在syn(z=5,nc=30%)网络上的社团挖掘结果;图3(c)为在syn(z=6,nc=10%)网络上的社团挖掘结果;图3(d)为在syn(z=6,nc=30%)网络上的社团挖掘结果;图4展示了本方案在syn-fix-var基准网络上的社团挖掘结果。图4(a)为在syn-fix(z=3)网络上的挖掘结果;图4(b)为在syn-fix(z=5)网络上的挖掘结果;图4(c)为在syn-var(z=3)网络上的挖掘结果;图4(d)为在syn-var(z=5)网络上的挖掘结果;图5展示了本方案在syn-event基准网络上的社团挖掘结果。图5(a)为在birthanddeath网络上的挖掘结果;图5(b)为在expansionandcontraction网络上的挖掘结果;图5(c)为在intermittentcommunities网络上的挖掘结果;图5(d)为在mergingandsplitting网络上的挖掘结果;图6展示了在cellphonecalls真实数据集上不同时刻下主要社团结构变化;图6(a)为第7天;图6(b)为第8天;图7展示了在hospital真实数据集上不同时刻下网络社团结构成员变化。图8展示了在长春德惠市移动通信网络中的某天第1h时刻的社团结构。图9展示了在长春德惠市移动通信网络中的某天第24h时刻的社团结构。图10展示了在长春德惠市移动通信网络的某天24小时内网络社团结构成员变化。具体实施方式下面将结合附图,对本发明的优选实施例进行详细的描述。图1是本发明实施方式的流程图;表1展示了测试数据集的规模和网络层规模设置:表1测试数据集和网络层规模设置数据集节点数边数时间段层设置syn128-20128-64-32-16syn-fix128-10128-64-32-16syn-var256-10256-128-64-32syn-event250-10250-128-64-32cellphonecalls400983410400-256-128-64enronmail1513312412151-128-64-32highschool3271885089327-256-128-64hospital7532424975-64-32-16hypertext113208185113-64-32-16java3764091566376-256-128-64rados1678292710167-128-64-32图2所示的是本发明的详细图解。图3展示了在syn基准网络上的社团挖掘结果。图3(a)为在syn(z=5,nc=10%)网络上的社团挖掘结果;图3(b)为在syn(z=5,nc=30%)网络上的社团挖掘结果;图3(c)为在syn(z=6,nc=10%)网络上的社团挖掘结果;图3(d)为在syn(z=6,nc=30%)网络上的社团挖掘结果。横坐标是时间段,每个时间段对应一个静态子网络。纵坐标是nmi值,反映挖掘的结果与真实结果之间的相似性。实验表明本发明方案se-autoencoder与其他方案相比,能够在syn不同时间段上的子网络中挖掘出更精确的社团。图4展示了本方案在syn-fix-var基准网络上的社团挖掘结果。图4(a)为在syn-fix(z=3)网络上的挖掘结果;图4(b)为在syn-fix(z=5)网络上的挖掘结果;图4(c)为在syn-var(z=3)网络上的挖掘结果;图4(d)为在syn-var(z=5)网络上的挖掘结果。实验表明本发明方案se-autoencoder与其他方案相比,能够在syn-fix-var不同时间段上的子网络中挖掘出更精确的社团。图5展示了本方案在syn-event基准网络上的社团挖掘结果。图5(a)为在birthanddeath网络上的挖掘结果;图5(b)为在expansionandcontraction网络上的挖掘结果;图5(c)为在intermittentcommunities网络上的挖掘结果;图5(d)为在mergingandsplitting网络上的挖掘结果。实验表明本发明方案se-autoencoder与其他方案相比,能够在syn-event不同时间段上的子网络中挖掘出更精确的社团。表2展示了在真实网络上,不同方案的社团挖掘结果。并通过标准互信息(nmi)对结果的优劣进行量化。表27个真实世界网络上的社团挖掘结果se-autoencoderse-nmfdynmogafacenetcellphonecalls0.84330.28730.73120.6810enronmail0.84860.58470.84390.6271highschool0.96800.67430.90010.5753hospital0.81320.46880.80280.3900hypertext0.76090.41770.67480.3858java0.83050.3140.0.79940.7091rados0.76390.28900.56930.4232图6展示了cellphonecalls真实数据集上不同时刻下主要社团结构变化。cellphonecalls主要的变化发生在第7和第8天,其中5个重要成员的节点标签从2,3,4,6,201变为310,361,398,370,301。图6(a)展示了在第7天中,201号节点充当领导角色,而2,3,4,6节点是重要任务的角色;而图6(b)展示了在第8天中,310,361,398,370,301号节点分别成为新领导的角色。图7展示了在hospital真实数据集上不同时刻下网络社团结构成员变化。从上往下看,矩形代表了被识别出的社团。而从左往右看,分别是不同时刻下的社团划分结果,相邻两个时间段之间的水流表示了社团成员的变化。根据这个图,我们可以得到每一个时刻下社团的演化过程。图8和图9展示了本申请方案在长春德惠市移动通信网络中的应用,该动态网络表示在某一天内的居民的移动信息。其中,网络的节点是一个基站群,相邻5km的基站被认为是一个基站群,一共有95个基站群点。根据每个小时的居民移动记录,可以得到24个快照静态网络。图8展示了在1h小时上,用户移动网络的聚类结果,共有5个社团,每个社团由若干个基站组成。图9展示了在第24h小时上,用户移动网络的聚类结果,共有5个社团,每个社团由若干个基站组成。这说明,随着时间的推移,社团的个数没有变化,但是社团成员发生了改变。图10展示了本申请方案在德惠市移动通信网络上不同时刻的网络社团结构成员变化。从左往右看,是1点到24点每小时的网络结构划分。每个小时中的每一小块矩阵,都是一个聚类。由图所示,随着时间的推移,社团的个数没有发生改变,但是社团成员发生改变。最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1