一种基于随机森林的复杂网络集聚延续风险预测方法与流程

文档序号:20781088发布日期:2020-05-19 21:14阅读:183来源:国知局
一种基于随机森林的复杂网络集聚延续风险预测方法与流程

本发明提出了一种基于随机森林的复杂网络集聚延续风险预测方法,它涉及风险识别、网络科学、机器学习等技术领域。



背景技术:

风险是指在某一特定环境下,在某一特定时间段内或时间点上,某种损失或不期望结果发生的可能性或不确定性。风险是一种客观存在,并且可以通过采用防范措施防止或降低风险发生导致的损失,却不能消除风险。

风险在生活中各个领域都普遍存在。比如,航海界中渔民出海打渔时有可能遭遇由于天气不佳等原因导致的空猎风险、覆船风险等;而在金融界,投资者购买股票等产品时也存在无法收回本金的风险;即使是普通群众,生活中也可能遭遇灾害带来的风险如地震、洪水、火灾等对人身安全与财产安全造成的损失与侵害。

在一个系统内,某些风险往往并非仅存于某一特定时刻,而是会随着时间推演,在系统内或增长或消散,较为典型的例子是复杂网络的集聚风险。对于非单一成分的网络,网络中由于部分节点与连边之间的联系与网络中其他部分成分相比更加紧密,从而导致集聚子团的产生。具体来说,一个有向的图结构中,两节点间至少存在一条路径使得一个节点能够到达另一个节点,则这样的图结构即为该有向图的弱联通图。对于系统的整体网络中,可以提取出这样的局部网络,称为该系统的集聚子团。集聚子团对于交通网络、电力网络以及计算机网络等现实复杂系统来说都可能会导致系统整体运行性能的下降甚至崩溃的风险。由于复杂网络的集聚风险存在的普遍性及其产生的损失给人们的生活甚至社会运行都带来了巨大的影响,因此对复杂网络的集聚风险的时序演化过程进行分析,从而判断该类风险的时序延续性是十分必要的。

在对网络集聚风险的识别过程中,可以采用多种识别方法,包括基于结构的分析方法、基于统计的分析方法等。对于具有集聚风险的网络系统,充分理解和深入研究集聚风险在时序推进中的演化是预测网络集聚延续风险的重中之重。根据时序演化下的某一系统的内部结构与属性,首先需要提取出静态时刻的系统内部特征,而如何在时序中将这些静态特征串接起来、根据系统的时序相关属性建立延续风险判定指标,成为了本发明的重点。

以往无论是基于流行性疾病的风险扩散分析、基于网络拓扑结构的风险传播阈分析还是基于级联失效的风险传播过程分析,都较少对系统的集聚子团作为研究对象,并且较少将系统在各个时段或时点上的特征进行关联与对比分析,因此上述方法虽然能够针对系统风险进行定量或定性的评估,却是缺少时间动态性特征与网络集聚特征的。而已有研究表明,系统的集聚是不容忽视的一大风险因素,而复杂网络的集聚在时序中的延续性风险亦不容小觑。

在机器学习中,随机森林(randomforest)是一个包含多个决策树的分类器。决策树本身通过自己在数据集中学到的知识对于新的数据进行分类,而随机森林则是通过对数据的随机选取构建子决策树,在子树的每一个分裂过程中选择性地使用待选特征,之后再在随机选取的特征中选取最优的特征,从而达到综合各个子树的最佳效果,实现分类。此方法在目标预测、分类问题中都具有较好的表现,因此本专利应用此方法对复杂网络的集聚延续风险进行预测。

本专利通过引入时间序列的特征,使用随机森林模型进行网络集聚子团的延续性风险预测,考虑到了风险的时延性,能够评估各个网络集聚子团的时序风险大小,具有较好的通用性及创新性。基于以上的方法基础及现实的意义提出了一种基于随机森林的复杂网络集聚延续风险预测方法。



技术实现要素:

(一)发明的目的

本发明主要用于解决在复杂系统与网络结构背景下的网络集聚延续风险预测问题,现有的方法大多是基于机器学习方法与数理统计方法的静态网络结构集聚风险识别,而这些方法都未将系统在各个时段或时点上的集聚特征进行关联,从而对集聚的延续风险进行预测,缺少时间动态性特征。因此针对于现有方法的不足,本专利提出了一种基于随机森林的复杂网络集聚延续风险预测方法。

通过使用该方法实现在非单一部件、非单一节点系统中的时序集聚子团构建与应用随机森林的集聚延续风险识别,将系统的静态结构特征与组分属性提取为集聚组分的静态特征,随后通过组合获取时间序列中的系统集聚组分的时序特征从而得到系统的集聚延续特征,进而能够实现针对集聚组分的延续性风险识别,从而为后续的风险传播抑制与阻断手段提供信息支持。

(二)技术方案

为了实现上述目的,本发明的方法所采用的技术方案是:一种基于随机森林的复杂网络集聚延续风险预测方法。

本发明所述的一种基于随机森林的系统风险预测方法是一种结合复杂网络建模、时间序列分析和机器学习预测的综合方法。

本发明所述的“一种基于随机森林的复杂网络集聚延续风险预测方法”,其步骤如下:

步骤a:提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集;

步骤b:构建某给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度;

步骤c:构建集聚延续风险阈值,对时刻集聚子团集内各个集聚子团进行集聚延续风险标记,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集;

步骤d:将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测与分析。

通过以上步骤,可以实现基于随机森林的复杂网络集聚延续风险预测的目的,该方法的通用性强,客观度高,易于操作,解决了网络中集聚延续的风险难以预测的问题。

其中,步骤a中所述的“提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集”,其做法如下:基于含有时序t={t1,t2,...,ti,...,tt}的现实数据d(data,t),首先提取某时刻ti的数据切片di(datai,ti)中的静态复杂网络拓扑结构与信息构建静态复杂网络,随后计算该时刻ti的静态复杂网络特征与其他特征,构建该时刻ti的时刻集聚子团集clusteri;以上所述过程的具体步骤如下:

步骤a1:对含有时序t={t1,t2,...,ti,...,tt}现实数据d(data,t)={d1(data1,t1),...,di(datai,ti),...,dt(datat,tt)},其时序长度为t,对该现实数据某时刻ti的第i个数据切片di(datai,ti)中静态数据datai(network(v,e),otheri)中的数值部分依据但不仅依据插值方法或前后取平均方法进行缺失值补全,随后提取该静态数据中的网络部分v,e进行静态复杂网络network(v,e)构建,其中v,e分别为该静态复杂网络的节点、连边,且v,e个数为有限个,分别为m,n;

步骤a2:根据已建立的静态复杂网络network(v,e)中每个节点、连边及其相应属性,采用如数学统计的方法来计算该静态复杂网络的复杂网络特征featurenetwork如网络规模g、度均值degree_average、度方差degree_variance、介数均值betweeness_average、介数方差betweeness_variance等,从而有:featurenetwork(g,degree_average,degree_variance,betweeness_average,betweeness_variance,...);

步骤a3:基于此时刻ti的数据切片di(datai,ti)里的静态数据datai(network(v,e),otheri)中的其他部分otheri,计算此时刻ti的其他特征例如但不仅限于:各个连边的属性在整个静态数据datai(network(v,e),otheri)中的特征集合与各个节点的属性在现实中的特征集合:

feature_edgei={feature_edgei_e1,...,feature_edgei_ei,...,feature_edgei_en}

feature_nodei={feature_nodei_v1,...,feature_nodei_vi,...,feature_nodei_vm}

因此对整个ti时刻的静态数据datai(network(v,e),otheri)可提取出整体静态特征

步骤a4:根据所建立的静态复杂网络network(v,e)中的节点与连边拓扑信息及静态数据的其他信息otheri,计算该静态复杂网络的q个弱联通集聚子团(由于计算弱联通子团是复杂网络中计算集聚子团的常用方法,因此不再对其进行详细说明),随即可得时刻ti的集聚子团集clusteri={clusteri_1,...,clusteri_j,...,clusteri_q},由于集聚子团是整体静态复杂网络的一部分,因此对clusteri中的第j个集聚子团clusteri_j也有其中所含的特征种类与步骤a2所描述的相同;

其中,步骤b中所述的“构建某给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度”,其做法如下:首先对于给定的时序遍历其各个时刻并由步骤a得到对应时刻的集聚子团集,随后设置对某时刻的某基准集聚子团的延续判定阈值,并按时刻顺序对该基准集聚子团后续各个时刻的集聚子团集中各集聚子团依次进行延续判定指标计算,并加总符合延续判定指标的延续时刻长度,对时序内的所有集聚子团计算前述延续时刻长度,以上所述过程的具体步骤如下:

步骤b1:对时序t={t1,t2,...,ti,...,tt}中的每个时刻应用步骤a,可得到对应每个时刻的集聚子团集,按照时序顺序将所有时刻集聚子团集组合为对应时序t的集聚子团集集合cluster={cluster1,...,clusteri,...,clustert};

步骤b2:设时刻t0的集聚子团集cluster0中的第k个子团cluster0_k为一个基准集聚子团,则该基准集聚子团及其后续时刻t'={t0+1,...,t0+(t-0)}的t-0个集聚子团集中的所有子团形成一个基准子团cluster0_k的时序集聚延续子团预备集clusterk'={cluster0_k,...,cluster(t-0)};

步骤b3:对于基准集聚子团cluster0_k可根据其特征,应用数学变换或逻辑组合等方式构建延续判定阈值并命名为随后依序遍历t'={t0+1,...,t0+(t-0)}中的时序集聚延续子团预备集clusterk'内的所有时刻,应用与构建延续判定阈值相同的数学变换或逻辑组合等方式计算各时刻ti的延续判定指标其中0≤i≤0+(t-0),且该延续判定指标可随时刻与集聚子团而改变;

步骤b4:初始化基准集聚子团cluster0_k的延续时刻长度r0_k=0,对t'={t0+1,...,t0+(t-0)}时序下,时序集聚延续子团预备集clusterk'内的各时刻依次遍历时序集聚延续子团预备集clusterk'内的所有时刻,计算各个时刻ti的集聚子团集中各个集聚子团的延续判定指标

步骤b5:对比时刻ti的延续判定指标indexi_k与延续判定阈值index0_k的数值,若某时刻ti的某个集聚子团clusteri_k的延续判定指标达到延续判定阈值(大于、等于或小于),则依据下式更新基准集聚子团的延续时刻长度:

r0_k=r0_k+1

随后停止对当前时刻的剩余集聚子团的延续判定指标计算过程,进入对下一时刻的延续判定指标计算过程,直至遍历完成时序集聚延续子团预备集clusterk'内的t'={t0+1,...,t0+(t-0)},或当后续某时刻延续判定指标不再连续达到延续判定阈值时停止全部遍历,得到最终的基准集聚子团cluster0_k的延续时刻长度r0_k;

步骤b6:重复步骤b1-b5,可以得到时序t的集聚子团集集合

cluster={cluster1,...,clusteri,...,clustert}中所有时刻的集聚延续子团的延续时刻长度阵列r:

其中q1为时刻t1的集聚子团个数,qt为时刻tt的集聚子团个数;

其中,步骤c中所述的“构建集聚延续风险阈值,对时刻集聚子团集内各个集聚子团进行集聚延续风险标记,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集”,其具体做法如下:首先基于时序长度与时刻个数等因素构建集聚延续风险阈值,将该延续风险阈值与上一步骤所得时序t={t1,t2,...,ti,...,tt}内的各个时刻集聚子团延续时刻长度进行对比和延续风险标记,随后组合每个时刻集聚子团的所有特征(包括静态复杂网络特征与其他特征)和延续风险标记,作为网络集聚延续风险预测数据集,以上所述过程的具体步骤如下:

步骤c1:基于给定时序t={t1,t2,...,ti,...,tt}、由步骤b计算得出的延续时刻长度阵列r的各类统计指标(如平均值)以及其他需要考虑的因素factor(a,b,c,...),构建集聚延续风险阈值rthreshold(t,rstatistics,factor);

步骤c2:对应每个时刻集聚子团的延续风险标记为m={positive,negative},将时刻ti的第k个时刻集聚子团的延续时刻长度ri_k与集聚延续风险阈值rthreshold进行数值对比,若该延续时刻长度ri_k超过集聚延续风险阈值rthreshold,则将此时刻ti的第k个时刻集聚子团的延续风险标记为mi_k={positive};

步骤c3:重复步骤c2,遍历延续时刻长度阵列r中的每个延续时刻长度,得到时序t={t1,t2,...,ti,...,tt}条件下的所有时刻集聚子团的延续风险标记阵列m:

其中q1为时刻t1的集聚子团个数,qt为时刻tt的集聚子团个数,阵列中每个元素的取值为{positive,negative};

步骤c4:对时序t={t1,t2,...,ti,...,tt}条件下的所有时刻集聚子团,综合每个时刻集聚子团的静态数据特征和延续时刻长度rcluster,可得其特征阵列为f:

其中q1为时刻t1的集聚子团个数,qt为时刻tt的集聚子团个数;

步骤c5:由步骤c3-c4,对时序t={t1,t2,...,ti,...,tt}条件下的网络集聚延续风险预测数据集即为dataset=(f,m),其中延续风险标记阵列m为预测目标,特征阵列f为现实数据所能提供或能经过处理得到的网络集聚与集聚延续特征,数据集总数据个数为

其中,步骤d中所述的“将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测”,其具体做法如下:首先给定划分比例,将网络集聚延续风险预测数据集划分为训练集与预测集,使用随机森林模型拟合训练集里的每个时刻集聚子团的特征与延续风险标记,通过指定方法对随机森林集聚风险预测模型进行参数调优并得到最优模型,随后将预测集中的每个时刻集聚子团的特征输入此最优模型,得到对应的每个时刻集聚子团的延续风险标记预测结果;以上所述过程的具体步骤如下:

步骤d1:对于给定的训练集与预测集数据个数的比例p(0<p<1),随机打乱网络集聚延续风险预测数据集dataset=(f,m)中的数据序号,随后将条数据中的q×n个作为训练集datasettrain(ftrain,mtrain),(1-q)×n个作为预测集datasettest(ftest,mtest);

步骤d2:应用计算机编程构建随机森林模型randomforest(para1,para2,...),其中para1,para2,...为随机森林模型的模型参数,包括但不仅限于子叶数量、分类器数量等,首先采用默认模型参数,随后应用该模型自身的fit(datasettrain)方法,将datasettrain(ftrain,mtrain)训练集的训练特征以及对应的延续风险标记输入构建完成的模型进行拟合,得到拟合完成的模型(para1,para2,...);

步骤d3:应用参数调优方法包括但不仅限于参数搜索方法,其调优方法结构如optimization(model,paramlist,method,setting),其中包括但不仅限于:所调优的模型model,需要调优的参数表paramlist,所应用的具体调优方法method,以及调优过程的设置setting,对拟合完成的模型(para1,para2,...)中的模型参数进行最优参数选取得到最优参数如para1best,para2best,...,于是可得最优模型(para1best,para2best,...);

步骤d4:将预测集内的集聚子团特征datasettest(ftest)输入上一步骤所得的最优模型(para1best,para2best,...)进行延续风险标记的预测,得到datasetpredict(ftest,mpredict),可应用模型效果评估方法比较mpredict与mtest,从而对随机森林模型的延续风险预测效果进行评估。

(三)优点创新

本发明具有如下的创新点:

1、通用性强:本专利并不是针对于某一个特定的系统进行的基于随机森林的复杂网络集聚延续风险预测方法,而是一种对于各类系统通用的基于随机森林的复杂网络集聚延续风险预测方法,因此具有较好的通用性。

2、可移植性好:本专利并没有指定根据何种特征构建系统时刻集聚子团集,亦并没有指定集聚延续判定指标与集聚延续风险的阈值,因此在具体的不同系统中可以根据实际情况的需要进行特征的删减与计算方法的调整,因此具有很好的可移植性。

3、客观性强:本专利通过引入时间序列的风险特征,提升了该方法的适用性,能够更加客观的进行风险预测。

4、系统性强:本专利是站在网络部分集聚的角度上进行的基于随机森林的复杂网络集聚延续风险预测,因此能够把握系统局部信息的变化,同时发现对于系统全局风险情况具有重要影响的集聚部分,具有良好的系统性。

综上,这种基于随机森林的复杂网络集聚延续风险预测方法能够结合时间与系统结构相关的风险因素与变化,对系统的团块集聚延续风险进行合理预测,能够弥补现有方法的不足。

附图说明

图1为本发明所述方法流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案更加清楚,下面将结合图1及具体实施案例进行详细描述。应当理解,此处所描述的实施实例仅用于说明和解释本发明,并不用于限定本发明。

本发明主要用于解决在复杂系统与网络结构背景下的网络集聚延续风险预测问题,现有的方法大多是基于机器学习方法与数理统计方法的静态网络结构集聚风险识别,而这些方法都未将系统在各个时段或时点上的集聚特征进行关联,从而对集聚的延续风险进行预测,缺少时间动态性特征。因此针对于现有方法的不足,本专利通过使用该方法实现在非单一部件、非单一节点系统中的时序集聚子团构建与应用随机森林的集聚延续风险识别,能够实现针对集聚组分的延续性风险识别,从而为后续的风险传播抑制与阻断手段提供信息支持。该方法拥有通用性强、可移植性好、客观性强、系统性强等特点。下面结合附图说明及具体实施方式对本发明进一步说明。

本发明实施例以城市交通网络的拥堵集聚延续风险预测为例,阐述本发明方法。

为了实现上述目的,本发明的方法所采用的技术方案是:一种基于随机森林的复杂网络集聚延续风险预测方法。

本发明所述的一种基于随机森林的系统风险预测方法是一种结合复杂网络建模、时间序列分析和机器学习预测的综合方法。

本发明所述的“一种基于随机森林的复杂网络集聚延续风险预测方法”,见图1所示,其步骤如下:

步骤a:提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集;

步骤b:构建某给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度;

步骤c:构建集聚延续风险阈值,对时刻集聚子团集内各个集聚子团进行集聚延续风险标记,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集;

步骤d:将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测与分析。

通过以上步骤,可以实现基于随机森林的复杂网络集聚延续风险预测的目的,该方法的通用性强,客观度高,易于操作,解决了网络中集聚延续的风险难以预测的问题。

其中,步骤a中所述的“提取网络拓扑结构与信息构建静态复杂网络,计算静态网络的复杂网络特征与其他特征,并构建时刻集聚子团集”,其做法如下:基于含有时序t={t1,t2,...,ti,...,tt}的现实城市交通数据d(data,t),首先提取城市交通某时刻ti的数据切片di(datai,ti)中的静态复杂网络拓扑结构与信息构建静态复杂网络,随后计算该时刻ti的静态复杂网络特征与其他特征,构建该时刻ti的时刻集聚子团集clusteri。以上所述过程的具体步骤如下:

步骤a1:对含有时序t={t1,t2,...,ti,...,tt}现实交通数据

d(data,t)={d1(data1,t1),...,di(datai,ti),...,dt(datat,tt)},其时序长度为t(如:以分钟为粒度,一天共1440分钟),对该现实交通数据某时刻ti的数据切片di(datai,ti)中静态数据datai(network(v,e),otheri)中的数值部分依据但不仅依据插值方法或前后取平均方法进行缺失值补全,随后提取该静态数据中的网络部分v,e进行静态复杂网络network(v,e)构建,其中v,e分别为该静态复杂网络的节点、连边,且v,e个数为有限个,分别为m,n;

步骤a2:根据已建立的静态复杂网络network(v,e)中每个节点、连边及其相应属性,采用如数学统计的方法来计算该静态复杂网络的复杂网络特征featurenetwork如网络规模g、度均值degree_average、度方差degree_variance、介数均值betweeness_average、介数方差betweeness_variance等,从而有:featurenetwork(g,degree_average,degree_variance,betweeness_average,betweeness_variance,...);

步骤a3:基于此时刻ti的数据切片di(datai,ti)里的静态数据datai(network(v,e),otheri)中的其他部分otheri,计算此时刻ti的其他特征例如但不仅限于:各个连边的属性在整个静态数据datai(network(v,e),otheri)中的特征集合与各个节点的属性在现实中的特征集合:

feature_edgei={feature_edgei_e1,...,feature_edgei_ei,...,feature_edgei_en}

feature_nodei={feature_nodei_v1,...,feature_nodei_vi,...,feature_nodei_vm}

因此对整个ti时刻的静态数据datai(network(v,e),otheri)可提取出整体静态特征

步骤a4:根据所建立的静态复杂网络network(v,e)中的节点与连边拓扑信息及静态数据的其他信息otheri,计算该静态复杂网络的q个弱联通集聚子团(由于计算弱联通子团是复杂网络中计算集聚子团的常用方法,因此不再对其进行详细说明),随即可得时刻ti的集聚子团集clusteri={clusteri_1,...,clusteri_j,...,clusteri_q},由于集聚子团是整体静态复杂网络的一部分,因此对clusteri中的第j个集聚子团clusteri_j也有其中所含的特征种类与步骤a2所描述的相同;

其中,步骤b中所述的“构建某给定时序内各时刻复杂网络集聚子团集,提取时序集聚延续子团预备集,随后通过延续指标判定得到时刻集聚子团集内各个集聚子团的延续时刻长度”,其做法如下:首先对于给定的时序遍历其各个时刻并由步骤a得到对应时刻的集聚子团集,随后设置对某时刻的某基准集聚子团的延续判定阈值,并按时刻顺序对该基准集聚子团后续各个时刻的集聚子团集中各集聚子团依次进行延续判定指标计算,并加总符合延续判定指标的延续时刻长度,对时序内的所有集聚子团计算前述延续时刻长度,以上所述过程的具体步骤如下:

步骤b1:对时序t={t1,t2,...,ti,...,tt}中的每个时刻应用步骤a,可得到对应每个时刻的集聚子团集,按照时序顺序将所有时刻集聚子团集组合为对应时序t的集聚子团集集合cluster={cluster1,...,clusteri,...,clustert};

步骤b2:设时刻t0的集聚子团集cluster0中的第k个子团cluster0_k为一个基准集聚子团,则该基准集聚子团及其后续时刻t'={t0+1,...,t0+(t-0)}的t-0个集聚子团集中的所有子团形成一个基准子团cluster0_k的时序集聚延续子团预备集clusterk'={cluster0_k,...,cluster(t-0)};

步骤b3:对于基准集聚子团cluster0_k可根据其特征,应用数学变换或逻辑组合等方式构建延续判定阈值并命名为如该子团的节点对应数量比例,随后依序遍历t'={t0+1,...,t0+(t-0)}中的时序集聚延续子团预备集clusterk'内的所有时刻,应用与构建延续判定阈值相同的数学变换或逻辑组合等方式计算各时刻ti的延续判定指标如此时刻集聚子团集中的子团节点数量,其中0≤i≤0+(t-0),且该延续判定指标可随时刻与集聚子团而改变;

步骤b4:初始化基准集聚子团cluster0_k的延续时刻长度r0_k=0,对t'={t0+1,...,t0+(t-0)}时序下,时序集聚延续子团预备集clusterk'内的各时刻依次遍历时序集聚延续子团预备集clusterk'内的所有时刻,计算各个时刻ti的集聚子团集中各个集聚子团的延续判定指标

步骤b5:对比时刻ti的延续判定指标indexi_k与延续判定阈值index0_k的数值,若某时刻ti的某个集聚子团clusteri_k的延续判定指标达到延续判定阈值(大于、等于或小于),如某时刻ti的某个集聚子团clusteri_k的延续判定指标:子团节点个数超过了基准子团的节点对应数量的占比,则依据下式更新基准集聚子团的延续时刻长度:

r0_k=r0_k+1

随后停止对当前时刻的剩余集聚子团的延续判定指标计算过程,进入对下一时刻的延续判定指标计算过程,直至遍历完成时序集聚延续子团预备集clusterk'内的t'={t0+1,...,t0+(t-0)},或当后续某时刻延续判定指标不再连续达到延续判定阈值时停止全部遍历,得到最终的基准集聚子团cluster0_k的延续时刻长度r0_k,即在所遍历的时序内,符合延续判定的时刻数量;

步骤b6:重复步骤b1-b5,可以得到时序t的集聚子团集集合cluster={cluster1,...,clusteri,...,clustert}中所有时刻的集聚延续子团的延续时刻长度阵列r:

其中q1为时刻t1的集聚子团个数,qt为时刻tt的集聚子团个数;

其中,步骤c中所述的“构建集聚延续风险阈值,对时刻集聚子团集内各个集聚子团进行集聚延续风险标记,结合各个集聚子团复杂网络特征与其他特征,建立网络集聚延续风险预测数据集”,其具体做法如下:首先基于时序长度与时刻个数等因素构建集聚延续风险阈值,将该延续风险阈值与上一步骤所得时序t={t1,t2,...,ti,...,tt}内的各个时刻集聚子团延续时刻长度进行对比和延续风险标记,随后组合每个时刻集聚子团的所有特征(包括静态复杂网络特征与其他特征)和延续风险标记,作为网络集聚延续风险预测数据集,以上所述过程的具体步骤如下:

步骤c1:基于给定时序t={t1,t2,...,ti,...,tt}、由步骤b计算得出的延续时刻长度阵列r的各类统计指标(如平均值)以及其他需要考虑的因素factor(a,b,c,...),例如每个时刻的子团静态网络结构特征,构建集聚延续风险阈值rthreshold(t,rstatistics,factor),即作为判定标准的一个具体的时刻数量;

步骤c2:对应每个时刻集聚子团的延续风险标记为m={positive,negative},将时刻ti的第k个时刻集聚子团的延续时刻长度ri_k与集聚延续风险阈值rthreshold进行数值对比,若该延续时刻长度ri_k超过集聚延续风险阈值rthreshold,则将此时刻ti的第k个时刻集聚子团的延续风险标记为mi_k={positive};

步骤c3:重复步骤c2,遍历延续时刻长度阵列r中的每个延续时刻长度,得到时序t={t1,t2,...,ti,...,tt}条件下的所有时刻集聚子团的延续风险标记阵列m:

其中q1为时刻t1的集聚子团个数,qt为时刻tt的集聚子团个数,阵列中每个元素的取值为{positive,negative};

步骤c4:对时序t={t1,t2,...,ti,...,tt}条件下的所有时刻集聚子团,综合每个时刻集聚子团的静态数据特征和延续时刻长度rcluster,可得其特征阵列为f:

其中q1为时刻t1的集聚子团个数,qt为时刻tt的集聚子团个数;

步骤c5:由步骤c3-c4,对时序t={t1,t2,...,ti,...,tt}条件下的网络集聚延续风险预测数据集即为dataset=(f,m),其中延续风险标记阵列m为预测目标,特征阵列f为现实数据所能提供或能经过处理得到的网络集聚与集聚延续特征,数据集总数据个数为

其中,步骤d中所述的“将网络集聚延续风险预测数据集划分为训练集与预测集,采用随机森林构建风险预测模型,进行复杂网络集聚延续风险预测”,其具体做法如下:首先给定划分比例,将网络集聚延续风险预测数据集划分为训练集与预测集,使用随机森林模型拟合训练集里的每个时刻集聚子团的特征与延续风险标记,通过指定方法对随机森林集聚风险预测模型进行参数调优并得到最优模型,随后将预测集中的每个时刻集聚子团的特征输入此最优模型,得到对应的每个时刻集聚子团的延续风险标记预测结果。以上所述过程的具体步骤如下:

步骤d1:对于给定的训练集与预测集数据个数的比例p(0<p<1),随机打乱网络集聚延续风险预测数据集dataset=(f,m)中的数据序号,随后将条数据中的q×n个作为训练集datasettrain(ftrain,mtrain),(1-q)×n个作为预测集datasettest(ftest,mtest);

步骤d2:应用计算机编程构建随机森林模型randomforest(para1,para2,...),其中para1,para2,...为随机森林模型的模型参数,包括但不仅限于子叶数量、分类器数量等,首先采用默认模型参数,随后应用该模型自身的fit(datasettrain)方法,将datasettrain(ftrain,mtrain)训练集的训练特征以及对应的延续风险标记输入构建完成的模型进行拟合,得到拟合完成的模型(para1,para2,...);

步骤d3:应用参数调优方法包括但不仅限于参数搜索方法,其调优方法结构如optimization(model,paramlist,method,setting),其中包括但不仅限于:所调优的模型model,需要调优的参数表paramlist,所应用的具体调优方法method,以及调优过程的设置setting,对拟合完成的模型(para1,para2,...)中的模型参数进行最优参数选取得到最优参数如para1best,para2best,...,于是可得最优模型(para1best,para2best,...);

步骤d4:将预测集内的集聚子团特征datasettest(ftest)输入上一步骤所得的最优模型(para1best,para2best,...)进行延续风险标记的预测,得到datasetpredict(ftest,mpredict),可应用模型效果评估方法比较mpredict与mtest,从而对随机森林模型的交通网络集聚延续风险预测效果进行评估。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1