基于主成分和Logistic分析地质灾害概率预报方法与流程

文档序号:32653657发布日期:2022-12-23 20:29阅读:209来源:国知局
基于主成分和Logistic分析地质灾害概率预报方法与流程
基于主成分和logistic分析地质灾害概率预报方法
技术领域
1.本发明涉及一种基于主成分和logistic分析地质灾害概率预报方法,属于气象研究的技术领域。


背景技术:

2.降雨引发地质灾害预报技术主要分为两大类,一是统计方法,即通过大量的地质灾害样本研究降水和地质灾害发生概率或位移监测的关系,另一类是动力机理方法考虑地质体在降雨过程中自身动力变化过程而建立数学物理判据方程动力预报。相对而言,统计方法由于其更好的可操作性和实用性更多的应用于业务当中。统计方法常用的有多次回归,神经网络模型、贝叶斯法或频数法等,这些方法统计灾害发生前的降水,如降水累积量、降水持续时间和强度等,有的还考虑了地质灾害易发度,这些因子作为因变量,统计建立其与滑坡时间或规模的关系。logistic回归方法在统计方法中由于其对因子无特殊要求及良好预警效果,在区域性及局地性的地质灾害预警都有较广的应用。
3.logistic回归方法建立地质灾害概率模型中对因子选取较为主观,因子选择有降水类、地质地貌特征等,因子两个到二十多个不等,多数研究无相关的因子选取方法,导致模型运行慢,降低结果的参考价值。


技术实现要素:

4.为了解决上述技术问题,本发明提供一种基于主成分和logistic分析地质灾害概率预报方法,针对因子选择科学性进行研究,根据检验效果择优进行建模。在样本检验的基础上,针对样本外数据进行长时间系列检验,同时对比雨量检验模型和区域logistic模型,检验效果更具有代表性,其具体技术方案如下:
5.一种基于主成分和logistic分析地质灾害概率预报方法,包括以下步骤:
6.步骤1:从雨量、信息量数据库中提取灾害点雨量因子;
7.步骤2:提取地质灾害易发度;
8.步骤3:根据灾害点雨量因子和易发度信息量,建立二分类数据系列,建立二分类数据系列过程为将一部分灾情数据发生日往前推至未发生灾害日期,确定为未发生灾害的样本,同时剔除该条发生灾害的样本;
9.步骤4:通过主成分分析方法得到主成分,并确定主要影响因子;
10.步骤5:对不同的主成分进行logistic回归;
11.步骤6:对主要影响因子进行logistic回归;
12.步骤7:试验数据分为训练数据和检验数据,应用训练数据,通过步骤5、6建立模型,应用模型对检验数据进行预报,对实况的准确性检验,检验参数包括准确率和roc曲线;
13.步骤8:比较建立模型的检验数据的准确率和roc曲线,得到最优logistic概率模型。
14.进一步的,所述步骤1中灾害点雨量因子选取地质灾害易发度和表征降水的6个因
子,表征降水的6个因子选取表征降水量和降水连续性的当日降水、前期有效降水、降水日数、最长连续降水日数,最长连续降水量,前3日最大降水量。
15.进一步的,在进行步骤3之前,首先,为保证因子的连续性,对表征降水的6个相关的因子进行正态化处理,其次,地质灾害易发度和表征降水的6个因子还存在属性和数量级的差异,需要对地质灾害易发度和表征降水的6个因子进行数据标准化处理。
16.进一步的,所述正态化处理的过程为:对表征降水的6个相关的因子进行开三次方根;
17.由于不同变量常具有不同的单位和不同的变异程度,不同单位常使系数的实践解释发生困难,为了消除量纲影响和变量自身变异大小和数值大小的影响,故需要对数据进行标准化。数据标准化处理的具体过程为:原始数据通过减去数据均值然后除以方差或标准差,这种数据标准化方法经过处理后数据符合标准正态分布,即均值为0,标准差为1,转化函数为:y’=(y-μ)/σ),式中y’表示处理后的标准化数据,y为处理处理前的原始数据,μ为地质灾害易发度和表征降水的6个因子的原始数据的均值,σ为地质灾害易发度和表征降水的6个因子的原始数据的方差或标准差。
18.进一步的,所述主成分分析方法是一种统计方法,将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中取出几个较少的综合变量,尽可能多地反映原来变量的信息,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,是数学上用来降维的一种方法,步骤4的具体过程为:
19.研究地质灾害发生与否与降水、地质灾害易发度的关系,根据累计贡献率来取主成分,使其特征值大于1,选取k个主成分,建立主成分fk,表示如下式:
20.fk=a
1k z1+a
2k z2+

+a
ij zi…
+a
pkzp
ꢀꢀꢀ
(1)
21.其中,zi是原始变量经过标准化处理的值,a
ij
描述了因子i在第j个主成分中的因子得分系数,即第i个因子对第j个主成分的贡献,a
ij
与第j个主成分对应方差的贡献率ej的组合便是需要确定的第i个环境因子的权重值wi,表示如下式:
[0022][0023]
进一步的,logistic回归分析是一种广义的线性回归分析模型,是研究因变量为二分类的分类变量或某事件的发生率,比较常用的情形是探索某些致灾因素,根据危险因素预测灾害发生的概率,而地质灾害发生是降水、地质灾害易发度因素综合影响的结果,适合用logistic模型进行概率预测;
[0024]
logistics回归方程为:
[0025][0026]
p为发生概率,x为相关的自变量,logistics回归用了两种方法,一种的自变量就是直接用地质灾害易发度和表征降水的6个因子中的前几个,另一种的自变量是分析而来的主成分,β为各个 x对应的系数,因为分子比分母小,且指数函数取值为正数,故p取0-1区间的数值。
[0027]
进一步的,所述步骤7检验过程为:灾情以县为单位统计的,取县城周边20km的范围为预报值提取区,当地质灾害发生的概率大于60%时为地质灾害黄色以上级别预警,并
对社会发布,为了实现检验的量化,取灾情范围内的概率最大值和平均值作为检验的参量,当周边区域最大概率值大于等于60%为命中,小于60%为漏报,命中率和漏报率公式表达如下:
[0028]
命中率:
[0029]
漏报率:
[0030]
式中,na为预报正确次数,nc为漏报次数。
[0031]
本发明的有益效果是:
[0032]
本专利对华中地区用主成分方法分析诱发地质灾害的因子的基础上,设计不同变量进行 logistic回归,建立地质灾害概率模型,以2019年灾情进行了检验,对比logistic模型和降水统计模型检验结果进行评估。
[0033]
本专利对因子显著性进行研究后再进行回归,这样更具有科学性,在模型的检验中,对检验样本的准确率超过80%,而对建模数据不相关的2019年灾情检验表明,该方法的命中率比原统计模型提高30%以上。
附图说明
[0034]
图1是本发明的方法流程示意图,
[0035]
图2是本发明的实施例示意图,
[0036]
图3是华中地区地质灾害易发度和地质灾害散点分布,
[0037]
图4实施例中前4位主成分和4个主要变量的logistic回归模型检验的roc曲线,
[0038]
图5是2019年5-10月中南地区地质灾害灾点最大预报概率值(单位:%),
[0039]
图6是2019年5-10月中南地区地质灾害灾点平均概率值(单位:%),
[0040]
图7是降水统计、logistic回归和地质灾害模型预报结果对比图,
[0041]
图8是本发明的一个应用证明。
具体实施方式
[0042]
如图1所示,本发明的方法为:
[0043]
步骤1:从雨量、信息量数据库中提取灾害点雨量因子;灾害点雨量因子选取地质灾害易发度和表征降水的6个因子,表征降水的6个因子选取表征降水量和降水连续性的当日降水、前期有效降水、降水日数、最长连续降水日数,最长连续降水量,前3日最大降水量。
[0044]
步骤2:首先,为保证因子的连续性,对表征降水的6个因子进行正态化处理,其次,因变量还存在属性和数量级的差异,需要对原始数据进行标准化处理。
[0045]
正态化处理的过程为:对表征降水的6个相关的因子进行开三次方根。
[0046]
由于不同变量常具有不同的单位和不同的变异程度,不同单位常使系数的实践解释发生困难,为了消除量纲影响和变量自身变异大小和数值大小的影响,故需要对数据进行标准化。数据标准化处理的具体过程为:原始数据通过减去数据均值然后除以方差或标准差,这种数据标准化方法经过处理后数据符合标准正态分布,即均值为0,标准差为1,转化函数为:y’=(y-μ)/σ),式中y’表示处理后的标准化数据,y为处理处理前的原始数据,μ为地质灾害易发度和表征降水的6个因子的原始数据的均值,σ为地质灾害易发度和表征降
水的6个因子的原始数据的方差或标准差。
[0047]
步骤3:根据灾害点雨量因子和易发度信息量,建立二分类数据系列;
[0048]
步骤4:通过主成分分析方法得到主成分,并确定主要影响因子。
[0049]
主成分分析方法是一种统计方法,将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中取出几个较少的综合变量,尽可能多地反映原来变量的信息,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,是数学上用来降维的一种方法。
[0050]
研究地质灾害发生与否与降水、地质灾害易发度的关系,根据累计贡献率来取主成分,使其特征值大于1,选取k个主成分,建立主成分fk,表示如下式:
[0051]fk
=a
1k z1+a
2k z2+

+a
ij zi…
+a
pkzp
ꢀꢀꢀ
(1)
[0052]
其中,zi是原始变量经过标准化处理的值,a
ij
描述了因子i在第j个主成分中的因子得分系数,即第i个因子对第j个主成分的贡献,a
ij
与第j个主成分对应方差的贡献率ej的组合便是需要确定的第i个环境因子的权重值wi,表示如下式:
[0053][0054]
步骤5:对不同的主成分进行logistic回归;
[0055]
步骤6:对主要影响因子进行logistic回归;
[0056]
logistic回归分析是一种广义的线性回归分析模型,是研究因变量为二分类的分类变量或某事件的发生率,比较常用的情形是探索某些致灾因素,根据危险因素预测灾害发生的概率,而地质灾害发生是降水、地质灾害易发度因素综合影响的结果,适合用logistic模型进行概率预测;
[0057]
logistics回归方程为:
[0058][0059]
p为发生概率,x为相关的自变量,logistics回归用了两种方法,一种的自变量就是直接用地质灾害易发度和表征降水的6个因子中的前几个,另一种的自变量是分析而来的主成分,β为各个 x对应的系数,因为分子比分母小,且指数函数取值为正数,故p取0-1区间的数值。
[0060]
步骤7:检验参数对比。
[0061]
灾情以县为单位统计的,取县城周边20km的范围为预报值提取区,当地质灾害发生的概率大于60%时为地质灾害黄色以上级别预警,并对社会发布,为了实现检验的量化,取灾情范围内的概率最大值和平均值作为检验的参量,当周边区域最大概率值大于等于60%为命中,小于60%为漏报,命中率和漏报率公式表达如下:
[0062]
命中率:
[0063]
漏报率:
[0064]
式中,na为预报正确次数,nc为漏报次数。
[0065]
步骤8:得到最优logistic概率模型。
[0066]
下面以华中地区作为研究区域,应用本专利方法。
[0067]
1.研究区域介绍
[0068]
华中地区是中国东西、南北四境过渡、气候复杂多变,年降水量空间分布不均匀,由北向南依次递减,其中河南降水大部在600~1000毫米之间,湖北降水大部在800~1400毫米之间,湖南大部可达1400毫米以上,夏季极端降水多发。华中地区常出现春季连阴雨、夏季暴雨、华西秋雨等,因此,降水引发地质灾害的主要特点是全年均有发生、夏季最为严重,特别是江西,其地质灾害数量在全国来看仅次于四川。华中地区一般包括河南、湖北、湖南三省,从地质灾害易发度相近且影响范围的角度出发,本研究范围界定为湖北、湖南和江西。
[0069]
研究的灾点与地质灾害易发度进行叠加后如图3,华中地区的表征易发度的信息量大多分布于0.0-0.6之间。地质灾害发生最密集的地区为鄂湘赣交界处、湖南西北和湖北西南交界处以及湖南中东部一带。
[0070]
2.地质灾害概率模型的建立
[0071]
2.1地质灾害与主要影响因子的主成分分析
[0072]
选取地质灾害发生相关的地质灾害易发度和表征降水的6个因子进行分析。其中,降水因子选取表征降水量和降水连续性的当日降水、前期有效降水、降水日数、最长连续降水日数,最长连续降水量,前3日最大降水量。进行logistic回归要保证变量的独立性,因此先进行主成分分析。因变量还存在属性和数量级的差异,需要对原始数据进行标准化处理后进行pca分析。另外,为了保证因子的连续性,与降水相关的因子进行了正态化处理,分析主要结果见表1。
[0073]
表1各主成分贡献率和特征根
[0074][0075]
结果表明,第一主成分解释度(每个主成分可以解释的数据差异的比例)达到56%,前3个变量的解释度达到87%,前4个达到93%,因此前4个主成分基本可以反映全部指标的信息。按照80%的累积方差贡献率(方差贡献率是指单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小)提出3个主成分,具有较高因子负荷的变量为影响地质灾害发生的主要指标(表2)。
[0076]
表2前3个主成分负荷因子
[0077][0078]
结果显示,第一主成分主要包括前期有效降水、当日降水、最长连续降水日数,第
二主成分主要包括当日降水、易发度、前期有效降水和最长连续降水日数,第三主成分包括易发度,最终确定前期有效降水、当日降水、易发度和最长连续降水日数为中南地区地质灾害发生与否的指标体系。
[0079]
2.2logistic回归试验
[0080]
目前灾情资料提供了灾害发生的样本,已具备发生的样本,但是构造logistic建模需要没有发生的样本,模型的效果跟0值的挑选有很大的关系。本研究根据无降水灾害未发生、降水前未发生等情况挑选0值,在去重性检查后和灾点降水相似提取前期降水。如此确定建模样本后,将样本的80%进行建模,20%用来检验。为了挑选效果较好的方法和参数,这里将主要主成分和主要变量分别进行回归进行对比试验,试验设计见表3。
[0081]
表3 logistic回归试验设计
[0082][0083]
固定样本后,分别进行试验,分别计算其准确率,得到表4,从中可以发现,试验b选取三个因子的准确率较低,而试验a和c相对更优。当选取两个因子时,主成分建立的模型有更高的准确率,而选取3个或者4个因子时,两个方法的准确率相差不大,但变量选取前4个主成分logistic回归时,效果相对更优,准确率可达0.812。
[0084][0085]
选取试验b和c做出roc曲线,从图4中可以发现,试验b的直接用主要变量的logistic回归评分优于主成分变量的的测试数据生产的结果,而试验c则两者相差不大,主成分变量roc包含的面积为0.915,相对较优。
[0086]
为了消除样本选择对试验的影响,这里利用主成分分析的前4个变量和前4个主要因子进行五折交叉验证进行参数的确定,主成分变量回归的准确率为0.818,主要因子回归的准确率为0.804。综合考虑,还是以主成分分析的变量进行建模,建模的公式和主要参数为:
[0087][0088]
b=-a+bx1+cx2+dx3+ex4,其中,a为截距,b、c、d、e和回归系数,分别为[-0.092,1.085,0.979, 0.188,-1.153]。x1-x4分别为第1到第4主成分。
[0089]
表4主成分变量logistic回归检验样本查准率、查全率,f1评分
[0090][0091][0092]
查准率(precision),即预测为正的样本当中有多少预测准确,查全率(recall),即真正为正的样本当中有多少被预测准确了。f1值是精确度和召回率的调和平均值,精确度和召回率都高时,f1 值也会高.f1值在1时达到最佳值,最差为0。从计算中可以看到,未发生的回归模型的查准率高于查全率均,平均值为0.818,而发生地质灾害的查全率高于查准率,平均值为0.817,但检验结果是建立在样本检验的基础上,在业务应用中应该在实际中对长时间系列进行检验。
[0093]
以前15天日雨量、预报雨量、地质灾害易发度为输入,logistic回归统计参数建立概率模型,每天制作5km、24小时分辨率的72h小时内的地质灾害概率预报产品。
[0094]
3. 2019年中南地区地质灾害概率模型产品的检验
[0095]
提取2019年地质灾害灾情对应的概率最大值和平均值,对同一个点的多个灾情概率值进行平均后得到地质灾害灾点概率模型的分布图。从最大概率的分布来看,灾点概率预报大值区主要分布于湖北西部、湖南中南部、湖南西部和南部及江西中北部,概率值一般为65%-95%,概率值较低的区域主要分布于湖北东部、江西西南部和湖南东部区域。
[0096]
而从周边的灾害点平均概率来看,概率值较最大概率偏低20-40%,大值区主要分布于湖南和江西南部,除此之外概率值为10-40%,分布无明显规律性。平均概率与最大概率相差较大,究其原因,可能与灾点周边20km范围地质条件较为复杂,地质灾害易发度差别较大,单在精细化地质灾害气象预报中可以进行参考。
[0097]
这里对华中三省检验结果进行分析,可以发现,三省命中率在52%以上,其中湖南最高,为63%,同时湖南的漏报最少37%,湖北和江西较为相近。另外,这里将预报概率在50-60%的定义可能预报个例,湖北和湖南占比较高,为12%,这部分个例可以在一定的条件下可能预报的,也是可提升的部分。可下可以看出,华中三省可能预报能达到60%以上,具有较好的指导意义。
[0098]
表5.2 2019年5-10月中南地区地质灾害概率预报效果(单位:%:起)
[0099][0100]
以上是利用定量降水估测进行的模型回算的结果,可见华中三省命中率一般大于52%,湖南最高,为63%。但检验是以实际降水为基础进行的,再进一步以前期降水和预报降水为输入进行回算,并于国家气象中心统计降水和logistic回归的地质灾害模型预报结果进行检验,得到图7,可见,本专利的模型的命中率为51%,相对于站点预报的logistic统
计模型15%的命中率提高了36%。
[0101]
参见图8,本发明已经于2019年6月在中央气象台应用,且运行稳定,预报精度高,应用效果较好。
[0102]
4本专利的效果
[0103]
(1)利用主成分方法分析地质灾害发生的相关7个因子,前4个主成分可达到93%,主要主成分的因子负荷结果显示,前期有效降水、当日降水、易发度和最长连续降水日数为中南地区地质灾害发生与否的主要影响因子。
[0104]
(2)固定样本分别进行2-4个主成分和一般变量对比试验,发现选取三个因子的准确率较低,选取4个因子相对更优。选取主成分分析和直接变量的准确率相差不大,前4个主成分logistic回归,效果相对更优。4个变量的五折交叉验证表明主成分分析变量准确率提高0.014。综合考虑,以前4 个主成分得到logistic回归参数进行建模。
[0105]
(3)利用定量降水qpe(定量降水估测)和qpf(定量降水预报)回算地质灾害概率模型结果,发现华中三省命中率一般大于52%,湖南最高,为63%。并于国家气象中心统计降水和logistic 回归的地质灾害模型预报结果进行对比,命中率提高30%以上。
[0106]
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1