一种基于随机森林的地质灾害多灾种综合风险评价方法与流程

文档序号:21986053发布日期:2020-08-25 19:23阅读:754来源:国知局
一种基于随机森林的地质灾害多灾种综合风险评价方法与流程

本发明涉及地质灾害技术领域,具体是一种基于随机森林的地质灾害多灾种综合风险评价方法。



背景技术:

地质灾害是自然灾害的重要种类之一,包括滑坡、泥石流、崩塌、地面塌陷、地面裂缝等。它们的发生直接导致基础设施的破坏、财产损失,甚至危及生命。近年来随着极端气候事件发生频率的提高、区域性强烈地震的影响、工程建设扰动强度的加剧,我国自然灾害,尤其是地质灾害的发生频率与危害明显增加。如2010年“8.17”甘肃舟曲特大泥石流灾害、2019年“8.20”四川汶川强降雨特大山洪泥石流等。未来一段时期,地质灾害将呈高发频发趋势,地质灾害防治工作面临的形式依然严峻。

地质灾害风险评价是对风险区遭受不同强度地质灾害的可能性及其可能造成的灾害损失进行定量分析和评价,是一项有力的防灾减灾非工程性措施,有利于对现在或未来地质灾害防治与管理提供科学依据,对减少人民生命财产损失和促进社会和谐发展具有重要意义。地质灾害风险评价一直是国内外学者和政府机构的关注的重点。我国的地质灾害风险评价研究起步较晚,兴起于20世纪80年代,20世纪90年代以来,随着研究的不断深入以及各种新技术(3s和计算机)的不断应用,地质灾害风险评价在理论与实践方面均取得了丰硕的成果。层次分析法、因子分析法、模糊综合评价法等是地质灾害风险评价的常用方法,但上述方法多基于评价指标阈值划分与权重赋值思想开展风险评价,主观性较强,不同人可能得出不同的结论,尤其是对多灾种综合风险评价的适应性差,且没有结果准确性的有效验证。近年来,随着人工智能技术的飞速发展,众多机器学习的模型,决策树(dt),支持向量机(svm),人工神经网络(ann)等模型正被尝试应用于地质灾害风险评价,也取得了良好的评价效果。然而遗憾的是,上述方法忽视了灾害点调查数据在风险评价中的重要作用,也难以直接获取各项指标对于地质灾害风险的贡献度。本研究基于此,提出了一种结合地质灾害点详查数据和灾害危险性、易损性评价指标数据的地质灾害风险评估方法,能够实现区域地质灾害风险分区与验证,为由点到面的灾害风险映射提供了有利工具。

如图2所示,借助3s技术从危险性和易损性的视角构建区域灾害风险评价指标体系,划定指标阈值范围,进而确定指标权重,实现区域地质灾害风险的监测和评价已成为目前应用最为广泛的评价模式。比如目前应用比较广泛的层次分析法、因子分析法、模糊评价法等。这类评价模式主要通过搜集地形起伏度、坡度、降水、植被、断层、河流距离、人口密度、gdp密度等自然要素和社会经济指标,随后对各项评价指标进行主观的阈值的划分。进而采取一定的权重赋值方法(如层次分析法、熵权法、专家打分法、主成分分析法等),根据综合得分分值,采用一定的分级方法(如自然间断点分级法、标准差分级法)对研究区进行灾害风险分区。

上述灾害风险评价方法主要采用阈值划分与权重赋值的思路,这对多灾种风险评价的适应性差。然而,每个灾种对应着不同的影响因子,每类影响因子对于地质灾害风险的作用程度也存在较大差异。因此,不同灾种的同一影响因子的阈值范围存在着不一致性,人为划定统一的阈值范围对于多灾种而言是不科学的。比如,就坡度这一指标而言,因缺乏统一的阈值划分标准,不同学者确定的坡度的划分标准主观性较强,划分结果差异甚大,由此可能导致评价结果的不准确性。此外上述评价指标权重赋值的方法存在过于主观的问题,这对对最终的评价结果也具有重要影响。

近年来,决策树、支持向量机、人工神经网络等机器学习算法是灾害风险评价中运用较多的方法,为地质灾害风险的评估提供了有利工具,也取得了良好的评价效果。这些评价方法较为类似,主要分为模型构建和模型预测两个部分。如图3所示,首先通过研究区的地质灾害危险性和易损性评价指标数据库,选取一定量具有代表性的样本作为模型的训练样本,按照各学习算法原理初步构建地质灾害风险评价模型。其次,开展模型训练学习,通过多次实验,寻求模型的各项最佳参数,构建最终的灾害风险评价模型,迭代逼近风险等级的分类目标,形成灾害风险的分类规则。最后,将研究区余下的所有数据(测试样本)输入学习完毕的地质灾害风险评价模型进行风险等级的预测分类,从而测定出测试样本的地质灾害风险等级。

总体而言,决策树、支持向量机和人工神经网络等算法,忽视了地质灾害点详查数据在风险评价中的重要作用,缺乏基于点的微观尺度的灾害风险属性分解,难以实现基于地质灾害点的多属性的灾害风险评价与验证。而仅有的运用地质灾害点的研究多基于灾害是否发生的属性进行模型训练,忽略了地质灾害点详查数据多风险属性特征。此外,上述方法并不能直接获取各项评价指标对于研究区灾害风险的贡献度,科学确定研究区灾害风险的主控因子仍然是一项挑战。具体而言,上述方法自身也最在着一定不足。如,使用决策树前需要进行大量数据预处理工作,且容易陷入局部最优;支持向量机则因其复杂数学函数而不便应用,且对解决多分类问题存在不足;人工神经网络模型存在过学习、局部最小值和收敛速度慢等问题等。



技术实现要素:

本发明针对上述问题,提供了一种基于随机森林的地质灾害多灾种综合风险评价方法,依据灾害风险理论,充分利用地质灾害点详查数据及其风险属性,并针对不同的地质灾害亚类选取危险性、易损性共性指标构建评价指标体系,避免指标的阈值划分与权重赋值的主观性影响,运用随机森林评价模型,客观评价区域地质灾害风险,实现地质灾害以点至面的风险映射,同时直接获取各项指标对于综合灾害风险的贡献度。

为达到上述目的,本发明采用以下技术方案:

一种基于随机森林的地质灾害多灾种综合风险评价方法,包括以下步骤:

(1)地质灾害风险评价体系构建

从地质灾害主要种类的共性因子入手,针对危险性和易损性的维度选取地形起伏度、坡度、地震烈度、距断层距离、降水、人均gdp、人口密度、路网密度等影响地质灾害风险的13项共性指标,运用arcgis软件创建格网,进一步运用空间分析与分区统计工具将各项评价指标统一到格网之中,并进行可视化表达;

(2)基于地质灾害点的样本选择与风险定级

从灾害风险理论视角将地质灾害点详查数据风险属性分解为灾害点规模、灾害点密度、威胁人数、威胁财产、毁坏房屋、毁坏道路、毁坏水渠属性,基于其属性值,运用投影寻踪聚类模型计算格网的地质灾害的影响系数,进一步运用风险映射机制实现了实现格网单元各项评价指标与对灾害风险的对接;

有灾害点分布的格网的影响系数分为高、中、低三类;用arcgis的子集要素工具,随机选择风险样本,结合研究区的评价指标、地质灾害野外详查点属性对风险样本进行风险等级赋值。

(3)随机森林模型构建与样本训练

随机森林分类是由多个决策树{h(x,θk),k=1,…}组成的组合分类模型,参数集{θk}是独立同分布的随机向量,在给定自变量x下,每个决策树分类模型都通过一票投票来选择最优的分类结果。

首先,利用bootstrap抽样从原始训练集d中抽取k个样本,且每个样本中的特征数(m)都与原始训练集相同;bootstrap抽样为有放回的抽样,提升了训练集的随机性。

然后对k个样本分别建立k个决策树模型,得到k种分类结果{(h1x),h2x,…,hnx};每个样本中随机选取n(n≤m)个特征作为分裂特征集,从中选择最优特征对节点进行生长,当n<m时,每一棵决策树之间又存在差异性。选择最小的基尼值作为最优特征分割标准。

式中,gini(t)为t节点的最小基尼值,p(j|t)为风险j在t节点处的概率。

最后,通过上述步骤形成的随机森林,根据k种分类结果对每个记录进行投票表决以决定其最终分类,公式如下:

f(x1)=m_vote{hi(x)(i=1,2,…,k)

式中:m_vote为投票结果。

将研究区的样本的各项指标数据和地质灾害风险等级数据同时输入到随机森林模型中,对模型进行训练,即可形成地质灾害风险的分类规则。

(4)模型精度评估与指标贡献度计算

模型的精度评估主要依据模型的obb泛化误差,rf采用bagging算法集成训练集,在风险分类树生成后,利用oob数据得出该棵树的错误分类率,即oob误差。对森林中所有树的oob误差取平均作为模型的泛化误差。

各评价指标对于评价结果的重要程度(贡献度)可由各指标在节点分割时基尼系数的减少值计算。计算公式为:

式中,m、n、t分别为总指标个数、分类树棵数和单棵数的节点数,dgkij为第i棵数第j个节点的基尼系数减少值,pk为第k个指标在所有指标中的重要程度。

(5)地质灾害风险评价结果

将研究区所有的数据再次输入到随机森林模型中,利用训练样本在模型中训练形成的灾害风险分类规则对所有格网的灾害风险进行预测,从而得到研究区地质灾害风险的区划结果。

本发明依据区域灾害系统理论,综合考虑孕灾环境的复杂性、致灾因子的多元性和承灾体的脆弱性,从灾害危险性和易损性的维度构建评价指标体系,结合地质灾害点详查数据确定样本风险等级,将随机森林模型运用于地质灾害风险评价之中,实现了以点至面的灾害风险映射。

本发明与现有发明相比,具有以下优点及突出性效果:

首先,本发明从多灾种视角出发,选取地质灾害亚类的共同影响因素,从危险性和易损性维度构建评价指标体系,对多灾种的地质灾害风险评价具有良好的适应性。

其次,充分运用了地质灾害点详查数据,依据灾害风险理论将地质灾害点详查数据风险属性分解,有利于灾害点多维属性的风险验证,同时能够实现格网单元的灾害风险等级与风险评价指标的巧妙对接。相比传统仅仅依靠灾害孕育条的灾害风险评价而言,本发明中的评价结果更为准确,更能反映区域实际的灾害风险水平。我国花费了大量的人力,物力和财力构建了地质灾害点详查数据库,然而目前的研究大都忽视了其在地质灾害风险评价中的重要作用。本发明中,充分运用了地质灾害点详查数据,在风险评价中发挥了其应有的价值。

其再次,结合地质灾害点详查数据和多灾种的地质灾害风险评价指标体系,运用随机森林模型开展地质灾害风险评价,避免了评价指标的阈值划分与权重赋值,在一定程度上降低了评价结果的主观性,实现了地质灾害风险的良好验证和分区,直接获取了各项评价指标对于总风险的贡献度,弥补了以往研究方法的不足。

此外,本技术方案还具有以下优点:在灾害点详查数据不完整的情况下也能完成整体区域上的地质灾害综合风险的评价;无需归一化等去量纲的处理,可处理多种形式数据,还能适应部分属性值缺失的情形;处理高维度和庞杂的数据能力强,可以克服数据多重共线性特征;它更能容忍异常值和噪声,而且不太可能出现过拟合问题。

最后,本发明提出的以点至面的灾害风险评价方法,能够科学客观的实现研究区地质灾害风险分级与区划,有效识别地质灾害风险的主控因子,这对政府和相关部门开展地质灾害点的监测与管理,制定区域地质灾害风险的防治和管控措施具有重要作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

其中:

图1为本发明的技术流程示意图;

图2为现有技术基于传统评价模式地质灾害风险评估流程示意图;

图3为现有技术基于dt、svm、ann等模型的地质灾害风险评价流程示意图;

图4a为本发明地质灾害风险评价指标地形起伏度示意图;

图4b为本发明地质灾害风险评价指标地震烈度示意图;

图4c为本发明地质灾害风险评价指标距离断层距离示意图;

图4d为本发明地质灾害风险评价指标植被覆盖度示意图;

图4e为本发明地质灾害风险评价指标坡度示意图;

图4f为本发明地质灾害风险评价指标岩性示意图;

图4g为本发明地质灾害风险评价指标降水量示意图;

图4h为本发明地质灾害风险评价指标距河流距离示意图;

图4i为本发明地质灾害风险评价指标人均gdp示意图;

图4j为本发明地质灾害风险评价指标人口密度示意图;

图4k为本发明地质灾害风险评价指标建筑密度示意图;

图4l为本发明地质灾害风险评价指标耕地密度示意图;

图4m为本发明地质灾害风险评价指标道路密度示意图;

图5为本发明地质灾害风险由点至面映射机制示意图;

图6为本发明风险分级样本点空间分布示意图;

图7为本发明随机森林模型原理示意图;

图8为本发明评价指标贡献度示意图;

图9为实施例什邡市地质灾害风险评价结果示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

以地质灾害多发的四川省德阳市的什邡市为例,如图1所示,主要通过以下步骤实现以点至面的的地质灾害风险评价。

(1)地质灾害风险评价体系构建

地质灾害是一个涵盖了滑坡,崩塌、泥石流、地面塌陷等众多灾害亚类的灾害系统。不同地质灾害亚类的影响因子及其对灾害风险的作用程度也不一样。因此,依据灾害系统理论,从危险性和易损性的维度选取地形起伏度、坡度、地震烈度、距断层距离、降水、人均gdp、人口密度、路网密度等影响地质灾害风险的13项共性指标。运用arcgis软件创建格网(300×300m),进一步运用空间分析与分区统计工具将各项评价指标统一到格网之中,并进行可视化表达。各评价指标如图4a-图4m所示:

(2)基于地质灾害点的样本选择与风险定级

从灾害风险理论视角将地质灾害点详查数据风险属性分解为灾害点规模、灾害点密度、威胁人数、威胁财产、毁坏房屋、毁坏道路、毁坏水渠等属性。基于其属性值,运用投影寻踪聚类模型计算格网的地质灾害的影响系数,进一步运用本发明中的风险映射机制(图5)实现了实现格网单元各项评价指标与对灾害风险的巧妙对接。这种处理方式可以实现基于地质灾害点数据的风险属性向格网单元地映射,为区域地质灾害风险的评价与验证提供了有利工具,比以往评价方法更能实现“由点及面”的灾害风险评价。

本发明中将有灾害点分布的格网的影响系数分为高、中、低三类。运用arcgis的子集要素工具,随机选择风险样本(综合考虑什邡市实际情况,将地质灾害风险等级划分为高风险、较高风险和中等风险和低风险4级,每类随机选择100个样本,共计400个样本),结合研究区的评价指标、野外调查资料等对风险样本进行风险等级赋值。流程如图5所示:

在此过程中,选取样本的风险赋值主要基于以下原则。首先,采用自然间断点分级法将有灾害点分布格网的灾害影响系数分为,高中低三个等级,分别对应研究区灾害风险的高、较高和中等等级,无灾害点分布的格网划入到低风险区。其次,通过研究区的坡度和人口数据将所选取的样本(格网)进行风险分级,即分为高、较高、中、低风险区。坡度是地质灾害孕育条件中的重要因素之一,以25°的坡度为基准,对大于25°且没有灾害点分布的格网风险等级提升一级。此外,考虑到灾害风险的大小会受到承灾体易损性属性的影响,人口密度和人均gdp越低的区域受灾害影响较小,因此风险越低。而人口密度和人均gdp在空间分布上具有一致性,将研究区的人口密度数据分成高,较高、中、低,按照表1进行风险等级调整。最终可以得到研究区样本的风险级别。如图6所示。

表1基于人口数据的风险等级调整

(3)随机森林模型构建与样本训练

随机森林分类是由多个决策树{h(x,θk),k=1,…}组成的组合分类模型,参数集{θk}是独立同分布的随机向量,在给定自变量x下,每个决策树分类模型都通过一票投票来选择最优的分类结果。

采首先,利用bootstrap抽样从原始训练集d中抽取k个样本,且每个样本中的特征数(m)都与原始训练集相同;bootstrap抽样为有放回的抽样,提升了训练集的随机性。

然后对k个样本分别建立k个决策树模型,得到k种分类结果{(h1x),h2x,…,hnx};每个样本中随机选取n(n≤m)个特征作为分裂特征集,从中选择最优特征对节点进行生长,当n<m时,每一棵决策树之间又存在差异性。本文选择最小的基尼值作为最优特征分割标准。

式中,gini(t)为t节点的最小基尼值,p(j|t)为风险j在t节点处的概率。

最后,通过上述步骤形成的随机森林,根据k种分类结果对每个记录进行投票表决以决定其最终分类,公式如下:

f(x1)=m_vote{hi(x)(i=1,2,…,k)

式中:m_vote为投票结果。

随机森林原理如图7所示。

依据上述原理,将研究区的样本的各项指标数据和地质灾害风险等级数据同时输入到随机森林模型中,对模型进行训练,即可形成地质灾害风险的分类规则。

(4)模型精度评估与指标贡献度计算

模型的精度评估主要依据模型的obb泛化误差,rf采用bagging算法集成训练集,在风险分类树生成后,利用oob数据得出该棵树的错误分类率,即oob误差。对森林中所有树的oob误差取平均作为模型的泛化误差。

各评价指标对于评价结果的重要程度(贡献度)可由各指标在节点分割时基尼系数的减少值计算。如图8所示,计算公式为:

式中,m、n、t分别为总指标个数、分类树棵数和单棵数的节点数,dgkij为第i棵数第j个节点的基尼系数减少值,pk为第k个指标在所有指标中的重要程度。

以什邡为例,从随机森林模型训练结果的obb误差来看,地质灾害评价模型的oob泛化误差为3.6%,这表明评价结果具有非常高的精度。

从各项指标对于研究区总风险的贡献度来看,路网密度、地震烈度、岩性、降水对地质灾害风险贡献率最高,均超过10%,表明其对地质灾害风险影响最为显著;距河流距离、人均gdp、建设用地密度、人口密度、耕地密度对地质灾害风险的贡献率最低,均在5%以下,表明这六项指标对于什邡市地质灾害风险影响较弱。前7项指标累积贡献率占总数的80.44%,表明这些指标对研究区的地质灾害风险起决定性作用。

(5)地质灾害风险评价结果

将研究区所有的数据再次输入到随机森林模型中,利用训练样本在模型中训练形成的灾害风险分类规则对所有格网的灾害风险进行预测,从而得到研究区地质灾害风险的区划结果。

如图9所示,什邡市地质灾害风险具有明显的空间分异性,同时各等级灾害风险空间集聚特征比较突出。高风险区分布在什邡市中部中山区和局部低山丘陵区,约占研究区总面积的10.72%;较高风险区主要位于北部局部山区和中部的丘陵地区,约占总面积的13.93%;中风险区于研究区北部山区集中分布,面积比例达28.06%;低风险区集中分布于南部平原区,约占总面积的44.83%。从空间上来看,低风险区与高风险区、较高风险区之间被平原区与低山丘陵区的分界线所分割。这与研究区地质灾害点空间分布以及实际调研结果比较一致,表明基于本发明的技术方案能够实现地质灾害以点至面的风险映射,且取得了良好的评价效果。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1