一种边坡稳定性评价方法

文档序号:30584206发布日期:2022-06-29 16:12阅读:183来源:国知局
一种边坡稳定性评价方法

1.本发明涉及一种边坡稳定性评价方法。


背景技术:

2.我国是世界上收滑坡地质灾害最严重的国家之一,滑坡频繁造成了大量的人员伤亡和财产损失,已成为人类生存发展及工程建设中无法回避的重要问题。中国特殊的地质构造决定了滑坡的易发性、严重性及区域差异性。受地势影响,西南地区多为高易发区域。因此,对于如何便捷有效地评估边坡的稳定性一直以来是工程人员关注的重要问题。
3.由于滑坡变形是一个具有多种特征的现象,传统的计算方法忽略了影响滑坡的多因素,不能综合考虑,制约了评估的可靠度;此外,不同边坡具有不同的地形地貌、地质条件和斜坡特征,现有的稳定性评价方法无法对不同类型边坡的稳定性进行准确评估。


技术实现要素:

4.本发明的目的是提供一种边坡稳定性评价方法,以解决现有技术中存在的问题。
5.为实现本发明目的而采用的技术方案是这样的,一种边坡稳定性评价方法,包括以下步骤:
6.1)根据地勘资料获取边坡研究区域的地形地貌、地质条件和斜坡特征;地形地貌包括高程、坡高、坡度和坡向,地质条件包括地层岩性、岩层倾角、岩层倾向和坡体结构,斜坡特征包括斜坡形态、坡体规模、坡体扰动和裂缝位置,坡体扰动由人类活动影响因素决定;
7.2)利用arcgis软件对边坡研究区域进行可视化处理;
8.3)对数据进行特征选择,确定边坡稳定性状态的12个影响因子;
9.4)提取边坡研究区域的12个影响因子的相关数据,形成初始数据集;
10.5)对初始数据集进行数据筛选;
11.6)将筛选后的数据集进行随机划分,得到训练集和测试集,并将对应数据分别代入svc、rfc、xgboost和lr四种算法中;
12.7)通过混淆矩阵分别计算出四种模型的召回率、精确率以及准确率作为评价指标;
13.8)将四种模型的评价指标分别与工程标准比较,挑选出最优模型;
14.9)利用最优模型评价其它边坡的稳定性。
15.进一步,在步骤3)中,边坡稳定性状态的12个影响因子分为数值型变量和分类型变量;
16.所述数值型变量包括前缘高程、后缘高程、坡体高度、坡度值、岩层倾角、岩层倾向和体积;
17.所述分类型变量包括岩石类型、斜坡结构类型、边坡平面形态、边坡剖面形态和人类活动影响因素;
18.在统计所述坡体高度和坡度值时,利用arcgis软件对研究区域高程栅格图进行可视化并与滑坡点进行比较,将前缘高程和后缘高程作为数值型变量进行分析,前缘高程与后缘高度数据差值为坡体高度;利用arcgis提取高程图中的坡度值;
19.所述岩石类型包括坚硬岩、较硬岩、较软岩、软岩和极软岩;
20.所述斜坡结构类型包括逆向坡、平缓层状坡、斜向坡、横交坡和顺向坡,分别采用0、1、2、3、4和5表示;
21.所述边坡平面形态包括不规则形、半圆形、横长形、箕形和矩形,分别采用0、1、2、3、4和5表示;
22.所述边坡剖面形态包括凸形、凹形、复合形、平直形和阶梯形,分别采用0、1、2、3、4和5表示;
23.所述人类活动影响因素包括地下开挖、坡后堆载、破坏植被、削坡和爆破振动,每一类影响因素定义影响程度为1,当有多个影响因素共同作用,将影响程度进行叠加。
24.进一步,步骤7)中模型的召回率的表达式为:aij/(ai1+ai2+ai3);模型的精确率的表达式为:aij/(a1j+a2j+a3j);模型的准确率的表达式为:(a11+a22+a33)/n;
25.其中:i取值为1、2和3,分别表示实际状态的三种稳定性;j取值为1、2和3,分别表示预测状态的三种稳定性,aij表示不同预测状态与实际状态对应的统计数,n表示原始数据的样本数量。
26.进一步,步骤9)之后还具有如下步骤:采用最优模型对应的特征权重对影响因子的重要性进行分析,根据影响因子的重要性确定边坡治理方案。
27.本发明的技术效果是毋庸置疑的,本发明方法可以针对不同情况,确定采用最优算法来进行最有效的评估,过程简单有效;此外,本发明计算模型的召回率、精确率以及准确率作为评价指标,可精确挑选出最优模型。
附图说明
28.图1为本发明流程图;
29.图2为研究区高程图;
30.图3为研究区坡度图;
31.图4为研究区坡向图;
32.图5为不同斜坡结构类型示意图;
33.图6为五折交叉验证示意图;
34.图7为svc模型预测值混淆矩阵;
35.图8为rfc模型预测值混淆矩阵;
36.图9为xgboost模型预测值混淆矩阵;
37.图10为lr模型预测值混淆矩阵;
38.图11为影响因子特征重要性;
39.图12为边坡剖面形态。
具体实施方式
40.下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅
限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
41.当一个区域内有较密集的边坡分布,由于坡体土质、空间等各方面具有相似性,从数学角度两两之间具有隐性的联系,而这种联系可以通过机器学习来显化,从而预测未知边坡的稳定性。
42.本实施例公开了一种边坡稳定性评价方法,以云阳县为例进行评价,具体包括以下步骤:
43.1)根据地勘资料获取云阳县的地形地貌、地质条件和斜坡特征;地形地貌包括高程、坡高、坡度和坡向,地质条件包括地层岩性、岩层倾角、岩层倾向和坡体结构,斜坡特征包括斜坡形态、坡体规模、坡体扰动和裂缝位置,坡体扰动由人类活动影响因素决定;
44.2)利用arcgis软件对边坡研究区域不同边坡样本进行可视化处理,如对云阳县高程栅格图进行可视化,得到该地区高程分布图,如图2所示。
45.3)对数据进行特征选择,确定边坡稳定性状态的12个影响因子;边坡稳定性状态的12个影响因子分为数值型变量和分类型变量;
46.所述数值型变量包括前缘高程、后缘高程、坡体高度、坡度值、岩层倾角、岩层倾向和体积;
47.所述分类型变量包括岩石类型、斜坡结构类型、边坡平面形态、边坡剖面形态和人类活动影响因素;
48.在统计所述坡体高度和坡度值时,利用arcgis软件对研究区域高程栅格图进行可视化并与滑坡点进行比较,将前缘高程和后缘高程作为数值型变量进行分析,前缘高程与后缘高度数据差值为坡体高度;参见图3,利用arcgis提取高程图中的坡度值;参见图4,为研究区坡向图。
49.所述岩石类型包括坚硬岩、较硬岩、较软岩、软岩和极软岩,具体可见下表:
50.表1
[0051][0052]
表2为云阳县786个边坡样本的岩性软硬程度和稳定性情况:
[0053]
表2不同稳定性滑坡岩性软硬程度分布情况
[0054][0055]
所述斜坡结构类型包括逆向坡、平缓层状坡、斜向坡、横交坡和顺向坡,分别采用0、1、2、3、4和5表示;参见图5,为不同斜坡结构类型示意图,其中的图5a为平缓层状坡,图5b和5c为顺向坡,图5d和5e为斜向坡,图5f和5g为横交坡,图5h和5i为逆向坡。
[0056]
表3为云阳县786个不同稳定性滑坡结构类型分布情况:
[0057]
表3不同稳定性滑坡结构类型分布情况
[0058][0059]
根据《水利水电工程边坡设计规范》(sl386-2007)可知,所述边坡平面形态包括不规则形、半圆形、横长形、箕形和矩形,分别采用0、1、2、3、4和5表示;表4为云阳县786个不同
稳定性滑坡平面形态分布情况:
[0060]
表4不同稳定性滑坡平面形态分布情况
[0061][0062]
根据中国地质调查局《滑坡崩塌泥石流灾害详细调查规范(2008)》中的附表a的内容,所述边坡剖面形态包括凸形、凹形、复合形、平直形和阶梯形,分别采用0、1、2、3、4和5表示,参见图12,其中的图12a为边坡的凸形剖面形态,图12b为边坡的平直形剖面形态,图12c为边坡的凹形剖面形态,图12d为边坡的阶梯形剖面形态,图12e为边坡的复合形剖面形态;表5为云阳县786个不同稳定性滑坡剖面形态分布情况:
[0063]
表5云阳县786个不同稳定性滑坡剖面形态分布情况
[0064][0065]
所述人类活动影响因素包括地下开挖、坡后堆载、破坏植被、削坡和爆破振动,每一类影响因素定义影响程度为1,当有多个影响因素共同作用,将影响程度进行叠加;表6为云阳县786个不同稳定性滑坡人类活动分布情况:
[0066]
表6云阳县786个不同稳定性滑坡人类活动分布情况
[0067][0068]
4)提取边坡研究区域的12个影响因子的相关数据,形成初始数据集;
[0069]
5)对初始数据集进行数据筛选;在机器学习模型建立之前,数据预处理工作对于模型建立起着至关重要的作用,因为初始数据集可能会存在缺失值、重复值以及异常值等。处理方法如下:数据库中缺失值主要存在于剖面形态这一评价因子中,一般而言,数据缺失值处理通常包括删除行样本,按照众数、均值或空值填充等方式,考虑到采用填充数值补全数据的方式不一定符合现实情况,对样本的整体准确性产生影响,因此常采用直接删除样本行进行处理。
[0070]
6)将筛选后的数据集进行随机划分,得到训练集和测试集,并将对应数据分别代入svc、rfc、xgboost和lr四种算法中;在本实施例中,将云阳县786个滑坡样本数据集按照8:2的比例进行随机划分,得到训练集和测试集,即采用628个数据作为训练集,158个数据作为测试集,滑坡数据集划分表如表7所示:
[0071]
表7滑坡数据集划分表
[0072][0073]
为了便于编码及分析,将上述影响因子进行编号,具体编码如表8所示:
[0074]
表8影响因子分类说明表
[0075][0076]
在全样本数据集的情况下,对边坡数据进行预整理,对分类型变量进行自然数编码,样本数据如下表9所示,边坡稳定性编码方式为2代表稳定性好,1代表基本稳定,0代表稳定性差。
[0077]
表9样本数据列举
[0078][0079]
7)k折交叉验证,原始数据集被平均分为k个子集,假设数据集为n,可表示为n=n1∪n2…
∪nk,且其中每个子集nk尽可能保持数据分布的一致性,在划分好的数据集中取其中一份作为验证集,剩余k-1份作为训练集进行训练,然后子集交替充当独立测试集,而其他子集充当训练集。将此步骤重复k次,对每次得到的模型预测结果的平均值进行平均得到最终的评价指标。这个过程增加了训练子集多样性,同时保证了均匀采样。
[0080]
在超参数调优过程中,首先将数据集合划分为训练集和测试集,然后对对训练集进行k折交叉验证,即将训练集继续分为k份子集,进行建模,最终得到模型表现最好的一组超参数即作为最终超参数结果。本实施例将k值设置为5,对模型进行超参数调优,5折交叉验证的示意图如图6所示,最后取5折验证分数的平均值。
[0081]
8)通过混淆矩阵分别计算出四种模型的召回率、精确率以及准确率作为评价指标,召回率(recall rate)表示模型对边坡三种稳定性状态判断的正确率,这个数值代表模型对每种情况判断正确的概率,在很大程度上决定了模型的适用性;模型的召回率的表达式为:aij/(ai1+ai2+ai3);模型的精确率的表达式为:aij/(a1j+a2j+a3j);模型的准确率的表达式为:(a11+a22+a33)/n;混淆矩阵见下表:
[0082]
表10
[0083][0084]
其中:i取值为1、2和3,分别表示实际状态的三种稳定性;j取值为1、2和3,分别表
示预测状态的三种稳定性,aij表示不同预测状态与实际状态对应的统计数,n表示原始数据的样本数量。
[0085]
9)将四种模型的评价指标分别与工程标准比较,挑选出最优模型;其中,采用svc对训练集和测试集进行建立模型得到如图7的计算结果,其中的图7a为svc算法训练集,图7b为svc算法测试集,其中训练集和测试集中对基本稳定情况的召回率均为1,总体准确率分别为0.865和0.886。
[0086]
但是,对于稳定性好和稳定性差这两种情况,模型均按照预测为基本稳定,因此对于这两种情况的召回率均为0,这说明svc在判断这种样本不均衡问题时,即便设置模型的样本不均衡参数,模型虽然能够对多数类判断正确,但在捕捉少数类方面存在不足。
[0087]
对于随机森林模型,n_estimators,max_depth分别控制着森林中树的数量和树的深度,是模型中两个最重要的超参数,在五折交叉验证情况下,本实施例对这两个超参数采用网格搜索方式进行优化,当其他参数设为默认值,随机状态设为random_state=17,n_estimators=16和max_depth=15时,模型效果最好。
[0088]
通过建立随机森林分类模型,在训练集中,模型总体准确率达到0.990,其中对于稳定性好、基本稳定和稳定性差三种情况的召回率分别为0.853、1.000和0.980,在测试集中,模型总体的准确率为0.911,在召回率方面,其中基本稳定情况的召回率为1.000,对稳定性好这种情况均判断为基本稳定,对于稳定性差的情况,其中有9个被判断为基本稳定,通过对比训练集和测试集结果可得,模型在训练集上的预测结果比较理想,但在测试集上,对于基本稳定情况的判断,模型表现较好,对于稳定性好和稳定性差这两种情况,rfc模型比svc模型表现有所提高,但仍存在召回率较低的情况。总体而言,模型的准确率判断是比较高的。
[0089]
参见图8,为rfc模型预测值混淆矩阵,其中的图8a为rfc算法训练集,图8b为rfc算法测试集。
[0090]
参见图9,为xgboost模型预测值混淆矩阵,其中的图9a为xgboost算法训练集,图9b为xgboost算法测试集。
[0091]
参见图10,为lr模型预测值混淆矩阵,其中的图10a为lr算法训练集,图10b为lr算法测试集。
[0092]
四种模型预测表现如表11所示:
[0093]
表11四种模型预测表现
[0094][0095]
综合四个模型的表现,考虑整体稳定性,训练集中xgboost模型的表现最好,其次是rfc模型,lr模型和svc模型效果相差无几,测试集中rfc模型表现最好,其次是xgboost模型,lr模型和svc模型表现一致。考虑模型召回率的情况,训练集中,xgboost模型将全部样
本均判断正确,其次是rfc模型,对于lr模型和svc模型,基本稳定情况的召回率均为1.000,但对于其他两种状态的召回率不如前两种集成模型效果,而且少数类多被预测为多数类。测试集中rfc模型的效果优于其他三种模型,其中对于基本稳定情况的召回率为1.000,对于稳定性差的情况的召回率接近三分之一,对于稳定性好的样本将其判断为基本稳定状态。xgboost模型的召回率与rfc模型的召回率的区别在于对稳定性差状态判断正确的数量,但对于rfc模型召回率的提高是以降低训练集的召回率为代价的,综合来看,xgboost模型的效果更好。对于svc和lr模型,由于这两个模型属于基分类器,在召回率方面,因为少数类的数量远小于多数类,因此模型更倾向于将少数类判断为多数类,因此效果不如集成模型。
[0096]
通过对上述模型表现进行分析,可以看出xgboost模型的效果最好,因此采用该模型对应的特征权重对影响因子的重要性进行分析。在xgboost模型训练过程中,可以计算得到不同特征所代表的重要性程度,通过输入feature_importances_这个模型属性,可以返回每个特征的重要性,通常采用特征在多次分枝中产生的信息增益综合对特征重要性判断,该指标也被称为“基尼重要性”,计算公式可表达为:
[0097][0098]
其中,pa表示第a个特征的重要性程度,b、c、d分别代表特征数目、决策树数量以及单颗决策树的节点数目,g
aef
表示第a个特征在第e颗树的第f个节点的基尼指数减少值。
[0099]
根据上述公式计算得到各个影响因子对模型的重要性程度,计算结果如图11所示。
[0100]
通过对影响因子的重要性进行排序,可以看出,剖面形态,斜坡结构类型,人类活动,后缘高程及体积等五个评价因子在xgboost模型中重要性较高,表明在xgboost模型对边坡稳定性状态评价中这五个因素影响最大。结果表明,斜坡剖面形态在随机模型中重要性最高,占比超过0.1,人类活动、坡体规模和坡度重要性均超过0.08影响较大。分析主要原因在于滑坡体的稳定状态主要受控于坡体的变形形式和整体结构类型,因此影响作用最大,其次,坡体的规模、坡度影响着坡体整体变形的易发性,同时,人类活动对坡体产生较大的扰动,因此这一因素也相对较为重要。
[0101]
对于岩性软硬程度、坡高和平面形态这三个影响因子,模型得出的特征重要性相对偏低,主要是因为坡高是后缘高程与前缘高程之差,这个值与后缘高程的数值相比要小很多,而且对于大部分样本来说,数据的差别不大,因此重要性偏低,其次,对于坡体的平面形态这个因素,其间接受到人类活动,变形形式等多方面因素影响,因此其重要性低于其他因素,但其在一定程度上也反映了坡体的规模,因此对于坡体稳定性状态判断仍存在一定的重要性。
[0102]
10)利用最优模型评价其它边坡的稳定性。
[0103]
11)根据最优模型影响因子的重要性确定边坡治理方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1