一种基于LOGISTIC回归模型的评价方法及系统与流程

文档序号:21988890发布日期:2020-08-25 19:28阅读:495来源:国知局
一种基于LOGISTIC回归模型的评价方法及系统与流程

本发明涉及模型评价技术领域,尤其涉及一种基于logistic回归模型的评价方法及系统。



背景技术:

目前常用的地质灾害评价方法都是以指标权重为基础的,即利用相应的数学模型求得各指标的分权重,再利用线性加权求和法对研究区的评价总值,并按照相关标准对评价结果进行等级划分,得到地质灾害易发性分区结果。

其中,评价指标权重确定的方法可以分为主观权重确定法和客观权重确定法两大类。主观权重确定法以层次分析法(ahp)为代表,主要是由业内专家对各评价指标进行两两比较,按照1~9的标度值对其重要性进行打分,并根据其层次结构对所打分数构造判断矩阵,再利用线性代数知识求出判断矩阵的最大特征根和所对应的特征向量,所求的特征向量即为各评价因素的重要性排序,归一化后,即可得到各指标权重结果。该方法具有严谨的数学逻辑性,但是对重要性打分过程受人为主观影响较大,很容易由认识不全面造成所得评价指标不准确。客观权重确定法以二分logistic回归模型为代表,该方法是根据已发生的历史灾害点和随机生成相同数量的非灾害点为基础,分别将其赋值为“1”和“0”,再利用地理信息手段提取出各个灾害点位置对应评价指标图层的模糊值,然后对各个指标进行logistic回归运算,拟合出各个评价指标的权重。该类方法具有很强的理论依据,同时可排除人为主观因素的影响,但是对于生成的随机非灾害点无法控制,容易与灾害区域混合冲突,造成评价指标权重准确性不高。

因此,现有技术对于地质灾害评价的方法,一方面,不能准确确定非灾害点的位置,且现有技术提供的二分logistic回归模型需要根据历史灾害点和非灾害点来进行模型拟合,由于所需数据量大,非灾害点只能在研究区范围内随机生成,无法准确确定与灾害点的距离,所以会造成非灾害点落在灾害区域范围内,由此导致模型拟合结果不准确。另一方面,现有评价方案的评价精度低,由于各指标权重置信度低,模型拟合精度无法保证,所以导致评价结果不准确。



技术实现要素:

有鉴于此,本发明提供了一种投影画面自动校正方法、系统,用以解决现有的基于logistic回归模型评价的数据量大,且模型拟合结果不准确评价方案的评价精度低的技术问题。

本发明的技术方案如下:

一种基于logistic回归模型的评价方法,所述方法包括:

将待评价区域划分为相同大小的栅格;

获取所述栅格内第一事件点的数量,根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格;所述第一事件点对应第一评价指标;

根据第一栅格中的第一评价指标,获取第一栅格评价指标;

根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率。

相应的,所述根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格,包括:

若所述栅格内第一事件点的数量为n,则将该栅格及其周围n层邻域内的栅格全部判定为灾害栅格。

相应的,所述第一事件点包括地质灾害点。

相应的,所述第一评价指标至少包括坡度、高程、距河流距离、年均降水量、归一化植被指数、距道路距离、距构造距离、地层岩性中的一种或多种。

相应的,所述根据第一栅格中的第一评价指标,获得第一栅格评价指标,包括:

获取第一栅格中第一事件点对应的第一评价指标的最大值与最小值的均值,作为所述第一栅格评价指标。

相应的,所述根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率,包括:

logistic回归模型为:

其中,p表示评价区域内发生第一事件的概率;所述xi表示第一评价指标;所述β0,β1,...,βi为逻辑回归系数。

相应的,所述将待评价区域划分为相同大小的栅格,包括:根据待评价区域内比例尺大小确定栅格的大小。

此外,为实现上述目的,本发明还提出一种基于logistic回归模型的评价系统,所述系统包括:

划分单元,将待评价区域划分为相同大小的栅格;

确定单元,获取所述栅格内第一事件点的数量,根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格;所述第一事件点对应第一评价指标;

指标获取单元,根据第一栅格中的第一评价指标,获取第一栅格评价指标;

模型计算单元,根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率。

相应的,确定单元根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格,包括:

若所述栅格内第一事件点的数量为n,则将该栅格及其周围n层邻域内的栅格全部判定为灾害栅格。

相应的,所述第一事件点包括地质灾害点。

相应的,所述第一评价指标至少包括坡度、高程、距河流距离、年均降水量、归一化植被指数、距道路距离、距构造距离、地层岩性中的一种或多种。

相应的,所述指标获取单元,包括:

获取第一栅格中第一事件点对应的第一评价指标的最大值与最小值的均值,作为所述第一栅格评价指标。

相应的,所述模型计算单元包括:

logistic回归模型为:

其中,p表示评价区域内发生第一事件的概率;所述xi表示第一评价指标;所述β0,β1,...,βi为逻辑回归系数。

相应的,所述划分单元包括:根据待评价区域内比例尺大小确定栅格的大小。

在本发明实施例的方案中,通过将待评价区域划分为相同大小的栅格;获取所述栅格内第一事件点的数量,根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格;所述第一事件点对应第一评价指标;根据第一栅格中的第一评价指标,获取第一栅格评价指标;根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率。本发明,通过用栅格的方式来代替灾害点和非灾害点,以此来进行二分logistic回归分析,提高模拟回归结果的精度。通过用统计栅格内灾害点个数和位置的方法来确定各个灾害栅格的性质,并以此进行回归分析,较现有以灾害点和随机非灾害点来进行二分logistic回归计算的做法,能更精确的计算出各个评价指标的权重信息,获得更高的评价精度。

附图说明

图1为本发明实施例一提供的基于logistic回归模型的评价方法的方法流程图;

图2(a)为本发明实施例一提供的灾害点八邻域示意图;

图2(b)为本发明实施例一提供的灾害点所在方向外扩展2层的扩图;

图3为本发明实施例二基于logistic回归模型的评价系统的结构示意图;

图4为本发明实施例三对灾害点验证所得roc曲线;

图5为本发明实施例三对灾害格网验证所得roc曲线。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本发明实施例一种基于logistic回归模型的评价方法,图1为本发明实施例一提供的基于logistic回归模型的评价方法的方法流程图;所述方法包括:

s101,将待评价区域划分为相同大小的栅格;

相应的,所述将待评价区域划分为相同大小的栅格,包括:根据待评价区域内比例尺大小确定栅格的大小。

实际应用中,根据研究区范围内指标数据的比例尺大小确定栅格的大小,所用公式为:

gs=7.5+0.0006s-2.01×109s2+2.91×1015s3

式中:gs为栅格大小,s为基础数据比例尺的大小,由此确定栅格大小。

s102,获取所述栅格内第一事件点的数量,根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格;所述第一事件点对应第一评价指标;

相应的,所述第一事件点包括地质灾害点。

实际应用中,考虑到二分logistic回归模型需要根据确定的二分值对研究区进行回归计算,因此首先需要确定灾害栅格和非灾害栅格。本发明确定的依据就是根据灾害点与栅格的位置关系,将上一步划分好的栅格单元与已知灾害点叠加,根据位置关系计算统计出每个栅格内的灾害点个数。

相应的,所述根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格,包括:

若所述栅格内第一事件点的数量为n,则将该栅格及其周围n层邻域内的栅格全部判定为灾害栅格。

实际应用中,根据每个栅格中灾害点的个数来确定此栅格是否为灾害栅格,具体实现方法为:如果该栅格内有灾害点,首先把此栅格及其周围八邻域内的栅格全部判定为灾害栅格,如图2(a)所示,中心栅格为有灾害点的栅格(黑色点为灾害点),蓝色栅格为其周围八邻域栅格,把它们全部认定为灾害栅格;其次,统计每个栅格内的灾害点数量,如果灾害点个数大于1,每多一个在原来灾害栅格的基础上向外多扩展一层。以图2(b)为例,中心栅格内灾害点的个数为2(黑色点为灾害点),则将其该栅格及其周围向外扩展的2层邻域内的栅格全部判定为灾害栅格。

在确定完灾害格网后,从所有栅格单元中对灾害格网进行反选,即可得到非灾害格网。

s103,根据第一栅格中的第一评价指标,获取第一栅格评价指标;

相应的,所述根据第一栅格中的第一评价指标,获得第一栅格评价指标,包括:

获取第一栅格中第一事件点对应的第一评价指标的最大值与最小值的均值,作为所述第一栅格评价指标。

实际应用中,用灾害点来进行logistic回归分析的方法能直接提取出灾害点上各个评价指标的值,而本方法用灾害格网代替灾害点,首先提取出格网内各个指标的最大值和最小值,然后计算出灾害格网内各个指标的均值,以均值代替格网内的指标值来进行回归分析。格网内指标a的均值ma计算方式如下:

式中,amax为格网内指标a的最大值,amin为格网内指标a的最小值。

相应的,所述第一评价指标至少包括坡度、高程、距河流距离、年均降水量、归一化植被指数、距道路距离、距构造距离、地层岩性中的一种或多种。

实际应用中,根据研究区的地质环境特点和评价指标的针对性、普适性、可量化和数据易得性等原则,选定自然地理、基础地质和生态条件3大类8个指标作为研究区生态地质环境质量的评价因子:即坡度、高程、距河流距离、年均降水量、归一化植被指数(ndvi)、距道路距离、距构造距离、地层岩性。

s104,根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率。

相应的,所述根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率,包括:

设地质灾害是否发生y为二分因变量(1代表发生,0代表不发生),致灾因子xi为因变量。设p为地质灾害发生的概率,取值范围为[0,1],则1-p为不发生的概率,将两者的比值取自然对数,记为logistp,则:

logistic线性回归模型为:

式中:β0,β1,...,βi为逻辑回归系数,即各因子的权重,其中β0为参考常数。对p求解得:

确定各评价因子的权重后,可通过以上公式求得研究区内地质灾害发生的概率值,根据相关规则,将研究区地质灾害易发性划分为不同等级,得到研究区地质灾害风险预测区划图。

具体地,当地质灾害发生的概率值在0.7以上,则将该区地质灾害易发性划分为高度灾害易发性区域;而当地质灾害发生的概率值在0.3-0.7之间,则将该区地质灾害易发性划分为中度灾害易发性区域;而而当地质灾害发生的概率值在0.3之下,则将该区地质灾害易发性划分为低度灾害易发性区域。

实施例二

本发明实施例一种基于logistic回归模型的评价系统,如图3所示是本发明实施例提供的基于logistic回归模型的评价系统的结构示意图,系统包括:

划分单元301,将待评价区域划分为相同大小的栅格;

相应的,所述划分单元301包括:根据待评价区域内比例尺大小确定栅格的大小。

实际应用中,根据研究区范围内指标数据的比例尺大小确定栅格的大小,所用公式为:

gs=7.5+0.0006s-2.01×109s2+2.91×1015s3

式中:gs为栅格大小,s为基础数据比例尺的大小,由此确定栅格大小。

确定单元302,获取所述栅格内第一事件点的数量,根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格;所述第一事件点对应第一评价指标;

相应的,所述第一事件点包括地质灾害点。

实际应用中,考虑到二分logistic回归模型需要根据确定的二分值对研究区进行回归计算,因此首先需要确定灾害栅格和非灾害栅格。本发明确定的依据就是根据灾害点与栅格的位置关系,将上一步划分好的栅格单元与已知灾害点叠加,根据位置关系计算统计出每个栅格内的灾害点个数。

相应的,所述确定单元302包括:

若所述栅格内第一事件点的数量为n,则将该栅格及其周围n层邻域内的栅格全部判定为灾害栅格。

实际应用中,根据每个栅格中灾害点的个数来确定此栅格是否为灾害栅格,具体实现方法为:如果该栅格内有灾害点,首先把此栅格及其周围八邻域内的栅格全部判定为灾害栅格,如图2(a)所示,中心栅格为有灾害点的栅格(黑色点为灾害点),蓝色栅格为其周围八邻域栅格,把它们全部认定为灾害栅格;其次,统计每个栅格内的灾害点数量,如果灾害点个数大于1,每多一个在原来灾害栅格的基础上向外多扩展一层。以图2(b)为例,中心栅格内灾害点的个数为2(黑色点为灾害点),则将其该栅格及其周围向外扩展的2层邻域内的栅格全部判定为灾害栅格。

在确定完灾害格网后,从所有栅格单元中对灾害格网进行反选,即可得到非灾害格网。

指标获取单元303,根据第一栅格中的第一评价指标,获取第一栅格评价指标;

相应的,所述指标获取单元303包括:

获取第一栅格中第一事件点对应的第一评价指标的最大值与最小值的均值,作为所述第一栅格评价指标。

实际应用中,用灾害点来进行logistic回归分析的方法能直接提取出灾害点上各个评价指标的值,而本方法用灾害格网代替灾害点,首先提取出格网内各个指标的最大值和最小值,然后计算出灾害格网内各个指标的均值,以均值代替格网内的指标值来进行回归分析。格网内指标a的均值ma计算方式如下:

式中,amax为格网内指标a的最大值,amin为格网内指标a的最小值。

相应的,所述第一评价指标至少包括坡度、高程、距河流距离、年均降水量、归一化植被指数、距道路距离、距构造距离、地层岩性中的一种或多种。

实际应用中,根据研究区的地质环境特点和评价指标的针对性、普适性、可量化和数据易得性等原则,选定自然地理、基础地质和生态条件3大类8个指标作为研究区生态地质环境质量的评价因子:即坡度、高程、距河流距离、年均降水量、归一化植被指数(ndvi)、距道路距离、距构造距离、地层岩性。

模型计算单元304,根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率。

相应的,所述模型计算单元304包括:

设地质灾害是否发生y为二分因变量(1代表发生,0代表不发生),致灾因子xi为因变量。设p为地质灾害发生的概率,取值范围为[0,1],则1-p为不发生的概率,将两者的比值取自然对数,记为logistp,则:

logistic线性回归模型为:

式中:β0,β1,...,βi为逻辑回归系数,即各因子的权重,其中β0为参考常数。对p求解得:

确定各评价因子的权重后,可通过以上公式求得研究区内地质灾害发生的概率值,根据相关规则,将研究区地质灾害易发性划分为不同等级,得到研究区地质灾害风险预测区划图。

具体地,当地质灾害发生的概率值在0.7以上,则将该区地质灾害易发性划分为高度灾害易发性区域;而当地质灾害发生的概率值在0.3-0.7之间,则将该区地质灾害易发性划分为中度灾害易发性区域;而而当地质灾害发生的概率值在0.3之下,则将该区地质灾害易发性划分为低度灾害易发性区域。

实施例三

本发明基于上述实施例一、二提出的基于logistic回归模型的评价方法、系统,进行模型验证并结合数据进行分析。

本发明采用某市1108个历史灾害点来进行试验,其中80%(886个灾害点)用于生成模型,20%(222个灾害点)用于模型验证。

实验一:根据现有最好的方法来模拟计算,首先根据已知灾害点和生成的非灾害点提取出各个评价指标的对应值,并据此进行二分logistic回归分析,得到各个评价指标的权重,并据此对各个评价指标进行线性加权运算,最好将运算结果分级显示得到最终评价结果。

实验二:利用本发明的格网方法,首先根据格网划分公式将研究区分为5983872个格网,再将历史灾害点与格网相叠加,利用分区统计工具计算各个格网内的灾害点数量,并据此统计出所有的灾害格网,共计11032个灾害格网,随机抽取其中80%(8826个格网)用于生成模型,剩余的20%(2206个格网)用于模型验证,再用所有格网减去灾害格网,得到非灾害格网,然后从中随机选取相同数量的(8826个)非灾害格网,和灾害格网一起提取格网内评价指标的平均值用于回归分析,得到各个评价指标的权重,并据此对各个评价指标进行线性加权运算,对运算结果分级显示得到最终评价结果。

结果验证:

方法一:将两种方法生成的评价结果与各自的灾害点和灾害格网叠加,提取出灾害点和灾害格网所对应的评价结果值,与已知值“1”进行roc分析,得到roc曲线并计算出auc值,见图4,图5。当roc曲线下面积越大,auc值越高则模拟结果准确性越高,根据roc曲线下面积和auc值可以看出本发明准确率更高。

方法二:将剩余的20%个灾害点和灾害格网与评价结果图相叠加,统计各自被正确预测的准确率,见表1.

表1不同易发程度中灾害点个数及占比

通过对以上两种方法的对比验证可以看出,在相同实验条件下,本发明比现有最好方法的auc和正确性更高。

这一系列的实验表明,本发明是一种高精度的二分logistic回归评价方法,优于现有的所有同类技术。

在本发明实施例的方案中,通过将待评价区域划分为相同大小的栅格;获取所述栅格内第一事件点的数量,根据所述栅格内第一事件点的数量确定该栅格是否为第一栅格及其周围栅格是否为第一栅格;所述第一事件点对应第一评价指标;根据第一栅格中的第一评价指标,获取第一栅格评价指标;根据第一栅格评价指标与logistic回归模型,计算所述评价区域内发生第一事件的概率。本发明,通过用栅格的方式来代替灾害点和非灾害点,以此来进行二分logistic回归分析,提高模拟回归结果的精度。通过用统计栅格内灾害点个数和位置的方法来确定各个灾害栅格的性质,并以此进行回归分析,较现有以灾害点和随机非灾害点来进行二分logistic回归计算的做法,能更精确的计算出各个评价指标的权重信息,获得更高的评价精度。

本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1