基于LASSO回归的土地利用变化驱动力筛选方法和装置与流程

文档序号:15851910发布日期:2018-11-07 10:09阅读:403来源:国知局
基于LASSO回归的土地利用变化驱动力筛选方法和装置与流程
本发明涉及环境建模领域,尤其是基于lasso回归的土地利用变化驱动力筛选方法和装置。
背景技术
土地利用变化是当前全球变化研究的重要内容,是人类社会经济活动行为与自然生态过程交互和链接的纽带。土地利用变化可以通过生物物理和生物地球化学作用改变生态系统的结构和功能,影响生态系统服务。识别土地利用变化驱动力(驱动因子)与土地利用变化的关系,对预测陆地生态系统响应全球变化,制定减缓措施起着至关重要的作用。驱动力是指导致土地利用方式和目的变化的主要自然和人类因素,在自然系统中,气候、土壤、水文等被认为是主要的驱动力类型;在社会系统中,人口变化、贫富状况、技术进步、经济增长、经济结构以及价值观念都能够驱动土地利用变化。复杂的生物物理过程和人类活动以及自然和人类过程的耦合作用使得土地利用变化驱动力的识别复杂化加剧。因此,探索新方法识别土地利用变化驱动力具有重大的意义。目前大多应用统计模型和空间模型进行土地利用变化驱动力的识别,基于线性或非线性相关分析土地利用变化与其驱动力之间关系,通过自变量与因变量的回归计算来拟合土地利用变化与驱动力的相关关系。多元统计模型方法简单实用,适用范围广,随着创新的数学算法的不断发展,如神经网络算法、蚁群算法、随机森林算法等,土地利用建模方法也不断取得新进展。空间模型在处理土地及其驱动力空间属性方面也取得了很好的效果。然而,在复杂的土地系统中,土地利用变化驱动力种类众多,目前的空间模型无法很好地对众多具有多元共线性(又称多重共线性)的驱动力进行变量筛选。技术实现要素:为解决上述技术问题,本发明的目的在于:提供一种基于lasso回归的针对众多具有多元共线性的土地利用变化驱动力的筛选方法和装置。本发明所采取的第一种技术方案是:基于lasso回归的土地利用变化驱动力筛选方法,包括以下步骤:获取研究区域内至少两个时间段的土地利用变化的数据以及驱动因子的数据;以土地利用变化作为lasso回归模型的响应变量,以驱动因子作为lasso回归模型的解释变量,构建lasso回归模型,并执行第一次lasso回归;计算第一次lasso回归中每一步的残差平方和以及多元共线性指标,根据计算得到的残差平方和以及多元共线性指标确定需要剔除的驱动因子;以土地利用变化作为lasso回归模型的响应变量,以剩余的驱动因子作为lasso回归模型的解释变量,执行第二次lasso回归;根据第二次lasso回归中响应变量的系数确定驱动因子的重要性;所述驱动因子的数据包括自然地理数据和经济数据。进一步,还包括以下步骤:对驱动因子的数据进行预处理,剔除异常数据;所述异常数据是指在驱动因子的数据中大于μ+3σ或小于μ-3σ的数据,其中,μ表示驱动因子的数据的正态总体的数学期望,σ表示驱动因子的数据的标准差。进一步,还包括以下步骤:将剔除异常数据后的剩余的驱动因子数据进行统一分辨率处理。进一步,所述lasso回归模型的表达式为:其中,xij为第i数据集的第j个解释变量,yi为第i数据集的响应变量,p表示每个数据集中解释变量的总数,m数据集的总数,λ为惩罚函数,为目标函数。进一步,所述残差平方和的计算公式为:其中,m为样本数量,为响应变量的拟合值,rss为残差平方和。进一步,所述多元共线性指标的计算公式为:其中,cp表示多元共线性指标,表示回归模型中样本的拟合值,e(yi|xi)表示样本的期望值,σ2表示误差方差。进一步,所述自然地理数据包括气温数据、降雨数据和海拔数据中的至少一种;所述经济数据包括国民生产总值、土地政策数据、收入数据和人口数据中的至少一种。本发明所采取的第二种技术方案是:基于lasso回归的土地利用变化驱动力筛选装置,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于加载所述程序以执行基于lasso回归的土地利用变化驱动力筛选方法。本发明的有益效果是:本发明利用lasso回归进行土地利用变化驱动力的多元共线性识别并进行驱动力筛选,首先将所有土地利用变化驱动因子根据lasso回归判断变量的共线性,接着进行变量的剔除,最后根据回归系数识别驱动土地利用变化的关键驱动因子,本发明能够构建较为精炼的模型,能够在拟合广义线性模型的同时进行变量筛选和复杂度调整,能够针对众多具有多元共线性的因变量进行准确的筛选。附图说明图1为本发明基于lasso回归的土地利用变化驱动力筛选方法的流程图;图2为本发明一种具体实施例的基于lasso回归的土地利用变化驱动力筛选方法的流程图。具体实施方式参照图1,基于lasso回归的土地利用变化驱动力筛选方法,包括以下步骤:获取研究区域内至少两个时间段的土地利用变化的数据以及驱动因子的数据;以土地利用变化作为lasso回归模型的响应变量,以驱动因子作为lasso回归模型的解释变量,构建lasso回归模型,并执行第一次lasso回归;计算第一次lasso回归中每一步的残差平方和以及多元共线性指标,根据计算得到的残差平方和以及多元共线性指标确定需要剔除的驱动因子;以土地利用变化作为lasso回归模型的响应变量,以剩余的驱动因子作为lasso回归模型的解释变量,执行第二次lasso回归;根据第二次lasso回归中响应变量的系数确定驱动因子的重要性;所述驱动因子的数据包括自然地理数据和经济数据。进一步作为优选的实施方式,还包括以下步骤:对驱动因子的数据进行预处理,剔除异常数据;所述异常数据是指在驱动因子的数据中大于μ+3σ或小于μ-3σ的数据,其中,μ表示驱动因子的数据的正态总体的数学期望,σ表示驱动因子的数据的标准差。进一步作为优选的实施方式,还包括以下步骤:将剔除异常数据后的剩余的驱动因子数据进行统一分辨率处理。进一步作为优选的实施方式,所述lasso回归模型的表达式为:其中,xij为第i数据集的第j个解释变量,yi为第i数据集的响应变量,p表示每个数据集中解释变量的总数,m数据集的总数,λ为惩罚函数,为目标函数。进一步作为优选的实施方式,所述残差平方和的计算公式为:其中,m为样本数量,为响应变量的拟合值,rss为残差平方和。进一步作为优选的实施方式,所述多元共线性指标的计算公式为:其中,cp表示多元共线性指标,表示回归模型中样本的拟合值,e(yi|xi)表示样本的期望值,σ2表示误差方差。进一步作为优选的实施方式,所述自然地理数据包括气温数据、降雨数据和海拔数据中的至少一种;所述经济数据包括国民生产总值、土地政策数据、收入数据和人口数据中的至少一种。一种与图1中方法所对应的基于lasso回归的土地利用变化驱动力筛选装置,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于加载所述程序以执行基于lasso回归的土地利用变化驱动力筛选方法。下面结合说明书附图和具体的实施例对本发明进行进一步的说明。参照图2,本实施例提供一种基于lasso回归的土地利用变化驱动力筛选方法,该方法包括以下步骤:a、获取研究区域内至少两个时间段的土地利用变化的数据以及驱动因子的数据。获取至少二个时期土地利用数据以及驱动力数据包括自然地理(比如气温、降水和海拔)和经济(比如国民生产总值、土地政策、收入和人口)等方面数据,例如获取1991年和2001年的数据,或者获取1990年至2010年的数据。b、据根据拉依达准则法对驱动因子的数据进行预处理,剔除异常数据;拉依达准则先假设一组检测数据只含有随机误差,然后对其进行计算处理得到标准偏差,按一定概率确定一个区间,拉依达准则认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。本实施例中,所述异常数据是指在驱动因子的数据中大于μ+3σ或小于μ-3σ的数据,其中,μ表示驱动因子的数据的正态总体的数学期望,σ表示驱动因子的数据的标准差。c、将剔除异常数据后的剩余的驱动因子数据进行统一分辨率处理。在本步骤中,可以将不同分辨率的自然地理和经济数据进行预处理,统一数据分辨率。例如,自然地理因子中,气温数据一般是来自气象站点的观测数据,经济数据通常是基于行政区域的统计数据,比如市域、县域、镇域和村域。为了统一土地利用变化驱动因子数据分辨率,对气温数据采用地统计方法进行空间插值,以最大分辨率的经济数据为基准区域单位(比如经济数据中,市为最大分辨率,计算所有驱动因子数据每个市的平均值),这里计算每个市的气温数据平均值,这样,所有自然地理和经济数据统一分辨率为市域。对不同分辨率时间尺度数据采用以最大时间分辨率为基准时间单位,计算该时间段内数据均值,比如月>天>小时>分>秒,以月计算每个月所有天的平均值。d、以土地利用变化作为lasso回归模型的响应变量,以驱动因子作为lasso回归模型的解释变量,构建lasso回归模型,并执行第一次lasso回归。lasso回归(leastabsoluteshrinkageandselectionoperator)是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得回归系数压缩。在本实施例中,lasso回归的定义如下:设数据集(xi,yi),i=1,2,……,m,其中xi=(xi1,xi2,……,xip)t为解释变量,yi为响应变量。假设变量间是相互独立的,同时假设yi为标准化数据,即∑iyi/m=0,∑iyi2/m=1,则定义lasso回归模型为:其中,xij为第i数据集的第j个解释变量,yi为第i数据集的响应变量,p表示每个数据集中解释变量的总数,m数据集的总数,λ为惩罚函数,在估计时用于控制压缩变量,设为普通最小二乘估计值,记则令λ<λ0,可使一些回归系数缩小并趋向于0,为目标函数。采用十折交叉验证法对λ的值,选取交叉验证误差最小的λ值,其中asubjecttob表示b是a的约束条件。e、计算第一次lasso回归中每一步的残差平方和以及多元共线性指标,根据计算得到的残差平方(rss)和以及多元共线性指标(mallows'scp)确定需要剔除的驱动因子。mallows'scp是指统计学上的马洛斯的cp,其中rss和cp值越小,多元共线性越小,因此可以设置一定阈值来剔除部分解释变量。所述多元共线性指标的计算公式为:其中,cp表示多元共线性指标,表示回归模型中样本的拟合值,e(yi|xi)表示样本的期望值,σ2表示误差方差,的具体含义是均方预测误差,是cp的一种计算方式。所述残差平方和的计算公式为:其中,m为样本数量,为响应变量的拟合值,rss为残差平方和。f、以土地利用变化作为lasso回归模型的响应变量,以剩余的驱动因子作为lasso回归模型的解释变量,执行第二次lasso回归。g、根据第二次lasso回归中响应变量的系数确定驱动因子的重要性。其中,系数β介于0到1之间,值越大表示变量越重要,反之,值越小表示变量重要性低。不重要的驱动因子β系数接近0或为0,达到解释变量(驱动因子)筛选的目的。lasso回归可以在r3.4.2软件环境下larspackage(r语言软件的一种功能模块或者数据包)实现。h、应用akaikeinformationcriterion(aic)准则和bayesianinformationcriterions(bic)准则选择最佳模型,aic和bic的值越小越好。模型拟合优度用r平方度量,最好的效果是1。r平方的值越接近1,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好;反之,r平方的值越小,说明模型对样本观测值的拟合程度越差。其中,aic是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。bic是指是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策的一种方法。本实施例具有以下优点:(1)本方法中lasso回归通过构造一个惩罚函数得到一个较为精炼的模型,保留了子集收缩的优点(2)本方法中lasso回归在拟合广义线性模型的同时进行变量筛选和复杂度调整,不论目标因变量是连续的,还是二元或者多元离散的,都可以用lasso回归建模然后预测,其中,复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合,对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险,本方法能够有效地进行变量筛选而避免过度拟合。对于本实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。本实施例以江西省作为土地利用变化驱动力筛选的研究区域:首先,搜集的江西省土地利用变化及其驱动因子数据集包括:1.1995年和2005年二期土地利用数据,土地利用类型为农田的土地利用现状数据。2.自然地理和经济二类土地利用变化驱动因子数据:1995年和2005年,自然地理因子数据包括:气温(sat)和海拔(ele)。经济数据包括:土地利用规划、土地政策(policy)、国民生产总值(gdp),人均国民生产总值(gdpc)、社会零售品销售总额(trscg)、第一产业国民生产总值(gdpp)、第二产业国民生产总值(gdps)、第三产业国民生产总值(gdpt)、恩格尔系数(ec)、乡村居民人均收入(tiri)、乡村人口密度(r-pop)。对所有土地利用变化驱动因子数据根据拉依达准则法进行异常值识别并剔除。统一数据分辨率。将不同分辨率的自然地理和经济数据进行预处理,统一数据分辨率到县为基准空间单位,统一数据分辨率到年为基准时间单位。然后,根据农田土地利用和驱动因子数据,计算农田土地利用变化率和驱动因子变化率。构建lasso回归模型,农田土地利用变化率作为lasso回归模型的响应变量,驱动因子变化率为解释变量,执行lasso回归,计算每一步lasso回归的残差平方和rss和多元共线性指标mallows'scp,根据rss和cp值,判断多元共线性,确定要剔除的变量和保留的变量。最后,计算变量β系数,获得江西省农田土地利用变化驱动因子的关键驱动因子及其重要性。其中,lasso回归模型可以借助r语言完成。本次数据分析对江西省1995至2005年间农田土地利用变化数据和其驱动因子数据进行lasso回归分析,主要分析情况如下(参见表1和表2):表1lasso回归步骤残差平方和rss多元共线性指标cp12314.25995.547722103.87894.257431987.5756.354541836.0545.5487538.3532.6475631.9612.2327722.3510.7247816.573.4475912.655.12351012.317.32451111.347.5471表2lasso回归模型βr2=0.80aic=-694.59policy0.64r-pop0.11tiri0.24表1和表2结果显示了每一步的残差平方和rss和多重共线性指标cp,在第8步以后cp值明显变小,cp越小,多重共线性越小,因此结果以第8步为准,即只剩下3个变量土地政策(policy),乡村居民人均收入(tiri)和乡村人口密度(r-pop),结果表明lasso模型在实际应用中能够解决多重共线性的问题,进行变量选择。1995至2005年间,土地政策(policy),乡村居民人均收入(tiri)和乡村人口密度(r-pop)为江西省农田土地利用变化主要驱动因子。从lasso回归模型中可以看出,系数最大的是土地政策(policy),其次是乡村居民人均收入(tiri),乡村人口密度(r-pop)列第三位。模型检验表明农田土地利用变化lasso回归模型的拟合精度较高,r2=0.80。以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1