一种基于随机森林的县域耕地自然质量评价方法与流程

文档序号:11730086阅读:271来源:国知局
一种基于随机森林的县域耕地自然质量评价方法与流程

本发明涉及耕地质量调查评价领域,具体涉及一种基于随机森林的县域耕地自然质量评价方法及系统。



背景技术:

对现有耕地的质量进行调查评价已经成为我国的年度周期性工作,由此可见我国不断提升对保证粮食安全工作的重视。耕地质量评价工作对于国家从宏观上掌握我国耕地数量和质量的变化,保持我国农业的可持续发展具有重要意义。因此,客观、准确的进行耕地质量评价具有十分重要的现实意义。

目前,最常用的耕地质量评价方法是在地理信息系统平台上,对影响耕地自然质量的土壤因素和土壤环境因素这些评价指标赋予权重,通过加权平均法得到耕地自然等,再通过修正系数对自然等进行修正得到耕地质量利用等、经济等。但是对评价指标进行权重赋值易受到人为主观因素的影响,使得对县域耕地自然质量评价会产生误差,不能客观地反映耕地自然质量的实际情况。



技术实现要素:

针对现有技术中的缺陷,本发明提供一种基于随机森林的县域耕地自然质量评价方法及系统。

为解决上述技术问题,本发明提供以下技术方案:

第一方面,本发明提供了一种基于随机森林的县域耕地自然质量评价方法,包括:

s1、获取第一县域内全部耕地图斑的所有指标数据;

s2、依据所述第一县域所属指标区的规则,根据所述第一县域内每一指标所属的量化区间范围对该指标进行评分,得到该指标的评分;

s3、对各个指标的评分进行归一化处理,得到归一化后的各个指标评分数据;

s4、以归一化后的各个指标评分数据作为输入,自然质量指数作为输出训练第一随机森林耕地自然质量评价模型;

s5、将第二县域内待评价的耕地图斑的归一化后的指标评分输入所述第一随机森林耕地自然质量评价模型,得到所述待评价的耕地图斑的自然质量指数,其中,所述第一县域与第二县域属于同一指标区。

第二方面,本发明还提供了一种基于随机森林的县域耕地自然质量评价系统,包括:

获取单元,用于获取第一县域内全部耕地图斑的所有指标数据;

评分单元,用于依据所述第一县域所属指标区的规则,根据所述第一县域内每一指标所属的量化区间范围对该指标进行评分,得到该指标的评分;

归一化单元,用于对各个指标的评分进行归一化处理,得到归一化后的各个指标评分数据;

训练单元,用于以归一化后的各个指标评分数据作为输入,自然质量指数作为输出训练第一随机森林耕地自然质量评价模型;

评价单元,用于将第二县域内待评价的耕地图斑的归一化后的指标评分输入所述第一随机森林耕地自然质量评价模型,得到所述待评价的耕地图斑的自然质量指数,其中,所述第一县域与第二县域属于同一指标区。

由上述技术方案可知,本发明提供的基于随机森林的县域耕地自然质量评价方法及系统,能够对耕地自然质量进行客观、准确、便捷的评价。利用归一化后的各个指标评分对第一随机森林耕地自然质量评价模型进行训练,不涉及到权重问题,能够有效避免由于主观判断制定标准所造成的误差,进而可以更客观地反映耕地自然质量的实际情况。本发明实施例提供的基于随机森林的县域耕地自然质量评价方法及系统能为市域、省域乃至全国的耕地自然质量评价提供有利参考。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于随机森林的县域耕地自然质量评价方法的流程图;

图2是本发明一实施例提供的基于随机森林的县域耕地自然质量评价系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示出了本发明一实施例提供的基于随机森林的县域耕地自然质量评价方法的流程图,参见图1,该方法包括如下步骤:

步骤s1:获取第一县域内全部耕地图斑的所有指标数据;

本实施例中,具体可以从县域耕地质量调查评价成果空间数据库中获取第一县域内全部耕地图斑的所有指标数据。

步骤s2:依据所述第一县域所属指标区的规则,根据所述第一县域内每一指标所属的量化区间范围对该指标进行评分,得到该指标的评分;

在本步骤中,为使各指标可比,需使各指标的度量单位统一,故对各指标数据进行评分,对于每一指标数据的实际值,根据其实际值所属的量化区间范围进行评分,每一量化区间范围都有对应的分值。该分值为根据《农用地质量分等规程》(gb/t28407-2012)标准中附录c所示的评价指标分值确定的分值。

步骤s3:对各个指标的评分进行归一化处理,得到归一化后的各个指标评分数据,其中,归一化后所有指标评分数据的值都被规整到[0,1]范围内;

步骤s4:以归一化后的各个指标评分数据作为输入,自然质量指数作为输出训练第一随机森林耕地自然质量评价模型;

使用归一化后的指标评分数据训练第一随机森林耕地自然质量评价模型,以归一化后的指标评分作为输入,自然质量指数作为输出。调整随机森林的生长树数目n和节点分裂时输入的特征变量数m,直至模型精度达到预设要求,完成模型的训练。

步骤s5:将第二县域内待评价的耕地图斑的归一化后的指标评分输入所述第一随机森林耕地自然质量评价模型,得到所述待评价的耕地图斑的自然质量指数,其中,所述第一县域与第二县域属于同一指标区。

可以理解的是,本发明实施例建立的第一随机森林耕地自然质量评价模型是基于随机森林算法的,且该模型是以第一县域内各耕地图斑的所有归一化后指标评分数据作为输入,以各耕地图斑的自然质量指数作为输出来实现耕地自然质量评价的。在本实施例中,由于作为基于第一随机森林耕地自然质量评价模型输入的指标评分是统一标准的指标体系,故本实施例提供的评价方法对于同一指标区内的县域均适用。

本发明提供的基于随机森林的县域耕地自然质量评价方法,能够对耕地自然质量进行客观、准确、便捷的评价。利用基于随机森林的县域耕地自然质量评价方法建立的评价模型避免了技术人员在为作为评价指标的土壤因素及土壤环境因素赋予权重时因为人为主观性而导致的误差,进而可以更客观地反映耕地自然质量的实际情况。

在一种可选实施方式中,所述s3可以包括如下步骤:

对各个指标的评分,利用如下公式进行归一化处理:

其中,k为归一化后的指标评分数据,xi为指标的评分,xmax为指标评分规则中设置的最高分值,xmin为指标评分规则中设置的最低分值。

在前述方法实施例的基础上,所述s4可以包括如下步骤:

s41、采用bootstrap抽样技术从输入数据中抽取预设数量个训练集,每个训练集的大小为输入数据的2/3;

需要说明的是,在每次抽样中,有大约1/3的数据未被抽中,通过使用这部分袋外数据(out-of-bag)进行内部误差估计,产生oob误差。调整生长树的数目n使oob误差趋于稳定,使随机森林不会出现过拟合现象。节点分裂时输入的特征变量数m,利用如下公式计算:

其中m为指标的个数。

s42、为每个训练集分别建立cart树(分类回归决策树),生成由所述预设数量棵cart树组成的森林,使用最小平方残差确定回归树的最优划分,该划分准则使期望划分之后的子树误差方差最小;

s43、以所述训练集作为输入,集合所述预设数量棵决策树的输出结果,以所有回归树输出的平均值作为输出,对所述第一随机森林耕地自然质量评价模型进行训练。

在前述方法实施例的基础上,所述s4还可以包括如下步骤:

根据各个指标的变化对耕地自然质量评价结果的影响程度,计算各个指标的变量重要性,选取变量重要性最高的k个指标建立第二随机森林耕地自然质量评价模型,其中,1≤k≤m,m为指标的数量,所述第一随机森林耕地自然质量评价模型和第二随机森林耕地自然质量评价模型的精度之差在预设的范围内;

本实施例中,指标选取的过程为:从1开始,选取变量重要性最高的k(1≤k≤m)个指标建立第二随机森林耕地自然质量评价模型,对这一过程进行迭代直到第二随机森林耕地自然质量评价模型的精度与第一随机森林耕地自然质量评价模型的精度之差达到预设要求,从而完成耕地自然质量评价模型的简化。而指标变量重要性可以根据oob误差计算,其公式如下所示:

其中,v(xj)为指标xj的变量重要性,et为随机森林中第t个回归树的袋外误差,为随机改变袋外数据第j个指标xj的值后第t个回归树产生的新的袋外误差,n为回归树的个数。

其中,所述s5,可以包括:

将所述待评价的耕地图斑的归一化后的指定指标评分输入所述第二随机森林耕地自然质量评价模型,得到所述待评价的耕地图斑的自然质量指数,其中,所述指定指标为所述变量重要性最高的k个指标。

在不同的地理环境条件下,不同指标对不同地域的耕地自然质量的影响程度不同,并非所有指标都对区域内的耕地自然质量的变化产生了显著的影响。本实施例中,根据被调查县域的实际情况,筛选出对县域内耕地自然质量起决定作用的指标,忽略对县域内耕地自然质量影响不大的指标,对于与该县域处于同一指标区内的任意县域的耕地质量调查评价工作,可只对其变化会对耕地质量产生较大影响的指标进行周期性测量,从而减轻年度性耕地自然质量调查评价工作的工作量。

本发明另一实施例提供了一种基于随机森林的县域耕地自然质量评价系统,参见图2所示的系统结构图,该系统包括:获取单元1、评分单元2、归一化单元3、训练单元4和评价单元5,其中:

所述获取单元1,用于获取第一县域内全部耕地图斑的所有指标数据;

所述评分单元2,用于依据所述第一县域所属指标区的规则,根据所述第一县域内每一指标所属的量化区间范围对该指标进行评分,得到该指标的评分;

所述归一化单元3,用于对各个指标的评分进行归一化处理,得到归一化后的各个指标评分数据;

本实施例中,所述归一化单元3,具体可以用于:

对各个指标的评分,利用如下公式进行归一化处理:

其中,k为归一化后的指标评分数据,xi为指标的评分,xmax为指标评分规则中设置的最高分值,xmin为指标评分规则中设置的最低分值。

所述训练单元4,用于以归一化后的各个指标评分数据作为输入,自然质量指数作为输出训练第一随机森林耕地自然质量评价模型;

本实施例中,所述训练单元4,具体可以用于:

采用bootstrap抽样技术从输入数据中抽取预设数量个训练集,每个训练集的大小为输入数据的2/3;

为每个训练集分别建立cart树,生成由所述预设数量棵cart树组成的森林,使用最小平方残差确定回归树的最优划分,该划分准则使期望划分之后的子树误差方差最小;

以所述训练集作为输入,集合所述预设数量棵决策树的输出结果,以所有回归树输出的平均值作为输出,对所述第一随机森林耕地自然质量评价模型进行训练。

所述评价单元5,用于将第二县域内待评价的耕地图斑的归一化后的指标评分输入所述第一随机森林耕地自然质量评价模型,得到所述待评价的耕地图斑的自然质量指数,其中,所述第一县域与第二县域属于同一指标区。

在前述实施例的基础上,所述训练单元4还可以用于:

根据各个指标的变化对耕地自然质量评价结果的影响程度,计算各个指标的变量重要性,选取变量重要性最高的k个指标建立第二随机森林耕地自然质量评价模型,其中,1≤k≤m,m为指标的数量,所述第一随机森林耕地自然质量评价模型和第二随机森林耕地自然质量评价模型的精度之差在预设的范围内;

其中,所述评价单元5,具体可以用于:

将所述待评价的耕地图斑的归一化后的指定指标评分输入所述第二随机森林耕地自然质量评价模型,得到所述待评价的耕地图斑的自然质量指数,其中,所述指定指标为所述变量重要性最高的k个指标。

本实施例中,先以第一县域全部图斑的所有指标作为输入,各图斑的自然质量指数作为输出进行建模,然后在模型精度达到预设标准后,通过对各指标对耕地自然质量的影响程度进行评估,用对该县域耕地自然质量影响较为显著的几个指标建立简化的耕地质量评价模型,即第二随机森林耕地自然质量评价模型,从而实现根据第一县域的实际情况对该县域内的耕地质量指标进行筛选以建立简化模型的目的,从而减少耕地自然质量调查评价工作的工作量。

本发明实施例提供的基于随机森林的县域耕地自然质量评价系统,可以用于执行上述实施例所述的基于随机森林的县域耕地自然质量评价方法,其原理和技术在此处不再赘述。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1