一种河流水质预测及水质影响因素评估方法与流程

文档序号:16680481发布日期:2019-01-19 00:24阅读:821来源:国知局
一种河流水质预测及水质影响因素评估方法与流程
本发明属于水质预测
技术领域
,更具体的涉及一种河流水质预测及水质影响因素评估方法。
背景技术
:随着我国对水环境质量的要求越来越高,科学的管理河流流域水环境、保护水生态系统就十分必要。其中,准确的河流水质资料是开展流域水环境管理、制定水环境保障策略的基础,评估流域特性因素对河流水质的影响程度是水质治理的前提条件。河流的水质及流域特性数据有以下几个主要特点:一是水质数据存在较大的时间和空间分布差异,且受到多种流域特性因素的影响,包括:流域水文、气象、地理特性,人类活动、季节等;二是资料数据量大,数据流动态增长,长度可能无限;三是水质数据自身及其流域特性影响因素的数据经常存在缺失值、奇异值的问题。现阶段常用的水质预测模型包括:线性模型、线性混合模型、主成分分析模型、聚类分析模型、偏最小二乘回归、神经网络模型等。但是,河流水质参数与其流域特性影响因素之间是复杂的非线性的关系,且这些变量之间也存在复杂的相互作用,水质数据、水质流域特性影响因素数据也经常存在缺失值,奇异值。这些问题的存在使得现有技术的预测结果与实测数据之间存在较大误差,模型模拟精度及准确度不尽如人意。而且上述模型都只能对水质进行预测,无法判断河流的各种流域特性因素对水质影响程度大小,难以用于形成有效的河流水质治理方案。技术实现要素:针对现有技术存在的不足,本发明提供一种河流水质预测及水质影响因素评估方法,目的在于建立包含流域特性与水质数据的关系模型,并将其应用于河流水质预测及其流域特性影响程度评估中,根据历史水质数据及水质采样点对应的流域特性因素历史数据构建的模型,根据现阶段流域特性对特定点位、特定时刻的河流水质进行预测,同时评估各流域特性因素对河流水质影响程度大小,以指导河流水质治理。为解决上述问题,本发明采用了以下河流水质预测及水质影响因素评估方法,该方法包括以下步骤:步骤一:提取监测河流水质历史数据,河流水质数据包括但不限于总磷、总氮、重金属、悬浮物含量等;同时提取每个水质采样点对应流域特性历史数据,流域特性包括但不限于水流量、含沙量、水温、气候(温度、降雨)、地理特性(土地利用、土壤类型)、季节因素、人口因素等,以河流水质历史数据对应流域特性历史数据形成原始训练集;步骤二:从原始训练集中随机抽取样本,构建若干子训练集;优选通过bagging算法,有放回无权重的在原始训练集中随机抽取样本,构建若干子训练集;步骤三:根据子训练集中不同流域特性选择分裂属性,依据分裂属性生成决策树对子训练集进行训练,根据建立的多个决策树整合构建随机森林;步骤四:评估模型的模拟效果;优选使用袋外检测的方法,利用一致性相关系数概念对模型的模拟效果进行评估;步骤五:获取待预测河流特定点当前的各流域特性数据,放入随机森林模型进行分类,采用投票方式得出相应位置的水质数据预测结果;步骤六:评估流域特性因素对河流水质的影响程度;优选基于均方差增量(increasedmeansquareerror)或者节点纯度增量(increasednodepurity)概念评估流域特性因素对河流水质的影响程度。作为一种优选方式,对步骤二,采用随机森林模型处理原始训练集数据的具体方法是:使用bagging方法有放回无权重的随机抽取和原始训练集样本数一样个数的样本,构成子训练集,对于某一个样本,它总数包含m个样本的原始训练集的随机抽取采样中,每次被抽取采集到的概率为1/m,不被采集到的概率为1-1/m,则连续经历m次随机抽取采样都没有被抽取采集中的概率是(1-1/m)m,当m→∞时,(1-1/m)m约等于0.368。也就是说,在bagging的每轮随机采样中,原始训练集中大约有36.8%的数据没有被抽中,这些未被抽取的数据就被称为袋外数据,可用来对模型的精度进行验证。作为一种优选方式,步骤三决策树构建过程中,分裂属性的选择根据最小基尼系数作为依据。作为一种优选方式,步骤四评估模型的模拟效果,使用袋外数据检测的方法,袋外数据为步骤二构建子训练集过程中未被抽到的样本数据,袋外数据总量约占原始训练集的36.8%。对随机森林模型模拟结果的评估使用一致性相关系数的概念,通过分析模型预测值与实测值的相互关系,对模型模拟的精度和准确度进行判定,可通过r语言或matlab等分析工具实现。作为一种优选方式,步骤六评估流域特性因素对河流水质的影响程度,依据均方差增量法或者节点纯度增量法,其中均方差增量含义是:去除某一个解释变量即流域特性因素之后,模型的总体均方差发生变化,数值变化越大,表明该去除的解释变量即流域特性因素对于模型输出预测结果的影响越大,这一解释变量即流域特性因素对于因变量(水质)越重要;节点纯度增量含义是指:随机森林中的每一棵分类树为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分;在二叉树中,根节点包含全部训练数据,按照节点纯度最小原则,分裂为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则节点继续分裂,直到满足分支停止规则而停止生长。若节点n上的分类数据全部来自于同一类别,则此节点的纯度i(n)=0,节点纯度的增量越大,表明该变量(流域特性因素)对(水质)预测结果的影响越大。采用本发明河流水质预测及水质影响因素评估方法,可以精确地对河流特定时间、特定地点的水质进行预测,同时评估该特定点的流域特性因素对河流水质的影响大小,在河流水质治理中,可以重点针对那些水质影响较大的流域特性因素施加影响,以更好地指导对河流水质的治理工作。相比于现有技术,本发明还具有以下三个突出优点:1、本发明不需要对原始数据进行预处理或者归一化。2、本发明对异常值和噪声具有很高的容忍度,能避免过拟合问题。3、本发明可以同时对连续变量和分类变量进行分析。附图说明图1为河流水质预测及水质影响因素评估方法的流程图。图2为河流水质预测及水质影响因素评估方法的预测效果示例。图3为河流水质预测及水质影响因素评估方法的均方差增量法流域特性因素重要性示例。图4为河流水质预测及水质影响因素评估方法的节点纯度增量法流域特性因素重要性示例。具体实施方式下面结合实例对本发明做进一步说明,所描述的实例仅仅是本发明的部分实施例,而不是全部实施例。以下对提供的一种河流水质预测及水质影响因素评估方法实例进行详细说明,具体包括以下步骤:步骤一:本实例中获取了中国某河流多个采样点、多个时段的水体总磷浓度历史数据,以及每个水质采样点对应的流域特性历史数据,本实例中采用的流域特性如表1所示。根据水体总磷浓度及对应流域特性构建原始训练集。表1随机森林模型中所用的流域特性步骤二:对步骤一构建的包含水质数据及多种流域特性的原始训练集进行处理,使用bagging方法有放回无权重的抽取多组子训练集,保证每个子训练集与原始训练集的样本数量相同,从来都未被抽取过的数据形成袋外数据,袋外数据可备在后期对模型的模拟精度和准确性进行验证时使用。步骤三:根据子训练集中的流域特性(气候、流量、土地利用、土壤类型、季节、河流水量等因素)选择分裂属性,依据分裂属性对子训练集进行训练,生成决策树,决策树的构建根据最小基尼系数作为特征值构建,多个决策树整合构建随机森林。步骤四:使用袋外数据检测的方法,对随机森林模型模拟精度进行评估;在步骤二抽取子训练集后的袋外数据样本数据量约占原始训练集的36.8%。对随机森林模型模拟结果的评估使用一致性相关系数的概念,通过分析模型预测值与实测值的相互关系(见图2),对模型模拟的精度和准确度进行判定,一致性相关系数越接近于1,则表明使用随机森林模型得到的预测值与实测值越接近(如表2所示)。本实例中,通过r语言工具实现模型模拟效果验证。表2本实例中模型的一致性相关系数估算值upper(95%置信区间)lower(95%置信区间)一致性相关系数0.830.880.77步骤五:在随机森林模型构建完成,评估模拟精度后,获取待预测河流特定点的流域特性数据放入随机森林模型,使用前期构建的决策树对数据进行分类,采用投票的方式得出得票数最多的分类结果,就是该情况下河流特定时间、特定点位的总磷浓度。步骤六:分别使用均方差增量法(见图3)及节点纯度增量法(见图4),分别以两个增量参数对流域特性因素重要性进行分析,评估不同流域特性因素对河流水体总磷浓度的影响程度,。以上所述的具体实施例,对本发明的目的、技术方案和实用价值进行了进一步的详细说明,在不背离本发明精神及其实质的情况下,本领域技术人员可以根据本发明做出各种相应的改变和变形,所做的任何修改、改进等,均应包含在本发明所附的权利要求的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1