一种基于机器学习的无资料地区水文模型参数区域化方法与流程

文档序号:17835659发布日期:2019-06-05 23:31阅读:702来源:国知局
一种基于机器学习的无资料地区水文模型参数区域化方法与流程

本发明涉及无资料地区水文预报技术领域,尤其涉及一种基于机器学习的无资料地区水文模型参数区域化方法,主要应用决策树机器学习算法来解决无资料水文模型参数识别问题,用于无资料地区水文模拟和洪水预报等工作。



背景技术:

无资料地区水文预报(pub)是国际水文学研究的难点和热点问题。无资料地区通常缺乏实测水文资料(或流量资料),无法进行水文模型参数率定,极大的限制了水文模型的应用。因此对无资料地区水文模型参数区域化研究对解决无资料地区水文预报、提高水文预报精度具有重要意义。

常用的参数区域化方法包括移植法、回归法和插值法。参数移植法根据流域水文相似性把有资料流域参数(参证流域)移用至无资料流域(目标流域),包括距离相近法和属性相似法。但这两种参数区域化方法进行水文相似性判断无定量标准,主观性较大,参数移用不确定大。回归法是建立流域属性因子与各参数的统计关系,是一种集总式经验方法,忽略了流域内在产汇流机理,割裂了流域产汇流的整体性,应用结果较差。插值法一般是指空间插值法,该方法需要较大的参证流域样本,且不能反应流域产汇流的整体性,实际应用难度大、不确定性强。

因此,目前各类参数区域化方法存在主观性强、不能反应流域产汇流机理等缺陷,不能够有效应用至无资料地区参数识别中,不能为无资料流域的水文模拟和预报提供有效的帮助。



技术实现要素:

本发明提出了一种基于机器学习的无资料地区水文模型参数区域化方法,应用机器学习算法建立水文模型参数与流域特征关系,能够快速准确识别无资料流域的参证流域,进行无资料地区参数区域化。

为了解决上述存在的技术问题,本发明采用了以下方案:

一种基于机器学习的无资料地区水文模型参数区域化方法,包括以下步骤:

步骤1、数据准备:包括有资料流域的下垫面数据和长系列水文气象数据,无资料流域的下垫面数据;

步骤2、获取有资料流域水文模型参数集:采用长系列水文气象数据对水文模型进行率定和验证得到;

步骤3、流域特征属性主成分提取:对每类流域特征,建立因子分析模型,运用主成分分析法求解模型,得到各流域特征类型的主成分得分值;

步骤4、构建机器学习决策树算法数据集:数据集中的数据包括各有资料流域主成分得分差值、流域之间的距离、流域参数交叉验证的确定性系数,其中确定性系数作为决策树构建的因变量,主成分得分差值和流域之间距离作为自变量;

步骤5、构建决策树,生成最优决策树;

步骤6、根据决策树分类规则,获得流域最优分类规则;

步骤7、无资料流域参数获取:计算无资料流域与各有资料流域主成分差值、无资料流域与各有资料流域之间距离,根据步骤6所得最优分类规则筛选有资料流域作为最优参证流域,得到水文模型参数。

进一步的,步骤1中,所述下垫面数据包括构建水文模型需要的地形地貌数据、土地利用数据、土壤类型数据,及流域的气候特征数据和流域结构数据。

进一步的,步骤1中,所述有资料流域的长系列水文气象数据是指10年以上的降雨径流数据,数据应包括大、中、小水各种代表年份;洪水场次,湿润地区不少于50场,干旱地区不少25场。

进一步的,步骤2中,用长系列水文气象数据的前2/3场次数据率定水文模型参数,后1/3数据验证水文模型参数。

步骤2中,水文模型参数率定和验证精度选用确定性系数来评定,要求率定和验证的确定性系数均值均大于0.7。

进一步的,步骤3中,流域特征属性主成分提取中的流域特征包括流域地形地貌特征、土壤类型与土壤质地特征、土地利用与植被覆盖特征、流域的气候特征和流域结构特征。

各数据类型及其包含的属性因子见表1:

表1

步骤3中对上表所列五种流域特征类型分别进行主成分分析,提取各类型的主成分信息。

进一步的,步骤4中,机器学习数据集包括训练集、验证集和测试集。

进一步的,步骤5中,通过训练集构建完整决策树,通过验证集对决策树进行剪枝和优化,测试集对决策树进一步优化,最终得到最优决策树。

步骤5中通过训练集构建完整决策树是基于因变量平方误差最小来分支的。

步骤5中决策树的剪枝方法是采用的ccp(costcomplexitypruning)后剪枝法对完整决策树进行剪枝的,以错误率最低作为指标来剪枝形成最优决策树。

进一步的,步骤6中,决策树分类规则是指决策树的分支规则,该规则的数量与决策树的叶子节点数相同;流域最优分类规则是指因变量(确定性系数)最大的决策树分类规则。

本发明基于机器学习的无资料地区参数区域化方法具有以下有益效果:

(1)本发明在机器学习算法的基础上,提出了无资料地区水文模型参数区域化算法,该算法能够根据无资料流域和有资料流域特征,自动为无资料流域选取参证流域,得到无资料流域水文模型参数,大大节约了人工成本,提高了计算效率。

(2)本发明是运用机器学习算法对水文相似的流域进行自动分类,参证流域选取客观性强,参数区域化精度高,为无资料地区水文模型参数识别提供科学支撑。

下面结合附图及具体实施方式对发明作进一步详细说明。

附图说明

图1:本发明一种基于机器学习的无资料地区区域参数化方法流程方框示意图;

图2:本发明机器学习主成分分析法流程方框示意图;

图3:本发明机器学习决策树算法流程方框示意图。

具体实施方式

下面结合图1、图2和图3,对本发明做进一步说明:

根据图1,本发明是建立在机器学习算法的基础上的,具体实施方式有:

1、数据准备:

准备的数据包括有资料流域水文模型构建所需的下垫面数据和水文模型参数率定所需的长系列水文气象数据;无资料流域水文模型构建所需的下垫面数据。其中下垫面数据包括流域地形地貌数据、土壤类型与土壤质地数据、土地利用和植被覆盖数据,另外还包括流域特征分析所需的气候特征数据及流域结构数据。满足水文模型参数率定需要的长系列水文气象数据的年限一般不低于10年,应包括高、中、低水各种代表年份的数据,其中湿润地区洪水场次不少于50场,干旱地区不少于25场。

2、有资料流域水文模型参数确定:

有资料流域水文模型参数是根据流域长系列水文气象资料率定确定的。以水文气象资料系列的前2/3场次洪水资料对水文模型进行率定,以后1/3场次洪水资料对水文模型进行验证。率定和验证过程中,以确定性系数最大作为目标函数,确定性系数(dc)计算公式如式(1):

式中,yc(i)为第i个步长的预报流量,m3/s;y0(i)为第i个步长的实测流量,m3/s;为实测流量均值,m3/s。

3、流域属性特征主成分提取:

流域属性特征主要是指能够反应流域水文特性的属性,包括步骤1中的地形地貌、土壤类型和土壤质地、土地利用和植被覆盖以及流域的气候特征和流域结构特征。流域属性特征主成分提取包括因子分析模型构建、因子分析模型求解等步骤(图2)。

把各流域属性特征因子作为测试变量构建因子分析模型。若假定测试变量矩阵为x=(x1,x2,…xp)t,均值向量e(x)=0,协方差矩阵cov(x)=∑;若e(x)=μ,则令x*=x-μ,即有e(x*)=0。

f=(f1,f2…fm)t是不可观测的随机变量,其均值向量e(f)=0,协方差矩阵cov(f)=im。ε=(ε1,ε2…εp)t也是不可观测的随机变量,其均值向量e(ε)-0,协方差矩阵是对角阵,且cov(f,ε)=0,即ε与f不相关。因子分析模型可由式(2)表示。

矩阵形式为x=af+s

其中,a=(aij)p×m和f=(f1,f2…fm)t为公共因子,ε=(ε1,ε2…εp)t为误差。a为因子负荷,aij表示第i个变量xi在第j个公共因子fj上的负荷。

运用主成分分析法,对因子分析模型求解。因子分析模型中,随机变量x的协方差为∑,相关矩阵为r,因x为标准化矩阵,故

r=∑=aat+dε

设r的特征值为λ1≥λ2≥…≥λp>0,其相应的单位正交特征向量为e1,e2,…ep,令u=(e1,e2,…ep),可得:

当公共因子fi的个数为p时,误差为0,可得r=aat,因此可取即第j列因子载荷为第j个主成分的系数ej与的成绩。当m≤p时,取前m列构造因子载荷矩阵按公共因子的累计方差贡献率达到的百分比(取80%)选取m。

对于5类流域特征属性因子,按照以上方法进行主成分分析,提取5类流域特征的主成分。

4、构建决策树算法数据集:

机器学习算法数据集包括训练集、验证集和测试集。作为一种监督式的机器学习算法,决策树的数据集包括自变量和因变量。自变量由第3步中各流域类型提取的主成分差值和流域之间的距离组成,因变量为有资料流域参数交叉验证得到的确定性系数。另外需要说明的是,流域之间的距离是指流域中心点之间的几何距离。从自变量和因变量构成的数据集中随机选取50%组数据作为训练集,25%作为验证集,剩下25%作为测试集。

5、构建决策树,生成最优决策树:

决策树的算法流程如图3所示。首先运用训练集来构建完整决策树。步骤4构建的数据集中,自变量和因变量均为连续变量,用平方误差法(mse)对样本进行分支,构建完整决策树。平方误差法的计算公式如式(3):

式中,c和d为分支后的两个样本,nk为c分支中第k个样本因变量的值,为c分支中所有样本的因变量均值;ni为d分支中第i个样本因变量的值,为d分支中所有因变量均值;err为平方误差,取err最小的点作为切分点构建决策树。

为防止决策树过拟合,运用验证集对决策树进行剪枝。剪枝采用ccp(costcomplexitypruning)剪枝法,剪枝过程中先根据启发规则,得到树tmax的参数族{t1,t2,······,tl},然后按照树的错误率估计,在参数族中选择最佳树ti。对于给定树ti的子树tit,定义每个叶结点的错误率的平均增长为式中,ep为将子树剪枝为叶节点后的错误分类率,eu为树ti的错误分类率,为子树tit下属的叶节点的个数。树ti+1是由树ti剪掉对每个叶节点的错误率有最小增长的枝干获得,即剪掉那些有最小δ值的结点,选择最佳树的标准为错误率最低。

用测试集对剪枝后的决策树进一步测试,生成最优决策树。

6、根据决策树分类规则,获得流域最优分类规则;

决策树分类规则是指第5步得到最优决策树从根节点到叶节点的分类条件。从因变量的诸多叶节点中,找出因变量值最大的叶节点,以此叶节点的分类规则作为最优分类规则。

7、无资料流域参数获取:

计算无资料流域与决策树构建数据集中各有资料流域的主成分差值和流域之间的距离,通过步骤6的最优分类规则为无资料流域选取参证流域。同一无资料流域通过此过程找到的参证流域可能不止一个,对于有多个参证流域的情况,求各参数平均值作为无资料流域参数值;对于只有一个参证流域的情况,该参证流域的参数值可直接应用至无资料流域。至此,无资料流域参数识别完成。

上面结合附图对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1