一种改进随机森林气温数据质量控制方法与流程

文档序号：12125333阅读：964来源：国知局

本发明涉及地面观测站采集数据的质量控制领域，特别是针对温度数据的质量控制方法。

背景技术：

中国自1951年以来就有近1800个气象站，气象数据的积累丰富，然而这些气象数据中可能存在一些观测、录入和传输等错误，这些错误降低了气象站观测数据的质量，对气象的研究产生了阻力，因此对气象数据的质量控制成为了气象数据应用中不可或缺的环节。

地面气象站观测数据质量控制一般分为两类，一类是单站质量控制方法，主要包括极值检查、气候极值检查、内部一致性检查、时间一致性检查；另一类是多站联网质量控制方法，目前国内外已经提出了很多质量控制的方法，例如数值预报模式插值方法、反距离加权发和空间回归检测方法等等。

技术实现要素：

本发明的目的在于克服以上技术不足之处，针对多站质量控制的不足提出一种改进随机森林气温数据质量控制方法，解决了目前多站联网质量控制方法不稳定、准确度不高的问题，具体由以下的方案实现：

所述地面气象观测站观测的气温数据质量控制方法，包括以下步骤：

步骤1.采集采样时间T内的目标地面气象观测站温度数据X₀(t)，t＝1，2，3，…，T，其中t为采样时间；

步骤2.采集采样时间T内的邻近地面气象观测站温度数据X_i(t)，i＝1，2，3，…，n，其中n为邻近站的个数；

步骤3.对采集到的数据进行基本质量控制，得到新的数据集x₀(t)和x_i(t)，将样本按时间序列以9：1的比例分为训练集和测试集；

步骤4.使用随机森林方法对训练集数据进行建模，利用Bagging方法进行采样，样本数足够大时约有37％的数据没有抽取到，称为袋外数据(OOB)，利用袋外误差(OOB error)测试模型的泛化能力，假设袋外数据总数为a，用这a个数据作为输入，带入分类器得到分类结果，与正确的分类情况进行比较统计错误数据大小为b，则袋外误差为OOB_error＝b/a，不同的参数值mtry和ntree会使模型得到不同的袋外误差，所以需要寻找最优参数值，利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优，利用最优mtry和ntree值建立模型；

步骤5：使用随机森林方法对训练集数据进行建模，回归树节点分裂参考的随机特征变量决定模型的好坏，随机特征变量的数量即为mtry值，随机森林中每颗回归树使用最小剩余方差来决定，划分准则是期望划分后的子树方差最小Var＝min(P_lVar(Y_l)+P_rVar(Y_r))/m，其中P_l为划分到左边的概率，Var(Y_l)为左边数值的方差，P_r和Var(Y_r)为对应右边的概率与数值方差，m为参与分裂样本数；

步骤6.重复步骤4和5k次得到随机森林质量控制模型，k的大小即是树的数量ntree，利用粒子群算法寻找袋外误差最小的k值；

步骤7.将测试集中的邻近站点数据作为样本集，利用步骤6建立的随机森林模型进行回归预测，得到目标站的预测值；

步骤8.将预测值与实际观测值进行比较，通过均方根误差和平均绝对误差评价模型，其中yo_bs为目标站实际观测值，y_est是模型预测值。

其中，步骤3中所述基本质量控制方法包括格式检查、极值检查、气候极值检查、内部一致性检查、时间一致性检查、空间一致性检查。

其中，步骤4中的粒子群算法寻优过程为和其中q维粒子表示为x_i＝(x_i1,x_i2,L,x_iq)，每个粒子对应的速度可以表示为v_i＝(v_i1,v_i2,L,v_iq)，每个粒子在搜索时考虑历史最优值p_i和全部粒子搜索到的最优值p_g，w是惯性权重，c₁是粒子跟踪自己历史最优值权重系数，c₂是粒子跟踪群里最优值的权重系数，ξ、η是区间[0,1]内均匀分布的随机数，r是约束因子。

其中，步骤8中所述检错方法公式为：|y_obs-y_est|≤f·δ，f是质量控制参数设置为3，δ是目标站观测值与预测值之间的标准误差，如果满足公式的条件，就判断该数值正确，如果不满足公式的条件，则将该数据记为存疑数据，通过这样的方法来实现对数据的质量控制。

有益效果

本发明的一种改进随机森林气温数据质量控制方法，通过周围邻近站点的气温观测数据，利用优化后的随机森林方法构建基于邻近站点气温观测数据的气温数据质量控制模型，提出了一种新的多站联网质量控制方法，模型搭建速度快，泛化能力强，能够有效的提高地面观测数据的准确性。

附图说明

图1是本发明方法的流程图；

图2是本发明方法OOB误差与mtry值与ntree值之间的关系图；

图3是本发明方法与反距离加权和空间回归检验方法的MAE、RMSE效果对比图。

图4是本发明方法与反距离加权和空间回归检验方法月02：00时均温实际观测值与预测值对比图。

具体实施方式

下面结合附图就实施例对本发明进行进一步说明。

本实施例的改进随机森林气温数据质量控制方法，如图1所示将甘肃站及周围的83个站点2005年到2014年逐日02：00时气温数据进行实施例分析，进一步说明本发明：

步骤1：采集采样时间T内的目标地面气象观测站温度数据X₀(t)，t＝1，2，3，…，T，其中t为采样时间，本实施例中T＝3654；

步骤2.采集采样时间T内的83个邻近地面气象观测站温度数据X_i(t)，i＝1，2，3，…，n，其中n为邻近站的个数，在本实施例中n＝83；

步骤3.对采集到的数据X₀(t)和X_i(t)进行基本质量控制，得到新的数据集x₀(t)和x_i(t)，取样本中1-3289行的数据作为训练集，3290-3654行的数据作为测试集；

步骤4.使用随机森林方法对训练集数据进行建模，利用Bagging方法进行采样，样本数足够大时约有37％的数据没有抽取到，称为袋外数据(OOB)，利用袋外误差(OOB error)测试模型的泛化能力，假设袋外数据总数为a，用这a个数据作为输入，带入分类器得到分类结果，与正确的分类情况进行比较统计错误数据大小为b，则袋外误差为OOB_error＝b/a，不同的参数值mtry会使模型得到不同的袋外误差，所以需要寻找最优参数值，利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优，利用最优mtry和ntree值完成模型的建立，本实施例中mtry＝60，ntree＝435；

步骤5.使用随机森林方法对训练集数据进行建模，回归树节点分裂参考的随机特征变量决定模型的好坏，随机特征变量的数量即为mtry值，随机森林中每颗回归树使用最小剩余方差来决定，划分准则是期望划分后的子树方差最小Var＝min(P_lVar(Y_l)+P_rVar(Y_r))/m，其中P_l为划分到左边的概率，Var(Y_l)为左边数值的方差，P_r和Var(Y_r)为对应右边的概率与数值方差，m为参与分裂样本数；

步骤6.重复步骤4和5k次得到随机森林质量控制模型，k的大小即是树的数量ntree在实施例中设为435；

步骤7.将测试集中的邻近站点数据作为样本集，利用步骤6建立的随机森林模型进行回归预测，得到目标站的预测值；

步骤8.将预测值与实际观测值进行比较，通过均方根误差(RMSE)和平均绝对误差(MAE)比较随机森林质量控制效果，在实施例中MAE为0.319，RMSE为0.825。

为了分析本方法的优点，将同样的数据应用与反距离加权方法和空间回归检验方法中，并进行对比，如图2所示，本方法得到的平均绝对误差(MAE)和均方根误差(RMSE)明显要优于另外两种方法。

本实施例通过周围邻近站点气温观测数据，利用优化后的随机森林方法构建基于邻近站点气温观测数据的气温数据质量控制模型，提出了一种新的多站联网质量控制方法，模型搭建速度快，泛化能力强，能够有效的提高地面观测数据的准确性。通过图3与图4的对比分析验证本发明方法质量控制效果明显。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶小岭;杨星;熊雄;姚润进;沈云培;陈洋;
技术所有人：南京信息工程大学;
我是此专利的发明人

上一篇：集成WiFi功能的入户型光网络网关的制作方法与工艺
上一篇：一种高效的用于光收发模块检测装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。