一种改进随机森林气温数据质量控制方法与流程

文档序号:12125333阅读:来源:国知局

技术特征:

1.一种改进随机森林气温数据质量控制方法,其特征在于:包括以下步骤:

步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;

步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;

步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1的比例分为训练集和测试集;

步骤4:使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry和ntree会使模型得到不同的袋外误差,需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值建立模型;

步骤5:使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;

步骤6.重复步骤4和5k次得到随机森林质量控制模型,k的大小即是树的数量ntree,利用粒子群算法寻找袋外误差最小的k值;

步骤7.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;

步骤8.将预测值与实际观测值进行比较,通过均方根误差和平均绝对误差评价模型,其中yobs为目标站实际观测值,yest是模型预测值。

2.根据权利要求1所述的改进随机森林气温数据质量控制方法,其特征在于:步骤3中所述基本质量控制方法包括格式检查、极值检查、气候极值检查、内部一致性检查、时间一致性检查、空间一致性检查。

3.根据权利要求1所述的改进随机森林气温数据质量控制方法,其特征在于:步骤4中的粒子群算法寻优过程为其中q维粒子表示为xi=(xi1,xi2,L,xiq),每个粒子对应的速度可以表示为vi=(vi1,vi2,L,viq),每个粒子在搜索时考虑历史最优值pi和全部粒子搜索到的最优值pg,w是惯性权重,c1是粒子跟踪自己历史最优值权重系数,c2是粒子跟踪群里最优值的权重系数,ξ、η是区间[0,1]内均匀分布的随机数,r是约束因子。

4.根据权利要求1所述的改进随机森林气温数据质量控制方法,其特征在于:步骤8中所述检错方法公式为:|yobs-yest|≤f·δ,f是质量控制参数设置为3,δ是目标站观测值与预测值之间的标准误差,如果满足公式的条件,就判断该数值正确,如果不满足公式的条件,则将该数据记为存疑数据,通过这样的方法来实现对数据的质量控制。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1