一种改进后的核回归地面气温观测资料质量控制方法与流程

文档序号:22615609发布日期:2020-10-23 19:15阅读:144来源:国知局
一种改进后的核回归地面气温观测资料质量控制方法与流程

本发明涉及地面气温观测资料质量控制领域,尤其是涉及一种改进后的核回归地面气温观测资料质量控制方法。



背景技术:

地面气温观测资料质量控制(qualitycontrol,qc)的目的是对采集所获得的气温资料数据进行审核,寻找其中缺测数据以及疑误数据并对其进行补充与修正,从而保证存档资料最大程度的完整与准确。地面气象观测资料是气象研究中的基础资料,对资料同化技术以及数值天气预报技术具有很重要的决策意义。数值天气预报(nwp)作为当今信息时代背景下一种关键的气象预报技术,其准确性很大程度上受到资料同化技术的制约,而资料同化过程中对于地面气温观测资料的质量控制则又是其研究的基础,随着目前社会水平的迅速提升,地面气象站的分布越来越系统化与精细化,这就致使气象数据呈几何式的增长,对地面气象观测资料做好质量控制的工作是其它气象类研究实验的基础与必要环节。因此,提高地面气温资料质量控制能力是我国气象行业的基础,只有在保障地面气温观测资料的准确性和合理性的前提下,才能进一步完成资料同化从而提高数值天气预报的能力。

地面气温观测资料质量控制方法可以分为两种:第一种是从单站地面气温观测资料出发,常见的方法有内部一致性检验、极值检验、时间一致性检验、界限值检验和时变检验等,这些方法可以初步识别出资料中的粗大误差,为后续高精度的质量控制方法作铺垫。第二种是从多站地面气温观测资料出发,空间一致性检验是其中的代表,该类方法克服了观测资料合理突变检测不佳的问题,在区域质量控制方面的效果明显优于单站的质量控制方法。常用的方法有反距离加权质量控制方法(inversedistanceweighted,idw)、多项式内插质量控制方法(polynomialinterpolation,pi)、空间回归质量控制方法(spatialregressiontest,srt)等。核心思想均是通过邻近站的观测资料来对目标站的观测资料进行回归估计,继而通过估计值与观测值的对比判断观测值是否被接受或是需要改正及标错,从而达到质量控制的目的。

当下的质量控制方法均能在其研究方面达到相应的质量控制效果,但是在面对不同地区或者不同时间尺度下的地面气温观测资料时未能有很高的普适性。



技术实现要素:

发明目的:为了克服背景技术的不足,本发明公开了一种改进后的核回归地面气温观测资料质量控制方法,实现对地面气温观测资料的质量控制,期望在此基础上提高质量控制方法的普适性、优越性及检错率。

技术方案:本发明的改进后的核回归地面气温观测资料质量控制方法,包括以下步骤:

s1、筛选需要的站点试验数据;

s2、引入核回归方法并针对需要应用的地面气温观测数据进行改进,给定气温样本观测值对核回归方法中的回归模型yi=g(xi)+εi,i=1,2,…,n,其中g(xi)为回归函数,εi为相互独立、均值为0,方差为σ2的随机误差变量序列,

结合回归函数的非参数核估计量形式将回归模型解释为以下公式:

s3、在s2基础上进行多站点核回归方法的应用性改进,常规多站点逐一对中心站进行核回归的公式为:

借鉴多维核回归的公式,针对气温数据的矩阵序列,回归函数改进成:

其中,xsi为多个邻站的气温数据,yi为中心站点的气温数据,为回归预测的中心站点数据,以此公式进行多站点的气温观测资料回归预测,从而进行质量控制;

s4、引入自适应算法以及粒子群算法对核回归方法中的窗宽系数进行改进,根据自适应参数λ=[f/g],得到新的自适应窗宽公式h*=λh,在此基础上将回归函数改进为进一步设计结合粒子群算法改进的窗宽公式在自适应改进的基础上可以得到以此公式原理进行回归预测并进行相应的质量控制。

其中,所述回归函数的非参数核估计量形式的由来为:

认定回归函数g(xi)是在给定了x=x后的条件期望,即:

其中f(x,y)为(x,y)的联合密度函数,fx(x)为x的边缘密度函数,

由根据核密度估计算法的公式定义f(x)的核估计量为f(x,y)的核估计量为h和h0分别为x和y的窗宽,则回归函数的估计量其非参数核估计量形式为:

进一步的,所述回归模型解释公式的由来为:

对非参数核估计量形式进行公式解释:

该公式解释可以理解为矩阵相乘的形式,其中的值与解释变量x本身以及中的x选取有关,对回归模型原公式,将地面气温数据引入,假设站点1为被估计的站点,其数据形式为站点2为解释变量的站点,其数据形式为则整体公式可以修改为:

每一个xi都有一个权重系数矩阵[w1,w2,…,wn]j与之对应,标准格式可以修改如下:

进一步的,设计结合粒子群算法改进的窗宽公式具体方法为:

设计新的窗宽公式参数c与α待定,采用调整的粒子群算法分别对参数c与α进行优化:以核密度估计函数为目标函数,假设一个n维空间,由多个站点的气温数据组成粒子种群x=(x1,x2,…,xd),其中第i个粒子数据xi=(xi1,xi2,…,xin)t通过目标函数计算得出为核密度估计函数的一组潜在解,以均方根误差为适应度函数,初始解中参数c与α设定为1.06与0.2,将速度参数v调整为双重变化因子ω与μ,位置参数x调整为窗宽则结合粒子群算法改进的窗宽公式为:

有益效果:与现有技术相比,本发明的优点为:本方法在方法层面,通过引入核回归方法并针对地面气温观测数据进行改进,同时利用自适应及粒子群算法进一步改进核回归方法中的窗宽系数,拓展了传统质量控制方法的方向;在质量控制效果层面,本发明提出的方法相较于现有技术在质量控制领域的预测精度、普适性及检错率等多个方面具有较好的效果,因此更有利于地面气温观测资料质量控制的研究与应用。

附图说明

图1为本发明方法的流程图;

图2为本发明方法在江苏地区的单站点试验图;

图3为本发明方法在江苏地区的多站点试验图;

图4为本发明方法在全国地区的多站点试验图;

图5为本发明方法与核回归方法在全国地区的对比试验图;

图6为本发明方法与核回归方法及两种传统质量控制方法在江苏的单站点对比试验图;

图7为本发明方法与核回归方法及两种传统质量控制方法在江苏的多站点对比试验图;

图8为本发明方法与核回归方法及两种传统质量控制方法在全国的多站点对比试验图;

图9为本发明方法与及两种传统质量控制方法在全国的检错率对比试验图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示为本发明方法的流程,数据来源于国家气象中心,包含江苏省13个城市75个地区的地面观测站1951年到2009年地面定时(02:00、08:00、14:00、20:00)观测资料(六小时值气温)以及全国14个地区的地面观测站及各中心站点200km半径内所有站点2010~2014年的地面日均温数据。通过均方根误差(rmse)、绝对平均误差(mae)、纳什系数(nsc)、一致性指标(ioa)和检错率来评价算法的性能,其中,mae与rmse用来衡量预测精度,nsc和ioa用来检验拟合优度,检错率用来评价质量控制的效果。具体步骤如下:

步骤1、数据选取,经筛选后选取1961年到2008年江苏省12个城市:徐州(站号:58027)、宿迁(站号:58131)、连云港(站号:58044)、淮安(站号:58141)、扬州(站号:58245)、南京(站号:58238)、镇江(站号:58248)、常州(站号:58343)、盐城(站号:58154)、无锡(站号:58354)、苏州(站号:58349)、南通(站号:58259)的气温六小时数据以及月平均数据作为基础资料。全国资料中选取14个地区分别为北海(中心站号:59644)、成都(中心站号:56290)、广州(中心站号:59287)、海口(中心站号:59758)、呼和浩特(中心站号:53463)、景洪(中心站号:56959)、拉萨(中心站号:55591)、兰州(中心站号:52889)、密云(中心站号:54416)、漠河(中心站号:50136)、南京(中心站号:58238)、太原(中心站号:53772)、乌鲁木齐(中心站号:51463)、长春(中心站号:54161)。

步骤2、引入核回归方法,由于气温数据的特殊性,以及本发明所要提出的多站点的质量控制模型,需要针对地面气温数据进行应用性改进。假设x与y对于给定的气温样本观测值存在一个回归模型:

yi=g(xi)+εi,i=1,2,…,n(1)

其中g(xi)为回归函数,也叫估计函数,而εi则为相互独立、均值为0,方差为σ2的随机误差变量序列。一般认定回归函数g(xi)是在给定了x=x后的条件期望,即:

其中f(x,y)为(x,y)的联合密度函数,fx(x)为x的边缘密度函数。

由根据核密度估计算法的公式定义f(x)的核估计量为f(x,y)的核估计量为h和h0分别为x和y的窗宽。则回归函数的估计量其非参数核估计量形式为:

从公式(3)中观察,被解释变量y与解释变量x如果不存在特定的函数关系的话,那么转换到地面气温观测资料中而言,就是气温、湿度、雨量、风速等类型数据之间的关系,本发明只涉及到地面气温观测资料数据的研究,需要验证其可行性。对其公式的解释:

公式(4)可以理解为矩阵相乘的形式,其中的值与解释变量x本身以及中的x选取有关,那么对公式(1),将地面气温数据引入,假设站点1为被估计的站点,其数据形式为站点2为解释变量的站点,其数据形式为则整体的公式(1)可以修改为:

意味着每一个xi都有一个权重系数矩阵[w1,w2,…,wn]j与之对应,那么公式(5)的标准格式可以修改如下:

以上就是针对地面气温观测资料下的一个邻近站点对中心站点的回归估计量的计算。

步骤3、多站点核回归方法的应用性改进,常规多站点逐一对中心站进行核回归的公式为:

对于公式(7)的解释:对于每一组xk数据都有与之对于的一个权重系数矩阵因此我们可以得到一组中心站点估计量的矩阵数据其中每一列都是一组对中心站的估计值。

但是,上述公式在本质上只是简单的增加的计算的数据,由单列数据变成了矩阵数据,其相应的结果也编程了矩阵数据,对于我们想要的由多个站点直接预测出中心站点的数据不同,并没有本质上的改变,因此本发明借鉴多维回归公式的理念,改进为多站点核回归公式,多维核回归公式如下:

这里的xi,yi,zi为不同类别的多维数据,如气温、湿度等,借鉴此公式得出:

其中,xsi为多个邻站的气温数据,yi为中心站点的气温数据,为回归预测的中心站点数据。

步骤4、引入自适应算法以及粒子群算法对核回归方法中的窗宽系数进行改进,具体设计方法:根据式(2)中的核密度估计值f(x,y)与fx(x),在h与成比例的基础上设计窗宽系数:λ=[f/g],g为f的算术平均,即α为灵敏参数,满足0≤α≤1,研究表明,实际应用中α为0.5时效果最好。因此自适应窗宽为h*=λh,替换式(3)中的h,即可求得自适应核回归算法公式:

在此基础上,设计新的窗宽公式:参数c与α待定,采用调整的粒子群算法分别对参数c与α进行优化:以核密度估计函数为目标函数,假设一个n维空间,由多个站点的气温数据组成粒子种群x=(x1,x2,…,xd),其中第i个粒子数据xi=(xi1,xi2,…,xin)t通过目标函数计算得出为核密度估计函数的一组潜在解,以均方根误差(rmse)为适应度函数,初始解中参数c与α设定为1.06与0.2,将速度参数v调整为双重变化因子ω与μ,位置参数x调整为窗宽则新的窗宽公式为:结合窗宽系数λ代入式(3)即可得到式(11)。

同样,对于式(9)的多站点核回归公式中的窗宽改进也是如此。

步骤5、如图2所示,江苏地区的单站点试验,根据不同指标下各时间尺度的对比分析可得,从预测精度指标mae、rmse来说,年时间尺度下的预测效果最好,日时间尺度下除了少数几个距离中心站点较近的效果与季、月时间尺度下相近外,其余效果皆不理想。季、月时间尺度下的预测效果就数值上来看,也还达不到常规回归方法的预测精度标准(rmse值0.6以下)。从拟合精度指标nsc、ioa来说,除了日时间尺度下离中心站点较远且位于江苏省北部的几个城市效果相对低一些外,季、月、日时间尺度下的拟合精度效果都非常好,年时间尺度下的拟合效果不佳,整体指标数值不高。

步骤6、如图3所示,江苏地区的多站点试验,在步骤5的基础上进行了核回归的多站点试验,以江苏地区为例,邻站的数量从2个逐步增加到11个,为了解决在增加邻站数量时的站点选取的不规律性问题,本发明采取了将所有的邻站组合依次遍历进行试验计算指标,然后取指标平均值进行观察的方法。图3分析可得,从预测精度指标mae、rmse来看,随着邻站数目的逐渐增加,其中心站点的回归指标值会逐步降低并趋于稳定,可以看到,在邻站数目达到5个以上时,其mae与rmse的指标值在三种时间尺度下均可以达到0.6以下,邻站数目在达到8个时,指标值已经趋于稳定。其中,三种时间尺度下的回归效果对比为年>月>季;从拟合精度指标nsc、ioa来看,随着邻站数目的逐渐增加,其中心站点的回归指标值会逐渐增加并趋于1值。除了年时间尺度外,季与月时间尺度下的指标大致在6邻站时就已经趋于稳定。

步骤7、如图4所示,全国地区的多站点试验,本发明选取2010~2014年的全国日均温数据进行试验,由于全国14个地区的站点数量不一致,在逐步增加站点的时候,不同的地区之间没有可比性,这样就失去了一个统一标准,因此本发明考虑将邻站n逐步增加的概念替换为以中心站点为基础,邻站范围从20km扩大到200km的概念,以此进行试验。由图4分析可得,全国多站点的核回归效果与步骤6江苏多站点核回归的效果类似,从预测精度指标mae、rmse(图4a、b)观察可以发现,全国11个地区(除去站点较为稀少的景洪、拉萨与漠河地区)的指标值会随着半径的扩大而不断降低最终趋于稳定。在半径达到160km及以上时,不同地区根据自身数据的优劣都会达到一个稳定的数值,在此基础上,再增加半径扩大站点的数量所得到的预测精度已经不会再提高太多。从拟合精度指标nsc、ioa(图4c、d)观察可以发现,其指标值会随着半径扩大逐渐稳定并趋于数值1,在半径达到120km及以上时,拟合指标值就已经近乎数值1,已经无法通过继续提升半径范围增加站点数量来提高拟合精度。

步骤8、如图5所示,本发明方法与核回归方法对比试验,从预测精度指标mae、rmse观察可以发现,本发明方法相对于核回归方法在半径范围20km到60km内的提升并不明显,预测精度仅有微量提升,当半径范围扩大至100km时,可以发现本发明方法的预测精度有了明显的提升,而当半径范围扩大至200km时,可以发现本发明方法相比于核回归方法的预测精度又有了质的提升,且在半径范围160km-200km范围内逐渐趋于稳定。从拟合优度指标nsc观察可以发现,由于核回归方法本身在拟合精度指标上已经达到了很好的效果,因此本发明方法相对于核回归方法并无太大的提升,改进前后的方法都拥有很好的拟合效果。总结而言,本发明方法拥有更好的普适性,更能适用于全国不同地区的地面气温数据的质量控制研究;

步骤9、如图6所示,本发明方法与核回归方法及两种传统质量控制方法的江苏单站点对比试验,图中四种方法在江苏单站点回归预测的效果对比分析可得,从预测精度指标mae、rmse观察可以发现,本发明方法相对于其它三种方法在年、季、月时间尺度下都拥有更好的效果,传统的idw与srt方法在年、季、月时间尺度下也都拥有仅次于本发明方法的效果且srt方法略优于idw方法,而核回归方法在年时间尺度下的效果介于idw与srt方法之间,但是其在季、月时间尺度下的预测精度效果则远远不如其它三种方法,说明核回归方法在江苏单站点回归预测的试验中没有很高的普适性。从拟合优度指标nsc观察可以发现,在年时间尺度下,核回归与idw方法拟合效果低于本发明方法与srt方法且其中idw又要略低于核回归方法,在季、月时间尺度下,四种方法的效果相近且数值都趋近于1。

步骤10、如图7所示,本发明方法与核回归方法及两种传统质量控制方法的江苏多站点对比试验,图中取四种方法在江苏多站点回归预测中的最优效果对比分析可得,从预测精度指标mae、rmse观察可以发现,传统的idw与srt方法在预测精度上与单站点回归预测区别不大,也能取得不错的预测效果,核回归方法在季、月时间尺度下的预测效果有明显的提升,可以接近传统方法的预测效果,在年时间尺度下则远比传统方法效果要好,整体上更适用于多站点的回归预测试验。本发明方法在年、月尺度下的预测效果都有一定的提升,但是在季度尺度下的效果有所降低,即便如此,该方法在四种方法中也属于预测效果最好的。从拟合优度指标nsc观察来看,其整体趋势如步骤9江苏单站点的对比试验结果相似,只不过本发明方法与核回归方法相比于传统的idw与srt方法在年时间尺度下拥有更好的拟合效果。

步骤11、图8所示,本发明方法与核回归方法及两种传统质量控制方法的全国多站点对比试验,从预测精度指标mae、rmse观察可以发现,本发明方法在全国14个不同的地区有拥有优异的预测效果,而其它三种方法在普适性与鲁棒性方面都有所欠缺。比如指标mae下,核回归方法虽然在大部分地区都有着不错的预测效果,但是在漠河地区的效果反而不如传统的idw与srt方法,idw方法与srt方法在站点密集的地区预测效果还行,但是如在景洪,拉萨,兰州,漠河,乌鲁木齐等地区的预测效果就会降低甚至非常不适合。在指标rmse下,整体趋势与mae指标展示的差不多,但是idw在呼和浩特,长春等地的预测精度效果也不佳。从拟合精度指标nsc观察可以发现,本发明方法,核回归方法与srt方法的拟合效果在全国14个地区都十分不错,但是idw方法在景洪,拉萨,兰州三个地区的效果有所欠缺,尤其是在景洪的拟合效果十分不理想。

步骤12、如图9所示,本发明方法与两种传统质量控制方法的检错率对比试验,在大多数地区,本发明方法在选择最优质控参数和检错率方面的效果优于idw和srt方法。另外,在最优质控参数的选择上,本发明方法在呼和浩特和景洪中并不优于其他两种方法,但其效果也介于idw和srt方法之间;在漠河区域,本发明方法的检错率略低于其他两种方法,但仅低2%;综合分析,本发明方法对不同区域的检错率具有较好的通用性。

本发明引入核回归方法并针对地面气温观测数据进行改进,并利用自适应及粒子群算法进一步改进核回归方法中的窗宽系数,通过步骤5到步骤12的试验与对比分析,本发明方法质量控制效果明显。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1