陆地能见度临近预报方法与流程

文档序号:32993575发布日期:2023-01-17 23:51阅读:36来源:国知局
陆地能见度临近预报方法与流程

1.本发明涉及一种陆地能见度临近预报方法。


背景技术:

2.陆地能见度预报的时效性与准确性深刻影响着人民群众的生产生活,尤其是低能见度的大雾天气是突发性强、灾害性大、影响范围广的气象现象之一。由于天气系统运动变幻莫测,低能见度天气的产生对多个相关气象要素的变化要求苛刻,同时各相关气象要素之间的相互影响也交叉复杂,故目前陆地能见度临近准确预报颇具难度。
3.目前陆地能见度预报领域基本分为数据挖掘法与卫星监测法两大方向。其中数据挖掘法根据能见度历史数据挖掘总结经验并设计算法给出预报结论,蒋大凯等人使用mm5算法框架对辽宁省10年间的秋冬季低能见度天气过程进行了分析并根据经验总结给出预报结论[蒋大凯, 闵锦忠, 陈传雷等,“辽宁省区域性大雾预报研究
”ꢀ
[j],《气象科学》,2007,27(5):578~583],ribaud等人根据3年的单站大雾数据集分析归纳出parafog算法,对大雾天气在小尺度地区的生消进行了实验验证[ribaud j f, haeffelin m, dupont j c 等,“一种用于支持局部尺度上近期雾形成事件的近实时决策工具
”ꢀ
[j],《大气测量技术》,2021,14(12): 7893-7907],但由于低能见度天气产生诱因众多且互相交叉影响,在算法设计时全面考虑非常困难,因此线性的数据挖掘算法难以全面归纳出大雾产生的背后的非线性规律。卫星监测法通过对卫星遥感数据分波段研究,根据卫星分波段数据变化特征,运用客观算法预报临近时次的陆地能见度,bendix等人运用卫星监测资料对白天低能见度天气的触发机理进行了可行性研究[bendix j, thies b, nau t等,“陆地上空terra/aqua-modis探测白天雾和低层云的可行性研究
”ꢀ
[j],《气象应用》,2006, 13(2): 111-125],ellord等人对气象卫星遥感数据分波段研究,实现了夜间大雾天气触发的监测预警[ellord等,“利用goes多光谱红外图像探测和分析夜间雾的发展”[j],《天气和预报》,1995,10(3): 606-619]但由于气象卫星监测数据的空间分辨率过大,无法支撑精细化监测以及小尺度低能见度天气预报。
[0004]
传统数据挖掘与卫星监测的陆地能见度临近预报方法通过数据搜集,规律归纳与线性建模三步来完成能见度预报方法构建,但天气过程的演变是自然的海量的非线性过程。
[0005]
其中在第二步规律归纳中,只能针对大雾个例的发生条件来归纳特征,难以针对全时次的长序列时间数据集来完成特征归纳总结,不可避免的归纳不出陆地能见度变化的全面规律,并且通过第三步的数学线性建模公式来对非线性过程建模,只能片面的拟合出陆地能见度变化的大体规律,而难以全面归纳出能见度变化过程的内涵规律。


技术实现要素:

[0006]
本发明基于门控循环单元神经网络,通过该网络拟合出陆地能见度变化的非线性过程,从而提出一种能够对当前时刻未来时间段内进行实时预报的陆地能见度临近预报方
法。
[0007]
依据本发明的实施例,提供了一种陆地能见度临近预报方法,用于给定地域陆地能见度临近预报,所述预报方法包括以下步骤:1)选取给定地域多个地面观测站连续多个年份选定月份的以若干与能见度变化相关的气象要素为标签所描述的观测数据;进而选取部分时间段观测数据构成测试集,另部分时间段观测数据构成训练集;2)对所述观测数据进行清洗,以补充缺测数据,并剔除误测值;3)对步骤2)清洗后的观测数据进行归一化处理,得到归一化数据;4)调用步骤3)训练集中的归一化数据对预定的门控循环单元神经网络进行训练,该门控循环单元神经网络的输入层的神经元数量与所述气象要素的数量相同,输出层为单一的临近能见度值;5)对步骤4)获得的临近能见度值与对应时刻的实况能见度值进行代价函数运算,通过运算结果更新门控循环单元神经网络门控权向量;6)将步骤5)经过更新的门控循环单元神经网络作为初态预报器,调用步骤3)测试集中的归一化数据进行测试,若测试通过,则训练完成,生成预报器,转步骤7);若测试不通过,则转至步骤4)继续训练;7)调用步骤6)获得的预报器对当前时刻临近能见度值进行预报。
[0008]
可选地,观测数据所属年份不少于3年,且不多于7年;选定月份为每年11月1日至来年3月1日。
[0009]
可选地,观测数据为选定月份的逐小时观测数据。
[0010]
可选地,根据期望预报的时长,对观测数据进行时移匹配,选用相应的t+h时刻的观测数据作为样本进行门控循环单元神经网络的训练和测试;其中,t为当前时刻,h为期望预报的时长,即当前时刻未来h时间。
[0011]
可选地,h为1、2、3或4小时。
[0012]
可选地,所述门控循环神经网络包括四个隐藏层,而合计输入层和输出层共六个层,六个层输入到输出的方向上神经元的数量先扩大后减小。
[0013]
可选地,隐藏层中在序列上为第一隐藏层和第二隐藏层的神经元数量各为128个,第三隐藏层和第四隐藏层的神经元数量各为64。
[0014]
可选地,所述气象要素共八个,依次为当前时刻t实况温度、当前时刻t距离前一时刻1小时变压、当前时刻t实况露点温度、当前时刻t相对湿度、当前时刻t海平面气压、当前时刻t前10分钟平均风速、当前时刻t前10分钟平均风向、当前时刻t过去1小时降水量。
[0015]
可选地,步骤4)中,八个气象要素序列输入为s
t
(k),神经元计算模型为r
t
(k)=sigmoid(w
rs
(k)
•st
(k)+w
rc
(k)
•ct-1
(k))n
t
(k)=sigmoid(w
ns
(k)
•st
(k)+w
nc
(k)
•ct-1
(k))=tanh(w
cs
(k)
•st
(k)+r
t
(k)
•wcc
(k)
•ct-1
(k))式中,c
t-1
(k)表示t-1时刻第k个隐藏层单元激活值,s
t
(k)表示t时刻第k个隐藏层单元的输入,r
t
(k)表示t时刻第k个隐藏层单元重置门值,n
t
(k)表示t时刻第k个隐藏层单元
更新门值,表示t时刻第k个隐藏层单元更新门激活值,c
t
(k)表示t时刻第k个隐藏层单元输出值,其中w
rs
(k)、w
rc
(k)为第k个隐藏层单元重置门权向量,w
ns
(k)、w
nc
(k)为第k个隐藏层单元更新门权向量,w
cs
(k)、w
cc
(k)为第k个隐藏层单元更新门激活值权向量;sigmoid函数将重置门值r
t
(k)限定在0到1之间,当r
t
(k)值接近1时,t-1时刻隐藏层单元激活值充分保留,反之则丢弃,同时充分保留新输入隐藏层单元的t时刻第k个隐藏层单元输入值s
t
(k);同理,更新门值n
t
(k)通过控制c
t-1
(k)与两个量来更新t时刻第k个隐藏层单元状态值c
t
(k)。
[0016]
可选地,门控循环单元神经网络的输出层在t时刻的输出值为 ;式中,wo为隐藏层与输出层的连接权向量,c
t
为隐藏层输出;门控循环单元神经网络输出层传递函数为 ;信号从门控循环单元神经网络输出层输出后,通过代价函数;求得每次网络迭代训练后各层网络权向量的误差更新量。
[0017]
在本发明的实施例中,借助于门控循环单元神经网络用于陆地能见度临近预报,所提出陆地能见度临近预报方法将门控循环单元神经网络良好的时序记忆能力、门控结构突出的特征识别能力与地面观测数据具备的时序性与突变性相融合,而相对于lstm、svm、knn 等其他机器学习方法相比,用该方法对未来4 小时以内的预报均优于lstm、knn以及svm 方法的预报结果。
附图说明
[0018]
图1为一实施例中门控循环单元神经网络陆地能见度预报方法流程图。
[0019]
图2为一实施例中门控循环单元内部信息流。
[0020]
图3为一实施例中陆地能见度预报模型网络结构图。
[0021]
图4a为一实施例中1h预报网络训练代价函数收敛曲线。
[0022]
图4b为一实施例中2h预报网络训练代价函数收敛曲线。
[0023]
图4c为一实施例中3h预报网络训练代价函数收敛曲线。
[0024]
图4d为一实施例中4h预报网络训练代价函数收敛曲线。
[0025]
图5a为一实施例中预报方法1h实际能见度预报测试。
[0026]
图5b为一实施例中预报方法2h实际能见度预报测试。
[0027]
图5c为一实施例中预报方法3h实际能见度预报测试。
[0028]
图5d为一实施例中预报方法4h实际能见度预报测试。
具体实施方式
[0029]
应知,神经网络是一门重要的机器学习技术,自1943年起,神经网络经过几次发展
的高潮,目前已经能够进行产业化应用。而门控循环单元(gru,gated recurrent unit)神经网络则是为了更好地捕捉时间序列中时间步距离较大的依赖关系而被提出,并成为常用的神经网络,它可以通过学习的门来控制信息的流动。
[0030]
门控循环单元神经网络引入了重置门(reset gate)和更新门(update gate)的概念,从而修改了循环神经网络中隐藏状态的计算方式。鉴于门控循环单元神经网络及其构成以为本领域的技术人员所熟知,并且其大多数的应用只是对门控循环单元神经网络的直接调用,而对其自身并不加以改进,通常只是确定输入单元与输出单元的数量,即输入层中神经元的数量和输出层中神经单元的数量,整个神经网络相对于应用是黑盒,因此,在本发明的实施例中对门控循环单元神经网络本身不再赘述。
[0031]
临近预报(nowcast)是世界气象组织的定义,定义的内容为描述现时天气状况和0~2小时的天气预报。在本发明的实施例中,作为对比,还针对当前时刻未来3h(小时)、4h进行能见度预报测试,在验证预报方法的同时,也与规范的临近预报作比对。
[0032]
影响陆地能见度的气象要素相对较多,主要有八个,依次为当前时刻t实况温度、当前时刻t距离前一时刻1小时变压、当前时刻t实况露点温度、当前时刻t相对湿度、当前时刻t海平面气压、当前时刻t前10分钟平均风速、当前时刻t前10分钟平均风向、当前时刻t过去1小时降水量。而通过机器学习建立的预报器,其目的就在于通过机器学习使能见度与前述八个气象要素建立起相对真实的相关性,更具体为影响权重,即某一气象要素的影响重要程度。
[0033]
本发明实施例所提出基于门控循环单元神经网络的陆地能见度临近预报方法侧重于陆地能见度的预测,门控循环单元神经网络的训练样本也相应选自目标区域的观测数据。该目标区域即给定的区域,说明书附图5a~5d也表明,临近预报距离当前时刻的时间差越大,预报结果与实况间的偏差稳定性就越差,因此,临近预报以规范的临近预报为准。
[0034]
本发明实施例中,所提供陆地能见度临近预报方法主要包括样本选取、样本数据处理、调用门控循环单元神经网络使用处理后的样本数据进行训练,对训练的结果进行测试,进而进行迭代循环等步骤,最后得到符合预定训练指标要求的预报器,使用该预报器进行陆地能见度临近预报。
[0035]
外面对以上各步骤进行详细的说明,应知,序列并不必然表示步骤的必然顺序,某些步骤并不受序列限制。
[0036]
步骤1主要是样本选择,需知,气候变化有一定的规律性,但临近年份的气象观测数据与本年度的气象状况更贴近,因而,选取相关样本时,以近几年的观测数据为主。
[0037]
现在极端天气越来越多,不可预测性越来越强,样本的分布范围越广越有利于预测侧准确性。但多雾气象现象多发生在秋冬季,因此,能见度预测的时域天气变化的烈度相对较低,极端天气发生在秋冬季的概率相对较低,并且该时域与能见度低的现象多发相吻合。
[0038]
在本发明的实施例中,选取山东省内地级市17个国家地面观测站2017至2021年中每年11月1日至来年3月1日逐小时观测资料,即观测数据;其中2017年11月1日至2018年3月1日的逐小时观测数据构成测试集,2018年至2021年中每年11月1日至来年3月1日逐小时观测数据中95%的观测数据构成训练集,剩余5%构成验证集。
[0039]
观测数据包括前述的八个气象要素,在一些实施例中,为了减少系统开销或者计
算速度,可以适当减少其中的某些气象要素,例如当前时刻t过去1小时降水量可以省略,减少一个气象要素,表现在神经网络上,至少输入层会减少一个神经元,而与之匹配的隐藏层也可以相应减少整数倍的神经元,从而减少计算量。
[0040]
尤其是,在中国北方,例如山东,冬季降水量偏少,某些气象要素的省略在某些时段内对整体的预测效果的真实性影响较小。
[0041]
如果用于计算的资源相对较多,可以增加一些气象要素,以提高预报的准确性。
[0042]
作为影响因素,输入层的神经元数量与选择的气象要素的数量相同。
[0043]
另外,不同的单位可能对临近的时间段(即预报时长,预报时长为气象学标准术语)要求不一致,用于预测临近能见度的关联因素中最具影响的观测数据必然是往年相应时刻的观测数据,因此,针对不同的预报时长而可以从观测数据中选择往年匹配时刻的观测数据,而无需使用全部观测数据。
[0044]
另需知,对于预报器的验证则是数据分布的范围和广度更大则更有利,例如附图5a~5d所涉及的多种预报时长,用于验证“临近”的量度对预报准确性的影响。
[0045]
进而在步骤2中,首先针对不同预报时长要求而对各观测数据集中的能见度标签进行时移匹配,从而获得初始的用于训练和检测的观测数据。
[0046]
能见度标签匹配相应的影响其变化的气象要素的观测数据,各观测数据以前述的例如八个气象要素为字段进行存储,以方便提取。
[0047]
鉴于地面气象观测站在运行过程中有观测数据缺失情况,故首先需要对原始观测数据进行清洗以便提升训练效果,在一些实施例中使用均值平滑法即利用错误数据临近的正确数据均值来剔除或补充观测数据中缺测、误测值。
[0048]
鉴于包括能见度在内的共九项观测气象要素的量纲不同且数量级差异巨大,为提升门控循环单元神经网络训练的收敛速度与精度,采用离差标准化的方法对以上九项观测要素的进行归一化的统一处理,将各项观测要素的全部元素缩放到0到1之间,以便使网络更高效的提取不同数量级、不同量纲数据的特征,离差标准化函数如下式所示:式中x
*
为某类观测要素归一化后的数据,x为每一类观测要素的原始数据,x
min
为每类观测要素的最小值,x
max
为每类观测要素的最大值。
[0049]
步骤3:将步骤2中经过数据填充与质量控制的数据输入门控循环单元神经网络,根据预报时效的不同(1小时、2小时、3小时和4小时)将能见度值与8要素值错开相应的时次,每次t时刻的8要素序列输入为s
t
(k),进而采用以下模型进行计算r
t
(k)=sigmoid(w
rs
(k)
•st
(k)+w
rc
(k)
•ct-1
(k))n
t
(k)=sigmoid(w
ns
(k)
•st
(k)+w
nc
(k)
•ct-1
(k))=tanh(w
cs
(k)
•st
(k)+r
t
(k)
•wcc
(k)
•ct-1
(k))式中,c
t-1
(k)表示t-1时刻第k个隐藏层单元激活值,s
t
(k)表示t时刻第k个隐藏层单元的输入,r
t
(k)表示t时刻第k个隐藏层单元重置门值,n
t
(k)表示t时刻第k个隐藏层单元更新门值,表示t时刻第k个隐藏层单元更新门激活值,c
t
(k)表示t时刻第k个隐藏层单
元输出值,其中w
rs
(k)、w
rc
(k)为第k个隐藏层单元重置门权向量,w
ns
(k)、w
nc
(k)为第k个隐藏层单元更新门权向量,w
cs
(k)、w
cc
(k)为第k个隐藏层单元更新门激活值权向量;sigmoid函数将重置门值r
t
(k)限定在0到1之间,当r
t
(k)值接近1时,t-1时刻隐藏层单元激活值充分保留,反之则丢弃,同时充分保留新输入隐藏层单元的t时刻第k个隐藏层单元输入值s
t
(k);同理,更新门值n
t
(k)通过控制c
t-1
(k)与两个量来更新t时刻第k个隐藏层单元状态值c
t
(k)。
[0050]
其中的数据填充和质量控制表示为对缺测数据的填充和误测值的剔除,即步骤2的部分功能。
[0051]
相应网络输出层在t时刻的输出值为式中,wo为隐藏层与输出层的连接权向量,c
t
为隐藏层输出。门控循环单元神经网络输出层传递函数如下式所示。
[0052]
信号从门控循环单元神经网络输出层输出后,通过代价函数求得每次网络迭代训练后各层网络权向量的误差更新量。
[0053]
本发明实施例中所提供的以上各式构成计算模型描述的门控循环单元神经网络,作为以下步骤训练、测试、验证的神经网络,借以训练出所需的预报器。
[0054]
加以对应的,由于采用八个预报要素进行训练,故输入层采用八个神经元,整体网络结构为一层输入层,四层隐含层与一层输出层的(8-128-128-64-64-1,数字表示每个层神经元的数量,从而体现出神经元数量在顺序输入输出的层上存在先变多后变少的情形)先放大特征细节后收敛集中的方向,最后输出单一能见度值。将t时刻气象观测八气象要素时间序列作为输入进入输入层,门控循环单元神经网络第一层隐藏层接受输入向量,结合该隐藏层中每个门控循环单元神经元上一时间点的输出,得到第二层隐藏层的输入向量,初步的抽象出气象观测八气象要素与能见度之间的联系,门控循环单元神经网络第二层隐藏层接受第一层隐藏层的输入向量,结合第二层隐藏层中每个门控循环单元神经元上一时间点的输出,得到第二层隐藏层的输出向量,将门控循环单元神经网络第二层隐藏层的输出输入到第一线性全连接层,将数据降尺度并整合特征值,再将第一线性全连接层的输出向量输入到第二线性全连接层,进一步提取气象要素时间序列的特征,最终通过输出层输出t+h时刻网络模型预报的陆地能见度值。该部分作为步骤4的内容,用于辅助描述步骤3的计算模型。
[0055]
步骤5则用于训练,以期获得准确度相对较高的预报器,相应地,步骤5调用训练集中的经过归一化的数据输入所述计算模型或者说自输入层输入而开始训练。
[0056]
相应地,将t时刻气象观测八气象要素的序列作为输入进入输入层,门控循环单元神经网络第一层隐藏层接受输入向量,结合该第一层隐藏层中每个门控循环单元神经元上一时间点的输出,得到输入至第二层隐藏层的输入向量,初步的抽象出八气象观测要素与能见度之间的联系,门控循环单元神经网络第二层隐藏层接受第一层隐藏层的输入向量,
结合第二层隐藏层中每个门控循环单元神经元上一时间点的输出,得到输出至第二层隐藏层2输出向量,将门控循环单元神经网络第二层隐藏层的输出输入到第一线性全连接层,将数据降尺度并整合特征值,再将第一线性全连接层的输出向量输入到第二线性全连接层,进一步提取气象要素时间序列的特征,最终通过输出层输出t+h时刻网络模型预报的陆地能见度值。将步骤3所述的代价函数更新门控循环单元神经网络门控权向量,以进行进一步的训练。
[0057]
步骤6:进行代价函数运算,通过运算结果更新门控循环单元神经网络门控权向量。
[0058]
步骤7:将迭代更新后门控循环单元网络作为预报器,进行测试,若测试通过则训练完成,得到预报器进行预报;若不通过则转至步骤5继续训练。
[0059]
以以上实施例得到的预报器进行测试,所得结果见下表1,表中,本发明实施例的基于门控循环单元神经网络的陆地能见度临近预报方法与lstm、svm、knn 等其他机器学习方法相比,用该方法对未来4 小时预报的ts-score 分别为64%, 56%,49% 和45% ,均优于lstm、knn以及svm 方法的预报结果。结合附图4和附图5的实际预报测试中,可以看出,随着预报时长的拉长,能见度值预报难度增加,预报模型输出的能见度对预报业务重点关注的低能见度情况反应敏感,且可以迅速捕捉到能见度的生消与突变。由此可见基于门控循环单元神经网络的预报方法相比于长短期记忆神经网络、临近k指数与支撑向量机模型在预报精度上有明显优势。
[0060]
表1模型评估结果另对附图做进一步的说明:
如图4a~4d所示,分别给出了1-4h训练的网络代价函数收敛曲线,随着训练迭代次数的逐渐增加,代价函数的收敛速度由快到慢,稳态误差逐渐减小直到稳定,可以看出随着预报模型时长的增加,代价函数收敛速度逐渐加快,但稳定后训练集与测试集损失率逐渐增大,预示着预报难度逐渐加大。
[0061]
如图5a~5d所示,根据训练完毕的1-4h陆地能见度预报模型,对验证集中2017年11月1日至2018年3月1日济南国家气象观测站的部分数据进行1-4h逐小时预报验证,图5a~5d分别选取了济南国家气象观测站2017年11月25日14时至11月29日18时、2017年12月6日6时至12月10日10时、2018年1月18日12时至1月22日16时与2018年2月1日4时至2月5日8时的实况观测数据进行了能见度预报实验,能见度实况值(能见度标签)为实线曲线,能见度预报值为点划线曲线。可以看出,预报曲线与实况曲线随时间的变化高度吻合,预报模型输出的能见度对预报业务重点关注的低能见度情况反应敏感,且可以迅速捕捉到能见度的生消与突变,并且随着预报时长的拉长,能见度值预报难度增加。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1