基于CNN的全球台风报文收集方法及收集系统与流程

文档序号:24291917发布日期:2021-03-17 00:40阅读:280来源:国知局
基于CNN的全球台风报文收集方法及收集系统与流程

本发明属于气象观测领域,具体涉及一种基于卷积神经网络(convolutionneuralnetwork,cnn)的全球台风报文收集方法及收集系统。



背景技术:

和卫星和气象站的观测数据一样,台风报文是一类记录台风发生、发展、结束状态的观测数据及强度、路径预测的资料,根据台风报文中的数据,分析台风过程,改进未来气候条件模拟中的台风初值质量,是提高台风预报准确性的重要资料。

世界气象组织(wmo)记录有31个编报中心对全球8大海域发生的台风过程进行编报。随着预报工作的细化,wmo热带气旋计划(tcp)将全球海域共计划分为13个区域。表1示出了上述13个海域的范围及名称。

表1

如表1所示,13个海域的台风预警信息分别由6个区域中心(rsmcs)和6个热带警报中心(tcwcs)负责,保证了每部分中包含1-2个rsmcs或tcwcs,同时针对每次台风过程涉及的海域,各成员国家和地区中心(nmhss)也会编发台风警报和警告,形成区域协调系统,以确保生命损失和热带气旋造成的损害减少到最低。

图1示出了现有技术中全球台风报文收集流程图。如图1所示,当有热带气旋生成的第一时间,所在海域的各rsmcs、tcwcs和nmhss编发预警信息,通过各自的编报中心上传台风报文至编报中心所属的上级wmo分节点;再有分节点上传至直属wmo主节点,主节点上转至wmo台风预警发布平台,主节点在wmo平台完成信息汇总,并交换获取到其他主节点海域的报文信息后,在下发给分节点,分节点接到信息后再下发给各编报中心;各编报中心对接收的数据报文进行抽取、解析、入库,并完成持久化存储。

由图1可以看出,现有技术中台风报文从编写到接收,经历了wmo分节点、主节点、主节点、分节点等多次转发和分发的流程,对于像台风这种过程变化快的天气现象,需要高时效的运用观测数据进行路径预报,在台风形成并进入24小时警戒区域后,需要每1小时进行当前时次定位,以及下一时次的定位警报,而往复的传输导致的时间延误,信息传输时效性低;gts的主节点和分节点的下发由于受到通讯带宽的限制,报文是有选择的、有节选的传输,是有选择性的,不是全部信息下发,因此造成台风报文收集信息种类不完整、报文不连续;且收集到的台风报文仅为国际通信系统(gts)主节点的分发,收集渠道单一且被动,无法采集到最需要的报文数据,资料收集不全面;同时,通过gts节点定时触发获取报文,对于像台风这类事件性天气过程,虽然实现简单,但过于浪费计算资源。



技术实现要素:

鉴于上述问题,本发明实施例提供了一种基于cnn的全球台风报文收集方法和收集系统,主动识别台风预警信息,且在识别到台风预警后再从wmo处获取台风报文,提高传输时效性,同时提高报文的完整性。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提供了一种基于cnn的全球台风报文收集方法,所述方法包括如下步骤:

步骤s1,收集多源卫星(msg、meteosat5、mtsat、goes-w、goes-e卫星)的红外ir图像,存储到台风图像大数据中;

步骤s2,基于cnn构建台风分类识别模型,并基于台风图像大数据对所述模型进行训练和验证,获得基于cnn的台风分类识别模型;

步骤s3,定时从全球各台风网站预警信息平台发布的信息中抓取预警图像;

步骤s4,根据所构建的基于cnn的台风分类识别模型,以所抓取的预警图像作为模型输入,监测是否有热带气旋生成;当识别出有热带气旋生成时,进入步骤s5;当无热带气旋生成时,进入步骤s3;

步骤s5,对热带气旋生成海域进行定位,并主动从定位海域所属的编报中心rsmcs、tcwcs和nmhss提取报文资料;

步骤s6,根据主动提取的报文资料,编发台风报文存入持久性数据库中,并上传至台风预警发布平台。

作为本发明的一个优选实施例,步骤s2的模型构建过程,具体包括:

步骤s21,基于cnn构建台风分类识别模型,所述模型包括:卷积层、池化层、全连接层;

步骤s22,基于台风图像大数据,进行数据集输入准备,定义train和validation;并使用tf.keras中imagedataenerator类对图像进行预处理,将图像转化为浮点张量后作为输入模型的训练集和验证集;

步骤s23,以所述训练集和验证集作为输入,使用fit_generator函数训练和验证所述基于cnn的台风分类识别模型,获得成熟的台风分类识别模型。

作为本发明的一个优选实施例,所述步骤s21的模型构建过程中,基于卫星图像的所属热带气旋阶段,进行cnn模式确定识别分类的再规划。

作为本发明的一个优选实施例,所述再规划如下:

根据风力等级及名称,结合西太地区对台风生消定义为8个形成阶段,分别是:热带扰动-风力6级、热带低压-风力7级、热带风暴-风力8-9级、强热带风暴-风力10-11级、台风-风力12-13级、强台风-风力14-16级、超强台风-风力17级及以上、以及台风结束。

作为本发明的一个优选实施例,所述分类,实现两种分类目标,第一种按照有无台风分成2类;第二种分类按照台风生成、台风最强、无台风分成3类;通过对两种分类目标对比,选取更适合业务情景的基于cnn的台风分类识别模型。

作为本发明的一个优选实施例,使用tf.keras.models.s-equential搭建台风分类识别模型,模型进行3次卷积和2次池化,同时引入dropout防止出现过拟合;在完成3次卷积和2次池化后,使用flatten()函数将多维矩阵压缩为一维作为dense()函数的输入,以生成全连接层。

作为本发明的一个优选实施例,所述台风图像为通过图片定时爬取或定时指定抽取从全球各台风网站预警信息发布平台抓取的图片。

第二方面,本发明实施例还提供了一种全球台风报文收集系统,所述全球台风报文收集系统,包括:红外ir图像获取模块、爬虫模块、基于cnn模型的台风分类识别模块、报文主动提取模块、报文解析模块、gts台风报文交互模块及报文持久化存储模块;

其中,所述红外ir图像获取模块与所述基于cnn模型的台风分类识别模块相连,用于收集多源卫星(msg、meteosat5、mtsat、goes-w、goes-e卫星)的红外ir图像,存储到台风图像大数据中,作为基于cnn的台风分类识别模型训练和验证数据集;

所述爬虫模块与所述基于cnn模型的台风分类识别模块相连,用于定时从全球各台风网站预警信息平台发布的信息中抓取预警图像;

所述基于cnn模型的台风分类识别模块与所述报文主动提取模块相连,用于构建、训练基于cnn的台风分类识别模型,并根据所述模型以定时抓取的预警图像为输入,判断是否有热带气旋生成;当有热带气旋生成时,将生成台风指令发送给报文主动提取模块;当无热带气旋生成时,将无生成台风指令发送给所述gts台风报文交互模块,继续预警图像抓取;

所述报文主动提取模块与报文解析模块相连,用于在接收到生成台风指令时,对热带气旋生成海域进行定位,并主动从定位海域所属的编报中心rsmcs、tcwcs和nmhss提取报文资料,并将报文资料发送给所述报文解析模块;

所述报文解析模块与所述gts台风报文交互模块和报文持久化存储模块相连,在接收到报文主动提取模块所主动提取的报文资料时,对报文资料进行解析,生成台风报文,并发送给所述gts台风报文交互模块及报文持久化存储模块;

gts台风报文交互模块用于接收报文解析模块所解析的有热带气旋生成时所解析的主动提取的报文资料的台风报文,并上传至台风预警发布平台;

所述报文持久化存储模块用于对台风报文的持久性存储。

本发明具有如下有益效果:

本发明实施例所提供的基于cnn的全球台风报文收集方法及收集系统,采用台风图像大数据构建基于cnn的台风分类识别模型的基础上,对台风进行分类监测,当识别出有热带气旋生成时,对热带气旋生成海域进行定位,主动从定位海域所属的编报中心rsmcs、tcwcs和nmhss提取报文资料,再根据主动提取的报文资料,编发台风报文并上传至台风预警发布平台,当判断为有效台风报文时,收集完整的台风报文,并进行持久化存储。本发明通过台风分类识别模型主动识别台风预警信息,且在识别到台风预警后再从wmo处获取台风报文,节约了传输距离,提高了传输时效性,同时提高了报文的完整性;模型识别过程及报文获取过程相配合,降低了报文持久性存储的资源消耗。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是现有技术中全球台风报文收集流程图;

图2是本发明实施方式提供的基于cnn的全球台风报文收集方法流程图;

图3是本发明一个实施例中1351次台风过程的样本累积分布图;

图4是2018年谭美台风监测中未达台风等级的6-11级风力图像示例图;

图5是2018年谭美台风监测中达到台风等级的12级及以上风力图像示例图;

图6是本发明实施方式中所构建的基于cnn的台风分类识别模型结构示意图;

图7是本发明实施方式提供的全球台风报文收集系统结构及全局示意图;

图8是本发明实施方式中爬虫模块爬取原理图。

具体实施方式

下面通过参考示范性实施例,并结合附图,对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非在这里进行定义,否则不会用理想化或过于正式的含义来解释。

本发明实施方式提供了一种基于cnn的全球台风报文收集方法,通过对台风识别模块的深度学习训练,实现主动获取接收台风报文,完成提前收集、补充收集报文的目的。

图2示出了本实施方式提供的基于cnn的全球台风报文收集方法流程图。如图2所示,所述方法包括如下步骤:

步骤s1,收集多源卫星(msg、meteosat5、mtsat、goes-w、goes-e卫星)的红外ir图像,存储到台风图像大数据中;

步骤s2,基于cnn构建台风分类识别模型,并基于台风图像大数据对所述模型进行训练和验证,获得基于cnn的台风分类识别模型;

步骤s3,定时从全球各台风网站预警信息平台发布的信息中抓取预警图像;

步骤s4,根据所构建的基于cnn的台风分类识别模型,以所抓取的预警图像作为模型输入,监测是否有热带气旋生成;当识别出有热带气旋生成时,进入步骤s5;当无热带气旋生成时,进入步骤s3;

步骤s5,对热带气旋生成海域进行定位,并主动从定位海域所属的编报中心rsmcs、tcwcs和nmhss提取报文资料;

步骤s6,根据主动提取的报文资料,编发台风报文存入持久性数据库中,并上传至台风预警发布平台。

如上所述,步骤s2的模型构建过程,具体包括:

步骤s21,基于cnn构建台风分类识别模型。

在实际台风监测中,不同海域对热带气旋生消阶段的命名、划分不相同。表2示出了现有技术中不同热带气旋强度的风力等级、中心最大风速以及所属海域名称的汇总表。如表2所示,由于不同编报中心使用的单位不同,对中心附近最大风速使用了3种单位,各海域对各阶段的划分与命名也不同。例如,当风力等级为6级时,在北印度洋海域v称为低压、在西南印度洋海域ⅵ称为热带扰动,其余称为热带低压;当风力等级为7级时;在北印度洋海域v称为深低压、在西南印度洋海域ⅵ改称为热带低压,其余仍称为热带低压。

表2

因此,在基于卫星视图收集台风图像以形成用于模型训练的大数据时,除了考虑应用cnn模式对图像的形状、特征进行特征谱提取外,还要根据表2的分类规则,结合研究目标,决定cnn模式识别分类数,即:基于卫星图像的所属热带气旋阶段,进行cnn模式确定识别分类的再规划。

本步骤中,所述再规划如下:

首先,根据风力等级及名称,结合西太地区对台风生消定义为8个形成阶段,分别是:热带扰动(风力6级)、热带低压(风力7级)、热带风暴(风力8-9级)、强热带风暴(风力10-11级)、台风(风力12-13级)、强台风(风力14-16级)、超强台风(风力17级及以上)、台风结束等按照生成台风时风力等级、台风发展至强度峰值时风力等级,进行1351次台风过程的样本累积分布分析,图3所示为所述统计分布图。如图3所示,进行上述1351次台风过程的样本分布分析,发现每次台风生成初始风力等级的样本分布集中在风力6-9级,占台风总样本数的99.4%;而台风发展至强度峰值,大多分布在12-17级及以上,约占总样本数的52.8%。

同时,以2018年谭美(trami)台风为例,如图4和图5所示,根据图像特征及台风阶段划分可以看出,风力在6-11级的图像,和风力在12级以上的图像对比,由于未达到“台风”阶段,没有明显的台风“眼墙”结构。

因此,本步骤采用cnn模型,实现两种分类目标,第一种按照有无台风分成2类;第二种分类按照台风生成、台风最强、无台风分成3类;通过对两种分类目标对比,选取更适合业务情景的基于cnn的台风分类识别模型,以实现更好地适应深度学习模型,更准确地分析图像特征谱。

基于此,本步骤所构建的基于cnn的台风分类识别模型,如图6所示,包括:卷积层、池化层、过渡层、全连接层,其中,conv表示卷积层,maxpooling表示池化层,dropout是为了防止模型过拟合,flatten是从卷积层到全连接层的过渡层,dense表示全连接层。如图6所示,根据收集的多源卫星红外图像,对卫星图像按照台风生成、台风最强、无台风3类进行分类,作为预处理,之后以“最小化预测误差”为目标,将图像输入卷积层、池化层、过渡层、全连接层,在各层中提取3类台风过程的图像几何特征、光谱特征等,最后得到训练后的台风分类识别模型cnn-typhoon。

优选地,本步骤使用tf.keras.models.s-equential搭建台风分类识别模型,模型进行3次卷积和2次池化,同时引入dropout防止出现过拟合;在完成3次卷积和2次池化后,使用flatten()函数将多维矩阵压缩为一维作为dense()函数的输入,以生成全连接层,并使用model的compile函数编译模型。

步骤s22,台风图像大数据预处理;

本步骤中,所述台风图像大数据,如图6所示,来自于卫星ir图像。对于所准备的台风图像大数据,进行数据集输入准备,定义train和validation;并使用tf.keras中imagedataenerator类对图像进行预处理,将图像转化为浮点张量后作为输入模型的训练集和验证集。

步骤s23,对所述基于cnn的台风分类识别模型进行训练和验证,获得成熟的台风分类识别模型。

以所述训练集和验证集作为输入,使用fit_generator函数训练所述基于cnn的台风分类识别模型。

在训练过程中,给定台风红外卫星图像后,通过图像预处理进入cnn网络,以“最小化预测误差”为目标,提取台风图像的几何特征、光谱等具有一定不变性的特征,最后在输出层得到台风分类识别的最终结果。

卷积神经网络是运用反向传播规则,对每个神经元的权值更新,使得模型整体误差不断降低的。卷积层利用本层卷积核,以滑动窗口方式,与输入图像的窗口覆盖范围进行点积运算,之后加上偏移量,经过激活函数将卷积的输出结果激活,输出本层的特征谱,实现图像特征提取。卷积层反向传播规则的表达式(1)为:

其中,l代表卷积层的层数,代表第l层、第j个输入图像、第i个神经元卷积输出的特征谱,f(x)代表激活函数,代表权重参数,代表偏置参数,即:利用卷积层对提取的特征谱进行2维卷积操作,进一步通过红外卫星图像,提取台风几何特征、光谱特征;卷积核大小均为3×3,以滑动窗口、步长为1的方式从矩阵最右上角,点运算到最左下角,并利用relu激活函数,通过非线性计算,将输出的张量中的小于0的位置对应的元素值都变为0。这里,激活函数见表达式(2):

池化层是降低卷积层输出特征图的大小,减少卷积神经网络训练时需要学习的参数数量;且平移、缩放和旋转具有不变性,也就是说池化层只减小特征图的大小,不改变特征谱。本实施例中对池化层选取采样窗口最大值的方法,采样窗大小为2×2,这样可以很好的提取台风过程的图像特征。其中,最大池化的表达式见(3):

根据热带气旋的生消过程,实现对图像的分类,完成是否触发报文收集的机制;即:图像通过卷积层、池化层之后,通过全连接层处理,将图像降维,从二维将至一维后,将这个一维特征输入softmax分类器,在训练过程中对应交叉熵损失构建目标函数,通过交叉熵(公式4)计算分类器预测的概率分布与真值之间的距离,来判定实际的输出与期望的输出的接近程度;同时,adam优化算法是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。通过adam算法随训练过程不断对学习率进行调整,加速优化过程,最终得到分类概率、完成对图像类别的预测工作。其中,交叉熵损失函数公式为:

这里,n为分类数量,p(xa)为指示变量(0或1),如果该类别和样本a的类别相同就是1,否则是0;q(xa)表示对于观测样本a属于某一类别的预测概率。

在完成上述训练与验证后,调用save函数保存获得的成熟的基于cnn的台风分类识别模型。

如上所述,步骤s3中所述图片抓取过程,通过定时爬取或定时指定抽取实现。其中,优选地,采用定时爬取。所述定时爬取通过定时任务定时触发爬虫,获取wmo及全球各台风网站预警信息发布图片。

本发明实施方式还提供了一种台风业务处理系统,如图7所示,所述台风业务处理系统,包括:红外ir图像获取模块、爬虫模块、基于cnn模型的台风分类识别模块、报文主动提取模块、报文解析模块、gts台风报文交互模块及报文持久化存储模块。

其中,所述红外ir图像获取模块与所述基于cnn模型的台风分类识别模块相连,用于收集多源卫星(msg、meteosat5、mtsat、goes-w、goes-e卫星)的红外ir图像,存储到台风图像大数据中,作为基于cnn的台风分类识别模型训练和验证数据集。

所述爬虫模块与所述基于cnn模型的台风分类识别模块相连,用于定时从wmo及各台风网站预警信息平台发布的信息中抓取预警图像。

所述基于cnn模型的台风分类识别模块与所述报文主动提取模块相连,用于构建、训练基于cnn的台风分类识别模型,并根据所述模型以定时抓取的预警图像为输入,判断是否有热带气旋生成;当有热带气旋生成时,将生成台风指令发送给报文主动提取模块;当无热带气旋生成时,将无生成台风指令发送给所述gts台风报文交互模块,继续预警图像抓取。

所述报文主动提取模块与报文解析模块相连,用于在接收到生成台风指令时,对热带气旋生成海域进行定位,并主动从定位海域所属的编报中心rsmcs、tcwcs和nmhss提取报文资料,并将报文资料发送给所述报文解析模块。

所述报文解析模块与所述gts台风报文交互模块和报文持久化存储模块相连,在接收到报文主动提取模块所主动提取的报文资料时,对报文资料进行解析,生成台风报文,并发送给所述gts台风报文交互模块及报文持久化存储模块。

gts台风报文交互模块用于接收报文解析模块所解析的有热带气旋生成时所解析的主动提取的报文资料的台风报文,并上传至台风预警发布平台。

所述报文持久化存储模块用于对台风报文的持久性存储所述爬虫模块,如图8所示,按照定时任务设置的时间间隔或自定义规则进行触发爬虫集群,爬虫集群从wmo预警信息发布网站、全球各台风中心预警信息发布网站上获取图片、报文文件,将原始文件放入消息队列集群中,消费者集群监听消息队列集群,将获取的原始文件进行一定格式处理,将其持久化到大数据云平台,持久化后,使用本地搜索服务可以对持久化后的报文、图片文件进行搜索,对外提供相应的台风信息搜索服务。

爬虫爬取的信息主要包括两方面:(1)台风预警图片,包括:wmo台风预警信息图片;wmo各台风中心海域预警信息图片;全球各台风中心预警网站图片。(2)台风报文:全球各台风中心同步到wmo发布的台风预警信息等相关的数据报文,此类报文可以和gts系统报文进行互相验证。

由以上技术方案可以看出,本发明实施方式所提供的基于cnn的全球台风报文收集方法及收集系统,通过台风分类识别模型主动识别台风预警信息,且在识别到台风预警后再主动从wmo及各编报中心处获取台风报文,节约了传输距离,提高了传输时效性,同时提高了报文的完整性;模型识别过程及报文获取过程相配合,降低了报文持久性存储的资源消耗。

以上所述是本发明的优选实施方式,应当指出,本发明并不受限于以上所公开的示范性实施例,说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1