一种基于CNN图像模式的对流天气相似性识别方法与流程

文档序号:31094457发布日期:2022-08-10 00:30阅读:244来源:国知局
一种基于CNN图像模式的对流天气相似性识别方法与流程
一种基于cnn图像模式的对流天气相似性识别方法
技术领域
1.本发明涉及终端区气象分析技术领域,具体涉及一种基于cnn图像模式的对流天气相似性识别方法。


背景技术:

2.随着民航运输的快速发展,对流天气对空中交通影响的研究将会愈加具有意义,大部分与天气相关的空中交通管理决策都是由人工完成,未来空中交通和天气集成的目标是尽可能减少人工估计空域运行状况的需求,利用空管海量数据资源与大数据技术实现“智慧空管”的发展目标,促进管理新模式、运行新机制的形成。天气相关的相似场景研究主要目的在于发掘场景类别的特征要素与运行效果,将场景的相似性通过可量化的表征或描述来支持未来天气状况下空中交通管理决策提供支持,而气象场景识别概念是其核心内容。
3.气象场景识别过程包括气象图像特征提取和场景聚类划分。2015年和2016年kuhn k等人采用机器学习的方法进行特征提取(以pca为主),然后基于提取出的特征采用经典聚类方法来解决气象场景识别问题,但是传统的基于距离的模式度量空间分布的相似性识别较粗糙等问题。深度学习方法的发展加速了图像数据的广泛应用,能够在对数据无知的情况下,更完整地保留数据信息。由此,基于深度学习的对流天气场景识别存在较大的应用需求与研究空间。目前关于终端区气象场景识别的研究现状如下:
4.(1)尚未针对终端区对流天气图像数据的特征提取方法进行有效研究;
5.(2)对考虑严重程度和空间分布的终端区气象场景进行识别研究较少,部分研究以区域扇区为主;
6.(3)尚未将图卷积神经网络结合聚类的方法应用到终端区气象场景识别中。
7.因此基于图卷积神经网络和聚类的终端区气象场景识别方法可以弥补上述空白领域,从而辅助管制员对历史对流天气场景进行分析,进而辅助其做出决策。另一方面,由于深度学习在各领域取得的卓越成就,不少学者将深度学习运用到民航领域,以预测相关研究为主,而在实际运行中,我们很少能够获得相关的标签,而打标签又是一个非常繁重的工作,因此为了减少不必要的工作量,有学者提出利用部分样本标签进行学习即半监督学习,而如何打标签、为哪些样本打标签则是其重要的基础,而无监督学习能够较好的解决其问题,这也使得无监督学习在初步研究时能够发挥重要作用,本文提出一种融合cnn和kmeans++融合的对流天气场景识别聚类方法,以进行初步无监督识别,为后续半监督识别奠定研究基础,同时识别出气象场景,为管制员提供一种更直观的历史结果,并为现场管制运行提供一种较有效的事前分析手段。


技术实现要素:

8.针对上述存在的技术不足,本发明为实现终端区对流天气相似气象场景识别提供一种方法,该方法使用卷积神经网络从原始图像数据中提取特征,并利用无监督聚类方法,
实现终端区对流天气相似场景的识别。
9.为解决上述技术问题,本发明采用如下技术方案:本发明提供一种基于cnn图像模式的对流天气相似性识别方法,包括:
10.根据所获取的对流天气图像进行预处理;
11.利用vgg16卷积神经网络设计终端区对所获取的对流天气图像提取模型,获取终端区对流天气图像特征,并得到特征表示x;
12.将得到特征x输入聚类器中进行无监督聚类,并利用聚类评估指标确定最佳聚类簇数;
13.利用可视化方法及实际运行数据验证,验证识别场景,并确定所识别出场景的特点。
14.优选地,所述获取的对流天气图像进行预处理包括:
15.从目标终端区提供的天气避让区产品数据进行采集,并对收集到的图像纪念性缩放
16.优选地,所述利用vgg16卷积神经网络设计终端区对所获取的对流天气图像提取模型,获取终端区对流天气图像特征,并得到特征表示x包括:
17.采用vgg16卷积神经网络,根据预处理后的终端区对流天气图像数据提取模型,移除vgg16模型的三个全连接层及softmax层,对其网络模型的内部层保持结构参数固定,提取模型的输出特征x;
18.其中vgg16模型卷积处理具体如下:
19.1)初始模型采用两次64个卷积核的卷积处理,经relu函数激活后,进行一次最大池化层max pooling;
20.2)二次卷积模型采用两次128个卷积核的卷积处理,由relu函数激活后,进行一次最大池化层maxpooling;
21.3)三次卷积模型采用三次256个卷积核的卷积处理,relu函数激活后,进行一次最大池化层maxpooling;
22.4)四次卷积模型重复经历三次512个卷积核的卷积处理,经relu函数激活后,进行一次最大池化层maxpooling,输出特征x。
23.优选地,将得到特征x利用pca降维后输入到k-means++聚类器中进行无监督聚类,并利用聚类评估指标确定最佳聚类簇数,具体包括:
24.1)从数据集χ中随机选取一个样本点作为第一个初始聚类中心ci;
25.2)计算每个样本与当前已有聚类中心之间的最短距离,用d(χ)表示;然后计算每个样本点被选为下一个聚类中心的概率p(χ),最后选择最大概率值所对应的样本点作为下一个簇中心;
[0026][0027]
3)重复第2步,直到选择出k个聚类中心。
[0028]
优选地,所述利用可视化方法及实际运行数据验证,验证识别场景,并确定所识别出场景的特点包括:
[0029]
依据聚类评估指标手肘法确定场景划分类别为3类,将提取图像特征进行聚类划
分结果分成3类,得到3簇不同的对流天气场景划分特征及样本分布;
[0030]
对得到的3簇不同的对流天气场景划分特征及样本分布进行数据分析,得到所识别出场景的特点。
[0031]
本发明的有益效果在于:
[0032]
通过vgg16深度神经网络提取图对流天气特征,将提取特征通过kmeans++进行历史气象场景分类,并确定最佳划分结果为3类。相较于传统的基于距离度量空间分布的相似性识别方法较粗糙,造成场景的易理解性较弱,无法满足实际管制运行的需求,基于cnn图像模式的结果表明不同场景下划分的三类气象场景之间具有良好的区分性,符合实际的运行情况。基于历史气象的分类可以提前预判由天气原因造成运行状况类型与策略状况,在未来相似对流天气场景下对管制发布流量管理策略时提供帮助,辅助进行决策。
附图说明
[0033]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]
图1为本发明实施例提供的一种基于cnn图像模式的对流天气相似性识别方法的流程示意图。
[0035]
图2为对流天气图像数据示意图。
[0036]
图3为cnn模型结构示意图。
[0037]
图4为手肘法确定最佳聚类簇数图。
[0038]
图5为cnn-kmeans++终端区气象场景识别三类结果图。
具体实施方式
[0039]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040]
实施例:
[0041]
如图1至图3所示,本发明提供了一种基于cnn图像模式的对流天气相似性识别方法,具体如下:
[0042]
s1:根据所获取的对流天气图像进行预处理
[0043]
考虑到终端区运行复杂,且对流天气是管制场景中重要的组成部分,因此本发明选择广州白云机场终端区对流天气作为案例进行场景示例构建。waf图像数据能够较好的反映对流天气严重程度,本发明用中国民用航空中南地区空中交通管理局提供的waf产品图像数据。将广州白云机场终端区对流天气图像数据作为数据源。
[0044]
对流天气图像数据如图2右图所示,右图中对流天气严重程度被分为4个等级,如表1所示,白色区域为极弱回波,灰色区域表示可通过区域,浅灰色区域为低概率避让区,黑色区域为建议规避区。左图中深色部分圆形区域为气象雷达所能探测的区域,内部多边形
为终端区所在范围,代表了125km
×
125km范围内的对流天气强度。数据集共有7344张,图像格式类型为png,其更新频率为10分钟,分辨率为200m
×
200m。
[0045]
表1:waf数据颜色映射表
[0046][0047]
本发明中使用的cnn以vgg16网络模型为基本结构,由于vgg16输入图像尺寸是224
×
224因此需要对所获得的图像进行预处理,对收集到的图像大小缩放至224
×
224像素大小,以适合模型的训练。
[0048]
s2:利用vgg16卷积神经网络设计终端区对流天气图像提取模型,提取终端区对流天气图像特征,移除vgg16模型的三个全连接层及softmax层,对其网络模型的内部层保持结构参数固定,得到特征表示x,用于后续聚类,具体如图3所示;
[0049]
考虑到网络结构对终端区对流天气完整性图像识别的适用性,本发明主要使用vgg-16模型。
[0050]
vgg-16网络结构的特点是卷积层多、网络层数深、结构规整,是网络结构设计的基础。vgg-16模型共有16层,包括13层卷积层和3层全连接层。
[0051]
首先,输入尺寸为224
×
224
×
3的彩色图像(其中224代表图像的长和宽均为224,3代表通道数目)。初始卷积核的大小为3
×
3,步长stride为1,填充padding为1。池化层pooling采用最大池化max pooling的方式,滤波器为2
×
2,步长stride为2,模型卷积处理分为5个部分,具体如下:
[0052]
初始模型采用两次64个卷积核的卷积处理,经relu函数激活后,进行一次最大池化层maxpooling;
[0053]
二次卷积模型采用两次128个卷积核的卷积处理,由relu函数激活后,进行一次最大池化层maxpooling;
[0054]
三次卷积模型采用三次256个卷积核的卷积处理,relu函数激活后,进行一次最大池化层maxpooling;
[0055]
四次卷积模型重复经历三次512个卷积核的卷积处理,经relu函数激活后,进行一次最大池化层maxpooling;
[0056]
最终模型通过flatten函数将数据拉平成一维向量,经两层1
×1×
4096和一层1
×1×
2的全连接层,relu函数激活后,通过softmax函数输出结果。
[0057]
s3:将提取特征x利用pca降维后输入到k-means++聚类器中进行无监督聚类,并利用聚类评估指标确定最佳聚类簇数;
[0058]
(1)pca是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变数系统进行降维处理,使之能以一个较高的精度转换成低维变数系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
[0059]
假设有p个指标,用向量表示为x=(x1,x2,...,x
p
),其中xi=(x
1i
,x
2i
,...,x
ni
)

,x
ni
代表第n个样本在第i个(i=1,2,...,p)指标上的观测值。那么,第i个主成分就可以表示为:
[0060]
pi=a
1i
x1+a
2i
x2+...+a
pi
x
p
[0061]
满足pi与pj(i≠j,i,j=1,2,...,p)不相关,var(pi)>var(p
i+1
)
[0062]
第i个主成分pi是x1,...,x
p
的一切线性组合中方差第i大的,而对应的系数向量(a
1i
,a
2i
,...,a
pi
)则恰好是x的协方差矩阵的第i个最大的特征值所对应的特征向量。但是在实践中奇异值分解经常被用了代替协方差矩阵的特征值分解。
[0063]
(2)kmeans++算法,kmeans++在初始化簇中心时的方法就是逐个选取k个簇中心,且离其它簇中心越远的样本点越有可能被选为下一个簇中心。其具体做法如下:
[0064]
从数据集χ中随机(均匀分布)选取一个样本点作为第一个初始聚类中心ci;
[0065]
接着计算每个样本与当前已有聚类中心之间的最短距离,用d(χ)表示;然后计算每个样本点被选为下一个聚类中心的概率p(χ),最后选择最大概率值所对应的样本点作为下一个簇中心;
[0066][0067]
重复第2步,直到选择出k个聚类中心;
[0068]
(3)手肘法,考虑到当前样本很难为其打上标签,相似场景识别是一个无监督聚类过程,因此需要聚类内部评估指标对聚类效果进行评估,利用经典的聚类内部指标,手肘法核心指标:sse(sum of squared errors,误差平方和)
[0069][0070]ci
是第i个簇,p是ci中的样本点,mi是ci的质心(ci中所有样本的均值),sse是所有样本的聚类误差,代表了聚类效果的好坏。随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和sse自然会逐渐变小。当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故sse的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以sse的下降幅度会骤减,然后随着k值的继续增大而趋于平缓如图4,也就是说sse和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。
[0071]
s4:利用可视化和统计方法在实际运行数据验证,验证识别对流天气场景的分布状况,并确定所识别出场景的交通状态、策略发布特点。
[0072]
(1)为验证提出的基于cnn图像模式的对流天气相似识别模型的有效性,分析气象场景划分结果下的对流天气分布状况。实验选取广州白云机场2018年1月1日0.00至2019年12月31日23.00的图像数据样本进行实验验证,各特征计算粒度为1小时,采用轮廓系数确定聚类簇数,将聚类图像与对流天气数值数据进行统计对比以确定聚类结果的有效性。
[0073]
依据聚类评价指标手肘法最终确定场景划分类别为3类。故将提取图像特征进行聚类划分结果分成3类。各类中的样本数量如表3所示,给出了3簇不同的对流天气场景划分特征及样本分布。簇0中对流天气图像样本量为3633,wsi均值在664262,簇1中对流天气图
像样本量为250.,wsi均值在6044190,相比簇0和簇1,簇2样本量较少,wsi均值在54606396对流天气强度最高。该分布符合气象状况的分布特点,且不同类别场景间具有较好的区分性。
[0074]
表3:聚类结果分布
[0075][0076]
图5中展示了部分图像分类样本展示的结果,三类气象场景都具有自己的气象特点,类1图像中大部分区域为白色无对流天气和少量轻度对流天气影响区域,视为无对流天气影响,类2少数局部区域出现绿色轻度影响、黄色轻重影响和红色严重影响,视为轻重对流天气影响,类3图像则出现大面积黄色与红色等轻重与严重影响区域,代表极恶劣对流天气。这里从样本图像本身来看不同类别场景间同样具有较好的区分性。
[0077]
(2)为进一步验证对流天气场景分类结果下交通状态、策略发布状况的关联性与差异性,利用统计学方法研究不同典型场景实例下的气象影响、各性能领域关键指标的变化规律与分布特征。
[0078]
表4给出了3簇不同的终端区气象场景划分特征要素及样本分布。在运行交通特征方面,簇0的整体延误架次较低延误时间较短,取消架次少正常架次多,整体交通指标显示交通状况较好。簇1的整体延误情况较簇0高,取消与正常架次一般,整体交通状况一般。簇2的整体交通指标显示交通状况较差,体现在延误架次高延误时间长,取消架次高正常架次低。综上,结果表明气象场景分类对运行交通具有较好的区分性。
[0079]
表4:2018年广州白云机场终端区聚类结果与运行特征分布状况
[0080][0081]
综上,气象场景划分结果能够较好反应终端区策略发布状况,且天气原因的策略发布特点与气象干预导致的受流控策略影响的流量变化保持较好的一致性。这样在空中交通管理过程中基于历史图像类型天气数据进行场景划分,依据相似场景下的运行状况与策略发布状况提前为未来相似天气状况下的策略管制提供辅助决策作用。
[0082]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1