一种基于卷积和决策树的Argo浮标轨迹预测方法与流程

文档序号:31331137发布日期:2022-08-31 07:04阅读:56来源:国知局
一种基于卷积和决策树的Argo浮标轨迹预测方法与流程
一种基于卷积和决策树的argo浮标轨迹预测方法
技术领域
1.本发明属于海洋科技技术领域,特别是一种基于卷积和决策树的argo浮标轨迹预测方法。


背景技术:

2.argo计划(array or real-time geostrophic oceanography)在全球每隔300公里布放一个卫星跟踪浮标,旨在快速、准确、大范围地收集全球海洋上层的海水温、盐度剖面资料。海水温、盐度剖面资料在气候变化、海洋热量储存、生态环境、国防军事和水产养殖等方面具有重要作用。增加观测密度以提高气候预报的精度,有效防御全球日益严重的气候灾害给人类造成的威胁。argo浮标数据的多样性与差异性特点导致海洋数据中存在着大量的冲突与不一致,其长期和短期时空变化和分布也不尽相同,准确预测argo浮标未来状态面临诸多挑战。
3.argo浮标轨迹不仅反映了海洋环境,还对目标追踪和监测具有关键的影响,因此对argo浮标轨迹进行预测非常重要。由于argo浮标轨迹变化随机性非常强,非线性和非平稳性特征十分明显,目前还没有一种明确可行且精度较高的方法对argo浮标轨迹进行有效的预测。现有的对argo浮标轨迹预测方法分为三种:(1)统计预报法:应用概率论、数理统计的方法预报未来argo浮标轨迹变化;(2)数值模式法:依据海水运动方程和热力方程等一系列偏微分方程描述海水物理状态,通过给定初始条件、边界条件和外界强迫因子对方程进行求解,从而得出未来argo浮标轨迹变化。
4.因此,如何对argo浮标轨迹进行高精度有效预测,成为当前研究的关键问题。


技术实现要素:

5.鉴于上述问题,本发明提供一种至少解决上述部分技术问题的一种基于卷积和决策树的argo浮标轨迹预测方法,通过该方法可以大大提升对argo浮标轨迹预测的精度。
6.本发明实施例提供了一种基于卷积和决策树的argo浮标轨迹预测方法,包括:
7.s1、在预设时间段内,每隔m小时获取一次argo浮标的坐标数据,将所获取到的坐标数据组成坐标数据集;
8.s2、对所述坐标数据集进行预处理,获得argo浮标轨迹特征数据;
9.s3、将所述argo浮标轨迹特征数据输入至浮标轨迹预测模型中,输出所述argo浮标在所述预设时间段后一天的坐标位置数据。
10.进一步地,所述s2具体包括:
11.s21、去除所述坐标数据集中的异常数据;
12.s22、对去除异常数据后的坐标数据集进行标准化处理;
13.s23、采用cnn卷积神经网络算法从标准化处理后的坐标数据集中选取argo浮标轨迹特征数据。
14.进一步地,所述s23中,所述argo浮标轨迹特征数据,包括:
15.不同坐标数据之间的距离值,和各个坐标数据受洋流和气压影响后方向的变化数据。
16.进一步地,所述浮标轨迹预测模型由下述步骤训练生成,包括:
17.在n天内,每隔m小时获取一次argo浮标的坐标数据,将所获取到的坐标数据组成坐标数据集;
18.对所述坐标数据集进行预处理,获得argo浮标轨迹特征数据;
19.将所述n天内,前n-1天的argo浮标轨迹特征数据作为输入,将第n天argo浮标轨迹特征数据作为输出,训练生成浮标轨迹预测模型。
20.进一步地,所述浮标轨迹预测模型包括sru深度学习预测模型和决策树模型;所述sru深度学习预测模型和决策树模型通过加权平均法进行有效结合。
21.进一步地,所述sru深度学习预测模型为基于卷积的多层sru并行优化深度学习预测模型,所对应的优化步骤包括:
22.对维度不等的多个神经网络进行线性转换,将所述维度不等的多个神经网络合并为一个矩阵;
23.通过kernel函数实现所有逐元素相乘;
24.基于序列顺序对所述kernel函数内的循环语句进行处理;通过网格化和并行计算法对所述kernel函数外的循环语句进行并行处理。
25.进一步地,所述浮标轨迹预测模型以双曲正切函数作为激活函数,且具有两个隐藏层和一个输出层。
26.与现有技术相比,本发明记载的一种基于卷积和决策树的argo浮标轨迹预测方法,具有如下有益效果:本发明实施例所提供的方法实现了针对argo浮标轨迹数据的高精度预报。本发明实施例所提供的方法仅需使用argo浮标轨迹的长时间序列数据,不需要使用其它数据。本发明实施例所提供的方法占用资源少,计算速度快。
27.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
28.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
29.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
30.图1为本发明实施例提供的基于卷积和决策树的argo浮标轨迹预测方法流程图。
31.图2为本发明实施例提供的浮标轨迹预测模型训练流程图。
32.图3为本发明实施例提供的sru深度学习网络结构示意图。
33.图4为本发明实施例提供的通过集合方法对argo浮标轨迹时间序列数据的训练结果示意图。
34.图5为本发明实施例提供的sru深度学习预测模型的训练损失函数图。
35.图6为本发明实施例提供的对argo浮标轨迹时间序列的预测结果与真实值的对比图。
具体实施方式
36.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
37.参见图1所示,本发明实施例提供了一种基于卷积和决策树的argo浮标轨迹预测方法,具体包括如下步骤:
38.s1、在预设时间段内,每隔m小时获取一次argo浮标的坐标数据,将所获取到的坐标数据组成坐标数据集;
39.s2、对所述坐标数据集进行预处理,获得argo浮标轨迹特征数据;
40.s3、将所述argo浮标轨迹特征数据输入至浮标轨迹预测模型中,输出所述argo浮标在所述预设时间段后一天的坐标位置数据。
41.下面分别对上述步骤进行详细的说明。
42.在上述步骤s2中,对坐标数据集进行预处理,主要包括对坐标数据集中的数据依次进行补缺失、去异常(即去除如数据格式错误、轨迹点位于陆地或岛屿、两轨迹点距离超出最大预设值等类型的数据)、标准化和特征选择等一系列预处理工作,为模型预测提供更加有效的特征信息;在本发明实施例中,采用cnn卷积神经网络算法从标准化处理后的坐标数据集中选取argo浮标轨迹特征数据,基于cnn对全局及局部特征的抓取能力,实现对多个轨迹点变化规律和联系的深度挖掘;之后,采用多种经典的深度学习方法分别对argo浮标轨迹特征数据进行拟合;其中,argo浮标轨迹特征数据包括不同坐标数据之间的距离值,和各个坐标数据受洋流、气压、风等影响后方向的变化数据。
43.在上述步骤s3中,浮标轨迹预测模型由下述步骤训练生成,参照图2所示,包括:首先,在n天内,每隔m小时获取一次argo浮标的坐标数据,将所获取到的坐标数据组成坐标数据集;本发明实施例采用使用2008年1月1日至2019年12月30日的坐标数据集,该坐标数据集是基于argo全球观测计划,由法国argos卫星接收处理而形成的;在该坐标数据集中,坐标数据每间隔6小时采集一次,共计32984组数据;
44.其次,对所生成的坐标数据集进行补缺失、去异常、标准化和特征选择等一系列预处理工作,获得argo浮标轨迹特征数据;在本发明实施例中,经过对所生成的32984组数据进行质量控制,筛选出有效数据为24200组;其中60%用于训练,20%用于验证,20%用于测试。
45.最后,将所述n天内,前n-1天的argo浮标轨迹特征数据作为输入,将第n天argo浮标轨迹特征数据作为输出,训练生成浮标轨迹预测模型;在本发明实施例中,该浮标轨迹预测模型包括sru深度学习预测模型和决策树模型;其中,sru深度学习预测模型和决策树模型通过加权平均法进行有效结合,生成最终的浮标轨迹预测模型;该过程中,结合sru模型的深度学习网络结构对浮标信息进行预测,可有效地避免传统的rnn模型预测耗时过久,模型难以训练等问题;同时考虑到深度学习泛化能力不够且缺乏解释性,基于集合预报理论构建了决策树集合模型,该模型具有更好的预报能力和泛化能力。基于该浮标轨迹预测模型,可得到时间序列数据的分别的预测结果,将各个预测结果进行合成得到最终预测结果y(t);该浮标轨迹预测模型以双曲正切函数作为激活函数,且具有两个隐藏层和一个输出
层,每层神经元个数为2000个。训练中输入和输出数据比为100:10,即用10天数据预测1天数据的方式进行训练。
46.接下来分别对sru深度学习预测模型和决策树模型进行说明。
47.对于sru深度学习预测模型:
48.基于时间序列坐标数据集构建sru深度学习预测模型。sru作为循环神经网络(recurrent neural network,rnn)的变体模型,弥补了rnn的梯度消失和梯度爆炸、长期记忆能力不足等问题,使得循环神经网络能够真正有效地利用长距离的时序信息。sru深度神经网络使用特殊的sru结构替换了一般的递归神经网络的隐藏层神经元。sru结构包含输入门、输出门、遗忘门和记忆单元(cell);其中输入门、输出门、遗忘门都是逻辑单元,它们不会将自己的输出发送给其他神经元,而是负责在神经网络的其他部分与记忆单元连接的边缘处设定权值,用来选择性记忆反馈的误差函数随梯度下降的修正参数,其具体结构如图3所示。
49.sru循环神经网络中的输入门(input gate)和输出门(output gate),用来接收以及输出参数和修正参数,分别记为i,h。遗忘门(forget gate),表示是否保留当前隐藏层节点存储的历史信息,记为f。记忆单元(cell),表示神经元状态的记忆,记为c。门控cell单元的设计,使得sru单元有保存,读取、重置和更新长距离历史信息的能力。sru深度学习预测模型的训练损失函数图参照图5所示;sru网络结构的计算结构的计算过程如下式:
[0050][0051]ft
=σ(wfx
t
+bf)
[0052]rt
=σ(wrx
t
+br)
[0053][0054]ht
=r
t

g(c
t
)+(1-r
t
)

x
t
[0055]
其中,表示当前输入x
t
在与神经网络权重矩阵w变换后的中间状态;之前的神经元状态为c
t-1


表示矩阵乘积运算;f
t
表示t时刻下的遗忘门;r
t
表示t时刻下的复位门(用于确定是否要将当前状态与先前的信息结合起来);h
t
表示t时刻下的输出门;c
t
表示t时刻下的内部状态;x
t
表示t时刻下的输入;w和b分别为对应的权重系数矩阵和偏置项;σ表示sigmoid激活函数。
[0056]
本发现实施例所使用的sru深度学习预测模型为基于卷积的多层sru并行优化深度学习预测模型,具体实现了多层的sru搭建;由于矩阵加法和sigmoid的激活函数分别需要调用各自独立的函数,并且增加额外的运行延迟和数据移动的开销。因此本发明基于网格化、并行计算等技术,优化改造升级了多层sru模型,使其计算效率和gpu并行计算性能得到明显提升,具体步骤如下:
[0057]
1、对于维度不等的神经网络经过线性转换(linear),将神经网络的三个权重矩阵合并成一个大矩阵。
[0058]
2、将逐元素相乘的操作放入一个kernel函数中,所有时间步的矩阵相乘可以并行处理,明显提升了计算效率和gpu的使用率。
[0059]
3、通过网格化、并行计算等操作,在kernel函数中外面2个for可以实现并行操作,最内部的for是基于序列顺序的,只有这个维度上是需要前后关联的,而在minibatch这个
维度和hiddenstate这个维度都可以分开并行计算,最后把需要前后管理sequence维度放入寄存器中保持先后关系即可,而minibatch和hiddenstate这两个维度可以看成是网格的x,y轴。
[0060]
对于决策树模型:
[0061]
决策树算法输入是训练集d,基尼系数的阈值,样本个数阈值。输出是决策树t。算法从根节点开始,用训练集递归的建立树。
[0062]
1)对于当前节点的数据集为d,如果样本个数小于阈值或者没有特征,则返回决策子树,当前节点停止递归。
[0063]
2)计算样本集d的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
[0064]
3)计算当前节点现有的各个特征的各个特征值对数据集d的基尼系数。
[0065]
4)在计算出来的各个特征的各个特征值对数据集d的基尼系数中,选择基尼系数最小的特征a和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分d1和d2,同时建立当前节点的左右节点,做节点的数据集d为d1,右节点的数据集d为d2.
[0066]
5)对左右的子节点递归的调用1-4步,生成决策树。
[0067]
对于决策树建立后做预测的方式,采用的是用最终叶子的均值或者中位数来预测输出结果。
[0068]
对于回归模型,本发明实施例使用了常见的和方差的度量方式,cart回归树的度量目标是,对于任意划分特征a,对应的任意划分点s两边划分成的数据集d1和d2,求出使d1和d2各自集合的均方差最小,同时d1和d2的均方差之和最小所对应的特征和特征值划分点。表达式为:
[0069][0070]
其中a表示划分特征(如时间信息);s为划分点,用于划分数据集d1和d2;xi表示数据集d1或d2中的x轴变量;yi和y
t
分别表示数据集d1和d2中的y轴变量;c1和c2分别表示数据集d1和d2的均值。
[0071]
在本发明实施例中,浮标轨迹预测模型具体采用三层sru和决策树算法构建,每层采用256个神经元,以dropout为0.2,学习率为0.001~0.1,使用多年气候态洋流作为背景场,并使用下一时刻的背景场作为输入参数,进行更可靠的下一时刻轨迹预测,综合浮标轨迹数据和洋流季节特性作为模型超参数输入。
[0072]
决策树算法与sru模型以加权平均方式进行有机结合,最终实现对浮标轨迹的有效预测。本发明实施例提供的通过集合方法对argo浮标轨迹时间序列数据的训练结果示意图参照图4所示;本发明实施例对argo浮标轨迹时间序列的预测结果与真实值的对比图参照图6所示。
[0073]
在本发明实施例中,用均方根误差root ofmean squared error(rmse)和平均绝对误差mean absolute error(mae)来评估预测结果,计算公式分别如下。
[0074]
[0075][0076]
其中,l表示序列数据数量;i表示当前序列点;y
iobs
和y
ipre
分别表示观测真值和预测值。
[0077]
rmse表示衡量观测值与真实值之间的偏差;mae表示绝对误差的平均值,可以更好地反映预测值误差的实际情况。rmse和mae越小,表示预测效果越好。
[0078]
下表为多个浮标轨迹预测评估指标。
[0079]
预测结果rmse(
°
)mae(
°
)浮标10.420.36浮标20.450.35浮标30.460.38浮标40.480.4浮标50.470.39浮标60.530.43浮标70.570.46浮标80.650.48浮标90.570.45浮标100.590.46平均0.510.45
[0080]
可以看出,该预测模型平均绝对误差为0.45
°
,模型整体状态稳定,无剧烈变化。而且使用本发明实施例所提供的方法对argo浮标轨迹做预报时,仅需将过去10天数据加载进已经训练好的模型中,可以快速得出预报结果,避免了传统数值预报的长时间计算。
[0081]
本发明实施例提供了一种基于卷积和决策树的argo浮标轨迹预测方法,通过获取argo浮标轨迹数据,利用时间序列挖掘得到的数据信息,提出了一种基于cnn卷积神经网络、sru深度学习和决策树的浮标轨迹预测模型,最终得出argo浮标轨迹的预测值,提高了argo浮标轨迹的预测精度和效率;通过本发明实施例所提供的方法实现了针对argo浮标轨迹数据的高精度预报,预报数据时间间隔6小时,预报平均绝对误差为0.45
°
,达到国际先进水平。本发明实施例所提供的方法仅需使用argo浮标轨迹的长时间序列数据,不需要使用其它数据。本发明实施例所提供的方法占用资源少,计算速度快。本发明实施例所提供的方法可用于但不限于argo浮标轨迹预报,也可用于argo浮标轨迹以外的目标追踪预报。
[0082]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1