基于GRU的拦截飞行器制导律快速辨识方法

文档序号:30622576发布日期:2022-07-02 04:17阅读:192来源:国知局
基于GRU的拦截飞行器制导律快速辨识方法
基于gru的拦截飞行器制导律快速辨识方法
技术领域
1.本发明涉及飞行器制导控制领域,具体涉及一种基于gru的拦截飞行器制导律快速辨识方法。


背景技术:

2.近几十年来,防御体系不断完善,我方飞行器在飞行过程中所面临的生存压力不断增大,如何有效避开敌方拦截飞行器的攻击是飞行器研发过程中的一项重要课题。目前飞行器规避拦截的主要策略有基于微分对策的规避策略和随机机动规避策略。无论采用哪种博弈策略,为更好地规避拦截,都需要利用我方飞行器探测到的与敌方拦截飞行器相对运动信息,对其所用制导律及制导参数进行在线辨识。与单纯基于运动学的传统轨迹预测及规避策略相比,基于制导律辨识的规避策略能够更准确地预测敌方拦截飞行器飞行路线,制定针对性更强的规避方案。
3.然而,研究制导律辨识文献数量较少。拦截飞行器制导律辨识是一个复杂动态问题,若对拦截飞行器制导律辨识仅依靠某一时刻运动学信息,则辨识结果具有片面性。传统辨识方法以卡尔曼滤波器为基础,通过将所测到的敌方拦截飞行器运动信息与卡尔曼滤波器的预测信息进行对比,不断调整卡尔曼滤波器输出数值直至测量值与真实值相近。现有文献中设计了基于非线性多模自适应卡尔曼滤波器的制导律辨识方法,设置多个卡尔曼滤波器并行运行,每个滤波器代表一种可能的敌方拦截飞行器制导律;还有的文献在海战防空拦截背景下对交互卡尔曼滤波进行了改进,利用改进交互卡尔曼滤波器对敌方反舰导弹所用制导律进行辨识。基于卡尔曼滤波器的制导律辨识方法通常通过与其他方法相结合来增强模型的适应性和准确度,这类辨识方法存在以下问题:对获取信息的连续性要求高,使工程应用价值大打折扣,同时,也限制了我方飞行器的机动性;辨识过渡过程较长,在1s以上,不能满足强对抗条件下的快速性要求。
4.神经网络因其强大的自主学习能力,可从大量数据中提炼基本规律,在诸多问题上都得到了广泛的应用。其中,长短时记忆神经网络(lstm)因其可模拟人类长期和短期记忆筛选能力,在解决动态问题上大放异彩。还有的文献使用lstm网络提出了一种时变结构振动观测模型,建立了时变结构动力特性与振动间关系,能够实现对时变结构模型的在线分析。针对空间机器人系统惯性张量测量问题,利用lstm神经网络建立了惯性张量在轨辨识模型。有的文献建立了基于lstm的战场意图识别模型,通过综合分析战场传感器获得的多源信息,实现对敌方目标粗粒度战术意图的识别。应用gru神经网络对航空发动机的剩余寿命进行预测,辨识依据为航空发动机内部多个位置处的速度、维度和压力。lstm网络初步实现了动态问题数据快速分析,然而,由于其规模庞大,导致训练时间过长,为此,gru网络在lstm网络结构上进行了简化,在几乎不影响网络性能的条件下,有效地提升了网络的训练速度。
5.基于上述问题,本技术人对拦截飞行器制导律快速辨识方法做了深入研究,以期待设计出一种能够解决上述问题的新的基于gru的拦截飞行器制导律快速辨识方法。


技术实现要素:

6.针对强对抗条件下的敌方拦截飞行器制导律辨识问题,本发明人提出了一种基于gru网络的制导律快速辨识方法,该方法中,通过建立相对运动学模型,以一段时间内的敌我运动学信息作为样本输入,将所使用的拦截飞行器制导律参数作为类型标签,为该网络构建大量的多样化样本库;其次,给定损失参数,采用adam算法对gru网络进行训练,使网络参数达到最优,利用完成训练的gru网络,结合飞行器实时探测得到的运动学信息即可实现对敌方拦截飞行器制导律的在线快速辨识,在噪声较大的条件下,辨识准确度可达86.32%,从而完成本发明。
7.本发明具体来说提供一种基于gru的拦截飞行器制导律快速辨识方法,该方法中,
8.通过飞行器上的传感器实时测量获得飞行器自身和拦截飞行器的运动学信息;
9.对所述飞行器自身和拦截飞行器的运动学信息做数据处理,并将处理后的数据信息输入到辨识模型中,得到辨识模型输出的拦截飞行器的制导律。
10.其中,所述飞行器自身和拦截飞行器的运动学信息包括:
11.飞行器加速度a
t
,飞行器速度倾角θ
t
,飞行器速度偏角ψ
t

12.拦截飞行器速度倾角θm,拦截飞行器速度偏角ψm,
13.飞行器与拦截飞行器之间的相对距离r
tm
、相对视线倾角q
ytm
、相对视线偏角q
ztm
,所述相对距离r
tm
的变化率、所述相对视线倾角q
ytm
的变化率、所述相对视线偏角q
ztm
的变化率。
14.其中,所述数据处理包括对数据做归一化处理。
15.其中,所述辨识模型通过下述方法获得:
16.步骤1,调取多组飞行器和拦截飞行器的运动学信息数据,将拦截飞行器制导律参数作为类型标签,构建样本库;
17.步骤2,基于adam算法,通过样本库对gru网络进行训练,得到辨识模型。
18.其中,在步骤1中,从相对运动学模型中调取多组飞行器和拦截飞行器的运动学信息数据,所述相对运动学模型如下式(1)所示;
[0019][0020]
其中,xm,ym,zm表示拦截飞行器在惯性系下坐标,表示xm的导数,表示ym的导数,表
[0021]
示zm的导数,θm和ψm表示拦截飞行器的速度倾角和速度偏角;表示θm的导数,表示ψm的导数,vm表示拦截飞行器的速度;ny、nz分别为拦截飞行器俯仰方向加速度和偏航方向加速度。
[0022]
其中,在步骤1中,对调取的数据做标准化和归一化处理;
[0023]
优选地,通过最大最小线性变化的处理方式来对调取的数据做标准化和归一化处
理。
[0024]
其中,在步骤2中,将样本库中数据分为训练数据和测试数据,
[0025]
分批次从样本库中抽取训练数据输入到gru网络进行训练,计算获得训练集准确度p
train
、训练损失函数值l
train
及训练时间t;
[0026]
每次训练完成后都将测试数据输入网络进行测试,得到测试集准确度p
test
和测试损失函数值l
test

[0027]
不断重复上述过程,直至训练次数或测试损失函数达到预设值。
[0028]
本发明所提供的基于gru的拦截飞行器制导律快速辨识方法,相比于其他方法能具有更快的辨识速度和更高的准确度。
附图说明
[0029]
图1示出根据本发明一种优选实施方式的基于gru的拦截飞行器制导律快速辨识方法整体逻辑图;
[0030]
图2示出根据本发明一种优选实施方式的基于gru的拦截飞行器制导律快速辨识方法中拦截飞行器拦截我方飞行器的示意图;
[0031]
图3示出根据本发明一种优选实施方式的基于gru的拦截飞行器制导律快速辨识方法中使用不同制导律的拦截飞行器沿不同轨迹接近我方飞行器的轨迹示意图;
[0032]
图4示出实验例1和对比例1中不同类型网络损失函数;
[0033]
图5示出实验例和对比例1中不同类型网络准确率;
[0034]
图6示出实验例2中噪声对不同类型网络影响;
[0035]
图7和图8都示出实验例3中网络损失函数随迭代次数变化;
[0036]
图9示出实验例中不同时间跨度辨识准确度对比;
[0037]
图10示出实验例中不同结构网络损失度随迭代次数变化;
[0038]
图11示出实验例中准确度随神经元数量变化。
具体实施方式
[0039]
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
[0040]
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0041]
根据本发明提供的基于gru的拦截飞行器制导律快速辨识方法,如图1中所示,该方法中,通过飞行器上的传感器实时测量获得飞行器自身和拦截飞行器的运动学信息;
[0042]
对所述飞行器自身和拦截飞行器的运动学信息做数据处理,并将处理后的数据信息输入到辨识模型中,得到辨识模型输出的拦截飞行器的制导律。
[0043]
本技术中所述的飞行器为我方的飞行器,所述的拦截飞行器为敌方的意图攻击我方飞行器的拦截弹,及时获知地方飞行器制导律及制导律中关键参数,能够有助于我方飞行器避开拦截飞行器的拦截。
[0044]
优选地,所述飞行器自身和拦截飞行器的运动学信息包括:
[0045]
飞行器加速度a
t
,飞行器速度倾角θ
t
,飞行器速度偏角ψ
t

[0046]
,拦截飞行器速度倾角θm,拦截飞行器速度偏角ψm,
[0047]
飞行器与拦截飞行器之间的相对距离r
tm
、相对视线倾角q
ytm
、相对视线偏角q
ztm
,所述相对距离r
tm
的变化率、所述相对视线倾角q
ytm
的变化率、所述相对视线偏角q
ztm
的变化率。
[0048]
其中,所述飞行器加速度a
t
由飞行器上搭载的加速度仪实时测量得到;所述飞行器速度倾角θ
t
、飞行器速度偏角ψ
t
、拦截飞行器速度倾角θm和拦截飞行器速度偏角ψm都通过飞行器上搭载的加速度仪积分计算得到;
[0049]
所述相对距离r
tm
、相对视线倾角q
ytm
、相对视线偏角q
ztm
、相对距离r
tm
的变化率、相对视线倾角q
ytm
的变化率和相对视线偏角q
ztm
的变化率都通过传感器实时测量得到,所述传感器包括安装在飞行器上的雷达,通过该雷达实时获取拦截飞行器的运动学信息。
[0050]
在一个优选的实施方式中,所述数据处理包括归一化处理,并滤除数据中的异常值。
[0051]
在一个优选的实施方式中,所述辨识模型通过下述方法获得:步骤1,调取多组飞行器和拦截飞行器的运动学信息数据,将拦截飞行器制导律参数作为类型标签,构建样本库;
[0052]
步骤2,基于adam算法,通过样本库对gru网络进行训练,得到辨识模型。
[0053]
优选地,在步骤1中,从相对运动学模型中调取多组飞行器和拦截飞行器的运动学信息数据,所述相对运动学模型如下式(1)所示;
[0054][0055]
其中,xm,ym,zm表示拦截飞行器在惯性系下坐标,表示xm的导数,表示ym的导数,表
[0056]
示zm的导数,θm和ψm表示拦截飞行器的速度倾角和速度偏角;表示θm的导数,表示ψm的导数,vm表示拦截飞行器的速度;ny、nz分别为拦截飞行器俯仰方向加速度和偏航方向加速度。优选地,上述参数由我方飞行器获得,即上述参数都是拦截飞行器相对于我方飞行器的具体参数,也就是相对运动参数。
[0057]
优选地,基于惯性坐标系建立运动学方程,确定飞行器与目标在空间中的位置,飞行器初始位置位于坐标系原点o,oy竖直向上,ox垂直于oy指向目标,oz按照右手定则确定,如图2中所示。
[0058]
pn制导律是目前应用最为广泛的制导律,要求在攻击目标过程中,飞行器需用过载与相对速度vr和弹目视线角的乘积成正比;apn在pn基础上增加了目标机动补偿项,从而降低在命中点附近的弹道需用法向过载。其各自需用加速度分别为
[0059][0060]
其中,n
pn
表示pn制导律对应的需用加速度,n
apn
表示apn制导律对应的需用加速度,n为制导参数,n
t
目标加速度。
[0061]
拦截飞行器在末制导阶段可近似认为其速度大小是不变的,即
[0062]
通过计算机模拟我方飞行器在三维空间中按照一定规律进行机动,拦截飞行器对我方飞行器进行拦截;在飞行过程中,我方飞行器可通过机载或弹载雷达实时获取敌方拦截飞行器运动学信息,包括相对距离r
tm
、相对视线倾角q
ytm
、相对视线偏角q
ztm
。在相对运动学模型中,其各自计算表达式为:
[0063][0064][0065][0066]
其中,xr、yr、zr分别表示拦截飞行器与我方飞行器之间距离在x轴、y轴和z轴上的投影距离。
[0067]
敌方拦截飞行器以我方飞行器为目标,不同的制导律和制导参数会控制拦截飞行器产生不同的加速度,进而使拦截飞行器沿着不同的运动路线飞行,如图3所示。
[0068]
以一段时间内的敌我运动学信息作为样本输入,所所述一段时间可以为1~3秒,根据具体计算能力进行选择设置。
[0069]
在一个优选的实施方式中,在步骤1中,对调取的数据做标准化和归一化处理;
[0070]
优选地,通过最大最小线性变化的处理方式来对调取的数据做标准化和归一化处理,数据缩放到[0,1]区间内,计算公式为:
[0071][0072]
其中,a’xi
为处理后用于训练的数据,a
xi
为处理前的原始数据,min a
x
为第x种属性的最小值,maxa
x
为该属性的最大值。
[0073]
在一个优选的实施方式中,在步骤1中,将所使用的拦截飞行器制导律参数作为类型标签,采用one-hot方法为样本添加标签,构建样本库。
[0074]
在一个优选的实施方式中,在步骤2中,采用adam算法对gru网络进行训练,使网络参数达到最优,利用完成训练的gru网络,即可实现对敌方拦截飞行器制导律的在线快速辨识。
[0075]
本技术中所述的gru网络将lstm神经元结构合并简化,在保证准确率的同时加快训练速度。长短时记忆(lstm)网络是rnn网络的一种,其通过“门”的设计实现对长期记忆的保留,解决了原始rnn网络在模型训练过程中存在的“梯度爆炸”或“梯度消失”问题。
[0076]
所述gru神经元由以下几部分组成:
[0077]
a.两个输入:上一时刻的神经元输出h
t-1
和上一层的神经元输出x
t
,用来传承上一时刻神经元的输出和接收上一层神经元的输出。
[0078]
b.两个门:重置门r
t
,用于计算之前的记忆需要保留多少;更新门z
t
,用于计算当前时刻的更新内容,计算方法为:
[0079][0080]
c.一个状态:候选隐藏层状态用于计算当前时刻神经元内部状态,计算方法为:
[0081][0082]
d.一个输出:最终输出h
t
,根据当前的输入和内部状态计算输出,计算方法为:
[0083][0084]
其中,σ表示sigmoid函数,w表示权重矩阵,b表示偏置量,计算符号
·
表示矩阵乘,计算符号

表示按元素乘。
[0085]
gru网络通过上述结构,实现保存之前时刻信息基础上学习新知识。相比于lstm网络,gru网络将输入门i
t
、遗忘门f
t
和输出门o
t
简化为重置门r和更新门z
t
,实现更快的信息选择、保留与遗忘。同时其使用候选隐藏层状态来代替lstm中的内部单元状态c’t
和输出单元状态c
t
,将记忆当前状态所需的参数从两个减少到一个,由此减少所需训练参数,加快训练速度。
[0086]
gru网络输入端为
[0087]
size(input)=n
input
×nstep
[0088]
其中,size(input)表示输入端矩阵大小,n
input
表示输入维度,n
step
表示输入步长。输入数据为二维矩阵形式,相比于一维输入的bp网络,gru网络可快速识别发现不同特征量在不同时间点变化。
[0089]
使用gru网络建立制导律辨识模型,该模型包含输入层、三个隐含层、输出层,其中n为隐含层神经元数量。
[0090]
输入层输入数据为敌我双方运动学信息,采用tanh函数作为激活函数,将t时刻的输入加权并压缩到[0,1]区间内,计算公式为
[0091]ht
=tanh(w
xh
x
t
+b
xh
)
[0092]
其中,h
t
为输入层传递到隐含层的信息,w
xh
为权重矩阵,x
t
为t时刻输入信息,b
xh
为偏置。
[0093]
假设制导律及制导参数属于给定集合,输出层输出为不同制导律的概率,输出层计算公式为
[0094]
[0095]
其中,o为最终输出,w
ho
为隐含层到输出层权重,为第三隐含层在t时刻输出,b
ho
为偏置。输出层激活函数为softmax,由此将隐含层的输出结果归一化,使输出层结果满足
[0096][0097]
在一个优选的实施方式中,在步骤2中,首先建立gru网络;
[0098]
样本输入形式为
[0099][0100]
其中,ai表示第i时刻的输入向量,上标t表示我方飞行器运动学信息,上标m表示敌方拦截飞行器运动学信息,上标tm表示敌我双方相对运动学信息,m为输入步数。
[0101]
选取交叉熵函数作为损失函数,其计算公式为
[0102][0103]
其中,n为样本数量,i为样本编号,m为分类标签数量,j为分类标签,y
ij
为第i个样本上第j个分类标签的真实值,为预测概率,l表示训练获得的损失函数l
train

[0104]
首先计算各参数对目标函数的梯度,对于权重为
[0105][0106]
其中,e为损失函数,θ为所需训练参数,包括权重w和偏置b,权重与偏置训练方式相同。所述权重w
hz
的推导过程为:
[0107]
根据gru基本神经元内部结构,上式可化为
[0108][0109]
其中,定义为t时刻l层神经元误差项,是一个mw×
1列向量;为神经元内部误差传递项,是一个1
×nw
行向量。
[0110]
对于第三隐含层最后时刻神经元,误差项可直接求得;
[0111][0112]
进而得到由到反向传播的误差为:
[0113][0114]
再进一步可计算得要训练的参数θ,θ∈{w,b}目标函数e的梯度g
t
[0115]
基于adam算法的参数θ更新公式为
[0116][0117][0118]
其中,θ
t
为更新前参数;θ
t+1
为更新后参数;η为学习率;ε为平滑项,防止被零除;m'
t
为一阶矩估计,v'
t
为二阶矩估计;m
t
为梯度一阶矩,m
t-1
表示上一时刻的梯度一阶矩;v
t
为梯度二阶矩,v
t-1
表示上一时刻的梯度二阶矩。
[0119]
在一个优选的实施方式中,在建立gru网络后,将样本库中数据分为训练数据和测试数据,
[0120]
分批次从样本库中抽取训练数据输入到gru网络进行训练,计算获得训练集准确度p
train
、训练损失函数值l
train
及训练时间t;所述网络训练是指网络不断调整各参数值以适应训练样本输入输出的过程;
[0121]
每次训练完成后都将测试数据输入网络进行测试,得到测试集准确度p
test
和测试损失函数值l
test

[0122]
不断重复上述过程,直至训练次数或测试损失函数l
test
达到预设值。优选地,所述训练次数的预设值为2000次,即训练2000次以后停止训练,或者测试损失函数达到0.1以下时停止训练,获得辨识模型。
[0123]
实验例:
[0124]
搭建辨识模型,用于构建样本库的基础数据如下:
[0125]
设置相对运动学模型仿真步长为0.001s,我方飞行器对拦截飞行器运动学信息测量更新频率为50hz,输入步长包括10、15、20、25、30五种情况,对应的时间跨度分别为0.2s、0.3s、0.4s、0.5s、0.6s。最终提取到训练样本160000个,每种时间跨度样本各占20%,10种不同制导律各自所占比例均为10%,提取到的样本中随机抽取10用于测试,其余用于训练。神经网络训练参数中,dropout失效率为5%,批处理数量为3000,每次实验迭代次数均为2000次,网络初始学习率为0.00025,每100次迭代学习率衰减率为0.85。
[0126]
实验例1:
[0127]
在选取输入步长为15,隐含层数为3,每个隐含层神经元数量为81情况下,通过gur网络、lstm网络、rnn网络和bp网络分别得到对应的辨识模型,
[0128]
通过不同类型网络获得的辨识模型,其训练效果、辨识准确率如图4和图5中所示;
[0129]
根据图4和图5可知,lstm网络与gru网络识别准确率分别为92.78%和95.88%,较rnn网络89.33%提升3.45%和6.55%,较bp网络提升1.44%和4.5472%。证明gru与lstm、bp相比,在处理与时序有关问题时具有较大优势。
[0130]
实验例2:
[0131]
通过不同网络获得的辨识模型的鲁棒性:
[0132]
我方飞行器在对敌方拦截飞行器运动学信息进行测量时会存在误差,相对运动模型构建与真实模型之间也会存在偏差,这两者对模型输入量的影响均可视为高斯白噪声。设定各输入参数噪声标准差,如下表所示,其中噪声条件一表示我方飞行器上传感器正常工作且构建模型与实际物理模型偏差较小,噪声条件二表示传感器不能正常工作或构建模型与实际物理模型有较大偏差,辨识准确率变化如图6中所示。
[0133][0134]
根据图6可知,各类型网络受噪声水平一影响后准确度变为88.15%(bp)、85.26%(rnn)、92.37%(lstm)和95.44%(gru),分别下降3.19%(bp)、4.06%(rnn)、0.41%(lstm)和0.44%(gru),证明较低噪声水平对除rnn网络外网络的影响都较小。随着噪声的增大,各类型网络构建的辨识模型准确度都有所下降,bp网络准确率受噪声影响最大,准确度从无噪声时91.34%下降到76.57%,gru网络受噪声影响最小,准确度从无噪声时95.88%下降到86.32%。
[0135]
实验例3:
[0136]
选取隐含层数为3,每个隐含层神经元数量(n)为81和100两种情况下,通过gur网络得到对应的辨识模型:
[0137]
得到的输入片段时间跨度影响辨识模型的辨识效果如图7、图8和图9中所示。
[0138]
由图7、图8和图9中可得,网络损失度随迭代次数增加不断下降,最终损失度最大值为0.3309,所有模型最后均能够收敛。时间跨度为0.3s和0.5s时识别效果较好,但时间跨度为0.3s时输入步长更少,所需计算量更小。
[0139]
传统基于滤波器获得的辨识模型辨识所用时间在1s以上,而基于gru网络的辨识模型在完成训练后,实际使用中仅需将设定时间跨度内的运动学信息片段输入到辨识模型中即可,辨识所用时间在0.5s内,相比于前者所用时间缩短50%以上。且前者要求我方飞行器满足实时对拦截飞行器进行测量,限制了飞行器机动性,后者对测量连续性要求更低,在
整个飞行过程中只需有一段时间片段满足时间跨度要求即可。
[0140]
实验例4:
[0141]
选取输入步长为15,隐含层数为3,每个隐含层神经元数量为36、49、64、81、100、121和144情况下,通过gur网络得到对应的辨识模型:
[0142]
图10和图11为时间跨度0.3s情况下,不同隐含层神经元数量的gru网络训练及辨识效果。
[0143]
当神经元数量较少时,网络对样本学习不充分,辨识准确率较低;随着神经元数量增加,网络辨识准确度整体呈现上升趋势。但神经元数量越多,对我方飞行器上计算机计算能力要求越高。当神经元数量为81时,准确度为95.88%,能够较好地平衡辨识准确率和计算量。
[0144]
经过上述实验例可知,
[0145]
(1)通过对比不同条件下不同隐含层神经元数量、不同类型模型的制导律辨识效果能够说明,本技术所提供的基于gru的拦截飞行器制导律快速辨识方法相比于其他方法具有更快的辨识速度和更高的准确度;
[0146]
(2)通过对比可知,噪声较小时对网络辨识准确度影响不大,噪声较高时,网络辨识准确度有所下降,但gru网络模型相对于其他类型模型具有更好的抗干扰能力,能够使得本技术提供的基于gru的拦截飞行器制导律快速辨识方法可以更为准确地实时获得拦截飞行器制导律。
[0147]
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1