复合控制飞行器元学习智能控制方法

文档序号:30936871发布日期:2022-07-30 01:17阅读:163来源:国知局
复合控制飞行器元学习智能控制方法

1.本发明属于飞行控制系统领域,具体涉及到一种复合控制飞行器自动驾驶仪系统元学习智能控制方法。


背景技术:

2.防空导弹作为各国防空利器,成为许多国家重点。其担负着对国家领空的防御任务,一旦任务失败,将会给国家安全和人民利益带来巨大的损失。与传统飞行器只使用气动力不同,复合控制飞行器利用姿控发动机能够产生连续高速气体的特点帮助飞行器更快建立稳定的法向过载,因此复合控制飞行器总是能够实现极小的脱靶量,甚至是直接命中目标。但是在拦截过程中由于受到系统参数不确定性和外部扰动的复合干扰影响,设计对干扰具有良好鲁棒性的飞行控制系统是必不可少的。
3.传统飞行控制方法采用增益调度和比例积分微分控制器,而复合控制飞行器气动环境复杂,干扰和不确定性大,并且其是过驱动系统,因此采用传统飞行控制方法对其飞行过程进行高精度控制存在一定的难度。为解决上述问题,许多学者提出了先进控制理论,如滑模控制、自适应神经网络控制、自抗扰控制和反步控制等方法。其中滑模控制和反步控制被常用来结合设计控制器,滑模控制具有对参数不确定性、外部干扰不敏感和容错能力强等优点,但是其中引入的切换项对系统的过渡过程和实际控制律产生抖振影响;反步法将控制系统形式要求进行拓宽,因此具有很强的泛化适应能力,但是反步法将高阶系统拆分为多个一阶子系统并通过引入虚拟变量的形式将他们级联起来的方式易造成“微分爆炸”。
4.基于此,本发明在上述终端滑模控制律基础上,提出了基于元学习深度神经网络的抗干扰控制器,主要优势为:(1)无需得知系统准确模型,对系统建模精确性要求较低。(2)通过构造有界函数和反馈线性化形式有效避免了反步法的“微分爆炸”。(3)通过合理的控制分配策略有效避免了气动舵饱和偏转的现象。(4)利用元学习框架特点使得深度神经网络能够有效估计当前系统受到的未知干扰并提高系统的控制精度。


技术实现要素:

5.本发明的目的是为了解决复合控制飞行器自动驾驶仪受到外部干扰、系统模型参数摄动的情况下的高精度控制问题。
6.本发明采用的技术方案为:
7.本发明提供一种基于元学习深度神经网络的复合控制飞行器自动驾驶仪抗干扰控制方法,所述方法包括:
8.步骤一:建立复合控制飞行器自动驾驶仪纵向通道动力学模型;
9.步骤二:利用反馈线性化将步骤一中的系统模型转化为合适的形式,便于后续设计终端滑模面;
10.步骤三:利用反步法和扩张状态观测器对步骤一中建立的系统模型在不同的未知干扰环境中控制运行并获得干扰的实际值和估计值;
11.步骤四:基于元学习框架利用步骤三中获得的数据对深度神经网络进行训练,并训练多个能够准确估计干扰的神经网络模型作为对未知干扰具有泛化估计的元参数;
12.步骤五:基于步骤四中训练好的深度神经网络在线估计未知干扰,并在设计终端滑模控制律的过程中考虑干扰的估计对干扰进行补偿,从而使得系统气流角在有限时间内跟踪期望值。
13.本发明的优点在于:
14.(1)设计有界函数和反馈线性化有效避免引入虚拟控制量分步设计的过程,直接针对复合控制飞行器非线性自动驾驶仪系统模型进行控制律设计。
15.(2)在控制律设计中考虑对上下界未知的干扰进行补偿。
16.(3)通过引入元学习框架来提高深度神经网络对从未训练过的环境中系统受到的未知干扰的估计精度,增强深度神经网络的泛化能力。
附图说明
17.图1为复合控制飞行器的直接力分布示意图
18.图2为智能元学习深度神经网络控制器结构图
19.图3为深度神经网络在测试过程中对测试数据1中的干扰估计情况
20.图4为深度神经网络在测试过程中对测试数据2中的干扰估计情况
21.图5为实施例中智能元学习深度神经网络控制方法的攻角曲线
22.图6为实施例中智能元学习深度神经网络控制方法的攻角跟踪误差曲线
23.图7为实施例中智能元学习深度神经网络控制方法的未知干扰估计曲线
24.图8为实施例中智能元学习深度神经网络控制方法的气动舵偏转曲线
25.图9为实施例中智能元学习深度神经网络控制方法的直接力响应曲线
具体实施方式
26.下面将结合附图及实施例对本发明作进一步的详细说明。
27.考虑末制导阶段飞行器推力发动机已停止工作,因此建立纵向平面内直复合控制飞行器自动驾驶仪非线性系统模型如下:
[0028][0029]
式中:m为飞行器质量;v为飞行器速度;α为迎角;β为侧滑角;q为动压;s为特征面积;l为特征长度;jz为飞行器转动惯量;为气动导数;δz为升降舵偏角;l
t
为姿控发动机到飞行器质心的平均距离;f
t
为姿控发动机推力大小。
[0030]
为便于设计,对上式进行简化,假设β≈0,并且为下文公式表达更简洁,令为便于设计,对上式进行简化,假设β≈0,并且为下文公式表达更简洁,令并且定义x1=α,x2=ωz,m=a4δz+a5f
t
,则可以得到直接力/气动力复合控制飞行器的纵向通道简化模型:
[0031][0032]
式中,d
α
,为考虑模型简化过程中系统存在的复合未知有界干扰。
[0033]
通过引入中间状态量进而化简上式,令x3=x
2-a1x1,则上式可以写成:
[0034][0035]
将x2=x3+a1x1带入上式得:
[0036][0037]
设参考指令信号为x
1d
,令e1=x
1-x
1d
,则再令x2=x3,则上式可以改写为:
[0038][0039]
在获得上述模型之后,利用反步法和扩张状态观测器对上述系统模型在t个不同任务环境中进行有效控制,每个任务环境代表一种期望轨迹和干扰形式,并且设置每个任务的运行时长都是10秒,且数据采集间隔为1毫秒,则每个任务的数据量都是10000,收集的离线数据集合为其中x,xr分别为系统状态和参考状态,为扩张状态观测器对两个回路中的干扰的准确估计值。元训练的目标是找到具有强泛化能力的元参数ω
*
,并利用其来表达被训练神经网络内核以达到对这些训练后的神经网络内核进行线性组合进而表达系统在实际运行过程中所受到的未知扰动:
[0040][0041]
式中,为神经网络输出层与最后一层隐藏层之间的权重,它是与表示环境变化的参数c有关;为输出层之前的第j个隐藏层的状态。因此元训练的目标是最小化真实扰动与线性表达干扰之间的误差,即:
[0042][0043]
式中,为元参数;为神经网络最后一层隐藏层的状态。
[0044]
接下来是寻找最适合表达上述数据中两回路的干扰的参数化神经网络,因此可以将这个问题转化为一个凸优化问题:
[0045][0046]
其中
[0047][0048]
在元训练中通常采用双层优化的思想将上式写成内外两层的形式:
[0049][0050]
对于上式,首先可以任意初始化元参数ω,并利用其设计神经网络隐层状态然后就可以对内层进行设计,内层思路则是利用进行线性组合,而hk就是线性组合中各部分的权重值,即可以利用线性最小二乘思想获得在dk数据中的hk形式。由于在每一个完整集合dk中需要获得ω和hk,因此再将数据dk继续划按照8:2的比例分为两部分:和其中用于训练hk,用于解决外层优化元参数ω。我们首先对于固定的元参数ω,获得hk的线性最小二乘形式:
[0051][0052]
令因此上式的最小二乘解为:
[0053][0054]
在获得了上的hk之后,则可以对外层进行优化获得元参数ω,我们可以使用ω上的随机梯度下降来解决外层优化问题。并给出下表中的迭代算法来求解ω。注意,如果不将dk进行划分,而是直接在dk基础上直接计算内外层是可以保证渐近收敛的,因为在每次迭代中解决最小二乘问题是单调递减的,对于提前设置的最够小的学习率β,批量更新律是单调递减的,并且是2范数,因此代价是下界为0。
[0055]
在获得最优元参数之后,认为在线估计阶段中元参数固定不变,进而可将训练好的神经网络内核同样视作固定的,则在真实拦截过程中只需要在线更新内核中各神经元线性组合的权值即可实现系统在全新未知干扰下经过设计的控制律作用能够实现状态轨迹渐近收敛至期望状态轨迹。
[0056]
在控制系统的设计过程中,首先给出几个关键且符合实际物理系统的假设:
[0057]
假设1:系统参考状态轨迹xd及其一阶导数和二阶导数存在且有界,即:
[0058][0059]
假设2:认为系统状态轨迹和所受未知干扰是紧集ξ的一个子集,因此对于系统状态轨迹和当前所受未知干扰的由最小线性二乘给出的最优参数可表示为:
[0060][0061]
可以认为该误差在元训练过程中的最大误差值ε范围内,即ed≤ε。
[0062]
首先对简化的系统设计如下滑模面:
[0063][0064]
式中,λ和μ为正数。给出所设计的输入控制力矩m为:
[0065][0066]
式中,k1>0,k2>0,其中,λ>0,μ>0。u
nn1
和u
nn2
为深度神经网络对攻角环和俯仰角速度环中的未知干扰的估计值。在线使用更新过程中,设置权重h的更新律为:
[0067][0068]
式中,γ=diag(γ1,γ2),其中,γ1,γ2>0。将未知干扰写成由训练后的神经网络内核线性组合形式为:
[0069][0070]
式中,h
*
为能够将神经网络内核组合进而拟合干扰的最优权重。则实际在线控制中,拟合误差为:
[0071][0072]
式中,
[0073]
给出以下结论定理:
[0074]
定理1:对于|e1|≥0,当|e1|>1时有ρ(|e1|)>0;当0≤|e1|≤1时有|ρ(|e1|)|≤2λ(1+μ)。
[0075]
定理2:在假设1和假设2的基础上,对于复合控制飞行器自动驾驶仪,在所设计控制律和更新律的作用下,系统状态轨迹能够快速准确收敛至期望状态轨迹。
[0076]
证明过程为:首先考虑ρ(|e1|)的有界性,首先定理1中的第一个条件明显成立;这里直接证明第二个条件,当0≤|e1|≤1时,ρ(|e1|)可以写成如下形式:
[0077][0078]
很明显因此定义:
[0079][0080]
将上式对|e1|求导得:
[0081][0082]
存在|e
10
|使得上式为零,则易知ψ在(0,|e
10
|)上递减,在(|e
10
|,1)上递增,因此|ψ(|e1|)|≤max{1+μ,|ψ(|e
10
|)|},最后,由于0≤|e
10
|≤1,得|ψ(|e
10
|)|≤2λ(1+μ),证毕。
[0083]
然后证明定理2成立,选取lyapunov函数形式如下:
[0084][0085]
式中,h1=[h
11
...h
1m
],h2=[h
21
...h
2m
]。对上式求导得:
[0086][0087]
式中,先化简上式中的第一项
[0088][0089]
将设计的输入控制力矩和更新律代入上式:
[0090][0091]
由定理1可知ρ(x)∈(-2λ(1+μ),2λ(1+μ)),即|ρ(x)|≤2λ(1+μ),因此上式可化简为:
[0092][0093]
式中,只需设置γ>1,k1,k2>0,就可以保证所设计的李雅普诺夫函数满足:
[0094][0095]
证毕。
[0096]
由于本文研究的飞行器为过驱动系统,即期望输入力矩可以由升降舵的偏转产生和姿控发动机向外喷气产生,因此需要对控制输入力矩进行合理分配,从而达到升降舵与姿控发动机之间地相互配合使得系统更加快速准确地跟踪参考指令信号。
[0097]
首先通过上一步得到了期望输入力矩:
[0098]
m=a4δz+a
tft
[0099]
根据气动力与直接力产生特性,在攻角与期望角度之间偏差较大时采用直接力,偏差较小时采用气动力,即根据期望偏差动态加权调整两者之间的输入关系以保证产生的总输入力矩与期望的输入力矩相同,定义加权函数g(e)并对期望力矩进行指令分配:
[0100][0101]
式中,k3为调节参数。
[0102]
本发明基于智能元学习深度神经网络控制器结构图如图2所示。
[0103]
以下将结合实施例对本发明的技术效果进行表述,以充分理解本发明的效果和证明本发明的有效性。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明的保护范围。
[0104]
对于步骤一,实施例中,设置复合控制飞行器末制导拦截飞行时间为10s,初始攻角为α0=0.0011
°
,初始俯仰角速度为ω
z0
=0.001
°
/s。期望攻角指令信号为αc=15
°
,并采用滤波器来平滑期望攻角指令信号。
[0105]
对于步骤三,实施例中利用步骤一中的系统基于反步法和扩张状态观测对状态和干扰数据进行收集,其中扩张状态观测器的增益参数为ρ1=ρ2=4。系统参考攻角信号在0
°
~15
°
之间随机产生,未知干扰采用正弦波与常值的和形式,其中正弦波的角频率为0~3π/4之间随机产生。
[0106]
对于步骤四,实施例中采用的深度神经网络有5层,其中三层隐藏层。
[0107]
对于步骤五,实施例中控制器参数设置为:k1=3,k2=2,λ=1,μ=5,γ=2。
[0108]
由图3和图4可以看出针对不同频率且存在常值偏移的未知干扰,深度神经网络仅需要当前时刻的前200个相对真实数据即可对当前时刻的干扰进行估计。
[0109]
由图5和图6可以看出攻角信号在跟踪初期与期望信号差距较大,但是其在0.5s左右就达到了收敛稳态。
[0110]
图7为深度神经网络对实际拦截过程中系统受到的干扰进行估计,同样是基于已知干扰的前200个数据,然后进行递推估计,可以看出深度神经网络对未训练过的场景也能够作出较为准确的估计。
[0111]
图8和图9对比可以看出,在响应初期系统攻角与期望攻角相差较大时,主要采用直接力为主,气动力为辅的形式来满足控制需要,当误差逐渐降低时气动力的比重加大,最终使得气动舵无饱和偏转现象并且过渡平缓,满足工程实际需求。
[0112]
实施例中对比结果说明,采用智能元学习深度神经网络能够较为准确地估计系统中的未知干扰并在控制律设计中加以补偿。同时有界函数地构造和终端滑模的设计增强了系统对估计存在些许偏差的鲁棒性,有效提高了系统快速准确跟踪的能力,控制分配策略极大缓解了气动舵执行机构的饱和偏转现象。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1