本发明涉及深空探测器轨道控制技术,特别涉及一种基于机器学习算法的地外天体软着陆制导控制技术。
背景技术:
目前深空探测软着陆制导方法主要有两种:标称轨道法和显式制导方法。标称轨道法根据初始和终端状态及性能指标和约束解算出最优轨迹,在大干扰情况下,标称轨道法应用起来很困难。相比较而言,显式制导方法是根据着陆器的现时可测运动参数,按控制泛函的显示表达式进行实时计算的方法,具有很强的鲁棒性,但是对制导和导航计算机(guidanceandnavigationcomputer,gnc)的速度和容量提出了较高的要求。
深空探测着陆器作为一个受控对象,是一个典型的非线性、时变且具有不确定性的多变量耦合系统,在地外天体表面成功软着陆对制导与控制系统提出了严峻挑战。近年来,随着人工智能技术的飞速发展,以人工神经网络(artificialneuralnetwork,ann)为代表的机器学习算法获得了广泛深入的研究,并在航空航天领域得到了应用。神经网络所具有的学习能力以及逼近任意非线性映射的能力,为非线性系统和不确定系统的控制提供了有效的手段。
考虑到深空探测着陆器的末端状态与当前飞行状态参数之间存在着强非线性关系,该关系可以采用经过训练的神经网络来近似,从而可以实时地利用当前飞行状态信息来形成制导控制信号。基于上述考虑,针对地外天体软着陆动力下降段制导与控制问题,提出了一种基于机器学习的非线性状态反馈控制律。
技术实现要素:
结合未来深空探测任务,针对地外天体软着陆动力下降段制导与控制问题,本发明的目的在于提供一种基于机器学习算法的地外天体软着陆制导控制方法。
一种基于机器学习算法的地外天体软着陆制导控制方法,包含以下步骤:
s1、设计一条接近燃耗最优的标称着陆轨迹;
s2、以标称轨迹为训练样本,由误差反向传播算法训练一个三层前向神经网络;
s3、设计基于神经网络控制器的深空探测器软着陆制导控制器。
上述的一种基于机器学习算法的地外天体软着陆制导控制方法,所述的步骤s1由多项式拟合方法得到一条软着陆标称轨迹,给出制导控制量推力方向角和推力控制函数的显式表达式。
上述的一种基于机器学习算法的地外天体软着陆制导控制方法,所述的步骤s2中,所述神经网络除输入输出层外,还有一层或多层的隐含层节点,同层节点中没有任何耦合;输入信号从输入层节点依次通过各个隐含层节点,然后到达输出层节点,每一层节点的输出值作为下一层节点的输入。
上述的一种基于机器学习算法的地外天体软着陆制导控制方法,所述的步骤s3具体包含:
s31、选取s1所得轨迹作为训练样本;
s32、根据s2的算法反复迭代,训练神经网络控制器;
s32、将s32的结果接入控制系统闭环。
本发明设计了一种基于机器学习的深空探测器软着陆制导控制方法,该方法具有良好的跟踪性、适应性和鲁棒性。
附图说明
图1是本发明的步骤说明图。
图2是深空探测着陆器软着陆极坐标图。
图3是三层神经网络结构图。
图4是软着陆神经控制器闭环图。
具体实施方式
考虑到深空探测着陆器的末端状态与当前飞行状态参数之间存在着强非线性关系,该关系可以采用经过训练的神经网络来近似,从而可以实时地利用当前飞行状态信息来形成制导控制信号。基于上述考虑,针对地外天体软着陆动力下降段制导与控制问题,提出了一种基于机器学习的非线性状态反馈控制律。
以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。
如图1所示,一种基于机器学习算法的地外天体软着陆制导控制方法,包含以下3个步骤:
s1、设计一条接近燃耗最优的标称着陆轨迹;
s2、以标称轨迹为训练样本,由误差反向传播算法训练一个三层前向神经网络;
s3、设计基于神经网络控制器的深空探测器软着陆制导控制器。
如图2所示,所述的步骤s1参考“阿波罗”飞船的制导控制方法,软着陆最优标称轨迹由多项式拟合方法得到,由多项式拟合方法得到一条软着陆标称轨迹,给出制导控制量推力方向角和推力控制函数的显式表达式。垂直方向上的燃耗最优下降轨迹和下降速率可以通过三次多项式和二次多项式来拟合:
式中:τ为局部时间,它以当前时刻t为初始时刻,其取值范围为[0,tg0];tg0为剩余时间,其定义为着陆器从当前位置到目标点所需要的时间。
初始条件和终端条件如下:
r(0)=r,u(0)=u,r(tg0)=rf,u(tg0)=uf(2)
其中rf,uf分别为位置终端约束和径向速度终端约束。
由以上四个约束条件可解出拟合多项式的各系数如下:
当前垂直方向的加速度为:
上式中的剩余时间可由水平方向上的速度和加速度近似估算:
其中ah为水平方向加速度大小。
联合动力学方程可以得到推力角:
由上式可以看出,由于终端的剩余时间等于零,垂直加速度在剩余时间终端会发生被零除的情况。为了消除这种终端奇异,可令垂直加速度在着陆前很短的一段时间为常值。
由以上分析可以得到一条接近燃耗最优的标称轨迹,该标称轨迹可以作为神经网络算法的训练样本。
如图3所示,所述的步骤s2中,神经网络是单向传播的多层前向网络,网络除输入输出层外,还有一层或多层的隐含层节点,同层节点中没有任何耦合。输入信号从输入层节点依次通过各个隐含层节点,然后到达输出层节点,每一层节点的输出值作为下一层节点的输入。其中隐含层的激活函数通常为s型函数(sigmoid函数),输出层节点的激活函数通常为线性函数。本专利中所用的bp网络是只有一个隐含层的前向网络。
bp网络可以看成是从输入到输出的非线性映射:
f:un→rm,f(x)=y(7)
对于样本输入集合xi∈rn和输出集合yi∈rm,可以认为存在某一映射g(·)使得:
g(xi)=yi,i=1,2,...,n(8)
现要求映射f(·),使得在某种意义下(通常是最小二乘意义下),f(·)是g(·)的最佳逼近。
bp神经网络算法的学习过程由正向传播和反向传播组成。在三层bp网络中,假设输入神经元个数为i,隐含层神经元个数为j,输出层神经元个数为k。在正向传播过程中,输入u从输入层经隐含层逐层处理,并传向输出层,产生一个基于网络权值wi,j,wj,k和阈值θi,j,θj,k的输出y。每一层神经元的状态只影响下一层神经元的状态。如果输出层得不到期望的输出,则转入反向传播,将误差信号沿原来的连接通道返回,通过修改各层神经元的权值和阈值,使得误差信号最小。
第n次迭代的误差信号定义为:
其中d(n)为网络的期望输出,y(n)为网络的实际输出。
bp网络的连接权值和阈值按以下的学习算法得以更新:
其中η为学习率,体现了误差对权值的影响大小。若学习率过小,则算法耗时过长,若学习率过大,则可能导致误差在某个水平上反复震荡,影响收敛的稳定性。
如图4所示,所述的步骤s3将神经网络应用到火星着陆器软着陆的制导控制系统中,着陆器的系统动力学模型如s1中所示,神经网络控制器选用如图3的三层前向神经网络,按如下步骤操作,得到最终的控制系统。
s31、选取s1所得标称轨迹作为训练样本;
s32、根据s2给出的bp算法反复迭代,训练神经网络控制器;
s32、将s32的结果,训练完毕的神经网络控制器接入控制系统闭环。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。