一种基于在线学习的航天器临近操作自主控制方法及系统与流程

文档序号:22039872发布日期:2020-08-28 17:58阅读:140来源:国知局
一种基于在线学习的航天器临近操作自主控制方法及系统与流程

本发明涉及一种基于在线学习的航天器临近操作自主控制方法及系统,主要应用于航天器交会对接、在轨补给维护、协同配合等任务,属于航天器控制技术领域。



背景技术:

随着航天技术的高速发展,航天器在轨任务的多样性和复杂性日益提高,任务载体逐渐由单集成大航天器系统向多航天器系统扩展,任务类型也由传统的观测、通讯等基本任务,衍生出了以航天器临近操作问题为代表的新兴在轨任务。航天器临近操作控制技术衍生于交会对接、在轨维护补给等在内的重要任务场景。由于飞行安全、载荷特性和任务需求等因素,在轨航天器经常需要满足各类运动约束。一方面,由于任务中的目标航天器有的具有一些外张型载荷,出于安全考虑,追踪星的运动轨迹一般会被限制在一个以对接口为轴心的锥形区域内,这一运动约束常被称为接近走廊约束。另一方面,为完成交会对接任务,追踪星需要具备实时测量其与目标星间的相对运动状态的能力。但是,由于这类光学载荷通常只具有有限的视场范围,追踪航天器的姿态需要被有效控制以使得目标星一直处于这个有限视场内,称之为视场约束。另外,考虑到航天器携带燃料有限,任务的时效性等因素,航天器的运动控制具有时效和经济的综合最优效应也是未来航天器控制系统设计中的一个非常关键因素。所以研究在位姿约束条件下的航天器的控制性能优化问题就显得尤为重要。

在国内外的相关研究中,解决此类任务相关的问题主要立足于两个方面,一方面是基于人工势能函数的运动控制,另一方面是基于求解最优问题的进行路径的运动轨迹设计。前者虽然能很好的解决在运动过程中的轨迹规避问题,但是其缺乏优化性能指标的功能。后者虽然能兼顾约束规避和控制性能的优化,然而求解优化问题需要的时效都不能满足航天任务的需求。因此,现有的航天器临近操作自主控制方法存在难以保证同时保证运动约束性能优化以及计算时效的情况。



技术实现要素:

本发明的目的在于解决航天器临近操作自主控制任务中由于光学载荷以及航天器本体结构造成的六自由度运动约束问题,本发明提供一种基于在线学习的航天器临近操作自主控制方法及设备,通过设计与任务功能相关的回报函数,并利用在线数据设计控制器的实时学习律,解决了航天器临近操作任务中的六自由度运动约束问题,在保证满足运动约束的条件下,通过实时学习自主改进优化控制器的性能,提升了控制系统的航天器控制系统的任务执行能力。

本发明提供一种基于在线学习的航天器临近操作自主控制方法,(1)根据航天器临近操作任务的位姿动力学特性基于对偶四元数建立动力学模型,并在对偶四元数的框架下刻画临近操作任务中的位姿运动学约束;

(2)根据航天器临近操作任务的需求设计相应的在线学习中的回报函数;

(3)根据(1)的动力学模型和(2)中的回报函数基于对偶四元数框架设计利用在线数据设计学习控制方法。

具体实现步骤如下:

第一步建立航天器临近操作任务的位姿动力学模型如下:

其中,表示被控航天器与目标航天器的相对位姿,为其相对时间的导数,为对偶四元数的集合,为对偶四元数乘法,被控航天器与目标航天器的相对对偶角速度、被控航天器相对于惯性参考系的对偶角速度以及目标航天器相对于惯性参考系的对偶角速度分别表述为相对时间的导数,表示由力fb和力矩τb组成的对偶控制输入,表示对偶惯量矩阵由转动惯量jb和质量组成mb,i3为三阶单位矩阵,ε为对偶单元其满足性质ε≠0,ε2=0。上式中

基于对偶四元数的性质刻画接近走廊约束和视线场约束。由于任务中的目标航天器有时具有较大的空间规模和一些外张型载荷,故出于安全考虑,追踪星的运动轨迹通常被限制在一个以对接口为轴心的圆锥包络内。可以通过对偶四元数的形式刻画为:

式中,cpath表示目标航天器对接口方向的单位方向向量,表示关于cpath的叉乘矩阵,θ表示约束轴心包络圆锥的半锥角,o表示对偶数的内积运算。另外,由于任务中的被控航天器上搭载由测量相对位姿的导航载荷,其姿态需要被有效控制以使得目标航天器一直处于这个圆锥视场内,这类约束可被称为视线场约束,具体可以通过对偶数四元数的形式刻画为:

式中,csight表示被控航天器载荷方向的单位方向向量,表示关于csight的叉乘矩阵,α表示约束载荷视线场约束圆锥的半锥角。

第二步,设计航天器临近操作任务的回报函数。在航天器临近操作任务中,控制的最终目标是使得被控航天器到达期望的位置和姿态,所以期望状态回报函数可以设计为:

其中,表示单位对偶四元数,qq和qω分别表示位姿和速度的权重矩阵。在航天器临近操作任务中的约束即为被控航天器不期望达到的位置和姿态。在此,位置约束回报函数设计为:

式中,c1为第一步中的接近走廊约束不等式左侧部分,β1为位置约束权重因子。类似的,姿态约束回报函数设计为:

式中,c2为第一步中的视线场约束不等式左侧部分,β2为姿态约束权重因子。综上所述,总的回报函数设计为:

γ=γstate+γpath+γsight

基于上式所设计的回报函数,可以对航天器的自主控制的结果给与相应的回报,以满足航天器临近操作任务的需求。

第三步,设计基于在线学习的航天器临近操作自主控制方法,在线学习控制策略设计如下:

(1)所设计的控制器为:

其中,航天器的运动状态可以集成表示为表示基底函数,west表示对应的估计权重向量,表示关于对偶向量的偏导数运算。

(2)控制器中权重向量的学习律为:

其中,μ1和μ2为大于零系数,tk1和tk2为采样时间节点,为贝尔曼误差,为最佳权重向量w与估计权重向量之差,辅助变量用于在线数据的采集,具体设计为:

ψ(t,tk2,tk1)=ψ1(tk2,tk1)west+ψ2(tk2tk1)

其中,学习辅助变量ψ1(t,tk1),ψ2(t,tk1)分别设计为,式中,k>0为调节参数,tk1和tk2为学习时间节点,其关系应满足

利用以上步骤可以实现约束条件下在实时学习的控制器设计,可以保证航天器在临近操作任务中运动轨迹安全的前提下根据在线数据实时提升航天器的控制性能。

本发明还提供一种基于在线学习的航天器临近操作自主控制系统,包括评判网络、回报网络、学习器、控制器以及航天器相对位姿动力学模型,使用基于在线学习的航天器临近操作自主控制方法,航天器由控制器执行控制任务,并由评判网络和回报网络采集数据对控制性能进行评估,同时学习器通过评估结果进行网络权重的实时学习,将控制参数更新到控制器中,实现在线性能提升。

本发明是一种基于在线学习的航天器临近操作自主控制方法,与现有技术相比的优点在于:

(1)基于对偶四元数的汇报函数设计,实现了航天器临近操作过程中位置和姿态的运动规避,保证了任务的安全执行。

(2)与基于人工势能函数的方法相比,本方案使用基于在线学习控制的方法不仅能够实现约束区域的规避,还能有效地提升了控制性能,提升了控制系统的经济性以及任务执行力。

(3)与基于求解优化问题的方法相比,本方法的实现是在线实时的,通过实时采集数据并更新控制器的权重参数,实现控制器的在线学习,极大的降低了对运算硬件平台的需求,具有很强的可实现性。

附图说明

图1为基于在线学习的航天器临近操作自主控制系统原理框图;

图2为本发明的一种基于在线学习的航天器临近操作自主控制方法流程框图;

具体实施方式

图1为本发明所述的基于在线学习的航天器临近操作自主控制系统原理框图,上述系统由评判网络、回报网络、学习器、控制器以及航天器相对位姿动力学模型几部分组成。首先,航天器由初始控制器执行控制任务,并由评判网络和回报网络采集数据对控制性能进行评估,同时学习器通过评估结果进行网络权重的实时学习,将控制参数更新到控制器中,以实现在线性能提升。

如图2所示,本发明的一种基于在线学习的航天器临近操作自主控制方法步骤为:首先建立考虑位姿运动约束的航天器临近操作任务的位姿动力学模型;然后针对任务需求,进行回报函数的设计;最后进行控制器的设计以及在线学习律的设计;具体实施步骤如下:

第一步建立航天器临近操作任务的位姿动力学模型如下:

其中,表示被控航天器与目标航天器的相对位姿,为其相对时间的导数,为对偶四元数的集合,为对偶四元数乘法,对偶惯量矩阵设为被控航天器与目标航天器的相对对偶角速度、被控航天器相对于惯性参考系的对偶角速度以及目标航天器相对于惯性参考系的对偶角速度分别表述为相对时间的导数,表示由力fb和力矩τb组成的对偶控制输入mb,i3为三阶单位矩阵,ε为对偶单元其满足性质ε≠0,ε2=0,上式中被控航天器和目标航天器的对偶角速度的初值分别为相对位姿的初值选为

基于对偶四元数的性质刻画接近走廊约束和视线场约束。由于任务中的目标航天器有时具有较大的空间规模和一些外张型载荷,故出于安全考虑,追踪星的运动轨迹通常被限制在一个以对接口为轴心的圆锥包络内。可以通过对偶四元数的形式刻画为:

式中,cpath表示目标航天器对接口方向的单位方向向量,设置值为[100]t表示关于cpath的叉乘矩阵,θ表示约束轴心包络圆锥的半锥角,设置值为30deg,o表示对偶数的内积运算。另外,由于任务中的被控航天器上搭载由测量相对位姿的导航载荷,其姿态需要被有效控制以使得目标航天器一直处于这个圆锥视场内,这类约束可被称为视线场约束,具体可以通过对偶数四元数的形式刻画为:

式中,csight表示被控航天器载荷方向的单位方向向量,设置值为[-100]t表示关于csight的叉乘矩阵,α表示约束载荷视线场约束圆锥的半锥角,设置值为30deg。

第二步,设计航天器临近操作任务的回报函数。在航天器临近操作任务中,控制的最终目标是使得被控航天器到达期望的位置和姿态,所以期望状态回报函数可以设计为:

其中,表示单位对偶四元数,qq和qω分别表示位姿和速度的权重矩阵,设置值分别为qq=0.1i4和qω=2i4。在航天器临近操作任务中的约束即为被控航天器不期望达到的位置和姿态。在此,位置约束回报函数设计为:

式中,c1为第一步中的接近走廊约束不等式左侧部分,β1为位置约束权重因子,设置值为10。类似的,姿态约束回报函数设计为:

式中,c2为第一步中的视线场约束不等式左侧部分,β2为姿态约束权重因子,设置值为10。综上所述,总的回报函数可以设计为:

γ=γstate+γpath+γsight

基于上式所设计的回报函数,可以对航天器的自主控制的结果给与相应的回报,以满足航天器临近操作任务的需求。

第三步,设计基于在线学习的航天器临近操作自主控制方法,在线学习控制策略设计如下:

(1)所设计的控制器为:

其中,航天器的运动状态可以集成表示为表示基底函数,设计为west表示对应的估计权重向量初始值选为west(0)=[0.2,0.2,0.2,5,5,5]t表示关于对偶向量的偏导数运算。

(2)控制器中权重向量的学习律为:

其中,μ1和μ2为大于零系数,tk1=0和tk2=2为采样时间节点,为贝尔曼误差,为最佳权重向量w与估计权重向量之差,辅助变量用于在线数据的采集,具体设计为:

ψ(t,tk2,tk1)=ψ1(tk2,tk1)west+ψ2(tk2tk1)

其中,学习辅助变量ψ1(t,tk1),ψ2(t,tk1)分别设计为,式中,k>0为调节参数,tk1和tk2为学习时间节点,其关系应满足

利用以上步骤可以实现约束条件下在实时学习的控制器设计,可以保证航天器在临近操作任务中运动轨迹安全的前提下根据在线数据实时提升航天器的控制性能。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1