本发明涉及航天器导航领域,尤其涉及一种基于qlekf的木星探测环绕段自主导航方法和装置。
背景技术:
1、近些年来,木星探测已成为继月球和火星探测后深空探测的又一重要领域。目前,全球范围内已启动或正在计划多项木星探测项目。重点关注木星及其卫星的环绕探测,旨在进一步探索木星系统和行星际空间环境,详细研究木星大气、磁场、离子体和高能粒子的分布。
2、由于木星与地球距离遥远,存在约34分钟的通信延时,地面难以对探测器实时测控,因此要求探测器具有极强的自主管理能力,包括自主导航与控制、自主任务规划、自主故障诊断及处理等多个方面。其中自主导航技术能够实时提供探测器状态信息,是确保探测任务正常实施的关键,要求探测器不依赖外部支持,仅利用自身携带的测量设备实时确定自身相对于某一坐标系的位置、速度、姿态等信息来引导航行。
3、现有的自主导航算法,大多建立在火星、月球探测背景上,分别基于导航星的天体光学信息、陀螺仪和加速计测量信息、脉冲星信号和基于星间测量信标等测量信息利用滤波算法进行解算。由于计算资源有限、木星周边磁场和引力场复杂,探测器无法连续、精确地接收远处星系的测量数据,而木星周边丰富的天然卫星运行稳定、星历信息已知,其相对于探测器的视线矢量是理想的测量数据源。然而,木星周边区域内复杂的空间扰动和干扰源导致过程噪声和测量噪声难以精准建模,显著降低了导航精度。为抑制噪声不确定性,研究者们提出了多种自适应滤波方法。例如基于协方差匹配技术改进sage-husa自适应滤波,对测量噪声进行实时估计;再例如一种基于测量序列对过程噪声协方差矩阵进行估计的akf算法以及一种基于模型参数比(mpr)的akf方法,将自适应估计问题转化为约束优化问题。基于上述自适应算法,为进一步提高运算速度和估计精度,xiong等提出了一种结合q学习的扩展卡尔曼滤波算法(qlekf),将ekf算法与强化学习相结合,通过与环境交互得到反馈,自适应地调整噪声协方差的取值。qlekf可以解决多种情景下的高精度自主导航问题,降低噪声不确定性对ekf的负面影响。dai利用qlekf算法,基于无人机真实飞行数据实现了marg传感器姿态的精确估计;tao利用qlekf算法解决了太阳系边界巡航阶段的高精度导航需求。
4、在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
5、如何在不确定性的情景下,提高了导航精度并提高导航效率。
技术实现思路
1、本发明实施例提供一种基于qlekf的木星探测环绕段自主导航方法和装置,解决了如何在不确定性的情景下,提高了导航精度并提高导航效率的问题。
2、为达上述目的,一方面,本发明实施例提供一种基于qlekf的木星探测环绕段自主导航方法,包括:
3、通过星载相机获得木星卫星平面二维像素图像,根据所述木星卫星平面二维像素图像,在木星惯性坐标系下,确定木星的预设三个卫星中的每个卫星与探测器的位置的相对位置矢量;
4、根据木星的预设三个卫星中的每个卫星与探测器的位置的相对位置矢量,确定观测变量;
5、在强化学习的每个强化学习循环中,根据所述强化学习循环的上一强化学习循环对应的强化学习状态,确定所述强化学习循环对应的强化学习动作和强化学习状态;
6、根据所述强化学习循环对应的强化学习状态,从强化学习状态空间中获取所述强化学习循环对应的强化学习状态相应的噪声协方差矩阵;其中,所述强化学习状态空间包括以矩阵形式排列的多个强化学习状态;每个强化学习状态对应有噪声协方差矩阵;
7、根据所述观测变量、所述强化学习循环的上一强化学习循环对应的强化学习状态、所述强化学习循环对应的强化学习动作和强化学习状态、以及所述强化学习循环对应的强化学习状态相应的噪声协方差矩阵,通过第一扩展卡尔曼滤波器确定所述强化学习循环对应的强化学习q值,并且通过第二扩展卡尔曼滤波器确定探测器的运行状态的状态估计;
8、根据所述强化学习循环对应的强化学习q值,判断所述强化学习循环是否达到预设收敛条件;如果判断出所述强化学习循环没有达到所述预设收敛条件,则继续执行强化学习的下一个强化学习循环;如果判断出所述强化学习循环达到所述预设收敛条件,则将所述探测器的运行状态的状态估计作为探测器的运行状态的目标状态估计;
9、根据所述目标状态估计与预设轨道数据,校准所述探测器的运行状态。
10、另一方面,本发明实施例提供一种基于qlekf的木星探测环绕段自主导航装置,包括:
11、数据采集单元,用于通过星载相机获得木星卫星平面二维像素图像,根据所述木星卫星平面二维像素图像,在木星惯性坐标系下,确定木星的预设三个卫星中的每个卫星与探测器的位置的相对位置矢量;
12、观测变量确定单元,用于根据木星的预设三个卫星中的每个卫星与探测器的位置的相对位置矢量,确定观测变量;
13、强化学习状态确定单元,用于在强化学习的每个强化学习循环中,根据所述强化学习循环的上一强化学习循环对应的强化学习状态,确定所述强化学习循环对应的强化学习动作和强化学习状态;
14、噪声矩阵确定单元,用于根据所述强化学习循环对应的强化学习状态,从强化学习状态空间中获取所述强化学习循环对应的强化学习状态相应的噪声协方差矩阵;其中,所述强化学习状态空间包括以矩阵形式排列的多个强化学习状态;每个强化学习状态对应有噪声协方差矩阵;
15、滤波处理单元,用于根据所述观测变量、所述强化学习循环的上一强化学习循环对应的强化学习状态、所述强化学习循环对应的强化学习动作和强化学习状态、以及所述强化学习循环对应的强化学习状态相应的噪声协方差矩阵,通过第一扩展卡尔曼滤波器确定所述强化学习循环对应的强化学习q值,并且通过第二扩展卡尔曼滤波器确定探测器的运行状态的状态估计;
16、收敛判断单元,用于根据所述强化学习循环对应的强化学习q值,判断所述强化学习循环是否达到预设收敛条件;如果判断出所述强化学习循环没有达到所述预设收敛条件,则继续执行强化学习的下一个强化学习循环;如果判断出所述强化学习循环达到所述预设收敛条件,则将所述探测器的运行状态的状态估计作为探测器的运行状态的目标状态估计;
17、状态校准单元,用于根据所述目标状态估计与预设轨道数据,校准所述探测器的运行状态。
18、上述技术方案具有如下有益效果:将强化学习与扩展卡尔曼滤波器相结合构成qlekf-single算法,能够在噪声协方差矩阵难以准确取定的情况下,在一定搜索范围内找到合适的噪声协方差矩阵值以提升qlekf-single算法的性能,从而实现比ekf算法更精确的估计效果,在收敛后的位置和速度估计方面有了较大的改进,提高航天器导航的准确性。
1.一种基于qlekf的木星探测环绕段自主导航方法,其特征在于,包括:
2.如权利要求1所述的基于qlekf的木星探测环绕段自主导航方法,其特征在于,所述通过星载相机获得木星卫星平面二维像素图像,根据所述木星卫星平面二维像素图像,在木星惯性坐标系下,确定探测器的位置相对于木星的预设三个卫星中的每个卫星的相对位置矢量,具体为:根据以下公式确定探测器的位置相对于木星的预设三个卫星中的每个卫星的相对位置矢量:
3.如权利要求1所述的基于qlekf的木星探测环绕段自主导航方法,其特征在于,所述根据木星的预设三个卫星中的每个卫星与探测器的位置的相对位置矢量,确定观测变量,具体为:根据以下公式确定观测变量:
4.如权利要求1所述的基于qlekf的木星探测环绕段自主导航方法,其特征在于,所述根据所述强化学习循环的上一强化学习循环对应的强化学习状态,确定所述强化学习循环对应的强化学习动作和强化学习状态,包括:
5.如权利要求1所述的基于qlekf的木星探测环绕段自主导航方法,其特征在于,所述根据所述观测变量、所述强化学习循环的上一强化学习循环对应的强化学习状态、所述强化学习循环对应的强化学习动作和强化学习状态、以及所述强化学习循环对应的强化学习状态相应的噪声协方差矩阵,通过第一扩展卡尔曼滤波器确定所述强化学习循环对应的强化学习q值,并且通过第二扩展卡尔曼滤波器确定探测器的运行状态的状态估计,包括:
6.一种基于qlekf的木星探测环绕段自主导航装置,其特征在于,包括:
7.如权利要求6所述的基于qlekf的木星探测环绕段自主导航装置,其特征在于,所述数据采集单元,具体用于:根据以下公式确定探测器的位置相对于木星的预设三个卫星中的每个卫星的相对位置矢量:
8.如权利要求6所述的基于qlekf的木星探测环绕段自主导航装置,其特征在于,所述观测变量确定单元,具体用于:根据以下公式确定观测变量:
9.如权利要求6所述的基于qlekf的木星探测环绕段自主导航装置,其特征在于,所述强化学习状态确定单元,包括:
10.如权利要求6所述的基于qlekf的木星探测环绕段自主导航装置,其特征在于,所述滤波处理单元,包括: