面向空间目标协同观测的卫星集群构形调整规划方法与流程

文档序号:18234196发布日期:2019-07-24 08:35阅读:353来源:国知局
面向空间目标协同观测的卫星集群构形调整规划方法与流程

本发明属于分布式卫星系统协同规划技术,具体涉及一种面向空间目标协同观测的卫星集群构形调整规划方法。



背景技术:

随着空间碎片的增多以及空间对抗技术的发展,在轨的重要航天器受到的空间威胁的程度显著提高,对此可以通过在其附近部署观测系统来监视周围环境,对外部威胁或平台故障进行预警。就空间目标观测任务而言,由几十甚至上百颗微小卫星集群构成的观测系统具有灵活性好、观测范围广等优势,可以充分利用集群的优势,完成对空间目标的全方位高精度观测、监视与识别,获取更加详细的目标特征信息。

针对空间目标的协同观测任务实施,集群内各颗卫星需自主规划并协调各自的策略,按照任务需求在规定时间内完成构形调整以协同完成观测任务。而构形控制是上层规划、协同策略和底层控制等方面的综合问题,上层规划中通常以燃料或时间最优为优化的性能指标,考虑的约束条件主要包括燃料消耗、碰撞避免、规避障碍等,而期望构形的规划与具体控制策略的选择则需根据各颗卫星的状态进行协调。构形调整目前普遍采用的方法是将上层规划和底层控制分离求解,先规划出最优相对运动转移轨迹,然后对该轨迹进行跟踪控制,或是利用最优控制理论将问题离散化,转化为参数优化问题进行求解,抑或是采用多智能体系统(MAS)对分布式卫星系统进行描述,利用MAS相关技术进行求解。但是现有方法随着参与协同的卫星数目的增多,迭代寻优次数也会越来越多,计算量陡增;且具体的构形调整任务实施时大多基于地面测控体系展开,未充分利用卫星之间的通信关系进行自主协调;此外,随着MAS中Agent规模的增大,组合状态S和组合动作空间A的维数呈指数级增长,出现“维数爆炸”问题,这使得通过传统的MDP框架求解组合最优调整动作在大多数情况下不易实现。



技术实现要素:

发明目的:为了克服上述现有技术的不足,本发明旨在提供一种面向空间目标协同观测的卫星集群构形调整规划方法。

本发明为实现上述发明目的,所采用如下技术方案如下:

一种面向空间目标协同观测的卫星集群构形调整规划方法,包括如下步骤:

(1)基于集群通信链路以及星载传感器获取决策因素,包括集群系统状态信息和观测任务约束信息,将集群中每颗卫星视为智能Agent;

(2)基于集群的通信关系建立协调图,在协调图框架下引入MAS强化学习机制,并基于集群的相对运动动力学模型及构形调整的推力控制模型定义规划过程中的状态、各颗卫星的调整动作及调整策略,在此基础上对观测任务构形约束进行处理;

(3)通过集群全局协调以及单星局部优化的协作规划方法确定集群最优构形调整策略。

进一步的,步骤(1)所述集群系统状态信息包含各颗卫星的相对运动状态、集群当前构形状态、当前规划时刻,以及集群中各颗卫星的轨控推力器配置信息;所述观测任务约束信息包括构形调整的推力、控制能耗、协同观测期望的构形、规划的时间段以及星间碰撞避免。

步骤(2)所述集群的通信关系包括集群通信拓扑结构以及星间的协作信息传递关系,以图论G=<V,E>进行描述;

所述构形调整的推力控制模型包括卫星轨控发动机的脉冲型、连续推力型以及继电型推力模型;

所述规划过程中的状态为集群系统状态信息;

所述调整动作由各颗卫星星载轨控推力器的工作状态决定:用aik∈{0,1}表示推力器工作状态,1表示工作,0表示未工作,标号k代表各轴的推力器;

所述调整策略为规划时间段内按决策窗口顺序生成的卫星调整动作序列。

步骤(3)所述集群最优构形调整策略是以集群构形调整效果和调整所需的总速度增量为优化的性能指标,其函数表达式如下:

其中:Δvxi,Δvyi,Δvzi分别为集群中第i颗卫星完成构形调整所需的沿x轴、y轴、z轴的速度增量,K为集群中卫星总数。

进一步的,步骤(3)所述的集群全局协调以及单星局部优化的协作规划方法具体包括如下步骤:

(31)将集群中每颗卫星视为智能Agent,以集群的通信结构为基础建立协调图框架,在协调图框架下引入MAS强化学习机制;

(32)基于通信协调图将全局最优构形调整策略寻优的任务分解到各颗卫星的局部学习;

(33)根据集群系统状态信息和观测任务约束确定局部效用函数,通过在时间维度上累加折扣效用函数的方式确定性能指标函数;

(34)针对集群全局协调决策问题,设计基于Max-plus的全局协调决策算法来实现局部学习过程中的协作交互;

(35)针对单星局部优化问题,在通信协调图分解的基础上,设计基于神经网络的局部Q学习算法来拟合性能指标函数,在局部学习基础上,各星基于全局协调决策算法进行协作交互,进而获得集群最优构形调整策略。

更进一步的,步骤(31)中所述以集群的通信结构为基础建立协调图框架的步骤如下:

采用图模型G=<V,E>来描述集群通信关系,以集群卫星之间的通信关系来描述Agent之间的协作依赖关系,以此为基础构建基于集群通信结构的协调图框架;其中,V={v1,v2,…,vK}表示图G中所有顶点vi的集合,即集群中所有的卫星节点;E表示图G中所有的边eij构成的集合,边eij∈E是连接两个卫星节点vi和vj的直线,如果两个顶点之间存在一条边,则表示对应的两个卫星节点可以直接进行通信。

步骤(32)基于通信协调图将全局最优构形调整策略寻优的任务分解到各颗卫星的局部学习的方法为:将集群通信协调图转换成只包含成对依赖关系的图,以通信的两颗卫星i、j为一个分解单位,基于G=<V,E>中的边eij对全局Q函数进行分解,每条边对应一个局部Qi函数,以此将集群构形调整全局协作规划分解为一系列局部协作问题,每个局部协作问题中只涉及两个卫星Agent,则集群组合动作和状态下的全局Q函数分解为局部值函数Qi的线性组合:

其中,Qi为卫星Agent i的局部值函数,是Agenti局部优化所得的调整动作对集群整体构形调整的贡献;为局部状态,Si和Sj分别为Agent i、j的有限状态集,ai和aj分别为Agent i、j的调整动作。

步骤(33)所述根据集群系统状态信息和观测任务约束确定局部效用函数的方式为:根据状态sk以及动作ak构建体现了在状态sk下执行动作ak的构形调整效果的效用函数U(sk,ak);

首先,构建具有通信关系的Agenti、j在k时刻实施各自的调整动作aik,ajk所获得的局部回报Rij(sk,ak):

其次,利用Agent当前局部构形与目标构形之间的构形差来设计回报函数:

r(aik)=||dik-Dik||

r(ajk)=||djk-Djk||

其中,dik表示Agenti相对于观测目标的距离,Dik表示观测任务目标构形约束下Agenti相对于目标的期望距离,djk表示Agentj相对于观测目标的距离,Dijk表示目标构形约束下Agenti、j的期望相对距离,dsafe为星间碰撞避免的安全距离;

然后,根据Agent所执行的调整动作的推力加速度U确定所需的控制量:

最后,通过Rij(sk,ak)和Ue(sk,ak)构建效用函数U(sk,ak):

U(sk,ak)=βRij(sk,ak)+(1-β)Ue(sk,ak)

其中,β为权重,k表示第k个决策阶段,sk=sijk为局部状态,ak=(aik,ajk);

其中,步骤(33)中通过在时间维度上累加折扣效用函数的方式确定的性能指标函数如下:

Q(sk,ak)=U(sk,ak)+γJ*(sk+1)

其中,γ∈[0,1]为折扣因子,sk=sijk为局部状态,ak=(aik,ajk),Θ=Ai×Aj为Agent i、j的组合动作空间,NT为规划时间段内划分的决策级数。

步骤(34)针对集群全局协调决策问题,设计基于Max-plus的全局协调决策算法来实现局部学习过程中的协作交互的方法,其过程如下:

根据通信协调图G=<V,E>,协作规划开始时,每个Agent i不断给它的邻居j∈Γ(i)发送局部规划结果作为协作信息,然后各个Agent基于通信协调图不断交换彼此的局部规划结果进行全局协调,Agent i发送给邻居j的消息μij为:

其中,Γ(i)\j表示除j以外的Agent i的其他邻居Agent,μki表示其他邻居Agent发送给i的消息,cij用于归一化。

步骤(35)针对单星局部优化问题,在通信协调图分解的基础上,设计基于神经网络的局部Q学习算法来拟合性能指标函数,在局部学习基础上,各卫星Agent基于全局协调决策算法进行协作交互,进而获得集群最优构形调整策略的方法为:对分解后的每个局部Q函数Qi(sij,ai,aj)分别采用神经网络进行拟合,将第k个决策周期中的协调图各条边上的局部状态及其对应的调整动作组合[sij,ai,aj]T分别输入各个神经网络,映射为各局部Q函数的估计值执行(ai,aj),各局部状态转移至sij′;根据基于Max-plus的全局协调决策算法进行协作交互,确定状态sij′下的最优局部调整动作组合(ai*,aj*),将协调图四条边上的局部状态和动作[sij',ai*,aj*]T分别输入各个神经网络,获得

其中,根据下式对局部Q函数进行更新:

其中,α为神经网络学习率,γ为折扣因子;

各神经网络的训练误差为:

采用训练误差Ec根据随机梯度下降法修正各神经网络的权值后进行下一次迭代训练,周而复始地,直至训练次数达到最大迭代次数或构形偏差达到要求,输出各星的最优构形调整动作ai*

将卫星i所有决策周期中的最优构形调整动作ai*组合所得的动作序列即为其最优构形调整策略πi*={ai1*,ai2*,…,aiNT*},整个集群的最优构形调整策略为π*={π1*,π2*,…,πK*},NT为规划时间内的决策周期总数,K为集群中卫星总数。

本发明与现有技术相比,其显著的有益效果如下:

(1)本发明采用基于集群通信结构的协调图框架来描述卫星Agent之间的协作依赖关系,引入MAS强化学习技术对问题进行求解,通过协调图分解将全局规划学习任务按照通信关系划分至成对的卫星Agent之间,Agent之间的交互学习只需利用通信所能获取的局部信息和其他Agent的规划结果(调整动作),大大降低了搜索的联合状态-动作空间,降低了迭代的计算量,减小了问题求解复杂度,可以扩展到大规模集群的应用;有利于增强卫星集群的自主性和智能性,提高卫星集群在轨生存能力和任务执行水平,为卫星集群构形调整规划问题提供了一种新的思路。

(2)本发明所建立的通信协调图一方面可以充分利用局部通信信息,另一方面,本发明基于通信消息传递所设计的基于Max-plus的全局协调决策算法能有效地进行集群全局协调,保证各颗卫星同时规划调整的决策一致性。各颗卫星在通信协调图的基础上,只需通过不断交换迭代消息便可实现全局协调决策以获得近似全局最优的组合调整动作,而不需要遍历所有卫星的组合动作空间,大大提高了规划效率。

附图说明

图1为Agent自主规划结构图;

图2为集群构形调整协作规划决策过程图;

图3为集群构形调整协作规划流程图;

图4为基于神经网络的局部Q学习规划结构图;

图5为局部Q学习的神经网络映射示意图;

图6为局部Q学习的神经网络训练流程图。

具体实施方式

为了进一步的说明本发明公开的技术方案,下面结合说明书附图和具体实施例做进一步的阐述。

针对仅具备局部信息感知能力的卫星集群(或分布式卫星系统)对空间目标进行协同观测任务实施过程中的构形调整规划问题,将构形调整的顶层规划与底层控制综合进行考虑,从集群协作规划的角度提出一种面向空间目标协同观测的卫星集群构形调整规划方法,通过将全局规划学习任务按照通信关系划分至成对的卫星Agent之间,以降低迭代的计算量,减小问题求解复杂度,增强卫星集群的自主性和智能性。

实施例1

本发明所述的一种面向空间目标协同观测的卫星集群构形调整规划方法,以集群系统状态信息、观测任务约束信息为决策因素,基于集群的通信关系建立协调图,在协调图框架下引入MAS强化学习机制,通过集群全局协调以及单星局部优化的方式确定集群最优构形调整策略。

该方法中:集群系统状态信息包括各颗卫星的相对运动状态信息、集群当前构形状态、当前规划时刻(决策周期)以及集群中各颗卫星的轨控推力器配置。

观测任务约束信息包括构形调整的推力、控制能耗、协同观测期望的构形、规划的时间段以及星间碰撞避免;通信关系包括集群通信拓扑结构以及星间的协作信息传递关系;

集群构形调整策略为集群中各颗卫星的构形调整策略组合,其中:各颗卫星的构形调整策略为规划时间段内按决策窗口顺序生成的调整动作序列;集群最优构形调整策略是以集群构形调整效果和调整所需的总速度增量为优化目标,即以最少的总速度增量获得最好的集群构形调整效果。

优选的,通过集群全局协调以及单星局部优化的方式确定集群最优构形调整策略的具体方法为:将集群中每颗卫星视为智能Agent,以集群的通信结构为基础建立协调图,在协调图框架下引入MAS强化学习机制,基于通信协调图将全局最优构形调整策略寻优的任务分解到各颗卫星的局部学习;根据集群系统状态信息和观测任务约束确定局部效用函数,通过在时间维度上累加折扣效用函数的方式确定性能指标函数;针对集群全局协调决策问题,设计基于Max-plus的全局协调决策算法来实现局部学习过程中的协作交互;针对单星局部优化问题,在通信协调图分解的基础上,设计基于神经网络的局部Q学习算法来拟合性能指标函数,在局部学习基础上,各星基于全局协调决策算法进行协作交互,进而获得集群最优构形调整策略。

进一步地优选,以集群的通信结构为基础建立协调图框架的方法为:采用图模型G=<V,E>来描述集群通信关系,以集群卫星之间的通信关系来描述Agent之间的协作依赖关系,以此为基础构建基于集群通信结构的协调图框架;其中,V={v1,v2,…,vK}表示图G中所有顶点vi的集合,即集群中所有的卫星节点;E表示图G中所有的边eij构成的集合,边eij∈E是连接两个卫星节点vi和vj的直线,如果两个顶点之间存在一条边,则表示对应的两个卫星节点可以直接进行通信。在协调图框架下引入MAS强化学习机制,基于通信协调图将全局最优构形调整策略寻优的任务分解到各颗卫星的局部学习的方法为:将集群通信协调图转换成只包含成对依赖关系的图,以通信的两颗卫星i、j为一个分解单位,基于G=<V,E>中的边eij对全局Q函数进行分解,每条边对应一个局部Qi函数,以此将集群构形调整全局协作规划分解为一系列局部协作问题,每个局部协作问题中只涉及两个卫星Agent,则集群组合动作和状态下的全局Q函数分解为局部值函数Qi的线性组合:

其中,Qi为卫星Agent i的局部值函数,是Agenti局部优化所得的调整动作对集群整体构形调整的贡献;为局部状态,Si和Sj分别为Agent i、j的有限状态集,ai和aj分别为Agent i、j的调整动作。

其次,根据集群系统状态信息和观测任务约束确定局部效用函数的方式为:根据状态sk以及动作ak构建体现了在状态sk下执行动作ak的构形调整效果的效用函数U(sk,ak);

首先,构建具有通信关系的Agenti、j在k时刻实施各自的调整动作aik,ajk所获得的局部回报Rij(sk,ak):

其次,利用Agent当前局部构形与目标构形之间的构形差来设计回报函数:

其中,dik表示Agenti相对于观测目标的距离,Dik表示观测任务目标构形约束下Agenti相对于目标的期望距离,djk表示Agentj相对于观测目标的距离,Dijk表示目标构形约束下Agenti、j的期望相对距离,dsafe为星间碰撞避免的安全距离;

然后,根据Agent所执行的调整动作的推力加速度U确定所需的控制量:

最后,通过Rij(sk,ak)和Ue(sk,ak)构建效用函数U(sk,ak):

U(sk,ak)=βRij(sk,ak)+(1-β)Ue(sk,ak)(5)

其中,β为权重,k表示第k个决策阶段,sk=sijk为局部状态,ak=(aik,ajk)。

一种面向空间目标协同观测的卫星集群构形调整规划方法的更进一步的优选,通过在时间维度上累加折扣效用函数的方式确定的性能指标函数为:

其中,γ∈[0,1]为折扣因子,sk=sijk为局部状态,ak=(aik,ajk),Θ=Ai×Aj为Agent i、j的组合动作空间,NT为规划时间段内划分的决策级数。

再进一步的,所述方法中,针对集群全局协调决策问题,设计基于Max-plus的全局协调决策算法来实现局部学习过程中的协作交互的方法为:

根据通信协调图G=<V,E>,协作规划开始时,每个Agent i不断给它的邻居j∈Γ(i)发送局部规划结果作为协作信息,然后各个Agent基于通信协调图不断交换彼此的局部规划结果进行全局协调,Agent i发送给邻居j的消息μij为

其中,Γ(i)\j表示除j以外的Agent i的其他邻居Agent,μki表示其他邻居Agent发送给i的消息,cij用于归一化。

更进一步的,一种面向空间目标协同观测的卫星集群构形调整规划方法中,针对单星局部优化问题,在通信协调图分解的基础上,设计基于神经网络的局部Q学习算法来拟合性能指标函数,在局部学习基础上,各卫星Agent基于全局协调决策算法进行协作交互,进而获得集群最优构形调整策略的方法为:对分解后的每个局部Q函数Qi(sij,ai,aj)分别采用神经网络进行拟合,将第k个决策周期中的协调图各条边上的局部状态及其对应的调整动作组合[sij,ai,aj]T分别输入各个神经网络,映射为各局部Q函数的估计值执行(ai,aj),各局部状态转移至sij′;根据基于Max-plus的全局协调决策算法进行协作交互,确定状态sij′下的最优局部调整动作组合(ai*,aj*),将协调图四条边上的局部状态和动作[sij',ai*,aj*]T分别输入各个神经网络,获得

根据下式对局部Q函数进行更新:

其中,α为神经网络学习率,γ为折扣因子;

各神经网络的训练误差为:

采用训练误差Ec根据随机梯度下降法修正各神经网络的权值后进行下一次迭代训练,周而复始地,直至训练次数达到最大迭代次数或构形偏差达到要求,输出各星的最优构形调整动作ai*

将卫星i所有决策周期中的最优构形调整动作ai*组合所得的动作序列即为其最优构形调整策略πi*={ai1*,ai2*,…,aiNT*},整个集群的最优构形调整策略为π*={π1*,π2*,…,πK*},NT为规划时间内的决策周期总数,K为集群中卫星总数。

实施例2

本发明的卫星Agent自主规划结构如图1所示,将集群中的卫星视为具有自主规划能力的智能Agent,信息交互模块、通信模块和硬件驱动模块负责与系统环境和其它Agent进行交互。信息交互模块是Agent自主规划与控制的基础,用于感知环境状态信息并对Agent自身状态信息以及与之协调的其它Agent的信息进行处理,然后生成协调信息输入到规划决策模块;规划决策模块是Agent自主规划的核心,其功能是根据规划算法和协调信息进行局部优化决策,生成规划方案,并将局部规划信息提供给通信模块用于与其它Agent协调交互;硬件驱动模块一方面为规划模块提供Agent自身状态信息,另一方面也接收规划方案信息,并控制相关组件执行动作作用于环境。Agent执行动作后,环境状态发生改变,形成一个状态-动作对序列,此时信息交互模块感知到新的环境状态以及反馈的执行动作对环境状态变化产生的效果,Agent重复上述过程,不断迭代规划,直到完成任务目标。

面向空间目标协同观测的卫星集群构形调整规划方法的规划决策过程如图2所示。本发明采用基于Agent自主规划的MAS协作规划结构,将集群协同观测的构形调整规划问题可转化为多阶段规划决策的迭代寻优,在决策过程中,单星局部优化和集群全局协调迭代进行,协作规划全局最优调整策略;将规划时间划分为NT个决策阶段,每个决策周期的协作规划过程如下:

1)单星局部优化中,卫星i的自主规划过程可表示为:首先通过与目标以及其它近邻卫星之间的相对运动关系构建卫星i的局部环境信息;然后由局部感知信息和自身构形调整动作集合Ai进行规划决策,根据每个动作行为带来的局部调整效果,确定自身的调整动作;每颗卫星在整个规划时间段内施加的多次推力动作即为其调整策略;

2)集群全局协调,各颗卫星之间通过通信交换彼此的规划结果(调整动作),在通信信息交互的基础上,通过全局协调决策算法进行协作;在满足观测任务约束条件的前提下,以整个集群构形调整控制量为性能指标,以集群整体构形朝着观测构形configd逼近为目标,获得该决策阶段的全局最优调整动作;其中,期望构形表达为:

configd={D1,D2,…,DK,D1Γ(1),D2Γ(2),…,DKΓ(K)}

以集群整体构形朝着观测构形configd逼近为目标表达为:

其中,Di为卫星i相对于观测目标的期望距离,i=1,2,…,K,K为集群中卫星总数,j∈Γ(i)为集群中与卫星i有通信关系的卫星,Dij为两颗卫星i、j之间的期望相对距离,为规划终止时刻的集群构形状态,ε为允许的构形偏差,通过欧氏距离来描述;

3)通过单星局部优化和全局协调决策的迭代进行协作,将规划时间段内每颗卫星的全局最优调整动作序列组合成最优调整策略πi*={ai1,ai2,…,aiNT},集群中的卫星根据自身的πi*进行相对运动调整,达到期望的观测构形。

本发明基于集群全局协调以及单星局部优化的规划策略确定集群最优构形调整策略的流程如图3所示。详细叙述如下:

1)以集群的通信结构为基础建立协调图框架:采用图模型G=<V,E>来描述集群通信关系,以集群卫星之间的通信关系来描述Agent之间的协作依赖关系,以此为基础构建基于集群通信结构的协调图框架;其中,V={v1,v2,…,vK}表示图G中所有顶点vi的集合,即集群中所有的卫星节点;E表示图G中所有的边eij构成的集合,边eij∈E是连接两个卫星节点vi和vj的直线,如果两个顶点之间存在一条边,则表示对应的两个卫星节点可以直接进行通信。

2)基于通信协调图将全局最优构形调整策略寻优的任务分解到各颗卫星的局部学习:将集群通信协调图转换成只包含成对依赖关系的图,以通信的两颗卫星i、j为一个分解单位,基于G=<V,E>中的边eij对全局Q函数进行分解,每条边对应一个局部Qi函数,将集群组合动作和状态下的全局Q函数分解为局部值函数Qi的线性组合:

其中,Qi为卫星Agent i的局部值函数,是Agent i局部优化所得的调整动作对集群整体构形调整的贡献;为局部状态,定义为sij={di,dj,dij},di、dj分别表示Agent i、j相对于观测目标的距离,dij为Agent i、j之间的相对距离,ai和aj分别为Agent i、j的调整动作。

3)基于集群系统状态信息和观测任务约束设计体现了在状态sk下执行动作ak的构形调整效果的局部效用函数U(sk,ak):

首先,构建具有通信关系的Agent i、j在k时刻实施各自的调整动作aik,ajk所获得的局部回报Rij(sk,ak):

其次,利用Agent当前局部构形与目标构形之间的构形差来设计回报函数:

r(aik)=||dik-Dik||

r(ajk)=||djk-Djk||

其中,dik表示Agent i相对于观测目标的距离,Dik表示观测任务目标构形约束下Agent i相对于目标的期望距离,djk表示Agent j相对于观测目标的距离,Dijk表示目标构形约束下Agent i、j的期望相对距离,dsafe为星间碰撞避免的安全距离;

然后,根据Agent所执行的调整动作的推力加速度U确定所需的控制量:

最后,通过Rij(sk,ak)和Ue(sk,ak)构建效用函数U(sk,ak):

U(sk,ak)=βRij(sk,ak)+(1-β)Ue(sk,ak)

其中,β为权重,k表示第k个决策阶段,sk=sijk为局部状态,ak=(aik,ajk)。

4)将局部效用函数以折扣的方式在时间维度进行累加得到性能指标函数J(sk),并以此构建局部Q函数:

Q(sk,ak)=U(sk,ak)+γJ*(sk+1)

其中,γ∈[0,1]为折扣因子,sk=sijk为局部状态,ak=(aik,ajk),Θ=Ai×Aj为Agent i、j的组合动作空间,NT为规划时间段内划分的决策级数。

5)在通信协调图分解的基础上,对分解后的每个局部Q函数Qi(sij,ai,aj)分别采用神经网络进行拟合,将第k个决策周期中的协调图各条边上的局部状态及其对应的调整动作组合[sij,ai,aj]T分别输入各个神经网络,映射为各局部Q函数的估计值执行(ai,aj),各局部状态转移至sij′;根据基于Max-plus的全局协调决策算法进行协作交互,确定状态sij′下的最优局部调整动作组合(ai*,aj*),将协调图四条边上的局部状态和动作[sij',ai*,aj*]T分别输入各个神经网络,获得

6)采用训练误差Ec根据随机梯度下降法修正各神经网络的权值,通过迭代训练逼近近似最优的局部Q函数,进而获得集群最优构形调整策略,此过程详细叙述如下:

根据下式对局部Q函数进行更新:

其中,α为神经网络学习率,γ为折扣因子;

各神经网络的训练误差为:

根据训练误差Ec对各神经网络进行迭代训练,直至训练次数达到最大迭代次数或构形偏差达到要求,输出各星的最优构形调整动作ai*为:

将卫星i所有决策周期中的最优构形调整动作ai*组合所得的动作序列即为其最优构形调整策略πi*={ai1*,ai2*,…,aiNT*},整个集群的最优构形调整策略为π*={π1*,π2*,…,πK*},NT为规划时间内的决策周期总数,K为集群中卫星总数。

本发明的基于神经网络的局部Q学习规划结构如图4所示。包含系统模型、基于Max-plus的全局协调决策算法、评价网络三个部分;其中,系统模型用于确定并输出系统的转移状态,即执行调整动作后各颗卫星的相对运动状态变化;基于Max-plus的全局协调决策算法用于协调各颗卫星的行为,输出给定状态sk下的最优调整动作估计评价网络采用BP神经网络结构,输出局部Q函数的估计值用于对调整动作进行评价。

本发明的局部Q学习的神经网络(即评价网络)的映射示意图如图5所示。评价网络采用三层神经网络结构,根据局部构形状态sij和相应两个Agent的动作(ai,aj)拟合局部Q函数,通过对神经网络权值的训练更新进行逼近,其输入为[sij,ai,aj]T,输出为Q函数近似值

本发明中每颗卫星Agent的局部Q学习神经网络训练流程如图6所示,详细叙述如下:

1)采用随机权值初始化各个Agent的局部Q学习神经网络(即评价网络);

2)根据各局部Q值由基于Max-plus的全局协调算法获得最优调整动作的估计;

3)计算当前系统状态下,采用当前调整动作所对应的局部效用函数值;

4)执行调整动作,由系统模型获得下一时刻的局部状态;

5)根据基于Max-plus的全局协调算法获得下一时刻的最优调整动作估计;

6)由评价网络获得下一时刻的局部Q函数估计值;

7)由评价网络获得当前时刻的局部Q函数估计值;

8)根据两个时刻的局部Q函数估计值以及局部效用函数值计算训练误差Ec;

9)利用训练误差更新评价网络权值;

10)判断训练迭代次数是否达到设定的最大训练次数。若没有达到,重复步骤7到9;否则,结束k时刻的训练。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1