一种基于动态博弈树搜索的轨道追逃博弈策略求解方法

文档序号:37182596发布日期:2024-03-01 12:42阅读:44来源:国知局
一种基于动态博弈树搜索的轨道追逃博弈策略求解方法

本发明属于航天设计,具体涉及一种基于动态博弈树搜索的轨道追逃博弈策略求解方法。


背景技术:

1、轨道追逃博弈是空间博弈中最常见轨道博弈问题,具体表现为追击航天器对逃跑航天器进行主动靠近或者逃跑航天器对追击方进行主动远离。

2、由于航天器在追逃博弈中,感知对方的态势有一定的时间延迟,并且如果卫星无法在轨自主相对导航和决策控制,而是需要地面站辅助感知、决策和遥控,则相邻的两次机动控制之间具有一定的时间延迟。当前对航天器追逃博弈的研究,常采用微分对策的方法,不考虑追逃航天器之间的感知-决策的时间延迟,假设双方追逃博弈是瞬时连续的,不符合现实情况。


技术实现思路

1、为了克服上述现有技术的缺点,本发明的目的在于提供一种基于动态博弈树搜索的轨道追逃博弈策略求解方法,基于卫星追逃博弈的特点,提出序贯式的回合制博弈即一方先实施轨道机动,另一方需要一定的延迟时间后才能实施轨道机动;并且由于回合制的延迟性,采用脉冲控制,只需要知道轨道转移的始末状态及中间若干点的状态就可以得到所需要施加的脉冲控制,解决脉冲追逃博弈策略求解。

2、为了达到上述目的,本发明采用以下技术方案予以实现:

3、本发明提供了一种基于动态博弈树搜索的轨道追逃博弈策略求解方法,包括以下步骤:

4、s1:建立追逃博弈树;

5、s2:基于追逃博弈树并采用极大极小值搜索法,追击航天器首先进行追击策略选择,输出当回合的追击动作;逃跑航天器在探测到追击航天器机动后进行逃跑策略选择,输出当回合的逃跑的动作;

6、s3:追击航天器与逃跑航天器分别序贯性的进行博弈,判断是否满足追击成功条件,获得追击航天器与逃跑航天器的最佳策略。

7、在具体实施过程中,所述建立追逃博弈树包括以下步骤:

8、s11:基于轨道高度a并以逃跑航天器初始位置为原点建立轨道坐标系,其中,轨道坐标系中的x轴为由地心指向逃跑航天器方向,y轴为逃跑航天器所在轨道平面内指向的速度方向;

9、s12:设定逃跑航天器的每回合已有的逃跑动作集ue={ue1,ue2,…,ued}以及追击航天器的每回合已有的追击动作集up={up1,up2,…,upk};设定逃跑航天器的博弈搜索深n,追击航天器的博弈搜索深度m以及追击成功条件,设定脉冲转移时间δt和反应时间δt;

10、s13:基于轨道坐标系、逃跑航天器的每回合已有的逃跑动作集ue={ue1,ue2,…,ued}以及追击航天器的每回合已有的追击动作集up={up1,up2,…,upk}、逃跑航天器的博弈搜索深度n、追击航天器的博弈搜索深度m以及追击成功条件、脉冲转移时间δt和反应时间δt建立追逃博弈树;

11、上述p为追击航天器;e为逃跑航天器;其中d为逃跑航天器已有的动作总数,k为追击航天器已有的动作总数。

12、在具体实施过程中,所述追击成功条件如下:

13、当追击航天器与逃跑航天器之间的相对距离为r时,追击成功;若在n回合内,追击航天器未追上逃跑航天器则追击失败。

14、在具体实施过程中,所述追逃博弈树包括各个博弈回合后追击航天器的对应位置xp(t0+δt)以及各个博弈回合后追击航天器的状态;

15、各个博弈回合后逃跑航天器的对应位置xe(t0+δt+δt)以及各个博弈回合后逃跑航天器的状态;

16、还包括基于追击航天器的博弈搜索深度m的所有追逃动作组合得到的相对距离以及基于逃跑航天器的博弈搜索深度n的所有追逃动作组合得到的相对距离。

17、在具体实施过程中,所述基于追击航天器的博弈搜索深度m的所有追逃动作组合得到的相对距离如下:

18、基于追击航天器的博弈搜索深度m获得m回合脉冲后追逃双方相对距离为优化目标,计算m回合脉冲所有追逃动作组合得到的相对距离;

19、追击航天器的优化目标jp表示为:

20、jp=||m·(xp(tm)-xe(tm))||2,tm=t0+δt+m·δt;

21、其中:

22、

23、

24、tm=t0+m·δt;

25、其中,xp(tm)是追击航天器在tm时刻的状态;xe(tm)是逃跑航天器在tm时刻的状态;xp(t0)是追击航天器在t0时刻的状态;xe(t0)是逃跑航天器在t0时刻的状态;m是使追逃双方状态差转移成相对位置差的矩阵;φ(tm,t0)是t0时刻到tm时刻的cw方程转移矩阵;φv(tm,ti-1)是ti-1时刻到tm时刻的cw方程速度转移矩阵;φv(tm,ti-1+δt)是ti-1+δt时刻到tm时刻的cw方程速度转移矩阵;

26、所述基于逃跑航天器的博弈搜索深度n的所有追逃动作组合得到的相对距离如下:

27、基于逃跑航天器的博弈搜索深度n获得n回合脉冲后追逃双方相对距离为优化目标,计算n回合脉冲所有追逃动作组合得到的相对距离;

28、优化目标je可以表示为:

29、je=||m·(xp(tn)-xe(tn))||2,tn=t0+δt+n·δt

30、其中,

31、

32、

33、tn=t0+n·δt;

34、其中,xp(tn)是追击航天器在tn时刻的状态;xe(tn)是逃跑航天器在tn时刻的状态;φ(tn,t0)是t0时刻到tn时刻的cw方程转移矩阵;φv(tn,ti-1+δt)是ti-1+δt时刻到tn时刻的cw方程速度转移矩阵;φv(tn,ti-1)是ti-1时刻到tn时刻的cw方程速度转移矩阵;

35、上式中,

36、δvpi在追击动作集up={up1,up2,…,upk}中选择,而δvei在逃跑动作集ue={ue1,ue2,…,ued}中选择。

37、在具体实施过程中,所述s2中,所述追击航天器进行策略选择的过程如下:

38、基于追击航天器的博弈搜索深度m获得m回合脉冲后追逃双方相对距离为优化目标,采用极大极小值博弈树搜索方法,从m回合脉冲后的所有节点进行搜索,先进行极大层搜索,再进行极小层搜索,得到相应的策略排序,选取第一回合的策略并获得相应的相对距离解。

39、在具体实施过程中,所述采用极大极小值博弈树搜索方法,从m回合脉冲后的所有节点进行搜索,先进行极大层搜索,再进行极小层搜索,得到相应的策略排序,选取第一回合的策略并获得相应的相对距离解的过程如下:

40、根据追击航天器的博弈搜索深度m预测追击航天器以及逃跑航天器的博弈回合为m回合,根据所有策略组合得到km·dm个根节点;

41、进行极大层的搜索,在选择逃跑航天器脉冲时,有d种可选择的逃跑动作,将km·dm个根节点按照排序分为km·dm-1份,每份中有d个节点,在d个中选取其中的最大值,为极大层的子节点,获得km·dm-1个子节点;

42、进行极小层的搜索,在选择追击航天器脉冲时,有k种可选择的追击动作,将极大层获得的km·dm-1个子节点按照排序分为km-1·dm-1份,每份中有k个节点,在k个中选取其中的最小值,为极小层的子节点;

43、同理进行极小层和极大层的节点选择,得到最终m回合的追逃博弈树的解并取第一回合的追击动作输出。

44、在具体实施过程中,所述s2中,所述逃跑航天器在探测到追击航天器机动后进行逃跑策略选择的过程如下:

45、逃跑航天器在探测到追击航天器机动后,基于逃跑航天器的博弈搜索深度n获得n回合脉冲后追逃双方相对距离为优化目标,采用极大极小值博弈树搜索方法,从n回合后的所有节点进行搜索,先进行极小层搜索,再进行极大层搜索,得到相应的策略排序,选取第一回合的策略并获得相应的相对距离解。

46、在具体实施过程中,所述采用极大极小值博弈树搜索方法,从n回合后的所有节点进行搜索,先进行极小层搜索,再进行极大层搜索,得到相应的策略排序,选取第一回合的策略并获得相应的相对距离解的过程如下:

47、根据逃跑航天器的博弈搜索深度n预测追击航天器以及逃跑航天器的博弈回合为n回合,根据所有策略组合得到kn·dn个根节点;

48、进行极小层的搜索,在选择追击航天器脉冲时,有k种可选择的追击动作,将kn·dn个根节点按照排序分为kn-1·dn份,每份中有k个节点,在k个中选取其中的最小值,为极小层的子节点,获得kn-1·dn个子节点;

49、进行极大层的搜索,在选择逃跑航天器脉冲时,有d种可选择的逃跑动作,将极小层获得的kn-1·dn个子节点按照排序分为kn-1·dn-1份,每份中有d个节点,在d个中选取其中的最大值,为极大层的子节点;

50、同理进行极小层和极大层的节点选择,得到最终n回合的追逃博弈树的解并取第一回合的追击动作输出。

51、与现有技术相比,本发明具有以下有益效果:

52、本发明提供了一种基于动态博弈树搜索的轨道追逃博弈策略求解方法,考虑感知-决策的时间延迟,并采用脉冲控制的方式解决该问题。由于感知和决策延迟,导致追逃航天器进行序贯博弈,运用脉冲机动方式进行追逃博弈。采用动态博弈树搜索的方法,可以从离散型纯策略中选择满足搜索方式的解,其结果能很好的展现脉冲追逃博弈的情形;双方分别以各自的博弈深度进行该回合的最佳动作选择,在一定的安全距离和有限的回合内进行博弈,在有限回合内到达安全距离则追击成功,反之则追击失败。最后得到追逃双方的策略,具有直观和求解方便的优点,为后续工程应用提供思路和技术支撑。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1