一种多卫星博弈围捕策略的制作方法

文档序号:17557554发布日期:2019-04-30 18:44阅读:352来源:国知局
一种多卫星博弈围捕策略的制作方法

本发明涉及多卫星协作技术,尤其涉及一种多卫星博弈围捕策略。



背景技术:

随着国际航天技术的迅速发展和太空探索的不断深入,空间资源竞争愈演愈烈,空间攻防能力的提升逐渐被视为重要的强国手段和国家强盛的标志,卫星通常被作为空间攻防的重要载体。如果能捕获对方的卫星将极大削弱对方力量,同时可通过获取对方空间技术提升自身攻防能力。同时,由于卫星技术的不断发展,卫星制造、发射成本不断降低,卫星的工作模式开始逐渐由传统的单一工作转变为多卫星协作,多卫星协作技术愈发受到关注。多卫星围捕任务是多卫星协作技术的一个重要实际应用,多卫星围捕策略的研究能推动多卫星协作技术的研究发展,开展多卫星围捕策略研究是十分必要的。

现有协作围捕策略,虽可以实现多个追捕者之间运动的协调,完成围捕任务,但这些策略仅着眼于追逃双方的当前局势,未深入考虑后期可能的局势,不具备前瞻性,不利于提高围捕效率。同时,现有的协作围捕策略研究主体多为地面移动机器人,多卫星协作围捕策略的研究相对较少。由于卫星在太空中工作,携带资源极为有限,为了延长卫星工作时间,提高卫星工作效率是至关重要的,因此,现有的协作围捕策略不适用于目标卫星的围捕。



技术实现要素:

有鉴于此,本发明实施例提供了一种多卫星博弈围捕策略,通过在多卫星围捕问题的非合作博弈模型中引入对目标卫星的运动预测,以正确、高效完成多卫星围捕任务。

本发明实施例提供了一种多卫星博弈围捕策略,包括:

依据目标卫星的历史位置信息,拟合目标卫星的运动轨迹,获得目标卫星的预测位置;

依据多卫星围捕任务与目标卫星的预测位置,获得多卫星围捕问题的非合作博弈模型;

依据所述多卫星围捕问题的非合作博弈模型,求解博弈纯纳什均衡解,获得多卫星围捕策略。

上述方法中,所述依据目标卫星的历史位置信息,拟合目标卫星的运动轨迹,获得目标卫星的预测位置为:

[xyz]=[fx(t+kt)fy(t+kt)fz(t+kt)]

其中,x,y,z为预测的目标卫星在围捕空间中的坐标,fx(t),fy(t),fz(t)为目标卫星x,y,z轴坐标变化拟合曲线,t为时间,t为决策周期,k为目标卫星到达预测位置所经过的决策阶段数。

上述方法中,以目标卫星x轴坐标变化拟合曲线为例,利用如下多项式曲线拟合公式,获得目标卫星x轴坐标变化拟合曲线fx(t):

其中,m为用于曲线拟合的历史采样点数量,s为多项式拟合曲线最大次数,[a0a1…as]t为拟合曲线的系数矩阵;

联立下式,求解获得拟合曲线的系数矩阵:

其中,xi为对应时刻卫星x轴坐标位置,i为拟合误差平方和,ti为第i个采样时间点。

上述方法中,所述依据多卫星围捕任务与目标卫星的预测位置,获得多卫星围捕问题的非合作博弈模型,包括:

利用下式获得n(n≥3)个追捕卫星中第i个追捕卫星ni的策略集si:

其中,d为结合栅格环境确定的追捕卫星速度方向,v为速度大小,d为策略总数,为追捕卫星ni的一种策略;

追捕卫星ni速度方向受到约束cid:

其中,d0为追捕卫星ni当前运动方向,为追捕卫星ni当前不可选择的速度方向;

追捕卫星ni速度大小受到约束civ:

其中,γ为预设速度阈值,vi,0追捕卫星ni当前速度值,为追捕卫星ni当前不可选择的速度值;

追捕卫星ni的每一决策阶段可行策略集满足关系式:

设计追捕卫星ni的博弈支付函数为ii:

ω1+ω2+ω3+ω4=1

其中,ω1,ω2,ω3,ω4支付函数权重系数,为支付分项,dsafe卫星间防碰撞距离,di,j为追捕卫星ni与nj间的距离,ε为预设常数,dteam,goal为追捕卫星团队几何中心与目标卫星的距离,di,goal为追捕卫星i与目标卫星的距离,d′i,goal为与目标卫星预测位置的距离;

将各追捕卫星作为博弈局中人,依据所述追捕卫星策略集和博弈支付函数,对应确定博弈要素局中人、策略集、支付,完成多卫星追捕问题的博弈模型建立,获得多卫星围捕问题的非合作博弈模型。

上述方法中,所述依据所述多卫星围捕问题的非合作博弈模型,求解博弈纯纳什均衡解,获得多卫星围捕策略,包括:

结合博弈支付函数,对各追捕卫星的可行策略进行组合,构建支付矩阵a:

其中,ii,j为在组合策略j下,追捕卫星ni的支付值,j为组合策略的简化数值标识,di为追捕卫星ni可行策略数量,u为所有追捕卫星的可行策略组合总数;

依据支付矩阵,求解博弈纯纳什均衡解,满足:

其中,为各追捕卫星选择的围捕策略,为追捕卫星ni的除外的任一可行策略;若博弈纯纳什均衡解不唯一,引入追捕卫星支付总和作为附加准则,确定唯一解,满足:

其中,q为求得的第q个博弈纯纳什均衡解;

若博弈纯纳什均衡解不存在,利用如下的max-min法选取各追捕卫星的围捕策略:

其中,[s10,…,si0,…,sn0]为各追捕卫星的对应决策阶段采取的围捕策略,为追捕卫星ni的可行策略。

由以上技术方案可以看出,本发明实施例具有以下有益效果:

本发明实施例的技术方案中,依据目标卫星的历史位置信息,拟合目标卫星的运动轨迹,获得目标卫星的预测位置,进而依据多卫星围捕任务与目标卫星的预测位置,建立多卫星围捕问题的非合作博弈模型,通过求解博弈模型获得追捕卫星的围捕策略,实现追捕卫星运动协调,提高多卫星围捕任务完成效率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性和劳动性的前提下,还可以根据这些附图获得其它附图。

图1是本发明实施例所提供的基于运动预测的多卫星博弈围捕策略的流程示意图;

图2是本发明实施例所提供的围捕任务场景三维栅格划分示意图;

图3是本发明实施例所提供的追捕卫星策略集示意图;

图4是利用本发明实施例所提供的策略完成追捕卫星围捕目标卫星的运动轨迹图,图(a)是3个追捕卫星时的围捕轨迹,图(b)是4个追捕卫星时的围捕轨迹;

图5是引入目标卫星运动预测的博弈围捕策略与未引入运动预测的博弈围捕策略的20次实验结果对比图,图(a)是3个追捕卫星时的结果对比图,图(b)是4个追捕卫星时的结果对比图。

【具体实施方式】

为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例给出一种多卫星博弈围捕策略,请参考图1,本发明实施例所提供的基于运动预测的多卫星博弈围捕策略的流程示意图,如图1所示,该方法包括以下步骤:

步骤1,依据目标卫星的历史位置信息,拟合目标卫星的运动轨迹,获得目标卫星的预测位置。

具体的,首先结合最小二乘法理论,利用目标卫星的m个历史采样点坐标位置信息pm={(xk-m+1,yk-m+1,zk-m+1),…,(xk,yk,zk)}进行目标卫星的运动轨迹的曲线拟合。以目标卫星x轴坐标变化拟合曲线(x,t)=fx(t)为例,进行说明:

用s次多项式进行拟合:

其中,m为用于曲线拟合的历史采样点数量,ti为第i个采样时间点,[a0a1…as]t为拟合曲线的系数矩阵。根据最小二乘法拟合曲线历史数据点拟合误差σi=fx(ti)-xi的平方和最小原则,有:

其中,为了求得使i最小的系数矩阵[a0a1…as]t,需满足如下的多元函数求极值的必要条件:

整理可得:

通过求解上式,获得拟合曲线的系数矩阵,完成目标卫星x轴坐标变化曲线拟合。在完成目标卫星x,y,z轴坐标变化曲线拟合的基础上,获取目标卫星的预测位置为:

[xyz]=[fx(t+kt)fy(t+kt)fz(t+kt)]

其中,t为采样周期,x,y,z为预测的目标卫星在围捕空间中的坐标,t为时间,k为目标卫星到达预测位置所经过的决策阶段数。

步骤2,依据多卫星围捕任务与目标卫星的预测位置,获得多卫星围捕问题的非合作博弈模型,包括:

将多卫星围捕问题视为连续多个决策阶段,选择每一阶段各追捕卫星的运动策略,以完成对目标卫星的围捕任务。针对每一阶段的决策,完成非合作博弈模型的建立,实现方法如下:

1)构建追捕卫星可行策略集

首先构建n(n≥3)个追捕卫星中第i个追捕卫星ni的策略集,结合如图2所示的三维栅格环境,得到如图3所示的追捕卫星ni的策略集si:

其中,d为追捕卫星速度方向,v为速度大小,为追捕卫星ni的一种策略;结合运动约束对追捕卫星的策略集进行更新,最终得到追捕卫星ni的可行策略集针对每一阶段,追捕卫星ni的运动受到速度方向的约束:

其中,d0为追捕卫星ni当前运动方向,为追捕卫星ni当前不可选择的速度方向。

速度大小满足约束:

其中,γ为预设速度阈值,追捕卫星ni当前不可选择的速度值。追捕卫星ni的每一决策阶段可行策略集满足关系式:

2)设计博弈支付函数

围捕过程中,追捕卫星每一阶段执行策略s1,…,si,…,sn后,形成局势ω,设计博弈支付函数ii对此时追捕卫星ni的策略si进行评估。

设计追捕卫星ni与目标卫星距离支付分项

其中,dsafe卫星间防碰撞距离,di,goal为追捕卫星i与目标卫星当前位置的距离。该分项作用下,追捕卫星可以实现缩短与目标卫星间的距离,同时避免发生碰撞。

设计追捕卫星ni与其余追捕卫星距离支付分项

其中,di,j为追捕卫星ni与nj之间的距离。该分项作用下,可以避免各追捕卫星之间的相互碰撞。

设计追捕卫星团队分布支付分项

其中,dteam,goal为追捕卫星团队几何中心与目标卫星间的距离,ε为预设常数。该分项作用下,实现各追捕卫星对目标卫星的有效包围。

设计基于预测目标位置围捕支付分项

其中,d′i,goal为与目标卫星预测位置[xyz]的距离。该分项作用下,追捕卫星向目标卫星预测位置间接近,实现对目标卫星的围堵。

综合上述各支付分析,完成博弈支付函数设计,得到各追捕卫星的支付函数为:

其中,ω1,ω2,ω3,ω4支付函数权重系数,通过调节权重系数组合,可以改变各项支付的影响程度,以达到围捕所需要的理想效果。

将各追捕卫星作为博弈局中人,依据所述追捕卫星策略集和博弈支付函数,确定博弈要素局中人、策略集、支付,完成多卫星追捕问题的博弈模型建立,获得多卫星围捕问题的非合作博弈模型。

步骤3,依据所述多卫星围捕问题的非合作博弈模型,求解博弈纯纳什均衡解,获得多卫星围捕策略,包括:

1)构建博弈支付矩阵

针对多卫星围捕的每一阶段,利用博弈支付函数对追捕卫星可能采取的所有策略组合进行评估,得到支付矩阵:

其中,ii,j为在组合策略j下,追捕卫星ni的支付值,j为组合策略的简化数值标识,di为追捕卫星ni可行策略数量,u为所有追捕卫星的可行策略组合总数,支付矩阵第i列表示追捕卫星i在不同策略组合下的支付值。

2)博弈求解

具体的,利用式:

其中,表示追捕卫星ni在其余追捕卫星不同策略组合下可以获得最大支付值对应的策略组合的集合。

对于n个追捕卫星的围捕任务,其纯纳什均衡解为:

纯纳什均衡解满足:

若求解得到的纯纳什均衡解存在且唯一,则对应策略为各追捕卫星对应阶段的围捕策略;若博弈纯纳什均衡解不唯一,引入追捕卫星支付总和作为附加准则,确定唯一解,满足:

其中,q为求得的第q个博弈纯纳什均衡解;

若纯纳什均衡解不存在,则利用max-min法选取各追捕卫星的围捕策略,各追捕卫星避免采取其他追捕卫星策略组合可能使自己获得最差支付的策略,具体策略选择满足:

其中,[s10…si0…sn0]为各追捕卫星的对应阶段采取的围捕策略;

重复上述步骤1),2)求解博弈围捕过程中每一阶段追捕卫星的围捕策略,直至围捕结束,完成多卫星围捕任务。

依据本发明实施例提供的上述方法,对多卫星围捕过程进行了仿真,分别针对3个追捕卫星、4个追捕卫星在平面内围捕1个目标卫星的围捕过程中的追捕卫星的围捕策略开展仿真实验研究,并设计实验对比引入目标卫星运动预测的博弈围捕策略与未引入运动预测的博弈围捕策略,以验证本发明能有效完成多卫星围捕任务,并提高围捕效率。

请参考图4的多卫星围捕任务,各追捕卫星与目标卫星每次运动仅可移动一个栅格,设置卫星的防碰撞距离为3个栅格长度,当追捕卫星与目标卫星最短距离小于等于捕获距离5个栅格长度时,追捕卫星完成围捕。

请参考图(a),其为3个追捕卫星围捕目标卫星的运动轨迹图。各追捕卫星开始围捕时位于初始位置:

目标卫星位于初始位置:

e=[5050]

图中,各粗实线为对应追捕卫星的运动轨迹,细实线为目标卫星针对追捕卫星运动采取主动逃逸策略下的运动轨迹,实验结果表明各追捕卫星实现了对目标卫星的有效围捕。

请参考图(b),其为4个追捕卫星围捕目标卫星的运动轨迹图。各追捕卫星开始围捕时位于初始位置:

目标卫星位于初始位置:

e=[5050]

图中,各粗实线为对应追捕卫星的运动轨迹,细实线为目标卫星针对追捕卫星运动采取主动逃逸策略下的运动轨迹,实验结果表明各追捕卫星实现了对目标卫星的有效围捕。

请参考图5,其为使用引入目标卫星运动预测的博弈围捕策略与未引入运动预测的博弈围捕策略进行围捕的20次实验结果对比图。请参考图(a),其为3个追捕卫星围捕目标卫星时的对比实验结果,虚线为采用未引入运动预测的博弈围捕策略完成博弈围捕的总步长,实线为采用引入目标卫星运动预测的博弈围捕策略完成博弈围捕的总步长。请参考图(b),其为4个追捕卫星围捕目标卫星策略对比实验结果,虚线为采用未引入运动预测的博弈围捕策略完成博弈围捕的总步长,实线为采用引入目标卫星运动预测的博弈围捕策略完成博弈围捕的总步长,使用本发明实施例提供的上述策略,3个追捕卫星完成博弈围捕所需的平均博弈次数减少28.9%,4个追捕卫星完成博弈围捕所需的平均博弈次数减少32.6%,完成博弈围捕的效率明显得到提高。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1