面向航陆联合运输任务的载机路径在线规划方法

文档序号:42352780发布日期:2025-07-04 17:14阅读:31来源:国知局

本发明涉及路线规划,特别涉及面向航陆联合运输任务的载机路径在线规划方法。


背景技术:

1、随着低空经济和智能物联的快速发展,货物运输的时效性和经济性指标愈发重要。在此背景下,一种由载机投放,采用持续动力、大升阻比和大内舱总体设计的无人航空运输器应运而生。相比传统固定翼无人机,这种航空器速度更快、飞行更远、载重更大。若一架载机能够同时携带多架航空运输器,则能够在一次起飞后完成多项运输任务,若进一步结合陆运手段,则能够实现航陆运输互补,运输更多样式的货物,大幅降低成本并提高效率。

2、目前针对载机的多目标投放任务规划问题,现有技术首先通过效能评估给出投放方案对应的效能指标,包括层次分析法、模糊评判法等,但是这个过程受人为主观因素影响较大,并且这种方法求解效率有限,从而导致路径规划准确率和效率低,并不适合在线规划。然后利用非线性规划算法求解最优投放策略,而线性规划算法对实际任务干扰和突发状况应对不足,如投放干扰、突发天气、探测干扰等,从而导致获得最优规划路线的准确率低,而神经网络模型在解决这类问题时容易陷入局部最优,导致难以获得最优规划路径。


技术实现思路

1、本发明目的是为了解决现有载机路径规划方法还存在规划准确率和效率低的问题,而提出了面向航陆联合运输任务的载机路径在线规划方法。

2、面向航陆联合运输任务的载机路径在线规划方法,具体为:

3、s1、获取当前航路点的状态,将当前航路点的状态输入到优化后的强化学习网络中,获得当前航路点的决策变量;

4、所述航路点的状态包括:当前航路点的标号、剩余航空运输器数量、当前航路点的空管限制、当前航路点的投放难度、当前航路点的气象条件、当前航路点的通信条件、剩余航程、历史投放航路点;

5、所述强化学习网络包括:分类智能体、排序智能体;

6、所述分类智能体用于将航路点设置为二级航路点或三级航路点,同时决定是否从n级航路点a前往n+1级航路点b;

7、所述排序智能机用于确定载机路过二级航路点的顺序;

8、所述航路点的决策变量为0或1;决策变量为0表示不选择从航路点a到航路点b;所述决策变量为1表示选择从航路点a到航路点b;

9、其中,n取1或2;

10、其中,1级航路点为载机起点,2级航路点为载机投放目标点,3级航路点为载机不路过的航路点;

11、s2、根据所有航路点的决策变量确定载机规划路径。

12、进一步地,所述优化后的强化学习网络,通过以下方式获得:

13、步骤一、建立载机投放点优化模型,具体为:

14、min j=j1+j2+j3

15、其中,j1是载机在航路点处受到的空中管制,j2是汽车的行驶距离,j3是载机的总航程,j为总优化指标。

16、步骤二、基于载机投放点优化模型训练多智能体强化学习网络直到多智能体强化学习网络收敛,获得优化后的强化学习网络。

17、进一步地,所述载机在航路点处受到的空中管制j1如下:

18、

19、其中,n是航路点的级别标号,n是航路点级别总数,mn是n级航路点的数量,fn∈[0,1],fn是载机在n级航路点处受到的限制;

20、所述fn的值为当前所受限制的打分值;所述当前所受限制为飞行时间区间,飞行高度,飞行范围或飞行速度;

21、当受到限制为飞行时间区间时,fn值越大表示飞行时间区间越小;当受到限制为飞行高度时,fn值越大表示飞行高度范围越小;当受到限制为飞行范围时,fn值越大表示飞行范围越小;当受到限制为飞行速度时,fn值越大表示飞行最高速度值越小;若受到多种限制,则取每种限制打分值的平均值。

22、进一步地,所述汽车的行驶距离j2如下:

23、

24、其中,i,j是航路点的标号,mn是n级航路点的数量,pni,j∈[0,1],pni,j是n级航路点i到n+1级航路点j的汽车运输效能,是n级航路点i到n+1级航路点j的距离,是决策变量;

25、所述汽车运输效能为运输速度或者载货量。

26、进一步地,所述载机的总航程j3如下:

27、

28、其中,un+1,i∈[0,1],un+1,i是n级航路点i的投放难度,表示载机剩余的航空运输器数量;

29、所述投放难度为对于风力大小的打分值,风力越大投放难度值越大。

30、进一步地,所述步骤二中的基于载机投放点优化模型训练多智能体强化学习网络直到多智能体强化学习网络收敛,获得优化后的强化学习网络,具体为:

31、步骤二一、初始化智能体,并为每个智能体随机初始化强化学习网络;

32、步骤二二、为智能体设置初始状态;

33、状态集合s中包括:当前航路点的标号、剩余航空运输器数量、当前航路点的空管限制、当前航路点的投放难度、当前航路点的投放难度、当前航路点的通信条件、剩余航程、历史投放航路点;

34、步骤二三、为每个智能体选择并执行动作,然后计算状态-动作值函数q(s,a);

35、步骤二四、智能体按照kl-散度根据状态、动作、奖励和新状态训练强化学习网络直到强化学习网络收敛,获取最优强化学习网络参数和最优策略,获得训练好的强化学习网络。

36、进一步地,所述状态-动作值函数q(sj',aj'),具体为:

37、q(sj',aj')=ε[r(sj',aj')|st=sj',at=aj']

38、其中,q(sj',aj')是状态sj'下动作aj'的状态-动作值函数,r(sj',aj')是状态sj'下执行动作aj'的奖励,sj'是第j'步迭代的联合状态,aj'是第j'步迭代的动作,st是时间t智能体的状态,at是时间t智能体的动作。

39、进一步地,所述步骤二四中的智能体按照kl-散度根据状态、动作、奖励和新状态训练强化学习网络,采用如下目标函数:

40、

41、r(sj',aj')=j

42、其中,kh为超参数,n'为智能体总数,h表示熵,πi'为智能体i'的当前策略,h(πi'(·|sj'))是智能体状态为sj'时的策略熵,ζj'是第j'步迭代的折扣系数,π是智能体策略集合,j(π(·|sj'))是目标函数,a是智能体动作集合。

43、进一步地,智能体的策略采用如下公式更新:

44、

45、其中,dkl为kl-散度,πj'+1是第j'+1步的策略,i'p是智能体排序序列中智能体i'的具体序号,q表示状态-动作值函数,z是配分函数,是状态sj'下序号为i'p的智能体的策略,是除动作外其他所有动作的集合,是序号为i'p的智能体的动作。

46、进一步地,所述强化学习网络收敛的条件如下:

47、

48、其中,是除智能体i'外其他智能体的最优策略,πi'是智能体i'的最优策略,是智能体i'采取策略πi'其他智能体采取对应最优策略时的联合目标函数,a-i'是动作空间中除动作ai'外的其他所有动作集,bi'是超参数,ai'是智能体i'的动作集合。

49、本发明的有益效果为:

50、本发明提出了一种面向航空运输器投放任务的载机路径在线规划方法,本发明建立面向多枚航空运输器投放任务的载机投放点优化模型,基于载机投放点优化模型结合最大熵改进的多智能体强化学习算法,实现载机从任意机场出发,对所有地面目标投放航空运输器,完成最优投放点在线规划。本发明在建立载机投放点优化模型时考虑了空管因素、距离因素和航程因素,并且将目标划分为二级航路点和三级航路点,兼顾航空运输器和汽车的联合运输优势,使载机一次执行多个投放任务,从而提高了运输效能和最优规划路线的准确率。本法发明基于最大熵改进的多智能体强化学习算法实现了有载机路径规划,提升了规划效率,同时避免了陷入局部最优解,从而能够获得最优规划路线。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1