一种基于MA3C算法的无人机协同任务规划方法

文档序号:35990548发布日期:2023-11-15 23:07阅读:78来源:国知局
一种基于MA3C算法的无人机协同任务规划方法

本发明属于无人机任务规划领域,涉及一种基于ma3c算法的无人机协同任务规划方法。


背景技术:

1、无人机任务的精准可靠执行依赖于合理高效的任务规划策略,需根据无人机所感知的环境信息、任务需求和机上任务载荷等多类约束条件,对任务要素进行综合分析,优化调度及部署多种资源,确定无人机任务分配及航迹规划策略,确保无人机以最佳方式完成任务;

2、随着无人机任务执行环境动态变化、任务需求复杂多样化,而单一无人机受到功能类型、机上载荷、飞行能力、电池电量等多因素的限制,其任务执行能力严重受限,多机协同技术通过单机间的密切协作,协同完成任务调度,可显著有效提升无人机任务执行能力,提高系统安全性、可靠性,已成为无人机应用发展的趋势。

3、目前,对无人机协同任务规划问题进行研究包括:针对水下目标搜索和跟踪任务规划问题,将其建模为搜索空间最大化和终端误差最小化问题,通联合求解优化问题确定任务规划策略;又如,考虑灾难救援场景的多机任务执行场景,建模无人机路径规划问题为车辆路径变种问题,以实现路径长度最小化;然而,现有研究较少考虑面向多任务场景的任务分配、子任务之间存在关联关系问题,导致现有机制难以高效应用。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于ma3c算法的无人机协同任务规划方法,解决无人机在执行多任务场景的任务分配、子任务之间存在关联关系低,导致现有机制难以高效应用的技术问题。

2、为达到上述目的,本发明提供如下技术方案:

3、一种基于ma3c算法的无人机协同任务规划方法,该方法包括以下步骤:

4、s1:建立无人机模型,包括任务资源模型和无人机任务能力模型;

5、s2:建立任务模型,包括独立任务模型和组合任务模型,采用有向无环图dag描述组合任务模型中各子任务之间关系;

6、s3:建模任务分配变量;

7、s4:建模任务效用函数;

8、s5:建模无人机协同任务规划约束条件,包括任务约束条件建模和无人机约束条件建模;

9、所述任务约束条件建模包括:任务分配约束条件建模、任务执行约束条件建模和任务完成时间约束条件建模;

10、所述无人机约束条件建模包括:无人机性能约束条件建模和无人机安全约束条件建模;

11、所述无人机性能约束条件建模包括:无人机能量约束建模和无人机任务资源约束建模;

12、所述无人机安全约束条件建模包括:无人机飞行距离约束建模、无人机安全约束建模和无人机禁飞区约束建模;

13、s6:根据任务资源可用性、任务的时效性和无人机能耗限制确定无人机候选任务选择策略;

14、s7:建模系统在时隙的状态、动作和奖励;

15、s8:建模并训练ma3c算法;

16、s9:基于ma3c算法确定无人机协同任务分配及轨迹规划策略。

17、进一步的,所述s1中,建立无人机模型,具体包括:n个无人机,定义un为第n架无人机,1≤n≤n;将系统时间划分为长度相等的时隙,定义t为时隙总数,τ为每个时隙长度;无人机飞行高度固定为h,定义t时隙un的二维坐标为

18、无人机从初始位置出发执行任务,能量耗尽前返回目的地,无人机的最大速度为vmax;令表示un在时隙t的飞行方向,vn,t∈[0,vmax]表示un在时隙t的飞行速度;un在时隙t+1的二维位置投影为:令表示初始时刻un的能量;无人机执行任务需消耗一定资源,令y表示执行任务所需资源类型的数量,表示初始时刻un所携带的第y种类型资源的资源量,1≤y≤y。

19、进一步的,所述s2中,建立任务模型,具体包括:系统中包含m个任务,定义θm为第m个任务,1≤m≤m,由四元组表示,其中sm=[sm,1,...,sm,y]t表示完全执行θm所需要任务资源,sm,y表示执行θm所需要的第y种类型资源的资源量;rm为无人机完全执行θm可获得的收益;表示任务执行的截止时间;任务类型包括独立任务及组合任务;

20、独立任务无法拆分为子任务,仅当整个任务被完全执行时,才能获得相应的收益;

21、组合任务由多个可独立执行的子任务组成,km表示θm的子任务数量,θm,i表示θm的第i个子任务,1≤i≤km;

22、若θm为独立任务,则km=1,θm=θm,i;

23、若θm为组合任务,则km>1;子任务θm,i建模为二元组表示,其中sm,i=[sm,i,1,...,sm,i,y,...sm,i,y]t表示θm,i所需要任务资源,sm,i,y表示执行θm,i所需要的第y种类型资源的资源量,rm,i为完全执行θm,i可以获得的收益;θm的二维坐标表示为qm=[xm,ym]t;

24、采用有向无环图dag描述组合任务各子任务之间关系;令gm=(vm,em,wm)表示组合任务θm的dag,其中,vm={θm,i}表示节点集合;em={em,i,j|1≤i≠j≤km}表示子任务之间的关联关系集合,em,i,j表示连接组合任务θm的子任务θm,i与θm,j的边;wm={ωm,i,j}表示子任务之间的关联关系权重集合,其中,ωm,i,j∈{0,1}表示组合任务θm的子任务θm,i与θm,j之间的关联关系,ωm,i,j=1表示子任务θm,i与子任务θm,j之间存在直接的依赖关系,即子任务θm,j需要在子任务θm,i执行完成之后执行,否则,ωm,i,j=0。

25、进一步的,所述s3中,建模任务分配变量模型,具体包括:令αn,m,i,t∈{0,1}表示无人机任务分配变量;

26、若αn,m,i,t=1,则表示un在时隙t执行子任务θm,i,否则,αn,m,i,t=0,1≤n≤n,1≤m≤m,1≤i≤km,0≤t≤t。

27、进一步的,所述s4中,建模任务效用函数模型,具体包括:

28、时隙t任务效用函数,表示为:

29、

30、其中,ε1和ε2分别为任务收益和无人机能耗的权重系数,表示任务执行收益,表示时隙t无人机消耗的能量;

31、将进行建模,表示为:

32、

33、其中,βm,i,t={0,1}表示任务执行标识,βm,i,t=1表示无人机在时隙t执行θm,i,否则,βm,i,t=0;1{x}表示指示函数,若逻辑表达式{x}为真,则1{x}=1,否则1{x}=0;

34、将进行建模,表示为:

35、

36、

37、其中,en,t表示第t个时隙un消耗的能量,表示第t个时隙un消耗的飞行能量,表示第t个时隙un执行任务消耗的能量;

38、将进行建模,表示为:

39、

40、其中p0和p0′为常数,utip为转子叶片的叶尖速度,v0为无人机悬停时平均转子诱导速度,ξd和ξr分别为机身阻力比和转子可靠性,ρair和sr分别为空气密度和转子盘面积;

41、将进行建模,表示为:

42、

43、其中,表示un执行使用第y种资源所消耗的基本能量。

44、进一步的,所述s5中,建立无人机协同任务规划约束条件模型,具体包括:

45、对任务分配约束条件进行建模,表示为:

46、

47、

48、

49、其中,表示子任务的无人机协同变量;

50、若则否则,

51、对任务执行约束条件进行建模,表示为:

52、

53、其中,表示子任务θm,i开始执行的时间;

54、对任务完成时间约束条件进行建模,表示为:

55、

56、对无人机能量约束条件进行建模,表示为:

57、

58、

59、其中,表示第t个时隙un的剩余可用能量,eth表示无人机剩余能量门限阈值;

60、对无人机资源约束进行建模,表示为:

61、

62、

63、

64、其中,表示第t个时隙un剩余的第y种资源的资源量,sm,i,y,t表示第t个时隙子任务θm,i还需的第y种资源的资源量,表示un在一个时隙消耗的第y种资源量;

65、对无人机飞行距离约束进行建模,表示为:

66、

67、其中,表示无人机un的最大飞行速度;

68、对无人机安全约束进行建模,表示为:

69、

70、其中,表示无人机之间最小的安全距离;

71、对无人机禁飞区约束建模,表示为:

72、

73、其中,γ是包含威胁的区域中的所有点的集合。

74、进一步的,所述s6中,根据任务资源可用性、任务的时效性和无人机能耗限制确定无人机候选任务选择策略,具体为:

75、令φn表示无人机un的候选任务集合,初始化为

76、任务资源可用性的条件为:根据无人机携带资源及任务所需资源要求判断无人机是否满足资源可用性条件,若无人机un从初始位置出发仅执行子任务θm,i,若则un可满足子任务θm,i资源可用性条件;

77、任务的时效性的条件为:根据无人机任务执行时间及任务截止时间要求判断无人机是否满足任务时效性条件,若无人机un从初始位置出发仅执行子任务θm,i,计算所需时间,记为若则un可满足子任务θm,i时效性条件;

78、无人机能耗限制的条件为:根据无人机可用能量及执行任务所需能耗,判断无人机是否满足任务能耗限制,若无人机un从初始位置出发仅执行子任务θm,i并回到目的地,计算un对应能耗,记为若则un满足子任务θm,i能耗限制条件;

79、若无人机un同时满足子任务θm,i的时限及能耗限制,则子任务θm,i为无人机un的候选任务,更新un的候选任务集合为φn=φn∪{θm,i}。

80、进一步的,所述s7中,对系统在时隙t的状态空间建模,表示为:

81、

82、其中,为无人机位置集合,为无人机剩余可用能量集合,表示无人机资源的集合,jt={βm,i,t}表示任务执行标识的集合;

83、对系统在时隙t的联合动作空间建模,表示为:

84、at={a1,t,...,an,t,...,an,t}   (21)

85、其中,表示t时隙un的动作空间,包含飞行速度,飞行方向和任务分配变量;

86、对系统在时隙t的激励建模,表示为:

87、rt=ut   (22)。

88、进一步的,所述s8中,建模并训练ma3c算法,具体包括:

89、将n个无人机视为n个智能体,并为每个智能体构建演员网络和评论家网络,用参数θ和θv初始化全局演员网络和全局评论家网络,用参数θ′和θv′初始化演员网络和评论家网络,同步参数θ′=θ、θv′=θv;各智能体演员网络根据环境当前状态st、网络参数θ′及策略π(at|st;θ)选择动作at,得到状态st的价值v(st;θv)及即时奖励rt,并转移至下一状态st+1;

90、利用损失函数更新演员网络,表示为:

91、fπ(θ)=logπ(at|st;θ)a(st,at)+ch(π(st,θ))   (23)

92、

93、其中,a(st,at)为优势函数用于评价当前状态动作对的优势,h(π(st,θ))为策略交叉熵,c为熵系数,用于控制熵的正则化强度;

94、利用损失函数更新评论家网络,表示为:

95、fv(θ)=a(st,at)2   (25)

96、在累积梯度的基础上更新演员网络和评论家网络的参数,表示为:

97、

98、

99、更新全局演员网络参数和全局评论家网络参数,表示为:

100、

101、

102、其中,η是学习率,ε为一个很小的正数,估计坡度g=αg+(1-α)δθ2,α为一个动量;估计坡度

103、进一步的,所述s9中,基于ma3c算法确定无人机协同任务分配及轨迹规划策略,具体包括:

104、在满足任务关联、任务分配以及无人机性能限制条件下,以系统平均激励最大化为目标,优化确定无人机协同任务分配及轨迹规划策略,即:

105、

106、其中,和分别是最优任务分配策略和轨迹规划策略。

107、本发明的有益效果在于:

108、本发明针对包含多个异构无人机、多个任务的场景,任务类型包括独立任务及组合任务,独立任务无法拆分为子任务,组合任务由多个可独立执行的子任务组成,各子任务存在一定的关联关系,建模平均效用函数最大化为优化目标,实现任务分配、无人机轨迹规划的联合优化,从而实现无人机协同任务规划的高效应用。

109、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1