基于深度强化学习的无人机协同集群通信覆盖方法

文档序号:36722074发布日期:2024-01-16 12:25阅读:32来源:国知局
基于深度强化学习的无人机协同集群通信覆盖方法

本发明公开涉及无人机的智能协同,尤其涉及基于深度强化学习的无人机协同集群通信覆盖方法。


背景技术:

1、随着无人机技术的发展,有关自主无人机协同集群的研究也受到了更多关注。无人机之间相互协同能够发挥出单无人机所不具有的优势,更加适合复杂、多任务等场景下的工作。目前,比较流行的深度强化学习框架,已经被证明可以来解决多智能体的控制问题。


技术实现思路

1、鉴于此,本发明公开提供了基于深度强化学习的无人机协同集群通信覆盖方法,以实现自主无人机协同集群通信覆盖的目标。

2、本发明提供的技术方案,具体为:基于深度强化学习的无人机协同集群通信覆盖方法,包括如下步骤:

3、s1:对无人机集群的通信覆盖任务进行建模,得到无人机集群的运动学模型、覆盖率模型、公平因子、避碰因子及能耗模型;

4、s2:对无人机集群的通信覆盖问题进行部分马尔科夫决策过程建模;

5、s3:无人机集群通过能效函数、多智能体深度强化方法进行自主训练,得到无人机集群的通信覆盖模型;其中actor网络学习集群通信覆盖策略,critic网络评价学习效果并引导无人机之间协同完成任务;

6、s4:依据无人机集群的通信覆盖模型,合理的部署与控制无人集群;

7、s5:采用栈方式的深度优先搜索算法来检验无人机在执行任务过程中的链路连通性;

8、s6:通过覆盖矩阵得到各个子集群无人机的通信覆盖状态。

9、具体地,所述无人机集群的运动学模型中考虑无人机作为一个质点模型,其中无人机的速度是由法向加速度和切向加速度决定,在时刻t无人机飞行时与坐标x轴形成的夹角为α,由次可以得出,无人机质点运动方程如下:

10、

11、

12、

13、xt+1=xt+vx*t,yt+1=yt+vy*t;

14、其中分别代表了在t时刻,速度在x轴和y轴方向上的分量;ζ代表的是无人机飞行时速度的阻尼系数,an代表了法向加速度,与速度的方向垂直,负责用来改变速度的方向;aτ代表了切向加速度,与速度的方向一致,负责用来改变速度的大小;xt,yt分别表示为无人机在t时刻的位置坐标。

15、具体地,所述覆盖率模型:

16、定义覆盖矩阵c,cj表示的是第j个子集群的覆盖矩阵的大小,无人机的覆盖矩阵公式如下:

17、

18、当ckl=0时代表该单元没有被覆盖,当ckl=1时代表该板块(k,l)至少被一个无人机覆盖;表示的是任意子集群中的第i个无人机的覆盖情况,且

19、整个无人机集群网络在t时刻的覆盖率公式如下:

20、

21、其中表示了整个集群网络的覆盖率即各个子集群的覆盖面积与总目标区域的比值;取值范围是[0,1]。

22、具体地,所述公平因子、避碰因子及能耗模型:

23、引用jains指数作为公平因子,具体的公式如下:

24、

25、fi(kl,t)表示了无人机在时刻t内对目标区域中的focus的覆盖公平性,fi的取值范围为[0,1];

26、无人机之间的碰撞函数,具体的公式如下:

27、

28、其中dij代表的是任意两个无人机i和j之间的欧式距离,dsafe代表的是无人机之间的安全距离,ddanger代表的是两个无人机即将发生碰撞的临界距离,rcollision表示的是两个无人机之间发生碰到而受到的惩罚值,w1,w2均为设置的权重系数,这里w2>w1且w1+w2=1,此外λ为设置的固定值即为常数;

29、避碰因子的公式如下:

30、

31、在每个时刻t内避碰因子的取值为[0,1],当υt=0时即说明无人机之间发生了碰撞,反之则无人机之间是安全飞行的。

32、无人机在t时刻的状态定义如下公式:

33、

34、当st=0时代表无人机处于空闲状态,还未进行起飞的动作,st=1时代表无人机当前时刻处于飞行状态,当st=2代表无人机当前处于悬停状态;

35、任意子集群中的无人机的能量消耗公式如下:

36、ei=ehover+efly+ecom

37、ei表示了无人机i在覆盖任务过程中的能耗。关于ehover即无人机在悬停时的功率公式具体如下:

38、

39、其中g代表的是重力加速度,mtot代表的是无人机总质量,r代表的是无人机螺旋桨的半径长度,n代表的是螺旋桨的数量,ρ代表的是空气密度;无人机移动时的功率公式表示如下:

40、

41、pmax和pidle分别是无人机以最大速度移动以及无人机处于空闲状态时的硬件功率。vmax是无人机的最大飞行速度;

42、因此,无人机在时刻t的能量消耗公式进一步可以表示为:

43、ei=(phover+pmove+pcom)*t

44、pcom代表是fuav与luav之间通信的功率,规定无人机在通信时无论是移动还是悬停状态,通信功率始终是恒定的;整个无人机集群网络的能耗公式如下:

45、

46、具体地,s3中能效函数为:将无人机对应为智能体,给定对应的状态空间、动作空间和奖励函数设定如下:

47、所述状态空间函数:在t时刻无人机的状态空间st由四部分组成:

48、代表当前第k行l列focus的覆盖情况,若代表当前focus被覆盖,否则代表没有被覆盖;

49、是当前时刻t内子集群j的覆盖率;

50、是在t时刻无人机i的飞行速度;

51、是在t时刻无人机i的能量消耗;

52、无人机的联合状态空间被定义为它的基数是(nx+ny+m+2n);

53、动作空间:在t时刻无人机的动作空间at由两部分组成:

54、分别是是无人机i在t时刻的飞行方向;

55、是无人机i在t时刻的飞行距离;

56、如果代表了无人机在当前位置是悬停状态,否则代表无人机飞到了如果意味着无人机飞到了最大的距离dmax;可得无人机的动作空间它的基数是2n;

57、奖励函数:在t时刻无人机i的奖励函数定义如下:

58、

59、其中,fi(kl,t)是当前时刻t内无人机覆盖板块ckl的公平指数,是当前时刻t内的增量覆盖,是当前时刻t内的增量能耗,υt是当前时刻t内无人机的避碰因子,υt=1。

60、具体地,s3中,在子集群内的无人机采用的是联合策略π=(π1,π1,…,πn)与环境进行交互;critic网络的输入为:在t时刻,该子集群内所有无人机的联合动作值和联合状态观察值

61、无人机通过critic网络的输入方式,够获知该子集群内其他无人机的状态和执行的动作,并据此进行下一时刻动作的选择,实现与其他无人机协作共同完成区域覆盖任务。

62、具体地,s5中无人机的链路连通性的邻接矩阵的表示公式如下:

63、

64、本发明提供了基于深度强化学习的无人机协同集群通信覆盖方法,通过在训练阶段给定控制输入,训练完成后得到符合要求的控制策略,最终在测试和应用阶段即可将得到的控制策略应用到无人机。该方法无需进行大量复杂的集群系统建模,具有一定优势。

65、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明的公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1