一种低开销分布式的平均场强化学习无人机集群调度方法

文档序号:37280246发布日期:2024-03-12 21:18阅读:13来源:国知局
一种低开销分布式的平均场强化学习无人机集群调度方法

本发明涉及物联网通信,特别是涉及一种低开销分布式的平均场强化学习无人机集群调度方法。


背景技术:

1、无人机辅助通信,具有成本低且能够快速部署特点。与地面基站相比,无人机具有高机动性、灵活性和可操纵性等优点,用于各种应用,如数据收集、网络拓扑构建、能量收集等,可以作为空中基站(bs)中继,为大量用户补充服务,特别是地对空(g2a)链路的高概率视距(los)信道,地面移动用户设备可以通过无人机中继到bs或远程服务来计算密集型任务,可以获得更好的性能。

2、然而,采用无人机群进行辅助通信时,由于无人机数量上升,会导致无人机之间的通信开销巨幅上升。并且,无线通信的广播质量容易使无人机辅助通信被恶意窃听者窃听。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种低开销分布式的平均场强化学习无人机集群调度方法,能够减少无人机群辅助通信时的通信开销,并且降低无人机与窃听者的通信质量,保证用户通信安全。

2、本发明提供了一种低开销分布式的平均场强化学习无人机集群调度方法,在包括多个无人机、多个用户和多个窃听者的场景中对无人机群进行调度,方法包括以下步骤:

3、基于当前时间帧所有无人机的位置在场景中通过匹配算法获取当前时间帧的所有无人机的服务分配;

4、基于当前时间帧所有无人机的位置计算所有无人机的组队分配;

5、将当前时间帧每一个无人机的环境参数和每一个无人机的服务分配、组队分配输入平均场多智能体深度确定性策略梯度模型,获得当前时间帧所有无人机的调度策略,其中,所述环境参数括包当前时间帧每一个无人机的位置和剩余能量以及每一个用户剩余未被服务的数据量;

6、将每一个无人机的服务分配和所有无人机的调度策略输入无人机集群调度通信无线网络环境模型,每一个无人机接收并执行调度策略,然后进行辅助传输,确定下一时间帧的环境参数;

7、判断所有用户剩余未被服务的数据量是否均等于零,若是,对无人机群的调度结束,否则,返回基于当前时间帧所有无人机的位置在场景中通过匹配算法获取当前时间帧的所有无人机的服务分配步骤。

8、在其中一个实施例中,无人机集群调度通信无线网络环境模型为

9、

10、

11、

12、

13、φn∈[0,2π)   (c4)

14、vn∈[0,vmax]   (c5)

15、

16、

17、

18、

19、式中,u表示每个无人机与地面用户的匹配关系,c表示每个无人机的位置,k表示总的任务执行时间,k表示任务执行中的第k个时刻,rsec[k]表示k时刻系统模型中总的安全速率,m表示地面用户数量,n表示无人机数量,um,n[k]表示k时刻地面用户m与无人机n的匹配关系,等于1表示地面用户m与无人机n建立匹配关系,等于0表示地面用户m与无人机n不建立匹配关系,表示无人机n的俯仰角大小,φn表示无人机n的水平角大小,vn表示无人机n的速度大小,cn[k]表示k时刻无人机n的位置坐标,dmin表示无人机与无人机之间的最小安全距离,表示无人机的起飞位置,表示无人机的降落位置,b表示带宽,rn,m[k]表示k时刻无人机n对用户m的通信速率大小,dm表示第m个用户的通信数据需求量,en[k]表示k时刻无人机n的能耗,emax表示无人机电池最大能量。

20、在其中一个实施例中,基于当前时间帧所有无人机的位置在场景中通过匹配算法获取当前时间帧的所有无人机的服务分配包括:

21、根据当前时间帧所有无人机的位置计算得到每个用户与每一个无人机的偏好关系;

22、每一个用户选择偏好关系最大且不在自身拒绝列表中的无人机发送匹配请求;

23、收到匹配请求的无人机根据匹配请求更新用户请求列表,计算无人机与请求列表中的每个地面用户的偏好关系,接受偏好值最大的地面用户,拒绝其他地面用户的匹配请求并更新拒绝列表;

24、重复执行上述步骤直到匹配结果收敛,获得当前时间帧的所有无人机的服务分配。

25、在其中一个实施例中,基于当前时间帧所有无人机的位置计算所有无人机的组队分配包括:

26、根据当前时间帧所有无人机的位置计算任意两个无人机之间的距离关系;

27、每个无人机选择与自身距离关系最近的多个无人机进行组队,获得所有无人机的组队分配。

28、在其中一个实施例中,调度策略包括无人机的俯仰角增量,水平角增量以及飞行速度增量。

29、在其中一个实施例中,辅助传输是无人机与用户建立视距链路,为用户提供定量通信服务。

30、在其中一个实施例中,确定下一时间帧的环境参数包括:

31、根据每一个无人机的俯仰角增量、水平角增量和飞行速度增量确定每一个无人机的俯仰角、水平角和飞行速度;

32、根据每一个无人机的俯仰角、水平角和飞行速度确定每一个无人机的轨迹变化以及下一时间帧无人机所处位置;

33、根据每一个无人机时刻末所处新位置和当前时间帧的所有无人机的服务分配确定下一时间帧之前累积的已服务的数据量;

34、根据下一时间帧之前累积的已服务的数据量以及用户本身的总需求的数据大小,确定每一个用户在下一时间帧开始时的剩余待服务数据量;

35、计算每一个无人机在当前时间帧的移动距离,根据移动距离以及无人机的悬停状态确定每一个无人机在当前时间帧消耗的能量;

36、根据每一个无人机在当前时间帧消耗的能量计算下一时间帧每一个无人机的剩余能量。

37、本发明的有益效果是:本发明通过平均场多智能体深度确定性策略梯度模型将无人机群中的每个无人机的环境参数进行迭代更新,优化每个无人机的位置实现对每个无人机轨迹的优化以使无人机靠近用户并且远离窃听者,在增强无人机与用户通信服务质量的同时,降低无人机与窃听者的通信质量,保证用户的通信安全。此外,本发明通过计算所有无人机的组队分配,将当前时间帧每一个无人机的环境参数和每一个无人机的服务分配、组队分配输入平均场多智能体深度确定性策略梯度模型中输出每个无人机的调度策略,然后再输入到无人机集群调度通信无线网络模型,对无人机群进行调度,通过分组的方式,将无人机需要的全局状态缩小为组内成员的状态,实现全局状态到局部状态的降低输入维度的功能,减少了全局同步以及无人机群内的通信开销。



技术特征:

1.一种低开销分布式的平均场强化学习无人机集群调度方法,其特征在于,在包括多个无人机、多个用户和多个窃听者的场景中对无人机群进行调度,所述方法包括以下步骤:

2.根据权利要求1所述的低开销分布式的平均场强化学习无人机集群调度方法,其特征在于,所述无人机集群调度通信无线网络环境模型为

3.根据权利要求2所述的低开销分布式的平均场强化学习无人机集群调度方法,其特征在于,基于当前时间帧所有无人机的位置在所述场景中通过匹配算法获取当前时间帧的所有无人机的服务分配包括:

4.根据权利要求3所述的低开销分布式的平均场强化学习无人机集群调度方法,其特征在于,基于当前时间帧所有无人机的位置计算所有无人机的组队分配包括:

5.根据权利要求4所述的低开销分布式的平均场强化学习无人机集群调度方法,其特征在于,所述调度策略包括无人机的俯仰角增量,水平角增量以及飞行速度增量。

6.根据权利要求5所述的低开销分布式的平均场强化学习无人机集群调度方法,其特征在于,辅助传输是无人机与用户建立视距链路,为用户提供定量通信服务。

7.根据权利要求6所述的低开销分布式的平均场强化学习无人机集群调度方法,其特征在于,确定下一时间帧的环境参数包括:


技术总结
本发明的一种低开销分布式的平均场强化学习无人机集群调度方法,重复执行以下步骤直至所有用户剩余未被服务的数据量归零:通过匹配算法获取当前时间帧的所有无人机的服务分配,基于当前时间帧所有无人机的位置计算所有无人机的组队分配;将当前时间帧每一个无人机的环境参数和每一个无人机的服务分配、组队分配输入平均场多智能体深度确定性策略梯度模型,获得所有无人机的调度策略;将每一个无人机的服务分配和调度策略输入无人机集群调度通信无线网络环境模型,每一个无人机接收并执行调度策略,然后进行辅助传输,确定下一时间帧的环境参数。本发明的方法能够减少无人机群辅助通信时的通信开销,提升用户通信安全性。

技术研发人员:高昂,季岑楠,段渭军
受保护的技术使用者:西北工业大学
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1