基于深度强化学习的无人机应急网络任务卸载方法及系统

文档序号:37638181发布日期:2024-04-18 17:57阅读:10来源:国知局
基于深度强化学习的无人机应急网络任务卸载方法及系统

本发明涉及深度学习,尤其是基于深度强化学习的无人机应急网络任务卸载方法及系统。


背景技术:

1、自然灾害,如地震、降雨,经常导致基础设施损坏,包括房屋和道路。通讯设施的缺乏会给应急工作带来极大的不便。然而,与地面网络不同的是,无人机对大多数自然灾害具有弹性,可以很容易地部署在受灾地区提供通信服务。此外,无人机可以配备传感器来收集现场条件和环境信息,帮助灾害情况分析和促进任务。尽管无人机具有优势,但其电量有限,在提供通信服务和执行特殊任务时,需要确保电池效率以延长其服务时间。

2、此外,无人机在动态环境中运行,传统算法可能难以处理。利用人工智能优化无人机的资源分配,可以更好地适应动态环境,为无人机提供自主权,增强无人机自动化程度,提高其执行任务的时间效率和能源效率。多任务无人机在灾后地区能够执行各种任务的场景,如物资运输和通信服务。并且要减少无人机的航迹规划时间,使其能够快速响应意外情况。

3、然而需要注意的是,地面通信设施可能会因灾害而受损,因此通信服务对于灾后重建工作至关重要。无人机可以为灾区提供通信服务。例如,无人机可以作为飞行基站,和地面基站形成应急通信网络,在保证用户通信质量的同时最大化系统的能量效率,以在通信资源不足时处理系统紧急情况。为扩大网络覆盖范围,多架无人机往往形成无人机应急网络,为灾区提供通信服务和任务卸载。

4、然而,地面用户如逃生人员、人员等具有典型的移动性,这使得无人机需要调整其网络结构以适应地面人员的活动,以提供尽可能多的服务,在增加服务用户数的同时避免网络断连。


技术实现思路

1、有鉴于此,本发明实施例提供一种基于深度强化学习的无人机应急网络任务卸载方法及系统,以提高灾害环境下无人机航迹规划和执行任务卸载的能力。

2、本发明实施例的一方面提供了一种基于深度强化学习的无人机应急网络任务卸载方法,包括:

3、基于无人机应急网络卸载任务场景构建无人机应急网络移动边缘计算系统;

4、根据所述无人机应急网络移动边缘计算系统设定无人机任务卸载的优化目标,所述优化目标为最小化总任务完成时延;

5、根据所述无人机应急网络移动边缘计算系统中的环境状态和所述无人机任务卸载的优化目标,基于预构建maddpg网络进行强化学习,在动态时变环境下学习对用户设备任务进行卸载,得到最优卸载策略;

6、根据所述最优卸载策略执行无人机应急网络任务卸载;

7、其中,所述预构建maddpg模型包括多个结构相同的actor网络和target-actor网络,还包括多个结构相同的critic网络和target-critic网络。

8、可选地,所述无人机应急网络卸载任务场景中包括多个需要卸载任务的用户设备和多个接收卸载任务的无人机,所述基于无人机应急网络卸载任务场景构建无人机应急网络移动边缘计算系统,包括:

9、无人机以时分方式向各终端提供计算服务,将整个通信周期t划分为/个时隙,在每个时隙,无人机盘旋在固定位置,然后与其中一个用户设备建立通信,在将一部分计算任务卸载到无人机后,用户设备在本地执行剩余的任务;

10、在无人机与用户之间的通信过程中,采用随机空地信道模型,考虑不同信道状态下的传输速率,将无人机m与用户设备k之间的视距链路的信道增益gm,k(i)表示为:

11、

12、其中,α0表示参考距离d=1m处的通道增益,dm,k(i)表示无人机m与用户设备k之间的欧氏距离;

13、将无人机与地面用户之间的通信链路用二进制变量fm,k(i)表示,以确定在i时隙无人机与用户设备之间是否存在遮挡;

14、根据无人机的不间断运动,根据无人机m与用户设备k之间的信道状态确定传输速率rm,k(i)的表达式为:

15、

16、其中,b表示通信带宽,pup为上行链路中用户设备的发射功率,σ2表示噪声功率,pnlos表示传输损耗;

17、对无人机应急网络移动边缘计算系统中进行任务卸载。

18、可选地,所述基于预构建maddpg网络进行强化学习,包括:

19、根据actor网络和当前状态的环境信息,确定第一系统时延;

20、根据所述第一系统时延,确定卸载策略;

21、根据所述卸载策略,确定环境奖励值;

22、将训练经验存入经验池,所述训练经验包括当前状态的环境信息、卸载策略、环境奖励值以及下一状态的环境信息:

23、当所述经验池的容量大于容量阈值,确定训练经验集;所述训练经验集包括从所述经验池中随机抽取的若干条训练经验;

24、根据critic网络和所述训练经验集,确定第二系统时延和目标时延;

25、根据所述第二系统时延和所述目标时延,对网络参数进行迭代更新;

26、根据所述第二系统时延和所述目标时延,确定损失函数;

27、当所述损失函数收敛,确定当前状态的系统时延为最优值,并确定所述最优值对应的所述目标卸载策略;

28、其中,所述的多个actor网络结构相同,所述的多个critic网络结构相同;

29、所述环境信息包括无人机剩余电量、无人机位置、剩余的总任务量、用户设备位置、用户设备需要卸载的任务量、无人机与用户设备的信道情况。

30、可选地,所述网络参数包括actor网络参数和critic网络参数,

31、所述根据所述第一系统时延,确定卸载策略,包括:

32、根据噪声扰动方案确定最大的所述第一系统时延所对应的卸载策略;

33、所述根据所述第二系统时延和所述目标时延,对网络参数进行迭代更新,包括:

34、根据所述第二系统时延和目标时延,更新所述critic网络对应的网络参数;

35、每隔预设数量的时间步,将所述actor网络对应的网络参数更新为当前状态的所述target-actor网络参数。

36、可选地,所述方法还包括确定系统时延的步骤,该步骤包括:

37、根据用户设备数据的本地处理能力、任务卸载率和用户设备的任务量,确定卸载数据本地处理的时延:

38、根据上行链路中用户设备的发射功率、噪声功率、信道传输损耗、任务卸载率和用户设备的任务量,确定数据传输的时延;

39、根据无人机数据处理能力、任务卸载率和用户设备卸载的任务量,确定无人机处理的时延:

40、根据数据传输时延与无人机处理时延之和,确定任务卸载到无人机处理的时延;

41、根据卸载数据本地处理的时延与任务卸载到无人机处理的时延的较大值,确定无人机的总时延:

42、根据多个所述无人机的总时延,确定所述系统时延。

43、可选地,所述确定系统时延的步骤,还包括:

44、确定所述无人机与用户设备的信道情况用0或1表示;

45、确定一个时隙内无人机最多服务一个用户设备;

46、确定剩余总任务量大于或等于用户设备需要卸载的任务量;

47、确定无人机位置在限定区域之内;

48、确定用户设备任务卸载率大于等于0且小于等于1;

49、确定无人机剩余电量大于等于0;

50、确定数据处理结果的回传时间忽略不计。

51、可选地,所述方法还包括以下步骤:

52、当剩余总任务量小于用户设备需要卸载的任务量,确定所述环境奖励值为负无穷大;

53、当无人机位置在限定区域之外,确定所述环境奖励值为负无穷大;

54、当无人机剩余电量不支持飞行或计算,确定所述环境奖励值为负无穷大;

55、当剩余总任务量大于或等于用户设备需要卸载的任务量,且无人机位置在限定区域之内,且无人机剩余电量支持飞行或计算,确定所述环境奖励值为所有所述无人机的总时延的负值。

56、本发明实施例的另一方面还提供了一种基于深度强化学习的无人机应急网络任务卸载系统,包括:

57、无人机应急网络系统模型模块,基于无人机应急网络卸载任务场景构建无人机应急网络移动边缘计算系统;

58、无人机任务卸载优化目标设定模块,根据所述无人机应急网络移动边缘计算系统设定无人机任务卸载的优化目标,所述优化目标为最小化总任务完成时延;

59、无人机强化学习模块根据所述无人机应急网络移动边缘计算系统中的环境状态和所述无人机任务卸载的优化目标,基于预构建maddpg网络进行强化学习,在动态时变环境下学习对用户设备任务进行卸载,得到最优卸载策略;

60、任务卸载模块,用于根据所述最优卸载策略执行无人机应急网络任务卸载;

61、其中,所述预构建maddpg模型包括多个结构相同的actor网络和target-actor网络,还包括多个结构相同的critic网络和target-critic网络。

62、本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;

63、所述存储器用于存储程序;

64、所述处理器执行所述程序实现如前面所述的方法。

65、本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。

66、本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。

67、本发明的实施例首先基于无人机应急网络卸载任务场景构建无人机应急网络移动边缘计算系统;接着根据所述无人机应急网络移动边缘计算系统设定无人机任务卸载的优化目标,所述优化目标为最小化总任务完成时延;然后根据所述无人机应急网络移动边缘计算系统中的环境状态和所述无人机任务卸载的优化目标,基于预构建maddpg网络进行强化学习,在动态时变环境下学习对用户设备任务进行卸载,得到最优卸载策略;最后根据所述最优卸载策略执行无人机应急网络任务卸载。本发明提高了无人机应急网络中任务卸载能力,由于无人机应急网络通信环境的复杂性,传统的任务卸载的方法时间复杂度较高,且难以适应复杂多变的无人机应急网络,而实际上无人机应急网络中无人机是时变的,使得基于传统优化方法的无人机应急网络的任务卸载效果变差甚至不再适用,本发明很好的解决了上述问题。其次,本发明所提出的基于深度强化学习的无人机应急网络任务卸载方法的一个显着特点是利用多智能体强化学习的方法来达到快速收敛,并且可以提升无人机应急网络的数据传输能力,具有优秀的训练收敛能力和泛化能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1