基于多智能体强化学习的海上无人机光链数据传输方法

文档序号:37595020发布日期:2024-04-18 12:31阅读:5来源:国知局
基于多智能体强化学习的海上无人机光链数据传输方法

本发明属于海洋监测无线通信,具体涉及一种基于多智能体强化学习的海上无人机光链数据传输方法。


背景技术:

1、下一代6g无线技术与空天地海一体化网络的结合是一个重要的研究趋势。遵循这一方向,基于悬停无人机的辅助通信系统具有巨大潜力,可以实现各种应用,如海上搜救、计算卸载和作为移动基站的无人机集群通信覆盖。当前,人们在海洋资源的观测、获取和利用上日益活跃,迫切需要在恶劣的海洋环境中开发可靠、稳健的通信系统,以加快对海洋的探索。然而,现有的以卫星主导的通信方法存在成本高、难以实现等问题;固定部署的传感器节点又具有缺乏灵活性,效率低等特点。为了解决这个问题,建立高质量、长距离、可靠的传输链路,将水下传感器网络收集的海洋数据传输到海上或岸上基站具有重要意义。

2、近几年,无人机和自由空间光通信技术得到了快速发展。一方面,无人机具有很强的机动性和灵活性,尤其是四旋翼无人机,具有较好的悬停能力。此外,配备传感器和通信设备的无人机可以充当中继器,在两个独立节点之间建立通信。另一方面,与其他通信技术相比,自由空间光通信技术具有部署快、无频谱许可、安全保密性强、带宽高、能耗低和数据速率高等优点。这种通信方式为快速传输大量海洋数据提供了可能。因此,以无人机为中继的多跳自由空间光通信已成为传输海洋数据的一种很有前景的解决方案。


技术实现思路

1、针对现有技术中存在的上述技术问题,本发明提出了一种基于多智能体强化学习的海上无人机光链数据传输方法,设计合理,克服了现有技术的不足,具有良好的效果。

2、为了实现上述目的,本发明采用如下技术方案:

3、一种基于多智能体强化学习的海上无人机光链数据传输方法,采用水下自主航行器和无人水面艇,无人水面艇作为中央基站,具体包括如下步骤:

4、步骤1:多个无人机通过射频导引至各自的部署区域,形成一条长链,建立初步的光通信连接;

5、步骤2:无人机将自身观测状态通过射频信号发送给中央基站,中央基站接收所有无人机的观测信息并进行协同操作;进而自主完成动作决策和维持稳定的光通信连接;

6、步骤3:中央基站将动作决策通过射频信号发送给每个无人机,所有无人机协同地做出相应的动作稳定自身飞行状态,保持稳定的光通信连接;

7、步骤4:海上无人机光链进行数据传输,通过重复执行步骤2~3,使无人机之间协同抵抗海风的扰动,实时地保持稳定的数据传输。

8、优选地,所述步骤1的具体过程为:

9、一个无人机集群其中n是无人机的数量,i∈n表示集群中无人机的编号,多个无人机通过射频信号与中央基站建立连接,并被导引至各自的部署区域,形成一条长链;多个无人机包括链头无人机、中继无人机和链尾无人机;其中,链头无人机与水下自主航行器之间、中继无人机之间、链尾无人机与无人水面艇之间分别建立光通信连接;水下自主航行器作为起始节点,通过光通信将收集的数据发送给第1个无人机,然后第1个无人机将数据发送到第2个无人机,并继续此过程,直到第n个无人机将数据发送给无人水面艇;无人机作为中继节点,同时兼顾接收器和发射器的角色,无人机上配备的光电二极管首先将接收到的光信号转换为电信号,然后实施解码转发中继,最后,激光二极管将电信号转换为光信号,并将其传输到下一个节点;

10、采用光/射频混合通信来实现无人机集群之间的信息共享,光通信主要用于传输收集的数据,而射频用于辅助通信,传输必要的状态信息和控制命令,如无人机定位和任务分配命令。在海洋环境中,无人水面艇作为中央基站,负责接收所有部署的无人机的信息,并通过控制命令对其进行操控,实现环境自适应控制。

11、优选地,所述步骤2中,四旋翼无人机的飞行状态受多种因素的影响;其中,海风作为主要影响因素,会导致无人机的位置漂移,从而影响无人机光链路的通信性能;因此,在面对海风等环境干扰,无人机会将自身观测状态通过射频信号发送给中央基站,进而自主完成动作决策和维持稳定的光通信连接;第i个无人机的状态空间为si=(qi,vi,wi,φi),其中qi=(xi,yi,zi)表示无人机位置,该位置是通过将全球定位系统和实时运动学技术相结合,在无人水面艇作为基站的帮助下获得的;表示建模无人机的运动,表示无人机沿x、y和z轴的平移速度;同时无人机配备了空气速度传感器,表示无人机在x、y和z轴方向所测得的风速;φ表示相邻无人机间连线与波束方向的夹角;

12、无人机的行为决策只与当前的环境状态有关,并且每个无人机都无法获得有关环境的所有信息,用oi表示第i个无人机从全局状态获得的部分观测信息,同时,每个无人机在某个时刻的动作由其当前状态和相邻无人机的当前状态决定;因此,无人机通过射频通信网络将自身状态发送给相邻无人机,无人机作为一个智能体,能够观测到的信息表示为:

13、

14、oi由三部分组成,分别为第i个无人机与第i-1个无人机的相对位置即qi-1-qi,第i个无人机与参考位置的相对位置即以及第i个无人机与第i+1个无人机的相对位置即qi+1-qi;其中,参考位置表示第i个无人机满足光链最低比特误码率所要求的位置:

15、

16、其中,xs,xe分别表示链头和链尾无人机的x坐标,而ys,ye分别表示链头和链尾无人机的y坐标,zi表示无人机的飞行高度。

17、优选地,所述步骤3中,中央基站采用多智能体深度确定性策略梯度算法进行动作决策,无人机的动作集表示为其中表示第i个无人机的驱动控制信号,动作的决策要满足以下四旋翼无人机位置动力学:

18、

19、其中,m是无人机的质量;表示实际速度变化;g表示重力加速度;e是变换矩阵;fw代表由风引起的空气动力,通过以下公式计算:

20、fw=2ρm||v-w||(v-w)  (4);

21、其中,ρ表示空气密度;m是螺旋桨面积;v是无人机速度;w表示风速。

22、优选地,所述步骤3中,在执行一步动作后,设置奖励函数ri如下:

23、ri=c1·ra+c2·rb+rc  (5);

24、其中,c1和c2是超参数,以平衡个人和集体奖励之间的重要性,rc表示能耗相关的奖励;起到节约能耗的作用,在海风的影响下,为了更好地满足无人机光链路的通信要求,智能体的总体奖励被设计为个体奖励和集体奖励的总和,以更好地评估每架无人机的行为决策;

25、个体奖励ra:无人机当前位置和参考位置之间的距离表示无人机的个人奖励;距离越大,智能体所获得的负面奖励就越大;个人奖励有助于无人机在风干扰下快速接近目标参考位置并稳定在参考位置;ra表示为:

26、

27、其中||·||称为欧几里得范数;

28、集体奖励rb:使用bere作为对组成光通信链路所有无人机的集体奖励,bere越低,所有智能体获得的积极奖励就越大,集体奖励rb表示为:

29、rb=-ln(bere)  (7);

30、其中,bere为比特误码率;

31、每架无人机的目标是最大限度地提高其期望的累积折扣奖励,如下所示:

32、

33、其中,γ是折扣因子。

34、优选地,所述步骤3中,中央基站获得无人机返回的奖励后,需要不断更新网络参数,每个智能体中使用四个神经网络:一个策略网络一个策略目标网络一个评价网络一个评价目标网络其中δi,δ′i,wi和w′i分别为网络参数;

35、策略网络负责与环境交互,并根据当前状态做出行为决策;策略网络的更新策略如下:

36、

37、其中,是经验回放缓冲区,用于存储元组(x,x′,a1,…,an,r1,…,rn);x=(o1,…,on)表示所有智能体观测的级联;x′表示完成动作后的下一个状态;

38、评价网络是用来帮助决策网络判断动作的好与差,它以联合观察x和联合动作(a1,…,an)为输入,以qi为输出,评价网络根据以下损失函数进行更新:

39、

40、

41、目标网络用于降低训练的不稳定性,采用软更新的方法对目标网络的参数进行更新,如公式(12)所示:

42、

43、其中,τ是软更新因子。

44、优选地,所述步骤4中,在一轮更新完成之后,为更好地满足数据传输要求,进行如下优化过程:

45、步骤4.1:计算整条链路的比特误码率bere为:

46、

47、其中,第i段链路的比特误码率由ber(di,φi)表示,d是两个相邻无人机之间的欧几里得距离;

48、步骤4.2:t时间内所有无人机的总能耗表示为:

49、

50、其中,pn表示单个无人机的能耗;v(t)表示t时隙的速度;t表示时隙数量;n表示总的无人机数量。

51、本发明所带来的有益技术效果:

52、本发明基于无人机集群,建立一条无人机光通信链路,充分利用了无人机的机动性和光通信安全性强、带宽高和能耗低等特点,为水下自主航行器和无人水面艇之间建立通信提供可能,有利于海上基站快速获取大量的海洋数据。

53、本发明利用无人机的机动性抵抗海风干扰并协同维护光学链路稳定性;基于多智能体强化学习的新方法,使多个无人机构成的无人机集群能够通过协作最大限度地提高通信链路的性能,同时降低能耗;另外,考虑了海风扰动,确保端到端通信的可靠性;与基于独立深度确定性策略梯度(iddpg)的方法相比,本发明通过无人机问的协同实现了更稳定的通信链路和更小的能耗;在该方案中,多架无人机在复杂的风场下实时控制自身状态,通过协作保持稳定性,并动态保持光链路的可靠性,最大限度地提高通信性能,实现可靠的端到端光通信,同时能够降低能耗从而延长服务时间。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1