一种基于深度强化学习的无人机中继轨迹优化方法

文档序号:37919326发布日期:2024-05-10 23:58阅读:43来源:国知局
一种基于深度强化学习的无人机中继轨迹优化方法

本发明属于无线通信,尤其涉及一种基于深度强化学习的固定翼解码转发无人机中继轨迹优化方法。


背景技术:

1、近年来,随着无人机技术的不断发展,无人机在无线中继通信领域的应用引起了广泛的关注,中继无人机能够在传输过程中作为信号中转站,提升通信覆盖范围和通信质量,虽然无人机的移动性为通信带来了更多的自由度,但有效规划中继无人机的飞行轨迹,特别是固定翼无人机的飞行轨迹是一项极具挑战性的工作。

2、目前,研究人员大多利用连续凸逼近方法将飞行轨迹规划问题转化为近似凸问题加以解决,复杂度较高,现有的研究较多针对于旋翼无人机,对于固定翼无人机的研究相对偏少,而且较少考虑全双工中继通信场景;在考虑信道模型时,大多数研究还是针对视距(los)信道,较少选用更加实际的los和非视距(nlos)的混合概率信道。另外,现有的研究常常对深度强化学下的动作空间进行离散化处理。但无人机的飞行过程是一个连续状态,这就导致离散的动作空间不是很精确。


技术实现思路

1、为克服现有技术的缺点和不足,本发明的目的在于提供一种基于深度强化学习的固定翼解码转发无人机中继轨迹优化方法,对无人机中继系统的飞行速度和跑道形飞行轨迹进行调整,在符合无人机飞行速度限制和携带能量限制下,以及满足系统发送数据量要求的条件下,实现无人机飞行能耗的最小化,从而提高系统的能量效率。本发明的技术方案如下:

2、一种基于深度强化学习的无人机中继轨迹优化方法,在该方法中,当源节点s需要将数据量大小为q的数据传输到目的节点d,由于s和d之间距离较远,两者无法直接进行通信,此时借助无人机中继r进行数据的转发,无人机r携带的总能量为e,无人机r在能量e耗完前把数据量为q的数据从s转发给d,其特征在于,该算法包括以下步骤:

3、步骤一:定义源节点s和目的节点d之间的距离为lsd,无人机r以高度为h的跑道形轨迹盘旋;

4、步骤二:定义源节点s和目的节点d的水平位置坐标分别为qs=(0,0)和qd=(lsd,0),无人机中继r在第n个时隙的水平坐标为q[n]=(x[n],y[n]);

5、步骤三:无人机从点(ξ-ru,0,h)开始以逆时针方向飞行,其中ξ表示左半圆轨迹的圆心在水平面的投影与节点s之间的距离或者右半圆轨迹的圆心在水平面的投影与节点d之间的距离,ru表示左半圆或者右半圆轨迹的半径,由于无人机中继r在s与d之间盘旋,因此ru∈(0,ξ];

6、步骤四:设τ[n]表示第n个时隙的持续时间,n∈{1,…,δn},δn表示为总时隙数,并且计算在第n个时隙时,r与s、d的距离,s与r、r与d存在los链路的概率,s到r以及r到d的平均信道增益,r和d的接收信号;

7、步骤五:在第n个时隙末尾时,计算r和d接收的总数据量,然后得出信息因果性约束,最后得出接收数据量约束;

8、步骤六:根据上述步骤建立无人机轨迹优化设计问题;

9、步骤七:将建立的无人机轨迹优化设计问题转化为mdp问题,计算第n个时隙的状态、控制策略、奖励和动作;

10、步骤八:根据mdp问题给出的状态空间、动作空间、策略和奖励函数,通过基于深度策略性梯度的无人机跑道形轨迹优化算法,得到无人机中继最优轨迹;

11、对于跑道形轨迹下的全双工固定翼无人机中继通信系统,单天线地面源节点s需要将数据量为q的数据传输到地面单天线目的节点d,由于s和d之间距离较远,两者无法直接进行通信,需要借助单天线无人机中继r进行数据的转发,设定无人机r携带的总能量为e,r需要在能量e耗完前,把数据量为q的数据从s转发给d,这里,无人机r工作在全双工模式,采用解码转发中继协议,并且s到r和r到d的数据传输在不同的频带完成,因此r端不会产生自干扰,设定s和d之间的距离为lsd。

12、设定r在s与d之间,以高度为h的跑道形轨迹盘旋,轨迹由左半圆、右半圆和上下两条直线轨迹构成,围成的跑道形轨迹在节点s与d之间,并且以s与d连线的中间点对称,定义源节点s和目的节点d的水平位置坐标分别为qs=(0,0)和qd=(lsd,0),无人机中继r在第n个时隙的水平坐标为q[n]=(x[n],y[n])。这样,s、d和r的三维立体坐标分别为(0,0,0)、(lsd,0,0)和(x[n],y[n],h),无人机从点(ξ-ru,0,h)开始以逆时针方向飞行,其中ξ表示左半圆轨迹的圆心在水平面的投影与节点s之间的距离或者右半圆轨迹的圆心在水平面的投影与节点d之间的距离,ru表示左半圆或者右半圆轨迹的半径,由于r在s与d之间盘旋,因此ru∈(0,ξ],无人机的起飞和着陆不考虑。

13、与具有固定时间间隔的现有工作不同,这里考虑动态持续时间,即时间间隔是不同的,设τ[n]表示第n个时隙的持续时间,n∈{1,…,δn},δn表示为总时隙数,无人机总飞行时间为为了便于数学表示,假设n=0时r位于初始位置,其水平坐标为(ξ-ru,0);n=δn时,r位于终点位置,其水平坐标也为(ξ-ru,0),即q[0]=(ξ-ru,0),q[δn]=(ξ-ru,0);n=0时,τ[n]=0,

14、在第n个时隙r与s、d的距离dsr[n]和drd[n]可分别表示为:

15、

16、

17、其中,n∈{1,…,δn},δn表示为总时隙数,qs和qd分别为s和d的水平位置坐标,q[n]是无人机在第n个时隙的水平位置坐标,h为无人机的飞行高度,在第n个时隙,s与r、r与d存在los链路的概率prsr[n]和prrd[n]分别为:

18、

19、

20、其中θsr[n]=(180/π)arcsin(h/dsr[n])和θrd[n]=(180/π)arcsin(h/drd[n])分别为第n个时隙r与s、d的仰角,arcsin(·)是反正弦函数,和β为混合概率信道模型参数,和β的取值取决于具体的通信地理环境,

21、在第n个时隙,s到r(s-r),r到d(r-d)的平均信道增益可分别写为:

22、

23、

24、其中ko=4πfsr/c、k1=4πfrd/c,fsr、frd分别是s-r、r-d链路的载波频率,c是光速,α是大尺度衰落因子,通常取值在2-4之间,η1和η2分别是los和nlos路径损耗参数,dsr[n]和drd[n]分别为第n个时隙s-r和r-d的距离,

25、在第n个时隙,r和d的接收信号分别为:

26、

27、

28、其中和分别为s和r的发射功率,xs[n]和xr[n]分别为s和r发射的单位功率信号,nr[n]和nd[n]分别为r和d处的高斯白噪声,

29、第n个时隙末尾,r和d接收的总数据量可以写为:

30、

31、

32、其中,n∈{1,…,δn},τ[m]表示第m个时隙的持续时间,σ2为r和d处的高斯白噪声nr[n]和nd[n]的方差,和分别为第m个时隙s-r和r-d的平均信道增益,

33、这样,信息因果性约束可写为:

34、

35、其中,n∈{1,…,δn},

36、接收数据量约束qr(δn)≥q,qd(δn)≥q可以改写为:

37、

38、

39、其中,qr(δn)和qd(δn)分别为第δn个时隙为止r和d接收的数据量,q为源节点s希望发送给d的数据量,

40、这样,无人机轨迹优化设计问题可以写为:

41、

42、eut≤e (14b)

43、

44、vmin≤vu1,vu2≤vmax (14d)

45、vu1=vu2 (14e)

46、

47、vu1,vu2,ru>0 (14g)

48、δnu1+δnu2=δn (14h)

49、

50、

51、ξ≥ru (14k)

52、其中,为无人机的能耗,g为重力加速度,e为无人机携带的总能量,τ[n]为第n个时隙的长度,δn为总时隙数,δnu1表示无人机总飞行时间中的直线轨迹飞行时隙数,τu1[n]表示第n个直线轨迹飞行时隙长度,δnu2表示无人机总飞行时间中的圆形轨迹飞行时隙数,τu2[n]表示第n个圆形轨迹飞行时隙长度,c1=etcd0b/2、c2=2w2/[(πe0ars)etb],et表示空气密度,cd0表示零升力阻力系数,b表示机翼面积,e0是翼展效率,w表示无人机整体的重量,ars表示无人机翼的纵横比,vmin和vmax分别为无人机的最小和最大飞行速度;vu1和vu2分别为直线轨迹部分的飞行速度和圆形轨迹部分的飞行速度,并且两者的具体取值相同,如式(14e)所示,lsd为s和d之间的距离,ξ为跑道形轨迹中的左半圆轨迹的圆心在水平面投影与节点s之间的距离或者右半圆轨迹的圆心在水平面投影与节点d之间的距离,ru表示跑道形轨迹中的左半圆或者右半圆轨迹的半径,τ*[n]分别为vu1,vu2,ru,δnu1,δnu2,τ[n]的最优值。

53、需要说明的是:问题(14),即,式(14a)、式(14b)、式(14c)、式(14d)、式(14e)、式(14f)、式(14g)、式(14h)、式(14i)、式(14j)和式(14k)组成的优化问题中的无人机飞行时隙τ[n],n∈{1,2,…,δn}将由直线和圆形轨迹部分的飞行时隙按照实际的飞行轨迹顺序组合而成;

54、下面,将优化问题(14),即,式(14a)、式(14b)、式(14c)、式(14d)、式(14e)、式(14f)、式(14g)、式(14h)、式(14i)、式(14j)和式(14k)组成的优化问题转化为mdp问题;

55、利用强化学习解决优化问题的关键在于设计良好的mdp模型,其中mdp的核心是:状态空间、动作空间、最优控制策略,奖励函数,下面将无人机轨迹优化设计建模为mdp问题;

56、用sn、rn和an分别表示第n个时隙的状态、奖励和动作;

57、令第n个时隙的状态sn为

58、

59、其中,(x[n],y[n])表示第n个时隙无人机r的水平位置坐标;为第n个时隙无人机的剩余能量,即其中eut[n]是无人机r到第n个时隙末尾累计的能耗,可写为:

60、

61、其中g为重力加速度,c1=etcd0b/2、c2=2w2/[(πe0ars)etb],et表示空气密度,cd0表示零升力阻力系数,b表示机翼面积,e0是翼展效率,w表示无人机整体的重量,ars表示无人机翼的纵横比,δnu1表示n个时隙中直线飞行时隙数,τu1[m]表示第m个直线飞行时隙长度,δnu2表示n个时隙中圆形飞行时隙数,τu2[m]表示第m个圆形飞行时隙长度,δnu1+δnu2=n,vu1和vu2分别为直线轨迹部分的飞行速度和圆形轨迹部分的飞行速度,并且两者的具体取值相同,ru表示跑道形轨迹中的左半圆(右半圆)轨迹的半径;qr[n]和qd[n]分别为r和d在n个时隙末尾接收的总数据量,具体可分别由式(9)和式(10)计算得到;为第n个时隙时还需要传输的数据量,即q为源节点s希望传输给目的节点d的数据量;

62、令第n个时隙的动作an为:

63、an={τ[n],vu1,vu2,ru,ξ} (17)

64、其中,τ[n]为第n个时隙的长度,τ[n]∈[τmin,τmax],τmin和τmax分别为设定的最小和最大时隙长度,vu1和vu2分别为直线轨迹部分的飞行速度和圆形轨迹部分的飞行速度并且两者的具体取值相同,ξ为跑道形轨迹中的左半圆轨迹的圆心在水平面投影与节点s之间的距离或者右半圆轨迹的圆心在水平面投影与节点d之间的距离,ru表示跑道形轨迹中的左半圆或者右半圆轨迹的半径;

65、在第n个时隙,控制策略π可写为:an=π(sn),表示状态为sn时选择执行动作an,此时,能够获得的奖励rn为:

66、

67、其中μ是人为设定的一个负常数,n∈{1,2,…,δn},qr[n]和qd[n]分别为第n个时隙末尾r和d接收到的总数据量,g为重力加速度,δnu1表示n个时隙中直线飞行时隙数,τu1[m]表示第m个直线飞行时隙长度,δnu2表示n个时隙中圆形飞行时隙数,τu2[m]表示第m个圆形飞行时隙长度,δnu1+δnu2=n,c1=etcd0b/2、c2=2w2/[(πe0ars)etb],et表示空气密度,cd0表示零升力阻力系数,b表示机翼面积,e0是翼展效率,w表示无人机整体的重量,ars表示无人机翼的纵横比,vu1和vu2分别为直线轨迹部分的飞行速度和圆形轨迹部分的飞行速度,并且两者的具体取值相同,ru表示跑道形轨迹中的左半圆(右半圆)轨迹的半径;

68、第n个时隙,在状态sn下,控制策略π选择执行动作an,在获得奖励rn的同时,将进入下一个状态其中x[n+1]和y[n+1]为第n+1个时隙无人机的水平坐标,可分别由式(19)和式(20)计算得到;qr[n+1]和qd[n+1]分别为第n+1个时隙r和d接收到的数据量,可分别由式(9)和式(10)计算得到,并可以进一步计算得到第n+1个时隙时还需要传输的数据量,即,根据式(16)计算得到第n+1个时隙末尾无人机累计的能耗eut[n+1],然后计算无人机此时还剩余的能量

69、

70、

71、其中,

72、(x[n],y[n])为无人机在第n个时隙的水平坐标,(x[n+1],y[n+1])为无人机在第n+1个时隙的水平坐标,τ[n]表示第n个时隙的长度,vu1和vu2分别为直线轨迹部分的飞行速度和圆形轨迹部分的飞行速度,并且两者的具体取值相同,lsd为s和d之间的距离,ξ为跑道形轨迹中的左半圆轨迹的圆心在水平面投影与节点s之间的距离或者右半圆轨迹的圆心在水平面投影与节点d之间的距离,ru表示跑道形轨迹中的左半圆或者右半圆轨迹的半径。

73、无人机的飞行动作在所有数据传送完毕并且无人机到达终点或者能量e耗尽时终止。

74、ddpg使用参数分别为θπ和θq的深度神经网π(sn|θπ)和qπ(sn,an|θq)作为策略网络和评价网络。此外,策略网络和评价网络还分别包含一个与它们结构相同的目标网络,即,策略目标网络π′(sn|θπ′)(其参数为θπ′)和评价目标网络q′π′(sn,an|θq′)(其参数为θq′)。

75、本发明为克服现有技术的不足,提供一种基于深度强化学习的无人机中继轨迹优化方法,根据drl(deep reinforcement learning)理论,提出了一种飞行轨迹的优化设计方法,适用于固定翼无人机在混合概率信道环境下担当全双工移动中继辅助地面源和目的节点进行中继通信的场景。

76、本发明给出了一种跑道形轨迹设计方案,由于方案中的时间分割是非等长的,因此,无人机的飞行动作空间仍然是连续的。基于ddpg(deep deterministic policygradient)设计出无人机轨迹优化策略,通过模拟飞行来规划最优轨迹,实现最小化能耗的目标。仿真实验验证了基于ddpg方法的有效性,所设计的跑道形轨迹比传统的直线和圆形轨迹更节能;与传统的dqn(deep q-leaning network)动作离散化方法相比,所设计的ddpg的轨迹优化算法更适用于实际应用需求,并且在性能方面表现更出色。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1