融合DRL和GNN的航空器关联算法

文档序号:36924318发布日期:2024-02-02 21:50阅读:137来源:国知局
融合DRL和GNN的航空器关联算法

本发明涉及一种融合drl和gnn的航空器关联算法,属于深度强化学习和图神经网络结合的领域。


背景技术:

1、在航空领域为乘客提供机上通信服务已逐渐成为流行趋势。目前为止,航空互联网的连接方式主要有三种:地空通信(air to ground,atg)、卫星通信以及混合式通信(同时使用atg和卫星通信)。而卫星通信在全球覆盖、服务可靠性等方面具有相对优势,对于跨洋航线也可以使飞机保持无缝连接,因此卫星通信成为航空公司提供航空互联网服务的主流选择。

2、然而,激增的超密集近地轨道卫星网络对航空器关联的方法提出了更高的要求。过度拥挤的卫星会导致大量资源冗余,且卫星与航空器之间的相对移动和不同优先级的容量请求之间存在的区别,两者都将显著影响超密集近地轨道卫星网络系统的整体吞吐量。显然,不断演进的拓扑结构和星间切换将导致过度的传输延迟和巨大的计算成本,对于超密集近地轨道卫星网络系统的特殊性,传统的接入调度方法无法充分协调此类网络,导致系统资源难以有效分配。因此,关联航空器和卫星以建立集成多种约束并在动态情况下快速判断可行连接逐渐成为亟需解决的问题。而卫星与航空器的动态关联问题可归纳为用户关联(user association,ua)问题,可以通过研究ua问题寻找解决方案。

3、基本的ua策略是基于最大接收信号功率(maximum received signal power,mrsp)的分配,这对于通用无线网络来说既简单又快速。针对mrsp造成的负载不平衡问题及用户公平性等问题,已经有大量相关文献研究。然而,在异构网络(heterogeneousnetworks,hetnets)、非正交多址(non-orthogonal multiple access,noma)和超密集网络(ultra-dense networks,udns)通信中,基本的ua策略依然成为充分利用新兴ict的障碍。

4、目前ua方法的研究主要分为三个方向:博弈论、组合优化和深度强化学习(deepreinforcement learning,drl)。其中,博弈论和组合优化通常是基于静态的假设进行优化,而超密集近地轨道卫星网络系统中关联问题的连接状态和用户分布可能不断变化,需要动态地调整关联策略,博弈论和组合优化存在对动态环境感知不足的问题。drl可以通过与环境的交互学习,自适应地调整用户关联策略,在动态用户关联场景中更加合适。

5、近年来,drl得到快速发展,许多研究提出了基于drl的ua方法。为了避免干扰建模的复杂性,zhao等人提出了一种基于双深度q网络(dueling double deep q-networks,d3qn)的drl方法,以最大化长期的整体网络效用,同时满足异构网络中下行链路用户的qos要求。m.sana等人设计了一种可扩展的分布式ua方法,该方法基于带有深度循环q网络(deep recurrent q-networks,drqn)的多智能体强化学习(multi-agent reinforcementlearning,marl),能够在信息有限的连续场景中最大限度地减少用户之间的交互。j.-h.lee等人研究了两个地面基站之间通过几个卫星和一个空天平台站(high altitudeplatform station,haps)的信息传输。他们使用drl进行卫星关联和定位haps,以最大限度地提高端到端数据速率。cao等人在非地面网络中使用drl进行用户关联以最大化和速率,同时减少由于机载车辆移动性引起的切换。h.tsuchida等人在近地轨道卫星(low earthorbit,leo)网络中应用强化学习,与相邻卫星分担过载的leo卫星的负载,以最大限度地延长卫星的电池寿命。但是上述方法均是在卫星数量有限的场景下展开研究,没有考虑到大规模无线通信网络(如超密集近地轨道卫星网络)中卫星之间通过信息交换进行关联决策的问题。


技术实现思路

1、针对现有文献中缺少大规模无线通信网络进行关联决策的研究,本发明提出了一种超密集近地轨道卫星网络中的航空器关联算法,该算法用图来表示卫星之间的拓扑关系以及卫星与用户之间的交互,利用图结构的数据泛化能力加强卫星之间的信息交换,通过在深度强化学习框架中引入图神经网络对图数据进行处理,最后找到全局最优的关联策略,提高系统的吞吐量。

2、本发明为解决上述技术问题采用以下技术方案:

3、本发明提出一种融合drl和gnn的航空器关联算法,包括如下步骤:

4、步骤(1)、将超密集近地轨道卫星网络中航空器关联决策问题建模,明确目标函数;

5、步骤(2)、在模型目标函数的求解公式和约束条件确定后,将目标函数的求解转化为马尔可夫决策过程;

6、步骤(3)、将复杂卫星网络用图进行建构,将图神经网络嵌入到深度强化学习框架中参与决策过程。

7、进一步的,本发明所提出的融合drl和gnn的航空器关联算法,步骤(1)所述的关联决策模型如下:

8、

9、

10、其中,表示时间段t内第i个航空器的吞吐量,约束条件表示航空器可选的卫星数量范围,约束条件表示本系统中的航空器在一个时间段t内只能与一颗卫星相关联,约束条件表示每颗卫星可以服务不超过k个并发的航空器。

11、进一步的,本发明所提出的融合drl和gnn的航空器关联算法,步骤(2)所述的目标函数转换为马尔可夫决策过程如下:

12、由于马尔可夫博弈由状态空间、动作空间、奖励空间、状态转移概率空间和折扣因子组成,所以根据强化学习公式,对由<s,a,t,r,γ>形成的五元组进行精确定义。

13、状态空间:系统状态s∈s定义为卫星状态和待关联航空器状态的集合。

14、动作空间:动作a∈a是选择一颗卫星为待关联航空器提供服务。请注意,并非每个时间段内都会涉及到一个选择的动作:这个动作可能发生也可能不发生。

15、状态转换:在每个时间段内最多考虑一次航空器到达的情况。过去的决定和当前待关联航空器的状态信息构成了系统的状态,选择不同的动作会带来不同的状态转换。

16、奖励:本发明中使用航空器吞吐量的对数和作为奖励值r。第i个航空器与第j个卫星相关联可得到的奖励值为

17、

18、折扣因子:在强化学习的公式中定义了折扣因子γ以估计预期的折扣累积奖励

19、

20、接下来通过贝尔曼方程更新策略π来优化预期的折扣累积奖励。在本发明的场景中,考虑策略π的动作价值函数,定义为

21、

22、并给出函数的转换关系表达式

23、qπ(s,a)=r+γqπ(s′,π(s′))          (18)

24、其中s′表示s的下一状态。

25、进一步的,本发明所提出的融合drl和gnn的航空器关联算法,步骤(3)所述的将复杂卫星网络用图进行建构,从而让图神经网络参与决策过程的方式如下:

26、对于图神经网络中图的表示,假设处于同一轨道内且运行在同一个系统中的所有卫星都可以相互交互,将其连接成图,图中的节点由卫星表示,每个节点的状态由其所代表的卫星的状态信息和航空器相对于该卫星的特征组成。

27、图神经网络的目标是学习如何最好地逼近q函数。因为卫星之间可以进行通信,所以相对于传统强化学习中的神经网络模型,图神经网络可以线性地组合其相连邻居的向量。而当连接k个这样的层时,一个节点的最终向量表示(即gnn的输出)将取决于其多达k跳之外的邻居。需要注意的是,gnn的训练过程和执行过程是分开进行的:一旦训练了gnn,就可以立即根据状态和可能的动作预测q函数。

28、进一步的,本发明所提出的融合drl和gnn的航空器关联算法,还包括步骤(4)、进行仿真实验分析,对步骤(1)至步骤(3)所执行的融合drl和gnn的航空器关联算法的性能和易用性、对系统吞吐量的提升效果进行验证分析。

29、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

30、(1):基于sinr建立目标优化模型,模型考虑多种干扰因素,除加性高斯白噪声(additive white gaussian noise,awgn)外,还需考虑其他卫星连接用户的信号干扰,更加接近实际应用场景。

31、(2):提出了一种基于gnn增强drl的关联算法,将gnn嵌入到drl算法框架中,通过gnn估算奖励函数,并考虑航空器和卫星之间相对位置及可持续覆盖时间。仿真结果证明,本发明能够实现短时间内的高效关联决策,显著提升超密集近地轨道卫星网络系统中的吞吐量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1