基于强化学习的5G配网节点通信优化方法、设备及介质

文档序号:34391819发布日期:2023-06-08 10:17阅读:49来源:国知局
基于强化学习的5G配网节点通信优化方法、设备及介质与流程

本发明属于通信领域,具体的说是一种基于强化学习的5g配网节点通信优化方法、设备及介质。


背景技术:

1、配网节点数据传输延是一个重要的性能指标。当配网节点数据传输延时高于配网无线通信需求时,会导致配网工作站会无法实时获取电力设备信息,最终可能导致电力系统无法稳定运行。在配网中的复杂电磁环境中,无线通信容易受到干扰。这种干扰可能会导致通信延时的随机波动。当节点发射功率较高时,节点的电磁波信号会传播得更远,减少中继节点个数,降低数据传输延时;但是会覆盖范围更多的传感器节点,影响信道的利用率。节点采用较小的发射功率时又会增加中继节点个数,极大增加自身的端到端延时,无法满足配网无线通信的实时性需求。目前大部分的配网节点通信优化的方案仍然沿用传统思路,无法保证信息高利用率和无线通信的实时性需求。


技术实现思路

1、本发明是为了解决上述现有技术存在的不足之处,提出一种基于强化学习的5g配网节点通信优化方法、设备及介质,以期在满足5g配网节点通信前提下,得到最优的5g配网节点的发射功率,以保证信息高利用率和无线通信实时性。

2、本发明为达到上述发明目的,采用如下技术方案:

3、本发明一种基于强化学习的5g配网节点通信优化方法的特点在于,包括以下步骤:

4、步骤1、从5g配网中获取 j个节点的位置以及发射功率;

5、步骤2、从5g配网中 j个节点中选择一个节点作为策略体,其余 j-1个节点分别作为

6、 j-1个执行体,并与计算模块一起构成5g配网强化学习模型;

7、其中,所述计算模块由奖励模块和延时模块组成,所述奖励模块用于计算奖励 r;所述延时模块用于计算延时 t和网络拓扑 ng;

8、所述策略体的输入层接收所述奖励 r和 j-1个执行体的发射功率集合 d={ d1, d2,…, d i,…, d j-1}并进行处理后,由所述策略体的输出层输出损失 loss,其中, d i表示第 i个执行体的发射功率, i=1,2,…, j-1;

9、 j-1个执行体是由结构相同的神经元网络组成,任意一个神经元网络是由选择网络 net1和更新网络 net2组成;

10、第 i个执行体的神经元网络中的选择网络 net1 ,i接收第 i个执行体的发射功率 d i,并通过 softmax函数的处理后,得到第 i个执行体选择的动作集合 a i及其概率集合 π( a i),从而根据概率集合 π( a i)从动作集合 a i中随机选择一个动作 a i输出;

11、所述第 i个执行体的神经元网络中的更新网络 net2 ,i的输入层接收损失 loss、网络拓扑 ng和第 i个执行体的位置 s i、动作 a i,并依次通过更新网络 net2 ,i的隐藏层和输出层的处理后,得到隐藏层的参数集合 θ h2, i及其参数梯度集合 f( θ h2, i)、输出层的参数集合 θ o2, i及其参数梯度集合 f( θ o2, i);

12、步骤3、利用演员—评论家ac算法训练所述5g配网强化学习模型,并不断迭代更新所述5g配网中 j-1个执行体的发射功率集合,直到迭代到最大迭代回合数 m max为止,从而得到 j-1个执行体的全局最小发射功率集合 d min。

13、本发明所述的基于强化学习的5g配网节点通信优化方法的特点也在于,所述步骤3包括:

14、步骤3.1、定义当前回合数为 m,并初始化 m=1;

15、步骤3.2、定义当前第 m回合下当前训练的次数为 t,并初始化 t=1;

16、定义当前第 m回合下第t次训练的5g配网中 j-1个执行体的发射功率集合为 d m,t={ d1 m,t, d2 m,t,…, d i m,t,…, d j-1 m,t},其中, d i m,t表示当前第m回合下第 t次训练的5g配网中第 i个执行体的发射功率,当 t=1时,令 d i m,t的取值为5g配网中获取的第 i个节点的发射功率;

17、步骤3.3、所述第 i个执行体的选择网络 net1 ,i接收第 i个执行体的发射功率 d i m,t,通过 softmax函数处理后,得到第 i个执行体在当前第 m回合下第 t次训练选择的动作集合 a i m,t及其概率集合 π( a i m,t),从而根据概率集合 π( a i m,t)从动作集合 a i m,t中随机选择一个动作 a i m,t输出,以改变 5g配网中第 i个执行体的发射功率 d i m,t并得到当前第 m回合下第 t+1次训练的第 i个执行体的发射功率 d i m,t+1,其中, a i m,t是当前第 m回合下第 t次训练第 i个执行体的动作;

18、步骤3.4、所述延时模块根据 j-1个执行体的位置集合和发射功率集合 d m,t判断 5g配网的网络拓扑是否连通,若连通,则计算当前第 m回合下第 t次训练的延时 t m,t和奖励 r m,t,并保存当前第 m回合下第t次训练的网络拓扑 ng m,t;若不连通, t+1赋值给 t后,返回执行步骤3.3;

19、步骤3.5、所述策略体的输入层接收 j-1个执行体的位置集合和奖励 r m,t,并在输出层中通过 adam优化器计算当前第 m回合下第 t次训练的损失 loss m,t后输出;

20、步骤3.6、所述第 i个执行体的更新网络 net2 ,i接收当前第 m回合下第 t次训练第 i个执行体的发射功率 d i m,t、损失 loss m,t、动作 a i m,t和网络拓扑 ng m,t,并依次通过更新网络 net2 ,i的隐藏层和输出层的处理后,得到当前第 m回合下第 t次训练隐藏层的参数集合 θ m,t,h2, i及其参数梯度集合 f( θ m,t,h2, i)、输出层的参数集合 θ m,t,o2, i及其参数梯度集合 f( θ m,t,o2, i),并利用 f( θ m,t,h2, i)更新 θ m,t,h2, i,得到当前第 m回合下第 t+1次训练隐藏层的参数集合 θ m,t+1 ,h2, i,利用 f( θ m,t,o2, i)更新 θ m,t,o2, i,得到当前第 m回合下第 t+1次训练输出层的参数集合 θ m,t+1, o2, i;

21、步骤3.7、将 t+1赋值给 t后,判断 t> t max是否成立,若成立,则结束当前第 m回合训练,得到当前第 m回合下最小发射功率集合 d m,min,并将 d m,min存储在局部最优发射功率集合 d all,min中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中, t max是每回合最大迭代次数;

22、步骤3.8、将 m+1赋值给 m后,判断 m> m max是否成立,若成立,则结束所有训练,从局部最优发射功率集合 d all,min中选取全局最小发射功率集合 d min;否则,返回执行步骤3.2顺序执行。

23、所述步骤3.4中是利用式(1)和式(2)分别计算 ng m,t和 r m,t:

24、(1)

25、(2)

26、式(1)和式(2)中, ng m,t[ i,x]表示当前第 m回合下第 t次训练第 i个执行体与第 x个执行体之间是否连通;当 ng m,t[ i,x]=0时,表示第 i个执行体与第 x个执行体之间不连通,且第 i个执行体与第 x个执行体之间不共享参数梯度集合;当 ng m,t[ i,x]=1时,表示第 i个执行体与第 x个执行体之间连通,且第 i个执行体与第 x个执行体之间共享参数梯度集合; s x表示第 x个执行体的位置。

27、所述步骤3.6中是利用式(3)和式(4)更新第 i个执行体的更新网络 net2 ,i的隐藏层参数集合 θ m,t,h2, i和输出层参数集合 θ m,t,o2, i,并相应得到当前第 m回合下第 t+1次训练第 i个执行体的隐藏层参数集合 θ m,t+1 ,h2, i和输出层参数集合 θ m,t+1 ,o2, i;

28、(3)

29、(4)

30、式(3)和式(4)中,α是学习率, θ m,t,h2, k是当前第 m回合下第 t次训练第 k个执行体的隐藏层参数梯度集合, θ m,t,o2, k是当前第 m回合下第 t次训练第 k个执行体的输出层参数梯度集合。

31、本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述基于强化学习的5g配网节点通信优化方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

32、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述基于强化学习的5g配网节点通信优化方法的步骤。

33、与现有技术相比,本发明的有益效果在于:

34、1、本发明利用强化学习与环境不断交互不断学习的优势,并且考虑到配网数量多、分布广的特点,在5g配网保护系统环境下,通过一定数量的配网节点,构成一个稳定的拓扑结构,不断改变各个节点的发射功率,从而找到最优的配网节点的发射功率,确保了信息高利用率和低延时的无线通信实时性;

35、2、本发明利用5g通信技术为配网保护业务提供了低延时、高可靠的信息通道,从而解决了传统配网保护选择性较弱,故障定位不够精确,切除故障用时较长,配网线路无法实现故障切除后的自愈的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1