一种以用户为中心的无线光通信网络中基于强化学习的资源分配方法

文档序号：36427135发布日期：2023-12-20 22:38阅读：26来源：国知局

本发明属于无线光通信，具体涉及一种以用户为中心的无线光通信网络中基于强化学习的资源分配方法。

背景技术：

1、近年来，无线数据服务需求急速增长，无线射频频谱资源日益紧张，对现有的无线通信技术提出若干挑战。无线光通信由于其频谱资源丰富、无电磁辐射、保密性好等优势，作为一种缓和移动数据强烈需求的可行解决方案，成为备受关注的研究热点。

2、无线光通信兼具照明与通信的双重功能，其利用高能效的发光二极管(led)作为接入点(ap)，将信息传输到配备有光电探测器(pd)的用户终端(ue)。目前，为了提高可达到的数据速率，无线光通信中的点对点传输从简单的开关键控(ook)和脉冲位置调制(ppm)到更复杂的光正交频分调制(oofdm)等已被广泛研究。

3、链路级取得的成就使得无线光通信网络的系统级研究也得到发展。传统的以网络为中心(nc)设计的小区会带来严重的小区间干扰(ici)，降低系统性能。相比之下，以用户为中心(uc)设计的非定型小区已被证明能够有效提高系统性能，小区内的多用户干扰可以采用预编码技术消除。但是，目前的研究通常基于理想化的假设，很少考虑led的非线性特性导致的削波失真问题，也很少考虑实际可达到的吞吐量。因此，考虑削波失真，在发射功率约束下选取最优的调制模式分配策略以实现系统吞吐量最大化是非常重要的。

技术实现思路

1、本发明所要解决的技术问题是针对上述现有技术的不足，提供一种以用户为中心的无线光通信网络中基于强化学习的资源分配方法。

2、为实现上述技术目的，本发明采取的技术方案为：

3、一种以用户为中心的无线光通信网络中基于强化学习的资源分配方法，包括：

4、步骤一，针对以用户为中心的无线光通信网络，计算用户终端与接入点之间的信道增益；

5、步骤二，根据用户终端的位置信息，利用k均值聚类算法对用户分簇；

6、步骤三，基于步骤一得到的信道增益以及步骤二得到的用户分簇结果，将接入点与用户关联，构建以用户为中心的小区；

7、步骤四，针对步骤三构建的以用户为中心的小区，在削波失真和功率约束下表述确定调制模式分配与功率分配策略，实现总吞吐量最大化的优化问题；

8、步骤五，将所述优化问题对应于强化学习问题，利用q学习算法求解强化学习问题，得到最优分配策略。

9、为优化上述技术方案，采取的具体措施还包括：

10、上述的步骤一包括：

11、根据用户k和接入点q之间的直射路径信道增益以及第一次反射路径的信道增益得到用户k与接入点q之间总的信道增益：进而得到信道增益矩阵其中，nu表示系统中的总用户数量；na表示系统中的总接入点数量；矩阵h中位于第k行第q列的元素[h](k,q):＝hk,q。

12、上述的用户k和接入点q之间的直射路径信道增益为：

13、

14、其中，m＝ln2/ln[cos(φ1/2)]为朗伯发射阶数，φ1/2表示半功率角；a表示光电探测器的物理面积；dk,q表示用户k和接入点q之间的距离；φ表示辐照角；ψ表示入射角；ts(ψ)表示光学滤波器的增益；g(ψ)＝n2/sin2(ψfov)为光学集中器的增益，n为折射率；ψfov表示接收器的视场角宽度。

15、上述的第一次反射路径的信道增益为：

16、

17、其中，表示由一个小反射点产生的反射项：

18、

19、其中，dk,r是用户k和反射点之间的距离；dr,q是反射点和接入点q之间的距离；dawall表示反射面积；ρ表示反射系数；α和β分别是到反射点和用户的辐照度角。

20、上述的步骤二引入聚类有效性函数e，并确定最优聚类数kopt：

21、

22、其中，表示类内距离，即每个聚类中所包含的数据样本到各个聚类中心的距离之和；表示类间距离，即所有聚类中心到全域中心的距离之和；ci表示第i个簇；x为第i个簇中的样本；表示第i个簇的中心；表示全部样本的中心，nu表示系统中的总用户数量；k表示簇的数量的取值。

23、上述的步骤三包括：

24、(1)基于信道增益矩阵h，为每个用户分配一个提供最强信道增益的最强接入点；

25、(2)，对于步骤二中得到的每个用户聚类，将与聚类中心相距不超过距离阈值d的接入点作为该聚类的扩展接入点；

26、(3)，将最强接入点与扩展接入点存于接入点集，形成以用户为中心的小区：对于第i个非定型小区ci，有|ai|个接入点在集ai中，为集ui中的|ui|个用户提供服务。其中|ai|，|ui|分别为集ai与集ui中元素的数量。

27、上述的(1)中，如果一个用户关于多个接入点具有相同的信道增益，这个用户被随机分配其中一个接入点；如果一个接入点面临qk和qf的关联请求冲突，则再次搜索信道增益矩阵h找到次优先的接入点q′k和q′f，如果高于则接入点与用户k关联；其中以及分别代表信道矩阵h中第k行第qk列、第f行第q′f列、第k行第q′k列以及第f行第qf列的元素。

28、上述的步骤四所述在削波失真和功率约束下表述确定调制模式分配与功率分配策略，实现总吞吐量最大化的优化问题，具体包括：

29、(1)，采用迫零预编码技术减轻小区内的多用户干扰，则第i个非定型小区ci内的多用户系统模型为：

30、yi＝higipixi+τi；

31、其中，为第i个非定型小区ci信道增益矩阵；为预编码矩阵；pi为分配的功率矩阵；为发射信号向量；为接收信号向量；nawgn表示方差为的加性高斯白噪声；表示方差为的削波失真；ii,k表示干扰；

32、(2)，直流偏置光正交频分复用中单个发光二极管产生的削波失真的方差：

33、

34、其中，pled表示每个发光二极管的电功率；f＝q(λb)-q(λt)为衰减因子，q(·)表示高斯q函数；εb＝pl-pbias，εt＝ph-pbias，pbias为直流偏置，pl,ph为线性功率下限、上限；φ(x)＝exp(-x2/2)/2π；

35、(3)，所述优化问题为：根据发射功率限制，计算实际调制模式下可达到的吞吐量的最大值：

36、

37、其中，表示第i个小区中用户k被分配调制模式m时所需的功率；表示信干噪比；gb表示带宽利用率；表示加性高斯白噪声，n0是功率谱密度；表示直流偏置的衰减；表示小区i中的用户k收到的来自其他小区的干扰，表示最大发射功率限制；xi,k,m＝1表示用户k被分配调制模式m，xi,k,m＝0表示用户k没有被分配调制模式m；如果对于用户k，说明该用户没有分配任何调制模式；

38、考虑dco-ofdm，实际调制模式下可达到的吞吐量：

39、

40、其中，ri,k,m表示第i个小区中的用户k在调制模式m下可达到的速率；m∈m，m表示调制模式集，包含|m|个调制模式；表示信息承载带宽。

41、上述的步骤五所述将优化问题对应于强化学习问题，具体包括：

42、无线光通信系统对应于环境；用户对应于智能体；每一级功率约束对应于一个状态，将最大发射功率限制离散化为j个级别：调制模式分配对应于智能体采取的动作，可达到的吞吐量对应于智能体获取的奖励。

43、上述的步骤五采用q学习算法求解强化学习问题，不断训练q表格直到q表格收敛，并利用训练好的q表格，选取最优分配策略，使系统吞吐量最大化；

44、在整个训练过程中，用户选择动作以及更新策略；并使用ε-贪心策略选择动作，即决策时有ε的概率随机选择动作，1-ε的概率按照q函数选择；

45、q表格里的值初始化为0，通过策略更新函数不断更新q值，以获得最大的长期累积奖励：

46、

47、其中，a为状态s下的动作，0＜α≤1为学习率，表示更新速率；r为奖赏值；0≤γ≤1为折扣因子；a′为下一状态s′的最优动作。

48、本发明具有以下有益效果：

49、本发明在考虑削波失真和功率约束下以最大化系统吞吐量为目标，将原始优化问题对应于强化学习问题，为了在功率限制下通过选取最优调制模式策略使系统吞吐量最大化，采用q学习算法解决强化学习问题，可以在满足实际功率约束的条件下最大化无线光通信网络的系统吞吐量。仿真结果表明，在一系列实际考虑下，所构建的以用户为中心的无线光通信系统可达到的吞吐量和中断概率都比传统的以网络为中心的无线光通信系统优越。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯斯梦李念赵一迪
技术所有人：南京航空航天大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。