基于DRL的RIS辅助用户中心化去蜂窝系统中资源管理半并行方法

文档序号:29690248发布日期:2022-04-16 11:16阅读:209来源:国知局
基于DRL的RIS辅助用户中心化去蜂窝系统中资源管理半并行方法
基于drl的ris辅助用户中心化去蜂窝系统中资源管理半并行方法
技术领域
1.本发明设计了一种用于ris辅助uccf系统的基于drl的半并行联合优化方法。确切地说,该方案考虑了多变量(包括离散变量和连续变量)联合优化的复杂性,设计了一种基于drl的半并行框架,并为神经网络的收敛采取了技巧。以最大化系统可达速率为目标,联合优化aua,ues发射功率和riss反射系数,属于基于人工智能的无线通信技术领域。


背景技术:

2.近年来,随着无线通信和人工智能的发展,“万物智联”的概念被提出,以小区为中心的蜂窝系统受限于边缘效应,已不能满足日益增加的系统容量需求。cf系统通过部署大量的分布式的aps服务于ues,消除了小区边界的概念,提高了空间宏分集增益并减少了路径损耗,实现了更大的系统容量。但是,aps和ues分布不均匀,导致部分aps与ues间距离较远,对其速率提升贡献较小,却增加了ues能耗和cpu资源消耗。为了缓解该问题,uccf系统被提出。选择合适的aps服务于每个ue,降低硬件能耗,同时可以带来更高的系统吞吐量。因此,高效的aua技术对uccf系统性能的发挥至关重要。
3.aps的密集部署是提高cf网络吞吐量的有效方法,但同时也会带来能耗和部署成本的增加。ris集成了大量低成本无源的超材料元件,通过适当调整各元件的反射系数,可以实现无源波束形成,增强接收信号的信干噪比。因此,ris具有提高uccf系统的可达速率的潜力。目前可以证明ris辅助cf系统可以实现比传统cf网络更高的容量。然而ris也给uccf系统带来了ris反射系数矩阵优化的挑战,增加了算法的设计复杂度和收敛时间。
4.由于ris辅助uccf系统变量间特性比较复杂,使用传统方法难以捕捉变量间的潜在影响,非线性搜索不可避免。另外采用传统算法求解多变量联合问题的效率和可靠性难以保证,阻碍了ris辅助uccf系统潜力的发挥。近年来,基于学习的优化算法在求解复杂数学任务上表现突出,通过使用非线性模型自适应拟合输入和输出之间的策略来执行决策任务。drl由于其无监督和迁移学习的特性,被认为是复杂环境下解决资源管理任务的一种可行方法。因此,在ris辅助uccf系统中开发基于学习的智能优化算法具有重要意义。


技术实现要素:

5.有鉴于此,本发明的目的是搭建一个ris辅助uccf系统,在考虑ue最大传输功率、riss反射系数模1和ues的qos等约束下,提供一种基于drl的半并行联合优化方法,实现低复杂度高效率的ris辅助uccf系统下的资源管理,主要包括aua优化、ues发射功率控制以及riss反射系数管理。考虑一个uccf系统中,m个单天线aps依据aua原则服务于k个单天线ues(m>k),其中aps和ues之间通过j个有n个元素的riss作为补充链路,改善通信质量。ap端采用匹配滤波接收的方式解调ue信息。在此基础上,通过基于drl的半并行优化框架求解系统的可达速率。
6.所述方法包括下列三个操作步骤:
7.(1)基于ris辅助uccf上行系统最大化系统可达速率的联合优化框架设计:以最大化ris辅助uccf上行系统最大化系统可达速率为目标,在ue最大传输功率、riss反射系数模1、ues的qos和aua关联原则的约束下联合优化aua,ues传输功率和riss反射系数(一个离散变量和两个连续变量)。为了降低算法训练复杂度,将ue-ris和ris-ap间的信道转化为等效的间接信道。ap-ue间总的等效信道为:其中h
mk
为ue k与ap m间的直连信道,h
mjnk
为ue k与ap m间通过ris j上第n个元素反射的等效信道,为ris j上第n个元素的反射系数。假设该系统中,每个ap只能服务于一个ue,每个ue至少被一个ap服务。aua为由元素λ
mk
组成。若λ
mk
=1表示ap m服务于ue k;否则ap m不服务于ue k。在上行导频估计阶段,通过逐一开关ris元素的方式,利用最小均方误差估计子进行信道估计,可得h
mk
和h
mjnk
的估计信道:其中和是莱斯信道中的los分量,和为nlos分量。和为估计系数,是ue k发送的上行导频功率,β
mk
和β
mjk
是大尺度衰落系数,为加型噪声。通过匹配滤波,ap m仅解调其服务的ue,并送往cpu进行ue信息的合并,ue k上行链路的信干噪比(sinr)为:
[0008][0009]
以最大化系统可达速率和为目标的资源管理问题可以建模为:
[0010][0011]
s.t.c1:0≤pk≤p
k,max

[0012][0013][0014][0015][0016][0017]
其中p
k,max
为ue k最大发射功率,为ue k的最低速率。
[0018]
(2)基于用户中心化的aua设计:基于环境信息和prcm结果,更新aua模块的输入,
利用bpso算法执行aua矩阵的优化。每个epoch只需配置一次aua(aua和prcm模块一次完整的迭代为一个epoch)。
[0019]
(21)基于初次迭代的初始化或者prcm模块输出的功率-相移联合动作a=(a
p
,ar),建立bpso算法的模型寻找aua矩阵的最优解。首先根据初始化信息计算出当前初始化的每个粒子个体最优位置pbesti和群体最优位置gbest及其对应的适应值和gbestf。若为第一个epoch,需初始化gbestf和联合动作a,否则gbestf为prcm模块中最大的回报值r
opt
,a=a
opt
为最大回报对应的联合动作。
[0020]
(22)根据目标函数和约束,粒子x
id
的适应度函数为:
[0021][0022]
其中,k

为不满足约束c6的ue数目与不满足约束c4的ap数目和,aa是一个常系数。在每次迭代中根据适应度函数更新粒子的速度和位置,并更新个体最优pbesti和适应值以及全局最优gbest和适应值gbestf。速度更新公式为:
[0023]vid
=ω
·vid
+c1·
rand()
·
(pbest
i-x
id
)+c2·
rand()
·
(gbest-x
id
).
[0024]
通过sigmiod函数,将速度映射到0-1之间:rand()为产生一个0-1间随机数的函数。若rand()≤s(v
id
),则x
id
=1,否则x
id
=0。由此更新位置。
[0025]
(23)重复步骤(22),将适应值收敛后输出的全局最优粒子的位置视为当前最优的关联矩阵的解。
[0026]
(24)判断此时aua是否满足约束c3-c5,若满足则输出给prcm模块,作为当前epoch中静态状态,参与环境中回报的计算;若不满足约束,利用当前的个体最优于群体最优位置和适应值,重复进行步骤(22),(23),直至满足约束输出aua。
[0027]
(3)基于drl的prcm并联优化框架设计:基于aua结果和静态环境信息,采用由两个并联的drl的智能优化框架与环境进行交互,更新神经网络参数,输出ues传输功率和riss相移联合动作。
[0028]
(31)为了有效优化两个不同取值范围、不同分布的两个优化变量,我们将其分解为两个子模块:功率学习(pl)子模块和反射系数学习(rcl)子模块。将其建模为马尔科夫过程,其中,为状态空间;为动作空间;为状态转移概率,t为当前时刻;为回报函数;γ∈[0,1)为回报折扣因子。pl和rcl子模块共用同一个记忆回放库,状态空间与回报函数相同,动作空间、网络策略以及折扣因子独立。
[0029]
(32)首先,利用ris辅助uccf的通信系统中csi、sinr、用户传输功率等信息建模环境、动作、状态、奖励。在t时刻,pl输出的功率动作rcl输出riss元素的相移动作联合动作为了降低输入数据空间大小,将状态分为静态状态和动态状态:
[0030][0031]
静态状态在训练过程中保持不变。动态数据中存在数据的冗余,另外aua结果λ在每个epoch中保持不变,每个epoch将更新的λ输入进prcm模块参与环境中奖励计算,因此,神经网络实际的输入状态为根据目标函数、约束和bpso的适应度函数,回报函数定义为:
[0032][0033]
其中k
l
为不满足约束c6的ue数目,a
l
=aa=a为常系数。
[0034]
(33)pl和rcl子模块中分别搭建一个td3网络。智能体与环境交互获得当前时刻的实际动态状态信息,输入到pl和rcl网络执行当前策略,得到联合动作。在环境中进行运算,得到当前状态下执行该动作所获得的回报和下一时刻的状态,将(s,a,r,s

)存入经验回放库。
[0035]
(34)在经验回放库中通过小批次采样的方法采样数据,注意:pl子模块和rcl子模块分别取样,并在联合动作中分离出自己的动作,更新各自的网络参数。目标critic网络的动作为:为策略网络平滑噪声。td3利用双q网络结构抑制ddpg的过估计:估计critic网络参数的更新策略为:采用确定性策略梯度的方式更新估计actor网络参数:目标actor和目标critic网络通过软更新的方式更新参数。
[0036]
(35)重复步骤(33)-(34),直到一个epoch完成。将最大回报和最大回报对应的联合动作,输入给(2)中所述的aua模块。
[0037]
(4)根据预先设计的迭代策略,迭代(2),(3),直至prcm模块的奖励收敛。
[0038]
本发明中,为了提高uccf系统的可达速率,提出了ris辅助uccf系统,开发了一种基于drl的半并行的优化方法。该算法可以解决传统优化方法难以解决的多数据类型、多取值分布的多个变量联合优化问题,并设计了训练的技巧,降低了数据处理量和训练的复杂度,提高了神经网络的收敛速度和稳定性。提出的问题系统可达速率最大化问题是一个复杂的np-hard问题,并且同时包含一个离散变量和两个连续变量,完全的基于drl的算法训练难以收敛,复杂度高,难以获得全局最优解。为此,我们根据变量类型将其分解为aua和prcm两个子任务。在aua子任务中,采用bpso针对二进制离散变量aua求解最优解,在prcm子任务中,采用并联的drl智能算法,联合求解ues发射功率和riss相移两个连续变量的最优解。本发明可以提升ris辅助uccf系统的上行可达速率,同时降低的训练的复杂度并提高了神经网络的收敛性能。
附图说明
[0039]
图1是本发明的应用场景:ris辅助uccf上行传输系统模型图。
[0040]
图2是本发明中基于drl的半并行算法的流程图。
[0041]
图3是本发明实施例中,不同学习率下该算法的收敛图。
[0042]
图4是本发明实施例中,ris辅助uccf系统中,不同算法在不同ue最大发射功率下的系统可达速率和的曲线图。
具体实施方式
[0043]
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
[0044]
参见图1,本发明的应用场景是:配备单天线的多个aps和ues之间经过多个riss增强通信。采用经典ris辅助的cf系统信道模型:ue到ris,ris到ap以及ue到ap的信道都服从莱斯衰落,其中los分量和大尺度衰落系数是已知的,且在一个时间帧中维持不变;nlos分量需要通过上行信道估计得出。假设每次完整的通信都在相关时间内进行,使用正交的导频序列在ap处进行上行信道估计,然后进行上行数据的传输。每个ap利用估计信息,通过匹配滤波的方式,解调其服务的ue的数据信息。在cpu处完成ue数据信息的合并,可得ues的速率和。利用基于drl的半并联算法,联合优化aua、ues上行传输功率和riss相移。
[0045]
我们的目标是最大化ris辅助uccf系统上行链路的系统可达速率。首先构建的问题是复杂的np-hard问题,难以通过传统优化算法求解。由于优化变量包含取值范围不同的离散变量和多个连续变量,直接利用drl算法难以收敛。在基于drl的半并行算法中,将优化任务分解为aua和prcm两个子任务。针对aua子任务,通过bpso迭代算法求解最优的aua,将其输入到prcm模块。针对prcm子任务,我们将其转化为马尔科夫决策过程,并考虑到功率和相移的取值分布不均,开发了一种并行的drl算法。为了提高算法的收敛性,采用了先进的td3算法,并设计了使神经网络训练稳定的技巧,以其低复杂度,快收敛的优势,学习功率和相移的输出策略。
[0046]
为了展示本发明的实用性,申请人进行了多次仿真实施试验。试验系统中的传输系统模型为图1所示的应用场景,仿真试验的结果如图3和图4所示。在图4的基准方案中,我们展示了不同算法在不同的ue最大发射功率下的系统可达速率和的曲线图。
[0047]
以上所述仅为本发明的较佳实例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改,等同替换、改进等,均应包含在本发明保护的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1