一种室内太赫兹BWP和功率调度方法及装置与流程

文档序号：24348265发布日期：2021-03-19 12:32阅读：132来源：国知局

本发明涉及移动通信技术领域，特别涉及一种irs辅助场景下基于ppo对偶训练的室内太赫兹bwp和功率调度方法及装置。

背景技术：

在无线通信技术的发展中，频谱资源一直是稀缺和宝贵的资源。如今，毫米波作为无线通信的关键技术之一，受到了业界和学术界的广泛关注。在即将到来的6g时代，太赫兹将以其更高的带宽和更窄的波束引发科学技术的革命性发展。但是，太赫兹波在空气中传播时，水分子会造成传输损耗，因此太赫兹通信更适合于短距离通信。但是，在室内环境中有许多障碍，例如家具，电器和移动的人，而太赫兹波的波长非常短。因此，室内的通信阻断效果非常大。

为解决上述问题，智能反射表面(irs)是一项全新的技术，可以通过在平面上集成大量相对便宜的无源反射元件来智能地重新配置发射信号，从而显著改善反射率无线通信网络的性能。一些研究提出要建立一个irs辅助的同时无线信息和功率传输系统，以提高能量收集性能。同时，与传统的正交多路访问技术相比，非正交多址接入技术(noma)可以提供更多的吞吐量负载和用户要求，从而提高整个系统的性能。

然而，在资源调度方面，现有技术主要针对功率的调度，而忽略了对带宽部分(bwp)的考虑，从射频信号处理的角度来看，使用宽带宽可能会导致不必要的功耗，导致资源难以合理利用，进而影响经济效益。

技术实现要素：

本发明的目的在于提供一种室内太赫兹bwp和功率调度方法及装置，利用近似策略优化算法(ppo)的演员-评论者(actual-critic)结构来实现功率和带宽两种资源调度，并引入原始对偶加快训练速度，从而实现对室内带宽和功率资源的合理调度，同时保证设备供应商的经济效益和能量有效性的最大化。

为解决上述技术问题，本发明的实施例提供如下方案：

一方面，提供一种室内太赫兹bwp和功率调度方法，包括以下步骤：

s1、初始化无线接入设备、用户以及智能反射表面的各项参数及状态，包括最初的发射功率p0，策略参数θ0:＝{μ0,σ0}，拉格朗日乘子λ0,φ0；

s2、从一个截断的标准正态分布里抽取样本

s3、计算太赫兹路损l(f,d)以及信道增益hj,k，包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径；

s4、将初始条件送入资源调度通式中；

s5、将从信道状态矩阵hjk得到的信道状态送入ppo算法中；

s6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计；

s7、利用原始对偶优化算法更新原始对偶的变量，直至奖励达到收敛；

s8、输出学习后的动作，调度的带宽因子β和功率p，以及最后的系统性能函数g0(x)；

s9、遍历所有用户，重复步骤s2到步骤s7，完成对于所有用户的调度；

s10、终止方法进程，取出数据。

优选地，在所述步骤s3中，对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

其中，hj,k是无线接入设备到用户的信道增益，hr,k是智能反射表面到用户的信道增益，hj,r是无线接入设备到智能反射表面的信道增益，φ是相位转移矩阵，hlos,j,k是不经过智能反射表面的信道增益。

优选地，在所述步骤s4中，所述资源调度通式表示为：一个利用遍历平均值x捕获系统的长期的瞬时系统性能函数：x≤e[f(h,p(h))]，其中，f(h,p(h))是瞬时性能函数。

优选地，在所述步骤s5中，将信道状态送入到ppo算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的q值函数产生一个新的动作，对于带宽因子进行调度。

优选地，在所述步骤s6中，根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

其中，x0是给定点，是采样点，α1,α2,α3分别是梯度估计的迭代因子，h是信道状态，是分配策略，是瞬时的系统性能函数的观察值，是约束函数的观察值，是目标函数的观察值，是计算得到的梯度观察值；

在所述步骤s7中，由步长γ1,γ2,γ3,γ4更新拉格朗日算子λk+1和φk+1，拉格朗日算子更新公式为：

θk+1＝θk+γ1▽θe[f1(h,π(h,θ))λk]，

xk+1＝xk+γ2(▽f0(xk)+▽f1(xk)φk-1)，

λk+1＝λk-γ3(ehf1(π(h,θk+1),h)-xk+1)，

φk+1＝φk-γ4f1(xk+1)，

其中，h是信道状态，f1(h,p(h))是瞬时数据传输速率，p(h)是瞬时发射功率，θk是第k次循环的参数集合，xk是第k次循环的遍历平均值，λk,φk是第k次的拉格朗日乘子。

另一方面，提供一种室内太赫兹bwp和功率调度装置，包括：

初始化模块，用于初始化无线接入设备、用户以及智能反射表面的各项参数及状态，包括最初的发射功率p0，策略参数θ0:＝{μ0,σ0}，拉格朗日乘子λ0,φ0；

样本抽取模块，用于从一个截断的标准正态分布里抽取样本

路损及信道增益计算模块，用于计算太赫兹路损l(f,d)以及信道增益hj,k，包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径；

初始条件输入模块，用于将初始条件送入资源调度通式中；

信道状态输入模块，用于将从信道状态矩阵hjk得到的信道状态送入ppo算法中；

梯度估计模块，用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计；

策略更新模块，用于利用原始对偶优化算法更新原始对偶的变量，直至奖励达到收敛；

输出模块，用于输出学习后的动作，调度的带宽因子β和功率p，以及最后的系统性能函数g0(x)；

遍历模块，用于遍历所有用户，完成对于所有用户的调度；

终止模块，用于终止方法进程，取出数据。

优选地，所述路损及信道增益计算模块具体用于对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

优选地，所述资源调度通式表示为：一个利用遍历平均值x捕获系统的长期的瞬时系统性能函数：其中，f(h,p(h))是瞬时性能函数。

优选地，所述信道状态输入模块具体用于：将信道状态送入到ppo算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的q值函数产生一个新的动作，对于带宽因子进行调度。

优选地，所述梯度估计模块具体用于：根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

所述策略更新模块中，由步长γ1,γ2,γ3,γ4更新拉格朗日算子λk+1和φk+1，拉格朗日算子更新公式为：

θk+1＝θk+γ1▽θe[f1(h,π(h,θ))λk]，

xk+1＝xk+γ2(▽f0(xk)+▽f1(xk)φk-1)，

λk+1＝λk-γ3(ehf1(π(h,θk+1),h)-xk+1)，

φk+1＝φk-γ4f1(xk+1)，

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计，并采用梯度辅助原始对偶求解得到这两种资源调度的最优解，然后，提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种室内太赫兹bwp和功率调度方法的流程图；

图2是本发明实施例的应用场景示意图；

图3是本发明实施例提供的一种室内太赫兹bwp和功率调度装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例首先提供了一种室内太赫兹bwp和功率调度方法，如图1所示，该方法包括以下步骤：

s1、初始化无线接入设备(ap)、用户以及智能反射表面(irs)的各项参数及状态，包括最初的发射功率p0，策略参数θ0:＝{μ0,σ0}，拉格朗日乘子λ0,φ0；

s2、从一个截断的标准正态分布里抽取样本

s3、计算太赫兹路损l(f,d)以及信道增益hj,k，包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径；

s4、将初始条件送入资源调度通式中；

s5、将从信道状态矩阵hjk得到的信道状态送入ppo算法中；

s6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计；

s7、利用原始对偶优化算法更新原始对偶的变量，直至奖励达到收敛；

s8、输出学习后的动作，调度的带宽因子β和功率p，以及最后的系统性能函数g0(x)；

s9、遍历所有用户，重复步骤s2到步骤s7，完成对于所有用户的调度；

s10、终止方法进程，取出数据。

本发明针对6g无线室内网络未来发展，提出了一种新颖的联合资源调度机制，采用近似策略优化算法(ppo)的演员-评论者(actual-critic)结构来联合解决对于连续功率和离散带宽的优化问题，并采用梯度辅助原始对偶求解得到这两种资源调度的最优解，然后，提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

具体地，在本发明的系统中，考虑了一个带有若干天线的ap和若干室内用户。如图2所示，为同时包括配备若干天线的ap，室内的若干用户，以及预设的irs。集合j是天线数，集合k是用户数。考虑室内ap与用户之间利用irs进行通信的应用场景(下行链路)，使用的频段为1thz，接入技术选择noma。

从ap到用户k的初始信号为sk，相应的预编码矩阵定义为fk，可以得到来自ap的发射信号x是：

然后考虑通过irs接收到的信号，在这种情况下，将有两个传输链路，hlos,j,k是直接传输而不通过irs，而hj,rφhr,k是通过irs平面的间接传输，这两个传输链接表征了已建立的系统状况。

显然，与后者相比，hlos,j,k由于太赫兹的高频而微弱。经过链路传输后，对应的第k个用户的接收信号yk的信号为：

其中hj,k是ap到用户的信道增益，而hr,k是irs到用户的信道增益，hj,r是ap到irs的信道增益，φ是相位转移矩阵，hlos,j,k是不经过irs的信道增益，nk是高斯白噪声，满足

为了后面方便计算用户的信息传输速率rk，下面做一下简化处理：

由于irs是一个平面，因此应根据均匀的平面阵列而不是均匀的线性阵列来计算其天线响应矢量。因此，其转向向量，irs中元素具有单位能量的响应可以写为如下公式：

其中，m和n是天线元素指数，λ是波长，φ和θ分别代表了信号入射的方位角和仰角，n代表的是天线总数(智能反射面反射因子数)，d是天线间隔，一般都设置

其中，nt代表发送天线数，nr代表接收天线数，αil代表的是信道的衰落系数，nclu和分别是方形天线阵列的簇和每个簇内的路径。

联系上述公式的关系，信道增益将通过下列的方式表征出来：

每行代表ap的天线的索引，每列代表当前用户的索引。

另外，太赫兹的分子吸收损失不能忽略。因此，直接路径收益来自扩散损失lspread和分子吸收损失labs，

l(f,d)＝lspread(f,d)labs(f,d)

其中和从分子方面看，labs由传输介质的情况决定。

使用遍历平均值捕获系统，可以将无线资源调度问题转换为长期瞬时性能函数：

其中f(h,p(h))是瞬时性能函数。系统设计的目标是选择资源调度p(h)以最大化遍历变量x。平均变量x反映了无线通信系统在很长一段时间内的性能，并受瞬时资源调度的影响。

在本发明的系统设计中，h是信道状态，p(h)是瞬时发射功率，f1(h,p(h))是瞬时数据传输速率。设计目标是在功率约束下最大化功率调度p(h)的遍历速率平均向量x。

maxfo(x)

在接收端，串行干扰消除(sic)技术用于多用户检测。在发送端，通过功率复用技术将同一子信道上的不同用户进行传输，并根据相关算法调度不同用户的信号功率，使得到达接收端的每个用户的信号功率不同。接收机根据不同的信号功率以一定的顺序执行干扰消除，以实现正确的解调。sic技术还可以达到区分不同用户的目的。瞬时响应函数1,k(hk,pk(hk))是关于容量的计算，

对于限定的函数f2(x)需要规定为，

所以问题变成了，

max∑ilog(xⁱ)

x∈χ,p∈p

对于上述的系统，强化学习中value-based的方法对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时，有可能因为个体观测的限制或者建模的局限，导致真实环境下本来不同的两个状态却在建模后拥有相同的特征描述，进而很有可能导致value-based方法无法得到最优解。因此，本发明中主要以policy-based为主，value-based为辅。

传统的policy-based解决办法是：

这种传统方法的缺陷在于更新步长γ1，当步长选的不合适的时候更新的参数会更差，因此很容易导致越学越差。因此需要找到一种合适的步长，使每次更新时都能保证回报函数单调递增。这时ppo在策略更新上，通过引入相对熵解决这个问题。

ppo是一套actor-critic结构，actor想最大化jppo(θ)：

但actor需要旧的策略上根据优势函数a(h,θ)修改新的策略，优势a(h,θ)大的时候，修改幅度大，让新策略更可能发生。而且附加了一个kl惩罚项，λ在该方法中设定为0.95。

对应的优势函数a(h,θ)为，表达在状态h下，某动作p相对于平均而言的优势，

其中f1'(π(h,θ),h)为针对信道状态h的新一步调度功率后计算下的瞬时性能函数，而f1(π(h,θ),h)为在信道状态h下的原调度功率下的瞬时性能函数。

在actor的惩罚函数的选择上，本发明采用ppo2：

其在这种情况下可以保证两次更新之间的分布差距不大。

对于critic部分，该罚命中则是对于输出的动作计算得到的瞬时性能函数的值进行bwp的调度，因为critic部分采用的是深度q学习网络的思路，所以需要将输出的瞬时性能函数进行离散化，具体的原则如下：

β＝{β1,β2,...,βn}

其中β是可供调度的物理资源块(prb)个数，更新条件考虑如下原则，对输出的性能函数f1(·)，满足：

βn+1←βn,f1(·)≥βnr0

其中r0是单位prb下可供传输的平均数据速率。

用户的请求访问速率可以通过zipf分布来表示，如下式：

rrequest＝1/n^αf1(·)

对之前的系统引入参数化会变成，

maxfo(x)

效用函数f0(x)考虑为加权操作，

f0(x)＝∑kwk(xk)

对于限定的函数f2(x)需要规定为：

为了表示方便，对于系统仍然用其拉格朗日函数为：

对四个参数依次求梯度：

xk+1＝xk+γ2(▽f0(xk)+▽f1(xk)φk-1)

φk+1＝φk-γ4f1(xk+1)

然后，利用零阶梯度更新替换原始度偶变量公式中的更新。零阶梯度估计可以通过有限差分的方式完成，其中通过随机观测构造给定点的无偏梯度估计。可以使用给定点x0，θ0和采样点下的函数观测值构造具有有限差分的梯度估计，

其中α1,α2,α3分别是梯度估计的迭代因子，而γ1,γ2,γ3,γ4是主要的原始对偶的迭代因子。

本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计，并采用梯度辅助原始对偶求解得到这两种资源调度的最优解，然后，提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

相应地，本发明的实施例还提供一种室内太赫兹bwp和功率调度装置，如图3所示，该装置包括：

样本抽取模块，用于从一个截断的标准正态分布里抽取样本

初始条件输入模块，用于将初始条件送入资源调度通式中；

信道状态输入模块，用于将从信道状态矩阵hjk得到的信道状态送入ppo算法中；

梯度估计模块，用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计；

策略更新模块，用于利用原始对偶优化算法更新原始对偶的变量，直至奖励达到收敛；

输出模块，用于输出学习后的动作，调度的带宽因子β和功率p，以及最后的系统性能函数g0(x)；

遍历模块，用于遍历所有用户，完成对于所有用户的调度；

终止模块，用于终止方法进程，取出数据。

进一步地，所述路损及信道增益计算模块具体用于对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

进一步地，所述资源调度通式表示为：一个利用遍历平均值x捕获系统的长期的瞬时系统性能函数：其中，f(h,p(h))是瞬时性能函数。

进一步地，所述信道状态输入模块具体用于：将信道状态送入到ppo算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的q值函数产生一个新的动作，对于带宽因子进行调度。

进一步地，所述梯度估计模块具体用于：根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

所述策略更新模块中，由步长γ1,γ2,γ3,γ4更新拉格朗日算子λk+1和φk+1，拉格朗日算子更新公式为：

θk+1＝θk+γ1▽θe[f1(h,π(h,θ))λk]，

xk+1＝xk+γ2(▽f0(xk)+▽f1(xk)φk-1)，

λk+1＝λk-γ3(ehf1(π(h,θk+1),h)-xk+1)，

φk+1＝φk-γ4f1(xk+1)，

本发明提供的室内太赫兹bwp和功率调度装置不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张海君;刘向南;隆克平
技术所有人：北京科技大学
我是此专利的发明人

上一篇：车辆自动变道方法、装置、车辆以及计算机可读存储介质与流程
上一篇：ToF传感装置及其距离检测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。