一种基于PD-NOMA的多波束LEO卫星系统资源分配方法

文档序号：25991218发布日期：2021-07-23 21:02阅读：来源：国知局

技术特征：

1.一种基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：包括以下步骤：

s1：首先基于用户uek，m，n与卫星之间的位置信息，根据视距损耗和降雨衰减效应，得到uek，m，n与卫星之间的信道增益；

s2：通过波束增益差异因子模拟在同一个卫星波束下增益值随着方向角向波束边缘靠近而逐渐降低现象，得到第k个波束在用户uek，m，n方向上的天线增益；

s3：根据用户uek，m，n与波束k之间的等效信道增益，同时考虑波束内与波束间干扰，得到用户uek，m，n在时隙t时的吞吐量；

s4：基于子信道分配因子和功率分配因子，使用深度强化学习寻找合适的子信道与功率联合分配的最佳资源分配方案。

2.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：

在步骤s1中，leo卫星使用ka频段与地面上的多个用户终端进行通信，ka波段卫星信道由视距损耗分量和缓慢的大气衰落决定，基于用户uek，m，n与卫星之间的位置信息，根据视距损耗和降雨衰减效应，得到uek，m，n与卫星之间的信道增益，具体包括：

s11：假设卫星到地面传输链路的信道增益在每个时隙内保持连续，在不同时隙间独立变化，在t时隙，uek，m，n与卫星之间的信道增益建模为：

其中，ck，m(t)＝(v/4πfdk，m(t))²表示自由空间衰落因子，v为光速，fc为载波频率；为时隙t时leo卫星与uek，m，n之间的距离，其中用户位于(xm(t)，ym(t)，0)，卫星位于(xk(t)，yk(t)，h)；

s12：第k个波束的第n个子信道的降雨衰落因子为：

其中，遵循均值为μr，方差为对数正态随机分布，即

3.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：步骤s2中，考虑波束增益的差异对卫星波束信号发射增益的影响，第k个波束在用户uek，m，n方向上的天线增益为：

gk，m(t)＝bk，m(t)gtgr

其中，gt为波束中心增益，gr为用户接收端增益，bk，m(t)为波束增益差异因子：

其中，j1和j3分别是1阶和3阶第一类贝塞尔函数，θk，m(t)为第k个波束中心与用户m之间的夹角，为波束k的3-db角。

4.根据权利要求3所述的基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：在发送端，为波束k子信道n上的用户集合，借助叠加编码技术，在t时隙，卫星发送到波束k子信道n上的叠加信号为：

其中，pk，m，n(t)和sk，m，n(t)分别代表leo卫星传输到uek.m.n的发射功率与信号；

在接收端，每个用户接收的信号不仅包含对应的期望信号，还包括来自波束内的用户干扰信号、波束间的用户干扰信号以及均值为0，方差为的加性高斯白噪声，即在t时隙，uek.m.n接收到的信号表示为：

5.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：在步骤s3中，用户uek.m.n与波束k之间的等效信道增益为信道增益与天线增益之和，即在时隙t，用户uek.m.n接收机端的sinr表示为：

其中，表示波束内的干扰，表示波束间的干扰。

6.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：在pd-noma系统中，用户uek.m.n解码时执行sic从叠加信号中减去等效信道增益比uek.m.n小的信号，把剩余信号视为干扰从而解调出自身信号，波束内的干扰为：

波束间干扰是由uek.m.n与共享相同的频带资源的不同波束所带来的：

根据香农定理，用户uek.m.n在时隙t时的吞吐量表示为：

rk，m，n(t)＝blog2(1+sinrk，m，n(t))。

7.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：在步骤s4中，基于子信道分配因子和功率分配因子，使用深度强化学习寻找合适的资源映射方案，确定以下三个元素集：

状态空间：s(t)＝{h1，1，1(t)，h1，1，2(t)，…，hk，m，n(t)，…，hk，m，n(t)}，hk，m，n(t)表示时隙t时波束k与用户m在子信道n上的信道系数；

动作空间：定义a(t)为系统在时隙t时的行为，其表达式为：

其中，xk，m，n(t)表示时隙t时对于用户m的子信道分配因子，pk，m，n(t)表示时隙t时在波束k的子信道n上分配给用户m的传输功率大小；

奖励：定义环境处于状态st时执行动作at，系统进入下一状态st+1，并得到即时奖励rt；将系统吞吐量设为即时奖励，即：

rt＝rtot(t)。

8.根据权利要求7所述的基于pd-noma的多波束leo卫星系统资源分配方法，其特征在于：步骤s4具体包括以下步骤：

s401：初始化系统参数，随机生成神经网络参数θ，θ′，w，w′，置有效经验回放池h与普通经验回放池d为空；

s402：令episode＝0，初始化状态s(0)，并置初始奖励值r0＝0，初始化动作探索率ε(s0)＝1；

s403：令t＝0，在每个调度时隙开始，收集当前时隙的状态，即网络拓扑状态信息、用户和卫星位置信息、信道增益信息和天线增益信息；

s404：根据下式选取近似最优的子信道与功率分配动作：

其中a为行动空间，即分别为子信道分配二进制变量，以及功率分配资源；

γ为折扣因子，γ∈(0，1)，表示未来收益对当前收益的影响越来越小，因此采取一定折扣；

rt为时隙t的即时回报函数，rt＝rtot(t)表示为整体系统的总吞吐量；

q^π(s(t+1)，a(t+1))为下一时隙的动作值函数；

s405：根据给定的子信道和功率分配变量，判断当前所述的资源分配策略是否满足卫星最大发射功率和用户最小传输速率限制条件，如果不满足则转到步骤s404；如果满足则执行步骤s406；

s406：执行动作a(t)，得到环境反馈奖励r(t)和下一个状态s(t+1)；若普通经验池和有效经验池都溢出则进入s407，若均未溢出，将向量(s(t)，a(t)，r(t)，s(t+1))放入经验回放池中，并转移到步骤403，令t＝t+1；

s407：从经验池h中抽取β·nd个样本，从经验池d中抽取(1-β)·nd个样本，构成nd个批量状态转移样本nd*(s(i)，a(i)，r(i)，s(i+1))进行训练；

s408：根据每一样本，逐一计算每个样本中的critic网络的td目标值y(t)＝r(t)+γ·q(s(t+1)，a′(t+1)；w′)和误差δ(t)＝y(t)-q(s(t)，a(t)；w)；通过根梯度下降法根据在线网络参数，并通过软更新方式更新目标网络参数；若|δ(i)|＞λ，则用(s(i)，a(i)，r(i)，s(i+1))代替有效经验池中的样本；最后根据下式更新动作探索率ε(st+1)

ε(st+1)＝φ·f(st，at，σ)+(1-φ)·ε(st)

s409：经过数次迭代，判断是否满足收敛条件，若没有满足收敛条件，转移到步骤s403，若满足收敛条件，则执行步骤s410；

s410：判断迭代次数是否满足最大迭代次数，若不满足，则令episode＝episode+1，并跳转到s402继续执行，否则结束。

技术总结
本发明涉及一种基于PD‑NOMA的多波束LEO卫星系统资源分配方法，属于卫星通信技术领域，在多波束LEO卫星系统下行传输场景中，引入PD‑NOMA技术，同时考虑波束间与波束内干扰，在卫星发射功率和用户QoS的约束下，联合子信道和功率分配来优化多波束LEO系统吞吐量，针对固定‑贪婪策略无法适应动态变化的学习过程的问题，采用状态值函数的差异动态调整动作的探索率，并设置双重经验回放池，加速神经网络的学习过程。本发明提出的卫星资源分配方法可以加速神经网络的收敛，在不同发射功率和传输速率条件下，能有效地提高系统的吞吐量。

技术研发人员：陈前斌;宋艾遥;李子煜;朱丹青;唐伦
受保护的技术使用者：重庆邮电大学
技术研发日：2021.05.13
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2