1.一种基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:包括以下步骤:
s1:首先基于用户uek,m,n与卫星之间的位置信息,根据视距损耗和降雨衰减效应,得到uek,m,n与卫星之间的信道增益;
s2:通过波束增益差异因子模拟在同一个卫星波束下增益值随着方向角向波束边缘靠近而逐渐降低现象,得到第k个波束在用户uek,m,n方向上的天线增益;
s3:根据用户uek,m,n与波束k之间的等效信道增益,同时考虑波束内与波束间干扰,得到用户uek,m,n在时隙t时的吞吐量;
s4:基于子信道分配因子和功率分配因子,使用深度强化学习寻找合适的子信道与功率联合分配的最佳资源分配方案。
2.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:
在步骤s1中,leo卫星使用ka频段与地面上的多个用户终端进行通信,ka波段卫星信道由视距损耗分量和缓慢的大气衰落决定,基于用户uek,m,n与卫星之间的位置信息,根据视距损耗和降雨衰减效应,得到uek,m,n与卫星之间的信道增益,具体包括:
s11:假设卫星到地面传输链路的信道增益在每个时隙内保持连续,在不同时隙间独立变化,在t时隙,uek,m,n与卫星之间的信道增益建模为:
其中,ck,m(t)=(v/4πfdk,m(t))2表示自由空间衰落因子,v为光速,fc为载波频率;
s12:第k个波束的第n个子信道的降雨衰落因子为:
其中,
3.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:步骤s2中,考虑波束增益的差异对卫星波束信号发射增益的影响,第k个波束在用户uek,m,n方向上的天线增益为:
gk,m(t)=bk,m(t)gtgr
其中,gt为波束中心增益,gr为用户接收端增益,bk,m(t)为波束增益差异因子:
其中,
4.根据权利要求3所述的基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:在发送端,
其中,pk,m,n(t)和sk,m,n(t)分别代表leo卫星传输到uek.m.n的发射功率与信号;
在接收端,每个用户接收的信号不仅包含对应的期望信号,还包括来自波束内的用户干扰信号、波束间的用户干扰信号以及均值为0,方差为
5.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:在步骤s3中,用户uek.m.n与波束k之间的等效信道增益为信道增益与天线增益之和,即
其中,
6.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:在pd-noma系统中,用户uek.m.n解码时执行sic从叠加信号中减去等效信道增益比uek.m.n小的信号,把剩余信号视为干扰从而解调出自身信号,波束内的干扰
波束间干扰是由uek.m.n与共享相同的频带资源的不同波束所带来的:
根据香农定理,用户uek.m.n在时隙t时的吞吐量表示为:
rk,m,n(t)=blog2(1+sinrk,m,n(t))。
7.根据权利要求1所述的基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:在步骤s4中,基于子信道分配因子和功率分配因子,使用深度强化学习寻找合适的资源映射方案,确定以下三个元素集:
状态空间:s(t)={h1,1,1(t),h1,1,2(t),…,hk,m,n(t),…,hk,m,n(t)},hk,m,n(t)表示时隙t时波束k与用户m在子信道n上的信道系数;
动作空间:定义a(t)为系统在时隙t时的行为,其表达式为:
其中,xk,m,n(t)表示时隙t时对于用户m的子信道分配因子,pk,m,n(t)表示时隙t时在波束k的子信道n上分配给用户m的传输功率大小;
奖励:定义环境处于状态st时执行动作at,系统进入下一状态st+1,并得到即时奖励rt;将系统吞吐量设为即时奖励,即:
rt=rtot(t)。
8.根据权利要求7所述的基于pd-noma的多波束leo卫星系统资源分配方法,其特征在于:步骤s4具体包括以下步骤:
s401:初始化系统参数,随机生成神经网络参数θ,θ′,w,w′,置有效经验回放池h与普通经验回放池d为空;
s402:令episode=0,初始化状态s(0),并置初始奖励值r0=0,初始化动作探索率ε(s0)=1;
s403:令t=0,在每个调度时隙开始,收集当前时隙的状态,即网络拓扑状态信息、用户和卫星位置信息、信道增益信息和天线增益信息;
s404:根据下式选取近似最优的子信道与功率分配动作:
其中a为行动空间,即
γ为折扣因子,γ∈(0,1),表示未来收益对当前收益的影响越来越小,因此采取一定折扣;
rt为时隙t的即时回报函数,rt=rtot(t)表示为整体系统的总吞吐量;
qπ(s(t+1),a(t+1))为下一时隙的动作值函数;
s405:根据给定的子信道和功率分配变量,判断当前所述的资源分配策略是否满足卫星最大发射功率和用户最小传输速率限制条件,如果不满足则转到步骤s404;如果满足则执行步骤s406;
s406:执行动作a(t),得到环境反馈奖励r(t)和下一个状态s(t+1);若普通经验池和有效经验池都溢出则进入s407,若均未溢出,将向量(s(t),a(t),r(t),s(t+1))放入经验回放池中,并转移到步骤403,令t=t+1;
s407:从经验池h中抽取β·nd个样本,从经验池d中抽取(1-β)·nd个样本,构成nd个批量状态转移样本nd*(s(i),a(i),r(i),s(i+1))进行训练;
s408:根据每一样本,逐一计算每个样本中的critic网络的td目标值y(t)=r(t)+γ·q(s(t+1),a′(t+1);w′)和误差δ(t)=y(t)-q(s(t),a(t);w);通过根梯度下降法根据在线网络参数,并通过软更新方式更新目标网络参数;若|δ(i)|>λ,则用(s(i),a(i),r(i),s(i+1))代替有效经验池中的样本;最后根据下式更新动作探索率ε(st+1)
ε(st+1)=φ·f(st,at,σ)+(1-φ)·ε(st)
s409:经过数次迭代,判断是否满足收敛条件,若没有满足收敛条件,转移到步骤s403,若满足收敛条件,则执行步骤s410;
s410:判断迭代次数是否满足最大迭代次数,若不满足,则令episode=episode+1,并跳转到s402继续执行,否则结束。