网络辅助全双工系统预分配-优化双工模式优化方法

文档序号:36777585发布日期:2024-01-23 11:48阅读:37来源:国知局
网络辅助全双工系统预分配-优化双工模式优化方法

本发明属于网络辅助全双工无蜂窝大规模mimo系统中接入节点ap双工模式优化,尤其涉及一种网络辅助全双工系统预分配-优化双工模式优化方法。


背景技术:

1、随着双工模式的演进,网络辅助全双工无蜂窝网络通过半双工ap实现网络级带内全双工,通过动态分配每个ap在每个时隙进行上行接收或下行传输,消除自干扰,大大提高了系统频谱效率。ap双工模式优化方法对提高网络辅助全双工无蜂窝系统的性能起着至关重要的作用。对于大规模物联网场景下的网络辅助全双工无蜂窝系统,灵活调整上下行ap的数量可以有效应对下行发送和上行接收之间日益增加的时变流量不对称情况。然而,随着某一区域内活动终端数量的急剧增加,网络负载急剧增加,提高网络辅助全双工无蜂窝网络的可靠多址接入和资源利用率变得至关重要。因此需要设计有效方案,对网络中的突发流量进行负载预测和资源块预分配,进行ap双工模式优化,从而实现频谱效率与资源利用率之间的平衡。


技术实现思路

1、本发明目的在于提供一种网络辅助全双工系统预分配-优化双工模式优化方法。现有的网络辅助全双工系统ap双工模式优化方案仅关注于提高系统的频谱效率而忽略了系统的资源利用率。因此本发明设计了一种网络辅助全双工系统预分配-优化双工模式优化方法,结合网络辅助全双工的优势和无蜂窝分布式大规模mimo系统的特点,可以实现频谱效率与资源利用率之间的有效平衡。

2、为解决上述技术问题,本发明的具体技术方案如下:

3、本发明的一种网络辅助全双工系统预分配-优化双工模式优化方法具体包括以下几个步骤:

4、步骤1、建立网络辅助全双工无蜂窝大规模mimo系统的信道模型和数据传输模型,得到用于接入节点(access point,ap)双工模式优化的信道状态信息和信干噪比表达式;

5、步骤2、定义负载感知效用函数,以表示系统的资源利用率;

6、步骤3、设计网络负载预测算法,对用户进行资源块预分配;

7、步骤4、建立ap双工模式多目标优化问题,采用基于深度强化学习的ap双工模式优化方法,对每个ap进行双工模式选择。

8、进一步的,步骤1具体包括:

9、步骤101:在一个网络辅助全双工系统中,建立由一个中央处理器(cpu)管理的区域场景模型;其中分布有m个接入节点ap和k个潜在接入用户;每个接入节点ap配备n个天线,并通过前传链路与中央处理器相连;每个用户配置单个天线;考虑块衰落信道模型,每个相干块的长度为τ;考虑到在实际场景中,k个潜在用户并不是一直处于活跃状态,用kt表示在第t个时隙内活跃用户的数量,其中数目的用户需要进行上行通信,数目的用户需要进行下行通信,在第t个时隙内,在中央处理器的控制下,分配进行上行接收的接入节点ap数量用表示,分配进行下行发送的接入节点ap数量用表示,其中预分配的资源块平均分配给区域内的所有接入节点ap,用于向活跃用户提供服务;

10、设k为集合[1,k]中的任意一个整数,m为集合[1,m]中的任意一个整数,从第k个用户到第m个接入节点ap的信道矢量记为gm,k;从第k个用户到所有接入节点ap的信道向量被建模为其中,上标符号(·)t表示对矩阵进行转置操作,表示克罗内克积的运算,λk=diag(λ1,k,…λm,k,…,λm,k)是协方差矩阵,表示第k个用户与第m个ap之间的大尺度衰落,α是第k个用户与第m个ap之间的路径损耗指数;dm,k是第k个用户到第m个接入节点ap的距离.in表示行列均为mn的单位矩阵。hk表示小尺度快衰落,它服从均值为0、相关矩阵为imn的多变量循环对称复高斯分布,imn表示行列均为mn的单位矩阵;

11、在每个信道估计阶段,设置系统中可以分配的正交导频总数量为τp,所使用的导频序列记为其中每个导频的内积结果等于1;分配给第k个用户的导频的下标记为tk∈{1,...,τ},第m个接入节点ap接收到的信号矩阵表示为其中ρp是导频序列的发射功率,是第k个用户的导频序列,是方差为的复加性高斯白噪声矩阵;通过前传链路,中央处理器得到m个ap接收到的信号矩阵的组合采用最小均方误差信道估计方法估计gk,并将对gk的估计结果记为其中是第k个用户与第m个ap之间估计信道的等效大规模衰落,是第k个用户与第m个ap之间估计信道的等效小尺度快衰落分量,它服从均值为0、相关矩阵为in的多变量循环对称复高斯分布;由于最小均方误差估计的正交性,gk分解为其中是独立估计误差向量;

12、步骤102:在接入节点ap模式优化阶段,用xu表示上行模式选择向量,xd表示下行模式选择向量;根据接入节点ap模式选择向量分配接入节点ap双工模式,个接入节点ap切换到上行模式,个接入节点ap切换到下行模式,它们的工作模式一直保持到第t个时隙结束;因此在数据传输阶段,基带信号经过中央处理器压缩后传送到个下行接入节点ap;下行接入节点ap对信号进行解压缩,然后转发给个下行用户;

13、设i为集合中的任意一个整数,j为集合中的任意一个整数,用来表示第j个下行用户和个下行接入节点ap之间的有效信道矢量,且其中gdl,j表示第j个下行用户和所有个下行ap之间的实际信道向量,和分别表示第j个下行用户和所有个下行ap之间的估计信道向量和估计误差向量;

14、因此第j个下行用户接收到的信号表示为:

15、

16、其中ρdl,k是第k个下行用户的下行传输功率,sdl,k表示第k个用户的下行传输数据符号,且第k个用户的下行传输数据符号乘上第k个用户的下行传输数据符号的共轭的期望为1,ρul,i是第i个上行用户的上行发射功率,uul,i表示第i个上行用户发送的上行数据符号,且第i个上行用户发送的上行数据符号乘上第i个上行用户发送的上行数据符号的共轭的期望为1,gt,j,i表示第i个上行用户和第j个下行用户之间的干扰信道矢量,ndl是下行信道的加性噪声,它服从符号表示具有零均值和相关系数为的多变量循环对称复高斯分布,是信道噪声的方差值;采用最大比率传输,第j个下行用户的下行预编码向量wdl,j定义为其中为信道估计阶段得到的第j个下行用户实际信道gdl,j的估计信道向量,xd在ap模式优化阶段得到,‖·‖表示向量的2范数;

17、则第j个下行用户在第t个相干时段的信干噪比表示为:

18、

19、其中分别为联合服务时为其余下行用户发送的信号造成的干扰和信道估计误差造成的干扰;其中ρdl,j′、wdl,j′分别表示第j’个下行用户的下行发送功率和下行预编码向量;其中ρdl,k、wdl,k分别表示第k个下行用户的下行发送功率和下行预编码向量,为第j个下行用户的估计信道误差向量;表示上行用户发送的数据造成的干扰;

20、上行传输时,多个上行ap共同接收来自所有上行用户的信;中央处理器接收到的信号yul表示为:

21、

22、其中表示第i个上行用户的有效上行信道矢量,gul,i表示第i个上行用户的实际信道矢量;表示上行ap和下行ap之间的有效干扰信道矩阵,即中央处理器重建下行到上行的干扰信号来进行干扰消除后残留的干扰信道矩阵;下行传输和上行接收同时发生,导致下行ap和上行ap之间存在干扰,这是降低网络辅助全双工无蜂窝系统频谱效率的主要因素;根据现有的干扰消除方案;表示上行信道有效加性噪声,其中nul服从均值为0、相关矩阵为的多变量循环对称复高斯分布,是信道噪声的方差值;

23、经最大比合并接收机矢量处理后,中央处理器接收到的信号表示为类似地,第i个上行用户的信干噪比表示为:

24、

25、其中为第i个上行用户的估计信道向量,表示其余上行用户联合发送信息带来的干扰,ρul,i'和分别表示第i’个上行用户的传输功率和估计信道向量;表示上行用户信道估计误差带来的干扰,ρul,k和分别表示第k个上行用户的传输功率和估计信道误差向量;表示上行ap与上行ap之间的残余干扰,其中ψdl,j为第j下行用户j的残余干扰的方差。

26、进一步的,所述步骤2具体包括:

27、步骤201:对负载感知效用函数进行建模;

28、在网络辅助全双工无蜂窝网络中,所有的上行(下行)ap在每个数据传输阶段共同服务于所有的上行(下行)用户;因此,ap的工作模式会对ap与用户之间的业务关系产生约束,从而影响ap的负载效用;根据不同终端的服务质量需求和ap负载效用的影响,为终端构建负载感知效用函数,以表示系统的资源利用率。

29、在网络辅助全双工无蜂窝网络中,第j个下行用户和第i个上行用户的负载感知效用函数分别表示为:

30、

31、

32、其中,为每个下行ap为了满足下行用户k需要为其提供的资源块rb的数量,为每个下行ap为了满足下行用户j需要为其提供的资源块rb的数量;为每个上行ap为了满足上行用户k需要为其提供的rb的数量;为每个下行ap为了满足下行用户i需要为其提供的资源块rb的数量;表示在t个时隙中预分配给cpu的rb总数;

33、系统的网络负载与活跃用户数量及其服务质量需求呈正相关;由图2可以看出,随着整体网络负载和用户服务质量需求的增加,用户的负载感知效用函数的值会减小。此外,ap双工模式的选择对和也有显著的影响。通过寻找能够最大化用户负载感知效用的ap双工模式,调整ap与用户之间潜在的业务关系约束;不同ap的网络负载将得到平衡。避免某些负载过重的ap无法为用户提供满意的服务。

34、进一步的,所述步骤3具体包括:

35、步骤301:设计网络负载预测算法;

36、采用差分整合移动平均自回归arima模型来感知和预测由实时网络负载引起的突发事件,该模型同时考虑了过去的观测值和随机误差;一个arima(p,d,q)模型表述为:

37、

38、其中p表示自回归项的个数,d表示移动平均项的个数,q表示差分操作项的个数;ca为常数项,和为模型的估计参数;表示第t时隙内的预测值,kt-i表示历史上的观测值,κt-j表示历史随机高斯误差;进行多次差分操作,直到时间序列通过adf检验证明是平稳的,这有助于确定d的值;然后利用赤池信息量准则来准确识别最优参数p和q,从而准确预测下一时隙快的活跃用户数,并计算其中为t-1时隙中为使服务需求最大的用户满意而需要为其提供的资源块rb的数量。

39、进一步的,所述步骤4具体包括:

40、步骤401:对ap双工模式优化问题进行建模;

41、根据推导出的信干噪比表达式,下行和上行用户的频谱效率都会受到ap和用户之间的交叉链路干扰的影响;为了缓解交叉链路干扰,中央处理器在空间上隔离以不同双工模式运行的ap,并通过调度ap的双工模式来减少以某种模式运行的ap的数量;这种ap双工模式分配方案虽然可以提高用户的频谱效率,但可能会导致某些ap的负载增加,从而导致用户的负载感知效用函数值降低,导致网络资源利用不平衡。因此,考虑在用户负载感知效用函数和频谱效率之间取得平衡,制定多目标优化问题;第一个优化函数f1的目标是最大化用户负载感知效用函数的和,描述为:

42、

43、s.t.xu+xd={1}1×m,  (9)

44、

45、

46、式中(9)为ap双工模式约束,对于某个ap,二进制赋值变量应为0或1;(10)和(11)为效用函数约束,确保系统中服务质量需求未得到满足的用户数为0;

47、第二个优化函数f1的目标是最大化频谱效率的总和;优化问题描述为:

48、

49、s.t.(9)~(11)

50、表示上行用户的频谱效率,表示下行用户的频谱效率;由于和这两个目标相互冲突,设置一个多目标优化问题f来表示这两个目标之间的权衡;在数学上,多目标优化问题表示为:

51、

52、s.t.(9)~(11)

53、的目标是同时最大化用户负载感知效用函数和频谱效率的总和;

54、一个多目标优化问题有多个帕累托最优解;虽然这些解是基于优势关系选择的,但仔细观察这些最优解,可以发现它们对应不同的多目标权重。通过调整这些权重,控制不同目标之间的权衡,并探索帕累托边界的不同区域,求出的帕累托最优解;

55、步骤402:采用强化学习方法求解优化问题

56、通过强化学习算法,将中央处理器作为智能体,根据预估的信道状态信息为每个ap选择双工模式;随后,中央处理器从系统环境中获得奖励,反映所选ap模式分配的性能;这一过程被建模为马尔可夫决策过程:

57、1)状态空间:状态空间定义为无限集一个1×m维数组st=[x1(t),x2(t),…,xm(t)]用于表示第t步马尔科夫决策过程中的环境状态;其中xm(t)=0表示在第t步马尔科夫决策过程中第m个ap以上行模式工作,xm(t)=1表示在第t步马尔科夫决策过程第m个ap以下行模式工作;

58、2)动作空间:at用于表示第t步马尔科夫决策过程中的智能体执行的动作;由于每个ap只有两种工作模式,通过执行位与位之间的异或操作,将原来的上行ap更改为下行ap或将原来的下行ap更改为上行ap;因此,这些动作构成马尔可夫动作空间其中actm表示第m个ap从原有工作模式切换到另一种工作模式的动作,且

59、3)奖励:智能体执行一个动作后,状态从第t步马尔科夫决策过程中的st变为第t+1步马尔科夫决策过程中的st+1;将第t步马尔科夫决策过程中奖励rt反馈给智能体,以评估在状态st下选择的动作;

60、

61、其中ζ=[ζ1,ζ2]是一个权向量,表示不同目标的权值;和是状态st中与优化函数f1和优化函数f2相关的奖励成分;

62、采用深度q网络dqn框架来设计基于深度强化学习的ap模式优化算法,其中网络参数为θ的深度神经网络作为q网络,用来计算q值;q值qπ(st,at;θ)表示智能体在第t步马尔科夫决策过程中状态st下采取特定行动at并遵循特定策略π,在参数为θ的q网络计算下,所能获得的期望总奖励;

63、

64、其中δ是折现因子,表示均值计算,qπ(st+1,at+1;θ)表示智能体在第t+1步马尔科夫决策过程中状态st+1下采取特定行动at+1并遵循特定策略π在参数为θ的q网络计算下所能获得的期望总奖励;

65、智能体观察第t步马尔科夫决策过程中的状态st并将其输入到参数为θ深度神经网络;深度神经网络求得q值qπ(st,actm;θ)来表示在给定输入状态st的情况下采取动作actm并遵循特定策略π所能获得的期望总奖励;在at=maxmqπ(st,actm;θ)时输出的q值最大,因此选择at为第t步马尔科夫决策过程中动作;获取at后,环境会给予第t步马尔科夫决策过程相应的奖励rt,并将系统状态更新为st+1;得到一个完整的经验元组et=(st,at,rt,st+1)并存储在经验回放缓冲区深度神经网络定期从b中提取nbatch=400个样本组成小样本经验集来更新网络参数θ;更新方法如下:

66、首先计算损失函数l(θ)

67、

68、其中θ-为优化时保持固定的q目标网络中的参数,每经过cup=20步马尔科夫过程后由q评价网络中的θ代替;表示对中的每个样本经验元祖进行的计算并将nbatch个结果组整一个nbatch行1列的向量,此列向量就是l(θ);然后,根据损失函数l(θ)通过梯度下降法调用损失函数来更新深度神经网络中的网络参数θ;基于深度强化学习的ap双工模式优化方法为离线策略,并采用ε-贪婪策略作为动作选择方法。

69、本发明的一种网络辅助全双工网络预分配-优化双工模式优化方法具有以下优点:针对大规模物联网场景中下行发送和上行接收之间日益增加的时变流量不对称以及终端数量急剧增加导致网络负载急剧增加的问题,充分利用网络辅助全双工系统通过半双工ap实现网络级带内全双工的优势,突破了传统大规模物联网场景中资源利用率低的问题。本发明首先定义了负载感知效用函数,以表示系统的资源利用率,并利用基于差分整合移动平均自回归模型的网络负载预测方法,感知和预测由实时网络负载引起的突发事件。接着本发明采用深度强化学习中的深度q网络进行ap双工模式优化。与传统的ap双工模式优化方法相比,本发明提出的方法先通过网络负载预测算法进行实时网络负载的预测和资源块预分配,然后用基于深度强化学习的ap双工模式优化方法计算复杂度低,收敛速度快,对处理大规模物联网场景中频谱效率和资源利用率的平衡问题具有非常重要的意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1