一种基于约束马尔可夫决策过程的高能效资源优化方法

文档序号:9649436
一种基于约束马尔可夫决策过程的高能效资源优化方法
【技术领域】
[0001] 本发明设及一种大规模天线系统中基于约束马尔可夫决策过程的高能效资源优 化方法,属于移动通信系统中的资源分配技术。
【背景技术】
[0002] 大规模天线技术W其高谱效、高能效的特点而成为未来移动通信中的关键技术。 但是随着天线数量的增加,整体的天线固定功率消耗也会急剧增加,功率模型需要重建,同 时,常规的波束赋型操作如迫零、最小均方误差等技术的计算复杂度会急剧上升,但幸运的 是,大规模天线系统的特点使得最为简单的最大混合比波束赋型即可实现优良的性能,然 而,最大混合比波束赋型却无法抑制用户间与小区间的干扰,进而造成能效表达式中的多 变量禪合问题。
[0003] 尽管大规模天线系统具有高能效的潜在优势,但是从绿色通信的角度而言,大规 模天线系统中的高能效资源分配方法仍然是亟需的。在考虑了大规模天线系统中的诸多问 题之后,本发明提供了一种高能效资源分配优化方法。

【发明内容】

[0004] 发明目的:为了克服现有技术中存在的不足,本发明提供一种大规模天线系统中 基于约束马尔可夫决策过程的高能效资源优化方法,解决在多小区场景中干扰严重(多变 量禪合)的情况下资源优化求解困难的问题,本发明方法易实施、收敛快,可W在保证用户 数据传输速率的服务质量前提下,有效提升大规模天线系统的能效。 阳〇化]技术方案:为实现上述目的,本发明采用的技术方案为:
[0006] 一种大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法,包括 如下步骤:
[0007] (1)对无线通信场景建立基于约束马尔可夫决策过程的数学模型;
[000引 似初始化拉格朗日算子向量与回报效用函数;
[0009] (3)利用改进值迭代算法处理优化问题,获得最优资源配置策略。
[0010] 所述步骤(1)中,建立基于约束马尔可夫决策过程的数学模型,具体包括如下步 骤:
[0011] (11)设定信道增益的量化段数QS与用户发射功率的量化段数QA,并对信道增益 客/言斯^和用户发射功率Pik进行均匀量化,得到近似信道增益4HkK和近似用户发射功率 aik,将近似信道增益4IikK称作无线通信场景中第1小区内的第k用户与第i小区内的第K用户之间的状态,将近似用户发射功率aik称作无线通信场景中第1小区内的第k用户 的行动;其中:giik为第1小区内基站与第1小区内的第k用户之间的信道传输向量,篡I为 guk的共辆转置形式,gIiK为第1小区内基站与第i小区内的第K用户之间的信道传输向 量,Pik为配置给第1小区内的第k用户的发射功率;
[0012] (12)将近似信道增益4IikK的所有可能取值表述为状态集合S。,将近似用户发射 功率aik的所有可能取值表述为动作集合a。;
[0013] (13)计算约束马尔可夫决策过程的状态转移概率矩阵P;
[0014] (14)设定回报效用函数与约束效用函数的折扣因子参数A; 阳〇1引(巧)构造回报函数R(Sc,曰。)和约束函数Cik(Sc,曰。);其中:Cik(Sc,曰。)为对第1小 区内的第k用户的约束函数。
[0016] 所述步骤(11)中:信道增益茲装,*.采用阔值组合产={〇 =巧',咕...,咕=单}进行 均匀量化,若G<.站輪-<巧4,则近似信道增益4IikK处于第b项,巧为信道增益量化阔值 组合的第b+1项;用户发射功率Pik采用阔值组合「'二{〇二。,r,i,.'.,G,二巧进行均匀量 化,若「/<化<r/,,则近似用户发射功率aik处于第C项,为用户发射功率量化阔值组 合的第C+1项,庐为用户最大可发射功率。
[0017] 所述步骤(13)中,计算约束马尔可夫决策过程的状态转移概率矩阵P,针对每个 可能状态,根据下述公式进行状态转移概率计算:
[0019] 其中:a为信道增益平均值,f为规格化后的最大多普勒频率;然后再构造QSXQS 的状态转移概率矩阵P,状态转移概率矩阵P中第b行第b'列的元素,记P(b,b')= p{V|b}。
[0020] 所述步骤(lf5)中,构造回报函数R(Se,a。)和约束函数Cik(Se,a。),分别为:
[0023] 其中:P。为无线通信场景中分摊给每个用户的电路固定功耗,式为信道高斯白噪 声方差。
[0024] 所述步骤似中,初始化拉格朗日算子向量为P。=[PIiJl=1,…,L,k= 1,…,K]T,初始化回报效用函数为;其中:Piw为针对第1小区内的第k用户的传输 速率约束的初始拉格朗日算子;L为无线通信场景中总的小区数目,K为每个小区中总的用 户数目。
[00巧]所述步骤(3)中,改进值迭代算法具体实施过程为:
[0026] (31)对回报效用函数的值进行迭化具体步骤如下:
[0027] ①构造Bellman表达式: ..玉、r ?
[0028] 巧(Qk,".)+S乂户KKK('<) 诚k=i .4
[0029] 其中:PIk为针对第1小区内的第k用户的传输速率约束的拉格朗日算子, p{s'els。}为状态转移矩阵的元素P(St,S'e),V;;片)为回报效用函数的第i'次迭代时 对状态Sf。的值;
[0030] ②遍历动作集合a。,获得使Bellman表达式值最大的动作组合 {,為,/= 1,…,LJ: = 1,…乂},将该动作组合称为功率配置策略JT*;
[0031] ③将功率配置策略JT嘴^入Bellman表达式,得到Bellman表达式的最大值,将该 最大值记为V;:" ,并W此更新回报效用函数<b');
[0032] ④判断回报效用函数乂 是否收敛:若收敛,则回报效用函数迭代过程结束,继 续执行后续步骤;若不收敛,则返回步骤①继续执行;
[0033] (32)计算约束效用函数:
[0035] 其中:n为无线通信场景中的第n个相干周期的开始时刻,皆为无线通信场景中第 n个相干周期的开始时刻的状态集合,<为无线通信场景中第n个相干周期的开始时刻的 动作集合;
[0036] (33)更新拉格朗日算子向量:
[0038] 其中:j'为拉格朗日算子更新步数,rmi。为无线通信场景中对用户设置的最低传 输速率约束;
[0039] (34)判断拉格朗日算子向量是否收敛:若收敛,则拉格朗日算子向量迭代过程结 束,继续执行后续步骤;若不收敛,则返回步骤(31)继续执行;
[0040](35)单独执行一次回报效用函数的值迭代程序。
[0041] 所述步骤(31)中,判断回报效用函数是否收敛的方法为:对给定的正常数 e(量级在10 2之内,则判断回报效用函数乂(5;)收敛; 符号I I I I表不矩阵的2-范数。
[0042] 所述步骤(34)中,判断拉格朗日算子向量是否收敛的方法为:对给定的正常数 e(量级在1〇2之内),若IIP,,U-PjlI《e,则判断拉格朗日算子向量收敛;符号III 表示矩阵的2-范数。
[0043] 有益效果:本发明提供的大规模天线系统中基于约束马尔可夫决策过程的高能效 资源优化方法,利用约束马尔可夫决策过程对大规模天线系统进行建模,有效地避免了繁 琐的公式推导与化简计算流程,利用值迭代算法可W快速地迭代出最优资源配置策略;同 时,本方法通过拉格朗日乘子法处理传输速率约束条件,使得原问题能够转化为无约束的 马尔可夫决策问题,从而极大简化了资源分配的分析求解过程;另外,通过值迭代算法和增 强学习算法,在保证得到资源分配的全局最优策略基础上,其离线运算性质还可W大大缩 减实际应用中基站处理信息进行资源配置的速度;此外,通过扩大状态集合与动作集合可 W大大提高最优策略的精度,实现扩展式资源优化方法。
【附图说明】
[0044] 图1为大规模天线系统的多小区场景示意图;
[0045] 图2为大规模天线系统中的高能效资源优化方法的流程示意图。
【具体实施方式】
[0046] 下面结合附图对本发明作更进一步的说明。
[0047] 考虑大规模天线系统的上行链路,无线通信场景中含有L个小区,每个小区有一 个配置M根天线的基站和K个单天线的用户;假设系统内通信为窄带通信过程,基站端采用 线性接收检测方式,且用户发射功率受限,用户传输速率需满足服务质量要求。大规模天线 系统中基于约束马尔可夫决策过程的高能效资源优化方法的实现过程如下。
[0048] 一、对无线通信场景建立基于约束马尔可夫决策过程的数学模型
[0049] (11)设定信道增益的量化段数QS与用户发射功率的量化段数QA,并对信道增益 氣;各&和用户发射功率Plk进行均匀量化,得到近似信道增益4HkK和近似用户发射功率 aik,将近似信道增益4IikK称作无线通信场景中第1小区内的第k用户与第i小区内的第K用户之间的状态,将近似用户发射功率aik称作无线通信场景中第1小区内的第k用户 的行动;其中:giik为第1小区内基站与第1小区内的第k用户之间的信道传输向量,滅为 guk的共辆转置形式,gIiK为第1小区内基站与第i小区内的第K用户之间的信道传输向 量,Pik为配置给第1小区内的第k用户的发射功率。
[0050] 具体来说,信道增益端各心采用阔值组合进行均匀量 化,若rf<絲容/*:《巧1,则近似信道增益4IikK处于第b项,巧为信道增益量化阔值组合 的第b+1项;用户发射功率Pik采用阔值组合「J,=巧进行均匀量化,若 r/<化<rf,i,则近似用户发射功率aik处于第C项,为用户发射功率量化阔值组合的第C+1项,#为用户最大可发射功率。
[0051] (12)将近似信道增益4IikK的所有可能取值表述为状态集合S。,将近似用户发射 功率aik的所有
...
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1