一种无人机飞行基站的三维部署和功率分配联合优化方法

文档序号:26146131发布日期:2021-08-03 14:32阅读:来源:国知局

技术特征:

1.一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,包括步骤:

(1)无人机基站系统模型

s1:建立无人机飞行基站服务地面用户簇的系统模型;所述系统模型包括一架无人机,所述无人机服务的k个地面用户形成的用户簇,和所述无人机到所述地面用户的空地信道。

(2)系统吞吐量优化模型

s2:同时考虑视距传输和非视距传输对所述空地信道的影响,得到所述无人机到所述地面用户的路径损耗;

s3:以最大化系统吞吐量为目标,所述无人机三维位置和功率分配为联合优化变量,构建所述无人机服务所述地面用户簇的系统吞吐量优化模型;

(3)系统吞吐量优化模型求解

s4:将所述系统吞吐量优化模型构建为马尔可夫决策过程;

s5:结合注水算法,对所述马尔可夫决策过程的动作空间进行降维,并采用深度确定性策略梯度进行求解,得到所述无人机的最优三维部署位置和功率分配策略。

2.如权利要求1所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤s2中,所述无人机到某一地面用户k存在视距传输的可能性表示为:

其中,α和β表示与地理环境相关的统计参数;θ表示所述无人机到所述地面用户k的仰角,表示所述无人机的三维坐标,表示所述地面用户k的三维坐标,||q-wk||表示所述无人机到所述地面用户k的直线距离。

则,对应的所述非视距传输的可能性表示为:

3.如权利要求2所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于:

其中,fsplk表示自由空间传播路径损耗,fc表示载波频率,c表示光速;ζk表示所述无人机到所述地面用户k的总路径损耗,它是由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望,ηlos和ηnlos分别表示由视距传输和非视距传输造成的附加路径损耗。

4.如权利要求3所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,不考虑信道中的快衰落和慢衰落,所述无人机到所述地面用户k的信道增益gk表示为:

其中,是基于式(1)的关于α、β、q和wk的函数;除所述无人机的三维位置q外,所述信道增益gk中的其余参数皆为已知量或常数,则gk是关于无人机的三维位置q的函数。

5.如权利要求4所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,设定φth为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(rsrp)阈值,则所述无人机到某一地面用户k的传输速率rk表示为:

其中,b表示所述系统的带宽,k表示所述总地面用户数,k个用户正交地均分带宽b来避免无线干扰,n0表示高斯白噪声的功率谱密度,φk表示所述用户k的rsrp值。

则,基于式(5),式(6)是关于所述无人机三维位置q和分配给某一地面用户k的功率pk的函数。

6.如权利要求5所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤s3中,建立的所述系统吞吐量优化模型具体为:

其中,目标函数(7)表示最大化所述系统吞吐量,决策变量为所述无人机的三维位置q和分配给某一地面用户k的功率pk,是k个地面用户的集合;约束(8)表示所述无人机的高度限制,分别表示允许的最小和最大高度;约束(9)表示所述无人机的总发射功率限制pmax;约束(10)表示分配给所述用户k的功率非负;约束(11)表示所述无人机只服务rsrp值φk大于rsrp阈值φth的用户。

7.如权利要求6所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,所述步骤s4将所述系统吞吐量优化模型建立为马尔可夫决策过程(mdp)的具体步骤包括:

s41:根据式(7),设定所述无人机的三维位置q为所述mdp的状态空间

s42:设定无人机的位移和分配给所述地面用户的功率pk为所述mdp的动作空间

s43:基于所述的状态和动作空间,所述无人机的下一个状态(三维位置)可表示为当前状态(三维位置)加上当前的动作(位移),则所述mdp的状态转移概率表示为:

其中,s′和s分别表示下一个状态和当前状态,a表示当前动作。

s44:根据式(7)的优化目标和所述无人机的动作,设定在某一状态转移时刻t下,所述mdp的奖励值为:

rt=κct-λ||dt||2(13)

其中,κ和λ是奖励的调整因子,奖励中的第一项表示对提高系统吞吐量奖励,第二项表示对无人机大尺度位移的惩罚。

8.如权利要求7所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤s5中,将注水算法结合进所述mdp的每一个状态转移中,输出涉及的每一个状态的最佳功率分配,使动作空间降维成

9.如权利要求8所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤s5中,深度确定性策略梯度更新两个估计网络的参数的损失函数为:

其中,θμ和θq分别是actor估计网络μ(st∣θμ)和critic估计网络q(st,at∣θq)的参数;μ(st∣θμ)根据所述无人机的当前状态输出动作,q(st,at∣θq)对该动作进行评分,给出一个q值;两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数。

10.如权利要求9所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,式(15)的损失函数中的yt表示为:

yt=rt+γq′(st+1,μ′(st+1θμ′)∣θq′)(16)

其中,rt是基于式(13)的所述mdp的奖励值,γ奖励折扣因子,μ'(st∣θμ')和q'(st,at∣θq')分别是所述深度确定性策略梯度的目标actor网络和目标critic网络;两个目标网络和两个估计网络结构相同,但是参数更新的方式采取“软更新”,即每次更新是从估计网络复制一部分参数;软更新的公式表示为:

θμ’←τθμ+(1-τ)θμ’(17)

θq’←τθq+(1-τ)θq’(18)

其中,θμ’和θq’分别是目标actor网络和目标critic网络的参数;τ是软更新因子,满足τ<<1。


技术总结
本发明涉及了无人机飞行基站技术领域,具体公开了一种派遣无人机作为飞行基站服务地面用户簇的三维部署和功率分配联合优化方法。同时考虑视距传输和非视距传输对无人机到各用户的空地信道的影响,建立联合优化无人机三维位置和功率分配的最大化系统吞吐量模型。利用深度强化学习方法深度确定性策略梯度在连续的状态和动作空间中对该模型进行求解,结合注水算法对动作空间降维,使无人机成功学习最佳的三维部署位置和功率分配策略以对服务用户提供最大的吞吐量,在无人机能量有限的情况下提升了其能效。

技术研发人员:付澍;张萌
受保护的技术使用者:重庆大学
技术研发日:2021.04.30
技术公布日:2021.08.03
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1