技术简介:
本发明针对多无人机基站同频段服务导致的严重干扰和能耗问题,提出基于平均场博弈的轨迹与功率联合优化方法。通过构建考虑能量差异和服务半径的状态动态方程,结合强化学习算法迭代优化,实现干扰抑制与能耗降低的平衡,保障通信质量。
关键词:多无人机基站优化,平均场博弈,功率分配
【
技术领域:
】本发明属于无线通信
技术领域:
,具体涉及一种多无人机基站轨迹优化和功率分配方法。
背景技术:
:近年来,随着无人机大规模生产及应用,无人机用于无线通信领域迅速成为研究热点。与此同时,第五代通信无线网络的研究与发展加快了无线通信网络的多样化进程。作为第五代无线通信的重要组成部分,无人机有望在多样化无线通信网络中发挥关键作用。国际电信联盟提出,无人机辅助5g无线通信可以应用于增强型移动宽带、超可靠低延迟通信以及大规模机器通信的典型场景中。在紧急通信场景或者热点区域空对地通信中,根据地面用户通信需求合理部署无人机移动基站,既可以减小地面固定基站的通信压力,也可以尽可能满足地面用户的通信需求。相较于车载通信,无人机移动基站基于视距通信链路,对地通信信道条件好,覆盖面广;相较于传统地面基站,通信设备更新换代快且成本低。基于上述优势,无人机作为空中移动基站所构成的空对地通信网络有望成为满足未来更加动态和多样化通信需求的一项重要无线通信技术。然而,无人机作为移动基站仍然存在一些研究挑战。无人机移动基站的通信能耗、飞行能耗、部署位置以及用户体验质量是无人机集群通信网络的关键要素。首先,最大的限制是是无人机的存储电量有限,在无人机辅助无线通信的过程中,不仅飞行需要能量,通信过程也需要消耗能量。搭载5g通信设备到无人机上也会产生额外的载荷能耗。再者,由于无人机拥有独特的信道特性,视距通信链路的优势使得用户之间的干扰相对于传统通信系统增大。此外,由于无人机的高度机动性,通信链路之间的干扰是时间和空间相关的函数,这为无人机移动基站的通信资源分配以及干扰管理带来了新的挑战。在多无人机基站通信网络中,每个无人机移动基站位置变化将影响通信网络拓扑结构产生变化,进而影响通信链路间的干扰发生改变,如何在保证用户正常通信的条件下对多个无人机移动基站的发射功率和轨迹进行合理规划是一个具有挑战性的问题。每个无人机移动基站的控制策略(发射功率以及飞行控制)会影响其他被服务用户的通信质量,任何一方的自私行为都会影响其他通信链路的成本,联合优化多个无人机移动基站的轨迹以及发射功率以最小化无人机移动基站的通信成本以及飞行成本将具有重要现实意义。技术实现要素:本发明的目的是提供一种多无人机基站轨迹优化和功率分配方法,以解决现有多性能无人机移动基站构成的通信网络下干扰严重、能耗大的问题。本发明采用以下技术方案:一种多无人机基站轨迹优化和功率分配方法,多无人机基站为处在同一频段服务地面用户的多个无人机基站,各个无人机基站的存储能量和服务半径均不同;轨迹优化和功率分配的方法为:建立基于干扰相互作用的平均场型博弈模型,在满足用户通信质量的条件下基于所有无人机基站的位置状态以及储存能量状态的平均来描述与其他成员相互作用,构建状态演进的动态方程以及成本函数,使用平均场值学习算法不断迭代更新得到轨迹以及下行发射功率的最优规划。进一步的,具体按照以下步骤实施:步骤一、构建系统模型:输入无人机移动基站个数m,用户个数n以及所有坐标位置d={l1,l2,l3,...,ln},li=(li,1,li,2),大量用户随机分布在指定服务区域内,每个无人机移动基站采用时分复用方式服务指定区域内地面用户;步骤二、初始部署方案:通过使用k-means算法,根据用户分布密度将用户分为m簇,根据无人机基站的存储能量和服务半径合理将无人机基站部署于簇中心,得到每个无人机基站的初始位置信息(xi,1(t),xi,2(t),xi,3(t)),i∈{1,...,m}和每个簇内的用户个数ni,i∈{1,...,m};步骤三、建立无人机对地服务状态动态方程:用位置以及剩余能量信息表示无人机移动基站i的状态,无人机移动基站的动态状态方程描述了无人机基站在时刻t的位置以及下行发射功率变化趋势;步骤四、建立无人机移动基站的成本函数:对于每个参与博弈过程的无人机基站而言,分别根据用户信干噪比要求以及无人机在飞行过程产生的能耗构造出无人机移动基站的通信成本函数以及飞行成本函数,将均场项引入无人机的长期平均总成本函数中,制定出每个无人机移动基站的长期平均总成本函数;步骤五、通过平均场值学习算法对长期平均总成本函数不断迭代更新得到轨迹以及下行发射功率的最优规划。进一步的,步骤二中k-means算法对用户分簇的具体方法是:首先从输入的所有用户坐标集合d中随机选取m个用户坐标作为初始均值向量{μ1,μ2,...,μm};计算每个用户应该属于的簇类:计算更新每个均值向量:重复计算公式(1)和公式(2),最终输出地面用户簇划分c={c1,c2,...,cm},根据无人机基站的存储能量和服务半径合理将无人机基站部署于簇中心,得到无人机移动基站的初始部署位置。进一步的,步骤三中建立状态动态方程的具体过程如下:无人机基站i的位置信息以及剩余能量信息表示其在时刻t的状态,其中{xi,1(t),xi,2(t),xi,3(t)}表示无人机基站i的位置状态,xi,4(t)表示无人机基站i的剩余能量状态;表示无人机基站i的飞行控制策略以及功率控制策略;每个无人机基站的控制策略表示位置状态以及功率状态的转变;引入状态均场项和策略均场项来表征交互作用,则对于无人机基站i而言,状态动态方程可以表示为:其中,r0表示环境对状态的影响因子,中的{ri,1(t),ri,2(t),ri,3(t)}表示无人机基站在各个方向的飞行速度,ri,4(t)=-1表示剩余能量和下行发射功率之间的关系,可以表示为dxi,4(t)=xi,4(t)-ui,4(t)+wi,4(t)。wi(t)为一个随机布朗过程表示状态动态方程的随机性。进一步的,步骤四中构建成本函数的具体过程如下:设计无人机的成本函数包含对地通信成本以及飞行成本;首先,设计无人机基站的飞行成本定义为距离的函数,则可得无人机的飞行成本函数如公式(4)所示:c1,i=e0i||qi(t)||2(4),其中,为无人机每单位平方距离的推进功率,p0i为叶尖功率,vi为无人机i的飞行速度,utip为叶尖速度;另外,飞行距离表示为:qi(t)=(xi,1(t+1)-xi,1(t))2+(xi,2(t+1)-xi,2(t))2+(xi,3(t+1)-xi,3(t))2;在任意时刻t,无人机基站i在用户k处的信干噪比为:其中,pik(t)表示无人机基站i的发射功率,γk表示用户k的信干噪比要求,表示无人机j到用户k的距离,gjk表示无人机j对用户k的信道增益,n0代表噪声,α表示信道衰落因子,无人机基站i的通信成本函数为:结合公式(4)和公式(6),并将均场项引入成本函数,则无人机基站i的运行成本函数为:终端成本函数φi(x,t)取决于无人机基站的最终的状态,表示为:无人机移动基站i在时间(0,t)内的长期平均总成本函数为:本发明的有益效果是:1、本发明考虑了多个性能存在差异的无人机基站构成的无线通信网络,针对无人机移动基站的轨迹设计和资源管理问题,提出了使用多成员平均场型博弈框架来建模这一复杂网络下的最优控制问题。2、本发明提出的平均场型博弈框架中,设计了状态动态方程和长期平均总成本函数。综合考虑实际工程应用中无人机基站在性能上不能保证完全一致性,将差异参数(服务半径、存储能量等)引入状态方程和平均总成本函数设计中,具有很强的适用性。3、本发明提出使用两步法实现联合优化无人机基站的轨迹及发射功率问题。首先通过k-means算法得到每个无人机基站的初始部署以及服务用户个数。再通过平均场型博弈建模优化问题,结合平均场型博弈模型与强化学习mfq-learning算法,通过不断迭代更新得到每个无人机基站的最优飞行轨迹和下行发射功率。【附图说明】图1为本发明多性能无人机基站空对地通信系统场景图;图2为本发明基于k-means算法得到的无人机基站初始部署及用户服务请求分布图;图3为本发明基于mfq-learning算法得到的多无人机基站的最优路径方案;图4为本发明基于mfq-learning算法得到的多无人机基站的最优功率分配方案;图5为本发明在所求得的最优轨迹及功率控制方案下用户接收端的信干燥比sui时间的分布图。【具体实施方式】下面结合附图和具体实施方式对本发明进行详细说明。本发明提供了一种基于干扰的多无人机基站轨迹优化和功率分配方法,对于多无人机基站通信系统,采用频谱共享方式对地用户进行服务。在给定服务区域内,根据用户密度使用k-means算法对无人机基站进行初始部署。在此基础上,基于通信链路之间的严重干扰,考虑通信过程和飞行中产生能耗,建立平均场型博弈模型,设计网络中个无人机基站的状态动态方程和长期平均总成本函数,将问题建模为各无人机移动基站在保证各自服务用户通信质量的前提下,使长期平均总成本最小化的最优控制问题,并利用mfq-learning算法更新迭代得到每个无人机基站的最优轨迹和下行发射功率。本发明研究的系统模型如图1所示,在给定的服务区域内随机分布大量的用户,多个性能存在差异的无人机基站为地面用户提供空对地的通信服务。定义无人机移动基站个数为m,系统中有n用户个数按照坐标d={l1,l2,l3,...,ln},li=(li,1,li,2)随机分布。由于频谱资源有限,该m个无人机基站共享频谱资源,每个无人机移动基站采用时分复用方式服务地面用户。为了方便起见,本发明使用k-means算法来对用户进行聚类分簇。首先根据集群中心位置部署无人机基站。在此基础上,收集请求服务的用户坐标构成任务空间v={vi(li,1,li,2,τi)|(li,1,li,2)∈d,i∈(1,2,...m)},τi为保证用户成功解码信息的信干噪比。分簇的具体方法是:首先从输入的所有用户坐标集合d中随机选取m个用户坐标作为初始均值向量{μ1,μ2,...,μm};计算每个用户应该属于的簇类:计算更新每个均值向量:重复计算公式(1)和公式(2),最终输出地面用户簇划分c={c1,c2,...,cm},根据无人机基站的存储能量和服务半径合理将无人机基站部署于簇中心,得到无人机移动基站的初始部署位置。无人机基站的状态表示剩余能量和位置信息。同时,表示无人机基站的飞行控制策略以及功率控制策略。由于频谱资源有限,多无人机共享同一频谱资源,在对地通信过程中将会产生严重干扰。以无人机基站i服务用户k为例,该通信链路受到其他无人机基站同频信号的干扰,为了满足用户的通信需求,无人机基站i需要调整位置靠近用户或者提高发射功率,当无人机基站i位置或者功率发生改变将导致网络拓扑结构变化,使得其他无人机基站所服务的用户受到的干扰发生变化。因此,需要联合化优化多个无人机基站轨迹以及功率以提高系统性能。在该场景中,多个无人机基站服务用户的通信链路可以视为参与博弈的成员,每个无人机基站的状态由位置信息以及剩余能量确定。无人机基站i的位置信息以及剩余能量信息表示其在时刻t的状态,其中{xi,1(t),xi,2(t),xi,3(t)}表示无人机基站i的位置状态,xi,4(t)表示无人机基站i的剩余能量状态。考虑到无人机移动基站的状态受当前状态以及各个无人机移动基站的策略影响,引入状态均场项和控制策略均场项表征该影响,那么无人机基站i的动态状态方程可以表示为:其中r0表示环境对状态的影响因子,中的{ri,1(t),ri,2(t),ri,3(t)}表示无人机基站在各个方向的飞行速度,ri,4(t)=-1表示剩余能量和下行发射功率之间的关系,可以表示为dxi,4(t)=xi,4(t)-ui,4(t)+wi,4(t)。wi(t)为一个随机布朗过程表示状态动态方程的随机性。构建无人机的长期平均总成本函数包含对地通信成本以及飞行成本。在时刻t,无人机i的飞行成本函数为:c1,i=e0i||qi(t)||2,(4),其中为无人机每单位平方距离的推进功率,p0i为叶尖功率,vi为无人机i的飞行速度,utip为叶尖速度。另外,飞行距离表示为qi(t)=(xi,1(t+1)-xi,1(t))2+(xi,2(t+1)-xi,2(t))2+(xi,3(t+1)-xi,3(t))2。此外,以无人机基站i为例,根据在用户k处的信干燥比要求构造的通信成本函数为:其中,pik(t)表示无人机基站i的发射功率,γk表示用户k的信干燥比要求,表示无人机j到用户k的距离,gjk表示无人机j对用户k的信道增益,n0代表噪声,α表示信道衰落因子。只有当用户接收端信干燥比达到γk要求时才能保证通信成功。那么无人机基站i的运行成本函数为:终端运行成本函数取决于无人机基站的最终的状态以及状态均场项,可以表示为:因此,无人机移动基站i在时间(0,t)内的长期平均总成本为:由上述描述可知,联合优化无人机基站的轨迹和发射功率问题被制定为基于干扰下,同时考虑通信成本和飞行成本的的最小化长期平均成本函数问题。本发明解决上述最小化长期平均成本函数问题所采用的技术方案如下所述:由式(3)和式(9)可以看出,该博弈问题是一个典型的马尔可夫决策过程,为解决多无人机基站优化轨迹和下行功率控制问题提供了通用框架,通过将均场理论引入强化学习算法,使用mfq-learning算法迭代更新得到最优控制策略,mfq-learning算法即为平均场值学习算法。mfq-learning算法具体步骤:步骤1:输入依据k-means算法得到的无人机基站的初始部署坐标以及服务的用户个数ni,动作集合u=a=(ax,ay,ah,ap),本发明假设垂直方向ah=0,ax={-1,0,1}表示x轴向动作,ay={-1,0,1}表示y轴向动作,ap={-1,0,1}表示发射功率的变化。初始化每个无人机基站的qi_table和ri;步骤2:初始化每个无人机基站的下行发射功率为i∈{1,2,...,m};步骤3:依据贪婪策略选择使qi最大的动作集合a={a1,a2,...,am},即长期平均总成本函数最小;步骤4:对于每个无人机基站,计算状态均值项和策略均值项步骤5:每个无人机移动基站采取动作a={a1,a2,...,am},依据动态状态方程得到下一时刻状态s′={s1,s2,...,sm}以及奖励函数ri(si,ai)=ji(si,ai,m1,m2);步骤6:依据下式更新每个无人机基站的qi_table:步骤7:重复步骤3、步骤4、步骤5和步骤6;步骤8:遍历结束后输出每个无人机基站的轨迹控制策略以及功率控制策略。实施例以下实例中所提供的图示以及模型中的具体参数值的设定主要是为了说明本发明的构想以及仿真验证,在具体的应用环境中,可视实际场景和需求进行适当调整。本发明考虑一个多无人机空对地通信系统,在给定的1000×1000m2方形服务区域内,m=5个性能不同的无人机基站服务随机分布的n=100个用户。每个无人机基站发射信号载频为2ghz,无人机的飞行推进功率取值从10w/m到30w/m。为了简化问题,本发明假设所有无人机的飞行高度保持不变h=500m。在其他情况下,这些表征无人机移动基站性能的参数可以改变。本发明首先基于k-means算法对用户进行分簇得到如图2的用户分簇图。在此基础上,依据簇内用户数量以及无人机移动基站在高度为h=500m时的服务半径大小,合理部署多个无人机移动基站于各个簇中心。同一飞行高度下服务半径大,储存能量多的无人机移动基站部署在用户数量多的,密集度小的簇中心。在合理部署无人机移动基站后,在同一时隙内,本发明随机选取簇内请求服务的用户由图2中圆圈标记出来,根据簇内用户的服务请求得到任务空间v={vi(li,1,li,2,τi)|(li,1,li,2)∈d,i∈(1,2,...m)}。接下来,根据总通信任务空间v,对多个无人机移动基站的飞行轨迹以及发射功率进行联合优化。为了展示mfq-learning算法在时间t∈[0,t]内的策略演进,本发明给出了如图3的轨迹规划图以及图4的发射功率图。在这里,本发明设置t=10steps,靠近原点的无人机移动基站标号为1,左边为无人机2,区域左上方为无人机3,中间为无人机4,区域右上方为无人机5。图3展示了基于mfq-learning算法的多无人机移动基站的路径规划图。在该时间间隔内,可以观察到无人机1移动的步数最多为五步,且最终到达请求服务的用户小区域内,本发明近似达到指定服务位置。无人机5移动步数最小,只移动三步便到达了簇内指定用户服务位置。与此同时,无人机2和无人机3在时间间隔内只移动了四步,且均未到达簇内指定用户位置,但是都在靠近用户的方向移动。图3充分展示了该平均场型博弈问题中存在均衡解,所有的无人机移动基站在做决策时,彼此之间进行信息交互,最终得到稳定均衡解。所有无人机移动基站在时间间隔内均找到最佳位置进行对地通信服务。图4展示了在基于图3路径规划的同时,无人机移动基站发射功率的大小变化。在初始时刻,设置每个无人机移动基站依据自身能量以及簇内用户数量进行发射功率,即在图4中,无人机移动基站1初始发射功率最小,在前两步发射功率保持不变,第三部调大发射功率最终保持稳定。这是由于无人机1在路径规划时逐渐靠近用户,为了降低长期平均总成本,在开始时保持发射功率不变。但是在第三步以后,由于无人机移动基站2和3提高发射功率使得无人机移动基站1的干扰变大,不能保证用户1的正常通信导致更高的通信成本。因此无人机移动基站1需要提高发射功率来降低通信成本。其他无人机移动基站发射功率也遵循在保证用户正常通信的条件下尽可能降低长期平均总成本这一原则。为了表征在这个规划过程中用户的通信质量,本发明对用户的sinr进行分析。正如图5所示,所有的用户sinr在最终都超过了阈值并且保持稳定。用户5和用户4由开始的sinr超出阈值很多一直下降至阈值附近并且高出阈值。这是由于高sinr虽然能够保证用户的正常通信但是也会造成通信能量的浪费,即通信成本变高。因此降低sinr至阈值在可以保证正常通信的同时避免通信资源浪费从而降低通信成本。图5中所有用户sinr趋势证明了本发明所设计的长期平均总成本函数的合理性以及mfq-learning算法结果的准确性。本发明考虑了多个性能存在差异的无人机基站构成的无线通信网络,针对无人机移动基站的轨迹设计和资源管理问题,提出了使用多成员平均场型博弈框架来建模这一复杂网络下的最优控制问题。本发明提出的平均场型博弈框架中,设计了状态动态方程和长期平均总成本函数。综合考虑实际工程应用中无人机基站在性能上不能保证完全一致性,将差异参数(服务半径、存储能量等)引入状态方程和长期平均总成本函数设计中,具有很强的适用性。本发明提出使用两步法实现联合优化无人机基站的轨迹及发射功率问题。首先通过k-means算法得到每个无人机基站的初始部署以及服务用户个数。再通过平均场型博弈建模优化问题,结合平均场型博弈模型与强化学习mfq-learning算法,通过不断迭代更新得到每个无人机基站的最优飞行轨迹和下行发射功率。以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。当前第1页12