基于智能反射面的空地移动网络携能公平通信方法

文档序号:33465908发布日期:2023-03-15 06:35阅读:132来源:国知局
基于智能反射面的空地移动网络携能公平通信方法

1.本发明涉及空地协同辅助通信的技术领域,尤其涉及一种基于智能反射面的空地移动网络携能公平通信方法,在有限通信资源下基于无人机和智能反射面进行公平携能通信。


背景技术:

2.目前,通信网络的建立和实现主要依靠地面基站或其他固定通信设备,其灵活性受到了很大的限制。为了解决这一问题,无人机辅助的无线通信作为一种新型的通信方式已经获得学术界和工业界的广泛关注。无人机具有机动性高、通用性强和快速部署等优点,广泛应用于智慧交通、灾后重建、紧急通信以及扩大偏远地区通信范围等领域。
3.在无人机辅助通信中,无人机主要充当移动基站为地面用户提供通信服务。无人机的高移动性和灵活性可以快速建立通信连接并且显著提高数据传输效率,例如,当地面基础通信设施被自然灾害等破坏时,可以采用无人机作为临时基站为地面用户提供临时紧急通信服务。无人机辅助通信仍然存在以下挑战:无人机移动基站的位置优化是一个典型的最优序列决策问题,该问题往往具有很多决策变量并且是非凸的,很难直接采用传统的凸优化方法进行求解。另外,传统方法解决轨迹优化问题时,计算复杂度随着无人机和地面用户个数呈指数增长。无人机和用户之间的信道状态容易受外部环境的影响,并且在优化系统通信效率时并没有考虑用户之间的公平性对系统性能的影响。
4.受益于改善传播环境和提高信号强度,智能反射面已经被广泛研究,一般来说,智能反射面是由高能效、高性价比的可重构无源元件组成。其每个元件都可以通过智能控制器对入射信号进行相移。因此,在智能反射面的帮助下,来自不同通信链路的信号可以在所需的接收器处叠加,以提高接收信号的能量,或者可以在不需要的接收器处破坏性地添加,以避免信息泄漏。由于城市环境复杂多变且存在各种建筑物的遮挡,利用智能反射面重构传输链路在未来的智慧城市中扮演者非常重要的角色。


技术实现要素:

5.针对现有无人机辅助通信方法容易受外部环境的影响,且没有考虑用户之间公平性的技术问题,本发明提出一种基于智能反射面的空地移动网络携能公平通信方法,基于多智能体深度强化学习优化算法优化无人机位置和智能反射面的相位,为地面用户提供公平通信的同时实现对无人机的无线充电。
6.为了达到上述目的,本发明的技术方案是这样实现的:一种基于智能反射面的空地移动网络携能公平通信方法,其步骤如下:
7.s1:建立基于多无人机和智能反射面的空地移动网络架构,空地移动网络架构中包含k个地面移动用户和d个无人机;
8.s2:根据无线功率传输技术建立无线功率传输模型:利用智慧灯杆作为能量源,采用智慧灯-无人机的直接传输以及智慧灯杆-智能反射面-无人机的间接传输两种传输路
径,实现对无人机的无线充电;
9.s3:根据无人机的动力学模型和通信模型建立无人机的能源消耗模型;
10.s4:利用智能反射面重构无人机和地面用户之间的信道状态,建立无线通信模型;
11.s5:建立公平通信模型:考虑通信效率和用户之间的公平性建立公平通信模型,在保证用户公平性的前提下最大化系统吞吐量;
12.s6:根据用户服务质量等级构建关于公平吞吐量和能源消耗的判断矩阵,求解判断矩阵的特征值和特征向量并对其进行归一化,确定公平加权吞吐量和能源消耗两个子目标的权重系数;
13.s7:把无人机携能通信问题建模为一个公平吞吐量和无人机剩余能量最大化的多目标整数非凸优化问题,并重新描述为马尔可夫博弈过程,通过多智能体深度强化学习求解复杂的多目标优化问题,更新无人机的位置和智能反射面的相位。
14.优选地,所述地面移动用户的集合表示为无人机的集合表示为智能反射面是一个负责充电的反射面,无人机作为移动基站为地面移动用户提供通信服务,并利用智慧灯杆作为能量源为无人机提供能量传输;
15.所述步骤s2中无线功率传输模型的构建方法为:采用智能反射面来重构能量传输的路径,智慧灯杆的功率发射器发出的能量束通过智慧灯杆-无人机和智慧灯杆-智能反射面-无人机两种传输路径到达无人机的光接收器,无人机收获的能量为:
[0016][0017]
其中,表示无人机和地面移动用户之间的直接信道增益,hs(t)表示能量源和无人机之间的信道增益,表示智能反射面和无人机之间的信道增益,θ(t)表示智能反射面的相位,η表示能量转化系数。
[0018]
优选地,所述s3中建立无人机的能源消耗模型的方法为:
[0019]
无人机在执行辅助通信任务的过程中有移动消耗、通信消耗以及内部电路产生的能源消耗,则无人机总的能量消耗为:
[0020][0021]
其中,p
t
(t)表示无人机的发射功率,pc(t)表示无人机的恒定电路功率,pd(t)表示无人机在t时刻的推进功率,且推进功率pd(t)表示为:
[0022][0023]
其中,表示无人机在t时刻的飞行速度,v
max
表示无人机的最大飞行速度;分别表示t+1和t时刻无人机的位置以及两个时刻之间的时间差;po表示叶片剖面功率,pi表示悬停功率,v0表示转子的平均诱导速度,d0表示机身阻力系数,ρ表示空气密度,s表示电机体积,a表示转子面积,u
tip
表示叶尖线速度;
[0024]
无人机的剩余能量为:
[0025][0026]
其中,e
max
表示无人机充满电后的能源最大值,ed(t)表示在t时刻无人机剩余的电池能量,表示无人机收获的能量。
[0027]
优选地,所述步骤s4中建立无线通信模型的方法为:调整智能反射面的相位和幅值重构信道条件提高无人机和用户之间的传输速率,地面移动用户接收的传输速率为:
[0028][0029]
其中,表示抗干扰智能反射面的相位系数矩阵,表示无线信息传输中智能反射面的相位,mr、mc分别表示智能反射面的行和列上反射元件的个数,表示智能反射面的第(mr,mc)反射元件的相位;h
ug
(t)表示无人机和地面移动用户传输链路的信道增益,bk(t)表示无人机分配给地面移动用户k的带宽,α
d,k
(t)表示无人机d是否服务地面移动用户k,p
t
表示发射功率,h
rg
(t)表示智能反射面和地面移动用户之间的信道增益,h
ur
(t)表示无人机和智能反射面之间的信道增益,σ2表示高斯白噪声。
[0030]
优选地,设无人机和地面移动用户之间不存在视距链路,无人机u-智能反射面r、智能反射面r-地面移动用户g和无人机u-地面移动用户g之间的信道增益h
ur
(t)、h
rg
(t)和h
ug
(t)分别为:
[0031][0032][0033][0034]
其中,β0表示单位距离下信道功率增益,d
ur
(t)、d
rg
(t)和d
ug
(t)分别表示无人机u-智能反射面r、智能反射面r-地面移动用户g和无人机u-地面移动用户g之间在时间t的距离,分别表示为;2、α、β表示分别无人机u-智能反射面r、智能反射面r-地面移动用户g、无人机u-地面移动用户g的链路上的路径损耗指数;表示无人机u-智能反射面r链路中视距的部分,取决于无人机在时隙n的飞行轨迹,表示为:
[0035][0036]
其中,
[0037][0038][0039]
且和分别表示信号在智能反射面上水平到达角的
余弦和正弦;表示信号在智能反射面处垂直到达角的正弦;λ表示载波的波长,(xr,yr,zr)表示智能反射面的位置,xd(t)、yd(t)、zd(t)分别表示无人机的水平坐标和飞行高度,表示克罗内克积;
[0040]
智能反射面r-地面移动用户g的链路中视距的部分为:
[0041][0042]
其中
[0043][0044][0045]
其中,和表示信号到第k个用户的水平离去角的余弦和正弦;表示信号到第k个用户的垂直离去角的正弦;xk(t)、yk(t)分别表示地面用户的水平坐标;表示r-g链路中非视距部分,表示随机散射指数。
[0046]
优选地,所述步骤s5中建立公平通信模型的方法为:基于吞吐量比率的公平指数表征最大化系统吞吐量和公平性的平衡,定义地面移动用户的吞吐量比率fk(t)衡量地面移动用户的重要程度:
[0047][0048]
其中,表示地面移动用户k在时间段[0,t]的吞吐量,表示所有地面移动用户的吞吐量;
[0049]
利用jain's公平指数衡量用户之间的公平性,权衡通信效率和公平性的新的评价指标为:
[0050][0051]
优选地,所述步骤s6中权重系数的确定方法为:根据任务的属性以用户服务质量为标准对能量消耗子目标和公平吞吐量进行等级量化,得到等级量化表为:
[0052]
应用能源消耗吞吐量实时数据y2y3图像数据y1y2音频数据y2y4无压缩视频y4y3压缩视频y1y2[0053]
,其中等级[y1,y2,y3,y4]代表重要性的高低;根据等级量化表,构造关于能量消耗
和公平吞吐量的判断矩阵:
[0054][0055]
通过jacobi方法求解判断矩阵的特征值和特征向量并对其进行归一化,得到两个子目标所对应的权重系数[w1,w2]。
[0056]
优选地,所述步骤s7中多目标整数非凸优化问题为:
[0057][0058]
s.t.c1:ed(0)=e
max
,ed(t
t
)=e
min
,
[0059]
c2:
[0060]
c3:
[0061]
c4:r
gu
(t)≥γ
dk
,
[0062]
c5:
[0063]
c6:
[0064]
c7:
[0065]
其中,ud(t)表示无人机的位置;表示加权吞吐量和剩余能量组成的效用函数;t
t
表示任务执行时间;e
t
(0)表示无人机初始时的电量;e
max
表示无人机充满电时的最大电池容量;ed(t
t
)表示无人机任务结束时剩余的电量;e
min
表示无人机执行完任务之后安全返回所需的最小电量;γ
dk
表示传输速率最小阈值;ui(t)和uj(t)分别表示无人机i和j在t时刻的位置;xd(t)、xk(t)、yd(t)、yk(t)分别表示无人机和地面移动用户的坐标,x
min
、x
max
、y
min
、y
max
为整个矩形任务区域的边界值;
[0066]
把整个任务执行时间划分为n
t
个时隙,每个时隙的长度为将连续问题转化为离散问题:
[0067][0068]
s.t.c1~c7
[0069]
把离散问题重新描述为一个多智能体的马尔可夫博弈过程<s,a,p,r,γ>,其中,s为状态集合,a为动作集合,r为奖励函数,p为状态转移概率函数,γ为奖励折扣因子;
[0070]
所述多智能体深度强化学习的方法为:
[0071]
在时隙n∈[0,n
t
]内状态其中,表示无人机在时隙n的坐标,表示地面移动用户在时隙n的坐标,表示无人机的剩余能耗,θ(n)表示智能反射面的相位;
[0072]
在时隙n内动作其中,distd(n)∈[0,vd(t)δ
t
]表示无人机基站在时隙n内飞行的距离;表示无人机基站在时隙n飞行的方向;δθ智能反射面的相位的变化量;vd(t)无人机的飞行速度;
[0073]
奖励函数为r=r1+r
2-ξ1p
1-ξ2p
2-ξ3p3;
[0074]
其中,公平吞吐量覆盖奖励e
d,k
=1表示用户k可以被无人机d覆盖,反之e
d,k
=0;
[0075]
惩罚:当满足以下情况时,无人机基站将受到惩罚:(1)无人机飞出任务边界区域,例如其中x
min
、x
max
、y
min
、y
max
表示任务区域范围横坐标和纵坐标的取值;(2)无人机i与无人机j发生碰撞,即||ui(n)-uj(n)||2≥d
min
,其中d
min
表示安全距离阈值;(3)当无人机的能耗低于设定值,即ed(t)≤e
min
;通过定义二进制变量ξ
l
∈{0,1}表示是否违反上述情况l;如果ξ
l
=1,l∈{1,2,3}表示违反情况l,给予无人机固定惩罚p
l
,l∈{1,2,3};
[0076]
在马尔可夫博弈过程中,智能体通过最优自身策略π最大化奖励函数,离散问题重新描述为
[0077][0078]
s.t.c1~c7
[0079]
其中,表示求期望运算,s和a是所有智能体的状态空间和动作空间的拼接。
[0080]
基于门控单元的信息共享机制更新无人机的状态,输入策略网络获得无人机需要执行的动作;构建状态分解-扩展-聚合的actor网络进行状态信息的分解和降维,然后利用多头注意力机制对处理之后的子状态按照不同的相关程度进行状态聚合。
[0081]
优选地,所述基于门控单元的信息共享机制的实现方法为:
[0082]
通过存储容量为m的存储器建立状态信息共享,存储器用来存储无人机的集体状态信息m∈rm;每一个无人机的策略变为
[0083]
每一个无人机把自身的状态sd映射到一个表示当前状态的嵌入向量:其中,是网络参数为的神经网络;
[0084]
无人机执行读操作提取存储在存储器中的相关信息,通过生成一个上下文向量hd来捕捉嵌入向量ed的时空信息:
[0085][0086]
其中,表示线性映射网络的参数,h、e分别表示上下文向量hd和嵌入向量ed的维度;
[0087]
联合智能体观测值的嵌入向量ed、上下文向量hd以及当前存储器中的内容m作为输入学习一个门控机制:
[0088][0089]
其中,σ(
·
)是sigmoid函数,[ed,hd,m]表示三个向量的拼接,kd作为权重因子;
[0090]
通过门控机制调节从存储器中读取的信息rd=m

kd;其中,

表示哈达玛积。
[0091]
智能体根据自身状态值的编码和当前共享的存储器信息,通过非线性映射产生一个候选存储内容:
[0092][0093]
其中,是网络参数;输入门gd用来调节候选存储器中的内容,fd决定需要保留和丢弃的信息,且:
[0094][0095][0096]
其中,σ表示sigmode激活函数、分别表示需要训练的神经网络参数;
[0097]
然后无人机d通过对新旧信息的加权组合生成新的更新信息:m'=gd⊙cd
+fd⊙
m;
[0098]
无人机把当前自身状态的编码和从存储器中读取的信息作为策略网络的输入,策略网络输出无人机需要执行的动作
[0099]
其中,rd表示从存储器中读取的信息,表示策略函数;
[0100]
所述actor网络的状态分解将不同类型的状态信息进行分解,采用维度扩展技术把所有状态信息扩展至相同的维度;聚合是把分解之后的各个子状态根据不同的相关程度进行聚合并线性映射为一个低维的输入向量;
[0101]
基于自注意力机制的状态信息选择策略进行状态信息的选择,把经过状态分解、维度扩展以及线性映射处理之后的位置状态信息、剩余电量状态信息以及从存储器中读取的状态信息作为三个向量a1、a2和a3,自注意力机制的计算方法为:
[0102]
qi=wqi,q=(q1,q2,q3),i=[s1,s2,md]
[0103]ki
=wki,k=(k1,k2,k3),i=[s1,s2,md]
[0104]
vi=wvi,v=(v1,v2,v3),i=[s1,s2,md]
[0105]
其中,wq、wk和wv分别表示全连接层神经网络的权重参数;qi、ki和vi分别表示注意力机制中的查询、键和值;q、k、v分别表示查询矩阵、键矩阵和值矩阵;i是由a1,a2和a3三个向量组成的矩阵;
[0106]
注意力分数表示为:α
score
=softmax(k
t
q);
[0107]
注意力机制的输出为:b=α
score
·
v,b={b1,b2,b3};
[0108]
通过线性映射处理注意力机制的输出:s
input
=fc(b);
[0109]
其中,s
input
表示策略网络的输入,fc表示由全连接层神经网络实现的线性映射。
[0110]
本发明的有益效果:基于无人机和智能反射面组成的空地协同网络为地面移动网络提供通信服务,综合考虑系统通信效率和地面移动用户之间的公平性,设计了一种基于吞吐量优先级和公平指数的评价指标用来权衡通信效率和用户公平性;以最大化系统公平吞吐量为目标,并考虑无人机的能源消耗以及采用无线功率传输技术为无人机提供能源支持,利用多智能体深度强化学习优化算法优化无人机的飞行轨迹以及智能反射的相位,使无人机在每一个时隙处于最佳位置来最大化公平吞吐量。
[0111]
本发明利用多个无人机和固定在建筑物表面的智能反射面为地面移动用户提供公平通信服务并完成对无人机的无线充电,在满足能耗和网络连通性的条件下为地面移动用户提供公平通信服务。
附图说明
[0112]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0113]
图1为本发明无人机辅助通信的流程图。
[0114]
图2为本发明无人机辅助通信的体系架构图。
[0115]
图3是本发明基于门控函数的信息共享机制的示意图。
具体实施方式
[0116]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0117]
一种基于智能反射面的空地移动网络携能公平通信方法,如图2所示,主要分为三部分:问题建模、多智能体深度强化学习优化算法求解以及无人机状态的解耦-扩展-聚合,本发明具体包括如图1所示的几个步骤,实施方法为:
[0118]
s1:建立基于多无人机和智能反射面的空地移动网络架构,空地移动网络架构包含k个地面移动用户且其集合表示为部署d个无人机且其集合表示为空地移动网络架构为无线功率传输和公平通信的场景,智能反射面是一个负责充电的反射面,无人机作为移动基站为地面移动用户(移动车辆、移动终端、移动机器人等等)提供通信服务,并利用智慧灯杆作为能量源为无人机提供能量传输。
[0119]
s2:根据无线功率传输技术建立无线功率传输模型。利用智慧灯杆作为能量源,采用智慧灯-无人机的直接传输以及智慧灯杆-智能反射面-无人机的间接传输两种传输路径,利用无线功率传输技术和智能反射面的路径重构技术,实现对无人机的无线充电,延长无人机的续航能力。
[0120]
所述步骤s2中无线功率传输技术是以城市基础设施智慧灯杆作为能量源,智慧灯杆的功率发射器发射能量束通过传输介质到达无人机的接收端。由于在传输的过程中会有一定的损耗并且容易收到建筑物的影响,本发明采用了智能反射面来重构能量传输的路径,主要体现在功率发射器发出的能量束可以通过智慧灯杆-无人机和智慧灯杆-智能反射面-无人机两种传输路径到达无人机的光接收器。因此,无人机端收获的能量可以表示为:
[0121][0122]
其中,表示无人机和地面移动用户之间的直接信道增益,hs(t)表示能量源和无人机之间的信道增益,表示智能反射面和无人机之间的信道增益,θ(t)表示智能反射面的相位,η表示能量转化系数。能量的首项表示智慧灯对无人机的直接传输,第二项表示通过智能反射面重构的传输路径,可以有效避免遮挡物对功率传输的影响。
从表达式中可以看出加入智能反射面重构传输路径之后,一方面可以提高无人机接收端的接收功率,另一方面也可以避免障碍物对传输的影响。
[0123]
s3:根据无人机的动力学模型和通信模型建立无人机的能源消耗模型。无人机在飞行过程中能源消耗主要分为移动消耗以及为用户提供通信服务的通信消耗,为了保证通信任务的正常执行,需要满足无人机剩余能量约束。
[0124]
无人机在执行辅助通信任务的过程中主要有移动、通信以及内部电路产生的能源消耗,因此无人机总的能量消耗可以表示为:
[0125][0126]
其中,p
t
(t)表示无人机的发射功率,pc(t)表示无人机的恒定电路功率,pd(t)表示无人机在t时刻的推进功率,且推进功率pd(t)可以表示为:
[0127][0128]
其中,表示无人机在t时刻的飞行速度,其中v
max
表示无人机的最大飞行速度。分别表示t+1和t时刻无人机位置以及两个时刻之间的时间差。po表示叶片剖面功率,pi表示悬停功率,v0表示转子的平均诱导速度,d0表示机身阻力系数,ρ表示空气密度,s表示电机体积,a表示转子面积,u
tip
表示叶尖线速度。
[0129]
无人机的剩余能量表示为
[0130][0131]
其中,e
max
表示无人机充满电后的能源最大值,ed(t)表示在t时刻无人机剩余的电池能量。ec(t)表示无人机的总的能源消耗。
[0132]
s4:建立无线通信模型。利用智能反射面重构无人机和地面用户之间的信道状态,提高无人机和地面用户之间的通信质量。
[0133]
所述步骤s4中,无人机和地面移动用户之间由于障碍物或其他环境的影响导致无线信道质量差,通过调整智能反射面的相位和幅值可以重构信道条件提高无人机和用户之间的传输速率,因此地面移动用户接收的传输速率表示为:
[0134][0135]
其中,表示抗干扰智能反射面的相位系数矩阵,表示无线信息传输中智能反射面的相位,mr、mc、分别表示矩形反射面行和列上反射元件的个数以及第(mr,mc)反射元件的相位。h
ug
(t)表示无人机和地面移动用户传输链路的信道增益,bk(t)表示无人机分配给地面移动用户k的带宽,α
d,k
(t)表示无人机d是否服务地面移动用户k,p
t
表示发射功率,h
rg
(t)表示智能反射面和地面移动用户之间的信道增益,h
ur
(t)表示无人机和智能反射面之间的信道增益。σ2表示高斯白噪声。
[0136]
假设无人机和地面移动用户之间不存在视距链路,因此无人机u-智能反射面r、智能反射面r-地面移动用户g和无人机u-地面移动用户g之间的信道增益h
ur
(t)、h
rg
(t)和h
ug
(t)分别可以表述为:
[0137][0138][0139][0140]
其中,β0表示单位距离下信道功率增益,u-r、r-g、u-g在时间t的距离分别表示为d
ur
(t),d
rg
(t)和d
ug
(t)。2、α、β表示分别u-r、r-g、u-g链路上的路径损耗指数,表示u-r链路中视距的部分,取决于无人机在时隙n的飞行轨迹,可以表示为:
[0141][0142]
其中,
[0143][0144][0145]
且和分别表示信号在智能反射面上水平到达角(angle of arrival,aoa)的余弦和正弦;表示信号在智能反射面处垂直aoa的正弦;λ表示载波的波长,(xr,yr,zr)表示智能反射面的位置,xd(t)、yd(t)、zd(t)分别表示无人机的水平坐标和飞行高度,表示克罗内克积。
[0146]
表示r-g链路中视距的部分:
[0147][0148]
其中
[0149][0150][0151]
其中,和表示信号到第k个用户的水平离去角(angle of departure,aod)的余弦和正弦;表示信号到第k个用户的垂直aod的正弦。xk(t)、yk(t)分别表示地面用户的水平坐标。表示r-g链路中非视距部分,表示随机散射指数。
[0152]
从地面移动用户接收的传输速率表达式可以看出不加智能反射面时,无人机和用户之间的信道只包含直接信道。加入反射面之后该信道分为直接信道和通过智能反射面波
束成形的一部分信道,这两信道在用户处进行叠加,会改善原有无人机和用户之间的信道传播环境,从而提高传输速率。
[0153]
s5:建立公平通信模型:考虑通信效率(最大化系统吞吐量)和用户之间的公平性建立公平通信模型,在保证用户公平性的前提下最大化系统吞吐量。
[0154]
所述步骤s5中,针对系统最大化目标,无人机通过调整飞行轨迹使其处于信道质量好的位置。然而,吞吐量最大化和用户公平性是相互对立的。本发明提出了基于吞吐量比率的公平指数来表征系统吞吐量和公平性的平衡。定义用户的吞吐量比率fk(t)来衡量用户的重要程度:
[0155][0156]
其中,表示用户k在时间段[0,t]的吞吐量,表示所有用户的吞吐量。
[0157]
根据用户的重要程度进行建模虽然可以达到更高的吞吐量,但是会导致地面移动用户的不公平,因此利用jain's公平指数来衡量用户之间的公平性,在保证用户之间公平性的前提下实现最大的吞吐量。根据优先级选择服务的用户可以提高通信效率但是会导致用户之间的不公平性。权衡通信效率和公平性设计了新的评价指标:
[0158][0159]
为了衡量地面用户的重要程度,我们设计了基于吞吐量比率的优先级,如果只考虑优先级就会导致不公平,然后根据优先级和公平指数得到一个同时考虑优先级和公平性的评价指标。
[0160]
s6:根据用户服务质量等级构建关于公平吞吐量和能源消耗的判断矩阵,求解判断矩阵的特征值和特征向量并对其进行归一化,确定公平加权吞吐量和能源消耗两个子目标的权重系数。
[0161]
所述步骤s6中,总的优化目标是关于无人机剩余能量和系统公平吞吐量两个子目标的加权求和,两个子目标是相互对立的。为了合理确定子目标的权重系数,本发明设计了一种基于用户服务质量的权重系数确定方法。首先,为了建立关于通信和能量传输多目标优化问题,根据任务的属性(任务量、传输延时、计算能力等等)以用户服务质量为标准对能量消耗子目标和公平吞吐量进行等级量化如表1所示,其中等级[y1,y2,y3,y4]代表重要性的高低,常见的就是1、2、3、4个等级,等级越高表示用户服务质量越高。根据其等级量化表,以实时数据任务为例,构造关于能量消耗和公平吞吐量的判断矩阵:
[0162][0163]
通过jacobi方法求解判断矩阵的特征值和特征向量并对其进行归一化,可以得到两个子目标所对应的权重系数[w1,w2]。
[0164]
表1不同任务关于能源消耗和吞吐量的用户服务质量等级量化表
[0165][0166][0167]
s7:构建多目标优化问题:把无人机携能通信问题建模为一个公平吞吐量和无人机剩余能量最大化的多目标整数非凸优化问题,并重新描述为马尔可夫博弈过程,通过多智能体深度强化学习求解复杂的多目标优化问题。
[0168]
所述步骤s7中,本发明把无人机携能公平通信建模为一个多目标优化问题:
[0169][0170]
s.t.c1:ed(0)=e
max
,ed(t
t
)=e
min
,
[0171]
c2:
[0172]
c3:
[0173]
c4:r
gu
(t)≥γ
dk
,
[0174]
c5:
[0175]
c6:
[0176]
c7:
[0177]
其中,ud(t)表示无人机的位置;表示加权吞吐量和剩余能量组成的效用函数;t
t
表示任务执行时间;e
t
(0)表示无人机初始时的电量;e
max
表示无人机充满电时的最大电池容量;ed(t
t
)表示无人机任务结束时剩余的电量;e
min
表示无人机执行完任务之后安全返回所需的最小电量;γ
dk
表示传输速率最小阈值;ui(t)和uj(t)分别表示无人机i和j在t时刻的位置;xd(t)、xk(t)、yd(t)、yk(t)、x
min
、x
max
、y
min
、y
max
分别表示无人机和用户的坐标以及整个矩形任务区域的边界值。
[0178]
由于无人机的位置是连续变化的,导致其优化变量是连续的并且存在非线性耦合。为了使连续问题变得容易求解,本发明把整个任务执行时间划分为n
t
个时隙,每个时隙的长度为因此连续问题可以转化为离散问题
[0179][0180]
s.t.c1~c7
[0181]
上述问题仍然是非凸整数优化问题,传统优化算法具有很高的计算复杂度并且不易求解。因此,把离散问题重新描述为一个多智能体的马尔可夫博弈过程<s,a,p,r,γ>。马尔可夫博弈过程包含五个部分,分别是状态集合s、动作集合a、奖励函数r、状态转移概率函数p和奖励折扣因子γ。定义其状态、动作和奖励如下:
[0182]
在时隙n∈[0,n
t
]内状态有以下四部分组成,其中,表示无人机基站在时隙n的坐标。表示地面移动用户在时隙n的坐标。表示无人机的剩余能耗,θ(n)表示智能反射面的相位。
[0183]
在时隙n内动作主要有以下两部分组成,distd(n)∈[0,vd(t)δ
t
]表示无人机基站在时隙n内飞行的距离。表示无人机基站在时隙n飞行的方向。δθ智能反射面相位的变化量。vd(t)无人机的飞行速度。
[0184]
智能体采取动作的目标是最大化系统奖励,因此奖励函数的设定在多智能体强化学习中扮演着重要的作用,无人机基站的奖励主要包含以下几部分:
[0185]
公平吞吐量在多无人机基站辅助公平通信问题中,每个无人机基站都有相同的目标,即最大化全局公平吞吐量和无人机的剩余能量。
[0186]
覆盖奖励为了加快算法的收敛速度,在奖励函数中设计了无人机的覆盖奖励,所谓覆盖奖励e
d,k
是与无人机所覆盖的用户个数成正比。其中e
d,k
=1表示用户k可以被无人机d覆盖,反之e
d,k
=0。
[0187]
惩罚:当满足以下情况时,无人机基站将受到惩罚。(1)无人机飞出任务边界区域,例如其中x
min
、x
max
、y
min
、y
max
表示任务区域范围横坐标和纵坐标的取值。(2)无人机i与无人机j发生碰撞,例如||ui(n)-uj(n)||2≥d
min
,其中d
min
表示安全距离阈值。(3)当无人机的能耗低于设定值,例如ed(t)≤e
min
。通过定义二进制变量ξ
l
∈{0,1}表示是否违反上述情况。如果ξ
l
=1,l∈{1,2,3}表示违反上述情况,给予无人机固定惩罚p
l
,l∈{1,2,3}。
[0188]
综上所述,奖励函数可以表示为
[0189]
r=r1+r
2-ξ1p
1-ξ2p
2-ξ3p3[0190]
在马尔可夫博弈过程中,智能体旨在通过最优自身策略π最大化奖励函数,因此离散问题可以重新描述为
[0191][0192]
s.t.c1~c7
[0193]
其中,s、a分别表示求期望运算、状态空间以及动作空间;s和a是上述所有智能体的状态空间和动作空间的拼接。
[0194]
深度强化学习中智能体的目标是最大化自身所获得奖励值,那么这个问题就可以转变为一个最大化问题。另外,强化学习中智能体是通过自己的策略也就是执行的动作来最大化奖励值,那么我们就可以把自己的优化目标当作智能体的奖励,把优化变量当作智能体的动作,通过设计合理的状态空间,让无人机与环境进行交互从而搜索自己的最优策略使其奖励值达到最大。
[0195]
图1中能量子目标是最大化无人机的剩余能耗,吞吐量子目标是最大化公平吞吐量。整个问题的优化变量主要包括智能反射面的相位以及无人机的位置。无人机的位置和反射面的相位都是根据强化学习中奖励值的大小来更新的。
[0196]
s8:基于门控单元的信息共享机制更新无人机的状态,输入策略网络获得无人机需要执行的动作。把所有无人机的状态信息存储到存储器中,每一个无人机在执行动作时可以访问存储器读取其他智能体的状态信息。
[0197]
所述步骤s8中,设计了一种基于门控单元的信息共享机制解决由于部分可观测导致的策略不确定性问题,如图3所示。该机制通过存储容量为m的中央存储器来建立状态信息共享,存储器用来存储无人机的集体状态信息m∈rm。加入信息共享机制之后,每一个无人机的策略变为即此时无人机的策略不仅仅取决于自己的观察值sd,还和存储器中的信息有关。信息共享机制主要包括编码操作、读操作、写操作和动作选择几个部分。每一个无人机把自身的状态sd映射到一个表示当前状态的嵌入向量:
[0198][0199]
其中,是网络参数为的神经网络。
[0200]
在对当前信息进行编码之后,无人机执行读操作提取存储在中央存储器中的相关信息。通过生成一个上下文向量hd来捕捉嵌入向量ed的时空信息
[0201][0202]
其中,表示线性映射的网络参数,h、e分别表示上下文向量hd和嵌入向量ed的维度。智能体观测值的嵌入向量ed、上下文向量hd以及当前中央存储器中的内容m分别包含不同的信息,联合这些信息作为输入来学习一个门控机制:
[0203][0204]
其中,σ(
·
)是sigmoid函数,[ed,hd,m]表示三个向量的拼接,m表示存储器容量大小。kd作为权重因子调节从中央存储器中读取的信息
[0205]
rd=m

kd[0206]
其中,

表示哈达玛积。
[0207]
智能体根据自身状态值的编码和当前共享的存储器信息,通过非线性映射产生一个候选存储内容:
[0208][0209]
其中,是网络参数。输入门gd用来调节候选存储器中的内容,fd决定哪些信息需要保留,哪些信息需要丢弃,这些操作可以表示为:
[0210][0211][0212]
其中,σ表示sigmode激活函数、分别表示需要训练的神经网络参数。
[0213]
然后无人机d通过对新旧信息的加权组合,最终生成新的更新信息:
[0214]
m'=gd⊙cd
+fd⊙m[0215]
在完成读写操作之后,无人机把当前自身状态的编码和从存储器中读取的信息作为策略网络的输入,策略网络输出无人机需要执行的动作
[0216]
[0217]
其中,ed表示观察值sd状态的映射向量。rd表示从存储器中读取的信息,表示策略函数。策略网络就是actor网络中的一部分。
[0218]
s9:构建状态分解-扩展-聚合的actor网络进行状态信息的分解和降维。把无人机的状态根据不同的类别进行解耦并对其维度较小的状态进行维度扩展,然后利用多头注意力机制对上述处理之后的子状态按照不同的相关程度进行状态聚合。
[0219]
所述步骤s9中,无人机的最终动作取决于无人机和地面移动用户的位置信息、无人机的能量信息以及智能反射面的相位。如果直接将所有的状态信息(sd无人机位置、用户位置、以及无人机剩余电量)和共享信息(智能体通过读操作从存储器中读取的内容)输入actor网络,由于状态信息维度不平衡,很难输出理想的策略。因此,本发明设计了一个新的状态分解-扩展-聚合的actor网络架构。该网络结构主要分为状态分解和扩展、状态线性映射降低维度空间以及多头注意力机制状态聚合三部分。状态分解指的是将不同类型的状态信息进行分解(位置信息、能量信息、相位信息),由于不同类别的状态信息维度是不同的,因此采用维度扩展技术把所有状态信息扩展至相同的维度。聚合是把分解之后的各个子状态根据不同的相关程度进行聚合并线性映射为一个低维的输入向量。采用注意力机制让无人机自己去学习这种策略,然后根据不同的子状态的重要程度(本质就是一个权重系数)进行拼接为一个整的向量。
[0220]
另外,无人机的输出动作与状态信息密切相关,例如当无人机的剩余电量低于安全阈值时,无人机输出的动作就会偏向于怎么保证无人机充电量最大化而不是吞吐量最大。因此,不同类型的状态信息对无人机动作的影响是不同的,基于此本发明设计了基于自注意力机制的状态信息选择策略。把经过状态分解、维度扩展以及线性映射处理之后的位置状态信息、剩余电量状态信息以及从存储器中读取的状态信息作为三个向量a1、a2和a3。自注意力机制的计算公式如下
[0221]
qi=wqi,q=(q1,q2,q3),i=[s1,s2,md]
[0222]ki
=wki,k=(k1,k2,k3),i=[s1,s2,md]
[0223]
vi=wvi,v=(v1,v2,v3),i=[s1,s2,md]
[0224]
其中,wq、wk和wv分别表示全连接层神经网络的权重参数。qi、ki和vi分别表示注意力机制中的查询、键和值。q、k、v分别表示查询矩阵、键矩阵和值矩阵。i是由a1,a2和a3三个向量组成的矩阵。因此,注意力分数可以表示为
[0225]
α
score
=softmax(k
t
q)
[0226]
注意力分数可以反应任意两个向量之间的相关性。注意力机制的输出可以表示为:
[0227]
b=α
score
·
v,b={b1,b2,b3}
[0228]
为了更好的输入策略网络(全连接层神经网络),本发明通过线性映射来处理注意力机制的输出
[0229]sinput
=fc(b)
[0230]
其中,s
input
表示策略网络的输入,fc表示由全连接层神经网络实现的线性映射。因此,通过对策略网络输入进行解耦-扩展-注意力机制的聚合可以解决由于维度不平衡和维度爆炸导致的收敛困难,另外通过采用注意力机制可以很好的表征各个子状态之间的相关性。那么,无人机在执行动作时会重点关注相关性更强的子状态从而帮助无人机找到最优
的策略。
[0231]
本发明首先,设计基于无人机和智能反射面的空地移动网络架构,建立了基于智能反射面的能量传输模型和通信模型。为了权衡通信效率和用户公平性,设计了一种基于吞吐量比率的公平指数描述了用户级的公平性。最后,提出了一种多智能体深度强化学习优化算法,通过优化无人机的位置和智能反射面的相位使系统总的公平吞吐量和无人机剩余能量达到最大。另外,为了克服由于部分可观测和状态维度不平衡导致的策略不确定性和算法训练困难的问题,本发明还设计了一种基于门控函数的信息共享机制和状态解耦-状态扩展-状态聚合的新型actor网络架构,在聚合的时候采用自注意力机制来让无人机自行关注比较重要的状态信息。
[0232]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1