基于高空平台辅助场景下无人机缓存放置和位置部署方法

文档序号:34115217发布日期:2023-05-10 23:43阅读:173来源:国知局
基于高空平台辅助场景下无人机缓存放置和位置部署方法

本发明涉及通信,特别使涉及一种haps(high altitude platformstation,高空平台)辅助场景下基于hsac(hybrid soft actor critic,混合的软参与者评论家)算法的uav(unmanned aerial vehicle,无人机)缓存放置和位置部署方法。


背景技术:

1、随着移动通信技术的不断发展,地面网络无法满足新兴行业和用户的各类需求,未来网络将扩展为空天地一体化的网络架构。因此,由高、中、低维度卫星或高、低空飞行器平台组成的空中接入网是未来空天地一体化网络的重要组成部分之一。

2、作为空中接入网的组成部分,haps的部署相对静态、覆盖较广、续航更久,uav虽然在能量和覆盖方面略有不足,但部署灵活,传输时延更短。由上层haps作为空中基站中心控制,下层uav在网络边缘部署为用户提供通信服务,能够缓解未来地面网络的流量负载压力。

3、近年来,网络边缘的内容缓存被提出并用于以内容为中心的蜂窝网络,而uav位于用户近端,且灵活性高,将边缘缓存技术应用在uav通信中,能够进一步提升空中接入网的时延等性能。此外,uav的高移动性使其能够灵活的根据地面用户的位置和需求提供服务。

4、然而,uav的能量、存储和覆盖范围有限,因此,如何设计uav的缓存放置方案,如何控制uav的移动都是空中接入网研究应用过程中所面临的重要问题。


技术实现思路

1、haps辅助场景下基于hsac算法的uav缓存放置和位置部署方法设计并实现了haps充当空中基站,协助单个uav进行内容缓存和位置移动,从而为地面移动用户集群提供内容服务的方案。该方案主要包括以下步骤:(1)建立基于haps辅助场景下的uav通信系统模型,所述模型包括haps,uav和用户;(2)基于高斯马尔可夫移动模型构建用户的移动模型,并基于zipf分布构建用户请求内容模型;(3)提出一种基于hsac算法的uav缓存放置和位置部署方案,以优化uav和用户之间的距离和用户的平均获取内容时延。

2、haps辅助场景下的uav通信如图1所示。假设在某一地区,地面网络流量负载过大,地面基站无法满足所有用户的通信需求,而由haps-uav组成的空中接入网具有大容量、广覆盖、低延迟、高可靠性的特征,能够在该情况下,为地面用户提供及时有效的内容服务。

3、假设在haps的覆盖范围下有一个uav,和k个用户,用户集合记为由于附近的地面基站过载,需要uav移动前往为用户提供服务。haps在空中准静态部署,并作为空中基站为uav提供通信服务。uav配备高速缓存单元,在网络边缘处为用户提供内容服务。网络中共有f个内容,内容集合记为

4、haps的部署位置为(0,0,h),uav和用户k,的位置坐标可表示为wt=(xt,yt,zt),用户k是否请求内容f,记为当用户k请求内容f,则否则uav是否缓存内容f记为当uav缓存了内容f,则否则

5、在上述场景中,建立基于视距(line of sight,los)概率传播的信道模型。los传输和nlos传输的路径损耗分别表示为:

6、

7、

8、其中,d为收发两端距离,fg为载波频率,c为光速,ηlos,ηnlos为路径损耗因子。los传输和nlos传输的概率为:

9、pr(llos)=(1+xexp(-y[δ-x]))-1(3)

10、pr(lnlos)=1-pr(llos)(4)

11、其中,x、y为常参数,取决于地理环境;δ是发射端和接收端之间的仰角。在无人机和用户k之间,考虑los概率传输,平均路径损耗表示为在haps与uav之间,由于仅考虑los传输,平均路径损耗表示为如下:

12、

13、

14、其中,t时刻无人机和用户k之间的距离和haps与uav之间的距离dt表示为:

15、

16、

17、由此,可以得到无人机和用户k之间、haps与uav之间的传输信噪比如下:

18、

19、其中,pk,p分别为uav和haps下行传输的功率,σ2为高斯噪声的功率。根据香农公式,用bk,b分别表示uav下行传输带宽和haps下行传输带宽,可以得到uav下行传输速率和haps的下行传输速率为:

20、

21、因此,uav与用户之间的平均传输时延表示为:

22、

23、其中,s为文件大小。

24、为了uav能够更好的覆盖更多的用户,避免用户移动过程中超出其覆盖范围,将uav和用户之间的距离作为优化的一部分。则,系统优化目标取用户获取内容平均传输时延和uav与用户之间平均距离的加权和为:

25、

26、其中,λ1+λ2=1。则可以得到优化问题表述如下:

27、

28、其中,dmax表示在uav的覆盖范围。

29、由于用户具有移动性,采用高斯-马尔可夫模型描述用户的移动性,用户k在t时刻的移动参照了t-1时刻的速度值、方向值和一个随机变量,有:

30、

31、

32、上述两式表示的是用户k在t时刻的移动速度和方向。其中,0≤ρ0≤1是调节随机性的参数;是当t→∞时用户速度和方向的平均值;是符合高斯分布的随机变量。由此,第t个时刻的用户位置坐标可以表示为

33、

34、此外,采用zipf分布描述内容的流行度和用户请求内容的概率,即用户k请求内容f的概率如下:

35、

36、其中,是内容f在t时刻的排名,η是zipf因子,η越小的内容被请求概率越高。由于每个用户的偏好并不完全相同,若在时隙t用户k请求内容f,设置状态转移概率矩阵,表示在时隙t+1用户k请求内容f′的概率。

37、针对上述优化问题,构建马尔可夫决策过程。状态空间包括uav的位置wt,用户的位置uav的缓存内容用户请求内容用户的移动速度和移动方向表示为:

38、

39、动作空间包括uav在t时刻的缓存内容ut,移动的航向角θt、俯仰角和速度vt,表示为:

40、

41、由于混合动作空间包含离散动作和连续动作因此,动作空间

42、奖励即为优化目标rt,如式(12)所示。

43、为了解决上述问题,基于sac算法进行改进,结合dqn思想,以实现混合动作空间下的sac算法。通过actor网络πθ(·|st)得到对应所有离散动作的连续动作参数θ为actor网络的参数。然后利用critic网络输出离散动作和对actor网络输出的评价,φj为critic网络的参数。而为了消除策略改进过程中的过度估计,在sac算法中使用了双q学习技巧来训练actor网络,即使用两个critic网络j=1,2对actor网络进行评估,选择两者中的最小值作为最终的q值。最终,离散动作j=1,2,连续动作混合动作

44、critic网络的损失函数为:

45、

46、其中,y(rt,st+1,dt)是critic网络的目标值,表示为:

47、

48、其中,表示的是根据当前策略得到的动作值,α是温度控制系数。

49、actor网络的损失函数表示为:

50、

51、其中,此外,用表示期望最小熵值,则温度控制系数α的损失函数表示为:

52、

53、上述(20)、(22)、(23)三式均采用梯度下降更新的方式更新网络参数。

54、结合本发明中haps辅助的uav通信场景,hsac算法的流程如表1所示。

55、表1 基于缓存和部署优化的hsac算法

56、

57、

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1