一种基于信息年龄最优同时考虑用户传输能耗的优化方法

文档序号:37357812发布日期:2024-03-22 10:11阅读:21来源:国知局
一种基于信息年龄最优同时考虑用户传输能耗的优化方法

本发明属于无人机场景下的信息年龄优化领域,具体涉及一种基于信息年龄最优同时考虑用户传输能耗的优化方法。


背景技术:

1、新一代无线网络需要支持更广泛的服务,如低延迟和可靠通信、大规模通信和更好的移动宽带,传统网络要满足这些服务迎来了很多挑战。无人机(unmanned aerialvehicle)可以为新一代网络提供可行的解决方案。无人机作为一种先进的技术,具有低成本、灵活的移动性并且能直接与地面基础设施进行通信。

2、在无线传感器网络或物联网中,无人机可以作为一种辅助设备,在监控、数据收集、桥梁健康监控、智慧城市和公共安全等领域能起到重要作用。在数据收集领域中,传感器等物联网设备产生的数据需要被收集到附近的基站或者中心服务器。相比物联网设备直接与基站或中心服务器进行通信,采用无人机作为中继,无人机负责收集数据,再把数据转发到基站,能够降低物联网设备传输能耗,从而延长设备的使用时间,并且能提高网络的利用率,提高数据的收集速度。

3、在一些具体的应用中,比如传感器可以用来采集温度、天气以及空气的相关数据来对环境进行监测。还有一些对实时性要求较高的应用,比如监测交通的物联网设备,它们收集到的数据需要被尽快收集,以便实时了解交通情况,做出决策部署。采用无人机进行数据收集,如何确定无人机的飞行轨迹,以保证数据被尽快收集,同时尽可能降低能耗是目前学术界与工业界研究的重点。

4、为了衡量收集到的数据是否是最新的,提出了信息年龄这一概念。信息年龄定义为数据产生到它被收集所经过的时间,因此一个数据的信息年龄越大,则表示此数据越旧,反之信息年龄越小则表示数据越新。在现有的研究中,为了尽可能提高数据的新鲜度,即最小化信息年龄,通常将问题抽象为一个最优化的问题进行求解。考虑到求解的问题通常是非凸的并且是np难的,采用传统的优化算法难以对问题进行求解,通过将优化问题转化为一个马尔可夫决策过程,从而采用深度强化学习进行求解是目前的热门研究领域。

5、在现有的很多研究中,有些研究考虑的场景不够全面,比如没有考虑到环境的动态变化,有些研究局限在最小化信息年龄,并没有很好地考虑能耗的问题。无人机辅助的无线物联网网络((hu h,xiong k,qu g,et al.aoi-minimal trajectory planning anddata collection in uav-assisted wireless powered iot networks[j].ieeeinternet of things journal,2020,8(2):1211-1223.)),无人机从数据中心发射,飞到每个地面传感器设备的上空,收集数据,然后返回数据中心,旨在最小化所收集到的数据的平均信息年龄,使用的方法是动态规划和蚁群启发式算法。一个多无人机的移动边缘计算系统(zhu z,wan s,fan p,et al.federated multiagent actor–critic learning for agesensitive mobile-edge computing[j].ieee internet of things journal,2021,9(2):1053-1067.),着重于系统的及时性和数据新鲜度,提出了一种异构的多智能体深度强化学习框架,结合联邦学习模式进行联合协作,帮助无人机更好的进行工作。采用的是特定的优化算法,在应对环境的动态变化上并没有本发明采用的强化学习算法表现好。现有技术采用了强化学习算法,但是并没有考虑设备传输能耗的问题,本发明提出的设计方案不仅考虑了最小化信息年龄,同时还尽可能降低了物联网设备上传数据时的传输能耗,提高了设备的使用时间。此外,本发明还考虑了物联网设备一次只能向一个无人机传输数据,避免数据被重复收集从而提高传输效率,同时还规定了无人机单次能收集到的数据是有限的,更加符合现实中的应用场景。


技术实现思路

1、本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于信息年龄最优同时考虑用户传输能耗的优化方法,对物联网场景下无人机的信息收集过程进行了建模。

2、本发明至少通过如下技术方案之一实现。

3、一种基于信息年龄最优同时考虑用户传输能耗的优化方法,包括如下步骤:

4、s1、对物联网下无人机收集信息的过程进行建模;

5、s2、引入信息年龄的概念,构建以最小化信息年龄和物联网设备的传输能耗为目标的优化方程;

6、s3、将优化方程转化为马尔可夫决策过程,并给出状态空间、动作空间和奖励函数;

7、s4、在无人机收集信息时,对无人机与物联网设备之间的匹配过程进行建模;

8、s5、使用深度强化学习算法对优化方程进行求解,动态地决策无人机的飞行路径,以达到最小化设备的信息年龄和传输能耗。

9、进一步地,对物联网下无人机收集信息的过程进行数学建模,具体步骤包括:

10、设有n个物联网设备产生数据,m个无人机负责收集,物联网设备用集合表示,无人机用集合来表示,每个设备i每隔时间t产生一个待处理的任务ii(t),设整个过程持续t个时间间隔,即

11、

12、其中di(t)表示当前任务数据量的大小,表示数据产生的时间;

13、

14、xij(t)描述设备与无人机之间的传输关系,xij(t)=1表示设备i产生的任务在t时刻被无人机j收集,xij(t)=0表示等待被收集;

15、为了最大限度利用无人机的资源,设备的数据每次只能选择一个无人机收集,同时无人机的资源也是有限的,设无人机最多能收集fmax个任务数据,定义如下约束:

16、

17、

18、为了模拟无人机的飞行过程,设无人机在t时刻的坐标表示为[xj(t),yj(t),zj],假定无人机在长方形的区域内飞行,并且无人机的高度zj在飞行过程中保持不变:

19、

20、

21、其中xmas、ymax表示无人机飞行区域边界的长宽;

22、已知无人机的当前坐标,无人机的下一个时刻的坐标由飞行角度θj(t)∈[0,2π)和飞行距离dj(t)∈[0,dmax]来确定,dmax表示无人机单次飞行的最大距离:

23、xj(t+1)=xj(t)+dj(t)cos(θj(t))

24、yj(t+1)=yj(t)+dj(t)sin(θj(t))

25、在每个时刻,无人机收集它覆盖范围下设备产生的数据,设无人机覆盖的最大水平范围为rmax,定义rij(t)表示t时刻设备i与无人机j之间的水平距离:

26、

27、其中,[xi,yi]表示设备的坐标,在t时刻设备i产生的数据能被无人机j收集需满足如下条件:

28、

29、当无人机收集数据时,设备i与无人机j之间通信信道的功率增益表示为hij(t)=β0/β0表示传输距离为1m时的功率增益,dij(t)表示设备i与无人机j之间的传输距离:

30、

31、其中,[xj(t),yj(t),zj]为无人机在t时刻的坐标;

32、定义设备i在t时刻的传输功率为则设备i向无人机j的传输速率rij(t)由如下公式计算:

33、

34、其中,σ2表示加性高斯白噪声功率,b表示信道的通信带宽;设定每个设备都使用正交频分复用信道,即各个设备的通信互不干扰,设备i向无人机j传输一个任务ii(t)所需要的时间为:

35、

36、其中,di(t)表示当前任务数据量的大小;根据任务所需要的传输时间,以及传输功率,设备i向无人机j上传一个任务所需能耗计算为:

37、

38、进一步地,步骤s2具体包括:

39、定义设备i的信息年龄为所有等待被收集的任务的平均信息年龄,记为δi(t):

40、

41、假定设备i中有v个任务等待被收集,表示每个任务对应的信息年龄;

42、定义集合表示每个无人机在t时刻的飞行决策,集合表示每个用户i选择那个无人机上传数据,集合u和集合a作为优化变量,优化问题可以定义如下:

43、

44、s.t.

45、

46、

47、

48、

49、

50、

51、

52、

53、进一步地,将优化方程转化为一个马尔可夫决策过程,并给出状态空间、动作空间和奖励函数,具体包括:

54、定义状态空间状态空间由每个设备的信息年龄和每个无人机的位置组成,动作空间表示无人机的飞行决策,由此计算无人机飞行的下一个位置,同时,奖励函数定义为:

55、

56、以设备的信息年龄和传输能耗作为奖励,通过设置系数ζ∈(0,1)在两者之间进行权衡。

57、进一步地,深度强化学习算法为sac算法,通过与环境的互动,累积经验数据,从而进行训练;具体互动过程包括:sac算法通过观察当前状态,包括所有无人机的位置和设备的信息年龄,输出每个无人机的飞行角度和距离,来确定每个无人机下一步应该飞往的位置,每个无人机根据输出的飞行角度和距离飞往下一个位置收集物联网设备产生的数据,并根据奖励函数计算奖励。

58、进一步地,在无人机收集信息时,对无人机与物联网设备之间的匹配过程进行建模,具体包括:

59、在无人机从物联网设备收集数据之前,需要相互建立连接并满足以下限制:每个物联网设备只能由至多一个无人机服务,每个无人机最大只能接受fmax个任务,无人机只能覆盖设定的范围,然后将问题转化为加权二分图匹配的问题;

60、在每一时刻,无人机和物联网设备的位置已知,根据上传一个任务所需能耗公式计算每个物联网设备和每个无人机之间传输数据在单位时间内所需的能耗,如果设备i在无人机j的收集范围内,则在设备i与无人机j之间添加一条权重为传输所需能耗的连接,如果设备i无法被无人机j收集,则在设备i与无人机j之间添加一条权重为无穷大的连接,以构建加权二分图。

61、进一步地,对于加权二分图,使用匈牙利算法或kuhn-munkres算法来求解具有最小权重的最优匹配。

62、进一步地,使用深度强化学习算法对问题进行求解,动态地决策无人机的飞行路径,以达到最小化设备的信息年龄和传输能耗,具体包括:

63、深度强化学习算法为sac算法,sac算法包括actor网络和critic网络,actor网络和critic网络相互协作以实现强化学习的目标,actor网络充当策略制定者的角色,通过观察系统状态,基于当前策略做出决策,并不断优化策略以提高性能,critic网络则充当策略评估者的角色,通过估计策略的价值函数来评估策略的优劣;critic网络使用soft q值函数来估计策略的长期累积回报,并为actor网络提供反馈信号,帮助其进行策略改进。

64、进一步地,actor网络和critic网络的训练过程包括:sac算法引入了经验回放缓冲区,用于存储先前的经验数据,包括观察状态、执行的动作、获得的奖励以及下一个状态,通过从缓冲区中随机采样进行训练,提高经验数据的使用效率。

65、进一步地,actor网络和critic网络的训练具体包括如下的步骤:

66、(1)随机初始化soft q全连接神经网络网络和θ1和θ2表示神经网路的参数,st和at分别表示t时刻的状态和动作,随机初始化对应的目标网络和和表示目标网络的参数,随机初始化全连接神经网络actor网络πφ(st|at),φ表示神经网络的参数,最后初始化经验缓冲区r;

67、(2)随机初始化无人机位置;

68、(3)在每个时刻t,每个物联网设备随机地产生数据等待被收集,actor网络πφ(st|at)基于当前状态st进行决策,其中状态包括所有设备的信息年龄和无人机的当前位置,actor网络πφ(st|at)的输出动作at包含所有无人机的飞行决策,以使无人机能够准确地飞向下一个位置,通过利用actor网络,根据当前状态智能地决策无人机的飞行路径;

69、(4)无人机飞到下一位置后,通过加权二分图匹配算法与设备进行匹配,由此获得最小的传输能耗,无人机收集匹配成功的设备的数据,并且根据奖励函数计算奖励rt,完成数据收集后,整个系统的状态更新为st+1,并把经验数据(st,at,rt,st+1)存入缓冲区缓冲去大小固定,如果缓冲区已满,则最早的数据将被替换;

70、(5)当缓冲区中数据数量大于k时,每次从缓冲区中随机地取k个数据对soft q网络和actor网络πφ(st|at)进行训练,对于soft q网络和采用梯度下降算法根据如下损失函数对参数θ1和θ2进行更新:

71、

72、其中,表示采用来自缓冲区的状态st和动作at作为随机变量来计算期望;

73、采用梯度下降算法根据如下损失函数对critic网络πφ(st|at)的参数φ进行更新:

74、

75、其中,表示采用来自缓冲区的状态st和actor网络πφ下的动作at作为随机变量来计算期望,α表示温度因子,α越大代表策略越随机,α的值通过梯度下降算法根据如下损失函数进行更新:

76、

77、其中,表示采用t时刻下的actor网络πt对应的动作at作为随机变量来计算期望,是预定义的最小策略熵阈值,根据更新速率τ对目标网络和的参数和进行更新:

78、

79、

80、不断重复上述更新过程,直到收敛。

81、与现有技术相比,本发明具有如下有益效果:

82、(1)本发明针对物联网场景下的信息收集问题,利用多个无人机收集设备产生的数据,以最小化设备信息年龄和降低用户传输能耗为目标。限制设备一次只能向一个无人机传输数据,避免重复传输,并限定无人机能够收集的数据数量,更符合实际应用场景。通过优化解决方案,使无人机在信息收集过程中尽量减少设备信息年龄,同时考虑用户传输能耗,具有重要应用价值;

83、(2)本发明旨在最小化设备的传输能耗,通过将无人机和设备的匹配过程抽象为加权二分图,并应用匈牙利算法求解。匈牙利算法能够以多项式时间复杂度获得最优解,提高算法性能。这种方法有效地优化设备的传输能耗,使得无人机和设备之间的数据传输能够以最小的能耗实现,为物联网场景下的信息传输提供了高效的解决方案;

84、(3)本发明采用深度强化学习算法sac,相较传统优化方法难以表示最优解的问题,sac算法能够更好地适应环境的动态变化,并解决复杂的问题。通过学习和优化策略,本发明能够自适应地调整决策策略,以在不确定的环境中获得最佳结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1