基于深度强化学习的空中边缘计算数据安全传输及资源分配方法

文档序号:37592951发布日期:2024-04-18 12:27阅读:9来源:国知局
基于深度强化学习的空中边缘计算数据安全传输及资源分配方法

本发明涉及无人机辅助移动边缘计算,特别是涉及一种基于深度强化的保障用户卸载数据安全及边缘计算资源分配和轨迹联合优化方法。


背景技术:

1、此部分的陈述仅仅提供与本公开有关的背景技术信息,并且这些陈述可能构成现有技术。在实现本发明过程中,发明人发现现有技术中至少存在如下问题。

2、在5g时代,智能设备互联导致通信网络中涌现出计算密集和时延敏感的任务,对于计算能力有限且低功耗的物联网终端设备构成了重大挑战。移动边缘计算(mec)被视为有前景的解决方案,通过将计算和存储资源下沉至网络边缘,实现任务近源处理,从而降低数据传输时延和带宽需求。mec还支持近场通信和实时数据分析,提供物联网应用更高效的计算和响应性能。然而,在偏远或山区地区的终端设备面临着挑战,因为它们难以获得可靠的mec服务器和基础设施覆盖,导致在计算和通信方面受到严重限制。

3、无人机因部署灵活、覆盖范围较广、高概率的视距链路通信等特点,被广泛应用于辅助mec系统执行计算密集型任务。通过与地面用户设备建立视距连接,无人机可以充当“飞行的mec服务器”,提供具有低网络开销和执行延迟的重要卸载服务。非正交多址接入允许多个用户共享链路资源,以提高频谱效率。如申请号202310399486.x专利名称为“一种基于noma的无人机辅助mec资源优化方法”,基于noma的无人机辅助mec资源优化分配研究,无人机同时和地面基站为用户提供服务,用来提高系统容量,极大的缓解了地面基站的计算压力,以满足用户的服务需求和qoe要求。

4、虽然无人机辅助的mec系统能够显著提高终端设备的计算性能,但在基于非正交多址接入的无人机辅助的边缘计算网络中,其视距链路信号传播的广播特性使得窃听也同样受益于无人机辅助的mec通信系统提供的视距信道,用户卸载信息容易被潜在的恶意窃听者拦截,这将导致数据安全和用户隐私泄露的风险。因此,在无人机辅助的mec应用场景中,降低数据泄露的风险是一个现实而重要的问题。为防止无线通信中数据被恶意窃听,基于物理层安全技术的解决方案被广泛应用,以增强数据传输链路的安全性。作为上层传统加密技术的一种补充,物理层安全技术利用噪声和多径传输的不确定性来增加合法接收端和窃听接收端之间信道容量差,通过无线信道的时变性、互异性、空间唯一性等天然特征来保障通信安全。

5、但由于mec网络中资源分配和任务调度的复杂性和环境的不确定性,传统的优化方法一般很难解决这类问题。尤其是当空中存在位置不确定的恶意窃听者的情况下,如何在保证用户卸载数据的安全性的同时,还能降低用户的计算时延和能耗,是目前的难点问题。若再考虑到用户的随机移动特性及无人机的3d飞行轨迹,使得上述问题更加复杂、困难。


技术实现思路

1、针对上述问题,本发明的目的在于解决现有技术中的一部分问题,或至少缓解这些问题。

2、基于深度强化学习的空中边缘计算数据安全传输及资源分配方法,包括如下步骤:

3、构造考虑存在空中窃听者情况下的无人机辅助边缘计算模型;

4、根据所述无人机辅助边缘计算模型,在保证用户数据安全的前提下,计算系统用户加权的时延和能耗,作为系统优化目标,并构建动态资源分配和轨迹联合优化问题;系统用户计算成本最小化目标函数数学表达形式如下:

5、p1:

6、s.t.c1:

7、c2:

8、c3:zmin≤zs(n)≤zmax,

9、c4:λk,l(n)∈{0,1},

10、c5:

11、c6:

12、c7:

13、c8:

14、c9:

15、c10:

16、c11:

17、c12:es(n)≥0.

18、其中,c1~c3分别表示对无人机(uav)飞行速度、避免碰撞及飞行高度的约束;c4~c5为非正交多址(noma)通信时对强用户和弱用户的判断;c6为用户发射功率约束;c7为保障用户卸载数据安全所设置的最小安全速率;c8~c10为mec服务器为用户分配的计算频率限制;c11表示在规定时间内用户需处理完所有的数据;c12为uav的能耗限制;无人机飞行时间t被均分为n个时隙,每个时隙长度为δt=t/n;qs(n)为服务器无人机s的位置,qe(n)为窃听无人机e的位置;为s的最大飞行速度;dmin为s与e的最小安全距离;zs(n)为s在第n时隙的飞行高度,其中zmin为无人机最低飞行高度,zmax为最大飞行高度;λk,l(n)为表示用户信道强弱关系的二进制变量,其中l为相对于k用户的弱用户;uk为地面用户设备(uk,k=1,2,…,k),pk(n)为uk在n时隙的发射功率,fk(n)为uk在n时隙的cpu频率,pmax和分别为用户本地最大发射功率和本地最大计算频率;rk,sec(n)为uk在第n时隙的瞬时安全卸载速率,为用户卸载的安全门限;为s的最大计算频率,fsk(n)为s分配给uk的计算频率;为第n时隙用户卸载数据量;cs为为s计算1比特数据所需的cpu圈数;es(n)为无人机飞行最后时隙s的剩余能量;

19、以最小化系统优化目标,将所述动态资源分配和轨迹联合优化问题建模为马尔科夫决策过程;

20、采用深度强化学习中ddpg算法联合优化动态资源分配和无人机的3d轨迹策略进行求解,以降低用户的加权时延和能耗;所述ddpg算法的网络框架,包括策略网络、价值网络、目标策略网络和目标价值网络;

21、用训练好的策略网络进行系统动态资源分配及无人机轨迹优化。

22、采用深度强化学习中ddpg算法联合优化动态资源分配和无人机的3d轨迹策略进行求解,包括如下步骤:

23、构建ddpg算法网络框架,包括策略网络、价值网络、目标策略网络和目标价值网络;

24、根据最大化累积折扣奖励的梯度方向更新策略网络权重θμ;

25、通过最小化损失函数更新价值网络的权重θq;

26、采用软更新方法分别更新目标策略网络的权重θμ′,以及目标价值网络的权重θq′。

27、进一步的,所述软更新策略为:

28、θq′←τθq+(1-τ)θq′

29、θμ′←τθμ+(1-τ)θμ′

30、其中,τ为软更新参数。

31、所述ddpg算法采用经验回放机制,以消除样本之间的相关性。

32、所述无人机辅助边缘计算模型中,通过对用户和e之间的距离进行缩放,考虑系统的最坏安全情况,估计e的窃听能力最强时的窃听范围;设置地面友好干扰机j向e发送人造干扰信号以抑制窃听;所述地面用户设备uk采用noma的通信方式向s卸载数据。

33、进一步的,估计e的窃听能力最强时的窃听范围,包括假设e隐藏在一个以q′e(n)=(x′e(n),y′e(n),z′e(n))为圆心,半径为re的圆形区域内,且re满足||qe(n)-q′e(n)||≤re;其中,x′e(n)、y′e(n)、z′e(n)分别为窃听中心位置在x轴、y轴和z轴的坐标。

34、计算系统用户加权的时延和能耗,还包括分别设有相应的能量和时延权重因子。

35、所述马尔科夫决策过程<s,a,r>;

36、s为系统状态集:

37、s(n)={qs(n),es(n),rk,sec(n),lk(n)}.

38、a为动态资源分配及轨迹动作集:

39、

40、r为奖励函数集:

41、r(n)=-uc(n)+roff(n)+rp(n).

42、其中:uc(n)为优化目标,roff(n)为用户卸载数据奖励,rp(n)为违反约束条件所受到的惩罚;lk(n)为用户剩余未处理的数据量;v为无人机飞行速度,θ为极角,为水平角。

43、用训练好的策略网络进行系统动态资源分配及无人机轨迹优化,包括如下步骤:

44、经过充分训练,当累计奖励值趋于稳定状态,训练过程即停止;

45、将训练完备的策略网络部署至无人机基站平台以引导无人机系统在实践中快速、高效地执行任务,以最小化系统用户时延和能耗优化目标。

46、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于深度强化学习的空中边缘计算数据安全传输及资源分配方法的步骤。

47、本发明具有如下有益效果:

48、1、本发明提供的基于深度强化学习的空中边缘计算数据安全传输及资源分配方法,考虑了空中存在位置不确定的恶意窃听者的情况下的用户卸载数据的安全问题,在保障用户数据安全的同时尽可能地降低系统用户的计算时延和能耗,节约用户平均计算成本;且设有相应的能量和时延权重因子,用户可根据自己的对能量和时延的偏好设置相应权重;

49、2、本发明考虑了用户的随机移动特性和无人机的3d轨迹飞行特性,在考虑这些现实因素的情况下通过设计动态资源分配策略及无人机的3d轨迹以最小化系统用户计算成本;并引入noma传输策略以提升系统频谱利用效率;

50、3、由于所提优化问题存在优化变量耦合的问题,以及决策的解空间较大,且用户及无人机的移动导致环境动态变化,所提优化问题难以用传统的凸优化方法解决的问题。考虑到高维连续动作空间,本发明采用ddpg方法,以获得有效的用户资源分配方案和无人机飞行轨迹规划策略;

51、4、在空中窃听位置不确定的情况下,申请人通过估计的窃听范围考虑了最坏的安全情况,通过联合设计无人机的3d轨迹、用户的发射功率和计算频率以最小化长期平均网络计算成本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1