1.基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:该方法适用于多用户多边缘服务器的边缘计算系统,基于最小化总延迟原则,并根据深度强化学习策略,设计了最优的任务执行顺序,其具体步骤如下:
步骤一,对于拥有多个用户和多个边缘服务器的边缘计算系统,通过用户的边缘服务器选择策略和用户的卸载策略,计算出用户任务的本地计算延迟和边缘计算延迟;
步骤二,根据本地计算延迟和边缘计算延迟建立计算任务卸载目标函数,将目标函数划分为两个子问题:任务调度;卸载决策和边缘服务器选择;
步骤三,利用任务调度算法获得任务调度的最优解,利用深度强化学习方法获得卸载决策和边缘服务器选择的最优解,结合两个子问题的最优解形成最优的多用户边缘计算调度方案。
2.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤一中,系统中共有m个移动用户,n个边缘服务器mec,n个mec服务器为m个用户提供计算服务;用n表示mec服务器的索引,m表示用户的索引;每个用户选择一个服务器进行任务卸载;用矩阵αm,t=[αm,1,t,αm,2,t,…,αm,n,t,…,αm,n,t]表示t时隙用户m的mec选择策略,其中αm,n,t=1表示t时隙用户m选择mec服务器n进行计算任务卸载,αm,n,t=0表示t时隙用户m未选择mec服务器n,
3.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤一中,用
其中,参数λm,t表示t时隙用户m的任务数据量;fm表示本地设备的处理能力,单位为cpu周期数/秒;ρ表示处理1bit数据所需的cpu周期数。
4.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤一中,用
用rm,n表示用户m向接收者mecn卸载任务的数据速率,按下式计算:
其中,参数bm表示分配给用户m的信道带宽,pm表示用户m的发射功率,hm,n表示用户m与mecn之间的信道增益,
用
若多个任务同时到达某一mec服务器,比如mec服务器n,会产生排队延迟,用mn,t表示t时隙将任务卸载到mec服务器n的用户集合,即mn,t={m|(1-βm,t)αm,n,t=1};用nn,t表示t时隙卸载到mec服务器n的任务总数,nn,t=∑m(1-βm,t)αm,n,t;用矩阵i(n,t)表示t时隙卸载到mec服务器n的任务的处理顺序,i(n,t)是一个nn,t×nn,t阶的矩阵,其中i(n,t)的元素
其中,m′是其他用户的索引;
其中ε表示时隙的长度;
用
其中fe表示边缘服务器的计算能力,单位为cpu周期数/秒;
基于上述得到的传输延迟、排队延迟、计算延迟,用户m在t时隙任务卸载到mecn的边缘计算延迟
5.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤二中,所述目标函数为本地计算延迟和边缘计算延迟的加权和,计算为:
因此,总的优化问题为:
s.t.βm,t∈{0,1},
优化变量包括三个:卸载决策,即β;边缘服务器选择,即α;任务调度,即
将上述优化问题划分为两个子问题:i)任务调度,ii)卸载决策和边缘服务器选择。
6.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤二中,任务调度子问题针对卸载至mec服务器的任务执行顺序进行排序,以最小化计算延迟为目标,建立边缘服务器中多个计算任务的调度优化问题:
7.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤二中,在已知任务调度子问题的最优解i*(n,t),
s.t.βm,t∈{0,1},
上述优化问题映射为深度强化学习问题:令网络状态
经过上述映射,卸载决策和边缘服务器选择子问题等效为如下优化问题:
8.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:在步骤三中,利用任务调度算法求解任务调度优化子问题,即按照计算时间由小到大顺序调度任务,具体步骤为:
步骤301,对于时隙t,统计选择卸载到边缘服务器的用户集合,即初始化集合m={m|λm,t≠0)以及每个边缘服务器的
步骤302,对集合m中的每个用户,当网络与环境交互时,网络首先依据公式(13)获得一个动作at,根据at得出其选择的边缘服务器n(m)={n|αm,n,t=1},根据公式(7)计算各个用户的边缘计算处理时延,遍历循环结束后,执行步骤303;
步骤303,找出边缘计算延迟最小的用户m*,m*是用户索引,用
9.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤三中,采用ddpg深度强化学习算法求解卸载决策和边缘服务器选择子问题,该算法涉及两个网络:评估网络和目标网络,其中每个网络又包括价值网络、动作网络;基于ddpg算法求解具体步骤为:
步骤3a,初始化深度强化学习算法评估网络中价值网络权重θq、动作网络权重θμ,并将其权重复制到目标网络中θq′=θq,θμ′=θμ,θq′是目标网络中价值网络的权重,θμ′是目标网络中动作网络的权重。初始化一个随机向量
步骤3b,获得时隙t所有用户的状态
得到动作at,at=[βt,αt];μ(st|θμ)表示评估网络在状态st下采取的动作,
步骤3c,从经验池r中随机取出m个样本(si,ai,ri,si+1)进行训练;评估网络中价值网络损失函数l,计算为:
评估网络中动作网络的损失函数
其中q(si,ai|θq)为评估网络中价值网络的输出,yi为目标网络中价值网络的输出,μ(si|θμ)表示评估网络在状态si下采取的动作;根据l更新评估网络中价值网络权重θq,根据
θq′=τθq+(1-τ),θμ′=τθμ+(1-τ)θμ′(16)
τ为学习效率,更新目标网络的权重。
步骤3d,重复步骤3b,且t=t+1,直至t=t;迭代结束后评估网络中动作网络权重θμ为最优,此时动作网络输出最优动作a*,即可获得最优卸载决策β*和最优边缘服务器选择策略α*。
10.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:结合两个子问题的解,获得最优调度方案为α*,β*,i*(n,t),