一种移动边缘计算系统中联合卸载判决和资源分配的方法与流程

文档序号:18406187发布日期:2019-08-10 00:24阅读:268来源:国知局
本发明涉及第五代无线通信
技术领域
:,尤其涉及一种移动边缘计算系统中联合卸载判决和资源分配的方法。
背景技术
::在移动边缘计算(mobileedgecomputing,mec)系统中,用户卸载任务到移动边缘计算服务器,利用无线接入网络的边缘提供计算资源,能够克服移动终端设备的一些限制条件,如电池的使用时间和有限的计算能力,提高移动终端用户的体验质量(qualityofexperience,qoe)。目前国内外对mec系统的研究方向以及存在的问题如下:①降低能量消耗。如t.q.dinh等人在2017年提出一个对卸载判决和移动终端设备cpu频率进行联合优化的框架,这里考虑单用户卸载任务到多个mec服务器,c.you等人在2017年研究mec系统中计算资源的分配问题,这里考虑在限定的计算时延条件下降低移动终端设备的能量消耗。但是上述研究文献只是从用户的角度考虑最小化移动终端设备的能量消耗,与之不同的是,本发明从运营商角度考虑,降低mec系统中的能量消耗,这包括两部分:mec服务器计算任务所消耗的能量,和下行链路sbs向用户无线传输所消耗的能量。为了降低mec系统中的能量消耗。②最大化卸载任务的数量。如c.wang等人在2017年提出对计算任务卸载和资源分配进行联合优化的方法,同时提出在mec和小小区网络联合部署的系统中联合计算任务卸载和干扰管理的方法。但是上述研究存在的一个大问题,都是假设在一定的时延条件下,所有的计算任务在一个计算卸载时间段内都能被执行完,并且在旧的计算任务执行完之前没有新的计算任务到达。这样的假设让复杂的优化问题变得简单好操作容易处理,然而弊端是只适用于短时间的性能分析,不能满足移动终端设备长期动态的计算要求。实际上,当多个用户共享一个mec服务器时,由于计算资源有限,在一个固定的计算卸载时间段内可能没有执行完一些任务,意味着在旧的计算任务执行完之前已经有新的计算任务到达了。将动态系统建模为一个马尔科夫判决过程(markovdecisionprocess,mdp),其中的状态空间和动作空间都是连续的多维的,传统的q学习算法不能通过简单的值函数来描述每一个状态或动作是否是好的,过于依赖q_table,特别是当状态或动作空间的维度巨大时,q_table量级太大,计算机处理不了;传统策略梯度算法收敛慢。技术实现要素:为解决现有技术的缺点和不足,提供一种移动边缘计算系统中联合卸载判决和资源分配的方法,从而降低系统能耗和时延。为实现本发明目的而提供的一种移动边缘计算系统中联合卸载判决和资源分配的方法,包括以下步骤:步骤1:移动边缘计算服务器为每个移动用户设置一个先进先出的任务队列,来存储已经卸载到移动边缘计算服务器但在一个时隙内还没有被服务器执行的任务;步骤2:为每个小基站都配有一个能量收集装置,用可充电电池来存储绿色能源,设定一个门限值来保护电池,它满足在一个时隙内移动终端的能量要求;当电池电量低于门限值时,电池的状态值bn(t)为0,小基站将由传统的电网自动供电;否则bn(t)为1,小基站将由绿色能源供电;步骤3:将动态系统建模为马尔科夫决策过程,简称为mdp,包括有s、a、p、r,四个参数,s为状态空间、a为动作空间、p为状态转移概率矩阵、r是回报函数,其中的状态空间s包括三部分:1)无线信道环境,用基站到用户的下行链路的信干噪比ηn(t)来表示;2)每个小基站的可充电电池的电量状态bn(t),用0或1表示;3)任务队列长度tn(t);其中的动作空间a包括三部分:1)移动边缘计算服务器的卸载判决cn(t),当cn(t)=1时,同意卸载,当cn(t)=0时,拒绝卸载;2)下行链路的传输功率pn(t);3)移动边缘计算服务器分配给n号移动终端设备的计算资源fn(t);步骤4:采用单资格迹的actor-critic算法来解决上述mdp问题;初始化actor部分的策略参数θ和critic部分的状态值函数的参数ω;设置一个迭代次数的上限,开始步骤5进行迭代;步骤5:在每一次迭代中,根据动作的概率分布π(a|st,θ),其中μ(s,θ)是正太分布的均值,用μ(s,θ)=θtφ(s)估计得到,σ是均方差,选择得到一个动作a,在当前状态下该动作,就可以得到这个动作的奖励值,状态从当前状态转换到下一个状态;步骤6:更新状态特征向量φ(s),用一个线性估计器来学习状态值函数vπ(s),估计方法为vπ(s)≈v(s,ω)=ωtφ(s),其中ω是critic部分的状态值函数的参数,ωt是ω的转置;步骤7:更新时序差分函数δ,更新方法为δ=rt+1+γωv(st+1,ω)-v(st,ω),其中rt+1+γωv(st+1,ω)是下一状态的总奖励值,rt+1是下一状态的即时奖励值,γω是衰减因子数值在0到1之间,v(st,ω)是当前状态下的奖励值;步骤8:更新状态值函数的参数ω(t),更新方法为其中ω(t)是当前时隙的状态值函数的参数,是ω的梯度,δ是时序差分函数,αc,t是critic部分的学习率,满足步骤9:更新下一个时隙的策略参数θt+1,更新方法为其中是θ的梯度,αa,t是actor部分的学习率,是一个正数,且满足判断迭代是否收敛,或者达到迭代次数的上限,如果没有达到迭代次数的上限而且迭代没有收敛,则返回步骤5继续迭代,如果达到迭代次数的上限或迭代已经收敛,则结束迭代。作为上述方案的进一步改进,步骤1中任务队列的数量用任务队列的长度来表示,数值按照下列式子而动态变化:其中[x]+=max(x,0),cn(t)λn(t)是在第t个时隙内到达的任务,cn(t)是步骤3中移动边缘计算服务器做的卸载判决,λn(t)是在第t个时隙内n号移动终端卸载的任务;是在时间间隔δt内和给定的计算资源前提条件下,可以由移动边缘计算服务器处理的任务输入的上限。作为上述方案的进一步改进,步骤2中可充电电池的电量通过下列式子得到其中bn(t)是在t时隙开始时的电池电量,bn(t+1)是在t+1时隙开始时的电池电量,gn(t)是到达的能量包,是从基站到移动终端设备的下行链路消耗的能量,是电池的最大容量,bn(t)是步骤2中电池的电量状态值。作为上述方案的进一步改进,mdp的回报函数是其中,ρn、υn和βn为三个参数,单位分别是比特、焦耳、比特,dn(t)是移动边缘计算服务器执行的任务;en(t)是在执行任务dn(t)时的能量消耗,en(t)包括移动边缘计算服务器在计算任务dn(t)消耗的能量和将计算结果通过下行链路传输给n号移动终端时消耗的能量;hn(t)是在t时隙结束时还没有执行完的任务队列的长度,在数值上hn(t)=tn(t+1),hn(t)作为一个惩罚机制,用来避免当任务队列已经非常长而且计算资源有限时移动边缘计算服务器接受n号移动终端的卸载任务请求;回报函数代表的是移动运营商通过移动边缘计算服务器提供计算服务的收益,其中p(t)是下行链路的传输功率,c(t)是卸载判决,f(t)是计算资源。本发明的有益效果是:与现有技术相比,本发明的优势在于:1)采用能量收集小小区网络和移动边缘计算服务器联合部署的方式,并且为每个小基站(smallbasestation,sbs)都配置一个绿色能源收集装置,绿色能源为风能和太阳能,可以通过可充电电池来进行存储,小基站(smallbasestation,sbs)优先采用绿色能源供电,当绿色能源不足时采用传统电网供电,降低了移动边缘计算系统的能量损耗和时间延迟;2)设计先进先出的任务队列作为惩罚机制,提高了移动边缘计算服务器执行计算任务的数量,来存储已经卸载到移动边缘计算服务器但在一个时隙内还没有被服务器执行的任务,这些任务的数量用任务队列的长度来表示。当任务队列已经非常长而且计算资源有限时,如果移动边缘计算服务器接受移动终端的卸载任务请求,就受到惩罚,导致运营商的效益降低。运营商的效益主要取决于移动边缘计算服务器执行的任务数,执行的任务越多,效益越大。当多个用户同时向移动边缘计算服务器发出计算服务的申请时,本发明从最大化运营商的效益角度出发来为移动边缘计算服务器做是否同意卸载任务的判决,增大了移动运营商的总收益;3)采用联合卸载判决和资源分配的actor-critic强化学习算法,在处理连续多维的状态空间和动作空间问题时,比q学习算法的性能更好,比策略梯度算法的收敛速度更快。附图说明以下结合附图对本发明的具体实施方式作进一步的详细说明,其中:图1为本发明适用的场景图。为了统一单位为具体实施方式如图1所示,本发明文件中基站包括有小基站和宏基站。本发明的目标之一是降低移动边缘计算系统的能量消耗,只考虑从电网中消耗的能量,不考虑从充电电池中消耗的绿色能源,做出以下假设:1)当n号基站没有下载任务时的静态功率是由传统电网提供的;2)小基站是以有线的方式和宏基站连接在一起的,宏基站和小基站之间的能量消耗可以被忽略不计。考虑能量收集小小区网络的下行链路,这个服务区的中心有一个单独的宏基站(microcellbasestation,mbs),mec服务器和mbs连接在一起,由mec服务器向该服务区所有移动终端提供计算服务。该服务区分布着许多sbs,各个sbs和mbs都以有线的方式进行连接。我们假设mec服务器、mbs和sbs都由同一家移动运营商来统一管理安排(去掉安排)。为了降低运营商的能量消耗,每个sbs旁边都配有一个能量收集(energyharvesting,eh)装置,用可充电电池来储存风能(windpowersystem)和太阳能(solarpowersystem)这类绿色能源,sbs首选使用绿色能源供电,当绿色能源不足时用传统电网供电。mec服务器和mbs都只由电网供电。假定mbs和sbs是共信道单天线传输,这里考虑的是单用户情况,即一个基站只服务于一个用户。具体实施例:一个mbs位于一个1km*1km面积大小的服务区的中心,多个sbs随机分布在服务区内,mec服务器和mbs连接在一起为用户提供计算服务,mec服务器端设置一个任务队列,用来存储已经卸载到移动边缘计算服务器,但在一个时隙内还没有被服务器执行的任务。无线信道模型基于3gpp标准,分配给基站到用户的带宽是10mhz,在一个时隙内可获得的总计算资源是25ghz。首先建立下行链路通信模型、能量收集模型、计算任务队列模型、mec服务器执行任务模型和效用函数模型,将动态系统建模为mdp,并通过如下步骤实现:步骤1:移动边缘计算服务器为每个移动用户设置一个先进先出的任务队列,来存储已经卸载到移动边缘计算服务器但在一个时隙内还没有被服务器执行的任务;步骤2:为每个小基站都配有一个能量收集装置,用可充电电池来存储绿色能源,设定一个门限值来保护电池,它满足在一个时隙内移动终端的能量要求;当电池电量低于门限值时,电池的状态值bn(t)为0,小基站将由传统的电网自动供电;否则bn(t)为1,小基站将由绿色能源供电;步骤3:将动态系统建模为马尔科夫决策过程,简称为mdp,包括有s、a、p、r,四个参数,s为状态空间、a为动作空间、p为状态转移概率矩阵、r是回报函数,其中的状态空间s包括三部分:1)无线信道环境,用基站到用户的下行链路的信干噪比ηn(t)来表示;2)每个小基站的可充电电池的电量状态bn(t),用0或1表示;3)任务队列长度tn(t);其中的动作空间a包括三部分:1)移动边缘计算服务器的卸载判决cn(t),当cn(t)=1时,同意卸载,当cn(t)=0时,拒绝卸载;2)下行链路的传输功率pn(t);3)移动边缘计算服务器分配给n号移动终端设备的计算资源fn(t);步骤4:采用单资格迹的actor-critic算法来解决上述mdp问题;初始化actor部分的策略参数θ和critic部分的状态值函数的参数ω;设置一个迭代次数的上限,开始步骤5进行迭代;步骤5:在每一次迭代中,根据动作的概率分布π(a|st,θ),其中μ(s,θ)是正太分布的均值,用μ(s,θ)=θtφ(s)估计得到,σ是均方差,选择得到一个动作a,在当前状态下该动作,就可以得到这个动作的奖励值,状态从当前状态转换到下一个状态;步骤6:更新状态特征向量φ(s),用一个线性估计器来学习状态值函数vπ(s),估计方法为vπ(s)≈v(s,ω)=ωtφ(s),其中ω是critic部分的状态值函数的参数,ωt是ω的转置;步骤7:更新时序差分函数δ,更新方法为δ=rt+1+γωv(st+1,ω)-v(st,ω),其中rt+1+γωv(st+1,ω)是下一状态的总奖励值,rt+1是下一状态的即时奖励值,γω是衰减因子数值在0到1之间,v(st,ω)是当前状态下的奖励值;步骤8:更新状态值函数的参数ω(t),更新方法为其中ω(t)是当前时隙的状态值函数的参数,是ω的梯度,δ是时序差分函数,αc,t是critic部分的学习率,满足步骤9:更新下一个时隙的策略参数θt+1,更新方法为其中是θ的梯度,αa,t是actor部分的学习率,是一个正数,且满足判断迭代是否收敛,或者达到迭代次数的上限,如果没有达到迭代次数的上限而且迭代没有收敛,则返回步骤5继续迭代,如果达到迭代次数的上限或迭代已经收敛,则结束迭代。作为上述方案的进一步改进,步骤1中任务队列的数量用任务队列的长度来表示,数值按照下列式子而动态变化:其中[x]+=max(x,0),cn(t)λn(t)是在第t个时隙内到达的任务,cn(t)是步骤3中移动边缘计算服务器做的卸载判决,λn(t)是在第t个时隙内n号移动终端卸载的任务;是在时间间隔δt内和给定的计算资源前提条件下,可以由移动边缘计算服务器处理的任务输入的上限。作为上述方案的进一步改进,步骤2中可充电电池的电量通过下列式子得到其中bn(t)是在t时隙开始时的电池电量,bn(t+1)是在t+1时隙开始时的电池电量,gn(t)是到达的能量包,是从基站到移动终端设备的下行链路消耗的能量,是电池的最大容量,bn(t)是步骤2中电池的电量状态值。作为上述方案的进一步改进,mdp的回报函数是其中,ρn、υn和βn为三个参数,单位分别是比特、焦耳、比特,dn(t)是移动边缘计算服务器执行的任务;en(t)是在执行任务dn(t)时的能量消耗,en(t)包括移动边缘计算服务器在计算任务dn(t)消耗的能量和将计算结果通过下行链路传输给n号移动终端时消耗的能量;hn(t)是在t时隙结束时还没有执行完的任务队列的长度,在数值上hn(t)=tn(t+1),hn(t)作为一个惩罚机制,用来避免当任务队列已经非常长而且计算资源有限时移动边缘计算服务器接受n号移动终端的卸载任务请求;回报函数代表的是移动运营商通过移动边缘计算服务器提供计算服务的收益,其中p(t)是下行链路的传输功率,c(t)是卸载判决,f(t)是计算资源。本发明的有益效果是:与现有技术相比,本发明的优势在于:1)采用能量收集小小区网络和移动边缘计算服务器联合部署的方式,并且为每个小基站(smallbasestation,sbs)都配置一个绿色能源收集装置,绿色能源为风能和太阳能,可以通过可充电电池来进行存储,小基站(smallbasestation,sbs)优先采用绿色能源供电,当绿色能源不足时采用传统电网供电,降低了移动边缘计算系统的能量损耗和时间延迟;2)设计先进先出的任务队列作为惩罚机制,提高了移动边缘计算服务器执行计算任务的数量,来存储已经卸载到移动边缘计算服务器但在一个时隙内还没有被服务器执行的任务,这些任务的数量用任务队列的长度来表示。当任务队列已经非常长而且计算资源有限时,如果移动边缘计算服务器接受移动终端的卸载任务请求,就受到惩罚,导致运营商的效益降低。运营商的效益主要取决于移动边缘计算服务器执行的任务数,执行的任务越多,效益越大。当多个用户同时向移动边缘计算服务器发出计算服务的申请时,本发明从最大化运营商的效益角度出发来为移动边缘计算服务器做是否同意卸载任务的判决,增大了移动运营商的总收益;3)采用联合卸载判决和资源分配的actor-critic强化学习算法,在处理连续多维的状态空间和动作空间问题时,比q学习算法的性能更好,比策略梯度算法的收敛速度更快。以上实施例不局限于该实施例自身的技术方案,实施例之间可以相互结合成新的实施例。以上实施例仅用以说明本发明的技术方案而并非对其进行限制,凡未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明技术方案的范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1