一种基于深度确定性策略梯度方法的移动边缘计算分流决策方法与流程

文档序号:15626145发布日期:2018-10-09 23:01阅读:248来源:国知局

本发明属于通信领域,尤其是涉及移动边缘计算的通信系统以及基于深度确定性策略梯度方法的移动边缘计算分流决策方法。



背景技术:

随着无线通信技术的广泛发展,无线通信技术已经渗入到人类生活的方方面面。移动边缘计算拓展了移动设备的能力,在丰富的云资源的帮助下,用户体验得到极大提升。在一个多用户的移动通信系统中,所有用户共同占用传输资源。用户将自身的任务分流至基站或者云端时,可以减少自己的能量损耗,但这些被分流的任务的服务质量会受一些额外损耗的影响,比如传输延时。为了最小化所有的能量损耗,保证服务质量,最优的任务分流决策方法应用是很有必要的。



技术实现要素:

为了克服现有移动通信网络的能量损耗较大的不足,为了最小化系统中所有的能量损耗,保证服务质量,本发明提供了一种适用于移动边缘计算的基于深度确定性策略梯度方法的分流决策方法,在保证用户体验的前提下最小化能量损耗。

本发明解决其技术问题所采取的技术方案是:

一种基于深度确定性策略梯度方法的移动边缘计算分流决策方法,所述方法,包括以下步骤:

1)在一个由多个用户组成,并且每个用户都有多个独立的任务的移动通信系统中,xnm为用户n的任务m的分流决策,如果xnm为1则表示用户n的任务m将被分流至基站或云端处理,xnm为0则表示在本地处理;当用户n的任务m被分流时,其上行传输速率和下行传输速率受传输总带宽cu和cd的限制;当用户n的任务m在本地处理时,本地移动设备所产生的能量损耗为如果在云端处理时,所产生的能量损耗为系统总损耗最小化表示为:

约束条件为:

式中:

其中,各参数定义如下:

n:用户人数;

m:每个用户的任务数;

xnm:用户n的任务m的分流决策,为1时表示在云端处理,为0时在本地处理;

用户n的任务m在本地处理时的能量损耗;

用户n的任务m被分流时,传输过程中能量损耗;

用户n的任务m在云端处理时的能量损耗;

ρ:在云端处理时,能量损耗的转化权重;

ωn:用户n延时损耗的转化权重;

用户n的任务m在本地处理时的延时损耗;

用户n的任务在云端处理时的总延时损耗;

2)为了保证服务质量,当任务在云端处理时,数据从本地上传到云端所消耗的时间以及处理时间都将被考虑在内,每个用户n的任务由发送数据donm和接收数据dinm组成,当任务分流至云端时,期间所消耗的时间与本地和基站间的传输速率rac相关;在云端处理时,时间消耗由发送数据大小和云端处理速度fc决定;由于数据传输和处理时间会有重叠,而重叠部分难以估算,所以总的时间损耗考虑为所有时间消耗的总和

式中:

其中,各参数定义如下:

dinm:用户n的任务m的接收数据大小;

donm:用户n的任务m的发送数据大小;

用户n的上传速度;

用户n的下行速度;

rac:基站与云端的传输速率;

atnm:每处理单位的数据需要的处理循环次数;

fc:云端处理器的处理速度;

3)通过深度确定性策略梯度方法来寻找一个最优的分流决策,即所有用户的分流决策xnm,该深度确定性策略梯度方法由执行单元,评分单元和环境所组成,所有用户的分流决策xnm都被编进了执行单元所需的状态xt,执行单元在当前状态下采取动作a对分流决策xnm进行更改并进入下一个状态xt+1,同时得到环境返回的奖励r(xt,a),评分单元结合状态xt,动作a以及环境返回的奖励r(xt,a)给执行单元打分,即表明执行单元在状态xt下采取动作a是好是坏;执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,这可以通过奖励r(xt,a)来调节;在执行单元,评分单元和环境不断交互更新下,分流决策xnm将不断被优化直到被更新到最优,评分单元的更新方式为:

s(xt,a)=r(xt,a)+γs′(xt+1,a′)(3)

其中,各参数定义如下:

xt:在时刻t,系统所处状态;

xt+1:在时刻t+1,系统所处状态;

a:在当前状态执行单元所采取的动作;

a′:在下一状态执行单元所采取的动作;

s(xt,a):执行单元中的评估网络在状态xt下采取动作a所得到的分值;

s′(xt+1,a′):执行单元中的目标网络在状态xt+1下采取动作a′所得到的分值;

r(xt,a):在状态xt下采取动作a所得到的奖励;

γ:奖励衰减比重;

4)所有用户的分流决策xnm作为深度确定性策略梯度方法的状态xt,动作a则是对状态xt的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。

进一步,所述步骤4)中,深度确定性策略梯度方法的迭代过程为:

步骤4.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库。当前系统状态为xt,t初始化为1,迭代次数k初始化为1;

步骤4.2:当k小于或等于给定迭代次数k时,在状态xt下,执行单元预测出一个动作a;

步骤4.3:动作a对状态xt进行更改,使其变成下一状态xt+1并得到环境所反馈的奖励r(xt,a);

步骤4.4:按照格式(xt,a,r(xt,a),xt+1)把历史经验保存在记忆库中;

步骤4.5:评分单元接收动作a,状态xt和奖励r(xt,a),给执行单元打出分数s(xt,a);

步骤4.6:执行单元通过更新自身参数不断去最大化分数s(xt,a),尽可能地让自己在下次能做出高分动作;

步骤4.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤5.2;

步骤4.8:当k大于给定迭代次数k时,学习过程结束,得到最佳分流决策xnm。

本发明的技术构思为:首先,在一个多用户的移动通信系统中,所有用户共同占用传输资源。用户将自身的任务分流至基站或者云端时,可以减少自己的能量损耗,但这些被分流的任务的服务质量会受一些额外损耗的影响,比如传输延时。如果用户的所有任务都在云端处理那么云端的能量损耗和传输损耗将直线上升,如果全部在本地处理,又会消耗用户很多的能量和时间。为了最小化整体的能量损耗,保证服务质量,提出了一种能找到最优的任务分流决策的方法。

本发明的有益效果主要表现在:通过深度确定性策略梯度方法寻找出最优的分流决策方法,在保证用户体验的前提下最小化能量损耗,保证服务质量。

附图说明

图1是系统模型示意图。

图2是找到最优的分流决策的方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

参照图1和图2,一种基于深度确定性策略梯度方法的移动边缘计算分流决策方法,实行该方法能最小化整体的能量损耗,保证服务质量。本发明基于多用户的系统模型(如图1所示),提出了一个分流决策方法来决定哪些用户的哪些任务会被分流至云端,同时如果任务被选择分流,那它的上下行速率也会得到优化以达到最小的能量损耗。所述分流决策方法包括有以下步骤(如图2所示):

1)在一个由多个用户组成,并且每个用户都有多个独立的任务的移动通信系统中,xnm为用户n的任务m的分流决策,如果xnm为1则表示用户n的任务m将被分流至基站或云端处理,xnm为0则表示在本地处理;当用户n的任务m被分流时,其上行传输速率和下行传输速率受传输总带宽cu和cd的限制;当用户n的任务m在本地处理时,本地移动设备所产生的能量损耗为如果在云端处理时,所产生的能量损耗为系统总损耗最小化表示为:

约束条件为:

式中:

其中,各参数定义如下:

n:用户人数;

m:每个用户的任务数;

xnm:用户n的任务m的分流决策,为1时表示在云端处理,为0时在本地处理;

用户n的任务m在本地处理时的能量损耗;

用户n的任务m被分流时,传输过程中能量损耗;

用户n的任务m在云端处理时的能量损耗;

ρ:在云端处理时,能量损耗的转化权重;

ωn:用户n延时损耗的转化权重;

用户n的任务m在本地处理时的延时损耗;

用户n的任务在云端处理时的总延时损耗;

2)为了保证服务质量,当任务在云端处理时,数据从本地上传到云端所消耗的时间以及处理时间都将被考虑在内,每个用户n的任务由发送数据donm和接收数据dinm组成,当任务分流至云端时,期间所消耗的时间与本地和基站间的传输速率rac相关。在云端处理时,时间消耗由发送数据大小和云端处理速度fc决定。由于数据传输和处理时间会有重叠,而重叠部分难以估算,所以总的时间损耗考虑为所有时间消耗的总和

式中:

其中,各参数定义如下:

dinm:用户n的任务m的接收数据大小;

donm:用户n的任务m的发送数据大小;

用户n的上传速度;

用户n的下行速度;

rac:基站与云端的传输速率;

atnm:每处理单位的数据需要的处理循环次数;

fc:云端处理器的处理速度;

3)通过深度确定性策略梯度方法来寻找一个最优的分流决策,即所有用户的分流决策xnm。该深度确定性策略梯度方法由执行单元,评分单元和环境所组成。所有用户的分流决策都被编进了执行单元所需的状态xt,执行单元在当前状态下采取动作a对分流决策进行更改并进入下一个状态xt+1,同时得到环境返回的奖励r(xt,a);评分单元结合状态xt,动作a以及环境返回的奖励r(xt,a)给执行单元打分,即表明执行单元在状态xt下采取动作a是好是坏;执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,这可以通过奖励r(xt,a)来调节;在执行单元,评分单元和环境不断交互更新下,分流决策xnm将不断被优化直到被更新到最优,评分单元的更新方式为:

s(xt,a)=r(xt,a)+γs′(xt+1,a′)(3)

其中,各参数定义如下:

xt:在时刻t,系统所处状态;

xt+1:在时刻t+1,系统所处状态;

a:在当前状态执行单元所采取的动作;

a′:在下一状态执行单元所采取的动作;

s(xt,a):执行单元中的评估网络在状态xt下采取动作a所得到的分值;

s′(xt+1,a′):执行单元中的目标网络在状态xt+1下采取动作a′所得到的分值;

r(xt,a):在状态xt下采取动作a所得到的奖励;

γ:奖励衰减比重;

4)所有用户的分流决策xnm作为深度确定性策略梯度方法的状态xt,动作a则是对状态xt的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。

进一步,所述步骤4)中,深度确定性策略梯度方法的迭代过程为:

步骤4.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库。当前系统状态为xt,t初始化为1,迭代次数k初始化为1;

步骤4.2:当k小于或等于给定迭代次数k时,在状态xt下,执行单元预测出一个动作a;

步骤4.3:动作a对状态xt进行更改,使其变成下一状态xt+1并得到环境所反馈的奖励r(xt,a);

步骤4.4:按照格式(xt,a,r(xt,a),xt+1)把历史经验保存在记忆库中;

步骤4.5:评分单元接收动作a,状态xt和奖励r(xt,a),给执行单元打出分数s(xt,a);

步骤4.6:执行单元通过更新自身参数不断去最大化分数s(xt,a),尽可能地让自己在下次能做出高分动作;

步骤4.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤5.2;

步骤4.8:当k大于给定迭代次数k时,学习过程结束,得到最佳分流决策xnm。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1