一种基于深度强化学习的移动边缘计算速率最大化方法与流程

文档序号:15626141发布日期:2018-10-09 23:01阅读:357来源:国知局

本发明属于通信领域,尤其是涉及移动边缘计算的通信系统以及基于深度强化学习的移动边缘计算速率最大化方法。



背景技术:

物联网技术的最新发展是迈向真正智能和自主控制的关键一步,在许多重要的工业和商业系统中尤为突出。在一个物联网网络中,部署了大量的能够进行通信和计算的无线设备(wds),由于设备尺寸的限制和生产成本考虑,物联网设备(如传感器)经常携带容量有限的电池和节能的低性能处理器,因此,有限的设备寿命和低计算能力无法支持越来越多需要高性能计算的可持续的新应用程序,例如自动驾驶和增强现实。无线能量传输系统(wpt)的部署可以解决前面提到的两个性能问题,但频繁的设备电池故障不仅扰乱了正常的个人无线设备操作也会显著降低整体网络性能,比如,无线传感器网络中的传感精度。传统的无线系统需要频繁手动更换电池,这很昂贵而且很不方便,由于严格的电池容量限制,在以电池供电的无线系统中,能耗最小化,延长无线设备操作生命周期是一个关键的设计。每一个能量收集的无线设备都遵循二进制计算分流策略,即,一个任务的数据集可以在本地被执行或通过远程的服务器分流来执行。为了最大化所有无线设备的总和计算速率,找到最优的单独计算模式选择是很有必要的。



技术实现要素:

为了克服现有无线能量传输系统的总和计算速率较低的不足,为了最大化所有无线设备的总和计算率,找到最优的单独计算模式选择和系统传输时间分配,本发明提供了一种基于深度强化学习的移动边缘计算速率最大化方法,在保证用户体验的前提下最大化所有无线设备的总和计算速率。

本发明解决其技术问题所采取的技术方案是:

一种基于深度强化学习的移动边缘计算速率最大化方法,所述方法包括以下步骤:

1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中,基站和每个无线设备都有一个单独的天线;射频能量发射器和边缘计算服务器都集成在基站中,假设基站有一个稳定的能量供给,并且能广播射频能量给所有无线设备;每一个无线设备都有一个能量收集电路和一个可充电电池,通过存储收集的能量来完成一些任务;在这个无线通信系统中,每个无线设备都需要与基站建立联系,无线设备i与基站之间的信道增益hi计算为:

其中,各参数定义如下:

ad:天线增益;

π:圆周率;

fc:载波频率;

di:无线设备i与基站之间的距离;

de:路径损耗指数;

2)假设每一个无线设备的计算任务可以在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器,它将处理计算任务然后将结果发送回无线设备;假设无线设备采用二进制计算分流规则,也就是,一个无线设备必须选择是本地计算模式或者分流模式;使用两个互不重叠的集合分别表示在本地计算模式和分流模式的所有无线设备,所有无线设备集合表示为:

3)处在集合中的无线设备能够收集能量并同时处理本地任务,而处在集合中的无线设备只能在收集能量后将任务分流至基站处理,假设基站的计算能力和传输能力要比能量采集无线设备要强大得多,在这种情况下,在任务分流过程中,无线设备耗尽了其收集的能量;所有无线设备的计算速率总和最大化问题描述为:

约束条件为:

式中:

其中,各参数定义如下:

ωi:第i个无线设备的转换权重;

μ:能量收集效率;

p:射频能量传输功率;

φ:处理每一位数据所需的计算循环次数;

hi:第i个无线设备的信道增益;

ki:第i个无线设备的能源效率系数;

a:时间系数;

vμ:转换效率;

b:带宽;

τj:第j个无线设备的时间系数;

n0:本地处理模式下无线设备的个数;

4)通过强化学习算法来寻找一个最优的模式选择,即所有无线设备的模式选择该强化学习系统由智能体和环境所组成。所有用户的模式选择都被编进了系统当前状态xt,智能体在当前状态下采取动作a进入下一个状态xt+1,同时得到环境返回的奖励r(xt,a),在智能体和环境不断交互更新下,模式选择将不断被优化直到找到最优的,智能体的更新方式为:

qθ(xt,a)=r(xt,a)+γmaxqθ′(xt+1,a′)(4)

其中,各参数定义如下:

θ:评估网络中的参数;

θ′:目标网络中的参数;

xt:在时刻t,系统所处状态;

qθ(xt,a):在状态xt下采取动作a所得到的q值;

r(xt,a):在状态xt下采取动作a所得到的奖励;

γ:奖励衰减比重;

5)所有无线设备的模式选择作为深度强化学习的系统状态xt,动作a则是对系统状态xt的更改,如果改后的系统的总计算速率比之前的要大,则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。

进一步,所述步骤5)中,强化学习的迭代过程为:

步骤5.1:初始化强化学习中的评估网络,目标网络和记忆库。当前系统状态为xt,t初始化为1,迭代次数k初始化为1;

步骤5.2:当k小于或等于给定迭代次数k时,随机选择一个概率p;

步骤5.3:如果p小于或等于ε;则选择评估网络所输出的动作a(t),否则随机选择一个动作;

步骤5.4:采取动作a(t)后,得到奖励r(t)和下一步状态x(t+1),并将这些信息按照格式(x(t),a(t),r(t),x(t+1))保存在记忆库中;

步骤5.5:结合目标网络的输出,计算评估网络的目标y=r(xt,a)+γmaxqθ′(xt+1,a′);

步骤5.6:最小化误差(y-q(x(t),a(t);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;

步骤5.7:每隔s步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;

步骤5.8:当k大于给定迭代次数k时,学习过程结束,得到最佳模式选择

本发明的技术构思为:首先,在一个物联网网络中,部署了大量的能够进行通信和计算的无线设备(wds),由于设备尺寸的限制和生产成本考虑,物联网设备(如传感器)经常携带容量有限的电池和节能的低性能处理器,因此,有限的设备寿命和低计算能力无法支持越来越多需要高性能计算的可持续的新应用程序,由于严格的电池容量限制,在以电池供电的无线系统中,能耗最小化,延长无线设备操作生命周期是一个关键的设计。每一个能量收集的无线设备都遵循二进制计算分流策略,即,一个任务的数据集可以在本地被执行或通过远程的服务器分流来执行。为了最大化所有无线设备的总和计算速率,提出了一种最优的单独计算模式选择方法。

本发明的有益效果主要表现在:通过深度强化学习学习寻找出最优的模式选择方法,最大化所有无线设备的总和计算速率,能耗最小化,延长无线设备操作生命周期。

附图说明

图1是系统模型示意图。

图2是找到最优的模式选择的方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

参照图1和图2,一种基于深度强化学习学习的移动边缘计算速率最大化方法,最大化所有无线设备的总和计算速率,能耗最小化,延长无线设备操作生命周期,本发明基于多无线设备的系统模型(如图1所示),提出了一个最优的单独计算模式选择方法来决定哪些无线设备的任务会被分流至基站,所述最优的单独计算模式选择方法包括有以下步骤(如图2所示):

1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中,基站和每个无线设备都有一个单独的天线;射频能量发射器和边缘计算服务器都集成在基站中,假设基站有一个稳定的能量供给,并且能广播射频能量给所有无线设备;每一个无线设备都有一个能量收集电路和一个可充电电池,通过存储收集的能量来完成一些任务;在这个无线通信系统中,每个无线设备都需要与基站建立联系,无线设备i与基站之间的信道增益hi计算为:

其中,各参数定义如下:

ad:天线增益;

π:圆周率;

fc:载波频率;

di:无线设备i与基站之间的距离;

de:路径损耗指数;

2)假设每一个无线设备的计算任务可以在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器,它将处理计算任务然后将结果发送回无线设备;假设无线设备采用二进制计算分流规则,也就是,一个无线设备必须选择是本地计算模式或者分流模式;使用两个互不重叠的集合分别表示在本地计算模式和分流模式的所有无线设备,所有无线设备集合表示为:

3)处在集合中的无线设备可以收集能量并同时处理本地任务,而处在集合中的无线设备只能在收集能量后将任务分流至基站处理,假设基站的计算能力和传输能力要比能量采集无线设备要强大得多,在这种情况下,在任务分流过程中,无线设备耗尽了其收集的能量,所有无线设备的计算速率总和最大化问题描述为:

约束条件为:

式中:

其中,各参数定义如下:

ωi:第i个无线设备的转换权重;

μ:能量收集效率;

p:射频能量传输功率;

φ:处理每一位数据所需的计算循环次数;

hi:第i个无线设备的信道增益;

ki:第i个无线设备的能源效率系数;

a:时间系数;

vμ:转换效率;

b:带宽;

τj:第j个无线设备的时间系数;

n0:本地处理模式下无线设备的个数;

4)通过强化学习算法来寻找一个最优的模式选择,即所有无线设备的模式选择该强化学习系统由智能体和环境所组成。所有用户的模式选择都被编进了系统当前状态xt,智能体在当前状态下采取动作a进入下一个状态xt+1,同时得到环境返回的奖励r(xt,a),在智能体和环境不断交互更新下,模式选择将不断被优化直到找到最优的,智能体的更新方式为:

qθ(xt,a)=r(xt,a)+γmaxqθ′(xt+1,a′)(4)

其中,各参数定义如下:

θ:评估网络中的参数;

θ′:目标网络中的参数;

xt:在时刻t,系统所处状态;

qθ(xt,a):在状态xt下采取动作a所得到的q值;

r(xt,a):在状态xt下采取动作a所得到的奖励;

γ:奖励衰减比重;

5)所有无线设备的模式选择作为深度强化学习的系统状态xt,动作a则是对系统状态xt的更改,如果改后的系统的总计算速率比之前的要大,则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。

所述步骤5)中,强化学习的迭代过程为:

步骤5.1:初始化强化学习中的评估网络,目标网络和记忆库。当前系统状态为xt,t初始化为1,迭代次数k初始化为1;

步骤5.2:当k小于或等于给定迭代次数k时,随机选择一个概率p;

步骤5.3:如果p小于或等于ε;则选择评估网络所输出的动作a(t),否则随机选择一个动作;

步骤5.4:采取动作a(t)后,得到奖励r(t)和下一步状态x(t+1),并将这些信息按照格式(x(t),a(t),r(t),x(t+1))保存在记忆库中;

步骤5.5:结合目标网络的输出,计算评估网络的目标y=r(xt,a)+γmaxqθ′(xt+1,a′);

步骤5.6:最小化误差(y-q(x(t),a(t);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;

步骤5.7:每隔s步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;

步骤5.8:当k大于给定迭代次数k时,学习过程结束,得到最佳模式选择

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1