本发明属于通信领域,尤其是涉及移动边缘计算的通信系统以及基于深度强化学习的移动边缘计算速率最大化方法。
背景技术:
物联网技术的最新发展是迈向真正智能和自主控制的关键一步,在许多重要的工业和商业系统中尤为突出。在一个物联网网络中,部署了大量的能够进行通信和计算的无线设备(wds),由于设备尺寸的限制和生产成本考虑,物联网设备(如传感器)经常携带容量有限的电池和节能的低性能处理器,因此,有限的设备寿命和低计算能力无法支持越来越多需要高性能计算的可持续的新应用程序,例如自动驾驶和增强现实。无线能量传输系统(wpt)的部署可以解决前面提到的两个性能问题,但频繁的设备电池故障不仅扰乱了正常的个人无线设备操作也会显著降低整体网络性能,比如,无线传感器网络中的传感精度。传统的无线系统需要频繁手动更换电池,这很昂贵而且很不方便,由于严格的电池容量限制,在以电池供电的无线系统中,能耗最小化,延长无线设备操作生命周期是一个关键的设计。每一个能量收集的无线设备都遵循二进制计算分流策略,即,一个任务的数据集可以在本地被执行或通过远程的服务器分流来执行。为了最大化所有无线设备的总和计算速率,找到最优的单独计算模式选择是很有必要的。
技术实现要素:
为了克服现有无线能量传输系统的总和计算速率较低的不足,为了最大化所有无线设备的总和计算率,找到最优的单独计算模式选择和系统传输时间分配,本发明提供了一种基于深度强化学习的移动边缘计算速率最大化方法,在保证用户体验的前提下最大化所有无线设备的总和计算速率。
本发明解决其技术问题所采取的技术方案是:
一种基于深度强化学习的移动边缘计算速率最大化方法,所述方法包括以下步骤:
1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中,基站和每个无线设备都有一个单独的天线;射频能量发射器和边缘计算服务器都集成在基站中,假设基站有一个稳定的能量供给,并且能广播射频能量给所有无线设备;每一个无线设备都有一个能量收集电路和一个可充电电池,通过存储收集的能量来完成一些任务;在这个无线通信系统中,每个无线设备都需要与基站建立联系,无线设备i与基站之间的信道增益hi计算为:
其中,各参数定义如下:
ad:天线增益;
π:圆周率;
fc:载波频率;
di:无线设备i与基站之间的距离;
de:路径损耗指数;
2)假设每一个无线设备的计算任务可以在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器,它将处理计算任务然后将结果发送回无线设备;假设无线设备采用二进制计算分流规则,也就是,一个无线设备必须选择是本地计算模式或者分流模式;使用两个互不重叠的集合
3)处在集合
约束条件为:
式中:
其中,各参数定义如下:
ωi:第i个无线设备的转换权重;
μ:能量收集效率;
p:射频能量传输功率;
φ:处理每一位数据所需的计算循环次数;
hi:第i个无线设备的信道增益;
ki:第i个无线设备的能源效率系数;
a:时间系数;
vμ:转换效率;
b:带宽;
τj:第j个无线设备的时间系数;
n0:本地处理模式下无线设备的个数;
4)通过强化学习算法来寻找一个最优的模式选择,即所有无线设备的模式选择
qθ(xt,a)=r(xt,a)+γmaxqθ′(xt+1,a′)(4)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xt:在时刻t,系统所处状态;
qθ(xt,a):在状态xt下采取动作a所得到的q值;
r(xt,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
5)所有无线设备的模式选择
进一步,所述步骤5)中,强化学习的迭代过程为:
步骤5.1:初始化强化学习中的评估网络,目标网络和记忆库。当前系统状态为xt,t初始化为1,迭代次数k初始化为1;
步骤5.2:当k小于或等于给定迭代次数k时,随机选择一个概率p;
步骤5.3:如果p小于或等于ε;则选择评估网络所输出的动作a(t),否则随机选择一个动作;
步骤5.4:采取动作a(t)后,得到奖励r(t)和下一步状态x(t+1),并将这些信息按照格式(x(t),a(t),r(t),x(t+1))保存在记忆库中;
步骤5.5:结合目标网络的输出,计算评估网络的目标y=r(xt,a)+γmaxqθ′(xt+1,a′);
步骤5.6:最小化误差(y-q(x(t),a(t);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤5.7:每隔s步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤5.8:当k大于给定迭代次数k时,学习过程结束,得到最佳模式选择
本发明的技术构思为:首先,在一个物联网网络中,部署了大量的能够进行通信和计算的无线设备(wds),由于设备尺寸的限制和生产成本考虑,物联网设备(如传感器)经常携带容量有限的电池和节能的低性能处理器,因此,有限的设备寿命和低计算能力无法支持越来越多需要高性能计算的可持续的新应用程序,由于严格的电池容量限制,在以电池供电的无线系统中,能耗最小化,延长无线设备操作生命周期是一个关键的设计。每一个能量收集的无线设备都遵循二进制计算分流策略,即,一个任务的数据集可以在本地被执行或通过远程的服务器分流来执行。为了最大化所有无线设备的总和计算速率,提出了一种最优的单独计算模式选择方法。
本发明的有益效果主要表现在:通过深度强化学习学习寻找出最优的模式选择方法,最大化所有无线设备的总和计算速率,能耗最小化,延长无线设备操作生命周期。
附图说明
图1是系统模型示意图。
图2是找到最优的模式选择的方法流程图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
参照图1和图2,一种基于深度强化学习学习的移动边缘计算速率最大化方法,最大化所有无线设备的总和计算速率,能耗最小化,延长无线设备操作生命周期,本发明基于多无线设备的系统模型(如图1所示),提出了一个最优的单独计算模式选择方法来决定哪些无线设备的任务会被分流至基站,所述最优的单独计算模式选择方法包括有以下步骤(如图2所示):
1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中,基站和每个无线设备都有一个单独的天线;射频能量发射器和边缘计算服务器都集成在基站中,假设基站有一个稳定的能量供给,并且能广播射频能量给所有无线设备;每一个无线设备都有一个能量收集电路和一个可充电电池,通过存储收集的能量来完成一些任务;在这个无线通信系统中,每个无线设备都需要与基站建立联系,无线设备i与基站之间的信道增益hi计算为:
其中,各参数定义如下:
ad:天线增益;
π:圆周率;
fc:载波频率;
di:无线设备i与基站之间的距离;
de:路径损耗指数;
2)假设每一个无线设备的计算任务可以在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器,它将处理计算任务然后将结果发送回无线设备;假设无线设备采用二进制计算分流规则,也就是,一个无线设备必须选择是本地计算模式或者分流模式;使用两个互不重叠的集合
3)处在集合
约束条件为:
式中:
其中,各参数定义如下:
ωi:第i个无线设备的转换权重;
μ:能量收集效率;
p:射频能量传输功率;
φ:处理每一位数据所需的计算循环次数;
hi:第i个无线设备的信道增益;
ki:第i个无线设备的能源效率系数;
a:时间系数;
vμ:转换效率;
b:带宽;
τj:第j个无线设备的时间系数;
n0:本地处理模式下无线设备的个数;
4)通过强化学习算法来寻找一个最优的模式选择,即所有无线设备的模式选择
qθ(xt,a)=r(xt,a)+γmaxqθ′(xt+1,a′)(4)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xt:在时刻t,系统所处状态;
qθ(xt,a):在状态xt下采取动作a所得到的q值;
r(xt,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
5)所有无线设备的模式选择
所述步骤5)中,强化学习的迭代过程为:
步骤5.1:初始化强化学习中的评估网络,目标网络和记忆库。当前系统状态为xt,t初始化为1,迭代次数k初始化为1;
步骤5.2:当k小于或等于给定迭代次数k时,随机选择一个概率p;
步骤5.3:如果p小于或等于ε;则选择评估网络所输出的动作a(t),否则随机选择一个动作;
步骤5.4:采取动作a(t)后,得到奖励r(t)和下一步状态x(t+1),并将这些信息按照格式(x(t),a(t),r(t),x(t+1))保存在记忆库中;
步骤5.5:结合目标网络的输出,计算评估网络的目标y=r(xt,a)+γmaxqθ′(xt+1,a′);
步骤5.6:最小化误差(y-q(x(t),a(t);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤5.7:每隔s步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤5.8:当k大于给定迭代次数k时,学习过程结束,得到最佳模式选择