一种基于深度强化学习的目标驱动计算卸载方法

文档序号:26669911发布日期:2021-09-17 22:18阅读:333来源:国知局
一种基于深度强化学习的目标驱动计算卸载方法

1.本发明属于5g/6g、物联网等无线通信领域,特别涉及一种基于目标驱动的计算卸载技术。


背景技术:

2.5g/6g、物联网等无线通信技术和应用的发展,催生了两种趋势:(1)网络的智能化特征不断增强,网络设备需要进行大量的智能计算,如智能图像识别、智能数据分析等;(2)与此同时,网络设备与规模迅速增长,轻量型设备的比例与数量也不断提高。这两种趋势共同导致了一个直接的后果:大量的智能计算需求给这些资源受限的轻量型设备,带来了严峻的挑战。
3.为了解决这个问题,计算卸载技术应运而生。在计算卸载中,轻量型设备的计算任务被转移到合适的计算资源富余节点上,从而实现轻量型设备到资源富余节点的计算卸载。这个过程中,轻量型设备称为任务节点,完成任务的资源富余节点称为计算节点。
4.基于计算结果的发送目标,计算卸载又可以分为源节点驱动的计算卸载,以及目标驱动的计算卸载两种模式。在源驱动计算卸载中,计算结果最终会返回任务节点,此类任务主要考虑在本地卸载与在计算节点处卸载两者卸载比例的分配跟卸载节点的选择。而目标驱动计算卸载中,计算结果需要传输至远端的目标节点,因此目标驱动计算卸载不仅仅要考虑计算量分配比例问题,更要根据目标节点选择更加合适的计算卸载路径。当前,工业界和学术界在计算卸载方面的研究,基本上都可以归类为源驱动的计算卸载模式。实际上,目标驱动计算卸载同样广泛存在于5g/6g、物联网等各种无线网络中,但是目前相关的研究还非常欠缺。
5.不仅如此,目标驱动的计算卸载面对不同的应用场景,也会表现出不同的需求。在具体无线通信应用场景中,往往存在不同类型的计算任务,计算任务的多样化往往意味着时延敏感的差异化,比如,有的属于紧急任务类型,时延敏感程度较高;而有的属于周期任务或者普通任务类型,对时延没有太高要求,无线通信网络节点也普遍存在能量受限的问题。因此,在计算卸载的结果不需要传回源节点、而是要传送到其他目标节点的情况下,如何合理调配资源,为各类型计算任务针对性地制定计算卸载策略,对于5g/6g、物联网等网络计算卸载过程的高效运行,具有重要的意义。


技术实现要素:

6.为解决上述技术问题,本发明提出一种基于深度强化学习的目标驱动计算卸载方法,结合基于moe混合专家系统与深度强化学习框架,合理地分配计算资源以及规划由端到端的卸载路径,在满足各类型任务时延要求的同时,保持负载均衡,延长网络生存性。
7.本发明采用的技术方案为:一种基于深度强化学习的目标驱动计算卸载方法,将无线通信场景建模为包括源节点、目标节点、计算节点、普通节点的网络,所述源节点为计算任务发布节点,目标节点为计算任务结果目的地节点,计算节点为计算服务器节点,普通
节点为提供中继服务的节点;
8.将源节点到目的节点的计算任务卸载过程建模成马尔科夫决策过程,从源节点开始,当前节点通过深度强化学习到的神经网络计算得到下一跳的选择与计算卸载策略,直至完成计算卸载任务;所述深度强化学习网络的输入为马尔科夫状态空间,记为观测状态,输出为对应观测状态下的最佳下计算卸载策略。
9.所述最佳计算策略具体为当前节点需要卸载计算任务的比例与其对应的下一跳节点,若当前节点为普通节点,则卸载比例为0。
10.马尔科夫决策过程的奖励为关于任务整体时延与能量方差变化的函数。
11.所述观测状态包括:任务类型特征与普通输入特征,所述任务类型特征具体为代表任务优先级或者时延敏感度的非数值特征,普通特征为除去任务类型特征后的其他特征。
12.还包括采用任务信息增强模块对输入深度强化学习网络的观测状态进行处理,具体的:所述任务信息增强模块为基于moe混合专家系统,所述基于moe混合专家系统包括:子网络与门控网络;所述子网络包括多个专家网络,每个专家网络对应当前任务类型的一种计算卸载策略,所述专家网络的输入为普通输入特征;所述门控网络的输入为任务类型特征,输出为对应专家网络输出的权重;每个专家网络的输出分别与对应的权重进行加权求和结果作为moe混合专家系统的输出。
13.还包括将普通输入特征拼接到moe混合专家系统的输出后面。
14.所述任务类型特征采用one

hot编码进行表示。
15.所述深度强化学习网络,将本身连续的动作计算卸载比例a
prop
离散成从0.0到1.0的11个动作,结合节点规模n,产生一个11
×
n的二维离散动作空间;从该二位离散动作空间中筛选得到的最佳动作即为最佳下一跳与计算卸载策略。
16.还包括中心服务器,所述中心服务器根据各个节点收集到的<s,a,r,s

>数据,整合全局的数据后训练出一个适用于所有节点的深度学习神经网络;然后将网络参数传递给各节点;
17.其中,s表示状态空间,a表示动作空间,r表示奖励,s

表示马尔科夫转移过程中的下一状态空间。
18.还包括训练服务器,基于收集到的当前节点的状态空间,在本地模拟并记录目标驱动计算卸载过程,离线地学习最佳目标计算卸载策略,更新完当前节点的深度强化学习到的神经网络后再将其参数广播到其他各个节点。
19.本发明的有益效果:本发明为解决5g/6g、物联网等无线通信网络中存在的目标驱动计算卸载需求提供了一种基于深度强化学习的目标驱动计算卸载机制,使得无线通信网络中的计算资源能得到合理的调配,并为不同时延敏感类型针对性的提供计算卸载决策,在资源受限的场景中还可以做到保障任务时延的情况下,延长网络生存周期;包括以下优点:
20.1.本发明提出了moe混合专家系统的任务信息增强模块显著提高了任务信息的特征表达能力,经过大量实验表明,相较于未加moe模块的神经网络而言,任务信息增强模块能显著提高任务时延敏感特征在计算卸载决策中的影响占比,从而加大不同类型计算任务的区分度;
21.2.深度强化学习的奖励机制能够根据具体的无线网络场景加以定制,也可以根据网络特征自适应的进行调整,对于能量受限的场景,要平衡好能源分布均匀与计算任务时延的需求;而对于能源充足的场景,则合理规划计算资源,以保障优先级高的计算任务时延;
22.3.分布式的计算卸载机制不仅保障了计算卸载策略的时效性,也降低了计算卸载决策的任务负担。
附图说明
23.图1为本发明的计算卸载示意图;
24.图2为本发明的单次卸载决策流程图;
25.图3为本发明的神经网络结构示意图。
具体实施方式
26.为使本发明的目的、技术方案和优点更加清楚,现对本发明做更进一步的说明。本发明的drl

ddco采用深度强化学习,综合任务时延与网络生存性,对网络信息环境与决策反馈的网络效益之间的映射关系进行学习,从而实现针对不同任务类型不同网络环境下个性化差异化的目标驱动计算卸载机制。
27.本发明的整体技术方案由以下两个部分组成,分别是面向目标驱动计算卸载策略的深度强化学习框架与基于混合专家系统(mixture of experts,moe)的任务信息增强模块。
28.在面向目标驱动计算卸载深度强化学习框架中,将真实的无线通信场景建模成由以下四类节点构建成的网络,分别是计算任务发布节点(源节点),计算任务结果目的地节点(目标节点),计算服务器节点(计算节点)以及可提供中继服务的普通节点。
29.在目标驱动的计算卸载模式中,计算任务的传输与卸载协同进行,即“边转发、边卸载”;并且,其转发节点及卸载策略,是在其所经路径节点上基于深度强化学习逐跳决定的。也就是说,本发明所设计的“目标驱动的计算卸载模式”,实施的是“边转发、边卸载、边决策”的模式。
30.具体而言,在目标驱动的计算卸载过程中,本发明所述机制先将卸载过程建模成马尔科夫决策过程(markov decision process,mdp),在此基础上,从源节点开始,下一跳的选择与计算卸载比例都由当前节点通过深度强化学习到的神经网络计算得到,直至完成计算卸载任务。所述深度强化学习网络的输入为即为马尔科夫状态空间,简称为观测状态,输出为对应观测状态下的最佳下一跳与卸载比例。
31.在一次决策过程回合中,如图1所示,所有的状态转移,计算卸载策略以及对应收到的奖励都会被存储起来,用以训练深度强化学习中的拟合动作潜在价值与状态映射关系的神经网络。收敛完成的神经网络拥有记忆和泛化的能力。在决策过程中,神经网络可以对后续潜在的状态转移过程进行预测从而根据当前状态搜索得出最佳的卸载策略。如此一来,如图2所示,drl

ddco模型能够在计算卸载的过程中逐步计算最佳的计算卸载策略,并根据网络环境、任务信息对卸载策略加以修正。
32.在基于moe混合专家系统的任务信息增强模块中,主要加强不同类型计算卸载任
务中时延敏感特征的表达,moe混合专家系统可以通过多个expert子网络的组合反映出不同类型任务与其对应决策之间差异的映射关系,从而输出更具有表现力的任务信息特征,而决策系统则能从这差异的特征信息与决策反馈的奖励数据中学习到统一的动作策略,从而形成对所有任务类型的智能卸载决策系统。
33.本发明的网络结构如图3所示,主要内容包括:
34.1.面向目标驱动计算卸载策略的深度强化学习框架
35.在无线通信网络中,目标驱动模式下的计算卸载决策问题往往面临背景流量干扰,分布式网络难以中心化决策等问题。针对以上问题,本发明引入了深度强化学习算法(ddqn,double deep q

learning),让智能体自适应地学习计算卸载决策与目标收益之间的关系,从而合理制定计算卸载策略。
36.(1)强化学习模块
37.drl

ddco的整体模型基本符合强化学习的模式,在讲解强化学习模式之前呢,首先需要说明的是目标驱动的计算卸载决策过程,是比较容易证明满足马尔科夫性质,本发明就不再就这一问题给出证明。
38.a)马尔科夫决策过程(mdp,markov decision process)
39.对于强化学习而言,首先需要对目标驱动的计算卸载场景建模成马尔科夫决策过程,这包括确定状态空间(s),动作空间(a),转移概率(p)以及对应奖励(r),即经典四元组<s,a,p,r>。其中,转移概率p在寻路类问题中默认为1,因为这是一个可靠确定的网络,传输失败或者出错并不在本发明的讨论范围以内。其他主要构成成分如下:
40.s=(i
nearby
,t,topo)
41.a=(a
node
,a
prop
)
42.r=f(d,

var)
43.其中,d表示计算任务卸载完成所需时延,

var表示当前节点周围邻接节点剩余总能量的方差变化。状态空间中主要由三个部分特征构成:(1)i
nearby
表示局部收集的网络状态,其中包括了周围节点的编号,各自的计算资源以及能量储备的相关信息;(2)t表示计算节点收到的任务信息,包括了计算任务的数据量,计算量以及其他任务特征;(3)topo表示网络拓扑的信息,包括各节点到任务目标点的dijkstra距离,这个信息是可以通过网络常用的通讯算法得到。以上三个特征构成完整的状态空间并且唯一确认最佳的计算卸载策略。因此我们也可以证明目标驱动的计算卸载过程,满足马尔科夫性质,即整个过程被建模成mdp的有效性。
44.动作空间中有两个子动作组成:(1)选取下一跳节点a
node
,这个就是计算任务选择的下一个短期目的地,既可能是要去这个短期目的地进行计算卸载工作,也可能只作为中继节点转发计算任务;(2)选择在当前节点的卸载比例a
prop
,因为是比例,所以a
prop
∈[0,1],如果只是中继作用则卸载比例等于0。其次这个卸载比例是以初始需求的计算量为基准,这样的设定有助于智能体区分每个动作之间的区别。
[0045]
b)奖励设置
[0046]
奖励公式是关于任务整体时延与能量方差变化的函数。
[0047]
对任务t
j
(j是自然数)来讲,其时延d
j
表示任务发布、计算完成到传递结果到目标节点所需的总时间,其中不仅包括了计算卸载造成的时延,还包括数据传输时延与信号传
播时延;能量方差变化,由卸载前能量方差减去卸载后的能量方差,如果能量方差减小,区域能量分配更加均匀,那么

var<0,智能体就会接收到一部分正向的反馈,反之亦然。整体奖励设置如下:
[0048]
r(d
j
,

var)=

α*d
j
*s
j

β*

var
[0049]
其中,s
j
表示了计算任务t
j
的时延敏感程度,越高代表任务越紧急,其具体取值需结合实际应用场景,在训练之前根据任务紧急程度设定。如将任务紧急程度设为0

6共7个等级,s
j
的取值为任务紧急程度对应的0到6之间某一个数值。而α与β分别表示了时延与方差变化的奖励系数。通常设置α+β=1,α和β的值可以结合经验值设置,并在训练中根据训练效果进行参数值的调整。
[0050]
假定任务t
j
从卸载源节点到最终目标节点的整个过程需要经过κ跳传输依次记为h1,h2,...h
κ
,并且计算任务t
j
在第h
k
(1≤k≤κ)跳所引入的时延记为d
j
(h
k
)。则任务t
j
的整体时延d
j
公式如下:
[0051][0052][0053]
其中,表示自然数,d
j
(h
k
)指计算卸载路径上第h
k
步节点上产生的所有时延,其中包括了四个部分:传输时延、传播时延、卸载时延以及等待时延。其中传输时延公式如下:
[0054][0055]
其中,l
j
(h
k
)代表计算任务t
j
在h
k
跳时的需要传输的数据量,n(t
j
,h
k
)代表计算任务t
j
对应第h
k
跳的节点,而分母代表的是该节点上的传输速率。
[0056]
在介绍计算任务数据量之前,下面给出收益率的定义,
[0057][0058]
收益率指计算任务结果数据量对其任务初始数据量的比值,代表意义即完成计算后,任务数据量压缩比例。以此为基础,下面定义在第h
k
跳的计算任务数据量公式:
[0059][0060]
r
j
(h
k
)指在计算卸载动作过后,计算任务尚未完成的计算量,为任务初始的计算量。当r
j
(h
k
)=0时,即任务计算量已经完成,那么此时在第h
k
步所需要传输的数据量其中λ表示该次任务卸载后数据量的剩余比率,即为该次任务卸载后的剩余数据量。
[0061]
对于计算卸载时延而言,公式如下:
[0062][0063][0064]
其中,指在第h
k
步节点上卸载的计算量,这个其实就是我们需要决策的策略之一。代表计算任务t
j
在第h
k
跳节点的计算速率。
[0065]
传播时延公式如下:
[0066][0067]
其中,w(h
k
,h
k+1
)代表h
k
跳节点与h
k+1
跳节点之间的距离,而v则代表电子波传播速率,通常在本发明中假定为光速的2/3倍。
[0068]
最后等待时延经常会出现在多任务的计算卸载场景,好的计算卸载分配算法需要根据节点忙碌情况来协调计算任务以此降低本发明采取了一些特殊的技巧来记录等待时延本发明记录下特殊动作的时刻tp。
[0069][0070][0071]
tp
j
(h
k
)代表任务t
j
抵达第h
k
跳节点的时间点,而代表该节点上个任务计算量卸载完成的时间点。当τ(n(t
j
,h
k
))≤0时候,第h
k
跳节点在接收到任务t
j
的时候已经完成了上个任务的计算卸载,此时的计算任务t
j
完成之后,更新时间点:
[0072][0073]
tp
j
(h
k+1
)=tp
j
(h
k
)+d
j
(h
k
)
[0074]
能耗方差变化公式如下:
[0075]

var(h
k
)=var
after

var
before
[0076][0077][0078]
其中,λ指第n(t
j
,h
k
)邻接节点的集合,h
l
则指代节点l上剩余能量,而和分别指在卸载动作前后节点集合λ中所有节点剩余能量的平均值,h(a
node
)代表所选择节点中的剩余能量。而具体计算任务t
j
总能耗公式如下:
[0079]
[0080]
其中,代表在第h
k
跳节点上的计算卸载能耗,为了公式方便阅读,接下来用指代第h
k
跳节点上的计算速率,具体公式如下:
[0081][0082][0083][0084]
其中,代表第h
k
跳节点在cpu计算速率为的情况下,单位转能源消耗的速率,而计算卸载消耗的能源等于该速率乘上卸载计算量c
j
(h
k
)。而里面的系数υ通常设定为10

11
。而传输能耗设定如下:
[0085][0086][0087]
在节点n(t
j
,h
k
)上消耗的传输能源等于单位时间能量消耗速率乘上传输时延其中就的计算公式而言,其中n0代表复高斯白噪声方差,而h代表信道收益,w代表信道带宽。
[0088]
(2)dnn模块
[0089]
深度强化学习里面的神经网络主要发挥的作用,在于将较大的状态空间与动作联系起来,预测在此状态下各个动作的价值。利用神经网络充分挖掘目标驱动计算卸载场景下状态特征与动作特征之间的深层联系,不仅发挥了其网络记忆的功能,而且其泛化能力还可以处理网络中新兴的计算任务,这一点很好地解决了传统算法模型多任务复用的问题。决策框架中的神经网络结构如图3上半部分所示:
[0090]
a)输入处理
[0091]
神经网络输入是mdp中状态空间的特征,但是输入之前还需要对数据进行一些预处理,因为数据之间量纲以及分布的不同,会影响到训练过程收敛的方向。同理,在执行阶段,也需要先将数据进行同等处理后放入网络得到结果。其中针对一部分数值类的特征比如可用计算资源,任务数据量跟计算量,都通过最大最小值归一化到0

1之间的数值,归一化公式如下所示:
[0092][0093]
对于部分数值大小直观上并没有太大意义的特征,比如盈余的能量,这些值一般得结合周围其他数据才有直观意义。因此本发明对类似特征做了离散化或者二元化的处理,比如标记高于平均能量水平的节点为1,而低于平均水平的节点为0。
[0094]
b)输出处理
[0095]
对于神经网络的输出而言,其输出的内容就是对应状态下,每个动作的q值由于其二维的动作空间,输出同样也是一个二维空间。针对复杂的目标驱动计算卸载场景,较优的
动作选择或许并不能很完美地服从正态分布,因此在采样的过程中极容易获得不合理的动作,对此本发明采用基于双重深度q网络(double deep q network,ddqn)的方法,将本身连续的动作计算卸载比例a
prop
离散成从0.0到1.0的11个动作,结合节点规模n,产生一个11
×
n的二维离散动作空间。动作空间离散化的好处在于不仅可以增加模型的抗干扰能力,另外还为主动的动作筛选提供便利。
[0096]
对于决策模型的训练过程,本发明给出两种方式:在线训练与离线训练。在线训练的优势在于能实时根据场景特征调整计算卸载模型,但是这会占用较大的传输资源;离线训练则无需传输大量的训练数据,但对于场景的反应也会慢一点。
[0097]
在线训练本发明采用ctde(centralized training distributed execution,中心化训练分布式执行)训练模块,具体的:
[0098]
分布式的训练方式(distributed training,dt)在复杂的计算卸载场景中,一方面对于各个计算服务器而言会产生额外的计算负担,而且因为计算资源与接收到的任务差异,计算服务器间的模型收敛进度不统一,收敛速度更快的节点上的网络参数会因为其他滞后节点提供的数据而产生震荡。换言之,分布式训练模式中收敛进度难以统一的问题会导致整体网络收敛情况受阻。针对这一个情况,本发明提出采用中心化训练分布式执行(ctde)的工作模式,即工作过程中,先由各个计算节点将收集到的<s,a,r,s

>数据集汇总到某一中心服务器,然后该中心服务器整合全局的数据后训练出一个适用于所有计算节点的神经网络。其中s

代表马尔科夫转移过程中的下一状态。最后网络参数再由中心训练服务器传递给各计算节点。
[0099]
当然,ctde也存在自身的短板,即需要传播大量的数据包括各计算节点上转移记录以及迭代的网络参数。在部分链路紧张的工业物联网场景下,可能造成额外传输链路负担的问题。针对此问题,本发明还提出了其替代方案,即离线训练。其神经网络的训练过程主要发生在外挂式训练服务器上,该服务器会基于收集到的服务器信息与网络链路信息,在本地模拟并记录目标驱动计算卸载过程,并基于收集到的记录离线地学习最佳目标计算卸载策略,神经网络收敛完成后再将其参数广播到各个真实的节点上。
[0100]
这里收集到的服务器信息具体为:该服务节点提供服务能力相关的信息,通常包含节点的计算能力、传输能力、可用能量、拓扑关系等。
[0101]
(4)动作空间搜索优化模块
[0102]
动作空间搜索优化(action search optimization,aso)模块受蚁群算法禁止选项的启发,指在智能体搜索冗余的动作空间之前,先通过一定的规则筛选掉一些直观上无效的动作选项,然后再在这个筛选过后的动作集合中选取相应的动作。无效动作筛选规则如下:
[0103]

筛选掉非邻接节点的相关动作,这里面包括了原本在拓扑关系上就非邻接的节点以及一些因为能源耗尽而失效的节点。这些将计算任务传向该节点的动作显然是不合理的,因此筛选掉此类动作;
[0104]

筛选掉计算卸载路径上记录过的节点相关动作,即已经路过的节点相关动作。这是因为即使有在该节点上卸载的可能性,那么在第一次经过该节点的时候就应该完成相应的计算量,所以不应该两次重复经过同一节点,这也防止了一种来回跳跃的情况;
[0105]

筛选掉超出计算任务剩余计算量的相关任务。执行的计算量卸载动作要跟实际
的计算量相吻合,因此根据剩余计算量来规范卸载动作也比较合理;
[0106]
基于以上三点准则,在选取动作以及训练更新时选取下一状态最佳动作的时候,都可以通过人为筛选去掉一些没有价值的动作,这样的做法可以减少记忆库中无效的记录,增加记忆库质量。而记忆库的数据相当于数据集,数据集的质量直接决定了最后神经网络的收敛程度。实验结果也表明,如果不对选取的动作加以限制,在较大的动作空间下神经网络很难收敛。
[0107]
2.基于moe混合专家系统的任务信息增强模块
[0108]
混合专家系统(moe)是一种神经网络,也属于一种混合网络的模型。适用于解决数据集中数据映射关系不同的问题。moe模块对应的神经网络如图3下半部分所示,moe模型主要由两个部分组成,一个部分是较小的子网络(experts),记做专家网络,专家网络可以通过部分数据集进行专业化训练(specialize),从而准确描述该数据中的映射关系;另一个部分是门控网络(manager),可以是一个dnn神经网络组成,最后经过softmax层输出一个分布概率。
[0109]
门控网络的输入为任务类型特征,任务类型特征具体指任务中代表任务优先级或者时延敏感度的非数值特征,通常会用one

hot编码进行表示;子网络的输入为普通输入特征,普通输入特征即任务重除去任务类型特征外的其他特征,通常为一些数值特征;普通输入特征与任务类型特征共同构成了神经网络的输入特征,也就是转移的状态特征。
[0110]
子网络中每个专家网络都会输出一个相同维度的映射结果,门控网络每个输出对应的一个映射结果的权重,不同于一般的神经网络的是本发明根据数据分离训练多个模型,各个模型被称为专家,而门控网络用于选择使用哪个专家,moe的实际输出为各个专家网络的输出与门控网络的权重组合。
[0111]
各个专家模型又可拟合不同的函数(各种线性或非线性函数),因此moe模型很好地解决负责数据来源不同而造成的映射关系不同问题。在本发明的问题中,moe就能很好地解决不同类型任务决策过程中动作价值与输入状态之间不同映射关系的问题。
[0112]
本领域技术人员应知,本发明中采用moe模型中子网络的这多个专家网络来拟合单个类型任务的决策关系。
[0113]
最后由于任务类型信息增强的过程中存在弱化普通类型特征表达的情况,因此在进行卸载决策的过程中还将普通输入特征拼接到moe的输出结果后面,以防止信息丢失的情况。这一拼接后的结果作为双重深度q网络的输入。
[0114]
对于moe混合系统模块而言,其损失函数如下:
[0115][0116]
其中,p
i
分别对应gate控制下的第i个expert输出所占的比例,通过softmax层输出结果,其公式如下:
[0117][0118]
那么为何该系统能让每个专家学习到不同的参数呢,答案在于这个模型的更新梯度。对于expert的梯度而言:
[0119][0120]
根据其梯度公式可以看出,部分数据对于p
i
占比比较大的expert而言,更新的梯度也会更大,这就是所谓的“专业化”(specialize)的过程;而对于gate而言,需要调控每个expert所对应的比例p
i
梯度公式如下:
[0121][0122]
该梯度公式表示的是,对于某些数据而言,如果某个expert输出的损失高于平均损失,那么对应的p
i
减小,即说明该expert网络对这部分数据不能很好地预测;相反则说明这个expert擅长预测此部分数据的映射关系,随之提升其对应的输出占比p
i
。从公式的角度上看,moe系统就是根据梯度更新的方向的差异化来实现各个expert的专一化以及针对不同映射关系的不同expert组合。
[0123]
在计算卸载场景中,不同类型的计算任务对时延需求也是不一致的。部分任务并不要求时延,不过出于自身资源限制依然需要卸载计算量;而也有部分紧急任务时延要求非常高,需要一直维持较低的任务时延,类似于森林火灾的报警任务。同一个网络虽然可以加上任务级别的one

hot特征来加以区分,但是实际效果甚微。因为网络的绝大部分对于不同的任务状态输入,仍然共享一套参数,少量的特征输入对网络结果影响并不大。因此本发明提出采用moe系统,可以对不同类似任务组合不同的专家网络输出。由于每个网络所关注的任务特征与网络特征不一致,比如紧急计算任务对于计算资源的需求更大,而时延要求宽松的计算任务则对能耗分布关注更多,如此一来,基于moe的任务信息增强模块使得决策模型能为不同类型任务制定个性化的计算卸载策略。
[0124]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1