基于移动边缘计算的快速适应任务卸载系统和方法

文档序号：31412008发布日期：2022-09-03 10:17阅读：来源：国知局

技术特征：
1.一种基于移动边缘计算的任务卸载系统，其特征在于，包括：应用层、车辆层和mec层；所述应用层包括：多种任务，任务都被表述为一个有向无环图(dag)，任务中包括多个子任务，其中子任务由顶点表示，子任务之间的依赖关系由两个顶点之间的有向边表示；此外，只有在接收到子任务本身的相关信息以及所有父节点的处理结果后，子任务才能开始运行；用dag的拓扑结构、子任务之间的依赖数据大小和所需的计算资源来刻画任务的特征，这些特征随着任务类型的改变而变化；子任务是最基本的卸载单元，每个子任务都可以被卸载到mec服务器或本地车辆上运行；所述车辆层包括多辆运行着不同类型的车载任务的车辆，并且每辆车辆都可以在本地对部分子任务进行处理；其余的子任务必须通过无线信道被上传到附近的mec服务器上进行处理；车辆具有两个队列：其中，本地计算队列用于存储将被本地处理器处理的子任务，本地传输队列用于存储将被传输到mec服务器的子任务；车辆单独或同时对子任务进行计算和传输；在每次调度时，车辆都会封装子任务的相关信息，并将其发送给mec服务器；相关信息包括：子任务本身的数据大小和所需的计算资源量；所述mec层包括无线基础设施和mec服务器，其中，mec服务器位于无线基础设施旁边，mec服务器拥有多个处理器和无线子信道，能够为附近的车辆提供计算和通信服务；另一方面，mec服务器还起着调度器的作用，能够为车辆到基础设施(v2i)通信范围内的所有子任务做出卸载决策；更为具体地，首先，mec服务器接收车辆传输过来的子任务相关信息，然后，在每次调度时，mec服务器根据定义好的任务卸载方法为所有子任务进行卸载排序，并按卸载顺序依次为每个子任务进行卸载调度。2.根据权利要求1所述的一种基于移动边缘计算的任务卸载系统，其特征在于：所述应用层包括：车辆导航任务、人脸识别任务和增强车辆现实任务；车辆导航任务用于为车辆提供路径搜索和路径规划服务；人脸识别任务用于根据采集到的含有人脸的图像或视频流，自动检测和跟踪人脸，进而对人脸进行识别，从而确定人物身份；增强车辆现实任务用于将导航和辅助驾驶等虚拟信息与实景相结合，为用户提供更自然的交互。3.根据权利要求2所述的一种基于移动边缘计算的任务卸载系统，其特征在于：增强车辆现实任务包括：目标跟踪、目标识别、透视变换和融合处理子任务；人脸识别任务包括：复制图像、图像检测、特征融合、分裂识别和展示结果子任务；车辆导航任务包括：输入目的地、获取gps坐标、获取最优路径、获取交通状况、生成路径子任务。4.一种基于移动边缘计算的快速适应任务卸载方法，其特征在于：所述快速适应任务卸载方法是在权利要求1所述任务卸载系统的基础上实现的；所述快速适应任务卸载方法，包括以下步骤：按照任务分布ρ(t)采样出多个任务卸载场景；然后，在本地训练循环中，针对特定的场景t
i
，训练出与之对应的任务卸载策略；对于每个t
i
，首先初始化本地目标策略和本地采样策略的网络参数为全局策略的网络参数，并清空经验池；之后，根据本地采样策略选择并执行动作，获得奖励，收集经验轨迹；接下来，本地训练根据公式(1-1)更新目标策略网络参数
m次；全局训练中根据公式(1-2)对全局策略的网络参数进行更新，其中θ为全局策略的初始网络参数，为在场景t
i
中训练并且更新之后的网络参数，α为本地训练的学习率，m为本地训练的更新次数，j(θ)为目标函数，n为采样的任务卸载场景数量；n为采样的任务卸载场景数量；重复上述步骤直至算法终止，就获得具有快速适应能力的元卸载策略；通过将元卸载策略的网络参数作为初始参数，并且在少量的本地训练迭代后，就能够生成适用于新的任务卸载场景的策略。5.根据权利要求4所述的快速适应任务卸载方法，其特征在于：所述方法基于seq2seq的强化学习模型，将多任务卸载问题考虑为多个马尔科夫决策过程(mdp)，其中每个场景t
i
对应于一个mdp；mdp的基本元素设计如下：设参数：某个场景t
i
，车辆任务的dag，r个上传子信道带宽ω1,ω2,
…
,ω
r
，下行信道带宽ω
d
，本地车辆的计算能力f
v
和m个mec服务器的计算能力f1,f2,
…
,f
m
；a.系统状态定义如下：s＝{s
t
|s
t
＝(e,a
1:t-1
)},t∈[1,n]
ꢀꢀꢀꢀ
(1-3)其中，e为任务的特征表示，a
1:t-1
为前t-1个子任务的卸载选择，n代表子任务总数；为了转换dag为序列，根据子任务的层级对其进行卸载排序；用e＝[e0,e1,
…
,e
j
,,e
n-1
]代表任务的特征表示，其中，e
j
代表子任务t
v,p
的特征表示，t
v,p
的卸载索引为j；e
j
的具体定义如公式(1-4)所示：其中e
j
包括子任务卸载索引i
v,p
、子任务的自身数据大小子任务所需的计算资源量c
v,p
、处理器处理速率f
v
,f1,
…
,f
m
和子信道带宽ω1,
…
,ω
r
；b.动作空间：采用如公式(1-5)所示的r
×
m+1维二元向量来表示时间步t的卸载动作，其中，a
tk
,k＝(r-1)
×
m+m代表第r个子信道是否被用来传输数据以及第m个处理器是否被用来处理子任务；特别地，a
t0
＝1表示子任务在本地车辆上进行计算；a
t
＝[a
t0
,a
t1
,
…
,a
tk
,
…
]
ꢀꢀꢀꢀ
(1-5)c.奖励函数：奖励被定义为之前子任务t
v
′
,p
′
的计算完成时间ce(t
v
′
,p
′
)与目前子任务t
v,p
的计算完成时间ce(t
v,p
)的差，如公式(1-6)所示：其中，t
v
′
,p
′
在t
v,p
之前被调度。6.根据权利要求5所述的快速适应任务卸载方法，其特征在于：所述根据子任务的层级对其进行卸载排序的规则为：位于更低层级的子任务的调度优先级更高，并且拥有更小的
卸载索引，位于相同层级的子任务，其调度优先级随机分配；具有更高调度优先级的子任务可以在队列中优先被传输或计算。7.根据权利要求6所述的快速适应任务卸载方法，其特征在于：所述基于seq2seq的强化学习模型包括：编码器和解码器；所述编码器由一个双向门控循环单元(bigru)组成，用和分别表示bigru的前向和反向函数；编码器根据卸载索引的升序对子任务进行循环编码然后输出向量如公式(1-7)所示：所述解码器由一个注意力gru构成，用h
dec
表示gru的解码函数；用d
j
表示解码器对卸载索引为j的子任务的输出，该输出由上下文向量c
j
、前一个卸载动作a
j-1
和前一个输出d
j-1
共同决定，如公式(1-8)所示：d
j
＝h
dec
(d
j-1
,c
j
,a
j-1
)
ꢀꢀꢀꢀ
(1-8)其中，c
j
是由注意力机制生成的上下文向量，用于对卸载索引为j的子任务的动作进行预测。8.根据权利要求7所述的快速适应任务卸载方法，其特征在于：所述注意力机制由一个前向神经网络实现；c
j
的计算方法如公式(1-9)所示，其中，α
jk
是衡量对输出d
j
贡献程度的权重，它能够对子任务之间的内在关系进行准确评估；9.根据权利要求8所述的快速适应任务卸载方法，其特征在于：所述本地训练中，ppo通过重要性采样将在线训练过程转化为离线训练过程；ppo中存在着目标策略π
θ
和采样策略π
θ
′
两种不同的策略；首先，π
θ
′
在采样之前被初始化为π
θ
，然后，基于采样策略π
θ
′
，ppo生成经验轨迹数据，并使用这些数据对目标策略π
θ
进行更新；此外，ppo还在目标函数中增加了kl散度和ppo-clip两项内容以使得训练更加稳定，如下所示：其中，μ代表kl散度kl(θ,θ
′
)的权重，kl散度对π
θ
和π
θ
′
之间的差异进行评估，从而减少两种策略之间的差距；裁剪函数将pr
t
的值限制在区间[1-ε,1+ε]内，从而避免参数的过度更新；pr
t
代表在时间步t时目标策略π
θ
和采样策略π
θ
′
的概率比值，如公式(1-11)所示；是时间步t时的优势函数值，采用一般优势估计(gae)作为优势函数，如公式(1-12)所示；
其中，γ代表奖励折扣因子，λ用于平衡的方差和偏差，v(s
t
)为状态值函数，表示从s
t
开始的未来期望累积折扣奖励；然后，状态值函数的损失定义如下；基于公式(1-10)和公式(1-13)，ppo的目标函数如公式(1-14)所示，其中η为状态值损失函数系数；ppo的更新公式如公式(1-15)所示，其中α是本地学习率；j(θ)＝j
p
(θ)-ηjv(θ)
ꢀꢀꢀꢀ
(1-14)10.根据权利要求9所述的快速适应任务卸载方法，其特征在于：所述全局训练中，基于元学习框架来训练一个全局模型，设新的任务卸载场景t
i
；公式(1-16)为元学习的目标函数，其中是公式(1-14)中任务t
i
的目标函数；公式(1-17)为全局模型的参数更新函数，其中β是全局训练的学习率；其中β是全局训练的学习率；公式(1-17)中的参数更新需要进行二次求导，使用一阶近似方法来解决该问题，如公式(1-18)所示，其中，m为本地训练的更新次数，n表示采样任务数；

技术总结
本发明公开了一种基于移动边缘计算的快速适应任务卸载系统和方法，系统包括：应用层、车辆层和MEC层；应用层的子任务被卸载到MEC服务器或本地车辆上运行，车辆层的每辆车辆都在本地对部分子任务进行处理。MEC层根据定义好的任务卸载方法为所有子任务进行卸载排序，并按卸载顺序依次为每个子任务进行卸载调度。方法包括：采样出多个任务卸载场景。针对特定的场景，训练出与之对应的任务卸载策略。对于每个场景，初始化本地目标策略和网络参数。根据本地采样策略选择并执行动作，获得奖励，收集经验轨迹。更新目标策略网络参数。对全局策略的网络参数进行更新。本发明的优点是：更加稳定，少量训练就能实现对环境的良好探索，具有更好的卸载效果。更好的卸载效果。更好的卸载效果。

技术研发人员：赵康利戴朋林胡凯文吴晓邢焕来
受保护的技术使用者：西南交通大学
技术研发日：2022.05.25
技术公布日：2022/9/2

完整全部详细技术资料下载

当前第2页1 2