车联网中基于联邦强化学习的任务调度与资源分配方法

文档序号：35376552发布日期：2023-09-08 18:39阅读：112来源：国知局

本发明涉及无线通信与车联网，具体涉及一种车联网中基于联邦强化学习的任务调度与资源分配方法。

背景技术：

1、车联网作为5g的应用场景之一，其支持诸多的车载应用服务，而这些服务往往需要满足低时延，高可靠性高稳定性。移动边缘计算通过将计算资源和存储资源下沉到网络边缘，实现了更低时延和更低能耗，成为一种备受关注的技术。

2、任务卸载是移动边缘计算重要应用场景之一，通过向移动端应用提供计算服务以提高车联网应用群的服务质量。车载应用程序本质上是由若干相互依赖的子任务构成，例如部署在车辆中的导航应用程序，由检索终点、读取用户位置、加载地图、读取交通条件与分析备选路径这几个子任务组成，且各子任务都具有一定的依赖关系，通常这种依赖关系以有向无环图来描述。对比于二进制卸载，考虑任务的更细粒度卸载，将拆分后的各任务卸载至各边缘服务器或本地并行的运行，理论上可以进一步降低任务时延，然而子任务间存在依赖关系，同时子任务在可计算单元间迁移需要迁移成本，车联网的高效运行有赖于车联网系统内高效的卸载调度决策与合理的资源分配。

3、深度强化学习已被广泛作为边缘计算领域中。在现有的大多数研究中，车联网环境下的任务卸载通常为传统的单智能体的集中式算法(single dqn等)，存在维数爆炸与可扩展性差的不足，或半分布式(分布式决策，集中式评判)的多智能体强化学习(如maddpg等)，存在隐私泄露的风险，难以在高动态性的车联网环境中提供良好的服务质量。

4、现有技术一种基于深度强化学习的多智能设备任务卸载决策方法(cn202210362289.6)没有考虑到边缘计算任务的时效性与任务可再分割性，现有的绝大部分场景中，卸载任务都有一定的时延容忍。现有发明采用集中式训练与分布式决策的算法，在高密度用户场景下集中式训练需耗费大量通信资源，存在隐私泄露的风险。

技术实现思路

1、为了克服现有技术中集中式单代理强化学习与半分布式的多代理强化学习算法易泄露用户数据与可扩展性差的缺点，本发明提出车联网中基于联邦强化学习的任务调度与资源分配方法，将联邦学习引入深度强化学习的离线学习环节中，采用完全分布式的算法，实现分布式的任务卸载与资源分配，避免了用户数据外泄，保护了用户的隐私，在高动态的车联网环境中具有更好的可扩展性与可行性，实现分布式任务调度与资源分配，对卸载效益最大化问题进行分布式求解。

2、本发明的目的至少通过如下技术方案之一实现。

3、车联网中基于联邦强化学习的任务调度与资源分配方法，包括以下步骤：

4、s1、构建智能车辆与基础设施通信的车联网场景，包括具有计算能力的边缘服务器与中心云服务器，以及车辆与基站的通信模型和计算模型；

5、s2、以车辆任务卸载效益最大化的优化目标，建立最优化模型；

6、s3、智能车辆端通过感知任务图模型，基于优先级评估求得任务卸载顺序；

7、s4、智能车辆端通过自身任务需求及感知边缘服务器的状态作为联邦深度强化学习网络的输入状态，以卸载决策与资源分配方案为输出动作；

8、s5、联合步骤s3、步骤s4得到任务卸载顺序、任务调度与资源分配方案，实现车联网服务质量最大化；

9、s6、通过离线梯度下降与联邦聚合训练网络，并更新目标网络权重，将多车辆智能体环境下的各车辆智能体目标网络聚合得到全局模型，再将全局模型分发至各车辆智能体。

10、进一步地，步骤s1中，建立车联网动态场景，具体如下：

11、车联网场景为高速公路以及路段上有不断行驶的车辆，其中车辆数服从基于车速的泊松分布，场景中有两个基站，其中每个基站配备有边缘服务器；

12、记车辆集合为基站集合为u为车辆总数，k为基站总数；在每一时隙，车辆u的计算任务定义为任务图其中tmax为当前任务的时延容忍；为子任务集合，也是任务图的点集，ci为第i个子任务所需算力，i为当前任务的子任务总数；为任务依赖集合，也是任务图的边集，任务i′为任务i的前驱任务，且di′，i为任务i′计算完成后需要传递给任务i的数据量，ci′为第i′个子任务所需算力；

13、假定子任务已不可再分割，同时为简洁的表示任务依赖关系，定义φi为任务i的前驱结点集，且i′∈φi，为确保卸载的起点节点与终点节点唯一，添加虚拟起点任务为入度为0的节点的前驱结点，添加虚拟终点任务为出度为0的节点的后继节点，且c0＝0，ci＝0。

14、进一步地，建立车辆与基站的通信模型包括基于3gpp tr 36.885的无线信道模型，具体如下：

15、车辆u与所在范围内的基站通信的信道增益hu，k考虑大尺度和小尺度衰落，表示为：

16、

17、其中a为路径衰落参数；μu为车辆u的衰落系数，服从均值为1的独立复指数分布；βu为车辆u的阴影衰落，服从具有标准偏差的对数正态分布；lu，k表示车辆u与基站k的距离，γ为衰减指数；

18、车辆与基站的无线通信基于正交频分多址，车辆u与基站k的带宽由连接至当前基站下所有需要上行的车辆均分，上行信噪比与车辆上行发射功率、信道增益成正比，车辆u与基站k的上行速率为根据香农公式得：

19、

20、上式中，pu为车辆u的上行发射功率，b为基站的总带宽，hu，k为车辆u与基站k的信道增益，σ2为高斯白噪声功率，nup为需要上行的车辆数，其中车辆u与基站k的上行信噪比需满足：

21、

22、上式中γth为噪声门限；当上行信噪比低于噪声门限时，任务卸载失败；

23、定义车辆u与基站k的下行速率

24、

25、上式中，pk为基站下行发射功率，ndo为需要下行的车辆数。

26、进一步地，建立车辆与基站的计算模型包括：定义au，k，i为0-1二进制的车辆卸载指示变量，au，k，i＝1即车辆u的子任务i将任务卸载至基站k对应的边缘服务器，au，0，i为车辆u的子任务i的本地计算指示变量，au，0，i＝1即当前时隙车辆u的子任务i的计算任务为本地计算，且虚拟起点任务与虚拟终点任务卸载决策指定为车辆本身，即au，0，0＝1，au，0，i＝1；

27、针对车辆请求接入边缘端以进行任务卸载时，车辆根据自身的任务情况以及感知边缘端的信息向边缘端请求计算资源，令边缘服务器的计算资源为fmec，为计算时延，得：

28、

29、其中ci为计算子任务i所需算力，每个边缘服务器有各自的先入先出任务等待队列，当边缘服务器未空闲时，任务按进入队列时间依次等待，若对于任务i，车辆u选择本地计算：

30、

31、其中，为车辆的计算能力，为计算时延；

32、若当前子任务的任务卸载地点与其某一前驱任务的卸载地点不同，则发生任务迁移：定义任务迁移的速率其中子任务当前在基站k对应的边缘服务器作任务卸载：

33、

34、其中k′为子任务i′对应的基站，k′为0则在车辆u本地卸载，r′为光纤传输速率，为基站集合，与分别为上行与下行速率，对于车辆u的子任务i，定义子任务开始累计时延为任务i开始计算时的时隙，其中由任务依赖的性质可知，其子任务开始累计时延必定大于其所有前驱任务的开始累计时延：

35、

36、上式中，为前驱任务的开始累计时延，φi为任务i的前驱结点集；

37、定义车辆u的子任务i′计算完成后将数据迁移至子任务i的任务调度时延

38、

39、其中k、k′分别为子任务i、i′对应的基站，当k为0时，表示为本地卸载；di′i为任务i′计算完成后需要传递给任务i的数据量；为任务迁移的速率；考虑到前驱任务的计算时延、任务迁移时延，应满足：

40、

41、

42、其中，为子任务i的开始计算累计时延，为子任务i的前驱任务i′的开始计算累计时延，为子任务i′的计算时延，为任务调度时延，为子任务开始累计时延，au，k，i为0-1二进制的车辆卸载指示变量，k为基站总数；上式表示考虑若前驱卸载地点与当前卸载地点一致，则当前任务的开始累计时延应大于前驱任务开始累计时延与计算时延之和，若不一致，则当前任务的开始累计时延应大于前驱任务开始累计时延、计算时延与任务迁移时延之和；

43、对于任务图task，当确定卸载决策矩阵{au，k，i}k*i以及发射功率矩阵{pu，i}i*1时，pu，i为车辆发射功率，i为当前任务的子任务总数，定义二进制任务卸载决策顺序指示变量xu，i，r，当xu，i，r＝1时，车辆u的任务i为第r个进行任务卸载，任务调度指示变量需要满足：

44、

45、

46、xu，i′，r为任务i′的卸载决策顺序指示变量，r为小于任务数的正整数。

47、进一步地，步骤s2中，以车辆任务卸载效益最大化的优化目标，建立最优化模型，具体如下：

48、定义车辆u的任务卸载总时延τu为所有任务完成后累计时延的最大值：

49、

50、上式中max(·)为最大值计算函数，分别为子任务0到i的开始计算累计时延，虚拟终点任务的开始累计时延即为整个任务的总时延：

51、

52、对于任务图task，整个任务的总能耗包括所有子任务的上行能耗与本地计算能耗，定义整个任务的总能耗eu：

53、

54、上式中，i为当前任务的子任务总数；au，0，i为车辆u的子任务i的本地计算指示变量，为车辆的计算能力，ε为能耗转换系数，ci为子任务i计算所需算力，第一项为本地计算时所需能耗；φi为任务i的前驱结点集，k为基站总数；pu，i为车辆发射功率，au，k，i为0-1二进制的车辆卸载指示变量，au，0，i′表示子任务i′是否本地卸载的二进制指示变量，di′i为对应任务的数据量，为任务迁移的速率，式子第二项表示上行时的能耗。

55、进一步地，定义车联网边缘卸载的最优化模型，具体如下：

56、定义任务车辆的优化效益qu为相较本地计算的提升比例，如下式所示：

57、

58、其中：β1和β2为加权系数，β1+β2＝1，与分别为任务图本地计算的时延与能耗，为车辆的计算能力，ci为计算子任务i所需算力，i为当前任务的子任务总数，ε为能耗转换系数，τu与eu分别为车辆u任务卸载总时延与能耗，对于卸载失败的任务，包括上行信噪比过低及不满足时延容忍情况，记该任务的卸载效益qu＝0，定义最大化效益值的最优化问题：

59、

60、其中最优化式子中：au，k，i为0-1二进制的车辆卸载指示变量；pu，i为发射功率变量；xu，i，r为二进制任务卸载决策顺序指示变量，为车辆集合，为基站集合，xu，i′，r为任务i′的卸载决策顺序指示变量，r为小于任务数的正整数，tmax为任务的时延容忍，pmax为最大发射功率；限制条件中，sinru，k为上行信噪比，γth为噪声门限；为子任务序号集合；为子任务i的开始计算累计时延，为子任务i的前驱任务i′的开始计算累计时延，为子任务i′的计算时延，为任务调度时延；

61、第一约束条件c1表示子任务已不可再分割，只能选择一个卸载对象；第二约束条件c2表示当前时隙车辆必须做出卸载决策；第三约束条件c3、第四约束条件c4表示任务排序指示变量需满足任务依赖性；第五约束条件c5表示车辆上行发射功率不能超过发射功率最大值pmax；第六约束条件c6表示车辆任务的执行时间需小于时延容忍；第七约束条件c7表示车辆上行信噪比需大于噪声门限；第八约束条件c8表示当前子任务开始计算的条件为其前驱子任务计算完成并完成对应的任务迁移。

62、进一步地，步骤s3中，智能车辆端通过感知任务图模型，基于优先级评估求得任务卸载顺序，具体如下：

63、对于基于有向无环图的任务，根据以下原则设计任务顺序：

64、其一、任务的卸载顺序需要满足任务依赖，即某个任务的卸载次序需要比其所有的前驱任务节点集都要靠后；

65、其二、对于某个有若干个前驱子任务的节点，其开始累计时延为所有前驱子任务迁移后的累计时延最大值，根据最小化时延的目标，计算成本越大的子任务应排到较前的卸载顺序，基于优先级评估的卸载顺序策略确定最优的卸载顺序，步骤如下：

66、(1)计算出度为0的任务节点的优先值，按下式计算优先值，同时更新图的出度值；

67、按优先值降序排列得到卸载顺序决策，节点优先值计算方式如下式所示：

68、

69、上式中：rank(i)与rank(i′)分别为子任务i与i′的优先值，ci′为子任务i′所需算力，di′，i为任务i′计算完成后需要传递给任务i的数据量，φi为任务i的前驱结点集合；

70、(2)重复步骤(1)直至所有节点优先值计算完毕。

71、进一步地，步骤s4中，构建基于联邦深度强化学习网络的车辆智能体的输入状态，每一车辆智能体的状态su(t)表示如下：

72、su(t)＝[hu，1(t)，...，hu，k(t)，tasku(t)]

73、其中，tasku(t)表示为任务模型，包括各子任务的所需算力的集合、任务迁移的数据量以及时延容忍，hu，k(t)表示车辆u感知与基站集合建立无线连接的信道增益；

74、车辆端动作包含当前时隙下，车辆需要做出的决策包括所有子任务的卸载决策与资源分配方案，因此每一车辆智能体的动作αu(t)设计表示如下：

75、

76、其中，au，0，i，...，au，k，i表示为车辆u的子任务i是否卸载于基站k对应的边缘服务器，1为卸载，0则相反，pu，i表示为车辆u的子任务i的上行发射功率；i为当前任务的子任务总数；k为基站总数；

77、对于车辆u的子任务i进行任务调度的奖励ru，表达式如下：

78、

79、其中，qu为本次卸载决策的效益值；为判决上行信干噪比是否高于信噪门限，sinru，k(t)为上行信噪比，γth为信噪门限，au，0，i′表示子任务i′是否本地卸载的二进制指示变量，μ1为对应的定值奖励；为判断卸载时延是否满足时延容忍，为卸载总时延，tmax(t)为任务的时延容忍；g(·)为在物联网领域中广泛使用的阈值判定函数，μ2为对应的定值奖励，当上式中第一项大于0时，赋定值奖励，反之则赋值式中第一项；任务i′为任务i的前驱任务，φi为任务i的前驱结点集；au，k，i为0-1二进制的车辆卸载指示变量；

80、将联邦学习引入深度强化学习的离线学习环境中，具体形式如下：

81、

82、上式中θg为聚合后的全局模型，wu为各参与聚合车辆经验回放缓存池的大小；为参与聚合的车辆集合经验回放缓存池容量之和，为车辆集合，为车辆u的目标网络参数集。

83、进一步地，步骤s6中，基于离线学习与联邦学习训练各智能体网络，离线学习步骤如下：

84、初始化各智能体经验回放池、目标网络权重和策略网络权重；初始化车联网场景环境，得到各智能体输入状态；策略网络根据输入状态作推理，并依据动作选择策略选择动作；动作作用于环境，得到奖励，并转移到下一状态；将当前状态转移对，包括当前状态、执行动作、奖励、下一状态存于经验回放池；从经验池小批量抽取样本对策略网络进行训练，并更新目标网络权重。

85、进一步地，步骤s6中，基于离线学习与联邦学习训练各智能体网络，联邦学习步骤如下：

86、各智能体通过在线学习与离线学习更新自身网络；车辆端基于自身卸载决策进行聚类；各智能体根据聚类结果将自身target net模型参数上传至聚合中心，聚合中心通过加权平均得到全局模型，并下发至各智能体，各智能体通过全局模型跟新自身网络模型参数。

87、本发明与现有技术相比，具有如下优点和有益效果：

88、(1)本发明公开的一种车联网中基于联邦强化学习的任务调度与资源分配方法，针对车联网环境中最大化任务卸载服务质量的优化问题，在较低时间复杂度的情况下获得了任务调度与资源分配问题的次优解；

89、(2)本发明公开的一种车联网中基于联邦强化学习的任务调度与资源分配方法，实现了分布式的任务调度与资源分配，与集中式与半分布式算法相比，避免了用户数据外泄，保护了用户的隐私，具有较好的可扩展性；

90、(3)本发明公开的一种车联网中基于联邦强化学习的任务调度与资源分配方法，与其他算法相比有更高的服务质量。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴焯斌胡斌杰
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种高安全性的电子标签系统的制作方法
上一篇：一种运载火箭姿态控制系统的故障检测与隔离方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。