一种基于图卷积策略梯度的多机协同任务调度方法

文档序号：35459756发布日期：2023-09-15 20:40阅读：33来源：国知局

本发明属于加工任务调度领域，特别是涉及一种基于图卷积策略梯度的多机协同任务调度方法。

背景技术：

1、多机器人系统的任务调度是最具有挑战性的问题。给定一组任务，一组机器人，将这些任务分配至各个有能力的机器人，给每个机器人确定工作时间表，机器人群按照设定的时间表在满足多种约束下有条不紊地完成所有的任务，那么如何分配才能最大化任务完成和资源利用的效率呢，这便是研究比较热的多机器人任务分配(mrta)问题。多任务、多机器人各自特性及其相互之间的约束纷杂耦合，要想针对mrta问题找到一个通用的方法是非常困难的。为此，mrta又细分为单任务(st)机器人和多任务(mt)机器人，这取决于机器人在同一时间只执行一个任务还是同时执行多个任务；单机器人(sr)任务和多机器人(mr)任务，这取决于任务是只需要一个机器人执行还是也考虑协同任务；瞬时分配(ia)问题和时间扩展分配(ta)问题，这取决于是静态分配还是考虑后续任务和机器人状态的动态调度。

2、在动态的经济环境和充满个性化的市场需求下，制造企业逐步转向多品种小批量的生产模式，企业试图依靠柔性的生产方式对日益变换的市场环境做出快速合理的响应。由于多机器人系统在提质增效、降本减耗上的突出效果，多机器人协同加工生产方式开始在现代工业生产中扮演非常重要的角色。通常，一个加工制造任务会被拆分为多个可以由单个机器人独立完成的子任务，多个异构机器人如测量、铣削、磨削、搬运机器人等待分配，当然存在一些加工任务需要由多个机器人同时完成，这可以通过配合施加并发约束来拆分。那么，在制造场景下mrta是一个典型的st-mr-ta问题。因此，亟需提出一种应用简单，可靠性高、可扩展性强，高效准确的任务调度方法。

技术实现思路

1、本发明的目的是提供一种基于图卷积策略梯度的多机协同任务调度方法，以解决上述现有技术存在的问题。

2、为实现上述目的，本发明提供了一种基于图卷积策略梯度的多机协同任务调度方法，包括以下步骤：

3、基于图结构表征任务和机器人属性及其相互之间的约束关系，获得任务和机器人的节点特征矩阵和节点邻接矩阵；

4、基于所述节点特征矩阵和节点邻接矩阵搭建并联图卷积网络模型作为执行器，输出对机器人的任务分配结果，并从激励、惩罚和目标奖励的维度为所述任务分配结果设置任务分配奖励；

5、构建深度置信网络模型作为评判器，基于所述任务分配奖励的时序差分残差作为目标损失训练优化所述评判器，基于优化后的评判器对所述执行器进行优化；

6、给定待加工任务集合、待分配机器人集合，基于优化后的执行器逐个分配任务，直至生成完整的任务规划序列。

7、可选地，基于图结构表征任务和机器人属性及其相互之间的约束关系的过程包括：基于节点特征向量表示任务节点和机器人节点的属性，基于节点邻接矩阵表示任务节点和机器人节点之间的约束关系；其中，任务节点属性包括任务量、质量要求和完成状态，机器人节点属性包括加工速度、服役状态和占用状态。

8、可选地，任务节点和机器人节点之间的约束关系包括：任务节点间的干涉约束、优先约束和并发约束，任务节点与机器人节点间的任务资源约束，以及机器人节点间的资源并发约束。

9、可选地，搭建并联图卷积网络模型的过程包括：将表征图结构数据的节点特征矩阵和节点邻接矩阵并行地输入到若干个图卷积网络层，经过聚合和非线性映射操作获得新的节点特征矩阵，并对获得的若干个新的节点特征矩阵进行合并，获得并联的图卷积网络模型。

10、可选地，所述任务分配结果包括：任务选择、指派机器人以及确定任务开始时间的分支；其中，所述任务选择分支的输出节点数等于任务总数，所述机器人指派分支的输出节点数等于机器人总数，所述开始加工时间确定分支的输出节点数等于整个调度过程离散化后的时间步数。

11、可选地，为所述任务分配结果设置任务分配奖励的过程包括：基于任务质量要求和机器人服役状态的匹配程度确定所述任务分配奖励的激励；基于所述任务分配结果对任务和机器人之间约束关系的符合程度确定所述任务分配奖励的惩罚；基于最小化任务完成时间和最大化资源利用率的完成程度确定所述任务分配奖励的目标奖励。

12、可选地，所述任务分配奖励的时序差分残差表示如下：

13、yt＝rt+γqω-(xt+1,μθ-(xt))-qω(xt,at)

14、其中，xt表示t时刻下的任务和机器人图结构，xt+1表示t+1时刻下的任务和机器人图结构，at表示执行器确定的策略，rt表示at对应的决策奖励，ω为评判器网络参数，θ为执行器网络参数，qω表示评判器，qω-表示目标评判器，μθ表示执行器，μθ-表示目标执行器，γ为当前奖励比重系数，yt则表示t时刻下任务分配奖励的时序差分残差。

15、可选地，基于优化后的评判器对所述执行器进行优化的过程包括：基于链式法则计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度，沿着增大梯度的方向优化执行器网络参数；其中，计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度表示如下：

16、

17、其中，式中n为样本数，表示对θ求偏微分，j是执行器损失，是对执行器策略求偏微分，qω(xi,a)表示评判器根据i时刻下的图结构xi和策略a评估任务分配效果。

18、本发明的技术效果为：

19、1)本发明公开的一种基于图卷积策略梯度的多机协同任务调度方法，利用图结构对任务、机器人资源及其相互之间的约束进行表征，能有效兼顾多机协同任务调度问题所涉及的复杂条件和规则，为任务调度提供支持；

20、2)本发明提供的多机协同任务调度方法通过嵌入图卷积操作搭建图卷积网络模型，充分考虑了任务调度的相关约束和条件，能够准确生成满足条件的加工任务规划序列；

21、3)本发明基于深度确定性策略梯度算法训练优化任务调度模型中的执行器和评判器，具有较高的可靠性和效率。

技术特征：

1.一种基于图卷积策略梯度的多机协同任务调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

3.根据权利要求2所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

4.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

5.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

6.根据权利要求2所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

7.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

8.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

技术总结
本发明公开了一种基于图卷积策略梯度的多机协同任务调度方法，包括以下步骤：基于图结构表征任务和机器人属性及其相互之间的约束关系，获得任务和机器人的节点特征矩阵和节点邻接矩阵；搭建并联图卷积网络模型作为执行器，输出对机器人的任务分配结果，并为任务分配结果设置任务分配奖励；构建深度置信网络模型作为评判器，基于任务分配奖励的时序差分残差作为目标损失训练优化所述评判器，基于优化后的评判器对执行器进行优化；给定待加工任务集合、待分配机器人集合，基于优化后的执行器逐个分配任务，直至生成完整的任务规划序列。本发明基于深度确定性策略梯度算法训练优化任务调度模型中的执行器和评判器，具有较高的可靠性和效率。

技术研发人员：樊伟,周健,郑联语
受保护的技术使用者：北京航空航天大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：樊伟周健郑联语
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：一种食品用酒精保鲜剂及其制备方法与流程
上一篇：一种基于金属有机骨架的吸附材料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。