一种基于多智能体强化学习的混合任务调度方法

文档序号：35289336发布日期：2023-09-01 10:50阅读：56来源：国知局

本发明属于计算机，涉及一种基于多智能体强化学习的混合任务调度方法。

背景技术：

1、如何及时、准确和全面地感知城市交通状况是城市健康状况监测的一个重大挑战。紧急异常(例如事故、拥挤)可能会给交通管制带来巨大压力，为此做出更明智的应急响应决策非常重要。常规异常即交通违规，如超速、违章转弯和停车问题，给日常交通管理带来威胁。为缓解日常违规和突发异常对交通的影响，需要派出交警在城市周边和事件高发区巡逻和驻守。在现实中，巡逻路径规划是子集选择问题的一种典型应用场景。这个问题本质上是基于交通任务子集的巡逻路线规划，巡逻参与者沿该路线执行任务，以实现对日常违规和紧急异常事件的最佳处理。

2、在高度随机的交通环境且存在分散的路线决策者时，对混合场景中的覆盖范围和紧急情况进行权衡是一个难点。对于混合任务调度，设计最佳巡逻路线以保证违规热点覆盖率和实时应急响应至关重要。传统方法几乎没有考虑混合场景下，覆盖率和应急事件之间的权衡问题。具体而言，针对离线违规热点设计的巡逻路线优先考虑高覆盖和低工作量，而在线应急监控则将巡逻路线规划至目标时间可能发生紧急异常的重要位置。因此，在混合场景下，如何兼顾交通违规覆盖率和紧急异常事件处理是一个亟待解决的难题。

技术实现思路

1、本发明的目的在于提出一种基于多智能体强化学习的混合任务调度方法，以解决交通任务巡逻中同时考虑离线违规热点和在线紧急任务的路线规划问题。

2、本发明为了实现上述目的，采用如下技术方案：

3、种于多智能体强化学习的混合任务调度方法，包括如下步骤：

4、步骤1.将离线巡逻问题建模为整数线性规划问题；

5、步骤2.对交通数据进行实时更新与补全：

6、使用滑动窗口张量分解来对异常事件进行实时更新；

7、使用矩阵补全算法进行交通数据补全，补全误差越小，与预期交通模式的显着偏差越明显，对应的紧急事件重要程度越高；

8、步骤3.获取历史决策信息的上下文语义。使用基于transformer的状态跟踪器来维护一个状态向量est，est表示时间t之前多智能体路线决策过程中的历史上下文交互信息；

9、步骤4.生成分散式路线决策动作。使用演员-评论家网络可以集中训练和分散执行训练任务；每个本地参与者都是一个代理，以完全分散的方式生成路线动作，但所有代理共享一个中央评论家；

10、步骤5.对新监测到的任务进行重要性评估。为了满足实时重要性估计需求，紧急异常以概率分布的形式存储在动作空间中，通过多智能体强化学习可以计算不同动作向量之间的余弦相似度，从而对新任务提供及时的应急响应；

11、步骤6.制定混合场景巡逻路线。首先通过子模块优化进行离线估计，从真实数据集生成一定数量的模拟数据集；通过求解秘书问题来选择最佳任务集。

12、本发明具有如下优点：

13、如上所述，本发明述及了种于多智能体强化学习的混合任务调度方法，该方法能够能够在复杂的交通环境中进行高效的混合路线规划。首先提出了一个整数线性规划模型，交通人员和志愿者合作执行离线任务，可以使得任务的覆盖范围尽可能大。将面向紧急事件的交通数据补全模型与多智能体强化学习模型相结合，可以对紧急事件重要性进行估计。基于最新的重要性估计，可以让多代理上下文状态跟踪器快速适应环境的新变化。在此基础上，提出了一种子模块秘书问题可以在线选择重要任务。本发明方法解决了交通管制中离线巡逻路线和在线突发事件的权衡问题，提高了交通人员在日常巡逻中对突发事件的处理能力，具有广泛的应用场景。

技术特征：

1.一种基于多智能体强化学习的混合任务调度方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多智能体强化学习的混合任务调度方法，其特征在于，

3.根据权利要求1所述的基于多智能体强化学习的混合任务调度方法，其特征在于，

4.根据权利要求1所述的基于多智能体强化学习的混合任务调度方法，其特征在于，

5.根据权利要求1所述的基于多智能体强化学习的混合任务调度方法，其特征在于，

6.根据权利要求1所述的基于多智能体强化学习的混合任务调度方法，其特征在于，

7.根据权利要求1所述的基于多智能体强化学习的混合任务调度方法，其特征在于，

技术总结
本发明公开了一种基于多智能体强化学习的混合任务调度方法，主要解决交通任务巡逻中同时考虑离线违规热点和在线紧急任务的路线规划问题。该方法包括离线违规热点巡逻：通过基于张量的整数线规划模型，制定多个非重叠巡逻路线以获得最大的区域覆盖范围；在线突发事件监控：在离线路线指导下，通过本发明提出的多智能体强化学习框架对事件重要性进行评估，基于秘书问题求解来选择性处理突发异常事件。本发明综合考虑了日常巡逻路线规划和实时突发事件的混合任务调度场景，使得交通巡逻人员在进行巡逻路线决策时不仅能考虑历史交通数据，且能同时处理当前时刻的突发事件，实现更高效的交通任务管治。

技术研发人员：刘秀文,肖扬,陈艳姣,庞善臣
受保护的技术使用者：中国石油大学（华东）
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘秀文肖扬陈艳姣庞善臣
技术所有人：中国石油大学（华东）
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。