一种面向电网物资检测流程的智能调度方法与流程

文档序号：36243523发布日期：2023-12-02 07:05阅读：66来源：国知局

本发明属于电网物资调度，尤其是一种面向电网物资检测流程的智能调度方法。

背景技术：

1、电网是重要的国民经济基础部门，电网中用到的关键设备需要经过合理检测、确认合格才能投运到电网生产中。检测中心可以检测变压器、熔断器、电容器、电抗器、一二次融合设备、物联网传感器等数十种物资，有一般检测、力学性能检测、高温实验室、低温实验室、放电检测、油理化检测等多种检测流程构成检测线，每个具体设备对应的检测流程也不相同。被检物资往往体积、质量比较大，中间的转运需要用到agv设备。

2、检测中心内通过人工智能技术对检测工位、仓储物流等系统信息进行分析、推理、决策与控制得到越来越多的关注。其中的调度问题是制造流程规划和仓库内agv路径优化中最关键的问题，也是众所周知的np-难问题。而智能车间调度技术是解决这一问题，并实现全面控制和柔性生产的一项关键技术。

3、在调度算法研究方面，最相近的现有技术方案是由罗梓珲等人1于2022年发表在物联网学报上的一种基于深度强化学习的智能调度车间算法。该架构将深度强化学习引入到调度算法中，使用actor-critic架构对编码器提取出的特征进行决策，再由解码器转换为实际动作进行执行。

4、现有的车间调度算法大致包含两类，一类是基于优先权的规则调度算法2，另一类方法是以遗传算法(ga，genetic algorithm)和深度强化学习(drl，deep reinforcementlearning)为代表的智能车间调度算法，需要数据或者仿真器进行一定时间的学习，然后不断迭代得到最优算法。

5、第一类工作的核心是基于一些传统工业车间中常用的调度规则来进行调度，包括fifo(先进先出)、lifo(后进先出)、lpt(最长处理时间)和spt(最短处理时间)等，这些规则大多数人类专家根据过往的生产经验总结出的一些较好的调度规则，可以应对一般的调度场景。

6、第二类方法的核心是使用drl等智能算法来在车间调度问题中取得近似较优解。其具体操作包括选择传统调度规则，即智能调度和规则调度的结合，或者直接进行调度决策。drl将会在仿真器中不断地试错来获得当前决策动作的奖励，从优化当前策略。

7、第一类基于优先权的规则调度算法只能解决简单的车间调度问题，对于当今物联网中包含物流系统的复杂车间调度问题优化效果不佳。第二类基于drl的智能车间调度对数据和仿真器有较高的要求，且训练的学习效率慢，同时drl对于仿真器和实际场景间的差异也比较敏感，导致算法在实际部署时可能解的质量不高。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提出一种面向电网物资检测流程的智能调度方法，将整个电网检测流程的决策与控制建模成柔性车间调度问题，而数据驱动搭配知识模型的算法将该新问题作为输入，能够快速解出一个符合实际场景的调度方案。

2、本发明解决其技术问题是采取以下技术方案实现的：

3、一种面向电网物资检测流程的智能调度方法，包括以下步骤：

4、步骤1、建立电网物资监测中心中仓储物流系统agv的模型，得到加入agv作为新任务后作业数据；

5、步骤2、根据作业数据，构建知识模型；

6、步骤3、使用基于模拟器数据驱动的常用强化学习算法作为热启动计算知识模型，得到调度方法。

7、而且，所述步骤1的具体实现方法为：

8、

9、其中，mi,i＝1,2,3,4代表机器，ti,i＝1,2,3,4代表任务用时，ai,i＝1,2,3代表agv任务，ta代表agv任务用时。

10、而且，所述步骤2中知识模型为带有约束的整数规划算法，算法的优化目标函数为完成最后一个作业的时间：

11、

12、

13、

14、其中，任一作业i在工序k分派的机器m上加工的完工时间ctikm等于该作业在该道工序的完工时间，开始加工时间stikm等于该作业在该道工序的完工时间ctikm与加工时间ptikm的差值，ctik为作业i在工序k的完工时间。

15、而且，所述约束条件包括：

16、(1)作业i到达系统后才能进行第一道工序的加工，因此其到达系统的时间rti应早于开始加工时间sti1：

17、

18、(2)机器m正在加工时，分配到该机器上的作业都需要进入缓冲区等待，任一作业i在机器m上开始加工的条件为：该作业的上一道工序已经完成；该机器的上一道工序已经完成，作业i在工序k的开始加工时间stik晚于该作业在上一道工序k-1的完工时间和已经分派到同一台机器的其他作业的完工时间，应等于两者的最大值：

19、

20、

21、(3)作业i在工序k的完工时间ctik等于该工序的可开始加工时间stik和该工序在机器m的加工时间之和，可表示为

22、

23、(4)对于任一作业i，其任一工序k不能重复加工，且不能在多台机器上重复加工：

24、

25、

26、

27、

28、(5)机器m不能并行加工多个作业：

29、

30、而且，所述步骤3中模拟器数据驱动的常用强化学习算法采用actor-critic架构：其中critic部分有两个神经网络，目标q网络和q网络；actor部分有两个神经网络：目标策略网络和策略网络，其中q网络的迭代方式通过对进行梯度下降完成，策略网络的迭代方式通过对进行梯度下降完成，在训练的过程中，将q网络和策略网络的参数定期复制到目标q网络和目标策略网络。

31、而且，所述步骤3包括以下步骤：

32、步骤3.1、强化学习训练；

33、步骤3.2、强化学习执行策略，得到排产结果ainit；

34、步骤3.3、将强化学习得到的排产结果作为热启动，利用整数规划求解器计算知识模型，得到调度方法；

35、步骤3.4、将调度方法以甘特图的形式输出。

36、而且，所述步骤3.1包括以下步骤：

37、步骤3.1.1、初始化策略网络、目标策略网络、q网络、目标q网络，初始化replaybuffer；

38、步骤3.1.2、对策略网络添加随机噪声，在仿真器环境中得到(s,a,s’,r)，并将其添加到replay buffer中；

39、步骤3.1.3、从replay buffer中采样一个minibatch，对的平均数进行梯度下降，更新q网络；

40、步骤3.1.4、对的平均数进行梯度下降完成，更新策略网络；

41、步骤3.1.5、重复步骤3.1.2至3.1.4，并且每当执行3.1.4时，将参数定期复制到目标q网络和目标策略网络。

42、本发明的优点和积极效果是：

43、本发明通过将整个电网检测流程的决策与控制建模成柔性车间调度问题，而数据驱动搭配知识模型的算法将该新问题作为输入，能够快速解出一个符合实际场景的调度方案。相比于已有的技术方案，本发明可以达到在线响应时间快、解的质量较高的效果，对比传统的手工排程方法，本方案的方法make-span可以降低5％，也就是整体检测效率提高5％。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭博文刘浏赵滨滨李舒扬张迅达周晨曦贺春刘宝成张弛付保军李维博齐鸣王伟孙成王汉良彭晟陈刚周永良
技术所有人：国网天津市电力公司国家电网有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。