一种机器视角下的模仿学习动态调度方法及系统

文档序号:37642384发布日期:2024-04-18 18:05阅读:47来源:国知局
一种机器视角下的模仿学习动态调度方法及系统

本发明属于动态生产调度领域,具体涉及一种机器视角下的模仿学习动态调度方法及系统。


背景技术:

1、调度通过对生产资源的合理安排,以缩短生产时间、提高资源利用率、降低生产成本,在生产系统中作用显著,尤其是动态生产调度。与机器种类、工件数量、工件工序加工所需时间是固定的静态生产调度不同,动态生产调度中可能出现各种突发情况,影响制造周期、成本等关键指标。例如,机器故障、订单调整、人工作业等情形都会导致生产过程充满不确定性。

2、在处理动态生产调度问题时,包括群智能、进化算法在内的离线调度算法在难以根据因生产过程不确定导致的生产流程异常来实时调整调度方案的,另外,其亦无法有效评估不确定性下调度方案的优劣。相较而言,目标导向的、数据驱动的、可有效应对动态环境的在线决策方法—强化学习已成为求解动态生产调度问题的重要方法。

3、在现实中存在大量的小微型企业,它们普遍具有机器较陈旧,手工操作占比大,生产率较低等问题。若在这些企业中推行生产调度,改善生产效率,提高企业竞争力,则必然需要面对非标准化的工件制造流程和“因厂而异”的生产设备结构。其中,非标准化的工件制造流程则会导致工序耗时经验化,工艺表格差异化;多样的机器构成则会导致用于调度的智能体特殊化。因此,这一现实场景要求动态调度方法具有强迁移能力和高普适性。

4、但强化学习的主要问题却包括:训练成本高和知识迁移难,这制约基于强化学习的调度方法在复杂环境中的应用。简单使用强化学习求解上述动态生产调度场景,难以达到期望效果。

5、机器视角下的智能体因机器功能相对固定具有潜在迁移性。但与管理者视角相似,机器视角下的单智能体系统在制定决策时需要统筹全局。当生产环境改变时,调度策略快速迁移的能力弱,所以需要设计更利于知识迁移的环境模型

6、奖励是引导智能体获得最终策略的关键因素。当奖励稀疏时,学习可用调度策略所需训练成本增加。若以最终调度评价为奖励,则会导致在长程调度(工件工序较多)中,奖励稀疏严重、即时奖励缺乏、信用分配困难、智能体训练缓慢等问题。目前,基于强化学习的动态调度对奖励,尤其是对直接影响信用分配的即时奖励,研究不充分;在长程调度中策略学习缓慢。


技术实现思路

1、针对动态生产调度领域中,强化学习方法存在的训练成本高以及知识迁移难等问题,本发明提出了一种机器视角下的模仿学习动态调度方法及系统,通过自适应即时奖励重塑的提高学习效率,降低训练成本,在奖励构造方面提升模型的迁移能力以及普适性。

2、为实现上述目的,本发明提供了如下方案:

3、一种机器视角下的模仿学习动态调度方法,包括以下步骤:

4、根据制定的加工工序列表和空闲智能体的列表,获得调度问题;

5、构建并训练神经网络模型,基于通过训练的神经网络模型,获得强化学习智能体;

6、基于所述强化学习智能体对所述调度问题进行处理,获得某一或某些加工工序最优化的调度方案。

7、优选的,根据制定的加工工序列表和空闲智能体的列表,获得调度问题的方法包括:

8、收集并分解订单工序,获得订单数据;

9、收集并整理智能体处理工序,获得智能体数据;

10、基于所述订单数据和所述智能体数据,制定调度规则集合,

11、基于所述调度规则集合,获得智能体在当前状态下的基线决策即调度问题。

12、优选的,基于通过训练的神经网络模型,获得强化学习智能体的方法包括:

13、将所述调度规则集合与智能体、环境互动,产生教师或学生的经验;

14、智能体根据经验更新值函数,获得强化学习智能体;

15、其中,教师或学生的经验为:为et or st=<st,at,rt,st+1>,st是在时序t下生产环境状态,at代表智能体在时序t下采取的动作,r代表奖励,表示的是环境对智能体采取动作后的及时反馈,非现实中的数据,用于评价机器选择好坏的模拟指标;

16、值函数为:其中,值函数是dqn中一个由深度神经网络模拟的函数,它将状态s和动作a映射到一个实数表示在给定状态下采取某个动作所获得的预期回报。

17、优选的,基于所述强化学习智能体对所述调度问题进行处理,获得某一或某些加工工序最优化的调度方案的方法包括:

18、建立判别模型;

19、所述强化学习智能体基于所述判别模型判断当前的经验是否适合学生学习,获得学习模式;

20、以动作与状态作为所述学习模式的输入,通过逆向强化学习,获得即时奖励;

21、基于所述即时奖励,获得某一或某些加工工序最优化的调度方案;

22、其中,所述判别模型为:p(at|st)表示在状态st下选择动作at的概率;

23、基于所述判别模型判断当前的经验是否适合学生学习的方法为:表示在状态st下,学生策略at和教师策略的好坏比较函数,当时,记录学生经验,反之记录教师经验;

24、通过逆向强化学习,获得即时奖励的方法为:采用逆向强化学习来模拟奖励函数,即,用神经网络来拟合奖励函数:

25、本发明还提供了一种机器视角下的模仿学习动态调度系统,包括:获得模块、训练模块和优化模块;

26、所述获得模块用于根据制定的加工工序列表和空闲智能体的列表,获得调度问题;

27、所述训练模块用于构建并训练神经网络模型,基于通过训练的神经网络模型,获得强化学习智能体;

28、所述优化模块用于基于所述强化学习智能体对所述调度问题进行处理,获得某一或某些加工工序最优化的调度方案。

29、优选的,所述获得模块包括:订单数据获得单元、智能体数据获得单元、调度规则制定单元和决策单元;

30、所述订单数据获得单元用于收集并分解订单工序,获得订单数据;

31、所述智能体数据获得单元用于收集并整理智能体处理工序,获得智能体数据;

32、所述调度规则制定单元用于基于所述订单数据和所述智能体数据,制定调度规则集合,

33、所述决策单元用于基于所述调度规则集合,获得智能体在当前状态下的基线决策即调度问题。

34、优选的,所述训练模块包括:互动单元和更新单元;

35、所述互动单元用于将所述调度规则集合与智能体、环境互动,产生教师或学生的经验;

36、所述更新单元用于智能体根据经验更新值函数,获得强化学习智能体;

37、其中,教师或学生的经验为:为et or st=<st,at,rt,st+1>,st是在时序t下生产环境状态,at代表智能体在时序t下采取的动作,r代表奖励,表示的是环境对智能体采取动作后的及时反馈,非现实中的数据,用于评价机器选择好坏的模拟指标;

38、值函数为:其中,值函数是dqn中一个由深度神经网络模拟的函数,它将状态s和动作a映射到一个实数表示在给定状态下采取某个动作所获得的预期回报。

39、优选的,所述优化模块包括:构建单元、判别单元、奖励单元和决策单元;

40、所述构建单元用于建立判别模型;

41、所述判别单元用于所述强化学习智能体基于所述判别模型判断当前的经验是否适合学生学习,获得学习模式;

42、所述奖励单元用于以动作与状态作为所述学习模式的输入,通过逆向强化学习,获得即时奖励;

43、所述决策单元用于基于所述即时奖励,获得某一或某些加工工序最优化的调度方案;

44、其中,所述判别模型为:p(at|st)表示在状态st下选择动作at的概率;

45、基于所述判别模型判断当前的经验是否适合学生学习的过程为:表示在状态st下,学生策略at和教师策略的好坏比较函数,当时,记录学生经验,反之记录教师经验;

46、通过逆向强化学习,获得即时奖励的过程为:采用逆向强化学习来模拟奖励函数,即,用神经网络来拟合奖励函数:

47、与现有技术相比,本发明的有益效果为:

48、在通过强化学习的在线调度来解决以生产设备结构调整、企业需求改变为代表的复杂环境下的动态调度问题中,本发明以模仿学习为指导,使用新的模型来加速长程决策下的信用分配,重塑奖励函数,解决因奖励稀疏导致的信用分配困难问题。本发明有助于模型学习长程调度中的即时奖励,从而改善跨厂区、跨企业的调度策略迁移,实现企业自身需求调整后的调度策略复用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1