一种智能产线自适应动态调度策略选择方法

文档序号：30390662发布日期：2022-06-11 15:21阅读：141来源：国知局

1.本发明涉及智能制造领域，用于复杂动态车间生产环境下的生产调度优化，具体涉及的是一种基于深度强化学习的智能产线自适应动态调度策略选择方法。

背景技术：

2.智能制造是一种面向产品的全生命周期，以新一代信息技术为基础，以制造系统为载体，在其关键环节或过程，具有一定自主性的感知、分析、推理、决策与控制能力，能动态地适应制造环境的变化，从而实现某些优化目标。制造行业向智能制造的发展方向不断推进，使得现在的加工采用个性化模式生产，形成了更为复杂的小批量、多品种、个性化的智能生产模式。同时在智能生产模式下，生产产线上的产品不断丰富，订单需求不断变化，动态突发事件的概率大大提高，干扰了企业的生产过程，对产品生产和工厂运作造成负面影响，从而需要一种调度方式来应对环境动态的变化。
3.当前已经使用过的调度算法可能解决一到两种动态环境下的动态调度问题，但是在复杂的动态环境下，比如产品多样化、机器故障频繁化、订单插入成为个性化生产的常态，这样复杂动态生产条件下，动态调度对于这些情况的解决仍然是不能满足的，特别是不停机调度的一个需求，而且生产调度的质量和稳定性都难以保证，更不能与现有的低能耗政策相关联，无法满足生产的需要。张剑等人在专利申请cn113377073a中公开了一种基于双层多智能体系统的柔性作业车间调度优化方法，但是该方法仅仅考虑了机器故障和工件随机到达的情况，仍是无法满足对于产品多样化、机器故障频繁化、订单插入等个性化生产的需求，另外该发明使用的是启发式规则调度，不适用于实时调度，特别是在解决大规模问题时，因为求解时间呈指数增长，并且与问题结构密切相关。如果问题结构发生变化，则需要重新设计元启发式算法，但泛化能力较差。
4.因此针对以上背景很有必要开发动态的柔性作业车间调度方法，以此应对和处理复杂动态环境和需求变化时的不确定性事件。

技术实现要素：

5.本发明目的在于提供一种基于深度强化学习的智能产线自适应动态调度策略选择方法，该框架能满足复杂动态生产环境中的调度策略选择和动态不停机调度，特别是在产品多样化、机器故障频繁化、订单插入常态化等复杂动态生产条件下，满足一个不停机处理的过程，提高生产质量和稳定性，进而提高生产效率。
6.为实现本发明的目的，本发明提供的一种智能产线自适应动态调度策略选择方法，其主要特征是能满足复杂动态生产环境中的调度策略选择和动态不停机调度，特别是在产品多样化、机器故障频繁化、订单插入常态化等复杂动态生产条件下，满足一个不停机处理的过程，提高生产质量和稳定性，进而提高生产效率。所述方法包括以下步骤：
7.描述选择调度框架模型，包括车间生产环境模块、算法模块和调度规则模块，其中，车间生产环境模块用于实现对现实生产环境的建模，从现实生产环境中提取当前状态
信息，所述状态信息转换为状态特征值后作为算法模块的输入，算法模块提供用于动态生产调度的深度强化学习方法，调度规则模块用于完成规则的选择和作业机器的选择过程；
8.根据所述选择调度框架模型的算法模块，使用基于深度强化学习的算法实现策略选择，其中，能同时根据动态环境变化和需求变化做出策略选择；
9.基于所述选择调度框架模型的调度规则模块和根据所述策略选择，建立针对动态环境变化的自适应规则调度选择器，所述自适应规则调度选择器包括调度规则选择调度器和作业机器对选择调度器，调度规则选择调度器用于根据动态环境变化和需求变化选择不同的调度规则，作业机器对选择调度器用于根据调度规则完成设备匹配和作业工序匹配；
10.学习训练后的自适应规则调度选择器能够根据不同需求选出最佳调度策略完成设备匹配和作业工序匹配，从而完成复杂动态环境下的不停机调度。
11.进一步地，从现实生产环境中提取当前状态信息中，所述状态信息包括初始状态变化、设备故障订单插入和负载均衡。
12.进一步地，所述状态特征值包括平均机器利用率、设备负载率、工件估计延迟率、工件实际延迟率、工件完成率和工序完成率。
13.进一步地，所述能同时根据动态环境变化和需求变化做出策略选择，包括：
14.针对产品初始状态变化的情况下使用最短处理时间优先原则和剩余处理时间最短优先原则的结合；
15.针对设备变化的情况下，使用最早交货期优先和工件剩余加工时间最短优先原则的结合；
16.针对订单插入的情况，使用最小工序临界比优先原则和剩余处理时间最短优先原则的结合；
17.当环境考虑负载均衡时，使用最短处理时间优先原则和先进先出原则的结合；
18.针对需求变化的情况，使用先进先出原则。
19.进一步地，深度强化学习算法的深度学习模块用于马尔可夫决策过程的环境感知，强化学习模块用于决策控制的方向，所述马尔可夫决策过程的数学表达式如式子(1-1)(1-2)所示：
[0020][0021][0022]
智能体初始状态为s0,智能体从一个动作集a中自由地选择动作a0来执行，动作a0被执行后，获得动作a0的即刻奖励r0，同时智能体以p
sa
的概率随机地转移到下一个s1状态，状态，是动作a0对应初始状态s0的概率。在状态s1下，然后紧接着开始执行下一个动作a1，执行后，获得动作a1的即时奖励r1，智能体又以p
sa
的概率随机被转移到下一个s2状态，
…
以此类推完成整个转移过程，是动作a1对应初始状态s1的概率，为一个联合概率，表示在选择动作a的情况下，状态从s转移到s'的概率，a
t
为时间t的动作集，s
t+1
＝s'为状态集，为奖励值，e为下一时刻的状态的价值期望，r
t+1
为奖励函数。
[0023]
进一步地，所述深度强化学习的算法的离线训练过程包括：
[0024]
在每个时间步，将智能体从环境中得到的样本，包括当前动作a、状态s和奖励r存
储到经验回放池中；
[0025]
每次训练时从经验回放池中随机抽取样本，并更新q值；
[0026]
每隔预设训练次数重新复制当前q网络的参数到目标q网络，：θ'
←
θ，θ'为目标q网络的参数，θ为当前q网络的参数；
[0027]
训练时的损失变化为：
[0028][0029]
式中，l'为损失函数，q(s
t
,a
t
,θ)表示原始q网络，为目标q网络，θ和分别表示原始网络和目标网络的权重，a'为下一个状态对应的动作，s
t
、a
t
、r
t
、γ分别为时间t时的状态、动作、奖励和折损系数；
[0030]
自适应规则调度选择器选择不同的调度规则进行训练，并将选择后的状态值反馈到当前q网络中，再次完成学习。
[0031]
进一步地，采用学习函数learn从经验回放池中抽取样本，完成智能体和环境的数据交互。
[0032]
进一步地，更新q值的方式为：
[0033]
式中，q
π
*(s，a)表示对于任意一个马尔科夫模型，总是存在在状态s下采取动作a并遵循一个最优的策略π*，并且在使用这个策略时就能取得最优值函数，p(s
′
|s，a)表示在每个决策点，智能体都会观察当前状态并选择动作a，然后从状态s进入一个新状态s’，r(s，a，s
′
)表示当前状态s转换到新的状态s’之后获得的奖励，为最大化长期奖励值得预期总和。
[0034]
进一步地，调度规则选择调度器基于策略的选择，根据动态环境变化和需要变化设置了不同的调度规则，且作业机器对选择调度器的选择分配规则复合在调度规则里。
[0035]
进一步地，所述动态环境的变化包括初始状态发生变化、设备变化、有订单插入和环境考虑负载均衡，其中，当考虑初始状态发生变化时，调度规则选择调度器选择调度规则1，所述调度规则1为最短处理时间优先原则和剩余处理时间最短优先原则的结合；当检测到设备变化，调度规则选择调度器选择调度规则2，所述调度规则2是最早交货期优先和工件剩余加工时间最短优先原则的结合；当检测到有订单插入时，调度规则选择调度器选择调度规则3，所述调度规则3是最小工序临界比优先原则和剩余处理时间最短优先原则的结合；当环境考虑负载均衡时，调度规则选择调度器选择调度规则4，所述调度规则4是最短处理时间优先原则和先进先出原则的结合，作业机器对选择调度器根据所选择的调度规则进行机器分配。
[0036]
与现有技术相比，本发明能够实现的有益效果至少如下：
[0037]
(1)本方法提出的动态调度框架，通过定义环境、状态、行动、奖励和策略，将调度问题转化为一个顺序决策问题(即马尔科夫决策的动态转移过程)，构建了马尔科夫决策模型作为通用调度模型，缩小了模型表达与实际问题之间的差距，对实际车间调度问题得到更全面的描述。
[0038]
(2)建立了基于深度强化学习的统一调度框架，采用深度强化学习离线训练调度策略(该部分与调度环境进行交互，得到经验数据，采用深度强化算法进行训练)，然后在线
快速将训练好的调度策略应用于具有不同初始状态和需求变化的新的调度问题中。离线训练和深度强化学习的结合，将大量训练时间放在离线，当动态环境变化和需求变化等动态事件到来时可以自适应地快速做出调整，辅助提高生产车间调度效率。
附图说明
[0039]
图1为本发明实施例中整体调度框架示意图。
[0040]
图2为本发明实施例中深度强化学习算法求解流程图。
[0041]
图3为本发明实施例中调度规则选择调度器的调度流程图。
具体实施方式
[0042]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。
[0043]
请参阅图1-图3，本发明提供的一种基于深度强化学习的智能产线自适应动态调度策略选择方法，包括以下步骤：
[0044]
步骤1：描述选择调度框架模型，该模型包括车间生产环境模块、算法模块和调度规则模块，其中，车间生产环境模块用于实现对现实生产环境的建模，从现实生产环境中提取当前状态信息，算法模块提供用于动态生产调度的强化学习方法，调度规则模块用于完成规则的选择和作业机器的选择过程。
[0045]
在本发明的其中一些实施例中，该调度框架模型展示了整个动态生产调度方法中数据的交互与处理，是基于深度强化学习算法的一个框架，包括车间生产环境模块、算法模块和调度规则模块，三个模块之间的数据流动形成一个闭合的循环。车间生产环境模块用于实现对现实生产环境的建模，从现实生产环境中读取当前车间环境状态信息，包括初始机器和工件的使用和加工状态、需求变化情况等，然后转换为状态特征值，作为模型的网络输入部分，为深度强化学习网络的输入和输出层节点提供状态特征值和可用操作数。
[0046]
状态特征可以描述调度环境的主要特征和变化，状态特征的选择应与调度目标相关，否则将导致特征冗余；不同调度问题的所有状态都由一个公共特征集表示；在本发明的其中一些实施例中，选择可用于描述调度系统的特征属性，然后为强化学习(rl)构建状态特征，定义了6个范围归一化在[0,1]区间的通用的状态特征，通过限制所有状态特征的取值范围(即归一化)，从而限制算法输入的变化范围，提高算法的性能和通用性，使其更容易地扩展到不同的未经训练的生产环境。选定的六个状态特征包括平均机器利用率(u_ave(t))、设备负载率(u_k(t))、工件估计延迟率(tard_e(t))、工件实际延迟率(tard_a(t))、工件完成率(crj_ave(t))、工序完成率(cro_ave(t))。
[0047]
在本发明的其中一些实施例中，算法模块提供用于动态生产调度的强化学习方法，可以应对连续的生产状态，并在每个重调度点选择最合适的动作，从而优化智能产线的加工流程，提高质量和生产效率。
[0048]
在本发明的其中一些实施例中，调度规则模块用于构建两个选择调度器，包括调度规则选择调度器和作业机器对选择调度器，用于完成规则的选择和作业机器的选择过
被执行后，获得动作a0的即刻奖励r0，同时智能体以p
sa
的概率随机地转移到下一个s1状态，状态，是动作a0对应初始状态s0的概率。在状态s1下，然后紧接着开始执行下一个动作a1，执行后，获得动作a1的即时奖励r1，智能体又以p
sa
的概率随机被转移到下一个s2状态，
…
以此类推完成整个转移过程，是动作a1对应初始状态s1的概率。不同的动作选择产生了不同的后续状态以及对应的不同的奖励。为一个联合概率，表示在选择动作a的情况下，状态从s转移到s'的概率、a
t
为时间t的动作集，s
t+1
＝s'为状态集，为奖励值，e为下一时刻的状态的价值期望，r
t+1
为奖励函数。
[0056]
深度强化学习的调度算法流程图如图2所示，图中展示了整个训练过程，首先是使用了经验回放机制，在每个时间步，将智能体从环境中得到的样本，包括当前动作a、状态s和奖励r存储到经验回放池中。训练时，每次从经验回收池中使用学习函数learn随机抽取小批量的样本，并更新q值(q为q网络值)。在不丧失一般性的情况下，让s
t
、a
t
、r
t
、γ分别设置为时间为t时的状态、动作、奖励和折损系数。由于q学习的目的是训练一个动作值函数，即q函数，所以它近似于给定状态下每个动作的未来值。神经网络训练过程中每隔预设训练次数再重新复制当前q网络的参数到目标q网络。在本发明的其中一些实施例中，每n步，都更新当前的q网络参数到目标q网络：θ'
←
θ，θ'为目标网络的参数。在训练过程中使用深度网络模拟状态特征值的更新，解决以往难以处理的高维动作空间的复杂动态问题。使用的深度强化学习算法克服了神经网络的不稳定性，利用了目标网络和经验重放的方式。目标q网络定期更新，通过减少相关性确保学习的稳定性。因此，损失变化如下：
[0057][0058]
q(s
t
,a
t
,θ)表示原始q网络，为目标q网络，θ和分别表示原始网络和目标网络的权重，a'为下一个状态对应的动作。在回放缓冲区中存储一个转换(s
t
、a
t
、r
t
、s
t+1
)，并在网络的训练过程中对转换进行随机采样，图2中预测值为状态的预测，loss为损失函数l'，通过样本函数sample()从回放缓冲区中提取样本，sample方法每次从缓冲区中分别取出一定长度的当前状态和下一状态，当前状态是强化学习算法中执行动作之前的状态，下一状态则是强化学习算法中执行动作之后获得的新状态。从当前状态执行动作、之后跳转到新状态，从而获得奖励值r。并将获得的下一状态值的动作反馈到环境中，在环境中才能更加明显的看出当前状态的变化。这项技术缓解了状态、动作和奖励对之间的关联。学习阶段，当环境条件改变时，通过深度强化学习算法对智能体进行训练，依次选择不同的调度规则(rule)，在每个决策点确定操作选择规则和机器分配规则。完成实时的选择调度规则，从而完成整个调度操作。
[0059]
其中，对目标q网络进行定期更新的公式为：
[0060][0061]
式中，q
π
*(s，a)表示对于任意一个马尔科夫模型，总是存在在状态s下采取动作a并遵循一个最优的策略π*，并且在使用这个策略时就能取得最优值函数。p(s
′
|s，a)表示在每个决策点，智能体都会观察当前状态并选择动作a，然后从状态s进入一个新状态s’，具有
的转换概率。r(s，a，s
′
)表示当前状态s转换到新的状态s’之后获得的奖励。马尔科夫模型中智能体的目标是找到最优策略π*对应的状态并采取行动且遵循特定政策π，获得最大化长期奖励的预期总和。所以为最大化长期奖励值得预期总和。
[0062]
步骤3：根据步骤2中的策略选择，建立针对复杂动态环境变化的自适应模型，自适应的去掉次优解，实现调度优化。由此设计了基于深度强化学习的自适应规则调度选择器，完成复杂动态环境下的不停机调度。
[0063]
基于深度强化学习的自适应规则调度选择器包括调度规则选择调度器和作业机器对选择调度器，调度规则选择调度器的调度过程如图3所示，调度过程中使用的q网络输出是基于规则的方法，就是目标q网络的输入和输出分别是各个规则的状态和预测值。给定环境中的一个状态，由训练好的候选的目标q网络选择好一个调度规则，然后通过部署所选调度规则，将其中一个等待操作分配给可使用机器。
[0064]
本发明所考虑的生产调度问题既包含工序分配子问题，又包含机器分配子问题，即决策者在每个决策点不仅要确定一个工序选择规则，还要确定一个机器分配规则，所以使用兼顾机器选择和作业选择的复合规则。调度规则选择调度器是针对四种动态环境的变化进行调度规则的选择，设计了四种调度规则。当考虑初始状态发生变化时，选择调度规则1，不用进行重新学习。当检测到设备变化，如设备故障和某一设备负荷过大时，调换到另一可用机器上进行加工，选择调度规则2。当检测到有订单插入时，采用顺延插单的方式选择调度规则3。当环境考虑负载均衡时，使用调度规则4，提高设备利用率，降低能耗。作业机器对选择调度器的设计则兼顾在复合调度规则里。自适应规则调度选择器的具体设置情况如下：
[0065]
(1)调度规则1(最短处理时间优先原则(spt)+剩余处理时间最短优先原则(lwr)的结合)
[0066]
调度规则选择调度器：不需要考虑设备变化，订单插入，而是考虑初始状态的变化来决定先生产什么后生产什么。调度规则1为最短处理时间优先原则(spt)+剩余处理时间最短优先原则(lwr)的结合。这里的意思是调度规则1是采用的这两种方法的结合，调度规则同时包含了规则选择调度器和作业机器对选择调度器在里面，(调度规则选择调度器的意思是说当考虑不同的环境动态变化和需求变化时所选择的训练规则，初始状态变化时选择调度规则1，这种情况下学习过程中就不用训练调度规则234，选定了调度规则1之后就要在调度规则1的使用中来完成作业和机器的匹配，“将工件剩余加工时间最小的工件分配给机器”、“优先选择下一道工序加工时间最小的工件”分别对应于调度规则1中的spt和lwr，所以作业机器对选择调度器的机器分配是根据调度规则来进行分配的。
[0067]
作业机器对选择调度器：当前无工件延迟的情况下，首先将工件剩余加工时间最小的工件分配给机器，当存在多个剩余加工时间最小的工件时，优先选择下一道工序加工时间最小的工件，分配给加工工序的完工时间最小的机器。工件有延迟的情况下，选择最大延误率的工件，分配给加工工序完工时间最小的机器。
[0068]
(2)调度规则2(使用最早交货期优先(edd)和工件剩余加工时间最短优先原则(sprt)的结合)
[0069]
调度规则选择调度器：检测到设备变化时选择调度规则2，当设备负荷过大，换到
另一个可用机器。
[0070]
作业机器对选择调度器：当前不存在工件延迟的情况下，选择未完成率和空闲时间的乘积最小的下一个操作，工序分配设备负荷最小的机器。当工件有延迟的情况下，优先选择交货期与估计迟到时间的乘积最小的工件进行加工，然后分配给设备负荷最小的机器。
[0071]
(3)调度规则3(使用最小工序临界比优先原则(cr)和剩余处理时间最短优先原则(lwr)的结合)
[0072]
调度规则选择调度器：考虑订单插入，选择调度规则3，使用顺延插单的方式进行插入。
[0073]
作业机器对选择调度器：当前不存在工件延迟的情况下，选择最短剩余处理时间的工件，将工序分配给最早可用的机器。当工件有延迟的情况下，优先选择工序临界比最小的工件进行加工，然后将工序分配给最早可用的机器。
[0074]
(4)调度规则4(使用最短处理时间优先原则(spt)和先进先出原则(fifo)的结合)
[0075]
调度规则选择调度器：环境中考虑负载均衡时，为了提高设备利用率和降低能耗，使得最后的能耗成本低，选择调度规则4。
[0076]
作业机器对选择调度器：当前不存在工件延迟的情况下，选择最短剩余处理时间的工件，将工件分配给设备利用率最低的机器。当工件有延迟的情况下，随机选取工序进行加工，然后以0.5的概率(即以一半的概率进行分配，减少随机性带来的误差)将工件分配给设备利用率最低的机器。
[0077]
本发明实施例提供的一种智能产线自适应动态调度策略选择方法，通过仿真模型，缩小模型表达与实际问题之间的差距，仿真和深度强化学习的结合，将大量训练时间放在离线，动态事件到来时可以自适应地快速做出调整，辅助提高生产车间调度效率。
[0078]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李方浦钰张平
技术所有人：华南理工大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。