一种基于D3QN和时间状态的智能车间实时调度方法及系统

文档序号:37158244发布日期:2024-02-26 17:23阅读:14来源:国知局
一种基于D3QN和时间状态的智能车间实时调度方法及系统

本发明涉及车间调度的,更具体地,涉及一种基于d3qn和时间状态的智能车间实时调度方法及系统。


背景技术:

1、随着强化学习算法和深度神经网络技术的发展,深度强化学习算法被广泛应用于智能车间的实时调度方法中,在当前将dqn(deep q networks)算法和d3qn(duelingdouble deep q network)算法分别应用于智能车间的实时调度方法中,dqn和d3qn都是深度增强学习算法,都采用神经网络来学习q值函数;q值函数是一个将状态和行动映射到q值的函数,表示执行某行动在特定状态下获得的预期回报,且q值函数是使用深度神经网络进行建模的。

2、将dqn或d3qn应用于智能车间的实时调度方法的具体做法为:基于从智能车间的制品物料订单下发至制品加工完毕的包括车间物料订单下放、车间工件工艺排产和车间完工结果的生产过程中,采集包括车间内“人、机、物、法、环”各类资源信息变化的作业数据,利用dqn或d3qn对网络模型进行训练,使网络模型拟合最优策略,即可匹配当下的状态并快速得出最优决策,进而利用最优决策对智能车间进行择优排产,达到提高智能车间的实时调度的调度效率的目的;而且网络模型可以不断进行自我学习提升求解性能,得出更好的最优策略;

3、现有技术提出了一种动态调度方法及系统,首先获取智能车间的当前调度析取图、agv当前位置信息及预设状态特征的当前状态特征值;将所述当前调度析取图、agv当前位置信息及预设状态特征的当前状态特征值输入到基于改进型dqn网络预先建立的调度模型中,输出调度规则;执行所述调度规则,并更新执行所述调度规则之后的下一步调度析取图、agv下一步位置信息及预设状态特征下一步状态特征值;将更新后的下一步调度析取图、agv下一步位置信息及预设状态特征下一步状态特征值重新输入至所述预先建立的调度模型中,迭代输出并执行新的调度规则,直至所述待处理工件处理完成。该方法仅考虑智能车间的当前状态,没有综合考虑智能车间的当前状态和历史状态,对历史状态没有有效利用,导致得出的最优策略并不是实际上的最优策略,从而导致智能车间的调度效率较低。


技术实现思路

1、本发明为克服上述现有技术所述的没有考虑智能车间的历史状态导致智能车间的调度效率较低的缺陷,提供一种综合考虑智能车间的当前状态和历史状态,能够有效提高智能车间的调度效率的基于d3qn和时间状态的智能车间实时调度方法及系统。

2、为解决上述技术问题,本发明的技术方案如下:

3、一种基于d3qn和时间状态的智能车间实时调度方法,包括以下步骤:

4、s1:采集作业数据,并按智能车间的车间资源类别,将作业数据分类处理成马尔可夫决策链数据;

5、s2:根据当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据,构建时间状态序列;

6、s3:随机抽取若干条马尔可夫决策链数据,利用随机抽取的马尔可夫决策链数据和时间状态序列,计算已构建好的基于d3qn算法的在线q网络和目标q-网络之间的损失函数;

7、s4:利用在线q网络与目标q-网络之间的损失函数更新在线q网络的参数,并在在线q网络参数更新的过程中,更新目标q-网络的参数,在所述损失函数的损失值达到收敛时,停止在线q网络参数的更新,得到已收敛的在线q网络;

8、s5:利用已收敛的在线q网络匹配智能车间的实时状态,择优排产,反复匹配智能车间的实时状态并择优排产,直至生产结束。

9、本发明还提出了一种基于d3qn和时间状态的智能车间实时调度系统用于实现上述的基于d3qn和时间状态的智能车间实时调度方法,包括:

10、作业数据采集处理模块,用于采集作业数据,并按智能车间的车间资源类别,将作业数据分类处理成马尔可夫决策链数据;

11、时间状态序列构建模块,用于根据当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据,构建时间状态序列;

12、损失函数计算模块,用于随机抽取若干条马尔可夫决策链数据,利用随机抽取的马尔可夫决策链数据和时间状态序列,计算已构建好的基于d3qn算法的在线q网络和目标q-网络之间的损失函数;

13、网络更新模块,用于利用在线q网络与目标q-网络之间的损失函数更新在线q网络的参数,并在在线q网络参数更新的过程中,更新目标q-网络的参数,在所述损失函数的损失值达到收敛时,停止在线q网络参数的更新,得到已收敛的在线q网络;

14、择优排产模块,用于利用已收敛的在线q网络匹配智能车间的实时状态,择优排产,反复匹配智能车间的实时状态并择优排产,直至生产结束。

15、与现有技术相比,本发明技术方案的有益效果是:

16、本发明利用当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据构建时间状态序列,并利用随机抽取的马尔可夫决策链数据和时间状态序列计算在线q网络与目标q-网络之间的损失函数,根据损失函数更新在线q网络的参数,得到已收敛的在线q网络,再利用已收敛的在线q网络匹配智能车间的实时状态,择优排产,综合考虑了智能车间的当前状态和历史状态,能够获取更全面的车间状态信息特征,进而有效提高智能车间的调度效率。



技术特征:

1.一种基于d3qn和时间状态的智能车间实时调度方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,将作业数据分类处理成马尔可夫决策链数据的步骤包括:

3.根据权利要求2所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,构建时间状态序列的步骤包括:

4.根据权利要求3所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,所述已构建好的基于d3qn算法的在线q网络和目标q-网络为两个结构一致的基于时间状态序列的transformer知识网络;

5.根据权利要求4所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,随机抽取若干条马尔可夫决策链数据后,按随机抽取的若干条马尔可夫决策链数据对应的时间顺序,将随机抽取的若干条马尔可夫决策链数据构建为历史时间状态序列;

6.根据权利要求5所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,所述奖励值r利用时间状态序列设置,且所述奖励值r对应的奖励函数r的表达式为:

7.根据权利要求6所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,将历史时间状态序列和状态si对应的时间状态序列输入在线q网络前,需将n-1个历史时间状态序列和状态si对应的时间状态序列转化为n个状态块,若历史时间状态序列不足n-1个,则用零矩阵代替,每个状态块作为一个token输入到在线q网络中;

8.根据权利要求6所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,利用q值与目标值y计算得到的在线q网络与目标q-网络之间的损失函数l的表达式为:

9.根据权利要求6所述的基于d3qn和时间状态的智能车间实时调度方法,其特征在于,利用已收敛的在线q网络匹配智能车间的实时状态,择优排产,反复匹配智能车间的实时状态并择优排产,直至生产结束的步骤包括:

10.一种基于d3qn和时间状态的智能车间实时调度系统,用于实现权利要求1~9任一项所述基于d3qn和时间状态的智能车间实时调度方法,其特征在于,包括:


技术总结
本发明涉及车间调度的技术领域,提出一种基于D3QN和时间状态的智能车间实时调度方法及系统,包括以下步骤:采集作业数据,按智能车间的车间资源类别,将作业数据分类处理成马尔可夫决策链数据;利用根据当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据,构建时间状态序列和随机抽取的马尔可夫决策链数据,计算已构建好的基于D3QN算法的在线Q网络和目标Q<supgt;‑</supgt;网络之间的损失函数;利用损失函数更新在线Q网络的参数,得到已收敛的在线Q网络;利用已收敛的在线Q网络匹配智能车间的实时状态,择优排产,反复匹配智能车间的实时状态并择优排产,直至生产结束。

技术研发人员:王美林,谢兴,梁凯晴,肖迪,胡士豪,李俊煜,冯伟莹
受保护的技术使用者:广东工业大学
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1