基于神经网络的非置换流水车间调度方法以及装置

文档序号:36005636发布日期:2023-11-16 20:57阅读:55来源:国知局
基于神经网络的非置换流水车间调度方法以及装置

本发明涉及智能决策,尤其涉及基于神经网络的非置换流水车间调度方法以及装置。


背景技术:

1、生产调度是智能制造中一个重要环节。在调度问题中,非置换流水车间调度(non-permutation flowshop scheduling,npfs)是传统的置换流水车间调度(permutationflowshop scheduling,pfs)的一个推广,它允许在不同机器上更改工件顺序。非置换流水车间调度问题的可行解规模相对于置换流水车间调度问题大很多,获得高质量调度方案的挑战更大,因此对该问题的研究具有更大的理论意义和应用价值。由于其在现代制造业中的广泛应用,npfs(非置换流水车间调度)问题被证明是多项式复杂程度的非确定性(non-deterministic polynomial,np)问题。

2、目前,精确算法、启发式算法以及元启发式算法是求解流水车间问题的经典算法。精确算法包括数学建模,分支定界法,能获得小规模问题的最优解。但在实际车间调度问题中,若生产规模较大,使用精确求解很难保证最优解。精确算法是指通过枚举所有可行解求解小规模调度问题并获得精确解的一类方法。曾有研究者提出了一个混合整数规划模型,以最小化总提前和延迟。然而,当我们需要解决较大规模的npfs问题时,精确的方法不能总是保证最优解,并且对问题的规模和参数有较高的依赖性,通用性比较差。因此,开发了近似方法来近似解决这类问题。近似方法包括启发式算法和元启发式算法等。

3、启发式算法是一种基于经验和直觉的搜索算法,可以用于解决复杂的优化问题,包含了npfs这种np难问题。它通常是通过一些简单的规则来指导搜索,以使搜索更加高效。这些规则可能基于问题的特性或先前的经验,例如领域知识或以前的搜索结果。这类算法求解效率高,但求解质量一般。

4、元启发式算法则是指一类更高级别的启发式算法,它们通过自适应、学习和演化等方法,能够自动地设计出更加有效的启发式算法。元启发式算法通常包含了多个子算法,并在不同的问题领域中进行交叉和变异,从而生成更加适应性强的启发式算法。尽管元启发式算法是一种能够在可接受的时间内解决np难度问题的算法,但这类方法的求解npfs问题的过程很复杂。对于大规模实际调度问题,元启发式算法虽然能在较短的时间获得近似最优解,但存在计算过于复杂等问题。

5、上述传统的精确算法和元启发式算法在对大规模问题求解都有自己的局限性,使得求解过程较为复杂,进而使得求解的质量较差,通用性较差。


技术实现思路

1、本发明提供一种基于神经网络的非置换流水车间调度方法以及装置,可以降低实现基于神经网络的非置换流水车间调度问题的难度,提高实用性。

2、为实现上述目的,本发明提供的一种基于神经网络的非置换流水车间调度方法,包括:

3、获取历史流水车间调度问题数据,并根据预设的析取图转化关系,将所述历史流水车间问题数据转化为初始析取图;

4、记录所述初始析取图中各节点,并根据所述各节点利用预设的模型框架进行决策建模,得到初始决策模型;

5、利用预设的图神经网络模型对所述初始析取图中每个节点进行特征提取和特征嵌入,并利用预设的强化学习算法训练所述预设的图神经网络模型,训练完成后得到标准图神经网络模型;

6、利用所述标准图神经网络优化所述初始决策模型,得到目标决策模型;

7、利用所述目标决策模型对待解决流水车间调度问题数据进行调度分析,得到调度结果。

8、可选地,所述根据预设的析取图转化关系,将所述历史流水车间问题数据转化为析取图,包括:

9、提取所述历史流水车间问题数据的调度元素,并利用所述调度元素中的工件元素构建析取图节点,并对不同工件对应的析取图节点分配不同颜色;

10、利用第一颜色的有向连接线连接所述析取图节点,表示所述调度元素中固定工件在每个机器上的先后加工顺序,得到第一连线图;

11、利用第二颜色的有向连接线连接在同一个机器下加工的相同颜色的工件,得到第二连线图;

12、整合所述第一连线图和所述第二连线图,得到所述析取图。

13、可选地,所述根据所述各节点利用预设的模型框架进行决策建模,得到初始决策模型,包括:

14、将所述初始析取图从起始节点开始的下一任意节点的状态作为初始状态;

15、将工件在所述初始状态下的下一个决策动作作为当前可选择动作;

16、分别计算所述初始状态产生的最大预估完成时间和下一状态所产生的最大预估完成时间的差值,并将所述差值作为奖励;

17、利用所述奖励优化所述当前可选择动作,得到最优调度状态;

18、将所述最优调度状态产生的下一次调度作为更新动作,并利用所述更新动作更新所述初始析取图;

19、循环上述步骤,并将所述更新后的所述初始析取图的当前时刻的状态作为更新状态,整合更新后的所述初始析取图得到调度决策模型。

20、可选地,所述利用预设的图神经网络模型对所述初始决策模型中每个节点进行特征提取和特征嵌入,包括:

21、将所述初始决策模型中各节点转化为三维原始特征;

22、利用图同构网络模型将所述三维原始特征转化为特征向量;

23、将所述特征向量映射至所述图神经网络模型中。

24、可选地,所述利用图同构网络模型将所述三维原始特征转化为特征向量,包括:

25、迭代计算所述三维原始特征的特征嵌入,并进行批量归一化,得到归一化三维特征;

26、将所述归一化三维特征利用预设的池函数进行池化处理,得到所述特征向量。

27、可选地,所述迭代计算所述三维原始特征的特征嵌入,包括:

28、采用下述公式迭代计算所述三维原始特征的特征嵌入:

29、

30、其中,k为迭代次数,hv(k)是迭代k次节点v的特征嵌入,是多层感知器,迭代次数k的参数为θk,ε(k)是可学习的任意数,n(v)是v的邻域。

31、可选地,所述利用预设的强化学习算法训练所述预设的图神经网络模型,包括:

32、获取所述图神经网络模型的调度信息,并将所述调度信息输入至预设的强化学习算法的actor新网络中,并构建当前状态数据下每个执行动作的正态分布;

33、从所述正态分布中筛选出一个执行动作,再输入至所述图神经网络模型中,得到当前状态数据下的奖励标量值和下一状态数据;

34、将所述下一状态数据输入至所述actor新网络中,并循环获取奖励标量值和下一状态数据,直到获取到预设数量的调度信息、奖励标量值以及下一执行动作;

35、将所述循环获取到的最后一步得到的下一状态数据输入至所述预设的强化学习算法的critic网络中,得到当前状态数据的状态值函数;

36、根据所述状态值函数计算奖励标量值折扣函数,直到整个调度过程结束,并根据预设的强化学习算法中的第一损失函数反向传播更新所述critic网络;

37、将获取到的所述预设数量的调度信息分别输入至actor旧网络和actor新网络中,得到第一正态分布以及第二正态分布;

38、将获取到的所述预设数量的下一执行动作分别输入至第一正态分布以及第二正态分布中,得到第一概率值和第二概率值;

39、根据所述第一概率值和所述第二概率值计算相对变化速率;

40、根据所述相对变化速率,利用第二损失函数更新所述actor新网络;

41、将所述critic网络以及所述actor新网络的更新过程迭代训练k次,得到所述标准图神经网络模型模型。

42、为了解决上述问题,本发明还提供一种基于神经网络的非置换流水车间调度装置,所述装置包括:

43、析取图转化模块,用于获取历史流水车间调度问题数据,并根据预设的析取图转化关系,将所述历史流水车间问题数据转化为初始析取图;

44、目标决策模型建立模块,用于记录所述初始析取图中各节点,并根据所述各节点利用预设的模型框架进行决策建模,得到初始决策模型;利用预设的图神经网络模型对所述初始析取图中每个节点进行特征提取和特征嵌入,并利用预设的强化学习算法训练所述预设的图神经网络模型,得到标准图神经网络模型;利用所述标准图神经网络模型优化所述初始决策模型,得到目标决策模型。

45、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

46、至少一个处理器;以及,

47、与所述至少一个处理器通信连接的存储器;其中,

48、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于神经网络的非置换流水车间调度方法。

49、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于神经网络的非置换流水车间调度方法。

50、本发明实施例通过将历史流水车间问题数据转化为析取图,将文字特征转化为图像特征,可以简化流水车间问题数据的难度,将初始析取图各节点转化为图神经网络的特征嵌入,可以通过图神经网络做出初始决策模型的优化,进而做出析取图的决策优化,实现流水车间调度问题的调度决策,其中,利用测试数据对优化调度模型进行测试,可以测试出优化调度模型的性能,确保模型的泛化能力。本发明可以降低实现基于神经网络的非置换流水车间调度问题的难度,提高实用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1