基于D3QN强化学习的面向工件流转智能车间实时调度方法

文档序号:32691770发布日期:2022-12-27 18:55阅读:24来源:国知局
基于D3QN强化学习的面向工件流转智能车间实时调度方法
基于d3qn强化学习的面向工件流转智能车间实时调度方法
技术领域
1.本发明涉及车间作业调度和人工智能算法技术领域,更具体地,涉及一种基于d3qn强化学习的面向工件流转智能车间实时调度方法。


背景技术:

2.车间实时作业调度是企业智能化,自动化的关键一环,对提升企业生产效率和经济收益具有现实意义,因此,车间作业调度问题成为时下调度领域的研究热点和难点。然而,现代制造车间普遍存在生产规模庞大,资源约束繁多等问题,迫切要求实时调度算法必须具备高质量求解性能和快速响应能力。
3.离散车间调度问题属典型的非确定性多项式难题(np-hard),现有车间调度方法多采用确定性算法或者元启发式算法进行求解,上述算法虽然在小规模离散制造问题上寻优能力显著,但在实际大规模生产场景上,此类算法对调度目标的搜索不可避免地面临解空间的组合爆炸,可能存在陷入局部最优解或者求解时间长的问题,因此该类算法难以适应实际车间的实时调度。
4.现有技术中公开了一种基于深度强化学习的流水车间调度方法,首先,将调度决策所需车间资源分类并构建多维度,可灵活扩展的资源信息矩阵,聚合得到相应的车间状态视图。其次,将车间状态作为多通道卷积神经网络模型的输入,将最大完工时间与预期生产目标的契合度作为奖励,最后,对网络模型进行训练并保存参数,使得网络拟合最优策略函数。实际问题中,车间状态可选择每个工件在其工序上的处理时间作为资源节点信息构建车间状态,并将其作为最优策略网络的输入,依次选择策略价值最优的工件排产任务,直到所有工件选择完毕得到完整的调度序列。本发明所述的流水车间调度方法在小规模问题上可以获得近优解,在大规模问题上可以获得优于启发式算法和遗传算法的较优解,但是单纯的深度学习dqn算法可能会导致过度估计,使得调度结果偏差较大。


技术实现要素:

5.本发明提供一种基于d3qn强化学习的面向工件流转智能车间实时调度方法,克服传统算法在求解当今大规模制造车间存在的易陷入局部最优解和求解时间长等问题。
6.为解决上述技术问题,本发明的技术方案如下:
7.一种基于d3qn强化学习的面向工件流转智能车间实时调度方法,包括以下步骤:
8.s1:从智能车间某次订单下放起至成品加工完毕,采集并记录本次生产过程的所有作业数据;
9.s2:将步骤s1采集的作业数据分类处理成马尔可夫决策链数据;
10.s3:将步骤s2处理完毕的马尔可夫决策链数据载入容量为c的样本数据池;
11.s4:判断样本数据池是否已蓄满,若未蓄满则重复步骤s1至s3,若蓄满则执行s5;
12.s5:构建两个结构一致的卷积神经网络作为d3qn(dueling double dqn,双层决斗网络算法)的在线q网络和目标q-网络;
13.s6:从样本数据池中随机抽取若干条马尔可夫决策链数据,训练所述在线q网络,以固定训练频率更新目标q-网络参数;
14.s7:判断当前在线q网络是否收敛,若不收敛,则返回步骤s6,若收敛,则执行s8;
15.s8:调用已收敛的在线q网络作为知识网络,匹配车间实时状态,择优排产,反复执行直至生产结束。
16.优选地,步骤s1中生产过程的所有作业数据,具体为:
17.所述生产过程的所有作业数据是在生产过程中通过多种方法采集到的多种资源类型数据,生产过程包括车间物料订单下放、车间工件工艺排产和车间完工结果,作业数据囊括了车间内“人、机、物、法、环”各类资源信息变化,具体包括物联网实时采集的生产设备的工作状态数据、待加工工件的信息数据和工件排产转移数据,也包括其它生产系统导入车间的生产订单数据、物料数据和加工工艺数据。
18.优选地,步骤s2中将步骤s1采集的作业数据分类处理成马尔可夫决策链数据,具体为:
19.按车间资源类别分类并构建多通道资源视图作为状态si,一个状态si包含所有纳入考虑的资源维度状态信息,每个资源维度状态信息以一个矩阵形式的通道状态视图表征,表达式如下:
20.si=《pm×c,mm×c,wm×c,fm×c,
……
,em×c》,i∈(0,1,2

,n-1)
21.式中,pm×c为车间人员信息矩阵,mm×c为机器设备信息矩阵,wm×c为工件物料信息矩阵,fm×c为工艺流程信息矩阵,em×c为环境信息矩阵,m
×
c表示矩阵尺寸,以车间内工件总数m为矩阵行数,加工设备总数c为矩阵列数。该建模方式可将复杂高维度的车间状态信息转化为多个低维度状态矩阵,降低了车间建模复杂度。其中,各资源维度状态矩阵可以根据生产逻辑需要灵活扩展为其它决策所用的资源类型。
22.基于车间工件在设备间的流转构建动作动作为具体某工件从某道工序设备转移至下道工序设备,以工件θh和加工设备之间的有向流转trk为表征,表达式如下:
[0023][0024]
式中,θh为h类工件,tr(o,z)k表示从o类设备转移至z类设备,g为动作编码、h为工件类别编码,k为设备之间的流转编码,各元素编码规则如下:
[0025]
g=(h
×
sum(tr))+k
[0026]
式中sum(tr)表示车间内同类设备间有向流转的总数;
[0027]
在车间状态si下工件的可转移动作集为job(si),以有限个动作为表征,表达式如下:
[0028][0029]
job是一个智能函数,可有效表达出车间状态si下工件可选择转移的方向,实际生产转移将从众多方向中选择一个执行,每刷新智能车间状态si,job(si)也将随之更新;
[0030]
根据调度目标tar和完工结果t契合程度,赋予车间在状态si下执行动作进入新状态s
i+1
相应的奖励r;
[0031]
车间从订单下放状态s0开始至完工状态sn结束,按n次调度排产顺序形成逐条马尔
可夫决策链数据
[0032]
优选地,奖励函数r为:
[0033][0034]
式中r
+
和r-分别表示正负奖励值,tar为调度目标。
[0035]
优选地,步骤s5中所述在线q网络和目标q-网络的网络结构一致,具体为:
[0036]
所述在线q网络和目标q-网络的网络结构均为多输入通道,双输出子网;
[0037]
其中,网络输入通道数与步骤s2中状态si所含资源状态视图通道总数相等,一条网络输入通道匹配输入一类车间资源信息;双输出子网包括前端和输出子网,网络的输入经前端后进入输出子网,输出子网包括价格函数网络vn和优势函数网络an,价格函数网络vn负责评估状态si的价值,优势函数网络an负责在状态s下各个动作的相对优劣,最终网络价值输出q(s,a;ω,α,β)由这两者线性组合得到:
[0038][0039]
式中ω表示双输出子网前的网络参数,a,β分别表示价格函数网络vn和优势函数网络an的参数,a表示所有动作集合,a

∈a。
[0040]
优选地,所述前端由多层网络单元组成,每层网络单元由卷积层、归一化层和激活函数组建,所述输出子网皆由全连接层搭建。
[0041]
优选地,所述前端通过平面化图层与输出子网连接,所述平面化图层将特征进行展开。
[0042]
优选地,步骤s6中从样本数据池中随机抽取若干条马尔可夫决策链数据,训练所述在线q网络,以固定训练频率更新目标q-网络参数,具体为:
[0043]
将状态si输入在线q网络估计其q值,将状态s
i+1
输入目标q-网络结合奖励值r得到目标值y,对q值与y值之间的损失函数l采用随机梯度下降,训练更新在线q网络参数,以固定训练频率f复制在线q网络参数,更新目标q-网络参数。
[0044]
优选地,q值与y值之间的损失函数l的数学表达式如下:
[0045][0046][0047]
式中,下标j为训练步长,表示均方误差计算,表示从样本数据池抽取的训练样本数据,γ为折扣因子,折扣因子越大,网络训练越注重未来状态变化。表示d3qn在线q网络评估下一状态s
i+1
的最具价值动作为am。
[0048]
优选地,步骤s8中调用已收敛的在线q网络作为知识网络,匹配车间实时状态,择优排产,反复执行直至生产结束,具体为:
[0049]
构建车间在线知识匹配机制,在该机制内调用已收敛的在线q网络作为知识网络,确定制造车间各资源信息的实时状态s,确定实时状态下的待排产任务job(s),将实时状态
s输入知识网络得到待排产动作价值,在车间选取并执行最优价值排产动作,刷新实时状态s

和任务job(s

),再次输入知识网络进行择优排产,重复执行至生产结束。
[0050]
与现有技术相比,本发明技术方案的有益效果是:
[0051]
本发明提出一种面向不同资源需求进行多通道资源视图建模方法,采用基于多通道资源视图输入的d3qn算法构建并训练知识网络模型,通过实时采集多通道资源视图状态匹配知识网络模型的推理实现智能制造车间实时调度。本发明可在无人工监督情况下进行自我学习,一旦d3qn价值网络拟合了最优策略函数,即可高效快速指导车间作业调度,提高企业生产效率。
附图说明
[0052]
图1为本发明的方法流程示意图。
[0053]
图2为实施例提供的3阶段26个设备资源节点的混流制造车间示意图。
[0054]
图3为实施例提供的制造车间状态si视图。
[0055]
图4为实施例提供的卷积神经网络结构示意图。
[0056]
图5为实施例提供的车间知识匹配机制示意图。
具体实施方式
[0057]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0058]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0059]
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0060]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0061]
实施例1
[0062]
本实施例提供一种基于d3qn强化学习的面向工件流转智能车间实时调度方法,如图1所示,包括以下步骤:
[0063]
s1:从智能车间某次订单下放起至成品加工完毕,采集并记录本次生产过程的所有作业数据;
[0064]
s2:将步骤s1采集的作业数据分类处理成马尔可夫决策链数据;
[0065]
s3:将步骤s2处理完毕的马尔可夫决策链数据载入容量为c的样本数据池;
[0066]
s4:判断样本数据池是否已蓄满,若未蓄满则重复步骤s1至s3,若蓄满则执行s5;
[0067]
s5:构建两个结构一致的卷积神经网络作为d3qn的在线q网络和目标q-网络;
[0068]
s6:从样本数据池中随机抽取若干条马尔可夫决策链数据,训练所述在线q网络,以固定训练频率更新目标q-网络参数;
[0069]
s7:判断当前在线q网络是否收敛,若不收敛,则返回步骤s6,若收敛,则执行s8;
[0070]
s8:调用已收敛的在线q网络作为知识网络,匹配车间实时状态,择优排产,反复执行直至生产结束。
[0071]
实施例2
[0072]
本实施例在实施例1的基础上,继续公开以下内容:
[0073]
步骤s1中生产过程的所有作业数据,具体为:
[0074]
所述生产过程的所有作业数据是在生产过程中通过多种方法采集到的多种资源类型数据,生产过程包括车间物料订单下放、车间工件工艺排产和车间完工结果,作业数据囊括了车间内“人、机、物、法、环”各类资源信息变化,具体包括物联网实时采集的生产设备的工作状态数据、待加工工件的信息数据和工件排产转移数据,也包括其它生产系统导入车间的生产订单数据、物料数据和加工工艺数据。
[0075]
在本实施例中,提供一个规模为三阶段共26个设备节点,订单资源包含10类加工工件的覆铜板制造车间案例,如图2所示,该示例属于混合流水调度问题(hybrid flow shop,hfs),是典型的流水车间结合同类并行设备的调度问题。
[0076]
步骤s2中将步骤s1采集的作业数据分类处理成马尔可夫决策链数据,具体为:
[0077]
按车间资源类别分类并构建多通道资源视图作为状态si,一个状态si包含所有纳入考虑的资源维度状态信息,每个资源维度状态信息以一个矩阵形式的通道状态视图表征,表达式如下:
[0078]
si=《pm×c,mm×c,wm×c,fm×c,
……
,em×c》,i∈(0,1,2

,n-1)
[0079]
式中,pm×c为车间人员信息矩阵,mm×c为机器设备信息矩阵,wm×c为工件物料信息矩阵,fm×c为工艺流程信息矩阵,em×c为环境信息矩阵,m
×
c表示矩阵尺寸,以车间内工件总数m为矩阵行数,加工设备总数c为矩阵列数;
[0080]
基于车间工件在设备间的流转构建动作动作为具体某工件从某道工序设备转移至下道工序设备,以工件θh和加工设备之间的有向流转trk为表征,表达式如下:
[0081][0082]
式中,θh为h类工件,tr(o,z)k表示从o类设备转移至z类设备,g为动作编码、h为工件类别编码,k为设备之间的流转编码,各元素编码规则如下:
[0083]
g=(h
×
sum(tr))+k
[0084]
式中sum(tr)表示车间内同类设备间有向流转的总数,本实施例存在22种有向流转,通过以上编码可以使一个动作唯一对应一类工件转移事件。此外,已知某动作编码g也可以通过逆编码得知对应工件和转移信息。例如:
[0085]
表示:编码为28的动作代表1类工件从a类设备转移至f类设备(遵循上述编码规则:1
×
22+6=28);
[0086]
在车间状态si下工件的可转移动作集为job(si),以有限个动作为表征,表达式如下:
[0087][0088]
job是一个智能函数,可有效表达出车间状态si下工件可选择转移的方向,实际生产转移将从众多方向中选择一个执行,每刷新智能车间状态si,job(si)也将随之更新;
[0089]
根据调度目标tar和完工结果t契合程度,赋予车间在状态si下执行动作进入新状态s
i+1
相应的奖励r;
[0090]
车间从订单下放状态s0开始至完工状态sn结束,按n次调度排产顺序形成逐条马尔可夫决策链数据
[0091]
奖励函数r为:
[0092][0093]
式中r
+
和r-分别表示正负奖励值,tar为调度目标,在本示例中r
+
,r-分别设置为15,-1,tar设置为150。
[0094]
在本实施例中,数据池容量c为100000条马尔可夫决策链数据
[0095]
在本实施例中,基于车间工件资源信息,设备资源信息,排产时间信息,分别构建工件位置标识矩阵(mm),工件排产时间矩阵(st),工件加工时间矩阵(mt),由这三类通道资源视图矩阵构成状态si,矩阵内数据由s1采集的信息数据进行填充,如示例图3,状态si表达式如下:
[0096]
si=《mmm×c,stm×c,mtm×c》,i∈(0,1,2

,n-1)
[0097]
式中符号m
×
c表示矩阵尺寸,以车间内工件数m为矩阵行数,同类并行设备数c为矩阵列数。本示例m,c分别为10,14,同类并行设备有如示例图2中c1,c2类设备。
[0098]
实施例3
[0099]
本实施例在实施例1和实施例2的基础上,继续公开以下内容:
[0100]
步骤s5中所述在线q网络和目标q-网络的网络结构一致,具体为:
[0101]
所述在线q网络和目标q-网络的网络结构均为多输入通道,双输出子网;
[0102]
其中,网络输入通道数与步骤s2中状态si所含资源状态视图通道总数相等,一条网络输入通道匹配输入一类车间资源信息,本实施例的网络输入通道数为3,网络结构如图4所示;双输出子网包括前端和输出子网,网络的输入经前端后进入输出子网,输出子网包括价格函数网络vn和优势函数网络an,价格函数网络vn负责评估状态si的价值,优势函数网络an负责在状态s下各个动作的相对优劣,最终网络价值输出q(s,a;ω,α,β)由这两者线性组合得到:
[0103][0104]
式中ω表示双输出子网前的网络参数,a,β分别表示价格函数网络vn和优势函数网络an的参数,a表示所有动作集合,a

∈a。
[0105]
所述前端由多层网络单元组成,每层网络单元由卷积层、归一化层和激活函数组建,所述输出子网皆由全连接层搭建。
[0106]
所述前端通过平面化图层与输出子网连接,所述平面话图层将特征进行展开。
[0107]
步骤s6中从样本数据池中随机抽取若干条马尔可夫决策链数据,训练所述在线q网络,以固定训练频率更新目标q-网络参数,具体为:
[0108]
本实施例中,从样本数据池中随机抽取k=240条马尔可夫决策链数据,将状态si输入在线q网络估计其q值,将状态s
i+1
输入目标q-网络结合奖励值r得到目标值y,对q值与y值之间的损失函数l采用随机梯度下降,训练更新在线q网络参数,以固定训练频率f复制在线q网络参数,更新目标q-网络参数。
[0109]
q值与y值之间的损失函数l的数学表达式如下:
[0110][0111][0112]
式中,下标j为训练步长,表示均方误差计算,表示从样本数据池抽取的训练样本数据,γ为折扣因子,折扣因子越大,网络训练越注重未来状态变化。表示d3qn在线q网络评估下一状态s
i+1
的最具价值动作为am。
[0113]
步骤s8中调用已收敛的在线q网络作为知识网络,匹配车间实时状态,择优排产,反复执行直至生产结束,具体为:
[0114]
构建车间在线知识匹配机制,在该机制内调用已收敛的在线q网络作为知识网络,采集制造车间内工件位置标识(mm),工件排产时间(st),工件加工时间(mt)三类资源信息组成实时状态s,确定实时状态下的待排产任务job(s),将实时状态s输入知识网络得到待排产动作价值,在车间选取并执行最优价值排产动作,刷新实时状态s

和任务job(s

),再次输入知识网络进行择优排产,重复执行至生产结束。在线知识匹配机制如图5所示,通过实时物联技术提取τ时刻下制造车间的工件位置信息(mm),排产信息(st),加工时间信息(mt),构建实时车间状态s。将s输入在线知识网络,得到同时刻车间待排产任务job(s)中各动作的价值,如图内q(s,a9),q(s,a
10
),q(s,a
31
),q(s,a
32
)。动作价值越大,执行优先级越高,故直接通过argmax函数得到此刻车间内最具价值的排产任务动作a9,即优先将工件θ0转移至h类设备。反复执行上述调度推理排产方式,直至车间生产结束,实现最终调度目标。
[0115]
相同或相似的标号对应相同或相似的部件;
[0116]
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0117]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1