本发明属于生产调度领域,具体的说是一种考虑前视距离的相容工件族的优化控制方法。
背景技术:
随着科学技术的发展,生产规模逐步扩大,复杂性也越来越高,因此对生产过程的管理、监控和决策的要求有所提高。生产调度是将优先的资源分配给在一定时间内的不同任务的决策过程,它需要在满足各种系统约束的条件下使某个或某些性能指标最优。生产调度作为现代化生产作业中的核心内容,对提高生产效率、提高生产资源的利用率、降低生产成本等具有重要的作用,因此生产调度在现实生产环境中有着广泛应用,如半导体芯片制造系统,钢铁生产,带托盘的车床加工等。
传统的调度方法都是针对确定性问题,即把生产过程中的很多因素(如工件的到达时间,加工时间等)都当成确定已知的来考虑,并基于此来制定调度方案。由于实际生产中含有很多随机性的不确定因素,因此随机调度问题在近年来受到了广泛的关注,相容工件族的随机调度是其中很重要的一类。但是在现有的对随机调度问题进行优化控制的方法中,如一些启发式规则和元启发式规则,较少考虑到未来工件到达信息,不能针对未来工件的到达情况对调度方案做出及时调整,因此还存在着浪费生产资源,生产率不够高的缺点。
技术实现要素:
本发明是为解决上述现有技术存在的不足之处,提出一种考虑前视距离的相容工件族的优化控制方法,以期能在对相容工件族优化控制时考虑未来工件到达信息,从而能提高生产系统的生产效率以及降低生产过程中的工件流失率。
本发明为解决技术问题采用如下技术方案:
本发明一种考虑前视距离的相容工件族的优化控制方法的特点是,所述优化控制方法是应用于由传送带上传送的m种工件、自动捡取装置、m个缓冲库、容量为k的批处理机和红外线感知器所构成的单机生产系统中;所述m种工件分别属于m个不同的工件族,并对所述的m个工件族按加工率降序排序;任意第m个缓冲库的容量记为nm,并用于存储属于第m个工件族的工件;假设所述第m个缓冲库中存储的工件数为nm,nm∈[0,nm];由m个缓冲库中存储的工件个数构成所述单机生产系统的联合状态s=(n1,n2,…,nm,…,nm);m≥2;
所述红外线感知器设置在传送带的末端,以所述红外线感知器所在的位置为起点,并以朝向传送带的一段传送距离作为前视距离
定义选择加工工件族动作为
由所述前视距离
定义决策时刻为批处理机为空闲状态且有工件到达缓冲库,或批处理机完成加工的时刻;
所述优化控制方法是按如下步骤进行:
步骤1、定义变量k,并初始化k=1;定义初始决策时刻为第k-1个决策时刻;
定义q值表中的元素为状态-动作对值,并初始化初始决策时刻的q值表;
步骤2、利用强化学习算法得到最优q值表;
步骤2.1、定义计数器为g,并初始化g=1;定义最大学习次数为g;定义贪心概率ε;
步骤2.2、在第k-1个决策时刻,系统的联合状态为
产生一个随机数,若所述随机数属于(0,ε),则执行所述最优动作,若所述随机数属于(ε,1),则执行所述其他动作,从而得到第k-1个决策时刻转移到第k个决策时刻转移样本轨道
步骤2.3、利用式(1)计算第k-1个决策时刻转移到第k个决策时刻过程中的即时代价rk-1,k:
式(1)中,
步骤2.4、利用式(2)对第k-1个决策时刻的状态-动作对值
式(2)中,α为学习步长;dk-1表示差分公式,并有:
式(3)中,v表示所述动作空间d中的任一动作;
步骤2.5、判断g>g是否成立,若成立,表示学习结束,并得到最优q值表;否则,令k+1赋值给k后,返回步骤2.2;
步骤3、在第k+g个决策时刻,系统的联合状态
步骤4、判断第k+g个决策时刻的前视距离
步骤5、令k+g+1赋值给k+g,并返回步骤3。
与现有技术相比,本发明的有益效果在于:
1.本发明用于加工相容工件族的单机生产系统中,通过控制前视距离来平衡工件的到达过程和工件的加工过程,而且还能通过选择加工工件族动作决定批处理机所加工的批的包含工件情况,以最小化工件的存储代价和加工过程中的工件流失代价为优化目标,通过红外感知器获取未来工件到达信息,以系统中各个缓冲库中工件个数为联合状态,红外感知器的前视距离和加工工件族动作为联合动作,采用强化学习算法实现了对加工相容工件族的单机生产系统的优化控制,从而有效地提高了生产效率,降低了工件的流失率,降低了库存以及缩短了产品的制造周期。
2.本发明通过红外感知器获取未来工件到达信息,避免了因为不考虑未来工件到达而带来的误加工或者误等待,从而产生了不必要的库存以及延长产品的制造周期。因此,本发明能够有效地平衡生产中的加工和等待过程。
3.本发明针对的是生产过程中生产信息为随机的不确定因素,工件随机到达,批处理机加工完一批工件的时间也是随机的,每个决策时刻,根据系统的实时状态选择相应的动作。因此,该发明相比以往的方法更贴近现实生产环境。
4.本发明采用强化学习算法,不需要模型的具体参数,只需根据生产系统的实际生产过程进行在线学习,从而有效地实现了优化控制。
附图说明
图1为本发明方法流程图;
图2为本发明在线生产系统的示意图。
具体实施方式
本实施例中,一种考虑前视距离的相容工件族的优化控制方法,应用于如图2所示的由传送带上传送的m种工件1、自动捡取装置2、m个缓冲库3、容量为k的批处理机4和红外线感知器5所构成的单机生产系统中;生产系统中m种工件2沿着传送带随机到达,当有工件到达捡取线时,自动捡取装置2将该工件捡取放入3中相应缓冲库,该捡取过程的时间不考虑。m种工件分别属于m个不同的相容工件族,并对这m个工件族按加工率降序排序,相容工件族是指属于不同族的工件能在同一批中进行加工;任意第m个缓冲库的容量记为nm,并用于存储属于第m个工件族的工件;假设第m个缓冲库中存储的工件数为nm,nm∈[0,nm];由m个缓冲库中存储的工件个数构成该单机生产系统的联合状态s=(n1,n2,…,nm,…,nm);m≥2;所有可取的状态构成了状态空间,系统总的状态数为a。容量为k的批处理机4表示该处理机能够同时加工上限为k个的工件,且属于每个族的工件都只占用一个单位容量,批处理机4加工完一批工件的时间是随机的。
红外线感知器5设置在传送带的末端,以红外线感知器5所在的位置为起点,并以朝向传送带的一段传送距离作为前视距离
定义选择加工工件族动作为
由前视距离
定义决策时刻为批处理机4为空闲状态且有工件到达缓冲库,或批处理机4完成加工的时刻;
因此这种考虑前视距离的相容工件族的优化控制方法,如图1所示,是按如下步骤进行:
步骤1、定义变量k,并定义初始决策时刻为第k-1个决策时刻;
定义q值表中的元素为状态-动作对值,即以系统的状态为q值表的行,以系统的动作为q值表的列,
步骤2、利用强化学习算法得到最优q值表;
步骤2.1、定义计数器为g,并初始化g=1;定义最大学习次数为g;定义贪心概率ε;
步骤2.2、在第k-1个决策时刻,系统的联合状态为
产生一个随机数,若随机数属于(0,ε),则执行最优动作,若随机数属于(ε,1),则执行其他动作,从而得到第k-1个决策时刻转移到第k个决策时刻转移样本轨道
步骤2.3、利用式(1)计算第k-1个决策时刻转移到第k个决策时刻过程中的即时代价rk-1,k:
式(1)中,
步骤2.4、利用式(2)对第k-1个决策时刻的状态-动作对值
式(2)中,α为学习步长,一般取0<α<1保证算法的收敛性;dk-1表示差分公式,并有:
式(3)中,v表示动作空间d中的任一动作;
步骤2.5、判断g>g是否成立,若成立,表示学习结束,并得到最优q值表;否则,令k+1赋值给k后,返回步骤2.2。
步骤3、在第k+g个决策时刻,通过传感器等设备获得缓冲库3中各个缓冲库的工件个数,获得联合状态
步骤4、通过红外感知器5前视并判断第k+g个决策时刻的前视距离
步骤5、令k+g+1赋值给k+g,并返回步骤3。