一种考虑前视距离的相容工件族的优化控制方法与流程

文档序号:11589266阅读:254来源:国知局

本发明属于生产调度领域,具体的说是一种考虑前视距离的相容工件族的优化控制方法。



背景技术:

随着科学技术的发展,生产规模逐步扩大,复杂性也越来越高,因此对生产过程的管理、监控和决策的要求有所提高。生产调度是将优先的资源分配给在一定时间内的不同任务的决策过程,它需要在满足各种系统约束的条件下使某个或某些性能指标最优。生产调度作为现代化生产作业中的核心内容,对提高生产效率、提高生产资源的利用率、降低生产成本等具有重要的作用,因此生产调度在现实生产环境中有着广泛应用,如半导体芯片制造系统,钢铁生产,带托盘的车床加工等。

传统的调度方法都是针对确定性问题,即把生产过程中的很多因素(如工件的到达时间,加工时间等)都当成确定已知的来考虑,并基于此来制定调度方案。由于实际生产中含有很多随机性的不确定因素,因此随机调度问题在近年来受到了广泛的关注,相容工件族的随机调度是其中很重要的一类。但是在现有的对随机调度问题进行优化控制的方法中,如一些启发式规则和元启发式规则,较少考虑到未来工件到达信息,不能针对未来工件的到达情况对调度方案做出及时调整,因此还存在着浪费生产资源,生产率不够高的缺点。



技术实现要素:

本发明是为解决上述现有技术存在的不足之处,提出一种考虑前视距离的相容工件族的优化控制方法,以期能在对相容工件族优化控制时考虑未来工件到达信息,从而能提高生产系统的生产效率以及降低生产过程中的工件流失率。

本发明为解决技术问题采用如下技术方案:

本发明一种考虑前视距离的相容工件族的优化控制方法的特点是,所述优化控制方法是应用于由传送带上传送的m种工件、自动捡取装置、m个缓冲库、容量为k的批处理机和红外线感知器所构成的单机生产系统中;所述m种工件分别属于m个不同的工件族,并对所述的m个工件族按加工率降序排序;任意第m个缓冲库的容量记为nm,并用于存储属于第m个工件族的工件;假设所述第m个缓冲库中存储的工件数为nm,nm∈[0,nm];由m个缓冲库中存储的工件个数构成所述单机生产系统的联合状态s=(n1,n2,…,nm,…,nm);m≥2;

所述红外线感知器设置在传送带的末端,以所述红外线感知器所在的位置为起点,并以朝向传送带的一段传送距离作为前视距离lmax表示最大前视距离;

定义选择加工工件族动作为pm表示所述批处理机加工由前m个工件族所构成的批;

由所述前视距离和选择加工工件族动作构成的联合动作且vs∈d=d1×d2;d表示所述单机生产系统的动作空间;

定义决策时刻为批处理机为空闲状态且有工件到达缓冲库,或批处理机完成加工的时刻;

所述优化控制方法是按如下步骤进行:

步骤1、定义变量k,并初始化k=1;定义初始决策时刻为第k-1个决策时刻;

定义q值表中的元素为状态-动作对值,并初始化初始决策时刻的q值表;

步骤2、利用强化学习算法得到最优q值表;

步骤2.1、定义计数器为g,并初始化g=1;定义最大学习次数为g;定义贪心概率ε;

步骤2.2、在第k-1个决策时刻,系统的联合状态为根据ε-贪心算法选择动作:以贪心概率ε选择当前q值表中状态sk-1对应的最优动作,以1-ε的概率随机选择动作空间d中的其他动作;

产生一个随机数,若所述随机数属于(0,ε),则执行所述最优动作,若所述随机数属于(ε,1),则执行所述其他动作,从而得到第k-1个决策时刻转移到第k个决策时刻转移样本轨道其中,δk为第k-1个决策时刻与第k个决策时刻的时间间隔,为第k-1个决策时刻转移到第k个决策时刻的过程中第w个工件到达相应的缓存库后的时刻与第k个决策时刻之间的存储时间,lk表示第k-1个决策时刻转移到第k个决策时刻过程中传送带上流失工件数的流失代价;

步骤2.3、利用式(1)计算第k-1个决策时刻转移到第k个决策时刻过程中的即时代价rk-1,k:

式(1)中,为第k-1个决策时刻转移到第k个决策时刻过程中,缓冲库内所有工件的存储代价;为第k-1个决策时刻转移到第k个决策时刻过程中,到达缓冲库工件的累计存储代价;β表示所述流失代价lk的权重;

步骤2.4、利用式(2)对第k-1个决策时刻的状态-动作对值进行更新,并令g+1赋值给g:

式(2)中,α为学习步长;dk-1表示差分公式,并有:

式(3)中,v表示所述动作空间d中的任一动作;

步骤2.5、判断g>g是否成立,若成立,表示学习结束,并得到最优q值表;否则,令k+1赋值给k后,返回步骤2.2;

步骤3、在第k+g个决策时刻,系统的联合状态若所有缓冲库为空,则等待下个工件到达并存入相应缓冲库中,否则,根据所述状态sk+g查找所述最优q值表,从而选择相应的前视距离和选择加工工件族动作

步骤4、判断第k+g个决策时刻的前视距离内是否有工件,若有工件,则等待相应工件到达并存入对应的缓冲库中,否则,根据第k+g个决策时刻的选择加工工件族动作选择相应的批送入批处理机中进行加工,并等待加工完成;

步骤5、令k+g+1赋值给k+g,并返回步骤3。

与现有技术相比,本发明的有益效果在于:

1.本发明用于加工相容工件族的单机生产系统中,通过控制前视距离来平衡工件的到达过程和工件的加工过程,而且还能通过选择加工工件族动作决定批处理机所加工的批的包含工件情况,以最小化工件的存储代价和加工过程中的工件流失代价为优化目标,通过红外感知器获取未来工件到达信息,以系统中各个缓冲库中工件个数为联合状态,红外感知器的前视距离和加工工件族动作为联合动作,采用强化学习算法实现了对加工相容工件族的单机生产系统的优化控制,从而有效地提高了生产效率,降低了工件的流失率,降低了库存以及缩短了产品的制造周期。

2.本发明通过红外感知器获取未来工件到达信息,避免了因为不考虑未来工件到达而带来的误加工或者误等待,从而产生了不必要的库存以及延长产品的制造周期。因此,本发明能够有效地平衡生产中的加工和等待过程。

3.本发明针对的是生产过程中生产信息为随机的不确定因素,工件随机到达,批处理机加工完一批工件的时间也是随机的,每个决策时刻,根据系统的实时状态选择相应的动作。因此,该发明相比以往的方法更贴近现实生产环境。

4.本发明采用强化学习算法,不需要模型的具体参数,只需根据生产系统的实际生产过程进行在线学习,从而有效地实现了优化控制。

附图说明

图1为本发明方法流程图;

图2为本发明在线生产系统的示意图。

具体实施方式

本实施例中,一种考虑前视距离的相容工件族的优化控制方法,应用于如图2所示的由传送带上传送的m种工件1、自动捡取装置2、m个缓冲库3、容量为k的批处理机4和红外线感知器5所构成的单机生产系统中;生产系统中m种工件2沿着传送带随机到达,当有工件到达捡取线时,自动捡取装置2将该工件捡取放入3中相应缓冲库,该捡取过程的时间不考虑。m种工件分别属于m个不同的相容工件族,并对这m个工件族按加工率降序排序,相容工件族是指属于不同族的工件能在同一批中进行加工;任意第m个缓冲库的容量记为nm,并用于存储属于第m个工件族的工件;假设第m个缓冲库中存储的工件数为nm,nm∈[0,nm];由m个缓冲库中存储的工件个数构成该单机生产系统的联合状态s=(n1,n2,…,nm,…,nm);m≥2;所有可取的状态构成了状态空间,系统总的状态数为a。容量为k的批处理机4表示该处理机能够同时加工上限为k个的工件,且属于每个族的工件都只占用一个单位容量,批处理机4加工完一批工件的时间是随机的。

红外线感知器5设置在传送带的末端,以红外线感知器5所在的位置为起点,并以朝向传送带的一段传送距离作为前视距离lmax表示最大前视距离,用一个较小的数δ来离散化[0,lmax],得到{0,δ,2δ,…,lmax-δ,lmax};图2中7为最大前视点即最大前视距离对应的点。∞表示红外线感知器5前视无穷远。∞用于系统在实际运行中存在的一种特殊工作状态:当所有缓冲库3都为空时,只能等待有工件到达并放入缓冲库3中。

定义选择加工工件族动作为pm表示批处理机4加工由前m个工件族所构成的批;该批中属于这m个工件族的工件个数由低加工率优先加工规则决定,具体见文献《controlofabatchprocessingmachineservingcompatiblejobfamilies》。确定加工的工件后,通过自动捡取装置2将这些工件从缓冲库3中捡取并放入批处理机4中进行加工,同样不考虑该捡取过程的时间。系统在实际运行中还存在一种特殊工作状态:当缓冲库3不全为空,且空缓冲库中最小的序号为i,这些状态下d2={p1,p2,…,pi-1}。

由前视距离和选择加工工件族动作构成的联合动作且vs∈d=d1×d2;d表示该单机生产系统的动作空间;d中总的动作数为b;

定义决策时刻为批处理机4为空闲状态且有工件到达缓冲库,或批处理机4完成加工的时刻;

因此这种考虑前视距离的相容工件族的优化控制方法,如图1所示,是按如下步骤进行:

步骤1、定义变量k,并定义初始决策时刻为第k-1个决策时刻;

定义q值表中的元素为状态-动作对值,即以系统的状态为q值表的行,以系统的动作为q值表的列,表中s1表示的是状态空间中第一个状态(0,0,…,0,…,0),sa为状态空间中最后一个状态(n1,n2,…,nm,…,nm),v1表示的是动作空间中第一个动作(0,p1),vb为动作空间中最后一个动作(∞,pm);初始化初始决策时刻的q值表,表中除了状态(0,0,…,0,…,0)行,动作列,以及状态动作列,对应的q值表元素为“inf”外,q值表中其他的元素均为“0”;其中,若q(sa,vb)为“inf”表示的是在状态sa下,动作vb不可取的。

步骤2、利用强化学习算法得到最优q值表;

步骤2.1、定义计数器为g,并初始化g=1;定义最大学习次数为g;定义贪心概率ε;

步骤2.2、在第k-1个决策时刻,系统的联合状态为根据ε-贪心算法选择动作:以ε的概率选择当前q值表中状态sk-1对应的最优动作,即选择q值表中状态sk-1行下最小q值所对应的动作,以1-ε概率随机选择动作空间d中的其他动作。

产生一个随机数,若随机数属于(0,ε),则执行最优动作,若随机数属于(ε,1),则执行其他动作,从而得到第k-1个决策时刻转移到第k个决策时刻转移样本轨道其中,δk为第k-1个决策时刻与第k个决策时刻的时间间隔,为第k-1个决策时刻转移到第k个决策时刻的过程中第w个工件到达相应的缓存库后的时刻与第k个决策时刻之间的存储时间,lk表示第k-1个决策时刻转移到第k个决策时刻过程中传送带上流失工件数的流失代价;

步骤2.3、利用式(1)计算第k-1个决策时刻转移到第k个决策时刻过程中的即时代价rk-1,k:

式(1)中,为第k-1个决策时刻转移到第k个决策时刻过程中,缓冲库内所有工件的存储代价;为第k-1个决策时刻转移到第k个决策时刻过程中,到达缓冲库工件的累计存储代价;β表示流失代价lk的权重,通过调整β可以协调对存储代价和流失代价这两个目标的重视程度;

步骤2.4、利用式(2)对第k-1个决策时刻的状态-动作对值进行更新,并令g+1赋值给g:

式(2)中,α为学习步长,一般取0<α<1保证算法的收敛性;dk-1表示差分公式,并有:

式(3)中,v表示动作空间d中的任一动作;

步骤2.5、判断g>g是否成立,若成立,表示学习结束,并得到最优q值表;否则,令k+1赋值给k后,返回步骤2.2。

步骤3、在第k+g个决策时刻,通过传感器等设备获得缓冲库3中各个缓冲库的工件个数,获得联合状态若此时即所有缓冲库为空,只需等待下个工件到达捡取线6,由自动捡取装置2捡取该工件并存入缓冲库中,否则,根据状态sk+g,查找步骤2所得最优q值表,从而选择相应的前视距离和选择加工工件族动作

步骤4、通过红外感知器5前视并判断第k+g个决策时刻的前视距离内是否有工件,若有工件,则等待相应工件到达捡取线6,由自动捡取装置2捡取该工件并存入对应的缓冲库中,否则,根据第k+g个决策时刻的选择加工工件族动作由自动捡取装置2从缓冲库3中捡取工件送入批处理机4中进行加工,并等待加工完成;

步骤5、令k+g+1赋值给k+g,并返回步骤3。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1