一种定制家具板件自动分拣的动态调度方法

文档序号:34030732发布日期:2023-05-05 11:18阅读:48来源:国知局
一种定制家具板件自动分拣的动态调度方法

本发明涉及分拣调度,特别是一种定制家具板件自动分拣的动态调度方法。


背景技术:

1、纵观当今家具行业的发展,家具产品逐渐从非定制化走向定制化,产品种类让人应接不暇。用人力去进行家具分拣过程板件分拣变得困难且常会出现错误分拣的现象。于是,采用智能化的自动分拣系统取代人工进行板件的分拣变成了家具板件分拣过程的一个趋势。自动分拣系统对板件的分拣过程一般为:板件到达自动分拣系统后入库暂存,同一订单板件入库完毕后开始进行板件的分拣出库,通常出库后会经过合流移载到达打包区进行打包作业。

2、但是在定制家具板件的分拣中,由于定制家具受前序生产环节不确定因素影响,同一订单中不同的板件到达自动分拣系统的时间具有不确定性,使用现有的算法对于模型系统进行控制容易造成工序步骤堵塞,从而影响自动分拣系统的操作中调度的流畅性以及减低分拣效率。


技术实现思路

1、针对上述缺陷,本发明的目的在于提出种定制家具板件自动分拣的动态调度方法。

2、为达此目的,本发明采用以下技术方案:一种定制家具板件自动分拣的动态调度方法,包括以下步骤:

3、步骤s1:结合分拣车间中的生产工序,构建出车间分拣的目标函数;

4、步骤s2:针对车间生产的不确定性,对定制家具分拣抽象为序贯决策问题,并通过q学习自适应算法对序贯决策问题进行求算,获取到的评价值,使用所述评价值近似等效目标函数值。

5、优选的,包括以下步骤:

6、在步骤s1中所述生产工序依次包括板件的入库、出库、合流移载和打包;

7、所述目标函数如下所示:

8、min f=α*max(ci4)+(1-α)*max(ci2)  (1);

9、其中所述目标函数存在如下约束条件:

10、

11、

12、

13、

14、

15、

16、

17、

18、

19、

20、

21、

22、

23、

24、

25、

26、

27、其中α表示包装完工时间所占优化目标的权重,1-α表示出库完工时间所占的权重,i和j分别均为板件编号的索引,i、j随着rik的递增而递增,rik为第k阶段的第i板件到达的时间,k为阶段索引,1、2、3、4在阶段索引中分别表示入库、出库、合流移载和打包阶段,n表示订单总板件数,b表示入库缓冲区容量,sik表示第k阶段第i板件的开工时间,pik表示第k阶段第i板件的处理时间,cik表示第k阶段第i板件的完工时间,tkk′表示第k阶段到第k′阶段的线体运输时间,mk表示第k阶段的机器总数,l表示正数,oi表示i板件所述订单编号为o,bi表示在规定的包装顺序中第i板件的紧后板件若为此订单的该包件内的最后一块板,元素则为当前索引;

28、uijmk的取值范围在{0,1},当第k阶段机器m上板件j紧跟在板件i之后处理时,uijmk=1,若否则uijmk=0;

29、ximk的取值范围在{0,1},当第k阶段板件i分配到机器m时,ximk=1,若否则ximk=0。

30、优选的,在执行步骤s2前,还需要对q学习自适应算法进行参数定义;

31、其中所述参数定义包括q学习自适应算法的动作集定义;

32、其中动作集定义为对板件入库的动作进行定义;

33、其中动作集定义的具体内容如下:

34、step1:判断是否有新的板件到达入库阶段,若有新的板件达到,则判断是否有空闲分拣机,若不存空闲的分拣机在则执行步骤step2,若存在分拣机则执行步骤step3;

35、step2:将每一台分拣的最早可用时间作为新的板件入库任务的开始时间,执行步骤step3;

36、step3:判断是否板件进行出库。若存在有板件进行出库,则没有板件进行出库,则按照先到先服务的原则对新板件进行入库,完成新板件的入库工作;

37、step4:若存在有板件出库,则根据出库板件的加工时长从大到小进行排序,并根据排序结果安排板件加工时间小的板件进行出库,得到重调度时刻;

38、step5:并判断入库工序前缓冲区板件的数量是否大于警戒线的阈值,若小于,则继续正常进行出入库任务;若大于,则立刻安排缓冲区内板件进行入库操作。

39、优选的,其中所述参数定义包括q学习自适应算法的状态空间的划分;

40、其中状态空间的划分具体为:

41、根据各重调度时刻,定义缓冲区的板件数量作为状态空间ni,并将状态空间ni作为系统的状态,将缓冲区板件的拥挤程度cs作为划分状态空间的特征参数;其中定义为此时缓冲区板件数量ni与缓冲区容量b的比值。

42、优选的,其中所述参数定义包括q学习自适应算法的奖赏函数的设置;

43、其中奖赏函数的设置具体为:

44、将各重调度时刻后板件的出库完工时间推移量和缓冲区拥挤程度的变化的加权和作为对上一重调度时刻所采取的动作的总奖赏rt-1;

45、具体的总奖赏rt-1的求算公式如下:

46、

47、

48、

49、其中ω1和ω2为总奖赏函数的权重,ct和ct-1分别表示当前重调度时刻和上一重调度时刻采取某个启发式规则算法所得到的最大出库完工时间,表示新到达的入库板件的入库处理时间总和,cst和cst-1分别表示当前时刻与上一时刻缓冲区的拥挤程度。

50、优选的,在步骤s2中q学习自适应算法具体如下:

51、

52、

53、其中β为学习因子,为在状态s采取a-动作后对动作a的最大评价值,γ为折扣因子,r(ss-,a-)为奖励值,ω为奖励值的权重值;

54、所述步骤s2中通过q学习自适应算法对序贯决策问题进行求算,获取到的评价值的步骤具体如下:

55、步骤s21:重置上一个时刻的状态s-以及上一个时刻的状态行动a-;

56、步骤s22:判断是否是否发生重调度时刻,若发生则获取当前时刻的拥挤程度cst,将当前时刻的拥挤程度cst定位为当前状态s;

57、步骤s23:判断上一个时刻的状态s-是否为空值,若是则基于贪心规则从动作合集a(s)中选择一个动作a,结合动作a作用后的调度方案,根据公式(20)计算板件出库完工时间推移量奖励值,并将板件出库完工时间推移量奖励值代入到r(s|s-,a-)对q(s,a)进行更新;

58、若上一个时刻的状态s-为非空值,则通过公式(21)计算当前缓存区拥挤程度的变化奖励值,并将缓存区拥挤程度的变化奖励值代入到r(s|s-,a-)对q(s,a)进行更新;

59、步骤s24:判断当前的调度是否结束,若未结束,则重新执行步骤s22~s23;若结束则执行步骤s25;

60、步骤s25:判断q学习自适应算法是否满足学习周期,若不满足,则重新执行步骤s22~s24,若满足则输出评价值。

61、上述技术方案中的一个技术方案具有如下优点或有益效果:本发明基于q学习自适应算法对板件的分拣问题进行求解,相较于现有的规则算法更能在动态分拣调度优化问题求解中取得优异的表现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1