考虑订单动态到达的多目标热轧生产调度方法及系统

文档序号:37928597发布日期:2024-05-11 00:07阅读:11来源:国知局
考虑订单动态到达的多目标热轧生产调度方法及系统

本发明属于智能制造,涉及一种考虑订单动态到达的多目标热轧生产调度方法及系统。


背景技术:

1、客户要求和市场灵敏性需求,给包括钢铁和石化在内的制造业带来了商业和技术挑战。热轧生产线(hrpl)因为要生产交付给客户的最终产品,是钢铁企业的重要组成部分。hrpl为将高温板坯连续轧制形成客户订单所需的钢材,其主要流程包括从连铸到卷取机的多个加工工序(如图1所示)。

2、为了降低生产成本,hrpl的管理者需要从订单池中选择订单(有时也称为虚拟板坯),并根据工艺规程将其分组为若干轧制单元。原则上,轧制单元可分为两个部分,如图1顶部所示:(1)“烫辊材”部分,订单以宽度不减小的方式进行排序,以预热轧辊。此外,订单规格(即宽度、厚度和硬度)的跳变程度必须尽可能小。最优调度方法是一种强大的决策支持工具,可以帮助生产管理者在订单多样化与复杂生产需求之间做出很好的权衡。然而,以下因素使得hrpl中的调度问题更具挑战性:

3、强约束:(1)每个轧制单元的烫辊材板坯宽度必须先按非递减顺序排列,然后按非递增顺序排列;(2)分配给每个轧制单元的板坯的总长度受到限制;(3)具有相同宽度的连续加工订单的累积长度不能超过预定义限制;(4)不允许同时改变两个相邻板坯的宽度、厚度和硬度。

4、多目标:需要同时考虑降低生产成本和提高客户满意度的目标。

5、动态不确定性:新订单动态到达订单池,需要求解随时做出快速响应。


技术实现思路

1、本发明的目的在于提供一种考虑订单动态到达的多目标热轧生产调度方法及系统,通过机器学习策略,加速求解热轧生产线(hrpl)的动态调度问题。

2、为了达到上述目的,本发明的基础方案为:一种考虑订单动态到达的多目标热轧生产调度方法,包括如下步骤:

3、s1,将热轧生产调度问题转化为带奖金收集的动态多目标车辆路径问题,并建立与之对应的数学模型描述;

4、s2,调用基于在线学习的多目标蚁群优化算法maco/ol求解动态车辆路径问题,获得热轧生产调度的pareto最优解集;

5、s3,使用优劣解距离法topsis从该解集中选择用户满意的热轧调度解下发至生产现场执行;

6、s4,当新订单到达时,基于当前信息素矩阵快速初始化种群,执行步骤s2再次调用maco/ol算法。

7、本基础方案的工作原理和有益效果在于:hrpl中的调度旨在找到具有固定轧制单元数的pareto最优集(pos),以便在热轧上施加共同约束,同时最小化由所选订单的订单规格(宽度、规格和硬度)跳变引起的总惩罚成本、由未选订单的加权、引起的总损失成本生产。

8、当新订单到达时,将hrpl中的实际调度问题与带奖金收集动态车辆路径问题(pc-dvrp)相结合。mac0/0l算法通过在线学习策略加速,对于从决策和目标空间学习知识以及在动态环境下转移知识是有效的。通过机器学习策略,加速求解热轧生产线(hrpl)的动态调度问题。

9、进一步,根据热轧动态调度问题特性和工艺约束,利用混合整数线性规划方法,建立带奖金收集的动态多目标车辆路径问题模型描述,模型目标函数为:

10、

11、

12、其中,(f1),(f2)为模型的目标函数,分别表示由相邻板坯间工艺跳变引起的总惩罚成本,由未选择订单的加权和引起的损失成本;表示轧制单元集合,k表示总轧制单元数;表示计划的订单集合,nt表示时间t的订单总数;di,j表示从订单i到订单j的跳变惩罚,

13、

14、其中,γ1,γ2,和γ3分别表示宽度、厚度和硬度的惩罚权重,γ是宽度从窄到宽变化的系数;wi表示订单i的宽度,wj表示订单j的宽度;ci表示订单i的厚度,cj表示订单j的厚度;hi表示订单i的硬度,hj表示订单j的硬度;

15、xi,j,k表示订单i和订单j在轧制单元k中的分配情况,如果一对订单(i,j)在轧制单元k中连续分配,则xi,j,k=1,否则xi,j,k=0,pi表示订单i的价值系数;yi,k表示订单i是否分配在轧制单元k,若订单i被分配在轧制单元k中,则yi,k=1,否则yi,k=0。

16、模型的约束条件包括:

17、每个订单最多只能分配给一个轧制单元:

18、

19、确保每个轧制单元从虚拟订单0开始并以虚拟订单0结束,0表示虚拟订单:

20、

21、如果一个订单已分配至某一个轧制单元中,那么在它之前和之后的位置都应分配一个订单:

22、

23、强制消除每个轧制单元的子回路:

24、

25、定义单个轧制单元的总长度上限和下限:

26、

27、不允许某一轧制单元中相邻订单的宽度、厚度和硬度同时发生变化:

28、

29、在任一轧制单元中,连续排列的同宽订单的累积长度不应大于其上限值

30、

31、

32、固定已锁定订单的决策变量xi,j,k和yi,k的值:

33、

34、

35、定义xi,j,k和yi,k的决策域:

36、

37、其中,表示订单到达时间集,t表示事件时间集的大小;s代表总订单集合的子集合,n代表总订单数量;lk表示轧制单元k总轧制长度的上限,li表示订单i长度,表示轧制单元k总轧制长度的下限;表示宽度的指示性参数,当订单i和j具有相同的宽度等于1,否则等于0;表示厚度指示参数,当订单i和j具有相同的厚度等于1,否则等于0;表示硬度的指示参数,当订单i和j具有相同的硬度等于1,否则等于0;zi,k表示轧制单元的累计长度,从连续订单中相同宽度的第一个开始计算;bigm表示代表一个极大的正数,zj,k代表轧制单元k内与订单j相邻的同宽板坯累计长度;表示第k个轧制单元相同宽度的连续订单的累积长度上限;表示在事件时间t时轧制单元k的完成列表;r表示已完成的订单集合,表示在事件时间t时轧制单元k的已完成的序号为r-1的订单。

38、当新订单到达时,需要迅速做出反应,重新解决问题。因此,将所研究的动态调度问题规划化为奖金收集的动态车辆路径问题(pc-dvrp),加快求解效率。设置约束条件,利于求解目标函数。

39、进一步,调用maco/0l算法,求解动态车辆路径问题,获得热轧生产调度的pareto最优解集,具体方法如下:

40、s31,初始化一个信息素、多个引导函数,pareto最优解集;

41、s32,每只蚂蚁从多个引导函数中选择最有优势的一个;

42、s33,每只蚂蚁通过信息素和选定的引导函数定义的迁移概率,反复选择下一个访问订单,直至构造出所有的热轧单元计划形成一个完整的热轧调度解;

43、s34,基于pareto占优关系比较所有蚂蚁找到的热轧调度解,通过快速非支配排序法更新当前pareto最优解集;

44、s35,如果终止条件满足,则退出;否则,更新每条路径(i,j)上的信息素,执行步骤s32。

45、调用maco/0l算法,通过在每个事件时间求解一个(静态)pc-vrp实例来优化路径,并提供用于选择和执行的pos。

46、进一步,每只蚂蚁从一组候选矩阵中选择最有前景的启发式矩阵的方法为:

47、定义若干引导函数代表蚂蚁选路径(i,j)时的第g个引导函数:

48、

49、其中,λg是在第g个引导函数中价值系数pj所占的比例权重,λg=(g-1)/(g-1),当λg=0,只专注于缩短路径距离;当λg=1,只专注于收集更多的奖励;di,j表示从订单i到订单j的跳变惩罚;pj表示订单j的价值系数;g为引导函数的数量。

50、在经典的aco算法中,启发式因素ηi,j反映了从i到j的转换的先验知识。然而,由于性质i中所述的两个子问题,所研究的pc-dvrp的先验知识来自两个方面,即di,j和pj。因此,di,j和pj的不同组合引导蚂蚁从不同的方向在目标空间中找到pf。

51、进一步,每只蚂蚁通过信息素和选定的引导函数定义的迁移概率,反复选择下一个访问订单,直至构造出所有的热轧单元计划形成一个完整的热轧调度解,具体步骤为:

52、s51,设待构建的热轧调度解令k=1,isfeas=true

53、s52,i表示订单的序号,k为轧制单元序号,lk表示轧制单元k的总轧制长度,πk表示轧制单元k的对应的路径;

54、s521,通过迁移概率选择第一个订单j:

55、

56、s522,若满足轧制里程约束:

57、且j>0

58、则:

59、πk=πku{j}

60、lk=lk+lj

61、i=j

62、否则,执行步骤s53;

63、s523,通过迁移概率选择下一个订单:

64、

65、执行步骤s522;

66、s53,若

67、lk+lj≤lk或则令isfeas=false

68、π=πuπk

69、s54,令k=k+1,若k>k,则执行步骤s55,否则返回步骤s52;

70、s55,

71、f1,f2=evalute(π)

72、如果isfeas=false,则

73、f1=10×f1;f2=10×f2

74、s56,输出π,其中,lk表示轧制单元k总轧制长度的下限,li表示订单i长度,表示轧制单元k总轧制长度的上限,lmax表示轧制单元k同宽轧制长度的最大值;τ0,j表示订单j的初始信息素因子;f1,f2为动态车辆路径问题模型的目标函数;select_next_node表示利用信息素和轮盘赌规则选择下一个访问订单;表示除虚拟订单外的所有板坯订单;为在虚拟订单后选择订单j时,对应的信息素因子和引导函数;表示所有订单的集合;为在订单i后选择订单j时,对应的信息素和引导函数;evalute表示通过构造路径计算目标函数f1和f2;isfeas表示获得热轧调度解是否可行,若为false则不可行,对目标函数施加惩罚。

75、每只蚂蚁通过信息素和选定的启发式矩阵构建一个热轧调度方案,基于热轧调度方案进行后续操作。

76、进一步,采用基于奖励学习机制做出选择决策,具体步骤为:

77、s61,根据热轧调度解的评价结构为每个引导函数分配奖励:如果采用ηg的解在帕累托前沿pf中排在第1层,获得奖励3;如果第2层,获得奖励1;否则奖励为0;

78、s62,对于第m只蚂蚁,通过以下公式选择最佳引导函数序号g*:

79、

80、其中,是第g个引导函数的平均奖励,ng是第g个引导函数对应的蚂蚁数量;g*表示最佳引导函数对应的序号。

81、采用称为ucb1(置信上限)的算法来做出选择决策,因为它提供了渐近最优性保证。

82、进一步,定义迁移概率为:

83、

84、其中,是蚂蚁在当前订单i时访问订单j的概率,τi,j是订单i和j之间链接上的现有信息素踪迹,ηi,j是先验可用的所选引导函数;表示当前订单i为时蚂蚁未访问订单的允许列表;α和β是分别确定τi,j和ηi,j的相对影响的两个参数;表示在事件时间t时轧制单元k的完成列表;表示所有订单的集合。

85、基于概率采样进行解构造,运算简单。

86、进一步,在每次迭代之后,更新行进路径(i,j)的信息素轨迹τi,j:

87、

88、其中,ρ是路径上信息素挥发速度的参数;δτi,j(π)反映信息素沉积在路径(i,j)的信息素量,定义为

89、

90、其中,路径(i,j)对应订单i与j相邻轧制;q是一个参数,控制所有蚂蚁沉积的信息素总量;π是当前parote最优解集,μ(π)是热轧调度解π的乐观超体积改进量,定义如下:

91、

92、其中,

93、δ(π,π′)=(f1(π)-f1(π′))(f2(π′)-f2(π))

94、

95、

96、确保所有信息素轨迹都满足规则:τmin≤τi,j≤τmax,其中τmin=q/1000,τmax=100q;πsup代表当前parote最优解集中最大f2值对应的解;πinf代表当前parote最优解集中最小f2值对应的解;δ(π,π′)代表解π和π′的在目标空间的覆盖面积,f2(πi)代表解πi对应的目标函数值f2,f1(π)代表解π对应的目标函数值f1,f1(π′)代表解π′对应的目标函数值f1,f2(π′)代表解π′对应的目标函数值f2。

97、在mac0/0l算法中,信息素轨迹通常在所有蚂蚁完成求解后更新,增加或减少试验水平有助于蚂蚁识别行进的路线是否分别有助于“好”或“坏”的解决方案。

98、进一步,使用topsis方法选择满意热轧调度解的方法为:

99、利用topsis方法对pareto最优解集π中的每个解进行评分,具体为:

100、计算每个解与最优解的距离:

101、

102、其中,表示解π与最优解的距离;表示最优解集π中最优的f1值;f1(π)表示解π的f1值;表示最优解集π中最优的f2值;f2(π)表示解π的f2值;

103、计算每个解与与最劣解的距离:

104、

105、其中,表示解π与最劣解的距离;表示最优解集π中最劣的f1值;f1(π)表示解π的f1值;表示最优解集π中最劣的f2值;f2(π)表示解π的f2值;

106、根据每个解各自与最优解和最劣解的距离,计算得分并排序:

107、

108、其中,sπ表示解π的得分,并以此为最优解集合中的排序依据;

109、最后选择sπ值最小的解作为满意解输出。

110、当新订单到达时,maco/0l需要调整其搜索方向以寻找新的pos,因为所研究的调度问题的决策和目标空间会随事件而变化,sπ越小方案越优。

111、本发明还提供一种考虑订单动态到达的多目标热轧生产调度系统,包括处理单元,所述处理单元执行本发明所述方法,完成多目标热轧生产调度。

112、利用该系统加速求解热轧生产线(hrpl)的动态调度问题,利用使用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1