一种制造系统自适应动态调度方法

文档序号:8318592阅读:637来源:国知局
一种制造系统自适应动态调度方法
【技术领域】
[0001] 本发明涉及制造系统生产调度领域,尤其涉及一种制造系统自适应动态调度方 法。
【背景技术】
[0002] 近年来,高效生产的优化调度或不确定和复杂生产环境下自适应调度是制造系统 有待解决的一个重要问题,面对动态生产环境实现自适应的动态调度具有重要意义。不确 定生产环境下的自适应生产调度研宄正成为一个活跃的研宄领域。针对动态调度约束复 杂、多变问题,有学者建立了一种约束联动调度模型和算法以实现快速的人机交互动态调 度,并提出一种根据系统当前状态动态选择最适应规则的随机自适应调度策略。亦有研宄 中建立了一种动态调度系统模型,采用改进的Q学习算法以确定自适应调度策略,能够根 据生产环境的变化动态选择恰当的调度规则,以满足动态调度的自适应要求。但是,其动态 调度算法在学习过程中,动作搜索采用固定的参数值贪婪策略,其贪婪参数取值具有一定 的主观性和盲目性,忽略了学习过程中学习经验的动态累积。

【发明内容】

[0003] 本发明所要解决的技术问题是针对【背景技术】中所涉及的缺陷,提供一种制造系统 自适应动态调度方法,用于指导动态环境下调度策略的自适应选择,提高制造企业的生产 效益和竞争力。
[0004] 本发明为解决上述技术问题采用以下技术方案:
[0005] 一种制造系统自适应动态调度方法,包括以下步骤:
[0006] 步骤1),将最小化提前拖期惩罚作为调度目标,建立制造系统的动态调度目标函 数;
[0007] 步骤2),建立制造系统的动态调度系统模型,所述动态调度系统模型包含作业 Agent、状态 Agent、设备 Agent 和缓冲 Agent ;
[0008] 所述作业Agent用于与人机交互接口对接,对接信息包含作业的数量、工序及加 工时间;
[0009] 所述状态Agent用于代理调度系统的状态;
[0010] 所述设备Agent用于代理调度系统的生产设备;
[0011] 所述缓冲Agent表示生产设备的缓冲区,用于代理缓冲区中的待加工工序与设备 Agent进行协商;
[0012] 步骤3),建立动态调度系统模型的调度协商机制;
[0013] 步骤4),利用顺序聚类方法对连续的调度系统状态进行聚类,以降低状态空间的 复杂性;
[0014] 步骤5),将对调度规则影响较大的设备利用率UM、相对机器负载LK、平均交货因子 Fa和平均提前拖期损失P A定义为系统状态特征,对系统状态进行聚类;
[0015] 步骤6),利用状态差异度度量聚类状态与瞬时系统状态之间的距离,将聚类状 态-动作值代替系统状态-动作值,以状态差异度作为权系数进行Q值函数的迭代更新,所 述Q值函翁佚代审新的公式为,
[0016]
【主权项】
1. 一种制造系统自适应动态调度方法,其特征在于,包括以下步骤: 步骤1),将最小化提前拖期惩罚作为调度目标,建立制造系统的动态调度目标函数; 步骤2),建立制造系统的动态调度系统模型,所述动态调度系统模型包含作业Agent、 状态Agent、设备Agent和缓冲Agent ; 所述作业Agent用于与人机交互接口对接,对接信息包含作业的数量、工序及加工时 间; 所述状态Agent用于代理调度系统的状态; 所述设备Agent用于代理调度系统的生产设备; 所述缓冲Agent表示生产设备的缓冲区,用于代理缓冲区中的待加工工序与设备 Agent进行协商; 步骤3),建立动态调度系统模型的调度协商机制; 步骤4),利用顺序聚类方法对连续的调度系统状态进行聚类,以降低状态空间的复杂 性; 步骤5),将对调度规则影响较大的设备利用率UM、相对机器负载LK、平均交货因子FJP 平均提前拖期损失Pa定义为系统状态特征,对系统状态进行聚类; 步骤6),利用状态差异度度量聚类状态与瞬时系统状态之间的距离,将聚类状态-动 作值代替系统状态-动作值,以状态差异度作为权系数进行Q值函数的迭代更新,所述Q值 函数迭代更新的公式为: ρ(,(5Λα^^(1-αη(5; ^^·(1-;/ν: (5(ΙΙ)))β, ,(5; ^,.) + α" (5; , α,) · (I - μ (S1,,)) {η,, max[(?(, , (5;,,,/?) + ; ] | ??+1 beA 其中,为第η次循环生成的状态动作对〇Sf ,4)的Q值,η为大于零的整数, t为调度时刻;为步长参数;为系统状态St+1与聚类状态心的差异度, 该差异度是通过系统状态St+1与聚类状态的Manhattan距离定量计算出的差异程度; Qp1OSfw)为第n-1次循环状态动作对〇Sf 4,)生成的Q值;rt+1为即时回报因子;γ为延 迟回报的折扣因子;为将来回报:??表示第η-1次循环时状态的最大模糊收 益加权均值,即系统状态St+1下所有聚类状态的最大收益加权平均和。
2. 根据权利要求1所述的制造系统自适应动态调度方法,其特征在于,所述步骤1)中 制造系统的动态调度目标函数为: N OBJ = m\nYj(EPr max {D1 -€:,0}+ TP1- max {C - D,., O |) 其中,OBJ为最小化提前拖期惩罚,EPiS单位提前惩罚系数,TP 单位拖期惩罚系数, Ci为作业J i的实际完工时间,D i为作业J i的交货期,J i表示第i项作业,N为大于0的自 然数,i为大于等于1且小于等于N的自然数。
3. 根据权利要求1所述的制造系统自适应动态调度方法,其特征在于,所述步骤3)中 的调度协商机制为: 步骤3. I),设备Agent在可用的空闲时段发出邀标请求,通知缓冲Agent中的工序进行 投标; 步骤3. 2),缓冲Agent根据数据库中的信息及参数生成标书,并向设备Agent提交标 书; 步骤3. 3),设备Agent评价所有收集到的标书,确定中标标书; 步骤3. 4),设备Agent通知中标工序并等待中标工序返回确认信息;若未返回,重新进 行招投标,否则双方签订合同; 步骤3. 5),更新设备Agent的可用空闲时段,从缓冲Agent中移除中标工序,通知作业 Agent发放新的加工工序; 步骤3. 6),重复步骤3. 1)至步骤3. 5),直至所有作业分配完成。
4. 根据权利要求1所述的制造系统自适应动态调度方法,其特征在于,所述步骤6)中 的rt+1采用启发式立即回报函数,其公式如下:
其中,ΣΕ*作业提前完工惩罚,Σ p为作业拖期惩罚。
5. 根据权利要求1所述的制造系统自适应动态调度方法,其特征在于,采用学习算法 来实现调度规则的自适应选择和作业加工的自适应调度,所述学习算法采用基于学习次数 η的动态贪婪策略:
其中,η为当前学习次数;G为总学习次数;τι为搜索幅值,且满足0.95 < τι <1;ξ。 为限幅调节系数,"e (0,(I-n) G)。
【专利摘要】本发明公开了一种制造系统自适应动态调度方法,涉及制造系统生产调度领域。本发明针对制造系统生产环境的不确定性,构建了一个基于多Agent的动态生产调度系统。为了保证设备能够根据当前的系统状态选择合适的中标作业,提出一种基于聚类-动态搜索的改进Q学习算法,以指导不确定生产环境下动态调度策略的自适应选择。该动态调度策略采用顺序聚类降低系统状态维数,根据状态差异度和动态贪婪搜索策略进行学习。给出了算法的收敛性和复杂性分析,并通过仿真实验,验证了本发明所提出的自适应动态调度方法的有效性和适应性。
【IPC分类】G05D13-04
【公开号】CN104635772
【申请号】CN201410740511
【发明人】王玉芳, 宋 莹, 陈逸菲, 叶小岭, 杨丽, 薛力红
【申请人】南京信息工程大学
【公开日】2015年5月20日
【申请日】2014年12月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1