智慧排程方法与智慧排程装置与流程

文档序号：28318081发布日期：2022-01-04 20:10阅读：246来源：国知局

1.本发明涉及一种智慧排程的技术。

背景技术：

2.现今工厂的生产排程趋于复杂且具高度不确定性的特性，造成排程决策须因应生产状态与客户需求实时地调整。此外，过去针对各种生产系统的大多数的排程问题已经被证实为非决定性多项式困难(non-deterministic polynomial hard，np hard)问题。换言之，当排程问题规模变大时，常常无法在一合理的时间内取得全域最佳解。因此，标准的线性规划或整数规划法无法解决实务上的大型动态排程问题。
3.实务上，一般会选择各种针对排程的演算法以取得次优解。然而，排程的优劣会直接影响工厂交期与生产效益。因此，如何解决目前常用的排程方法所遇到的若干问题，为本领域技术人员所关心的议题之一。

技术实现要素：

4.本发明提供一种智慧排程方法，该方法包括下列步骤：从制造执行系统接收工单信息与排程相关信息；依据模拟环境信息以强化学习方法产生一排程代理人；排程代理人依据工单信息以及排程相关信息产生初始排程结果；对初始排程结果进行优化以产生最佳排程结果，并将最佳排程结果传送至制造执行系统，其中制造执行系统依据最佳排程结果进行工单指派。
5.本发明提供一种智慧排程装置，包括存储元件与处理器。存储元件用以存储多个指令；处理器连接接收元件与存储元件，用以载入并执行指令：从制造执行系统接收工单信息与排程相关信息；依据模拟环境信息以强化学习方法产生一排程代理人；排程代理人依据工单信息以及排程相关信息产生初始排程结果；对初始排程结果进行优化以产生最佳排程结果，并将最佳排程结果传送至制造执行系统，制造执行系统依据最佳排程结果进行工单指派。
6.基于上述，本发明提供的智慧排程方法以强化学习方法进行排程并进一步进行优化，以建立具有存储能力的神经结构并确保排程结果的品质。此外，本发明的智慧排程方法还可以近似最佳化演算法产生最佳优化的排程结果。借此，可直接因应高度动态的排程情境以产生最佳的排程结果。因此，此智慧排程方法在不同的生产情境与生产目标的表现均优于传统方法，故可以有效解决高度动态的生产排程问题。
7.为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。
附图说明
8.图1根据本发明的实施例示出智慧排程装置的方框图。
9.图2根据本发明的实施例示出智慧排程方法的流程图。
10.图3根据本发明的另一实施例示出智慧排程装置的示意图。
11.其中，附图标记说明如下：
12.100：智慧排程装置
13.110：处理器
14.120：存储器
15.1201：排程模块
16.12011：信息提取模块
17.12012：排程代理模块
18.12013：工单排程模块
19.1202：训练模块
20.12021：超参数设定模块
21.12022：强化学习模块
22.1203：排程优化模块
23.12031：编码模块
24.12032：近似最佳化演算模块
25.1204：模拟控制模块
26.12041：参数模块
27.12042：情境模块
28.1205：环境模拟模块
29.12051：模拟模块
30.12052：效能评估模块
31.130：收发器
32.200：制造执行系统
具体实施方式
33.图1根据本发明的实施例示出智慧排程装置100的方框图，其中智慧排程装置100可包括处理器110以及存储器120。处理器110可连接至存储器120，并且存取和执行存储于存储器120中的多个指令。存储器120可用以存储由处理器110执行的多个指令。
34.在一些实施例中，处理器110例如是中央处理单元(central processing unit，cpu)，或是其他可程序化的一般用途或特殊用途的微控制单元(micro control unit，mcu)、微处理器(microprocessor)、数字信号处理器(digital signal processor，dsp)、可程序化控制器、特殊应用集成电路(application specific integrated circuit，asic)、图形处理器(graphics processing unit，gpu)、算数逻辑单元(arithmetic logic unit，alu)、复杂可程序化逻辑装置(complex programmable logic device，cpld)、现场可程序化逻辑门阵列(field programmable gate array，fpga)或其他类似元件或上述元件的组合。
35.在一些实施例中，存储器120例如是任何型态的固定式或可移动式的随机存取存储器(random access memory，ram)、只读存储器(read-only memory，rom)、快闪存储器(flash memory)、硬盘(hard disk drive，hdd)、固态硬盘(solid state drive，ssd)或类
environment)模型，并利用模拟环境模型以强化学习方法产生一排程代理人，其中排程代理人的输入信息可包括状态(state)信息与奖励(reward)信息等。
43.举例而言，生产管理人员可预先通过终端装置将至少一参数种类设定为工单种类、工单的加工时间、工单种类的数量，并对应参数种类设定参数值范围(例如，将工单种类设定为多种手机零件、将工单的加工时间对应的参数值范围设定为10～20小时、将工单种类的数量设定为10种)，且终端装置可将参数种类与参数值范围经由收发器130传送至存储器120。借此，处理器110可读取存储器120中的参数种类与参数值范围，并依据参数种类与参数值范围以利用参数产生器产生至少一环境参数与至少一情境参数。基于此，处理器110可依据至少一环境参数与至少一情境参数产生模拟环境信息，以依据模拟环境信息产生模拟环境模型，并产生状态信息(工单信息或制造现场信息)与奖励信息，进而依据模拟环境模型的模拟环境与强化学习方法产生排程代理人。
44.接着，于步骤s205中，处理器110中的排程代理人可依据工单信息以及排程相关信息产生初始排程结果。详细而言，响应于处理器110依据模拟环境信息产生模拟环境，处理器110可进一步利用模拟环境训练排程代理人(即，步骤s203)，且排程代理人可依据工单信息与排程相关信息产生初始排程结果，其中初始排程结果为对多个工单进行初始排程的结果。
45.在一些实施例中，处理器110可利用预先存储于存储器120中的强化学习模块(未示出)以线下学习(offline learning)方法训练排程代理人并更新排程代理人，并依据工单信息与排程相关信息以利用排程代理人产生初始排程结果。在一些实施例中，处理器110还可依据模拟环境信息与初始排程结果以线上学习方法(online learning)训练强化学习模块以产生另一排程代理人。换言之，为了因应模拟环境信息与初始排程结果的变化，处理器110可实时地对环境模拟模块进行更新以增进强化学习模块的训练。
46.最后，于步骤s207中，处理器110可对初始排程结果进行优化以产生最佳排程结果，并经由收发器130将最佳排程结果传送至制造执行系统，其中制造执行系统依据最佳排程结果进行工单指派。详细而言，在处理器110产生初始排程结果后，处理器110可进一步对初始排程结果进行优化的程序，以产生更加适用于目前的工单信息与排程相关信息的最佳排程结果，其中最佳排程结果为在对多个工单进行初始排程后进一步进行优化的最佳结果。借此，制造执行系统便可依据最佳排程结果对生产系统进行工单指派。
47.在一些实施例中，处理器110可利用近似最佳化(approximation and optimization)演算法对初始排程结果进行优化以产生最佳排程结果，其中近似最佳化演算法可以是万用启发式(meta-heuristic)演算法或局部搜索(local search)法等。
48.基于上述，本发明的智慧排程方法可以以强化学习方法进行排程并进一步进行优化，以实时地决定目前的工单信息与排程相关信息最适用的排程结果。此外，针对排程的优化，本发明的智慧排程方法还可以近似最佳化演算法产生最佳的优化的排程结果。借此，制造执行系统便可依据最适用于目前的工单信息与排程相关信息的排程结果对整个生产系统进行工单指派。基于此，本发明的智慧排程方法将大大减少总完工时间。
49.图3根据本发明的另一实施例示出智慧排程装置的示意图。请参照图3，智慧排程装置100可连接于用于管理生产系统的制造执行系统200，且智慧排程装置100可包括处理器110、存储器120以及收发器130。处理器110可连接至存储器120与收发器130，并且存取和
执行存储于存储器120中的多个模块。此外，存储器120可用于存储可由处理器110执行的多个模块，其中上述多个模块可包括排程模块1201、训练模块1202、排程优化模块1203、模拟控制模块1204以及环境模拟模块1205。
50.再者，收发器130可实时地从制造执行系统200接收工单信息与排程相关信息。工单信息例如是由生产管理人员通过终端装置输入至制造执行系统或是从管理工单的服务器接收。此外，工单信息可指示各种工单的相关信息，且排程相关信息可指示工单与生产线之间的各种相关排程信息。
51.举例而言，工单信息可包括多个工单、各工单于各种机台的作业时间、各工单于各种产线上的作业时间、机台的设置时间以及制程的需求等各种工单的相关信息，且排程相关信息可包括闲置机台的信息、机器的数量、生产人员的数量、产品品名、工单编号、预定交货时间、生产机台的类型或产品数量等各种相关排程信息。借此，排程模块1201可经由收发器130从制造执行系统接收工单信息与排程相关信息。
52.再者，环境模拟模块1205与训练模块1202可依据模拟环境信息以强化学习方法产生一排程代理人。详细而言，模拟控制模块1204可产生模拟环境信息，且环境模拟模块1205与训练模块1202可依据模拟环境信息以强化学习方法产生一排程代理人。在一些实施例中，模拟控制模块1204可依据至少一参数种类与至少一参数值范围以利用参数产生器产生模拟环境信息，其中模拟环境信息可包括至少一环境参数与至少一情境参数。借此，环境模拟模块1205可依据模拟环境信息产生模拟环境模型，且训练模块1202可利用模拟环境模型以强化学习方法产生一排程代理人。在一些实施例中，强化学习方法可以是深度强化学习方法。
53.在一些实施例中，模拟控制模块1204还可包括参数模块12041与情境模块12042。情境模块12042可依据至少一参数种类与至少一参数值范围以利用参数模块12041中的参数产生器产生模拟环境信息。在一些实施例中，环境模拟模块1205还可包括模拟模块12051与效能评估模块12052。环境模拟模块1205可从模拟控制模块1204接收模拟环境信息，其中模拟环境信息可包括至少一环境参数与至少一情境参数。此外，模拟模块12051可依据模拟环境信息产生模拟环境模型，且效能评估模块12052可对产生的模拟环境模型进行评估以产生评估结果。借此，模拟模块12051可依据评估结果对模拟环境模型优化，并将模拟环境模型传送至训练模块1202。
54.在一些实施例中，生产管理人员可预先通过终端装置(未示出)设定至少一参数种类与至少一参数值范围。借此，终端装置可将至少一参数种类与至少一参数值范围传送至收发器130，以将至少一参数种类与至少一参数值范围存储至存储器120。而在另一些实施例中，至少一参数种类与至少一参数值范围可预先存储于存储器120中。在一些实施例中，参数种类可以是工单加工时间、工单种类、工单种类的数量、机台数量、工单数量、工作紧迫度以及工作到达率等，而参数值范围是对应各种参数种类的参数值范围。
55.在一些实施例中，环境参数可以是加工时间参数(产品族对应各机台的作业时间参数)与机台设定时间参数(机台更换生产产品所需的设置时间参数)等，且情境参数可以是工单种类数量参数(产品族数量参数)、机台数量参数(机台数量参数)、工单数量参数(各工单的数量参数)、工作紧迫度参数(各工单到期日参数)以及工作到达率参数(各工单到达产线的速率参数)等。
56.再者，排程模块1201、训练模块1202以及环境模拟模块1205可依据工单信息以及排程相关信息产生初始排程结果。详细而言，响应于处理器110依据模拟环境信息产生一排程代理人，处理器110可进一步利用排程代理模块12012中的排程代理人，并且排程代理模块12012中的排程代理人可依据工单信息与排程相关信息产生初始排程结果，其中初始排程结果为对多个工单进行初始排程的结果。
57.在一些实施例中，训练模块1202还可包括超参数设定(hyper-parametersetting)模块12021与强化学习模块12022。强化学习模块12022可从环境模拟模块1205接收模拟环境模型，并利用模拟环境模型以强化学习方法产生另一排程代理人。响应于强化学习模块12022产生另一排程代理人，强化学习模块12022可借此实时更新排程代理模块，其中强化学习模块12022与超参数设定模块12021可利用状态信息与奖励信息训练排程模块1201中的排程代理模块12012，且排程代理模块12012可依据工单信息与排程相关信息产生初始排程结果。
58.在一些实施例中，强化学习模块12022与超参数设定模块12021可依据状态信息与奖励信息以线下学习方法训练排程代理模块12012，且排程代理模块12012可依据工单信息与排程相关信息产生初始排程结果。此外，强化学习模块12022与超参数设定模块12021可依据模拟环境信息与初始排程结果以线上学习方法更新排程代理模块12012。换言之，为了因应模拟环境信息与初始排程结果的变化，强化学习模块12022与超参数设定模块12021可实时地对排程代理模块12012进行更新。
59.最后，排程优化模块1203可对初始排程结果进行优化以产生最佳排程结果，并经由收发器130将最佳排程结果传送至制造执行系统，其中制造执行系统依据最佳排程结果进行工单指派。详细而言，在排程模块1201产生初始排程结果后，排程优化模块1203可进一步对初始排程结果进行优化的程序，以产生更加适用于目前的工单信息与排程相关信息的最佳排程结果，其中最佳排程结果为在对多个工单进行初始排程后进一步进行优化的最佳结果。借此，制造执行系统便可依据最佳排程结果对生产系统进行工单指派。
60.在一些实施例中，排程模块1201还可包括信息提取模块12011、排程代理模块12012以及工单排程模块12013，或者是可仅包括排程代理模块12012。信息提取模块12011可通过收发器130接收从制造执行系统200传送的工单信息与排程相关信息。排程代理模块12012可将初始排程结果传送至工单排程模块12013。
61.在一些实施例中，排程优化模块1203还可包括编码模块12031与近似最佳化演算模块12032。经由编码模块12031与近似最佳化演算模块12032的处理，可对工单排程模块12013存储的初始排程结果进行优化以产生最佳排程结果。
62.借此，工单排程模块12013可经由收发器130将最佳排程结果传送至制造执行系统200，其中制造执行系统200依据最佳排程结果进行工单指派。详细而言，在排程代理模块12012产生初始排程结果后，排程优化模块1203可进一步对初始排程结果进行优化的程序，以产生更加适用于目前的工单信息与排程相关信息的最佳排程结果。借此，制造执行系统200便可依据最佳排程结果进行工单指派。
63.在一些实施例中，近似最佳化演算模块12032可利用近似最佳化演算法对初始排程结果进行优化以产生最佳排程结果，其中近似最佳化演算法可以是万用启发式演算法或局部搜索法。
64.综上所述，本发明实施例所提出的智慧排程方法与使用此方法的装置结合了强化学习方法与近似最佳化演算法，通过强化学习方法与近似最佳化演算法的结合来有效地增加排程速度并解决动态排程问题，进而提升了工厂生产效率。特别是，本发明实施例在进行排程时可提高排程结果的品质与稳定度。因此，本发明实施例所提出的排程方法能够因应生产线上的不同的需求来进行排程。
65.虽然本发明已以实施例公开如上，然其并非用以限定本公开，任何所属技术领域中技术人员，在不脱离本公开的精神和范围内，当可作些许的变动与润饰，故本公开的保护范围当视权利要求所界定者为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蓝裕斌;谢子钧;方思涵;龚如心
技术所有人：台达电子工业股份有限公司
我是此专利的发明人

上一篇：一种无动力自行式螺旋环缝轨迹跟踪装置的制作方法
上一篇：电梯轿厢与层站侧间隙防护装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。