机器学习装置、基板处理装置、完成学习模型、机器学习方法、机器学习程序与流程

文档序号：29916007发布日期：2022-05-06 04:51阅读：123来源：国知局

1.本公开关于一种机器学习装置、基板处理装置、完成学习模型、机器学习方法、机器学习程序。

背景技术：

2.半导体装置的配线形成程序习知有在配线槽及导通孔中埋入金属(配线材料)的程序(即嵌入法(damascene process))。这是在预先形成于层间绝缘膜的配线槽及导通孔中埋入铝、铜及银等金属后，通过化学机械研磨(cmp)除去多余的金属并加以平坦化的程序技术。
3.图1a至图1d是按照工序顺序表示在半导体装置中形成铜配线的例图。首先，如图1a所示，在形成有半导体元件的半导体基材1上的导电层1a上，例如堆积由二氧化硅(sio2)构成的氧化膜及low－k材膜等的绝缘膜(层间绝缘膜)2，在该绝缘膜2内部例如通过微影蚀刻技术形成作为配线用的微细凹部的导通孔3与配线槽4，在其上通过溅镀等形成由氮化钽(tan)等构成的阻隔层5，进一步在其上形成作为电场镀覆时的馈电层的晶种层6。
4.而后，如图1b所示，通过在基板(研磨对象物)w表面实施铜镀覆，使铜填充于基板w的导通孔3及配线槽4内，并且使铜膜7堆积在绝缘膜2上。然后，如图1c所示，通过化学机械研磨(cmp)等除去阻隔层5上的晶种层6及铜膜7，使阻隔层5的表面露出，进一步如图1d所示，除去绝缘膜2上的阻隔层5，及按照需要除去绝缘膜2表层的一部分，而在绝缘膜2内部形成由晶种层6与铜膜7构成的配线(铜配线)8。
5.为了使研磨程序中的处理量(throughput)提高，而开发出具备两个研磨单元与一个清洗单元的研磨装置。在这种研磨装置中，研磨后的基板(研磨对象物)从两个研磨单元依序供给至一个清洗单元。此时，当1片基板进入清洗工序时，在该清洗工序结束之前，其他基板无法进入清洗工序。因而，会产生无法在研磨之后立刻开始对结束研磨的基板清洗，而在前一个基板清洗结束前等待的状况。
6.此时，在金属膜研磨程序，例如在铜配线形成程序中的铜膜研磨程序中，于研磨后的基板的研磨结束后，原样在潮湿状态下放置不理时，形成基板表面的铜配线的铜会进行腐蚀。因为铜在半导体电路中形成配线，所以其腐蚀会造成配线电阻增大。
7.为了在研磨结束后，到开始清洗之前延缓构成铜配线的铜腐蚀的进行，通常在基板表面供给纯水，避免研磨后的基板表面直接暴露在大气中。但是，该方法无法彻底抑制铜的腐蚀。为了更有效抑制铜的腐蚀，而要求尽量缩短从研磨结束至开始清洗的时间。
8.过去，例如提出有在基板处理装置中按照预定的时间图管理基板的搬送、处理及清洗工序的排程。日本特许第5023146号公报提出有预先存储第一研磨单元及第二研磨单元的平均研磨时间、搬送机构的平均搬送时间、及清洗单元的平均清洗时间，在制作时间图时，以对基板从研磨结束至开始清洗为止的时间为最短的方式，基于预先存储的平均研磨时间、平均搬送时间及平均清洗时间，来决定第一研磨单元及第二研磨单元的开始研磨时
刻。
9.发明要解决的问题
10.但是，依本技术发明人的见解，按照预定的时间图管理工序的方法有以下的不妥。亦即，因为研磨单元的研磨时间是通过检测终点来决定的，所以研磨时间会有变动。此因不同制品是以不同的制程进行终点检测，此外，即使是相同制程，研磨时间与消耗构件的使用时间之间仍有相关。此外，因机械性的变动，各单元的动作时间也会有变动。此外，特定的各单元的动作彼此连锁，有时无法任意动作。此外，也有时多个处理路线混合。此外，也有时因特定单元故障而发生突发性的禁止通行。因此，例如对于平均搬送时间是x秒，实际的动作时间慢了0.5秒时，由于时间图向后偏差，而有可能造成下一个动作产生大幅延迟的状态。
11.因而希望提供一种可按照基板在装置内当时的状态适当决定开始搬送时间及其搬送路线的机器学习装置、基板处理装置、完成学习模型、机器学习方法、机器学习程序。此外，希望提供一种当预定了基板的搬送路线时，可按照基板在装置内当时的状态适当决定开始搬送时间的机器学习装置、基板处理装置、完成学习模型、机器学习方法、机器学习程序。此外，希望提供一种可精确预测在处理单元中的表面处理时间的机器学习装置、基板处理装置、完成学习模型、机器学习方法、机器学习程序。

技术实现要素：

12.本公开一种方式的机器学习装置，对基板处理装置或该基板处理装置的模拟器进行机器学习，所述基板处理装置具有：
13.载置部，该载置部载置收容多片基板的匣盒；
14.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
15.清洗单元，该清洗单元清洗表面处理后的基板；
16.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
17.控制部，该控制部控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
18.所述机器学习装置具备：
19.状态信息取得部，该状态信息取得部取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息；
20.行动选择部，该行动选择部具有预测模型，并将通过所述状态信息取得部取得的状态信息作为输入，基于所述预测模型选择一个行动，该预测模型预测在某个状态下对于进行是否从匣盒取出新的基板及取出时搬送至第一处理单元和第二处理单元中的哪一个的行动的价值；
21.指示信号发送部，该指示信号发送部发送指示信号至所述控制部，以进行通过所述行动选择部选择出的行动；
22.动作结果取得部，在预定片数的基板处理结束后，该动作结果取得部取得动作结果，该动作结果包含每单位时间的处理片数、和由所述清洗单元开始清洗表面处理后的基板之前所等待的等待时间；及
23.预测模型更新部，该预测模型更新部以所述处理片数越多且所述等待时间越短则报酬越大的方式，基于通过所述动作结果取得部取得的动作结果来计算报酬，并基于该报酬来更新所述预测模型。
附图说明
24.图1a是依工序顺序表示在半导体装置中形成铜配线的例图。
25.图1b是依工序顺序表示在半导体装置中形成铜配线的例图。
26.图1c是依工序顺序表示在半导体装置中形成铜配线的例图。
27.图1d是依工序顺序表示在半导体装置中形成铜配线的例图。
28.图2是表示一种实施方式的基板处理装置的整体构成概要的俯视图。
29.图3是表示图2所示的基板处理装置的概要的构成图。
30.图4是以处理量为最大的方式，通过控制部控制图2所示的基板处理装置时的时间图。
31.图5是表示第一种实施方式的机器学习装置的构成方块图。
32.图6是用于说明第一种实施方式的预测模型的构成一例的示意图。
33.图7是表示第一种实施方式的机器学习方法一例的流程图。
34.图8是表示第二种实施方式的机器学习装置的构成方块图。
35.图9是用于说明第二种实施方式的预测模型的构成的示意图。
36.图10是表示第二种实施方式的机器学习方法一例的流程图。
37.图11是表示第三种实施方式的机器学习装置的构成方块图。
38.图12是用于说明第三种实施方式的预测模型的构成的示意图。
39.图13是表示第三种实施方式的机器学习方法一例的流程图。
具体实施方式
40.实施方式的第一方式的机器学习装置，对基板处理装置或该基板处理装置的模拟器进行机器学习，所述基板处理装置具有：
41.载置部，该载置部载置收容多片基板的匣盒；
42.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
43.清洗单元，该清洗单元清洗表面处理后的基板；
44.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
45.控制部，该控制部控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
46.所述机器学习装置的特征在于，具备：
47.状态信息取得部，该状态信息取得部取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息；
48.行动选择部，该行动选择部具有预测模型，并将通过所述状态信息取得部取得的状态信息作为输入，基于所述预测模型选择一个行动，该预测模型预测在某个状态下对于
进行是否从匣盒取出新的基板及取出时搬送至第一处理单元和第二处理单元中的哪一个的行动的价值；
49.指示信号发送部，该指示信号发送部发送指示信号至所述控制部，以进行通过所述行动选择部选择出的行动；
50.动作结果取得部，在预定片数的基板处理结束后，该动作结果取得部取得动作结果，该动作结果包含每单位时间的处理片数、和由所述清洗单元开始清洗表面处理后的基板之前所等待的等待时间；及
51.预测模型更新部，该预测模型更新部以所述处理片数越多且所述等待时间越短则报酬越大的方式，基于通过所述动作结果取得部取得的动作结果来计算报酬，并基于该报酬来更新所述预测模型。
52.采用这种方式时，机器学习装置按照包含基板在基板处理装置内当时的位置、及位于各单元内的基板在该单元内的经过时间的状态信息，试错地基于预测模型，选择是否从匣盒取出新的基板及取出时搬送至第一处理单元和第二处理单元中的哪一个的行动，预定片数的基板处理结束后，每单位时间的处理片数越多，且表面处理后的基板开始清洗前所等待的等待时间越短，获得的报酬越大，基于该报酬来更新预测模型，如此反复来进行预测模型的机器学习(强化学习)。因而，利用通过这种机器学习装置生成的完成学习的预测模型，从而可按照在基板处理装置内当时的状态，(以每单位时间的处理片数增多且等待时间缩短的方式)适当决定开始搬送基板的时刻及其搬送路线。
53.实施方式的第二方式的机器学习装置，如第一方式的机器学习装置，其中，所述第一处理单元和所述第二处理单元是研磨基板的研磨单元。
54.实施方式的第三方式的机器学习装置，如第一或第二方式的机器学习装置，其中，所述状态信息进一步包含所述第一处理单元和所述第二处理单元使用的消耗构件的使用时间。
55.实施方式的第四方式的机器学习装置，如引用第二方式的第三方式的机器学习装置，其中，所述消耗构件是以下元件中的一个或两个以上：安装于旋转台的研磨垫、安装于顶环且支承基板的外周的扣环、及安装于顶环且支承基板的背面的弹性膜。
56.实施方式的第五方式的机器学习装置，如第一至第四中任一方式的机器学习装置，其中，所述状态信息进一步包含预先对收容于所述匣盒内的基板实施的处理的制程信息。
57.实施方式的第六方式的机器学习装置，如第一至第五中任一方式的机器学习装置，其中，所述状态信息进一步包含所述第一处理单元和所述第二处理单元的发生故障信息或连续运转时间。
58.实施方式的第七方式的机器学习装置，如第一至第六中任一方式的机器学习装置，其中，所述状态信息进一步包含在所述第一处理单元和所述第二处理单元进行表面处理的制程信息。
59.实施方式的第八方式的基板处理装置，具备：载置部，该载置部载置收容多片基板的匣盒；
60.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
61.清洗单元，该清洗单元清洗表面处理后的基板；
62.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
63.控制部，该控制部控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
64.所述基板处理装置的特征在于，
65.所述控制部具有通过第一至第七中任一方式的机器学习装置生成的完成学习模型，将包含基板在该基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息作为输入，基于所述完成学习模型来选择是否从匣盒取出新的基板及取出时搬送至第一处理单元和第二处理单元中的哪一个的行动，并控制所述搬送部的动作以进行所选择的行动。
66.实施方式的第九方式的完成学习模型(调谐后的类神经网络系统)，通过对基板处理装置或该基板处理装置的模拟器进行机器学习而生成，所述基板处理装置具有：
67.载置部，该载置部载置收容多片基板的匣盒；
68.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
69.清洗单元，该清洗单元清洗表面处理后的基板；
70.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
71.控制部，该控制部控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
72.所述完成学习模型的特征在于，具有：
73.输入层；一个或两个以上的中间层，该中间层连接于输入层；及输出层，该输出层连接于中间层，
74.取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息，将取得的状态信息输入输入层，由此，基于从输出层输出的对于进行是否从匣盒取出新的基板及取出时搬送至第一处理单元或第二处理单元中的哪一个的行动的价值来选择一个行动，并控制所述搬送部的动作以进行所选择的行动，预定片数的基板处理结束后，取得包含每单位时间的处理片数、和由所述清洗单元开始清洗表面处理后的基板之前所等待的等待时间的动作结果，以所述处理片数越多且所述等待时间越短则报酬越大的方式，基于所取得的动作结果来计算报酬，基于该报酬来更新各节点的参数，通过反复进行这样的处理，从而强化学习所述处理片数增多且所述等待时间缩短的开始搬送基板的时刻及其搬送路线，
75.所述完成学习模型用于使计算机发挥以下功能：将包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息输入输入层时，预测对于进行是否从匣盒取出新的基板及取出时搬送至第一处理单元和第二处理单元中的哪一个的行动的价值，并从输出层输出。
76.实施方式的第十方式的机器学习方法，计算机对基板处理装置或该基板处理装置的模拟器执行该机器学习方法，所述基板处理装置具有：
77.载置部，该载置部载置收容多片基板的匣盒；
78.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
79.清洗单元，该清洗单元清洗表面处理后的基板；
80.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
81.控制部，该控制部控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
82.所述机器学习方法的特征在于，包含如下步骤：
83.状态信息取得步骤，取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息；
84.行动选择步骤，将在所述状态信息取得步骤中取得的状态信息作为输入，基于预测模型，选择一个行动，该预测模式预测在某个状态下对于进行是否从匣盒取出新的基板、及取出时搬送至第一处理单元或第二处理单元中的哪一个的行动的价值；
85.指示信号发送步骤，发送指示信号至所述控制部，以进行在所述行动选择步骤中所选择的行动；
86.动作结果取得步骤，在预定片数的基板处理结束后，取得动作结果，该动作结果包含每单位时间的处理片数、和由所述清洗单元开始清洗表面处理后的基板之前所等待的等待时间；及
87.预测模型更新步骤，以所述处理片数越多且所述等待时间越短则报酬越大的方式，基于在所述动作结果取得步骤中所取得的动作结果来计算报酬，并基于该报酬来更新所述预测模型。
88.实施方式的第十一方式的机器学习程序，是用于使计算机发挥功能，以对基板处理装置或该基板处理装置的模拟器进行机器学习，所述基板处理装置具有：
89.载置部，该载置部载置收容多片基板的匣盒；
90.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
91.清洗单元，该清洗单元清洗表面处理后的基板；
92.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
93.控制部，该控制部控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
94.所述机器学习程序使所述计算机发挥以下部门的功能：
95.状态信息取得部，该状态信息取得部取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息；
96.行动选择部，该行动选择部具有预测模型，并将通过所述状态信息取得部取得的状态信息作为输入，基于所述价值函数选择一个行动，该预测模型预测在某个状态下对于进行是否从匣盒取出新的基板及取出时搬送至第一处理单元和第二处理单元中的哪一个的行动的价值；
97.指示信号发送部，该指示信号发送部发送指示信号至所述控制部，以进行通过所述行动选择部选择出的行动；
98.动作结果取得部，在预定片数的基板处理结束后，该动作结果取得部动作结果，该动作结果取得包含每单位时间的处理片数、和由所述清洗单元开始清洗表面处理后的基板之前所等待的等待时间；及
99.预测模型更新部，该预测模型更新部以所述处理片数越多且所述等待时间越短则报酬越大的方式，基于通过所述动作结果取得部取得的动作结果来计算报酬，并基于该报酬来更新所述预测模型。
100.实施方式的第十二方式的机器学习装置，对基板处理装置或该基板处理装置的模拟器进行机器学习，所述基板处理装置具有：
101.载置部，该载置部载置收容多片基板的匣盒；
102.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
103.清洗单元，该清洗单元清洗表面处理后的基板；
104.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
105.控制部，该控制部按照规定了从所述匣盒取出的基板的序号与搬送至所述第一处理单元和所述第二处理单元中的哪一个的对应关系的搬送原则，控制所述第一处理单元、第二处理单元、所述清洗单元及所述搬送部的动作，
106.所述机器学习装置的特征在于，具备：
107.状态信息取得部，该状态信息取得部取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息；
108.行动选择部，该行动选择部具有预测模型，并将通过所述状态信息取得部取得的状态信息作为输入，基于所述预测模型选择一个行动，该预测模型预测在某个状态下对于进行是否从匣盒取出新的基板的行动的价值；
109.指示信号发送部，该指示信号发送部发送指示信号至所述控制部，以进行通过所述行动选择部选择出的行动；
110.动作结果取得部，在预定片数的基板处理结束后，该动作结果取得部取得包含每单位时间的处理片数的动作结果；及
111.预测模型更新部，该预测模型更新部以所述处理片数越多则报酬越大的方式，基于通过所述动作结果取得部取得的动作结果来计算报酬，并基于该报酬来更新所述预测模型。
112.采用这种方式时，机器学习装置按照包含基板在基板处理装置内当时的位置、及位于各单元内的基板在该单元内的经过时间的状态信息，基于预测模型试错选择是否从匣盒取出新的基板的行动，预定片数的基板处理结束后，每单位时间的处理片数越多，获得的报酬越大，基于该报酬来更新预测模型，如此反复来进行预测模型的机器学习(强化学习)。因而，利用通过这种机器学习装置所生成的完成学习的预测模型，从而可按照在装置内当时的状态，(以每单位时间的处理片数增多的方式)适当决定开始搬送基板的时刻。
113.实施方式的第十三方式的机器学习装置，如第十二方式的机器学习装置，其中，所
述第一处理单元和所述第二处理单元是研磨基板的研磨单元。
114.实施方式的第十四方式的机器学习装置，如第十二或第十三方式的机器学习装置，其中，所述状态信息进一步包含所述第一处理单元和所述第二处理单元使用的消耗构件的使用时间。
115.实施方式的第十五方式的机器学习装置，如引用第十三方式的第十四方式的机器学习装置，其中，所述消耗构件是以下元件中的一个或两个以上：安装于旋转台的研磨垫、安装于顶环且支承基板的外周的扣环、及安装于顶环且支承基板的背面的弹性膜。
116.实施方式的第十六方式的机器学习装置，如第十二至第十五中任一方式的机器学习装置，其中，所述状态信息进一步包含预先对收容于所述匣盒内的基板实施的处理的制程信息。
117.实施方式的第十七方式的机器学习装置，如第十二至第十六中任一方式的机器学习装置，其中，所述状态信息进一步包含所述第一处理单元和所述第二处理单元的连续运转时间。
118.实施方式的第十八方式的机器学习装置，如第十二至第十七中任一方式的机器学习装置，其中，所述状态信息进一步包含在所述第一处理单元和所述第二处理单元进行表面处理的制程信息。
119.实施方式的第十九方式的基板处理装置，具备：
120.载置部，该载置部载置收容多片基板的匣盒；
121.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
122.清洗单元，该清洗单元清洗表面处理后的基板；
123.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
124.控制部，该控制部按照规定了从所述匣盒取出的基板的序号与搬送至所述第一处理单元和所述第二处理单元中的哪一个的对应关系的搬送原则，控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
125.所述基板处理装置的特征在于，
126.所述控制部具有通过第十二至十八中任一方式的机器学习装置生成的完成学习模型，将包含基板在该基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息作为输入，基于所述完成学习模型来选择是否从匣盒取出新的基板的行动，并控制所述搬送部的动作以进行所选择的行动的方式。
127.实施方式的第二十方式的完成学习模型(调谐后的类神经网络系统)，通过对基板处理装置或该基板处理装置的模拟器进行机器学习而生成，所述基板处理装置具有：
128.载置部，该载置部载置收容多片基板的匣盒；
129.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
130.清洗单元，该清洗单元清洗表面处理后的基板；
131.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
132.控制部，该控制部按照规定了从所述匣盒取出的基板的序号与搬送至所述第一处理单元和所述第二处理单元中的哪一个的对应关系的搬送原则，控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
133.所述完成学习模型的特征在于，具有：
134.输入层；一个或两个以上的中间层，该中间层连接于输入层；及输出层，该输出层连接于中间层，
135.取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息，将取得的状态信息输入输入层，由此，基于从输出层输出的对于进行是否从匣盒取出新的基板的行动的价值来选择一个行动，并控制所述搬送部的动作以进行所选择的行动，在预定片数的基板处理结束后，取得包含每单位时间的处理片数的动作结果，以所述处理片数越多则报酬越大的方式，基于所取得的动作结果来计算报酬，基于该报酬来更新各节点的参数的处理，通过反复进行这样的处理，从而强化学习所述处理片数增多的开始搬送基板的时刻及其搬送路线，
136.所述完成学习模型用于使计算机发挥以下功能：将包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息输入输入层时，预测对于进行是否从匣盒取出新的基板的行动的价值，并从输出层输出。
137.实施方式的第二十一方式的机器学习方法，计算机对基板处理装置或该基板处理装置的模拟器执行该机器学习方法，所述基板处理装置具有：
138.载置部，该载置部载置收容多片基板的匣盒；
139.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
140.清洗单元，该清洗单元清洗表面处理后的基板；
141.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
142.控制部，该控制部按照规定了从所述匣盒取出的基板的序号与搬送至所述第一处理单元和所述第二处理单元中的哪一个的对应关系的搬送原则，控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
143.所述机器学习方法的特征在于，包含如下步骤：
144.状态信息取得步骤，取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息；
145.行动选择步骤，将在所述状态信息取得步骤中取得的状态信息作为输入，基于预测模型，选择一个行动，该预测模式预测在某个状态下对于进行是否从匣盒取出新的基板的行动的价值；
146.指示信号发送步骤，发送指示信号至所述控制部，以进行在所述行动选择步骤中所选择的行动的方式；
147.动作结果取得步骤，在预定片数的基板处理结束后，取得包含每单位时间的处理片数的动作结果；及
148.预测模型更新步骤，以所述处理片数越多则报酬越大的方式，基于在所述动作结果取得步骤中所取得的动作结果来计算报酬，并基于该报酬来更新所述预测模型。
149.实施方式的第二十二方式的机器学习程序，是用于使计算机发挥功能，以对基板处理装置或该基板处理装置的模拟器进行机器学习，所述基板处理装置具有：
150.载置部，该载置部载置收容多片基板的匣盒；
151.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
152.清洗单元，该清洗单元清洗表面处理后的基板；
153.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
154.控制部，该控制部按照规定了从所述匣盒取出的基板的序号与搬送至所述第一处理单元和所述第二处理单元中的哪一个的对应关系的搬送原则，控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
155.所述机器学习程序使所述计算机发挥以下部门的功能：
156.状态信息取得部，该状态信息取得部取得包含基板在所述基板处理装置内的位置及位于各单元内的基板在该单元内的经过时间的状态信息；
157.行动选择部，该行动选择部具有预测模型，并将通过所述状态信息取得部取得的状态信息作为输入，基于所述预测模型选择一个行动，该预测模型预测在某个状态下对于进行是否从匣盒取出新的基板的行动的价值；
158.指示信号发送部，该指示信号发送部发送指示信号至所述控制部，以进行通过所述行动选择部选择出的行动；
159.动作结果取得部，在预定片数的基板处理结束后，该动作结果取得部取得包含每单位时间的处理片数的动作结果；及
160.价值函数更新部，该价值函数更新部以所述处理片数越多则报酬越大的方式，基于通过所述动作结果取得部取得的动作结果来计算报酬，并基于该报酬来更新所述预测模型。
161.实施方式的第二十三方式的机器学习装置，对在处理基板表面的处理单元中的表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、所述处理单元的连续运转时间、及在所述处理单元中的实际的表面处理时间的关系性进行机器学习，所述机器学习装置的特征在于，具备：
162.输入信息取得部，该输入信息取得部取得在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间作为输入信息；
163.预测部，该预测部具有预测模型，将通过所述输入信息取得部取得的输入信息作为输入，基于所述预测模型预测并输出在所述处理单元中的表面处理时间，该预测模型基于在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间，预测在所述处理单元中的表面处理时间；
164.实际表面处理时间取得部，该实际表面处理时间取得部取得在所述处理单元中的实际的表面处理时间；及
165.预测模型更新部，该预测模型更新部按照通过所述实际表面处理时间取得部取得的实际的表面处理时间与通过所述预测部预测出的表面处理时间的误差来更新所述预测
模型。
166.采用这种方式时，机器学习装置将在处理单元进行表面处理的制程信息、基板信息、在处理单元内使用的消耗构件的使用时间、处理单元的连续运转时间、与在处理单元中的实际表面处理时间的对应关系作为教师数据，进行预测模型的机器学习(有教师学习)。因而，利用通过这种机器学习装置生成的完成学习的预测模型，从而除了在处理单元进行表面处理的制程信息、及基板信息的外，亦考虑在处理单元内使用的消耗构件的使用时间、与处理单元的连续运转时间，可更精确预测在处理单元中的表面处理时间，由此，在制作时间图时，可基于该预测的表面处理时间，精确决定开始搬送基板的时刻。
167.实施方式的第二十四方式的机器学习装置，如第二十三方式的机器学习装置，其中，所述处理单元是研磨基板的研磨单元。
168.实施方式的第二十五方式的机器学习装置，如第二十四方式的机器学习装置，其中，所述消耗构件是以下元件中的一个或两个以上：安装于旋转台的研磨垫、安装于顶环且支承基板的外周的扣环、及安装于顶环且支承基板的背面的弹性膜。
169.实施方式的第二十六方式的基板处理装置，具备：载置部，该载置部载置收容多片基板的匣盒；
170.第一处理单元和第二处理单元，该第一处理单元和第二处理单元对基板进行表面处理；
171.清洗单元，该清洗单元清洗表面处理后的基板；
172.搬送部，该搬送部在所述载置部、所述第一处理单元、所述第二处理单元及所述清洗单元之间搬送基板；及
173.控制部，该控制部按照规定了从所述匣盒取出的基板的序号、搬送至所述第一处理单元和所述第二处理单元中的哪一个、及基板的搬送开始时刻的对应关系的搬送原则，控制所述第一处理单元、所述第二处理单元、所述清洗单元及所述搬送部的动作，
174.所述基板处理装置的特征在于，
175.所述控制部具有通过二十三至二十五中任一方式的机器学习装置生成的完成学习模型，对收容于所述匣盒的各基板，将在所述第一处理单元或所述第二处理单元进行表面处理的制程信息、基板信息、在所述第一处理单元或所述第二处理单元内使用的消耗构件的使用时间、及所述第一处理单元或所述第二处理单元的连续运转时间作为输入，基于所述完成学习模型预测在所述第一处理单元或所述第二处理单元中的表面处理时间，并基于所预测的表面处理时间决定所述开始搬送时刻。
176.实施方式的第二十七方式的完成学习模型(调谐后的类神经网络系统)，通过对在处理基板表面的处理单元中的表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、所述处理单元的连续运转时间、及在所述处理单元中的实际表面处理时间的关系性进行机器学习而生成，
177.所述完成学习模型的特征在于，具有：
178.输入层；一个或两个以上的中间层，该中间层连接于输入层；及输出层，该输出层连接于中间层，
179.将在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间输入输入层，由此，对从输出层输
出的输出结果与在所述处理单元中的实际的表面处理时间进行比较，按照所述输出结果与所述实际的表面处理时间的误差更新各节点的参数的处理，通过反复进行这样的处理，从而对在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、所述处理单元的连续运转时间、及在所述处理单元中的实际的表面处理时间的关系性进行机器学习，
180.所述完成学习模型使计算机发挥以下功能：将在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间输入输入层时，预测在所述处理单元中的表面处理时间，并从输出层输出。
181.实施方式的第二十八方式的机器学习方法，是计算机执行的机器学习方法，对在处理基板表面的处理单元中的表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、所述处理单元的连续运转时间、及在所述处理单元中的实际的表面处理时间的关系性进行机器学习，
182.所述机器学习方法的特征在于，包含如下步骤：
183.输入信息取得步骤，取得在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间作为输入信息；
184.预测步骤，利用预测模型，将在所述输入信息取得步骤中取得的输入信息作为输入，基于所述预测模型预测在所述处理单元中的表面处理时间，该预测模型基于在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间，预测在所述处理单元中的表面处理时间；
185.实际表面处理时间取得步骤，取得在所述处理单元中的实际的表面处理时间；及
186.学习模型更新步骤，按照在所述实际的表面处理时间取得步骤中所取得的实际的表面处理时间与在所述预测步骤中所预测的表面处理时间的误差来更新所述预测模型。
187.实施方式的第二十九方式的机器学习程序，用于使计算机发挥功能，以对在处理基板表面的处理单元中的表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、所述处理单元的连续运转时间、及在所述处理单元中的实际的表面处理时间的关系性进行机器学习，
188.所述机器学习程序的特征在于，使所述计算机发挥以下部门的功能：
189.输入信息取得部，该输入信息取得部取得在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间作为输入信息；
190.预测部，该预测部具有预测模型，将通过所述输入信息取得部取得的输入信息作为输入，基于所述学习模型预测并输出在所述处理单元中的表面处理时间，该预测模型基于在所述处理单元进行表面处理的制程信息、基板信息、在所述处理单元内使用的消耗构件的使用时间、及所述处理单元的连续运转时间，预测在所述处理单元中的表面处理时间；
191.实际表面处理时间取得部，该实际表面处理时间取得部取得在所述处理单元中的实际的表面处理时间；及
192.学习模型更新部，该学习模型更新部按照通过所述实际表面处理时间取得部取得的实际的表面处理时间与通过所述预测部预测出的表面处理时间的误差来更新所述预测
模型。
193.以下，参照附图来详细说明实施方式的具体例。另外，以下的说明及以下说明时使用的图，对于可相同构成的部分使用相同符号，并且省略重复的说明。
194.以下说明的实施方式说明进行两段研磨的例子，是如图1b所示地对表面形成有铜膜7的基板w，如图1c所示地研磨除去(第一研磨)阻隔层5上的铜膜7及晶种层6而使阻隔层5露出，其次，如图1d所示地研磨除去(第二研磨)绝缘膜2上的阻隔层5及按照需要研磨除去绝缘膜2的表层的一部分。这样的两段研磨仅是一例，本实施方式当然不限定于这种两段研磨。
195.图2是表示一种实施方式的基板处理装置10的整体构成概要的俯视图，图3是表示图2所示的基板处理装置10的概要的构成图。
196.如图2所示，本实施方式的基板处理装置10是研磨装置，且具有：大致矩形形状的机架11；载置收容多片基板(研磨对象物)的多个(图示的例是3个)匣盒12的载置部14；处理(研磨)基板表面的第一处理单元20及第二处理单元30；清洗表面处理(研磨)后的基板的清洗单元40；在载置部14与第一处理单元20及第二处理单元30与清洗单元40之间搬送基板的搬送部50；及控制第一处理单元20及第二处理单元30、清洗单元40及搬送部50的动作的控制部70。
197.其中，载置于载置部14的匣盒12例如收容于smif(标准制造接口(standard manufacturing interface))盒或foup(前开式晶圆传送盒(front openingunified pod)构成的密闭容器内。
198.如图2所示，第一处理单元20及第二处理单元30在机架11的内部配置于沿着其长度方向的一侧(图2中的上侧)。本实施方式的第一处理单元20及第二处理单元30皆是研磨基板的研磨单元。
199.第一处理单元20具有：第一研磨部22与第二研磨部24。第一处理单元20的第一研磨部22具有：将基板w保持为装卸自如的顶环22a；及安装了表面具有研磨面的研磨垫的旋转台22b；第二研磨部24具有：将基板w保持为装卸自如的顶环24a；及安装了表面具有研磨面的研磨垫的旋转台24b。同样地，第二处理单元30具有：第一研磨部32与第二研磨部34。第二处理单元30的第一研磨部32具有：顶环32a与旋转台32b，第二研磨部34具有：顶环34a与旋转台34b。
200.如图2所示，清洗单元40配置于基板处理装置10的内部沿着其长度方向的另一侧(图2中的下侧)。图示的例中，清洗单元40具有：第一清洗机42a、第二清洗机42b、第三清洗机42c、第四清洗机42d、与搬送机构44(参照图3)。第一至第四清洗机42a～42d沿着机架11的长度方向并按照该顺序串联配置。搬送机构44(参照图3)具有与清洗机42a～42d相同数量(图示的例是4个)的机器手，并可沿着清洗机42a～42d的排列(亦即基板处理装置10的长度方向)往返移动。
201.如图3所示，基板w通过搬送机构44的往返移动，而按照第一清洗机42a
→
第二清洗机42b
→
第三清洗机42c
→
第四清洗机42d依序搬送而且清洗。该清洗节拍(清洗时间)以清洗机42a～42d中清洗时间最长的清洗机中的清洗时间来设定，清洗时间最长的清洗机中的清洗工序结束后，驱动搬送机构44来搬送基板w。
202.如图2及图3所示，搬送部50配置于通过载置部14与第一处理单元20、及第二处理
单元30与清洗单元40夹着的区域。图示的例中，搬送部50具有：使研磨前的基板w反转180
°
的第一反转机52a；使研磨后的基板w反转180
°
的第二反转机52b；配置于第一反转机52a与载置部14之间的第一搬送机器人54a；及配置于第二反转机52b与清洗单元40之间的第二搬送机器人54b。
203.如图2及图3所示，在第一处理单元20与清洗单元40之间，从载置部14侧起依序配置有第一线性传输机56a、第二线性传输机56b、第三线性传输机56c及第四线性传输机56d。其中，在第一线性传输机56a的上方配置有上述的第一反转机52a，在其下方配置有可上下升降的升降机58a。此外，在第二线性传输机56b的下方配置有可上下升降的推进机60a，在第三线性传输机56c的下方配置有可上下升降的推进机60b。在第四线性传输机56d的下方配置有可上下升降的升降机58b。
204.如图2及图3所示，在第二处理单元30侧，从载置部14侧起依序配置有第五线性传输机56e、第六线性传输机56f及第七线性传输机56g。其中，在第五线性传输机56e的下方配置有可上下升降的升降机58c。此外，在第六线性传输机56f的下方配置有可上下升降的推进机60c，在第七线性传输机56g的下方配置有可上下升降的推进机60d。
205.其次，对使用由这种构成的基板处理装置(研磨装置)10表面处理(研磨)基板w的工序的一例进行说明。
206.首先，从载置于载置部14的匣盒12的一个通过第一搬送机器人54a取出第奇数片的基板(第一片、第三片
…
的基板)，以第一反转机52a
→
第一线性传输机56a
→
顶环22a(第一处理单元20的第一研磨部22)
→
第二线性传输机56b
→
顶环24a(第一处理单元20的第二研磨部24)
→
第三线性传输机56c
→
第二搬送机器人54b
→
第二反转机52b
→
第一清洗机42a
→
第二清洗机42b
→
第三清洗机42c
→
第四清洗机42d
→
第一搬送机器人54a的路径(搬送路线)搬送，而返回原来的匣盒12。
207.此外，从载置于载置部14的匣盒12的一个通过第一搬送机器人54a取出第偶数片的基板(第二片、第四片
…
的基板)以第一反转机52a
→
第四线性传输机56d
→
第二搬送机器人54b
→
第五线性传输机56e
→
顶环32a(第二处理单元30的第一研磨部32)
→
第六线性传输机56f
→
顶环34a(第二处理单元30的第二研磨部34)
→
第七线性传输机56g
→
第二搬送机器人54b
→
第二反转机52b
→
第一清洗机42a
→
第二清洗机42b
→
第三清洗机42c
→
第四清洗机42d
→
第一搬送机器人54a的路径(搬送路线)搬送，而返回原来的匣盒12。
208.此处，第一处理单元20的第一研磨部22及第二处理单元30的第一研磨部32，如上述，研磨除去(第一研磨)阻隔层5上的铜膜7及晶种层6，第一处理单元20的第二研磨部24及第二处理单元30的第二研磨部34研磨除去(第二研磨)绝缘膜2上的阻隔层5及按照需要研磨除去绝缘膜2的表层的一部分。而后，第二研磨后的基板以清洗机42a～42d依序清洗，并干燥后返回匣盒12。
209.清洗单元40由第一清洗机42a清洗由第一处理单元20研磨的第一片基板后，由搬送机构44同时握持1片基板与由第二处理单元30研磨的第二片基板，并同时将第一片基板搬送至第二清洗机42b，将第二片基板搬送至第一清洗机42a，来同时清洗两片基板。而后，清洗第一片基板及第二片基板后，由搬送机构44同时握持第一片及第二片基板与由第一处理单元20研磨的第三片基板，并同时将第一片基板搬送至第三清洗机42c，将第二片基板搬送至第二清洗机42b，并将第三片基板搬送至第一清洗机42a，来同时清洗3片基板。通过依
序反复进行这种动作，可由一个清洗单元40应付两个处理单元20、30。
210.此时，以处理量为最大的方式通过控制部70控制基板处理装置10时，如图4的时间图所示，研磨第二片基板后，至通过第一清洗机42a清洗之间产生等待清洗时间s1。此外，研磨第三片基板后，至通过第一清洗机42a清洗之间产生等待清洗时间s2。再者，对于第四片基板，在研磨后至通过第一清洗机42a清洗之间产生等待清洗时间s3、s4。因此，在研磨结束后至开始清洗之间产生等待清洗时间时，例如在铜配线形成程序中会有铜腐蚀的顾虑。
211.为了缩短从研磨结束至开始清洗的等待时间，日本特许第5023146号公报提出预先存储有第一研磨单元及第二研磨单元的平均研磨时间、搬送机构的平均搬送时间、与清洗单元的平均清洗时间，制作时间图时，以从对基板研磨结束起至开始清洗的时间为最短的方式，基于平均研磨时间、平均搬送时间及平均清洗时间，决定第一研磨单元及第二研磨单元的开始研磨时刻。
212.但是，依本技术发明人的见解，按照预定的时间图管理工序的方法有以下的不妥。亦即，因为研磨单元的研磨时间是通过检测终点来决定的，所以研磨时间会有变动。此因不同制品是以不同的制程进行终点检测，此外，即使是相同制程，研磨时间与消耗构件的使用时间之间仍有相关。此外，因机械性的变动，各单元的动作时间也会有变动。此外，特定的各单元的动作彼此连锁，有时无法任意动作。此外，也有时多个处理路线混合。此外，也有时因特定单元故障而发生突发性的禁止通行。因此，例如对于平均搬送时间是x秒，实际的动作时间慢了0.5秒时，由于时间图向后偏差，而有可能造成下一个动作产生大幅延迟的状态。
213.(第一种实施方式)
214.以下说明的第一种实施方式的机器学习装置80考虑以上各点而形成，可按照在基板处理装置10内当时的状态(以每单位时间的处理片数增多且等待时间缩短的方式)适当决定基板w的开始搬送时间及其搬送路线。
215.图5是表示第一种实施方式的机器学习装置80的构成方块图。机器学习装置80的至少一部分通过一个计算机或量子计算系统，或是相互经由网络而连接的多台计算机或量子计算系统而构成。
216.如图5所示，机器学习装置80具有：通信部81、控制部82、与存储部83。各部81～83经由总线或网络可通信地连接。
217.其中通信部81是对于基板处理装置10的控制部70的通信界面。通信部81亦可由有线连接、亦可由无线连接于基板处理装置10的控制部70。
218.存储部83例如是快闪存储器等非挥发性数据储存器。存储部83中存储控制部82处理的各种数据。
219.如图5所示，控制部82具有：状态信息取得部82a、行动选择部82b、指示信号发送部82c、动作结果取得部82d、及预测模型更新部82e。这些各部亦可通过机器学习装置80内的处理器执行指定的程序来实现，亦可由硬件安装。
220.本实施方式中，控制部82通过反复进行按照在基板处理装置10内当时的状态的试错，来强化学习达到每单位时间的处理片数增多，且强化学习由清洗单元40开始清洗表面处理后的基板之前等待的等待时间缩短这样的开始搬送基板时间及其搬送路线。强化学习的算法并无特别限定，例如可使用q学习、sarsa法、策略梯度法、actor-critic法等。
221.状态信息取得部82a从基板处理装置10的控制部70以指定的时间间隔(例如每
0.1s)反复取得包含基板w在基板处理装置10内的位置及位于各单元20、30、40内的基板w在该单元内的经过时间的状态信息。
222.状态信息取得部82a从基板处理装置10的控制部70取得的状态信息亦可进一步包含第一处理单元20及第二处理单元30使用的消耗构件的使用时间。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)，与第一处理单元20及第二处理单元30使用的消耗构件的使用时间有相关关系。因此，输入后述的预测模型85的状态信息含有第一处理单元20及第二处理单元30使用的消耗构件的使用时间情况下，可使基于预测模型85的预测精度进一步提高。消耗构件例如亦可是以下元件中的一个或两个以上：安装于旋转台22b、24b、32b、34b的研磨垫；安装于顶环22a、24a、32a、34a而支承基板w的外周的扣环；安装于顶环22a、24a、32a、34a而支承基板w的背面的弹性膜。
223.状态信息取得部82a从基板处理装置10的控制部70取得的状态信息亦可进一步包含对收容于匣盒12内的基板w预先实施的处理的制程信息(例如，图1b所示的基板w表面的铜膜7的成膜条件)。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)与对收容于匣盒12内的基板w预先实施的处理的制程信息有相关关系。因此，输入后述的预测模型85的状态信息含有对收容于匣盒12内的基板w预先实施的处理的制程信息情况下，可使基于预测模型85的预测精度提高。
224.状态信息取得部82a从基板处理装置10的控制部70取得的状态信息亦可进一步包含第一处理单元20及第二处理单元30的发生故障信息或连续运转时间。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30空出运转间隔时，水会滞留，通过重新清洗一次情况会大幅改变，因此，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)与第一处理单元20及第二处理单元30的连续运转时间有相关关系。因此，输入后述的预测模型85的状态信息含有第一处理单元20及第二处理单元30的连续运转时间情况下，可使基于预测模型85的预测精度提高。此外，输入后述的预测模型85的状态信息含有第一处理单元20及第二处理单元30的发生故障信息情况下，亦可使基于预测模型85的预测精度提高。此因，一方单元发生故障情况下，按照其状况通过变更搬送路线朝向未发生故障的单元，可避免因禁止通行而发生大幅延迟。
225.状态信息取得部82a从基板处理装置10的控制部70取得的状态信息亦可进一步包含在第一处理单元20及第二处理单元30的表面处理(研磨处理)的制程信息。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)与在第一处理单元20及第二处理单元30的表面处理(研磨处理)的制程信息有相关关系。因此，输入后述的预测模型85的状态信息含有在第一处理单元20及第二处理单元30的表面处理(研磨处理)的制程信息情况下，可使基于预测模型85的预测精度提高。
226.行动选择部82b具有预测在某个状态s
t
下对于进行是否从匣盒12取出新的基板w，及取出时搬送至第一处理单元20或第二处理单元30的行动的价值(q学习中的q值)的预测模型85(参照图6)。
227.图6是用于说明预测模型85的构成一例的示意图。图6所示的例的预测模型85是类
神经网络系统，且含有具有：输入层；连接于输入层的一个或两个以上的中间层；及连接于中间层的输出层的阶层型的类神经网络或量子类神经网络(qnn)。图6中，阶层型的类神经网络是图示前馈类神经网络，不过可使用卷积类神经网络(cnn)及循环类神经网络(rnn)等各种类型的类神经网络。预测模型85亦可包含中间层为2层以上多层化的类神经网络，亦即深度学习。
228.如图6所示，预测模型85在将通过状态信息取得部82a所取得的状态信息输入输入层时，预测对于进行是否从匣盒12取出新的基板w，及取出时搬送至第一处理单元20或第二处理单元30的行动的价值(q学习中的q值)，并从输出层输出。
229.行动选择部82b亦可具有多个预测模型85，并基于基于该多个预测模型85的预测结果的组合(亦即集成学习)推断各行动的价值(q值)并输出。
230.行动选择部82b将通过状态信息取得部82a所取得的状态信息作为输入，基于预测模型85选择一个行动(亦即，以下行动中的任何一个，从匣盒12取出新的基板w并搬送至第一处理单元20的行动；从匣盒12取出新的基板w并搬送至第二处理单元30的行动；及不从匣盒12取出新的基板w的行动)。作为选择方法，例如亦可行动选择部82b比较通过预测模型85所预测的各行动的价值(q值)，而选择价值(q值)最高的行动(greedy法)，亦可在预定的概率ε以下随机选择行动，在此外的情形则选择价值(q值)最高的行动(ε－greedy法)。
231.指示信号发送部82c以进行通过行动选择部82b选择的行动的方式对基板处理装置10的控制部70发送指示信号。通过按照基板处理装置10的控制部70从指示信号发送部82c所接收的指示信号来行动，基板处理装置10内的状态s
t
转移至其次的状态s
t+1
。
232.预测模型更新部82e在转移后的状态s
t+1
并非最终状态(预定片数的基板处理结束的状态)情况下，将通过状态信息取得部82a取得的转移后的状态s
t+1
的状态信息输入预测模型85的输入层时，亦可基于从输出层输出的各行动的价值中最大的价值(q值)更新预测模型85(例如，更新类神经网络中的各节点的参数(加权、阈值等))。
233.动作结果取得部82d在预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)，从基板处理装置10的控制部70取得包含每单位时间的处理片数、和表面处理后的基板开始由清洗单元40清洗之前等待的等待时间的动作结果。此处的“等待时间”，亦可是处理的多片基板各个等待时间中的最大值，亦可是平均值。
234.预测模型更新部82e在预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)，以处理片数越多且等待时间越短则报酬越大的方式，基于通过动作结果取得部82d所取得的动作结果来计算报酬，再基于该报酬来更新预测模型85(例如，更新类神经网络中的各节点的参数(加权、阈值等))。
235.其次，对于通过以如此结构组成的机器学习装置80进行的机器学习方法的一例进行说明。图7是表示机器学习方法的一例的流程图。
236.如图7所示，首先，开始由基板处理装置10处理一个周期(亦即，预定片数或整批的处理)时，机器学习装置80的控制部82从基板处理装置10的控制部70接收开始处理通知(步骤s10)。
237.而后，状态信息取得部82a从基板处理装置10的控制部70取得包含基板w在基板处理装置10内的位置及位于各单元20、30、40内的基板w在该单元内的经过时间的状态信息(步骤s11)。
238.其次，行动选择部82b将通过状态信息取得部82a所取得的状态信息作为输入，基于预测模型85选择一个行动(亦即，以下行动中的任何一个，从匣盒12取出新的基板w并搬送至第一处理单元20的行动；从匣盒12取出新的基板w并搬送至第二处理单元30的行动；及不从匣盒12取出新的基板w的行动)(步骤s12)。
239.而后，指示信号发送部82c以进行通过行动选择部82b所选择的行动的方式对基板处理装置10的控制部70发送指示信号(步骤s13)。通过按照基板处理装置10的控制部70从指示信号发送部82c接收的指示信号来行动，基板处理装置10内的状态s
t
转移至其次的状态s
t+1
。
240.转移后的状态s
t+1
并非最终状态(预定片数的基板处理结束的状态)情况下(步骤s14：否(no))，从步骤s11起反复进行处理。此时，预测模型更新部82e亦可基于将通过状态信息取得部82a取得的转移后的状态s
t+1
的状态信息输入预测模型85的输入层时，从输出层输出的各行动的价值中的最大价值(q值)来更新预测模型85(例如，更新类神经网络中的各节点的参数(加权、阈值等))。
241.预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)(步骤s14：是(yes))，动作结果取得部82d从基板处理装置10的控制部70取得包含每单位时间的处理片数、及表面处理后的基板w开始由清洗单元40清洗之前等待的等待时间的动作结果(步骤s15)。
242.接着，预测模型更新部82e在预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)，以处理片数越多且等待时间越短则报酬越大的方式，基于通过动作结果取得部82d所取得的动作结果来计算报酬(步骤s16)。
243.而后，预测模型更新部82e基于计算出的报酬来更新预测模型85(例如，更新类神经网络中的各节点的参数(加权、阈值等))(步骤s17)。
244.机器学习装置80的控制部82判断是否到达预定的学习次数(例如10000次)，未到达该学习次数情况下(步骤s18：否)，从步骤s10起反复进行处理。另一方面，到达预定的学习次数情况下(步骤s18：是)，结束处理。由此，获得完成学习的预测模型85(例如，调谐后的类神经网络系统)。
245.通过机器学习装置80生成的完成学习的预测模型85(例如，调谐后的类神经网络系统)可安装于基板处理装置10的控制部70中加以利用。安装了完成学习的预测模型85的基板处理装置10的控制部70将包含基板w在基板处理装置10内的位置及位于各单元20、30、40内的基板在该单元内的经过时间的状态信息作为输入，基于完成学习的预测模型85选择是否从匣盒12取出新的基板w、及取出时搬送至第一处理单元20或第二处理单元30的行动，控制搬送部50的动作以进行所选择的行动。
246.采用以上的第一种实施方式时，机器学习装置80按照包含基板w在基板处理装置10内当时的位置、及位于各单元20、30、40内的基板w在该单元内的经过时间的状态信息，试错地基于预测模型85，选择是否从匣盒取出新的基板w、及取出时搬送至第一处理单元20或第二处理单元30的行动，预定片数的基板处理结束后，获得每单位时间的处理片数越多、且表面处理后的基板开始清洗前等待的等待时间越短而越大的报酬，基于该报酬来更新预测模型，如此反复来进行预测模型85的机器学习(强化学习)。因而，利用通过这种机器学习装置80生成的完成学习的预测模型85，从而可按照在基板处理装置10内当时的状态(以每单
位时间的处理片数增多且等待时间缩短的方式)适当决定开始搬送基板w的时间及其搬送路线。
247.另外，上述第一种实施方式的机器学习装置80对基板处理装置10的实际装置进行机器学习，不过不限定于此，亦可对基板处理装置10的模拟器进行机器学习，亦可在机器学习初期对基板处理装置10的模拟器进行机器学习，在学习进行到某个程度后，对基板处理装置10的实际装置进行机器学习。
248.(第二种实施方式)
249.其次，说明第二种实施方式。使用按照预定时间图管理基板的搬送、处理(研磨)及清洗工序的排程的过去的控制方法，基于研磨单元的研磨时间由终点检测来决定，因而研磨时间存在变动等的理由，如基于平均研磨时间、平均搬送时间及平均清洗时间计算的时刻(无容许时间)进行控制时，确实会产生延迟，造成处理量恶化。因而，通过以容许基板在装置内有一些滞留，稍微提早到达目的部位的方式进行控制则不致产生延迟。该容许时间为过去由人基于经验作调整而统一决定，与在装置内当时的状态无关。
250.在第二种实施方式的机器学习装置180中，基板处理装置10的控制部70按照规定从匣盒12取出的基板w的序号与搬送至第一处理单元20或第二处理单元30的对应关系的搬送原则，控制第一处理单元20、第二处理单元30、清洗单元40及搬送部50的动作时(亦即，预先决定了将从匣盒12新取出的基板w搬送至第一处理单元20或第二处理单元30的搬送路线时)，可按照在基板处理装置10内当时的状态(以每单位时间的处理片数增多的方式)适当决定开始搬送基板w的时间。
251.图8是表示第二种实施方式的机器学习装置180的构成方块图。机器学习装置180的至少一部分通过1台计算机或量子计算系统，或是相互经由网络而连接的多台计算机或量子计算系统而构成。
252.如图8所示，机器学习装置180具有：通信部181、控制部182、与存储部183。各部181～183经由总线或网络可通信地连接。
253.其中通信部181是对基板处理装置10的控制部70的通信界面。通信部181亦可由有线连接、亦可由无线连接于基板处理装置10的控制部70。
254.存储部183例如是快闪存储器等非挥发性数据储存器。存储部183中存储控制部182处理的各种数据。
255.如图8所示，控制部182具有：状态信息取得部182a、行动选择部182b、指示信号发送部182c、动作结果取得部182d、及预测模型更新部182e。这些各部亦可通过机器学习装置180内的处理器执行指定的程序来实现，亦可由硬件安装。
256.本实施方式中，控制部182通过反复进行按照在基板处理装置10内当时的状态的试错，来强化学习达到每单位时间的处理片数增多，且强化学习由清洗单元40开始清洗表面处理后的基板前等待的等待时间缩短这样的开始搬送基板时间及其搬送路线。强化学习的算法并无特别限定，例如可使用q学习、sarsa法、策略梯度法、actor-critic法等。
257.状态信息取得部182a从基板处理装置10的控制部70以指定的时间间隔(例如每0.1s)反复取得包含基板w在基板处理装置10内的位置及位于各单元20、30、40内的基板w在该单元内的经过时间的状态信息。
258.状态信息取得部182a从基板处理装置10的控制部70取得的状态信息亦可进一步
包含第一处理单元20及第二处理单元30使用的消耗构件的使用时间。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)与第一处理单元20及第二处理单元30使用的消耗构件的使用时间有相关关系。因此，输入后述的预测模型185的状态信息含有第一处理单元20及第二处理单元30使用的消耗构件的使用时间情况下，可使基于预测模型185的预测精度进一步提高。消耗构件例如亦可是以下元件中的一个或两个以上：安装于旋转台22b、24b、32b、34b的研磨垫、安装于顶环22a、24a、32a、34a而支承基板w的外周的扣环、及安装于顶环22a、24a、32a、34a而支承基板w的背面的弹性膜。
259.状态信息取得部182a从基板处理装置10的控制部70取得的状态信息亦可进一步包含对收容于匣盒12内的基板w预先实施的处理的制程信息(例如，图1b所示的基板w表面的铜膜7的成膜条件)。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)与对收容于匣盒12内的基板w预先实施的处理的制程信息有相关关系。因此，输入后述的预测模型185的状态信息含有对收容于匣盒12内的基板w预先实施的处理的制程信息情况下，可使基于预测模型185的预测精度提高。
260.状态信息取得部182a从基板处理装置10的控制部70取得的状态信息亦可进一步包含第一处理单元20及第二处理单元30的连续运转时间。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30空出运转间隔时，水会滞留，通过重新清洗一次情况会大幅改变，因此，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)与第一处理单元20及第二处理单元30的连续运转时间有相关关系。因此，输入后述的预测模型185的状态信息含有第一处理单元20及第二处理单元30的连续运转时间情况下，可使基于预测模型185的预测精度提高。
261.状态信息取得部182a从基板处理装置10的控制部70取得的状态信息亦可进一步包含在第一处理单元20及第二处理单元30的表面处理(研磨处理)的制程信息。经本技术发明人反复深刻研究结果发现，第一处理单元20及第二处理单元30的处理时间(例如，通过终点检测而决定的研磨时间)与在第一处理单元20及第二处理单元30的表面处理(研磨处理)的制程信息有相关关系。因此，输入后述的预测模型185的状态信息含有在第一处理单元20及第二处理单元30的表面处理(研磨处理)的制程信息情况下，可使基于预测模型185的预测精度提高。
262.行动选择部182b具有预测在某个状态s
t
下对于进行是否从匣盒12取出新的基板w的行动的价值(q学习中的q值)的预测模型185(参照图9)。
263.图9是用于说明预测模型185的构成一例的示意图。图9所示的例的预测模型185是类神经网络系统，且含有具有：输入层；连接于输入层的一个或两个以上的中间层；及连接于中间层的输出层的阶层型的类神经网络或量子类神经网络(qnn)。图9中，阶层型的类神经网络是图示前馈类神经网络，不过可使用卷积类神经网络(cnn)及循环类神经网络(rnn)等各种类型的类神经网络。预测模型185亦可包含中间层为2层以上多层化的类神经网络，亦即深度学习。
264.如图9所示，预测模型185在将通过状态信息取得部182a所取得的状态信息输入输入层时，预测对于进行是否从匣盒12取出新的基板w，及取出时搬送至第一处理单元20或第
二处理单元30的行动的价值(q学习中的q值)，并从输出层输出。
265.行动选择部182b亦可具有多个预测模型185，并基于通过该多个预测模型185的预测结果的组合(亦即集成学习)推断各行动的价值(q值)并输出。
266.行动选择部182b将通过状态信息取得部182a取得的状态信息作为输入，基于预测模型185选择一个行动(亦即，从匣盒12取出新的基板w的行动、及不从匣盒12取出新的基板w的行动的其中一个)。选择方法例如亦可行动选择部182b比较通过预测模型185所预测的各行动的价值(q值)，而选择价值(q值)最高的行动(greedy法)，亦可在预定的概率ε以下随机选择行动，在此外的情形则选择价值(q值)最高的行动(ε－greedy法)。
267.指示信号发送部182c以进行通过行动选择部182b选择的行动的方式对基板处理装置10的控制部70发送指示信号。通过按照基板处理装置10的控制部70从指示信号发送部182c所接收的指示信号来行动，基板处理装置10内的状态s
t
转移至其次的状态s
t+1
。
268.预测模型更新部182e在转移后的状态s
t+1
并非最终状态(预定片数的基板处理结束的状态)情况下，将通过状态信息取得部182a取得的转移后的状态s
t+1
的状态信息输入预测模型185的输入层时，亦可基于从输出层输出的各行动的价值中最大的价值(q值)更新预测模型185(例如，更新类神经网络中的各节点的参数(加权、阈值等))。
269.动作结果取得部182d在预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)，从基板处理装置10的控制部70取得包含每单位时间的处理片数的动作结果。
270.预测模型更新部182e在预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)，以处理片数越多则报酬越大的方式，基于通过动作结果取得部182d所取得的动作结果来计算报酬，再基于该报酬来更新预测模型185(例如，更新类神经网络中的各节点的参数(加权、阈值等))。
271.其次，对于通过以如此结构组成的机器学习装置180进行的机器学习方法的一例进行说明。图10是表示机器学习方法的一例的流程图。
272.如图10所示，首先，开始由基板处理装置10处理一个周期(亦即，预定片数或整批的处理)时，机器学习装置180的控制部182从基板处理装置10的控制部70接收开始处理通知(步骤s110)。
273.而后，状态信息取得部182a从基板处理装置10的控制部70取得包含基板w在基板处理装置10内的位置及位于各单元20、30、40内的基板w在该单元内的经过时间的状态信息(步骤s111)。
274.其次，行动选择部182b将通过状态信息取得部182a取得的状态信息作为输入，基于预测模型185选择一个行动(亦即，从匣盒12取出新的基板w的行动、及不从匣盒12取出新的基板w的行动的其中一个)(步骤s112)。
275.而后，指示信号发送部182c以进行通过行动选择部182b所选择的行动的方式对基板处理装置10的控制部70发送指示信号(步骤s113)。通过按照基板处理装置10的控制部70从指示信号发送部182c接收的指示信号来行动，基板处理装置10内的状态s
t
转移至其次的状态s
t+1
。
276.转移后的状态s
t+1
并非最终状态(预定片数的基板处理结束的状态)情况下(步骤s114：否(no))，从步骤s111起反复进行处理。此时，预测模型更新部182e亦可基于将通过状态信息取得部182a取得的转移后的状态s
t+1
的状态信息输入预测模型185的输入层时，从输
出层输出的各行动的价值中的最大价值(q值)来更新预测模型185(例如，更新类神经网络中的各节点的参数(加权、阈值等))。
277.预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)(步骤s114：是(yes))，动作结果取得部182d从基板处理装置10的控制部70取得包含每单位时间的处理片数的动作结果(步骤s115)。
278.接着，预测模型更新部182e在预定片数的基板处理结束后(亦即，转移后的状态s
t+1
是最终状态时)，以处理片数增多的方式，基于通过动作结果取得部182d取得的动作结果来计算报酬(步骤s116)。
279.而后，预测模型更新部182e基于计算出的报酬来更新预测模型185(例如，更新类神经网络中的各节点的参数(加权、阈值等))(步骤s117)。
280.然后，机器学习装置180的控制部182判断是否到达预定的学习次数(例如10000次)，未到达该学习次数情况下(步骤s118：否)，从步骤s110起反复进行处理。另一方面，到达预定的学习次数情况下(步骤s118：是)，结束处理。由此，获得完成学习的预测模型185(例如，调谐后的类神经网络系统)。
281.通过机器学习装置180生成的完成学习的预测模型185(例如，调谐后的类神经网络系统)可安装于基板处理装置10的控制部70中加以利用。安装了完成学习的预测模型185的基板处理装置10的控制部70按照规定了从匣盒12取出的基板w的序号、与搬送至第一处理单元20或第二处理单元30的对应关系的搬送原则，来控制第一处理单元20、第二处理单元30、清洗单元40及搬送部50的动作，并将包含基板w在基板处理装置10内的位置及位于各单元20、30、40内的基板在该单元内的经过时间的状态信息作为输入，基于完成学习的预测模型185，控制搬送部50的动作，以选择是否从匣盒12取出新的基板w的行动，进行所选择的行动。
282.采用以上的第二种实施方式时，机器学习装置180按照包含基板w在基板处理装置10内当时的位置、及位于各单元20、30、40内的基板w在该单元内的经过时间的状态信息，试错地基于预测模型185，选择是否从匣盒取出新的基板w的行动，预定片数的基板处理结束后，获得每单位时间的处理片数越多而越大的报酬，基于该报酬来更新预测模型，如此反复来进行预测模型185的机器学习(强化学习)。因而，利用通过这种机器学习装置180生成的完成学习的预测模型185，从而可按照在基板处理装置10内当时的状态(以每单位时间的处理片数增多的方式)适当决定开始搬送基板w的时间。
283.另外，上述第二种实施方式的机器学习装置180对基板处理装置10的实际装置进行机器学习，不过不限定于此，亦可对基板处理装置10的模拟器进行机器学习，亦可在机器学习初期对基板处理装置10的模拟器进行机器学习，在学习进行到某个程度后，对基板处理装置10的实际装置进行机器学习。
284.(第三种实施方式)
285.其次，说明第三种实施方式。过去是使用排程器，按照预定的时间图来管理基板的搬送、处理(研磨)及清洗工序，在如此过去的控制方法，基于即使是相同制程，由于研磨时间与消耗构件的使用时间之间有相关等的理由，如基于平均研磨时间、平均搬送时间及平均清洗时间计算出的时刻进行控制时，有的情况下仍会产生延迟，造成处理量恶化。
286.在第三种实施方式的机器学习装置280中，基板处理装置10的控制部70按照规定
了从匣盒12取出的基板w的序号与搬送至第一处理单元20或第二处理单元30、及其开始搬送时刻的对应关系的搬送原则，控制第一处理单元20、第二处理单元30、清洗单元40及搬送部50的动作时(亦即，预先决定了从匣盒12取出新的基板w的时间、与将取出的基板w搬送至第一处理单元20或第二处理单元30的搬送路线时)，除了在处理单元进行表面处理(研磨)的制程信息、及基板信息之外，亦考虑在处理单元内使用的消耗构件的使用时间、与处理单元的连续运转时间，可精确预测在处理单元中的表面处理时间，由此，制作时间图(搬送原则)时，可基于该预测的表面处理时间来精确决定基板的开始搬送时间。
287.图11是表示第三种实施方式的机器学习装置280的构成方块图。机器学习装置280的至少一部分通过1台计算机或量子计算系统，或是相互经由网络而连接的多台计算机或量子计算系统而构成。
288.如图11所示，机器学习装置280具有：通信部281、控制部282、与存储部283。各部281～283经由总线或网络可通信地连接。
289.其中通信部281是对基板处理装置10的控制部70的通信界面。通信部281亦可由有线连接、亦可由无线连接于基板处理装置10的控制部70。
290.存储部283例如是快闪存储器等非挥发性数据储存器。存储部283中存储控制部282处理的各种数据。
291.如图11所示，控制部282具有：输入信息取得部282a、预测部282b、实际表面处理时间取得部282c、及预测模型更新部282d。这些各部亦可通过机器学习装置280内的处理器执行指定的程序来实现，亦可由硬件安装。
292.本实施方式中，控制部282是机器学习(有教师学习)以下信息的关系性：处理基板w表面的第一处理单元20(或第二处理单元30)中的表面处理的制程信息、基板信息、在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、第一处理单元20(或第二处理单元30)的连续运转时间、与在第一处理单元20(或第二处理单元30)中的实际的表面处理时间。
293.输入信息取得部282a从基板处理装置10的控制部70取得在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、基板信息(例如图1b所示的基板w表面的铜膜7的成膜条件)、在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间作为输入信息。消耗构件例如亦能够是以下元件中的一个或两个以上：安装于旋转台22b、24b、32b、34b的研磨垫、安装于顶环22a、24a、32a、34a而支承基板w的外周的扣环、及安装于顶环22a、24a、32a、34a而支承基板w的背面的弹性膜。
294.经本技术发明人反复深刻研究结果发现，第一处理单元20(或第二处理单元30)的处理时间(例如，通过终点检测而决定的研磨时间)与第一处理单元20(或第二处理单元30)使用的消耗构件的使用时间有相关关系。此外，经本技术发明人反复深刻研究结果发现，第一处理单元20(或第二处理单元30)空出运转间隔时，水会滞留，通过重新清洗一次情况会大幅改变，因此，第一处理单元20(或第二处理单元30)的处理时间(例如，通过终点检测而决定的研磨时间)与第一处理单元20(或第二处理单元30)的连续运转时间有相关关系。因此，通过输入后述的预测模型285的输入信息含有消耗构件的使用时间与该处理单元的连续运转时间，可使基于预测模型285的预测精度显著提高。
295.预测部282b具有预测模型285(参照图12)，该预测模型285基于在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、基板信息、在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间，预测在第一处理单元20(或第二处理单元30)中的处理时间。
296.图12是用于说明预测模型285的构成一例的示意图。图12所示的例中，预测模型285是类神经网络系统，且含有具有：输入层；连接于输入层的一个或两个以上的中间层；及连接于中间层的输出层的阶层型的类神经网络或量子类神经网络(qnn)。图12中，阶层型的类神经网络是图示前馈类神经网络，不过可使用卷积类神经网络(cnn)及循环类神经网络(rnn)等各种类型的类神经网络。预测模型285亦可包含中间层为2层以上多层化的类神经网络，亦即深度学习。
297.如图12所示，预测模型285在将输入信息取得部282a所取得的输入信息(亦即，在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、基板信息、在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间)输入输入层时，预测在第一处理单元20(或第二处理单元30)中的表面处理时间，并从输出层输出。
298.实际表面处理时间取得部282c从基板处理装置10的控制部70取得在第一处理单元20(或第二处理单元30)中的实际表面处理时间。
299.预测模型更新部282d比较通过实际表面处理时间取得部282c所取得的实际表面处理时间、与通过预测部282b所预测的表面处理时间，并按照其误差更新预测模型285(例如，更新类神经网络中的各节点的参数(加权、阈值等))。
300.其次，说明通过以如此结构组成的机器学习装置280进行的机器学习方法的一例。图13是表示机器学习方法的一例的流程图。
301.如图13所示，首先输入信息取得部282a从基板处理装置10的控制部70取得在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、基板信息(例如图1b所示的基板w表面的铜膜7的成膜条件)、在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间作为输入信息(步骤s211)。
302.其次，预测部282b将通过输入信息取得部282a所取得的输入信息(亦即，在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、基板信息、在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间)作为输入，基于预测模型285预测在第一处理单元20(或第二处理单元30)中的表面处理时间并输出(步骤s212)。
303.其次，实际表面处理时间取得部282c从基板处理装置10的控制部70取得在第一处理单元20(或第二处理单元30)中的实际表面处理时间(步骤s213)。
304.而后，预测模型更新部282d比较通过实际表面处理时间取得部282c所取得的实际表面处理时间、与通过预测部282b所预测的表面处理时间，并按照其误差更新预测模型285(例如，更新类神经网络中的各节点的参数(加权、阈值等))(步骤s214)。
305.然后，机器学习装置280的控制部282判断是否到达预定的学习次数(例如10000次)，未到达该学习次数情况下(步骤s215：否)，从步骤s211起反复进行处理。另一方面，到
达预定的学习次数情况下(步骤s215：是)，结束处理。由此，获得完成学习的预测模型285(例如，调谐后的类神经网络系统)。
306.通过机器学习装置280生成的完成学习的预测模型285(例如，调谐后的类神经网络系统)可安装于基板处理装置10的控制部70中加以利用。安装了完成学习的预测模型285的基板处理装置10的控制部70按照规定了从匣盒12取出的基板w的序号、与搬送至第一处理单元20或第二处理单元30、及其开始搬送时刻的对应关系的搬送原则，来控制第一处理单元20及第二处理单元30与清洗单元40与搬送部50的动作，并将在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、基板信息(例如图1b所示的基板w表面的铜膜7的成膜条件)、在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间作为输入，基于完成学习的预测模型285预测在第一处理单元20(或第二处理单元30)中的表面处理时间，制作时间图(搬送原则)时，基于该预测的表面处理时间决定开始搬送基板的时刻。另外，制作时间图时，基于预测表面处理时间来决定开始搬送基板的时刻的具体方法，例如，可利用日本特许第5023146号公报所提出的方法。
307.采用以上的第三种实施方式时，机器学习装置280将在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、与基板信息、与在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间、与第一处理单元20(或第二处理单元30)中的实际表面处理时间的对应关系作为教师数据，进行预测模型285的机器学习(有教师学习)。因而，利用通过这种机器学习装置280生成的完成学习的预测模型285，从而除了在第一处理单元20(或第二处理单元30)进行表面处理的制程信息、基板信息的外，亦考虑在第一处理单元20(或第二处理单元30)内使用的消耗构件的使用时间、与第一处理单元20(或第二处理单元30)的连续运转时间，可精确预测在第一处理单元20(或第二处理单元30)中的表面处理时间，由此，制作时间图时，可基于该预测的表面处理时间精确决定开始搬送基板的时刻。
308.另外，上述实施方式的机器学习装置80、180、280可通过1台计算机或量子计算系统，或是相互经由网络而连接的多台计算机或量子计算系统而构成，不过，用于使1台或多台计算机或量子计算系统实现机器学习装置80、180、280的程序，及非暂时性(non-transitory)存储该程序的计算机可读取的存储介质，亦为本技术的保护对象。
309.以上，通过例示说明实施方式及修改例，不过，本技术的范围并非限定于这些，在权利要求所记载的范围内可按照目的而变更、修改。此外，各种实施方式及修改例在不使处理内容产生矛盾范围内可适当组合。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：中村显中村贵正鸟越恒男大泷裕史
技术所有人：株式会社荏原制作所
我是此专利的发明人

该领域下的技术专家

1、王老师：功能高分子材料，污水处理，电化学合成

2、赵老师：1. 金属材料表面改性技术 2. 超硬陶瓷材料制备与表面硬化 3. 规整纳米材料制备及应用研究

3、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究

4、王老师：1.精密/超精密加工技术 2.超声波特种加工 3.超声/电火花复合加工 4.超声/激光复合加工 5.复合能量材料表面改性 6.航空航天特种装备研发

5、郝老师：1. 先进材料制备 2. 环境及能源材料的制备及表征 3. 功能涂层的设计及制备 4. 金属基复合材料制备

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！