具有加工时间测量功能和在机测量功能的加工装置的制作方法

文档序号：11132966阅读：373来源：国知局

本发明涉及一种具有加工时间测量功能和在机(On-machine)测量功能的带控制装置的加工装置。

背景技术：

以往，进行以下加工：作成加工程序，并基于该加工程序控制加工装置来加工工件。在加工装置进行的工件加工中，作业人员在保持预定水准以上的加工精度的同时，调整加工条件使得能够以更短的时间进行加工。但是，关于对加工条件的调整，根据工具的特性、工件的特性、加工内容、加工装置的种类等不同，加工条件的最佳值不同，因此作业人员每次进行新的加工都根据知识和经验一边试错一边付出劳动调整加工条件。

作为这样的与加工条件的调整相关的现有技术，在国际公开第00/010769号公开了这样一种方案：以支援作业人员为目的，将过去进行的加工运转中使用的加工条件数据库化来进行利用。

作业人员能够通过使用上述的公知技术，对相似状况的加工条件进行再利用，因此能够在某种程度上减轻加工条件调整的劳动。但是，将过去的加工条件从数据库读出后，为了根据当前加工状况来调整该读出的加工条件，作业人员不得不进行试错，这点没有改变，该公知技术不能完全减轻作业人员的劳动。

技术实现要素：

因此，本发明的目的在于提供一种具有加工时间测量功能和在机测量功能的带控制装置的加工装置，能够根据加工状况的变化来求出适当的加工条件。

本发明的加工装置包括：在机测量部，其以在机的方式对工件的加工形状进行测量；加工时间测量部，其测量工件的加工时间；以及机械学习器，其将所述加工形状与所述工件的设计数据之间的加工精度、以及所述加工时间作为输入来进行机械学习，其中，所述机械学习器构成为：基于机械学习的结果来变更加工条件，以提高所述加工精度或者使所述加工时间最短。

也可以是，所述机械学习器以如下方式进行机械学习：以所述加工装置将所述工件加工成了所述加工形状与所述工件的设计数据之间的误差变小的情况或者缩短了所述加工时间的情况作为正回报，以所述加工装置将所述工件加工成了所述加工形状与所述工件的设计数据之间的误差变大的情况或者延长了所述加工时间的情况作为负回报。

也可以是，所述机械学习器构成为：在机械学习时，对重视减小所述加工形状与所述工件的设计数据之间的误差以及缩短加工时间中的哪一个进行加权。

也可以是，该加工装置能够与至少一个其他加工装置相连接，并与所述其他加工装置之间相互交换或者共享机械学习的结果。

本发明的机械学习器，其对加工装置进行的工件加工中的加工条件的调整完成机械学习，其中，该机械学习器包括：学习结果存储部，其存储所述加工条件的调整的机械学习结果；状态观测部，其取得状态数据，该状态数据至少包括由所述加工装置进行的工件加工中的加工时间、工件的加工精度以及加工条件；加工条件调整学习部，其基于所述加工条件的调整的机械学习结果以及所述状态观测部取得到的所述状态数据，来进行所述加工条件的调整；以及加工条件输出部，其输出所述加工条件调整学习部调整后的所述加工条件。

通过本发明的具有加工时间测量功能和在机测量功能的带控制装置的加工装置，通过向带控制装置的加工装置导入机械学习(machine learning)，能够根据加工状况来求出能保持加工精度并且以更短时间进行加工的适当的加工条件。

附图说明

从参照附图进行的以下实施例的说明能够了解本发明的上述说明及其他目的、特征。这些附图中：

图1是说明强化学习算法的基本概念的图。

图2是本发明的实施方式的加工装置的与机械学习相关的视图。

图3是对本发明的实施方式中处理的各数据进行说明的图。

图4是本发明的实施方式的加工装置的功能框图。

具体实施方式

在本发明中，向进行工件加工的加工装置导入作为人工智能的机械学习器，通过对工件加工中的加工条件的调整进行机械学习，能够对工件加工自动求出最佳加工条件。加工条件的调整的目的在于更短时间的加工和加工精度的维持。

[1]机械学习

通常，机械学习根据其目的、条件分类为有教师学习(supervised learning)、无教师学习(unsupervised learning)等各种算法。在本发明中，以学习调整向加工工件的加工装置设定的加工条件为目的，考虑到基于设定好的加工条件利用加工装置进行加工的结果是难以明确地指示针对测量出的加工时间和加工精度进行什么样的行为(进给速度、主轴转速、带输送、单刃进给等调整)是否正确，采用仅通过给予回报机械学习器就自动地学习用于达到目标的行为的强化学习算法。

图1是说明强化学习算法的基本概念的图。

在强化学习(reinforcement learning)中，通过成为学习的主体的智能体(机械学习器)与成为控制对象的环境(控制对象系统)之间的交换，智能体学习和行为得以推进。更具体而言，

(1)智能体对某时刻的环境状态s_t进行观测，

(2)基于观测结果和过去的学习选择自己能够取得的行为a_t，执行行为a_t，

(3)因执行所述行为a_t，环境状态s_t向下一状态s_t+1变化，

(4)基于作为行为a_t的结果的状态变化，智能体收到回报r_t+1，

(5)智能体基于状态s_t、行为a_t、回报r_t+1及过去的学习结果来进行学习，在智能体与环境之间进行这样的交换。

在所述(5)的学习中，作为用于判断将来能够取得的回报量的基准的信息，智能体获得观测到状态s_t、行为a_t、回报r_t+1的映射。例如，设各时刻取得的状态个数为m，取得的行为个数为n，则通过反复执行行为能够获得存储与状态s_t和行为a_t的组相应的回报r_t+1的m×n的二维阵列。

然后，基于上述获得的映射使用表示当前的状态、行为有多好的函数即价值函数(评价函数)，在反复执行行为的过程中更新价值函数(评价函数)，从而学习与状态相应的最佳行为。

状态价值函数是表示某状态s_t是多好的状态的价值函数。该状态价值函数表现为以状态作为自变量的函数，在反复执行行为的过程中的学习中，基于针对某状态下的行为获得的回报、由于该行为而要变化的未来状态的价值等，来更新状态价值函数。

对应于强化学习的算法来定义状态价值函数的更新式，例如，强化学习算法之一的TD学习的情况下，利用下述式(1)定义状态价值函数。在式(1)中，α是学习系数，γ是折扣率，0＜α≤1，0＜γ≤1。

V(s_t)←V(s_t)+α[r_t+1+γV(s_t+1)-V(s_t)]……(1)

另外，行为价值函数是表示在某状态s_t下行为a_t是多好的行为的价值函数。行为价值函数表现为以状态和行为作为自变量的函数，在反复执行行为的过程中的学习中，基于针对某状态下的行为获得的回报、由于该行为而要变化的未来状态的行为价值等，来更新行为价值函数。对应于强化学习的算法来定义行为价值函数的更新式，例如，代表性的强化学习算法之一的Q学习的情况下，利用下述式(2)定义行为价值函数。在式(2)中，α是学习系数，γ是折扣率，0＜α≤1，0＜γ≤1。

另外，对于存储作为学习结果的价值函数(评价函数)的方法，除了使用近似函数方法、使用阵列的方法以外，例如在状态s取得较多状态这样的情况下，有使用以状态s_t、行为a_t为输入，来输出价值(评价)的多值输出的SVM、神经网络等有教师学习器的方法等。

然后，在选择上述(2)的行为时，使用利用过去的学习而作成的价值函数(评价函数)来选择在当前状态s_t下到将来时的回报(r_t+1+r_t+2+…)为最大的行为a_t(在使用状态价值函数的情况下，是用于向价值最高的状态变化的行为，在使用行为价值函数的情况下，是在该状态下价值最高的行为)。另外，在智能体的学习中以学习的进展为目的，在所述(2)的行为选择时以一定的概率选择随机行为，也是有效的(ε贪婪算法)。

这样，通过反复进行(1)～(5)，学习得以进展。在某环境下学习完成之后，即使在处于新环境的情况下，也能够通过进行追加学习来进行学习，以适应该环境。因而，像本发明这样应用于加工装置的工件加工中的加工条件的决定，从而即使在进行基于新的设计数据的工件加工时，也能够基于过去的加工条件调整的学习来进行以新的设计数据作为新环境的追加学习，由此在短时间内进行适当的加工条件的调整。

另外，在强化学习中，通过将多个智能体经由网络等连接起来形成系统，在智能体之间共享状态s、行为a、回报r等信息而利用各智能体的学习，从而各智能体能够进行将其他智能体的环境也考虑在内地学习的分散强化学习，这样，能够进行高效率的学习。在本发明中，还能够通过在控制多个环境(成为控制对象的加工装置)的多个智能体(机械学习器)经由网络等连接起来的状态下进行分散机械学习，而高效率地进行加工装置的工件加工中的加工条件调整的学习。

另外，作为强化学习的算法，公知有Q学习、SARSA法、TD学习、AC法等各种方法，作为适用于本发明的方法可以采用任一种强化学习算法。另外，各强化学习算法是公知的，因此本说明书省略了对各算法的详细说明。

以下，基于具体的实施方式对导入有机械学习器的本发明的加工装置进行说明。

[2]实施方式

图2是表示本发明的一实施方式的导入有成为人工智能的机械学习器的加工装置的与加工条件调整的机械学习相关的示意图。另外，在图2中仅示出了本实施方式的加工装置的机械学习的说明所必需的结构。

在本实施方式中，作为机械学习器20确定环境(在所述“[1]机械学习”中说明的状态s_t)用的信息，将作为加工装置的输出数据的“加工精度”和“加工时间”输入机械学习器。“加工时间”是由加工装置1所具有的加工时间测量部4测量出的值，“加工精度”是基于由加工装置1所具有的在机测量部3测量出的加工后工件的加工形状与利用CAD等作成的设计数据(表示作为目标的加工后工件的加工形状的数据)而算出的值(设计数据表示的加工形状与加工后工件的加工形状之间的误差)。

本实施方式的加工装置1具有在机测量部3，能够在固定于加工装置1的状态下对工件的加工形状进行测量。加工装置1将设计数据表示的工件的加工形状与由在机测量部3测量出的加工后工件的加工形状相比较，算出加工精度的数据。

图3是表示本实施方式的加工精度的数据的一例的图。

作为加工精度的数据种类，例如能够列举出：表示各工件的高度差的设计数据的深度方向(Z轴方向)上的长度与加工后工件的深度方向上的长度之间的误差的深度方向精度Az、表示各工件的高度差的设计数据的宽度方向(X轴方向)上的长度与加工后工件的宽度方向上的长度之间的误差的宽度方向精度Ax、表示在各工件的拐角部由于内转误差等原因导致的设计数据与加工后工件的误差(拐角附近部分的体积差)的拐角部精度Ac、表示在各加工面由于加工面的加工后的粗糙度、变形等原因产生的设计数据与加工后工件的误差(面附近部分的体积差)的面精度As等。

针对工件的各部分求出表示这些各加工精度的数据，可以将各值用作机械学习器20决定状态用的参数，也可以将针对工件的各部分求出的加工精度的绝对值按照深度方向精度、宽度方向精度等加工精度的种类累计而得到的值用作(例如，图3的工件上的两个高度差形状的深度方向精度分别记作A_z₁、A_z2时，将|A_z₁|+|A_z2|作为深度方向精度算出等)作为机械学习器20决定状态用的参数。

另外，在图3中所示的加工精度的数据不过是一个例子，也可以采用其他的加工精度的表现方法。另外，也可以适当决定与加工的种类、加工对象等相应的加工精度的数据种类，例如，在切削螺纹加工的情况下也可以采用螺纹槽深度精度。

在本实施方式中，作为机械学习器20向环境的输出(在所述“[1]机械学习”中说明的行为a_t)，输出了要向加工装置1输入的加工条件的调整量。作为加工条件，例如能够列举出进给速度、主轴转速、带输送、单刃进给等。

另外，在本实施方式中，作为机械学习器20收到的回报(在所述“[1]机械学习”中说明的回报rt)，使用加工时间和加工精度数据。在回报的算出中，对于加工时间，设定为从预定的基准值的角度来看越短则是正值越大的回报，越长则是负值越大的回报。另外，对于加工精度数据，设定为从预定的基准值的角度来看越接近0则是正值越大的回报，比预定的基准值大得越多则是负值越大的回报。关于加工时间、加工精度数据的预定的基准值，能够从对加工装置1的加工条件进行初始设定后进行工件加工时测量出的加工时间及加工精度的数据求得。

另外，关于基于哪个数据决定回报，操作人员也可以根据加工装置1的工件加工内容来适当设定。

另外，在本实施方式中，机械学习器20基于上述状态、行为及回报进行机械学习。在机械学习中，在某时刻t，利用输入数据的组合定义状态s_t，针对该定义的状态s_t进行的加工条件的变更成为行为a_t，然后，利用该行为a_t进行了加工条件的变更，基于作为进行加工条件的变更的结果而新得到输入数据评价计算得出的值成为回报r_t+1。这些状态s_t、行为a_t及回报r_t+1如在所述“[1]机械学习”中说明的那样，通过应用与机械学习的算法相应的价值函数(评价函数)的更新式来推进学习。

以下，使用图4的功能框图对本发明的一实施方式的加工装置进行说明。

加工装置1包括：在零件加工中用于驱动各轴的伺服电动机等驱动部(未图示)、对这些伺服电动机进行控制的伺服控制部(未图示)、周边设备(未图示)、对这些驱动部和周边设备进行控制的控制部2、对由加工装置1加工的工件的加工形状在机测量的在机测量部3、对工件的加工所花费的加工时间进行测量的加工时间测量部4、进行机械学习的成为人工智能的机械学习器20。

将图4所示的加工装置的结构与图1所示的强化学习算法的要素相对比，包括图4的加工装置1通常所具有的伺服电动机等驱动部及伺服控制部(未图示)、周边设备(未图示)及控制部2等在内的整体与图1的强化学习算法中的“环境”相对应，另外，图4的加工装置1的机械学习器20与图1的强化学习算法中的“智能体”相对应。

控制部2对从存储器(未图示)读出的或者经由输入设备(未图示)输入的程序进行解析来对加工装置1的各部进行控制。在该控制部2中，工件的加工所用的加工条件和表示利用程序加工的工件的加工形状的设计数据预先存储于存储器。

在机测量部3具有对由加工装置1加工的工件的加工形状在机测量的功能，例如由激光测量器、磁测量器等构成，在被固定于加工装置1的状态下对工件的加工形状进行测量。测量出的工件加工形状向控制部2输入。然后，基于从在机测量部3输入的加工后工件的加工形状和存储于未图示的存储器的表示作为目标的工件的加工形状的设计数据，算出加工后工件的加工形状的加工精度。如上述那样按照工件的各部位算出加工精度。

加工时间测量部4对利用加工装置1进行一个工件的加工所花费的加工时间进行测量，例如，使用控制部2的计时功能等对从用于加工的程序启动开始到结束为止的时间进行测量，作为加工时间。

然后，将测量出的加工时间和算出的加工精度用于计算机械学习器20的学习中的回报。

进行机械学习的机械学习器20如图4所示那样包括：状态观测部21、状态数据存储部22、回报条件设定部23、回报计算部24、加工条件调整学习部25、学习结果存储部26、加工条件输出部27。该机械学习器20可以设置于加工装置1内，也可以设置于加工装置1外的计算机等。

状态观测部21经由控制部2对加工装置1的相关状态数据进行观测，并将其取到机械学习器20内。观测的状态数据包括所述加工时间及加工精度的相关数据等。

状态数据存储部22输入并存储状态数据，将该存储的状态数据向回报计算部24、加工条件调整学习部25输出。向状态数据存储部22输入的状态数据可以是最新的加工运转所取得的数据，也可以是过去的加工运转所取得的数据。另外，也可以将存储于其他加工装置1、集中管理系统30的状态数据输入并存储于状态数据存储部22或者将状态数据存储部22存储的状态数据向其他加工装置1、集中管理系统30输出。

回报条件设定部23对在机械学习中收到回报的条件进行设定。收到的回报有正回报和负回报，可以适当设定。此外，也可以从在集中管理系统30使用的计算机、平板电脑终端等进行向回报条件设定部23的输入，但是通过设置为能够经由加工装置1所具有的MDI设备(未图示)输入，能够更简便地进行设定。

回报计算部24基于在回报条件设定部23设定的条件对从状态观测部21或者状态数据存储部22输入的状态数据进行分析，并将计算出的回报向加工条件调整学习部25输出。

以下，示出本实施方式的在回报条件设定部23设定的回报条件的例子。

[回报1：加工时间的缩短(正回报、负回报)]

一个工件的加工所花费的加工时间缩短的情况下，零件加工的周期会得到提高，因此与其程度相应地收到正回报。在回报的算出中，对于“加工时间”，设定为从“预定的基准值”的角度来看越短则成为正值越大的回报，越长则成为负值越大的回报。关于“加工时间的预定的基准值”，可以以在对加工装置1的加工条件进行初始设定后进行工件的加工时测量出的加工时间为基准。

[回报2：加工精度的提高(正回报、负回报)]

在相对于由设计数据表示的作为目标的工件的加工形状而言、加工后工件的加工形状的加工精度高的情况下，与其程度相应地收到正回报。也可以如上述那样按照加工精度的种类算出基于加工精度的回报。在回报的算出中，对于加工精度数据，设定为从“预定的基准值”的角度来看越接近0则是正值越大的回报，比预定的基准值大得越多则是负值越大的回报。关于加工精度数据的“预定的基准值”，可以以在对加工装置1的加工条件进行初始设定后进行工件的加工时测量出的加工精度数据为基准。

另外，对于由加工时间得到的回报和由加工精度得到的回报，也可以与其重要度相应地进行加权。这样，能够学习进行重视加工时间的加工条件的调整、或者学习进行重视加工精度的加工条件的调整。

另外，如上述那样，在具有多个加工精度数据的情况下，也可以对每个加工精度数据进行加权。通过这样，能够进行重视深度方向精度或者重视拐角部精度的学习。

回到图4，对于加工条件调整学习部25，每当利用加工装置1进行的一个工件加工结束时，就会基于状态数据、自身进行的加工装置1的加工条件的调整结果以及由回报计算部24计算出的回报来进行机械学习(强化学习)，进而基于过去的学习结果和当前状态数据来调整加工装置1的用于工件加工的加工条件。这里上述的加工条件的调整与图1中的强化学习算法的“行为a”相当。

对于加工条件的调整，例如可以将要调整的加工条件和加工条件的调整量的各种组合预先定义为可选择的‘行为’，基于过去的学习结果选择将来能够得到的回报最大的‘行为’。并且，也可以采用所述的ε贪婪算法，以预定的概率选择随机‘行为’，从而谋求学习的进展。

这里，在加工条件调整学习部25进行的机械学习中，利用某时刻t的状态数据的组合来定义状态s_t，与该被定义的状态s_t相应地调整加工条件并利用后述的加工条件输出部27输出该调整结果的行为成为行为a_t。之后，基于该调整结果利用加工装置1进行了工件的加工，基于作为该加工的结果得到状态数据，由所述回报计算部24计算出的值成为回报r_t+1。根据应用的学习算法来决定用于学习的价值函数。例如，在使用Q学习的情况下，可以按照上述的式(2)来更新行为价值函数Q(s_t，a_t)，从而进行学习。

学习结果存储部26存储上述加工条件调整学习部25学习的结果。并且，在加工条件调整学习部25再使用学习结果时，将存储的学习结果向加工条件调整学习部25输出。对于学习结果的存储，如上述那样，可以利用近似函数、阵列或者多值输出的SVM、神经网络等有教师学习器等存储与利用的机械学习算法相对应的价值函数。

另外，也可以向学习结果存储部26输入并存储其他加工装置1、集中管理系统30存储的学习结果，或者将学习结果存储部26存储的学习结果输出给其他加工装置1、集中管理系统30。

加工条件输出部27将利用加工条件调整学习部25进行的加工条件的调整结果输出给控制部2。控制部2基于由加工条件输出部27输出的加工条件来控制加工装置1，从而进行工件的加工。

然后，在加工结束之后，再次利用机械学习器20取得状态数据，使用输入的状态数据反复进行学习，从而能够得到更优的学习结果。

在使用学习完成后的学习数据而实际利用加工装置1进行加工时，也可以是，机械学习器20不进行新的学习而是直接使用学习完成时的学习数据来反复运转加工装置1。

并且，也可以是，将学习完成后的机械学习器20(或者，将其他的机械学习器20的已完成的学习数据复制到学习结果存储部26的机械学习器20)安装于其他加工装置1，直接使用学习完成时的学习数据来反复运转其他加工装置1。

而且，也可以是，将学习完成后的机械学习器20以保持其学习功能有效的状态安装于其他加工装置1来继续进行工件加工，从而使该机械学习器20进一步学习每个加工装置1的不同的个体差异、经年变化等，对于该加工装置1，能一边探索更好的加工条件一边进行运转。

也可以加工装置1单独地进行机械学习，但是若多个加工装置1还分别具有与外部通信的通信单元，则可以将各加工装置1的存储于上述状态数据存储部22的状态数据、存储于学习结果存储部26的学习结果通过收发来共享，能够更高效地进行机械学习。例如，使加工条件在预定的范围内变动来进行学习时，多个加工装置1一边以不同的加工条件在预定的范围内分别变动加工条件进行工件的加工，一边在各加工装置1之间进行状态数据、学习数据的交换来并行地进行学习，由此能够高效率地进行学习。

这样，在多个加工装置1之间进行交换时，通信可以经由集中管理系统30等的主计算机进行，也可以加工装置1彼此直接进行通信，还可以使用云端，但是由于有处理大量数据的情况，因此优选通信速度尽量快的通信手段。

另外，可以是不直接加工成为产品的部分，而是使用工件的不需要部分进行预备加工，在进行了某种程度的机械学习后再进行成为产品的部分的正式加工，从而能够从一开始就获得在某种程度上精度较高的加工形状。

以上，对本发明的实施方式进行了说明，但是本发明并非局限于上述实施方式的例子，还可以通过进行适当的变更而以各种形态来实施本发明。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：泽田毅;李蔚波;小槙邦孝;黑川友矶;秋元信二;
技术所有人：发那科株式会社;
我是此专利的发明人

上一篇：一种具有自由曲面金属零件的加工方法与制造工艺
上一篇：机床、模拟装置以及机械学习器的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。