数值控制装置以及机器学习装置的制作方法

文档序号:14859767发布日期:2018-07-04 06:23阅读:137来源:国知局
数值控制装置以及机器学习装置的制作方法

本发明涉及数值控制装置以及机器学习装置,尤其涉及通过机器学习进行基于复合车削循环指令的加工路径的优化的数值控制装置以及机器学习装置。



背景技术:

在车床用数值控制装置中准备了车削循环功能,该车削循环功能是仅通过对精加工形状进行编程而按照一定的规则来自动决定途中的粗切削时的工具路径(例如,参照日本特开昭49-23385号公报)。

图8a表示车削循环功能的程序,图8b表示基于该程序的工件的加工例。

在车削循环功能中,在加工图8a所示的形状时,生成并执行图8b所示的程序o1234。图8b所示的程序中的n100程序块到n200程序块是指定精加工形状的部分。

图8b所示的程序中的指令“g71”是车削循环动作的指令,若执行该指令,则基于通过程序指令的精加工形状生成途中的加工路径,基于该生成的加工路径,从原料开始进行工件的削切。在一般的车削循环动作中,如图9所示,生成从接近于开始点的槽开始按顺序向终点进行加工的加工路径。

通过使用车削循环功能,操作者能够简单地对麻烦的车削动作进行编程。

在车削循环中,在指定的精加工形状是无法以单调增加或者单调减少来表现的复杂的形状时(槽形状),循环时间因加工顺序或切入量而变化,但是通过一般的车削循环功能生成的加工路径不是考虑这些要素而生成的加工路径,因而存在作为循环时间未必成为最佳的加工路径的问题。另一方面,当考虑循环时间而简单地增大进给速度或切入量时,加工后的工件的品质下降,需要在将工件的品质维持在一定范围内的基础上来改善循环时间。



技术实现要素:

因此,本发明的目的在于提供一种数值控制装置以及机器学习装置,其通过机器学习使基于复合车削循环指令的加工路径最佳化。

在本发明中,通过在基于由程序赋予的复合车削循环指令的精加工形状以及加工条件进行的加工路径的生成中导入机器学习,来解决上述问题。本发明的信息处理装置当通过程序赋予了复合车削循环的精加工形状和加工条件(进给速度、主轴转速、切入量)时,使用机器学习的结果输出在维持加工精度的同时循环时间成为最短的加工过程中的加工路径和加工条件。为了得到精加工形状,将本发明的信息处理装置生成的加工路径作为切削进给块和快进块的组合进行输出。

本发明的数值控制装置基于由程序指令的车削循环指令对车床加工机进行控制来加工工件,其具备:状态信息设定部,其设定了所述车削循环指令的加工路径和所述车削循环指令的加工条件;加工路径计算部,其基于所述状态信息设定部的设定和所述车削循环指令,计算加工路径;数值控制部,其按照所述加工路径计算部计算出的加工路径控制所述车床加工机来加工工件;动作评价部,其计算用于评价循环时间和加工品质的评价值,所述循环时间是按照所述加工路径计算部计算出的加工路径进行的工件加工所花费的循环时间,所述加工品质是按照所述加工路径计算部计算出的加工路径加工后的工件的加工品质;机器学习装置,其对所述加工路径和所述加工条件的调整进行机器学习。并且,所述机器学习装置具有:状态观测部,其取得在所述状态信息设定部中存储的所述加工路径和所述加工条件以及所述评价值来作为状态数据;回报条件设定部,其设定回报条件;回报计算部,其基于所述状态数据和所述回报条件来计算回报;调整学习部,其对所述加工路径和所述加工条件的调整进行机器学习;调整输出部,其基于所述调整学习部针对所述加工路径和所述加工条件的调整的机器学习结果以及所述状态数据,决定所述加工路径和所述加工条件的调整对象和调整量来作为调整行为,并基于该决定的结果,调整在所述状态信息设定部中设定的加工路径和加工条件。并且,所述加工路径计算部基于所述调整输出部调整后的在所述状态信息设定部中设定的加工路径和加工条件,再次计算所述加工路径并进行输出。此外,所述调整学习部基于所述调整行为、在基于所述加工路径计算部再次计算出的所述加工路径加工工件后由所述状态观测部取得的所述状态数据、以及所述回报计算部基于所述状态数据计算出的所述回报,对所述加工路径和所述加工条件的调整进行机器学习。

所述数值控制装置还具备学习结果存储部,该学习结果存储部存储所述调整学习部进行了学习的结果,所述调整输出部可以基于所述调整学习部学习的所述加工路径和所述加工条件的调整的学习结果、以及在所述学习结果存储部中存储的所述加工路径和所述加工条件的调整的学习结果,调整所述加工路径和所述加工条件。

关于所述回报条件,可以在所述循环时间变短时、或者所述循环时间无变化时、或者所述加工品质为合理范围时,赋予正的回报,另一方面,在所述循环时间变长时、所述加工品质为合理范围外时,赋予负的回报。

所述数值制装置与其他的至少一个数值控制装置连接,可以在与所述其他的数值控制装置之间相互交换或者共享机器学习的结果。

本发明的机器学习装置在基于由程序指令的车削循环指令对车床加工机进行控制来加工工件时,对所述车削循环指令的加工路径和所述车削循环指令的加工条件的调整进行机器学习。该机器学习装置具有:状态观测部,其取得所述加工路径和所述加工条件来作为状态数据;回报条件设定部,其设定回报条件;回报计算部,其基于所述状态数据和所述回报条件来计算回报;调整学习部,其对所述加工路径和所述加工条件的调整进行机器学习;调整输出部,其基于所述调整学习部针对所述加工路径和所述加工条件的调整的机器学习结果和所述状态数据,决定所述加工路径和所述加工条件的调整对象和调整量来作为调整行为,并基于该决定的结果,调整所述加工路径和所述加工条件。所述调整学习部基于所述调整行为、在基于进行了所述调整行为后再次计算出的所述加工路径加工工件后由所述状态观测部取得的所述状态数据、以及所述回报计算部基于所述状态数据计算出的所述回报,对所述加工路径和所述加工条件的调整进行机器学习。

根据本发明,在车削循环加工中,能够在维持预定的加工精度的状态下生成循环时间成为最短的加工路径,能够预见缩短循环时间,有助于生产率的提高。

附图说明

图1说明强化学习算法的基本的概念。

图2是表示神经元的模型的示意图。

图3是表示具有3层的权重的神经网络的示意图。

图4是关于本发明的实施方式的数值控制装置的机器学习的图。

图5用于说明本发明的实施方式的加工路径的定义。

图6是本发明的实施方式的数值控制装置的概要功能框图。

图7是表示本发明的实施方式的机器学习的流程的流程图。

图8a以及图8b是用于说明车削循环功能的图。

图9是说明通过车削循环功能生成的加工路径的图。

具体实施方式

在本发明中,对数值控制装置导入成为人工智能的机器学习装置,在赋予了通过该数值控制装置执行的程序赋予的复合车削循环指令的精加工形状和初始的加工条件(进给速度、主轴转速)的情况下,对在维持加工品质的状态下能够缩短循环时间的加工路径与加工条件的组合进行机器学习,由此能够自动求出对于加工工件最佳的加工路径和加工条件,上述数值控制装置用于控制对工件进行加工的车床加工机。

以下,对本发明中导入的机器学习进行简单地说明。

<1.机器学习>

在此,对机器学习简单地说明。通过分析从向进行机器学习的装置(以下称为机器学习装置)输入的数据的集合中提取存在于其中的有用的规则、知识表示、判断基准等,输出其判断结果,并且进行知识的学习,由此实现机器学习。机器学习方法有多种,大致分为“监督学习”、“无监督学习”、“强化学习”。并且,具有在实现这些方法的基础上对特征量自身的提取进行学习的被称为“深度学习”的方法。

“监督学习”是指通过向机器学习装置大量赋予某个输入和结果(标签)的数据组,来学习这些数据集中存在的特征,能够归纳性地获得根据输入推定结果的模型,即其关系性。该监督学习能够使用后述的神经网络等算法来实现。

“无监督学习”是如下的方法:通过向学习装置仅大量赋予输入数据,来学习输入数据进行怎样的分布,即使不赋予对应的监督输出数据,也会学习对输入数据进行压缩、分类、整形等。能够将这些数据集中具有的特征聚类为彼此相似。使用该结果,通过设置某种基准来进行使其最优的输出的分配,能够实现输出的预测。

此外,作为“无监督学习”和“监督学习”的中间的问题设定,还存在被称为“半监督学习”的机器学习方法,这相当于仅存在一部分的输入和输出的数据组,除此以外仅为输入的数据的情况。在本实施方式中,在无监督学习中使用即使未使加工机实际动作也能取得的数据,能够有效地进行学习。

“强化学习”是如下方法:不仅学习判定、分类,还学习行为,由此考虑行为对于环境赋予的相互作用来学习恰当的行为,即进行用于使将来获得的回报最大的学习。在强化学习中,机器学习装置能够从完全不知道行为引起的结果的状态、或者从只是不完全知道的状态开始学习。此外,还能够如同模拟人的动作那样将事先进行了学习(上述的监督学习、逆向强化学习这样的方法)的状态作为初始状态,从良好的开始地点开始学习。

另外,在对加工机应用机器学习的情况下,需要考虑该加工机实际进行动作后才能取得其结果来作为数据的情况,即需要一边进行尝试一边搜索最佳的行为。在本发明中,作为机器学习装置的主要的学习算法,采用通过赋予回报使机器学习装置自动学习用于达到目标的行为的强化学习的算法。

图1是说明强化学习算法的基本概念的图。在强化学习中,通过成为执行学习的主体的智能体(机器学习装置)与成为控制对象的环境(控制对象系统)之间的互动来推进智能体的学习和行为。

更具体地说,在智能体与环境之间进行如下的互动:

(1)智能体观测某个时间点的环境的状态st;

(2)根据观测结果和过去的学习,选择自己采取的行为at,并执行行为at;

(3)基于某些规则以及行为at的执行,环境的状态st变化为下一个状态st+1;

(4)基于作为行为at的结果的状态变化,智能体取得回报rt+1;

(5)智能体根据状态st、行为at、回报rt+1以及过去的学习结果来推进学习。

在强化学习的初始阶段,智能体完全不知道在(2)的行为选择中用于选择针对环境的状态st的最佳的行为at的价值判断的基准。因此,智能体以某个状态st为基础选择各种行为at,根据针对此时的行为at赋予的回报rt+1,学习选择更好的行为,即学习正确的价值判断的基准。

在上述的(5)的学习中,智能体获得观测到的状态st,行为at,回报rt+1的映射,来作为用于判断将来可获得的回报量的基准信息。例如,当假设在各时刻取得的状态的个数为m,取得的行为的个数为n时,通过反复进行行为而得到m×n的二维排列,该m×n的二维排列存储与状态st和行为at的组相对的回报rt+1。

并且,使用表示根据上述取得的映射而选择出的状态、行为有多好的函数即价值函数(评价函数),在反复进行行为的过程中更新价值函数(评价函数),由此来学习与状态相对的最佳的行为。

状态价值函数是表示某个状态st为有多好的状态的价值函数。该状态价值函数表现为将状态作为自变量的函数,在反复进行行为的学习中,根据针对某个状态下的行为获得的回报、由于该行为而转移的未来的状态的价值等来变更状态价值函数。根据强化学习的算法定义了状态价值函数的更新式,例如,在作为强化学习算法之一的td学习中,通过以下的式1来更新状态价值函数。另外,在式1中,α为学习系数,γ为折扣率,在0<α≤1、0<γ≤1的范围内进行定义。

v(st)←v(st)+α[rt+1+γv(st+1)-v(st)]……(1)

此外,行为价值函数是表示在某个状态st下行为at是有多好的行为的价值函数。行为价值函数表现为将状态和行为作为自变量的函数,在反复进行行为的学习中,根据针对某个状态下的行为获得的回报、通过该行为而转移的未来的状态的行为的价值等来变更行为价值函数。根据强化学习的算法定义了行为价值函数的更新式,例如,在作为具有代表性的强化学习算法之一的q学习中,通过以下的式2来更新行为价值函数。另外,在式2中,α为学习系数,γ为折扣率,在0<α≤1、0<γ≤1的范围内进行定义。

该式表示了根据作为行为at的结果而返回的回报rt+1,对状态st下的行为at的评价值q(st,at)进行更新的方法。表示了如果回报rt+1+基于行为at的下一个状态下的最佳行为max(a)的评价值q(st+1,max(a))大于状态st下的行为at的评价值q(st,at),则使q(st,at)变大,若相反小于则使q(st,at)变小。也就是说,使某个状态下的某个行为的价值接近作为结果而即时返回的回报和基于该行为的下一个状态的最佳的行为的价值。

在q学习中,通过反复进行这样的更新,以最终q(st,at)成为期待值e[σγtrt]为目标(对于按照最佳的行为状态发生了变化的时候取得期待值。当然,因为不知道最佳值,所以要一边搜索一边学习)。

并且,在上述(2)的行为选择中,使用根据过去的学习而生成的价值函数(评价函数),选择在当前的状态st下到将来的回报(rt+1+rt+2+…)成为最大的行为at(在使用了状态价值函数的情况下,用于向价值最高的状态迁移的行为,在使用了行为价值函数的情况下,在该状态下价值最高的行为)。另外,在智能体的学习中以学习进展为目标,有时在(2)的行为的选择中以一定的概率选择随机的行为(ε贪婪算法)。

另外,作为针对作为学习结果的价值函数(评价函数)进行存储的方法,具有对于全部的状态行为对(s,a),将其值保存为表(行为价值表)的方法、准备对上述价值函数进行近似的函数的方法。在后者的方法中,上述的更新式可通过使用随机梯度下降法等方法调整近似函数的参数来实现。作为近似函数,能够使用神经网络等监督学习器。

神经网络例如由图2所示的用于实现对神经元模型进行模拟的神经网络的运算装置以及存储器等构成。图2是表示神经元模型的示意图。

如图2所示,神经元输出针对多个输入x(在此,作为一个例子,是输入x1~输入x3)的输出y。各输入x1~x3乘以与该输入x相对应的权重w(w1~w3)。由此,神经元输出通过下述的式3表现的输出y。另外,在式3中,输入x、输出y和权重w全部是向量。此外,θ是偏置,fk是激活函数。

接着,参照图3说明将上述的神经元组合后的具有三层权重的神经网络。

图3是表示具有d1~d3这三层权重的神经网络的示意图。如图3所示,从神经网络的左侧输入多个输入x(在此,作为一个例子,输入x1~输入x3),从右侧输出结果y(在此,作为一个例子,多个结果y1~结果y3)。

具体地说,输入x1~x3乘以对应的权重后输入至3个神经元n11~n13中的各个神经元。把与这些输入相乘的权重统一标记为w1。神经元n11~n13分别输出z11~z13。将这些z11~z13统一标记为特征向量z1,能够视为提取了输入向量的特征量的向量。该特征向量z1是权重w1与权重w2之间的特征向量

z11~z13乘以对应的权重后输入至2个神经元n21、n22中的各个神经元。将与这些特征向量相乘的权重统一标记为w2。神经元n21、n22分别输出z21、z22。将这些统一标记为特征向量z2。该特征向量z2是权重w2与权重w3之间的特征向量。

特征向量z21、z22乘以对应的权重后输入至3个神经元n31~n33中的各个神经元。将与这些特征向量相乘的权重统一标记为w3。

最后,神经元n31~n33分别输出结果y1~结果y3。

神经网络的动作中存在学习模式和预测模式,在学习模式中,使用学习数据集来对权重w进行学习,使用其参数在预测模式下进行加工机的行为判断(出于方便,写成预测,但能够进行检测、分类、推论等各种任务)。

能够即时学习在预测模式下实际使加工机运行而得的数据,反映到下一个行为中(在线学习),还能够使用预先收集到的数据群来进行统一的学习,以后一直通过该参数进行检测模式(批量学习)。还能够在其中间,每当贮存了某种程度的数据时插入学习模式。

能够通过误差逆传播法(反向传播)来学习权重w1~w3。误差信息从右侧进入,向左侧流动。误差逆传播法是如下方法:针对各神经元,调整(学习)各个权重,以便缩小在输入了输入x时的输出y与真正的输出y(监督)之间的差值。

神经网络也可以进一步将层增加到3层以上(称为深度学习)。能够阶段性地进行输入的特征提取,仅从监督数据自动地获得使结果回归的运算装置。

通过将这样的神经网络作为近似函数来使用,能够一边反复进行上述强化学习过程中的(1)~(5),一边将上述的价值函数(评价函数)存储为神经网络来推进学习。

一般的机器学习装置当在某个环境中学习结束后被放置在新的环境中时,还能够通过进行追加学习来推进学习使得适应该环境。因此,通过如本发明那样用于调整对车床加工机进行控制的数值控制装置中的车削循环指令的加工路径和加工条件,即使在用于新的加工的前提条件的情况下,通过基于过去的加工路径和加工条件的调整的学习进行新的加工的前提条件下的追加学习,能够在短时间内进行加工路径和加工条件的调整的学习。

另外,在强化学习中,设为经由网络等连接多个智能体的系统,在智能体之间共享状态s、行为a、回报r等信息来在各自的学习中使用,由此进行各个智能体还考虑其他的智能体的环境来进行学习的分散强化学习,从而能够进行高效的学习。在本发明中,在经由网络等将在多个环境(车床加工机的数值控制装置)中导入的多个智能体(机器学习装置)进行了连接的状态下,进行分散机器学习,从而能够高效地对车床加工机的数值控制装置中的车削循环指令的加工路径和加工条件的调整进行学习。

另外,作为强化学习的算法,已知有q学习、sarsa法、td学习、ac法等各种方法,作为在本发明中采用的方法可以采用任意一种强化学习算法。上述的各个强化学习算法是公知的,因此在本说明书中省略针对各个算法的详细说明。

以下,基于具体的实施方式,对导入了机器学习装置的本发明的车床加工机的数值控制装置进行说明。

<2.实施方式>

图4是关于本发明一实施方式的导入了机器学习装置的车床加工机的数值控制装置的车削循环指令的加工路径和加工条件的调整的机器学习的图。另外,在图4中,仅表示了为了说明本实施方式的车床加工机的数值控制装置中的机器学习所需要的结构。

在本实施方式中,作为机器学习装置20用于确定环境(在<1.机器学习>中说明的状态st)的信息,将针对精加工形状的加工路径和加工条件作为状态信息输入到机器学习装置20,上述精加工形状是基于由数值控制装置1决定的加工的前提条件的精加工形状。关于加工路径,为了简化学习,使用后述的槽形状的加工顺序和各槽的切入量。

在本实施方式中,作为机器学习装置20对环境输出的行为(在<1.机器学习>中说明的行为at),输出加工路径和加工条件的调整行为。

在本实施方式的数值控制装置1中,通过在车床加工机中执行车削循环动作时的槽形状的加工顺序、各槽的切入量、主轴的进给速度、主轴转速等状态来定义上述的状态信息。进行车削循环动作时的槽形状的加工顺序以及各槽的切入量用于决定加工路径。进行车削循环动作时的槽形状的加工顺序如图5所示,被定义为根据由车削循环指令指令的精加工形状而掌握的槽形状的加工顺序。另外,各槽的切入量如图5所示,能够针对每个槽定义为切入量d1~d1-2-2,在加工各槽时,通过针对该槽定义的切入量以下的切入量进行加工。并且,关于上述的调整行为,能够通过机器学习装置20输出的上述值的调整对象的选择及其调整量来进行定义。

另外在本实施方式中,作为向机器学习装置20赋予的回报(在<1.机器学习>中说明的回报rt),采用加工精度(正/负回报)以及循环时间(正/负回报)等。另外,关于根据哪一个数据来决定回报,可以由作业者适当设定。

并且,在本实施方式中,机器学习装置20基于上述的状态信息(输入数据)、调整行为(输出数据)以及回报来进行机器学习。在机器学习中,通过与某一时刻t的状态有关的数据的组合来定义状态st,根据该定义的状态st而进行的加工路径以及加工条件的调整动作的决定成为行为at,并且,通过行为at来决定加工路径以及加工条件的调整,基于该决定的加工路径以及加工条件的调整来进行下一个工件的加工,基于作为该加工的结果得到的数据计算出的值成为回报rt+1,如在<1.机器学习>中对上述状态st、行为at、回报rt+1进行说明的那样,通过将它们应用于与机器学习的算法相对应的价值函数(评价函数)的更新式来推进学习。

以下,参照图6的功能框图,说明本实施方式的车床加工机的数值控制装置。

若将图6所示的数值控制装置1的结构与图1所示的强化学习中要素相对比,机器学习装置20对应于“智能体”,加工路径计算部10、循环时间测量部11、动作评价部12以及状态信息设定部13对应于“环境”。

本实施方式的车床加工机的数值控制装置1是具备基于程序对车床加工机3进行控制的功能的装置。

本实施方式的数值控制装置1所具备的加工路径计算部10基于作业者在状态信息设定部13设定的程序、槽形状的加工顺序、各槽的切入量以及加工条件的初始值,计算加工路径。加工路径计算部10在从状态信息设定部13中设定的程序读入了通常的指令时,将该指令输出到数值控制部2。另外,加工路径计算部10在从状态信息设定部13中设定的程序读入了车削循环指令时,对该车削循环指令进行解析来求出精加工形状,确定该精加工形状中包含的槽形状,按照在状态信息设定部13中设定的槽形状的加工顺序、各槽的切入量以及加工条件,生成进行精加工形状的加工的加工路径。

关于加工路径计算部10进行的加工路径的计算,使用例如上述的日本特开昭49-23385号公报中公开的现有技术的方法即可。加工路径计算部10与现有技术不同之处在于,能够计算指定了槽形状的加工顺序和各槽的切入量的加工路径。加工路径计算部10将用于按照计算出的加工路径进行加工的指令输出到数值控制部2。

数值控制部2对从加工路径计算部10取得的指令进行解析,基于作为解析结果而得到的控制数据来控制车床加工机3的各部分。数值控制部2具备一般的数值控制所需的功能。

循环时间测量部11基于从加工路径计算部10取得的指令来测量数值控制部2控制车床加工机3加工工件所花费的加工时间(循环时间),并向后述的动作评价部12输出。循环时间测量部11可以使用数值控制装置1具备的rtc等计时器(未图示)来测量加工时间。

动作评价部12取得循环时间测量部11测量出的循环时间、由品质检查装置4对通过数值控制部2控制的车床加工机3加工后的工件进行品质检查而得到的结果,计算针对取得的各值的评价值。

作为动作评价部12计算的评价值的例子,例如举出“与基于前一次的状态信息的加工相比,循环时间变长”、“与基于前一次的状态信息的加工相比,循环时间变短”、“相对于基于前一次的状态信息的加工,循环时间未变化”、或“工件的品质为合理范围”、“工件的品质为合理范围外(过于良好)”、“工件的品质为合理范围外(过于恶劣)”等。

动作评价部12在数值控制装置具备的存储器(未图示)中存储有为了进行动作的评价而成为基准的工件品质(加工精度)以及过去进行的加工结果的履历(循环时间、加工精度),将存储的过去的加工结果与存储的成为基准的工件品质进行比较来求出上述评价值。动作评价部12当基于加工结果的履历识别出评价的收敛(在过去的预定次数的期间,循环时间以及工件品质未发现变化、维持恒定的值、或者在预定的值之间振动等)时,即,当发现在该时间点计算出最佳的加工路径和加工条件时,在向加工路径计算部10以及机器学习装置20指令了结束机器学习动作后,输出在状态信息设定部13中当前设定的加工路径以及加工条件。另一方面,在未看到评价点的收敛时,动作评价部12向机器学习装置20输出计算出的评价值。

进行机器学习的机器学习装置20在数值控制部2的控制下通过车床加工机3加工工件,并且通过动作评价部12输出了评价值时,进行加工路径以及加工条件的调整动作以及该调整动作的学习。

进行机器学习的机器学习装置20具备:状态观测部21、状态数据存储部22、回报条件设定部23、回报计算部24、调整学习部25、学习结果存储部26、以及调整输出部27。机器学习装置20如图6所以可以在数值控制装置1内具备,也可以在数值控制装置1以外的个人计算机等中具备。

状态观测部21观测在状态信息设定部13中设定的在加工中使用的加工路径以及加工条件、以及从动作评价部12输出的评价值来作为与状态有关的数据,在机器学习装置20内取得。

状态数据存储部22输入并存储与状态观测部21观测到的状态有关的数据,并向回报计算部24和调整学习部25输出该存储的与该状态有关的数据。输入到状态数据存储部22的与状态有关的数据可以是通过数值控制装置1的最新的运转而取得的数据,也可以是通过过去的运转而取得的数据。另外,该状态数据存储部22能够输入并存储在其他的数值控制装置1或集中管理系统30中存储的与状态有关的数据,或者能够输出在其他的数值控制装置1或集中管理系统30中存储的与状态有关的数据。

回报条件设定部23设定并存储由作业者等输入的用于赋予机器学习的回报的条件。在回报中具有正的回报和负的回报,能够适当设定。关于向回报条件设定部23的输入,可以从在集中管理系统30中使用的个人计算机或平板终端等进行输入,也能够经由数值控制装置1所具备的未图示的手动数据输入(mdi)设备来输入,由此能够更加方便地进行设定。

回报计算部24基于在回报条件设定部23中设定的条件,分析从状态观测部21或者状态数据存储部22输入的与状态有关的数据,将计算出的回报输出给调整学习部25。

以下,表示了在本实施方式的回报条件设定部23中设定的回报条件的例子。

·[回报1:加工精度(正/负回报)]

当加工精度收敛于在数值控制装置1中预先设定的合理范围时,赋予正的回报。另外,在加工精度偏离在数值控制装置1中预先设定的合理范围时(加工精度过于恶劣时、或者加工精度超过所需的精度过于良好时),与其程度相对应地赋予负回报。另外,在赋予负的回报情况下,可以在加工精度过于恶劣时赋予大的负回报,在加工精度超过所需过于良好时赋予小的负回报。

·[回报2:循环时间(正/负回报)]

在循环时间未变化时,赋予小的正回报,在循环时间变短时,赋予与其程度相对应的正回报。另外,在循环时间变长时,根据其程度赋予负回报。

·[回报3:超过最大切入量(负回报)]

在工具的切入量超过在车床加工机中定义的最大切入量时,根据其程度赋予负回报。

·[回报4:工具负荷(负回报)]

在工具切入时向工具施加的负荷超过了预先设定的预定值时,根据其程度赋予负回报。

·[回报5:工具损坏(负回报)]

在加工中工具损坏进行了工具更换的情况下,赋予大的负回报。

调整学习部25基于从状态观测部21或状态数据存储部22输入的与状态有关的数据、自身进行的加工路径以及加工条件的调整结果、以及回报计算部24计算出的回报,进行机器学习(强化学习)。

在此,在调整学习部25进行的机器学习中,通过与某一时刻t的状态有关的数据的组合来定义状态st,根据该定义的状态st进行的加工路径以及加工条件的调整动作的决定成为行为at,通过后述的调整输出部27决定加工路径以及加工条件的调整,基于该决定的加工路径以及加工条件的调整来调整在状态信息设定部13中存储的加工路径以及加工条件,数值控制部2基于新的加工路径以及加工条件的设定进行下一个工件的加工,所述回报计算部24基于作为该加工结果而得到的数据(动作评价部12的输出)计算出的值成为回报rt+1。关于在学习中使用的价值函数,根据应用的学习算法来决定。例如,在使用q学习的情况下,按照上述的式(2)更新行为价值函数q(st,at),由此来推进学习即可。

使用图7的流程对调整学习部25进行的机器学习的流程进行说明。

以下,根据各步骤进行说明。

·[步骤sa01]当开始机器学习时,状态观测部21取得与数值控制装置1的状态有关的数据。

·[步骤sa02]调整学习部25基于状态观测部21取得的与状态有关的数据来确定当前的状态st。

·[步骤sa03]调整学习部25基于过去的学习结果和在步骤sa02中确定的状态st,选择行为at(加工路径以及加工条件的调整)。

·[步骤sa04]执行在步骤sa03中选择出的行为at。

·[步骤sa05]状态观测部21取得动作评价部12输出的数据(以及在状态信息设定部13中设定的加工路径以及加工条件)作为与数值控制装置1的状态有关的数据。在该阶段,数值控制装置1的状态随着从时刻t到时刻t+1的时间推移,通过在步骤sa04中执行的行为at进行变化。

·[步骤sa06]回报计算部24基于在步骤sa05中取得的与状态有关的数据计算回报rt+1。

·[步骤sa07]调整学习部25基于在步骤sa02中确定的状态st、在步骤sa03中选择的行为at以及在步骤sa06中计算出的回报rt+1推进机器学习,并返回步骤sa02。

返回图6,学习结果存储部26存储调整学习部25进行学习得到的结果。另外,调整学习部25再次使用学习结果时,将存储的学习结果输出到调整学习部25。在学习结果的存储中,如上所述,通过近似函数、排列、或者多值输出的svm或神经网络等监督学习器等来存储与使用的机器学习算法相对应的价值函数即可。

另外,能够在学习结果存储部26中输入并存储其他的数值控制装置1或集中管理系统30所存储的学习结果,或者能够将学习结果存储部26存储的学习结果输出到其他的数值控制装置1或集中管理系统30。

调整输出部27基于调整学习部25进行学习而得到的结果和与当前的状态有关的数据,来决定加工路径以及加工条件的调整对象和其调整量。在此所说的加工路径以及加工条件的调整对象和其调整量的决定相当于在机器学习中使用的行为a。关于加工路径以及加工条件的调整,将选择调整加工路径(槽形状的加工顺序、各槽的切入量)、进给速度、主轴转速中的哪一个和以怎样的程度调整所选择的调整对象作为组合,准备可选择各个组合的行为(例如,将行为1=槽的加工顺序变更成图5中的1个以下的加工顺序、将行为2=进给速度设为+10mm/m、将行为3=主轴转速设为+100mm/m、将行为4=槽1的切入量设为+1mm、……),基于过去的学习结果来选择将来获得的回报最大的行为。可选择的行为可以是同时调整多个加工条件的行为。另外,可以采用上述的ε贪婪算法,以预定的概率选择随机的行为,由此谋求调整学习部25的学习的进展。

并且,调整输出部27基于通过行为的选择而决定的加工路径以及加工条件的调整,来调整在状态信息设定部13中设定的加工路径以及加工条件。

之后,如上所述,加工路径计算部10基于在状态信息设定部13中设定的加工路径以及加工条件来进行加工路径的计算,数值控制部2基于该计算出的加工路径控制车床加工机来加工工件,由动作评价部12计算评价值,由状态观测部21取得与状况有关的数据,重复进行机器学习,由此能够得到更好的学习结果。

在使用上述学习已完成的学习数据实际运行车床加工机时,可以使机器学习装置20不进行新的学习而安装在数值控制装置1,直接使用学习已完成时的学习数据来进行运行。

另外,可以将学习已完成的机器学习装置20(或者,将其他的机器学习装置20的完成的学习数据复制到学习结果存储部26中的机器学习装置20)安装在其他的数值控制装置中,直接使用学习已完成时的学习数据来进行运行。

数值控制装置1的机器学习装置20可以单独进行机器学习,但是当多个数值控制装置1分别具备与外部进行通信的通信单元时,能够发送接收各自的状态数据存储部22存储的状态数据和学习结果存储部26存储的学习结果来进行共享,能够更加高效地进行机器学习。例如,在多个数值控制装置1中,能够一边在预定的范围内分别改变不同的调整对象和不同的调整量,一边在各个数值控制装置1之间交换与状态有关的数据和学习数据,由此并行地推进学习,从而能够更高效地进行学习。

如此,当在多个数值控制装置1之间进行交换时,既可以经由集中管理系统30等的主计算机进行通信,也可以由数值控制装置1彼此进行通信,或者可以使用云进行通信,在处理大量的数据的情况下,优选通信速度尽可能快的通信手段。

以上,对本发明的实施方式进行说明,本发明并不仅限于上述的实施方式的例子,通过适当的变更能够以各种方式来实施。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1