控制装置以及机器学习装置的制作方法

文档序号:17751836发布日期:2019-05-24 21:01阅读:133来源:国知局
控制装置以及机器学习装置的制作方法

本发明涉及控制装置以及机器学习装置。



背景技术:

在线切割放电加工机进行的加工中,如图7所示,因在线电极与被加工物之间产生的放电的斥力和加工液的水流而在线电极产生挠曲。在没有考虑这样的挠曲造成的影响而进行了加工的情况下,在角部和圆弧部处,因线电极的挠曲量(线电极的延迟量)而在角部处在加工路径与实际的线轨迹之间产生偏差,在加工物上产生凸部缺失、凹部残留(图8)。这样,存在如下问题:在角部和圆弧部处线电极的挠曲量的影响显得较大而造成角部处的形状精度降低得多,产生所谓“塌角”,难以通过加工获得想要的那样的形状。

以往,为了防止“塌角”,存在如下技术(日本特开昭58-120428号公报、日本特开平05-228736号公报、日本特开2014-148036号公报):在角部和圆弧部进行加工条件(放电条件)、加工速度的自动调整(加工条件控制)、以及加工路径的自动校正(加工路径校正)。通过使用这样的现有技术,在线电极接近加工路径的角部、圆弧部处时变更加工条件,控制放电电压、加工液的压力、液量来降低施加在线电极的压力而减少挠曲量,由此,可以减少角部、圆弧部的蚕食、残留。此外,以产生了线电极的挠曲的部分按照指令路径移动的方式对线电极的指令路径进行校正,由此可以减少角部、圆弧部的蚕食、残留。根据数值控制装置计算的加工路径的形状数据(块长度、角部角度、圆弧半径、圆弧中心角等)来控制这些加工条件控制和加工路径校正。

但是,在线电极接近加工路径的角部、圆弧部处时变更加工条件的现有技术中,通过有意识地变更加工速度而缓和了线的挠曲,因此,存在该部分加工速度降低,加工时间增大这样的问题。

此外,在考虑线电极的挠曲来校正加工路径的现有技术中,需要熟练的作业员根据经验来校正加工路径,有时在简单的形状中可以顺利校正,但是未必针对所有角部进行有效的校正。



技术实现要素:

因此,本发明的目的在于提供一种控制装置和机器学习装置,能够在线放电加工中不使加工时间增大必要以上地计算可以防止塌角的最佳的加工路径。

在本发明中,针对控制线放电加工机的控制装置导入机器学习装置,通过机器学习来学习在角部和圆弧部处不使加工时间增大至必要以上而可以防止塌角的最佳的加工路径,由此,解决了上述课题。

本发明的一方式涉及的控制装置,其根据加工程序对线放电加工机进行控制并对工件进行加工,所述控制装置具有:机器学习装置,其学习与所述加工的部分加工路径、加工条件以及加工环境对应的所述加工中的加工路径的校正。并且,所述机器学习装置具有:状态观测部,其观测表示所述加工中的加工路径的校正量的校正量数据、表示所述加工的部分加工路径的加工路径数据、表示所述加工的加工条件的加工条件数据以及表示与所述加工的加工环境有关的加工环境数据作为表示环境的当前状态的状态变量;判定数据取得部,其取得加工精度判定数据以及加工时间判定数据作为判定数据,所述加工精度判定数据表示基于根据所述校正量进行校正后的加工路径的加工的加工精度的适当与否判定结果,所述加工时间判定数据表示基于根据所述校正量进行校正后的加工路径的加工所需要的加工时间的适当与否判定结果;以及学习部,其使用所述状态变量和所述判定数据,将所述加工的部分加工路径、加工条件以及加工环境与所述加工中的加工路径的校正关联起来进行学习。

所述学习部可以具有:回报计算部,其求出与所述适当与否判定结果相关的回报;以及价值函数更新部,其使用所述回报来更新表示与所述加工的部分加工路径、加工条件以及加工环境对应的所述加工中的加工路径的校正的价值的函数。并且,所述加工精度越高,此外所述加工时间的增加越少,所述回报计算部给与越高的回报。

所述学习部可以通过多层结构来运算所述状态变量和所述判定数据。

本发明的其他方式涉及的控制装置,其根据加工程序对线放电加工机进行控制并对工件进行加工,所述控制装置具备:机器学习装置,其学习与所述加工的部分加工路径、加工条件以及加工环境对应的所述加工中的加工路径的校正。并且,所述机器学习装置具备:状态观测部,其观测表示所述加工中的加工路径的校正量的校正量数据、表示所述加工的部分加工路径的加工路径数据、表示所述加工的加工条件的加工条件数据以及表示与所述加工的加工环境有关的加工环境数据作为表示环境的当前状态的状态变量;学习部,其将所述加工的部分加工路径、加工条件以及加工环境与所述加工中的加工路径的校正关联起来进行学习;以及推定结果输出部,其根据所述状态观测部观测到的状态变量和所述学习部的学习结果,来输出加工路径的校正量。

所述机器学习装置可以存在于云服务器上。

本发明的一方式涉及的机器学习装置,其学习与线放电加工机进行的加工的部分加工路径、加工条件以及加工环境对应的所述加工中的加工路径的校正,该线放电加工机根据加工程序对工件进行加工。该机器学习装置具备:状态观测部,其观测表示所述加工中的加工路径的校正量的校正量数据、表示所述加工的部分加工路径的加工路径数据、表示所述加工的加工条件的加工条件数据以及表示与所述加工的加工环境有关的加工环境数据作为表示环境的当前状态的状态变量;判定数据取得部,其取得加工精度判定数据以及加工时间判定数据作为判定数据,所述加工精度判定数据表示基于根据所述校正量进行校正后的加工路径的加工的加工精度的适当与否判定结果,所述加工时间判定数据表示基于根据所述校正量进行校正后的加工路径的加工所需要的加工时间的适当与否判定结果;以及学习部,其使用所述状态变量和所述判定数据,将所述加工的部分加工路径、加工条件以及加工环境与所述加工中的加工路径的校正关联起来进行学习。

本发明的其他方式涉及的机器学习装置,其学习与线放电加工机进行的加工的部分加工路径、加工条件以及加工环境对应的所述加工中的加工路径的校正,该线放电加工机根据加工程序对工件进行加工。已学习该加工路径的校正的机器学习装置具备:状态观测部,其观测表示所述加工中的加工路径的校正量的校正量数据、表示所述加工的部分加工路径的加工路径数据、表示所述加工的加工条件的加工条件数据以及表示与所述加工的加工环境有关的加工环境数据作为表示环境的当前状态的状态变量;学习部,其将所述加工的部分加工路径、加工条件以及加工环境与所述加工中的加工路径的校正关联起来进行学习;以及推定结果输出部,其根据所述状态观测部观测到的状态变量和所述学习部的学习结果,来输出加工路径的校正量。

通过本发明,可以在线放电加工中不使加工时间增大至必要以上地计算可以防止塌角的最佳的加工路径。

附图说明

图1是第一实施方式涉及的控制装置的概略硬件结构图。

图2是第一实施方式涉及的控制装置的概略功能框图。

图3是表示控制装置的一方式的概略功能框图。

图4是表示机器学习方法的一方式的概略流程图。

图5a是说明神经元的图。

图5b是说明神经网络的图。

图6是表示装入了控制装置的系统的一方式的概略功能框图。

图7是对线切割放电加工中的线电极的挠曲进行说明的图。

图8是对现有技术中的加工路径的角部和圆弧部处的塌角进行说明的图。

具体实施方式

图1是表示第一实施方式涉及的控制装置的主要部分的概略硬件结构图。控制装置1例如可以作为对线放电加工机进行控制的控制装置而安装。

本实施方式涉及的控制装置1具有的cpu11是对控制装置1进行整体控制的处理器。cpu11经由总线20读出存储于rom12的系统程序,按照该系统程序来对控制装置1整体进行控制。将临时的计算数据、显示数据、操作员经由未图示的输入部输入的各种数据等暂时存储于ram13中。

非易失性存储器14构成为,例如通过未图示的电池进行备份等,即使断开控制装置1的电源也可以保持存储状态。在非易失性存储器14中存储有经由接口15从外部设备72读入的加工程序、经由显示器/mdi单元70输入的加工程序、从控制装置1的各部或线放电加工机取得的各种数据(例如,线放电加工的加工条件、线和工件的信息、线放电加工机的各轴位置、线位置、外部气体温度、加工液湿度、加工液的电阻率、噪音间隔等)。存储于非易失性存储器14的加工程序、各种数据可以在执行时/利用时在ram13中展开。此外,在rom12中预先写入公知的解析程序等各种系统程序(包含控制与后述的机器学习装置100的交换的系统程序)。

接口15是用于连接控制装置1与适配器等外部设备72的接口。从外部设备72侧读入程序、各种参数等。此外,在控制装置1内编辑的程序、各种参数等可以经由外部设备72存储于外部存储单元。可编程机器控制器(pmc)16经由i/o单元17通过内置于控制装置1的时序程序向线放电加工机和该线放电加工机的周边装置(例如,刀具更换用的机器人机械手这样的致动器)输出信号并进行控制。此外,接受线放电加工机的本体所具有的操作盘的各种开关等的信号,在对该信号进行必要的处理之后,转发给cpu11。

显示器/mdi单元70是具有显示器、键盘等的手动数据输入装置。接口18接受来自显示器/mdi单元70的键盘的指令、数据而转发给cpu11。接口19与操作盘71连接,该操作盘71具有在手动驱动各轴时所使用的手动脉冲发生器等。

对线放电加工机所具备的轴进行控制的轴控制电路30接收来自cpu11的轴的移动指令量,将轴的指令输出给伺服放大器40。伺服放大器40接收该指令,驱动使线放电加工机所具备的轴移动的伺服电动机50。轴的伺服电动机50内置有位置/速度检测器,将来自该位置/速度检测器的位置/速度反馈信号反馈给轴控制电路30,进行位置/速度的反馈控制。另外,在图1的硬件结构图中分别仅示出了一个轴控制电路30、伺服放大器40、伺服电动机50,而实际上准备与成为控制对象的线放电加工机所具备的轴数量对应的数量。

接口21是用于将控制装置1与机器学习装置100连接的接口。机器学习装置100具有:统一控制机器学习装置100整体的处理器101、存储系统程序等的rom102、用于进行机器学习有关的各处理中的临时存储的ram103、和用于存储学习模型等的非易失性存储器104。机器学习装置100可以经由接口21观测控制装置1能够取得的各信息(例如,加工程序、线放电加工的加工条件、线和工件的信息、线放电加工机的各轴的位置、线的位置、外部空气温度、加工液的温度、加工液的电阻率、噪音间隔等)。此外,控制装置1接受从机器学习装置100输出的线放电加工机的加工路径的调整指令,来控制线放电加工机。

图2是第一实施方式涉及的控制装置1和机器学习装置100的概略功能框图。图2所示的各功能模块通过图1所示的控制装置1所具有的cpu11和机器学习装置100的处理器101执行各系统程序而对控制装置1和机器学习装置100的各部的动作进行控制来实现。

本实施方式的控制装置1具有:控制部34,其根据存储于非易失性存储器14的加工程序和从机器学习装置100输出的加工路径的校正量的推定结果来控制线放电加工机2。

另一方面,控制装置1具有的机器学习装置100包含通过所谓的机器学习来自学加工路径相对于线放电加工机2进行的加工的线位置前后的加工路径(以下,设为部分加工路径)、加工条件和加工环境的校正量的推定的软件(学习算法等)和硬件(处理器101等)。控制装置1具有的机器学习装置100学习的内容相当于表示与线放电加工机进行的加工的部分加工路径、加工条件和加工环境、加工路径的校正量的相关性的模型结构。

如图2的功能模块所示,控制装置1具有的机器学习装置100具有:状态观测部106,其观测表示环境的当前状态的状态变量s,所述状态变量s包含表示线放电加工机2的加工路径的校正量的校正量数据s1、表示线放电加工机当前的线位置的部分加工路径的加工路径数据s2、表示加工条件的加工条件数据s3、与加工环境有关的加工环境数据s4;判定数据取得部108,其取得判定数据d,所述判定数据d包含表示在线放电加工机2进行的加工中校正了加工路径时的加工精度的加工精度判定数据d1和表示线放电加工机涉及的加工运转中的加工时间的加工时间判定数据d2;学习部110,其使用状态变量s和判定数据d,将加工路径的校正量与线放电加工机进行的加工的部分加工路径、加工条件和加工环境关联起来进行学习。

状态观测部106观测的状态变量s中的校正量数据s1可以取得为针对线放电加工机2进行的加工的加工路径的校正量。作为针对线放电加工机2进行的加工的加工路径的校正量例如可以定义为向相对于加工路径的行进方向的左右方向的偏移值(将左右某一方向设为正符号的偏移量)。

状态观测部106观测的状态变量s中的加工路径数据s2可以作为从线的当前位置向以预定的采样距离将该线当前位置前后的加工路径分割而得的点的向量数据。向表示线当前位置前后的加工路径的采样点的向量数据可以是以线的当前位置为原点来变换坐标值使线的行进方向为预定的轴,由此可以作为正规化时的向量数据。

状态观测部106观测的状态变量s中的加工条件数据s3可以取得为线放电加工机2涉及的线放电加工机2的加工条件的组(set)。作为线放电加工的加工条件例如列举出电压值、电流值、线的移动速度、每一单位时间的放电次数、加工液压等。

状态观测部106观测的状态变量s中的加工环境数据s4可以取得为线放电加工机2进行的线放电加工的环境条件的组。作为线放电加工机2的环境条件例如列举出工件材质、工件板厚、线直径、噪音间隔等。

关于校正量数据s1,机器学习装置100可以根据学习部110的学习结果针对在比当前早一个学习周期中由线放电加工机2进行了加工的部分加工路径、加工条件、加工环境,直接使用在当前学习周期中决定的加工路径的校正量,在采用这样的方法的情况下,机器学习装置100按学习周期将加工路径的校正量暂时存储于ram103,状态观测部106可以从ram103取得前一个学习周期中的加工路径的校正量作为本次学习周期的校正量数据s1。

作为加工精度判定数据d1,判定数据取得部108可以使用通过线放电加工机2进行的加工而进行了加工路径的校正时的加工精度。作为判定数据取得部108使用的加工精度判定数据d1可以使用如下的值:通过激光测定器、照相机等测定器3来测定校正加工路径后实际进行了加工的路径,该值表示加工路径与加工程序所指示的加工路径何种程度的一致(误差少至什么程度)。

此外,作为加工时间判定数据d2,判定数据取得部108可以使用通过线放电加工机2进行的加工而进行了加工路径的校正时的加工路径的加工所花费的时间。作为判定数据取得部108使用的加工时间判定数据d2,例如可以使用如下的值:表示没有校正加工路径地进行了加工时花费的预测加工时间、与校正了加工路径时实际花费的加工时间之差值小至何种程度(何种程度地不花费时间地进行了校正后的加工)。

同时输入到学习部110的状态变量s,在考虑了学习部110的学习周期的情况下,成为基于取得了判定数据d的一学习周期前的数据的变量。这样,在控制装置1具有的机器学习装置100推进学习的期间、环境中,反复实施加工路径数据s2、加工条件数据s3和加工环境数据s4的取得、根据取得的各数据推定出的校正量数据s1为基础的线放电加工机的加工路径的校正、判定数据d的取得。

学习部110按照统称为机器学习的任意学习算法,来学习针对线放电加工机2进行的加工中的部分加工路径、加工条件、加工环境的加工路径的校正。学习部110可以反复执行基于包含所述的状态变量s和判定数据d在内的数据集合的学习。在针对线放电加工机进行的加工中的部分加工路径、加工条件、加工环境的加工路径的校正的学习周期的反复中,如上所述从前一学习周期的部分加工路径、加工条件或环境条件、以及在前一学习周期决定的加工路径的校正中取得状态变量s,此外,将判定数据d设为基于校正后的加工路径的加工适当与否判定结果。

通过反复进行这样的学习周期,学习部110可以自动识别暗示线放电加工机2进行的加工中的部分加工路径、加工条件、加工环境与加工路径的校正之间的相关性的特征。在开始学习算法时线放电加工机2进行的加工中的部分加工路径、加工条件、加工环境与加工路径的校正之间的相关性实际上是未知的,但学习部110随着推进学习逐渐识别特征并解析相关性。若线放电加工机2进行的加工中的部分加工路径、加工条件、加工环境与加工路径的校正之间的相关性解析为达到某种可以相信的水平,则学习部110反复输出的学习结果可以用于针对当前状态(即线放电加工机进行的加工中的部分加工路径、加工条件、加工环境)进行应该怎样进行加工路径的校正这样的行为的选择(即决策)。也就是说,学习部110随着学习算法的推进,可以使线放电加工机2进行的加工中的部分加工路径、加工条件、加工环境与针对当前状态应该将加工路径的校正设为怎样的值这样的行为之间的相关性逐渐接近最佳解。

推定结果输出部122根据学习部110学习到的结果,来决定加工路径的校正量,将决定的校正量输出给控制部34。在学习部110的学习结束的状态下,若向机器学习装置100输入线放电加工机2进行的加工中的部分加工路径、加工条件、加工环境,则推定结果输出部122输出加工路径的校正量。

如上所述,控制装置1具有的机器学习装置100中,使用状态观测部106观测到的状态变量s和判定数据取得部108取得的判定数据d,学习部110按照机器学习算法来学习加工路径的校正。状态变量s由校正量数据s1、加工路径数据s2、加工条件数据s3和加工环境数据s4这样的数据构成,此外,通过对控制装置1从线放电加工机2和测定器3取得的信息进行解析而唯一地求出判定数据d。因此,根据控制装置1具有的机器学习装置100,通过使用学习部110的学习结果,能够自动且准确地进行与线放电加工机2进行的加工中的部分加工路径、加工条件、加工环境对应的加工路径的校正。

并且,如果可以自动进行加工路径的校正,则只掌握线放电加工机2进行的加工的部分加工路径(加工路径数据s2)、加工条件(加工条件数据s3)、和加工环境(加工环境数据s4),可以快速决定加工路径的校正的适当值。因此,可以高效地进行加工路径的校正的决定。

在具有上述结构的机器学习装置100中,学习部110执行的学习算法没有特别限定,作为机器学习可以采用公知的学习算法。图3是图2所示的控制装置1的一方式,作为学习算法的一例示出了具有执行强化学习的学习部110的结构。强化学习是如下方法:观测学习对象所在的环境的当前状态(即输入)并且以当前状态来执行预定行为(即输出),试错性地反复进行针对该行为给予某种回报这样的周期,将回报的总和为最大化那样的方法(在本申请的机器学习装置中为加工路径的校正)作为最佳解而进行学习。

在图3所示的控制装置1具有的机器学习装置100中,学习部110具有:回报计算部112,其根据状态变量s求出与实施了加工路径的校正时的线放电加工机进行的加工的适当与否判定结果(相当于取得了状态变量s的下一学习周期中所使用的判定数据d)关联的回报r;价值函数更新部114,其使用回报r更新表示加工路径的校正的价值的函数q。学习部110通过价值函数更新部114反复进行函数q的更新来学习相对于线放电加工机进行的加工中的加工路径、加工条件、加工环境的加工路径的校正。

对学习部110执行的强化学习的算法的一例进行说明。该示例涉及的算法作为q学习(q-learning)而被知晓,是将行为主体的状态s、在该状态s下行为主体能够选择的行为a设为独立变量,而在在该状态s下选择了行为a时的表示行为的价值的函数q(s、a)进行学习的方法。在状态s下选择价值函数q最高的行为a是最佳解。在状态s与行为a之间的相关性未知的状态下开始q学习,通过反复进行在任意状态s下选择各种行为a的试错,而反复更新价值函数q,接近最佳解。这里,作为在状态s下选择了行为a的结果当环境(即状态s)发生变化时,获得与该变化对应的回报(即行为a的权值)r,引导学习以选择获得更高的回报r的行为a,由此,可以在比较短的时间内使价值函数q接近最佳解。

价值函数q的更新式一般情况下可以如下述的数学式1那样表示。在数学式(1)中,st和at分别是时刻t的状态和行为,状态根据行为at而变化为st+1。rt+1是状态从st变化为st+1而获得的回报。maxq的项表示进行在时刻t+1成为最大的价值q的(在时刻t考虑的)行为a时的q。α和γ分别是学习系数和折扣率,在0<α≤1、0<γ≤1内被任意地设定。

学习部110在执行q学习时,状态观测部106观测到的状态变量s和判定数据取得部108取得的判定数据d与更新式的状态s相符,应该以怎样的方式来决定针对当前状态(即,线放电加工机进行的加工中的部分加工路径、加工条件、加工环境)的加工路径的校正这样的行为与更新式的行为a相符,回报计算部112求出的回报r与更新式的回报r相符。因此价值函数更新部114通过使用了回报r的q学习反复更新表示针对当前状态的加工路径的校正的价值的函数q。

关于回报计算部112求出的回报r,例如在决定了加工路径的校正之后根据所决定的加工路径的校正进行了基于线放电加工机的加工时,在基于线放电加工机的加工的适当与否判定结果判定为“适当”的情况下(例如,在根据校正后的加工路径加工的部分的加工精度高的情况、基于校正后的加工路径的加工所花费的加工时间的增加量减少的情况等)设为正(plus)回报r,在决定了加工路径的校正之后根据决定出的加工路径的校正进行了基于线放电加工机的加工时,在线放电加工机的运转状态的适当与否判定结果被判定为“否”的情况下(例如,根据校正后的加工路径加工的部分的加工精度比预先设定的预定阈值差的情况、基于校正后的加工路径的加工所花费的加工时间的增加量是预先设定的预定阈值异常的情况等)可以设为负(minus)回报r。正负回报r的绝对值既可以彼此相同也可以不同。此外,作为判定的条件,可以将判定数据d所含的多个值组合起来进行判定。

此外,线放电加工机进行的加工的适当与否判定结果不仅可以是“适当”和“否”这两者,还可以多阶段地被设定。作为示例,可以构成为,作为线放电加工机的加工中的加工精度的指标,允许误差为emax时,线放电加工机进行的加工中产生的误差e为0≤e<emax/5时给予回报r=5,在emax/5≤e<emax/2时给予回报r=3,在emax/2≤e<emax时给予回报r=2,在emax≤e时给予回报r=1。此外,例如在线放电加工机进行的加工所花费的加工时间超过预先设定的预定阈值时等,可以根据学习的目的适当调整回报的给予,而给予较大的负回报。并且,还可以构成为学习的初始阶段将emax设定得比较大,随着学习的推进而缩小emax。

价值函数更新部114可以具有将状态变量s、判定数据d、回报r与由函数q表示的行为价值(例如数值)关联起来整理而得的行为价值表。该情况下,价值函数更新部114更新函数q这样的行为与价值函数更新部114更新行为价值表这样的行为一样。在开始q学习时环境的当前状态与加工路径的校正之间的相关性是未知的,因此,在行为价值表中,以与随机规定的行为价值的值(函数q)关联起来的方式准备各种状态变量s、判定数据d、回报r。另外,回报计算部112如果知晓判定数据d则可以立即计算出与此对应的回报r,将计算出的值r写入到行为价值表中。

在使用与线放电加工机的运转状态的适当与否判定结果对应的回报r来推进q学习时,向选择获得更高的回报r的行为的方向引导学习,作为在当前状态下执行了所选择的行为的结果而根据变化的环境的状态(即状态变量s和判定数据d),改写针对当前状态下进行的行为的行为价值的值(函数q)并更新行为价值表。通过反复进行该更新,以越是适当的行为(在本发明的情况下,在线放电加工机进行的加工的周期时间不增大的范围内使加工精度提升的行为)越是成为大的值的方式来改写行为价值表所显示的行为价值的值(函数q)。这样,逐渐明确未知环境的当前状态(线放电加工机进行的加工中的部分加工路径、加工条件、加工环境)和与此相对的行为(加工路径的校正)之间的相关性。即,通过行为价值表的更新,使线放电加工机进行的加工中的部分加工路径、加工条件、加工环境与加工路径的校正之间的关系逐渐接近最佳解。

参照图4,进一步说明学习部110执行的上述q学习的流程(即机器学习方法的一方式)。

首先,在步骤sa01中,价值函数更新部114一边参照该时间点的行为价值表,一边作为状态观测部106观测到的状态变量s表示的当前状态下进行的行为而随机选择加工路径的校正量。接下来,价值函数更新部114在步骤sa02中,取入状态观测部106观测的当前状态的状态变量s,在步骤sa03中,取入判定数据取得部108取得的当前状态的判定数据d。接着,价值函数更新部114在步骤sa04中,根据判定数据d,判断加工路径的校正量是否适当,在适当时,在步骤sa05中,将回报计算部112求出的正的回报r应用于函数q的更新式,接下来,在步骤sa06中,使用当前状态下的状态变量s、判定数据d、回报r、行为价值的值(更新后的函数q)来更新行为价值表。在步骤sa04中,当判断为加工路径的校正不适当时,在步骤sa07中,将回报计算部112求出的负的回报r应用于函数q的更新式,接着在步骤sa06中,使用当前状态下的状态变量s、判定数据d、回报r、行为价值的值(更新后的函数q)来更新行为价值表。学习部110通过反复进行步骤sa01~sa07来反复更新行为价值表,使得加工路径的校正的学习得以推进。另外,对判定数据d所含的各数据执行步骤sa04到步骤sa07为止的求出回报r的处理和价值函数的更新处理。

在进行所述强化学习时,例如可以应用神经网络。图5a示意性地表示神经元的模型。图5b示意性地表示将图5a所示的神经元组合而构成的三层神经网络的模型。例如,由模拟了神经元模型的运算装置、存储装置等来构成神经网络。

图5a所示的神经元输出针对多个输入x(这里作为一个示例,输入x1~输入x3)的结果y。对各输入x1~x3乘以与该输入x对应的权值w(w1~w3)。由此,神经元输出由如下数学式(2)表现的输出y。另外,在数学式(2)中,输入x、输出y以及权值w都是向量。此外,θ是偏置(bias),fk是激活函数。

图5b所示的三层神经网络从左侧输入多个输入x(这里作为一例,输入x1、x2、x3),从右侧输出结果y(这里作为一例,结果y1、y2、y3)。在图示的示例中,输入x1、x2、x3分别乘以对应的权值(统一标记为w1),各输入x1、x2、x3均被输入到三个神经元n11、n12、n13。

将神经元n11~n13的各自输出统一标记为z1。输出z1可以看作是提取出输入向量的特征量而得的特征向量。在图5b的示例中,特征向量z1分别乘以对应的权值(统一标记为w2),各特征向量z1均被输入到两个神经元n21、n22。特征向量z1表示权值w1与权值w2之间的特征。

将神经元n21~n22的各自输出统一标记为z2。输出z2可以看作是提取出特征向量z1的特征量而得的特征向量。在图5b的示例中,特征向量z2分别乘以对应的权值(统一标记为w3),各特征向量z2均被输入到三个神经元n31、n32、n33。特征向量z2表示权值w2与权值w3之间的特征。最后,神经元n31~n33分别输出结果y1~y3。

另外,还能够使用所谓的深层学习的方法,该深层学习使用了构成三层以上的层的神经网络。

在控制装置1具有的机器学习装置100中,将状态变量s和判定数据d设为输入x,学习部110进行按照上述神经网络的多层构造的运算,由此,可以输出加工路径的校正(结果y)。此外,在控制装置1具有的机器学习装置100中,将神经网络用作q学习中的价值函数,将状态变量s和行为a设为输入x,学习部110进行按照上述神经网络的多层构造的运算,由此,可以输出该状态下的该行为的价值(结果y)。另外,在神经网络的动作模式中有学习模式和价值预测模式,例如,可以在学习模式中使用学习数据集来学习权值w,可以在价值预测模式中使用学习到的权值w来进行行为的价值判断。另外,在价值预测模式中也可以进行检测、分类、推论等。

上述控制装置1的结构可以记述为机器学习装置100的处理器101执行的机器学习方法(或者软件)。该机器学习方法是学习加工路径的校正的机器学习方法,具有由计算机的cpu执行的如下步骤:观测校正量数据s1、加工路径数据s2、加工条件数据s3和加工环境数据s4,作为表示进行线放电加工机的加工的环境的当前状态的状态变量s;取得表示基于决定出的加工路径的校正的线放电加工机进行的加工的适当与否判定结果的判定数据d;使用状态变量s和判定数据d,将加工路径数据s2、加工条件数据s3和加工环境数据s4与加工路径的校正关联起来进行学习。

图6表示具有控制装置1的第二实施方式涉及的系统170。系统170具有:至少一台控制装置1,其实装为单元计算机或主计算机、云服务器等计算机的一部分;多个线放电加工机2,其成为实验的对象;和有线/无线的网络172,其将控制装置1、线放电加工机2相互连接。

关于具有上述结构的系统170,具有机器学习装置100的控制装置1使用学习部110的学习结果,可以对每个线放电加工机2自动且准确地求出针对线放电加工机2进行的加工的部分加工路径、加工条件和加工环境的加工路径的校正。此外,控制装置1的机器学习装置100可以构成为根据针对多个线放电加工机2的每一个而获得的状态变量s和判定数据d,学习与所有线放电加工机2共通的加工路径的校正,在所有线放电加工机进行的加工中共享该学习结果。因此,根据系统170可以将更多样的数据集合(包含状态变量s和判定数据d)作为输入,提升加工路径的校正的学习速度和可靠性。

以上,对本发明的实施方式进行了说明,但是本发明不只限定于上述实施方式的示例,可以通过增加适当的变更而以各种方式来实施。

例如,机器学习装置100执行的学习算法和运算算法、控制装置1执行的控制算法等不限定于上述内容,可以采用各种算法。

此外,在上述实施方式中作为控制装置1和机器学习装置100具有不同的cpu的装置进行了说明,但是机器学习装置100也可以通过控制装置1具有的cpu11和存储于rom12的系统程序来实现。

在上述实施方式中,示出了控制装置1根据从机器学习装置100输出的加工路径的校正量的推定结果,在加工中校正加工路径的示例,但是也可以设置根据由加工程序指令的加工路径、从机器学习装置100输出的加工路径的校正量的推定结果的系列来制作考虑了加工路径的校正的新的加工程序,输出制作出的加工程序的结构。通过向不具有机器学习装置100的线放电加工机2提供考虑了加工路径的校正的加工程序,即使在线放电加工机2和机器学习装置100离线的状态下也可以进行基于适当的加工路径的加工。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1