控制装置以及机器学习装置的制作方法

文档序号:18898389发布日期:2019-10-18 21:35阅读:162来源:国知局
控制装置以及机器学习装置的制作方法

本发明涉及控制装置以及机器学习装置,尤其涉及使毛刺去除加工的加工条件最佳化的控制装置以及机器学习装置。



背景技术:

将用于去除由于工件加工所产生的毛刺的加工称作毛刺去除加工。例如,如图9所示,通过视觉传感器5识别在工件4中产生的毛刺,使用安装在机器人6的臂7上的刀具8来研磨毛刺,从而进行毛刺去除加工。

用于毛刺去除加工自动化的方法提出有多种。例如日本特开平07-104829号公报中有记载有下述毛刺去除加工的自动化方法,通过视觉传感器单元检测毛刺去除加工对象工件的毛刺形成状况,将检测结果与预先设定的加工条件选择基准进行比对来选择使用的毛刺去除工具,使用自动更换装置将选择出的毛刺去除工具装配在机器人上,通过示教程序的再生运转使装配有该毛刺去除工具的机器人移动,来执行毛刺去除加工。

上述的日本特开平07-104829号公报中记载的方法存在的问题是,需要作业者预先设定加工条件,该设定作业需要很多劳力和时间。关于该问题,使用图10在以下说明。

在以往,作业者根据工件4的材质、毛刺9的大小或形状,由作业者基于经验来选择、设定例如用于毛刺去除的刀具8的种类。例如,对于工件4的材质硬(不锈钢等)的情况、毛刺9大的情况、对于纵向(图10的z方向)的毛刺9,选择研磨力较高的刀具8。而对于工件4的材质软(铝等)的情况、毛刺9小的情况、以及对于横向(图10的x方向)的毛刺9,选择研磨力较低的刀具8。

已知若决定了刀具的种类,则能够在某种程度上决定切入量、刀具旋转速度、刀具进给速度等加工条件。

图11是表示每种刀具的切入量、刀具旋转速度、刀具进给速度的推荐值的表。

但是,即使在基于推荐值使用了基于经验所选择的刀具的情况下,也存在不能将毛刺顺利去除的情况。以往,在该种情况下,通过将旋转速度升到上限、或者降低进给速度、或者将刀具更换为研磨力高的刀具等单元的试错,来去除毛刺。这种试错的作业也需要大量工夫和时间。



技术实现要素:

本发明为了解决上述课题而制成,目的在于提供使毛刺去除加工的加工条件最佳化的控制装置以及机器学习装置。

本发明的一种方式涉及的控制装置,控制进行从工件去除毛刺的毛刺去除加工的机器人,该控制装置具备学习进行所述毛刺去除加工时的加工条件的机器学习装置。该机器学习装置具备:状态观测部,其观测所述加工条件作为表示环境的当前状态的状态变量,所述加工条件包括表示所述工件的形状和材质的至少一方的工件信息、表示所述毛刺的形状和位置的至少一方的毛刺信息、以及表示刀具的种类的刀具信息、所述刀具的进给速度及所述刀具的旋转速度;判定数据取得部,其取得表示所述毛刺去除加工的评价结果的判定数据;以及学习部,其使用所述状态变量和所述判定数据,将所述加工条件与所述工件信息及所述毛刺信息关联起来进行学习。

所述判定数据能包括所述毛刺的去除率和所述毛刺去除加工的循环时间的至少一方。

所述学习部能具备:回报计算部,其求出与所述评价结果相关联的回报;以及价值函数更新部,其使用所述回报,更新表示与所述工件信息以及所述毛刺信息相对应的所述加工条件的价值的函数。

所述学习部能以多层构造来运算所述状态变量和所述判定数据。

所述控制装置还可以具备决策部,该决策部其基于所述学习部的学习结果输出基于所述加工条件的指令值。

所述学习部能使用从多个所述机器人得到的所述状态变量以及所述判定数据来学习所述加工条件。

所述机器学习装置可通过云计算、雾计算、边缘计算环境来实现。

本发明的一种方式涉及的机器学习装置,其学习通过机器人进行从工件去除毛刺的毛刺去除加工时的加工条件,该机器学习装置其具备:状态观测部,其观测所述加工条件作为表示环境的当前状态的状态变量,所述加工条件包括表示所述工件的形状和材质的至少一方的工件信息、表示所述毛刺的形状和位置的至少一方的毛刺信息、以及表示刀具的种类的刀具信息、所述刀具的进给速度及所述刀具的旋转速度;判定数据取得部,其取得表示所述毛刺去除加工的评价结果的判定数据;以及学习部,其使用所述状态变量和所述判定数据,将所述加工条件与所述工件信息及所述毛刺信息关联起来进行学习。

根据本发明,能够提供使毛刺去除加工的加工条件最佳化的控制装置以及机器学习装置。

附图说明

图1是第一实施方式涉及的控制装置的概要性硬件结构图。

图2是图1的控制装置的概要性功能框图。

图3是表示控制装置的一种方式的概要性功能框图。

图4是表示机器学习方法的一种方式的概要性流程图。

图5a是说明神经元的图。

图5b是说明神经网络的图。

图6是第二实施方式涉及的控制装置的概要性功能框图。

图7是表示组装有控制装置的系统的一种方式的概要性功能框图。

图8是表示组装有控制装置的系统的其他方式的概要性功能框图。

图9是毛刺去除加工的概要性示意图。

图10是毛刺去除加工的概要性示意图。

图11是以往的毛刺去除加工中使用的加工条件的推荐值的一个例子。

具体实施方式

图1是表示本发明第一实施方式提供的控制装置1和由控制装置1控制的产业用机器的主要部件的概要性硬件结构图。

控制装置1是控制例如进行毛刺去除加工的产业用机器人或加工中心等(以下简称为机器人)的控制装置。控制装置1具有cpu11、rom12、ram13、非易失性存储器14、接口18、接口19、接口21、接口22、总线20、轴控制电路30以及伺服放大器40。控制装置1与伺服电机50、示教操作盘60、刀具更换装置70以及拍摄装置80连接。

cpu11是对控制装置1进行整体控制的处理器。cpu11经接口22、总线20读出存储在rom12中的系统程序,按照系统程序对控制装置1整体进行控制。

rom12预先存储有用于执行机器人的各种控制等的系统程序(包括用于控制与后述的机器学习装置100的交换的系统程序)。

ram13临时性存储临时性的计算数据或显示数据、经由示教操作盘60(后述)由操作者输入的数据等。

非易失性存储器14由例如电池(未图示)备份,即使控制装置1的电源被切断也能保持存储状态。非易失性存储器14存储从示教操作盘60输入的数据、经接口(未图示)输入的机器人控制用的程序或数据等。存储在非易失性存储器14中的程序或数据可以在执行时以及利用时在ram13中展开。

轴控制电路30控制机器人所具备的关节等轴。轴控制电路30接受cpu11输出的轴的移动指令量,将轴的移动指令输出到伺服放大器40。

伺服放大器40接受轴控制电路30输出的轴的移动指令,驱动伺服电机50。

伺服电机50由伺服放大器40驱动,使机器人具备的轴移动。伺服电机50典型地内置有位置/速度检测器。位置/速度检测器输出位置/速度反馈信号,该信号被反馈至轴控制电路30,从而进行位置/速度的反馈控制。

并且,图1中轴控制电路30、伺服放大器40以及伺服电机50分别只示出了一个,而实际数量与作为控制对象的机器人中具备的轴的数量相同。例如,在控制具备6个轴的机器人的情况下,与各个轴对应的轴控制电路30、伺服放大器40以及伺服电机50的组共有6个。

示教操作盘60是具备显示器、手柄、硬件键等的手动数据输入装置。示教操作盘60将经接口18从cpu11接受的信息显示在显示器中。示教操作盘60将从手柄、硬件键等输入的脉冲、指令、数据等经接口18传递给cpu11。

刀具更换装置70更换保持在机器人的臂前端的刀具。刀具更换装置70基于经接口19从cpu11接受的指令来实施刀具的更换。

拍摄装置80是用于拍摄工件毛刺状态的装置,例如是视觉传感器。拍摄装置80根据经接口22从cpu11接受的指令来拍摄工件毛刺状态。拍摄装置80将拍摄到的图像数据经接口22传递给cpu11。

接口21是用于连接控制装置1与机器学习装置100的接口。机器学习装置100具有处理器101、rom102、ram103、非易失性存储器104。

处理器101对机器学习装置100整体进行统括控制。rom102存储系统程序等。ram103进行机器学习涉及的各处理中的临时性存储。非易失性存储器104存储学习模型等。

机器学习装置100经接口21观测控制装置1可取得的各种信息(使用中的刀具信息、刀具进给速度、刀具旋转速度、由拍摄装置80取得的图像数据、工件的形状或材质等)。机器学习装置100经接口21向控制装置1输出用于控制伺服电机50、刀具更换装置70的指令。控制装置1接受来自机器学习装置100的指令,进行机器人的控制指令的修正等。

图2是第一实施方式(图1)中的控制装置1以及机器学习装置100的概要性功能框图。

机器学习装置100具有状态观测部106、判定数据取得部108以及学习部110。状态观测部106、判定数据取得部108以及学习部110可实现为例如处理器101的一个功能。或者,可通过由处理器101执行存储在例如rom102中的软件来实现。

状态观测部106观测表示环境的当前状态的状态变量s。状态变量s包括关于工件的形状或材质的工件信息s1、关于毛刺的位置或形状的毛刺信息s2、表示刀具种类的刀具信息s3、刀具进给速度s4以及刀具旋转速度s5。

状态观测部106能够取得控制装置1保持的加工中工件的形状信息(例如表示工件形状的标识符等)以及材质信息(例如表示材质的标识符等)的至少一方作为工件信息s1。

状态观测部106能够取得由cpu11解析拍摄装置80在毛刺去除加工前拍摄到的图像数据而得到的毛刺形状信息(例如所述的日本特开平07-104829号公报中记载的最大突出量等)以及位置信息(例如表示产生了毛刺的面的标识符等)的至少一方作为毛刺信息s2。

状态观测部106能够从控制装置1取得在毛刺去除加工时使用的刀具信息(例如表示刀具种类的标识符等)、刀具进给速度以及旋转速度作为刀具信息s3、刀具进给速度s4以及刀具旋转速度s5。

判定数据取得部108取得判定数据d,该判定数据d是表示在状态变量s下进行了机器人控制的情况下的结果的指标。判定数据d包括毛刺去除率d1以及循环时间d2。

判定数据取得部108能够使用表示毛刺去除前后的毛刺形状信息的变化量的值作为毛刺去除率d1。例如,判定数据取得部108取得cpu11解析在状态变量s下控制机器人进行了毛刺去除加工后由拍摄装置80拍摄到的图像数据而得到的毛刺形状信息(设为最大突出量ha)。判定数据取得部108能够使用在毛刺去除加工前由状态观测部106取得的毛刺形状信息(设为最大突出量hb)和毛刺去除加工后的最大突出量ha来计算毛刺去除率d1=(ha-hb)/ha。

判定数据取得部108能够从控制装置1取得毛刺去除加工的循环时间作为循环时间d2。

学习部110使用状态变量s和判定数据d,学习工件状态(工件信息s1、毛刺信息s2)与加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关关系。即学习部110生成表示状态变量s的构成要素s1、s2、s3、s4、s5的相关性的模型结构。

在以学习部110的学习周期进行考虑的情况下,输入学习部110的状态变量s基于取得了判定数据d的1学习周期前的数据。在机器学习装置100进行学习的期间,在环境中反复实施下述(1)~(4):(1)取得工件信息s1、毛刺信息s2;(2)设定刀具信息s3、进给速度s4、旋转速度s5,即设定加工条件;(3)执行按照上述(1)(2)的机器人的控制;(4)取得判定数据d。上述(2)的刀具信息s3、进给速度s4以及旋转速度s5是基于到上一次为止的学习结果而得到的加工条件设定值。另外,上述(4)的判定数据d是基于刀具信息s3、进给速度s4以及旋转速度s5而进行的毛刺去除加工的评价结果。

通过反复这样的学习循环,学习部110能够自动识别隐含表示工件状态(工件信息s1、毛刺信息s2)与加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关关系的特征。在学习算法的开始时,工件状态(工件信息s1、毛刺信息s2)与加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关关系实质上是未知的,学习部110随着学习的推进逐渐识别特征并解释相关性。

工件状态(工件信息s1、毛刺信息s2)和加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关关系被解释至某种程度可信赖的水准,则学习部110反复输出的学习结果能够用于进行对当前状态即工件状态(工件信息s1、毛刺信息s2)应设定何种加工条件(刀具信息s3、进给速度s4、旋转速度s5)这种行动的选择(决策)。即学习部110能够输出与当前状态对应的行动的最佳解。

状态变量s由工件信息s1、毛刺信息s2、刀具信息s3、进给速度s4以及旋转速度s5这些难以受到外部干扰影响的数据构成。判定数据d通过从控制装置1取得拍摄装置80的图像数据解析结果和循环时间而唯一性求出。因此根据机器学习装置100,通过使用学习部110的学习结果,能够不依赖运算或估算地针对当前状态即工件状态(工件信息s1、毛刺信息s2)自动且准确地求出最佳加工条件(刀具信息s3、进给速度s4、旋转速度s5)。换言之,只要掌握当前状态即工件状态(工件信息s1、毛刺信息s2),就能够迅速地决定最佳加工条件(刀具信息s3、进给速度s4、旋转速度s5)。因此,能够有效进行机器人进行的毛刺去除加工的加工条件的设定。

作为机器学习装置100的一个变形例,学习部110能够使用针对进行同一作业的多个机器人分别得到的状态变量s以及判定数据d,学习那些机器人的适宜的加工条件。根据该构成,使包括一定时间内得到的状态变量s和判定数据d的数据集合的量增加,由于能够输入更多样的数据集合,因此能使学习的速度、可靠度提高。

而且,学习部110执行的学习算法并不受特别限定,能够采用作为机器学习所公知的学习算法。图3是图1所示控制装置1的一种方式,表示具备学习部110的构成,该学习部110执行作为学习算法的一个例子的强化学习。

强化学习是下述方法,即对学习对象存在的环境的当前状态(即输入)进行观测并且以当前状态执行预定的行动(即输出),试错性反复针对该行动赋予某种回报这一循环,将回报的总计最大化的解决方案(本实施方式中为加工条件的设定)作为最佳解进行学习。

图3所示控制装置1所具备的机器学习装置100中,学习部110具有回报计算部112、价值函数更新部114。

回报计算部112求出回报r,该回报r与基于状态变量s设定了加工条件的情况下的毛刺去除加工的评价结果(相当于在取得了状态变量s的下一学习周期中使用的判定数据d)相关联。

价值函数更新部114使用回报r更新表示加工条件的价值的函数q。通过由价值函数更新部114反复更新函数q,学习部110对工件状态(工件信息s1、毛刺信息s2)与加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关关系进行学习。

说明学习部110执行的强化学习算法的一个例子。

该例子中的算法为已知的q学习(q-learning),是学习函数q(s,a)的方法,该函数q(s,a)将行动主体的状态s、该状态s下行动主体可选择的行动a作为独立变量,表示状态s下选择了行动a的情况下的行动的价值。选择状态s下价值函数q最高的行动a为最佳解。在状态s与行动a的相关性为未知的状态下开始q学习,反复在任意状态s下选择各种行动a的试错,从而反复更新价值函数q,接近最佳解。此处,构成为在状态s下作为选择了行动a的结果而环境(即状态s)变化时,能够得到对应于该变化的回报(即行动a的权重)r,以选择能够得到更高回报r的行动a的方式来引导学习,从而能使价值函数q在较短时间中接近最佳解。

价值函数q的更新式通常能以下述的式(1)来表示。式(1)中,st以及at分别是时刻t的状态以及行动,根据行动at而状态变化为st+1。rt+1是状态从st变化为st+1而得到的回报。maxq的项表示进行了在时刻t+1成为最大价值q的(和在时刻t考虑的)行动a时的q。α以及γ分别是学习系数以及折扣率,以0<α≦1、0<γ≦1任意设定。

学习部110执行q学习的情况下,状态观测部106观测到的状态变量s以及判定数据取得部108取得的判定数据d相当于更新式的状态s,针对当前状态即工件的状态(工件信息s1、毛刺信息s2)应如何决定加工条件(刀具信息s3、进给速度s4、旋转速度s5)这一行动相当于更新式的行动a,回报计算部112求出的回报r相当于更新式的回报r。因此,价值函数更新部114通过使用回报r的q学习来反复更新表示针对当前状态的加工条件的设定的价值的函数q。

回报计算部112例如在进行基于决定出的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的毛刺去除加工,毛刺去除加工的评价结果被判定为“适宜”的情况下,能够将回报r设为正(+)的值。另一方面,在毛刺去除加工的评价结果被判定为“否”的情况下,能够将回报r设为负(-)的值。正负回报r的绝对值可以彼此相同也可不同。

毛刺去除加工的评价结果为“适宜”的情况是指,例如毛刺去除率d1为预定阈值以上、循环时间d2小于预定阈值的情况。另一方面,毛刺去除加工的评价结果为“否”的情况是指,例如毛刺去除率d1小于预定阈值、循环时间d2为预定阈值以上的情况。另外,回报计算部112也可将判定数据d所包含的多个值组合来判定适宜与否。

毛刺去除加工的评价结果不仅为“适宜”以及“否”两种,能设定为多个阶段。例如,回报计算部112可以是在毛刺去除率d1为0.8<d1≦1时赋予回报r=5,在0.2<d1≦0.8时赋予回报r=0,在0≦d1≦0.2时赋予回报r=-5这样的构成。另外,例如,回报计算部112可以是循环时间d2相对于目标值t为t≦d2时赋予回报r=5,在0.8t≦d2<t时赋予回报r=0,在d2<0.8t时赋予回报r=-5这样的构成。

价值函数更新部114能够具有行动价值表,该行动价值表将状态变量s、判定数据d、回报r与以函数q表示的行动价值(例如数值)关联起来进行了整理。该情况下,价值函数更新部114更新函数q这一行为与价值函数更新部114更新行动价值表这一行为含义相同。在q学习的开始时,由于工件的状态(工件信息s1、毛刺信息s2)与加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关关系为未知,因此在行动价值表中,各种状态变量s、判定数据d、回报r为与随机确定的行动价值的值(函数q)关联起来的方式。回报计算部112只要知晓判定数据d则即刻能算出与其对应的回报r,算出的值r被写入行动价值表。

若使用对应于毛刺去除加工的评价结果的回报r来进行q学习,则向选择能得到更高回报r的行动的方向引导学习,根据以当前状态执行所选择的行动为结果而变化的环境的状态(即状态变量s以及判定数据d),关于以当前状态进行的行动的行动价值的值(函数q)被改写来更新行动价值表。通过反复该更新而显示在行动价值表中的行动价值的值(函数q)被改写,以使越是适宜的行动而值越大。由此,未知的环境的当前状态即工件的状态(工件信息s1、毛刺信息s2)和与其相对应的行动即所设定的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关性逐渐明了。即通过更新行动价值表,工件的状态(工件信息s1、毛刺信息s2)与加工条件(刀具信息s3、进给速度s4、旋转速度s5)的相关关系逐渐接近最佳解。

参照图4,进一步说明学习部110执行的q学习的流程(即机器学习方法的一种方式)。

步骤sa01:价值函数更新部114在参照该时间点的行动价值表的同时,作为状态观测部106观测到的状态变量s所表示的当前状态下进行的行动而随机选择加工条件(刀具信息s3、进给速度s4、旋转速度s5)。

步骤sa02:价值函数更新部114取入状态观测部106观测的当前状态的状态变量s。

步骤sa03:价值函数更新部114取入判定数据取得部108取得的当前状态的判定数据d。

步骤sa04:价值函数更新部114基于判定数据d判断加工条件(刀具信息s3、进给速度s4、旋转速度s5)是否适宜。在适宜的情况下,转移到步骤sa05。在不适宜的情况下,转移到步骤sa07。

步骤sa05:价值函数更新部114将回报计算部112求出的正回报r适用到函数q的更新式。

步骤sa06:价值函数更新部114使用当前状态下的状态变量s以及判定数据d、回报r、行动价值的值(更新后的函数q)来更新行动价值表。

步骤sa07:价值函数更新部114将回报计算部112求出的负回报r适用到函数q的更新式。

学习部110通过反复步骤sa01至sa07的处理来反复更新行动价值表,来进行学习。而且,步骤sa04至步骤sa07为止的求出回报r的处理以及价值函数的更新处理针对判定数据d中包含的各个数据来执行。

在推进所述强化学习时,例如能使用神经网络取代q学习。图5a示意表示神经元模型。图5b示意表示组合图5a所示的神经元而构成的三层神经网络模型。神经网络能够由例如模拟了神经元模型的运算装置、存储装置等构成。

图5a所示的神经元输出对于多个输入x(此处作为一个例子,为输入x1~x3)的结果y。对各输入x1~x3施加与该输入x对应的权重w(w1~w3)。由此,神经元输出由下述式(2)表达的结果y。而且,式(2)中,输入x、结果y以及权重w均为矢量。另外,θ为偏置,fk是激活函数。

图5b所示的三层神经网络从左侧输入多个输入x(此处作为一个例子,为输入x1~x3),从右侧输出结果y(此处作为一个例子,为结果y1~y3)。图示的例子中,对输入x1、x2、x3分别乘以对应的权重(总称为w1),各输入x1、x2、x3均输入3个神经元n11、n12、n13。

图5b中,神经元n11~n13各自的输出总称为z1。z1能视为提取了输入矢量的特征量的特征矢量。图示的例子中,乘以与特征矢量z1分别对应的权重(总称为w2),各个特征矢量z1均输入2个神经元n21、n22。特征矢量z1表示权重w1与权重w2之间的特征。

另外,神经元n21~n22各自的输出总称为z2。z2能视为提取了特征矢量z1的特征量的特征矢量。图示的例子中,乘以与特征矢量z2分别对应的权重(总称为w3),各个特征矢量z2均输入3个神经元n31、n32、n33。特征矢量z2表示权重w2与权重w3之间的特征。最后神经元n31~n33分别输出结果y1~y3。

另外,还能够使用采用形成3层以上层的神经网络的所谓深度学习的方法。

机器学习装置100中,以状态变量s和判定数据d作为输入x,学习部110进行按照神经网络的多层构造的运算,从而能将加工条件(刀具信息s3、进给速度s4、旋转速度s5)作为结果y进行输出。另外,机器学习装置100中,使用神经网络作为强化学习中的价值函数,以状态变量s和行动a为输入x,学习部110进行按照神经网络的多层构造的运算,也能够输出某一状态的某一行动的价值(结果y)。而且,神经网络的动作模式具有学习模式和价值预测模式,例如在学习模式下使用学习数据集合来学习权重w,能够使用学习到的权重w以价值预测模式进行行动的价值判断。而且,在价值预测模式中,还能进行检测、分类、推论等。

上述的控制装置1的构成能够表述为处理器101执行的机器学习方法(或者程序)。该机器学习方法是学习毛刺去除加工的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的机器学习方法,具有计算机的cpu观测工件状态(工件信息s1、毛刺信息s2)作为表示进行毛刺去除加工的环境的当前状态的状态变量s的步骤和取得表示按照所设定的加工条件(刀具信息s3、进给速度s4、旋转速度s5)实施的毛刺去除加工的评价结果的判定数据d的步骤,进一步具有使用状态变量s和判定数据d,将工件状态(工件信息s1、毛刺信息s2)与加工条件(刀具信息s3、进给速度s4、旋转速度s5)关联起来进行学习的步骤。

图6表示本发明的第二实施方式涉及的控制装置2。控制装置2具有机器学习装置120以及状态数据取得部3。

状态数据取得部3取得工件状态(工件信息s1、毛刺信息s2)以及加工条件(刀具信息s3、进给速度s4、旋转速度s5)作为状态数据s0,并提供给状态观测部106。状态数据取得部3能从例如控制装置2的各部位、机器人具备的各种传感器、由作业者从示教操作盘60等进行的数据输入等取得状态数据s0。

机器学习装置120除了具有状态观测部106、判定数据取得部108以及学习部110之外,还具有决策部122。该决策部122例如可实现为处理器101的一个功能,也可通过由处理器101执行存储在rom102中的软件来实现。

机器学习装置120除了包括用于通过机器学习而自行学习毛刺去除加工的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的软件(学习算法等)以及硬件(处理器101等),还包括用于将基于学习结果而求出的加工条件(刀具信息s3、进给速度s4、旋转速度s5)作为对控制装置2的指令进行输出的软件(运算算法等)以及硬件(处理器101等)。机器学习装置120还能具有以一个通用的处理器执行学习算法、运算算法等所有软件的构成。

决策部122基于学习部110学习到的结果,生成指令值c,该指令值c包括决定与工件状态(工件信息s1、毛刺信息s2)对应的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的指令。若决策部122将指令值c输出到控制装置2,则控制装置2按照指令值c控制机器人。如此,环境的状态变化。

状态观测部106在下一学习周期中观测由于决策部122向环境输出指令值c而变化的状态变量s。学习部110使用变化了的状态变量s,例如通过更新价值函数q(即行动价值表),来学习毛刺去除加工的加工条件(刀具信息s3、进给速度s4、旋转速度s5)。而且,此时的状态观测部106并非从状态数据取得部3所取得的状态数据s0取得加工条件(刀具信息s3、进给速度s4、旋转速度s5),而是可以如第一实施方式中说明的那样,从机器学习装置120的ram103观测。

然后,决策部122再次向控制装置2输出对基于学习结果而求出的加工条件(刀具信息s3、进给速度s4、旋转速度s5)进行指令的指令值c。通过反复该学习周期,机器学习装置120推进学习,逐渐提高自身决定的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的可靠度。

机器学习装置120取得与第一实施方式的机器学习装置100同等的效果。并且,机器学习装置120能够根据决策部122的输出使环境的状态变化。而且,机器学习装置100通过对外部装置要求相当于决策部122的功能,从而能够将学习部110的学习结果反映到环境中。

图7表示针对控制装置2加入多个机器人的系统170。

该系统170具有多个机器人160以及机器人160’。机器人160以及机器人160’具有同一目的的作业所需的机构,进行同一作业。另一方面,机器人160具备控制装置2,机器人160’不具备控制装置2。这些所有的机器人160和机器人160’经由有线或者无线网络172相互连接。

具备控制装置2的机器人160能够使用学习部110的学习结果,不依赖于运算或估算,而自动且准确地求出与工件状态(工件信息s1、毛刺信息s2)对应的加工条件(刀具信息s3、进给速度s4、旋转速度s5)。另外,能够构成为至少一个机器人160的控制装置2利用针对其他多个机器人160以及机器人160’分别得到的状态变量s以及判定数据d,学习对所有的机器人160以及机器人160’通用的毛刺去除加工的加工条件(刀具信息s3、进给速度s4、旋转速度s5),其学习结果由所有机器人160以及机器人160’共享。根据系统170,能将更多样的数据集合(包括状态变量s以及判定数据d)作为输入,提高毛刺去除加工的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的学习的速度、可靠度。

图8表示具备多个机器人160’的系统170’。

该系统170’具备具有同一机器构成的多个机器人160’和机器学习装置120(或者机器学习装置100)。多个机器人160’和机器学习装置120(或者机器学习装置100)通过有线或者无线网络172相互连接。

机器学习装置120(或者机器学习装置100)基于针对多个机器人160’分别得到的状态变量s以及判定数据d,学习对所有机器人160’通用的毛刺去除加工的加工条件(刀具信息s3、进给速度s4、旋转速度s5)。机器学习装置120(或者机器学习装置100)使用该学习结果,能不依赖于运算或估算地自动且准确地求出与工件状态(工件信息s1、毛刺信息s2)对应的加工条件(刀具信息s3、进给速度s4、旋转速度s5)。

机器学习装置120(或者机器学习装置100)可存在于配置在网络172中的云服务器等。根据该构成,能无关于多个机器人160’各自的存在场所或时期,而在必要时将必要数量的机器人160’连接到机器学习装置120(或者机器学习装置100)。

操作系统170(图7)或者系统170’(图8)的作业者能够在机器学习装置120(或者100)进行的学习开始后的适宜时期,执行机器学习装置120(或者机器学习装置100)进行的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的学习的达成度(即输出的加工条件(刀具信息s3、进给速度s4、旋转速度s5)的可靠度)是否达到要求水平的判断。

以上说明了本发明的实施方式,但是本发明不仅限于上述实施方式的例子,通过施加适宜变更能以各种方式来实施。

例如,机器学习装置100或机器学习装置120执行的学习算法、机器学习装置120执行的运算算法、控制装置1或控制装置2执行的控制算法等不限定为上述的算法,能采用各种算法。

另外,在上述的实施方式中,控制装置1(或者控制装置2)和机器学习装置100(或者机器学习装置120)作为具有不同cpu的装置进行了说明,机器学习装置100(或者机器学习装置120)也可通过控制装置1(或者控制装置2)所具备的cpu11和存储在rom12中的系统程序来实现。

另外,在上述的实施方式中,假定控制装置1(或者控制装置2)、机器学习装置100(或者机器学习装置120)为设置在本地的一个信息处理装置,但是本发明不限定于此,例如控制装置1(或者控制装置2)、机器学习装置100(或者机器学习装置120)也可安装在称作云计算、雾计算、边缘计算等的信息处理环境中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1