机械学习装置和方法以及具有该机械学习装置的机床与流程

文档序号:13915860阅读:143来源:国知局
机械学习装置和方法以及具有该机械学习装置的机床与流程

本发明涉及学习针对电动机的动作指令的机械学习方法、机械学习装置以及具有该机械学习装置的机床。



背景技术:

在使用机床来进行加工的情况下,为了提高加工精度,而要求防止过载、过热及颤振。以往,操作者基于自身的经验,改变工具的进给速度或主轴的转速,或者进行温度校正,从而谋求提高加工精度。

在国际公开第2014/115395号公开了一种机床,其构成为在检测出颤振时,对主轴的转速进行校正,或者改变进刀量。国际公开第2015/087455号公开了一种数值控制装置,其根据工件的惯性、电动机的负荷等在动作过程中改变电动机的加速度。



技术实现要素:

但是,根据上述的公知技术,要根据特定的条件来执行预定校正处理,因此难以始终实现高加工精度。因此,要求将机床控制为不需要操作者的校正操作,就能够始终实现高加工精度。

本发明提供一种机械学习装置,其学习针对电动机的动作指令,其中,该机械学习装置包括:状态观测部,其将针对所述电动机的功率供给量、所述电动机的温度、所述电动机的负荷以及所述电动机的振动作为状态变量来进行观测;以及学习部,其按照基于所述状态变量而作成的训练数据集,来学习针对所述电动机的动作指令。

在本申请的优选实施例中,所述学习部包括:回报计算部,其根据所述功率供给量、所述温度、所述负荷以及所述振动来计算回报;以及函数更新部,其基于所述回报来更新用于决定所述动作指令的函数。

在本申请的优选实施例中,所述回报计算部构成为:基于所述功率供给量与预先决定的功率供给量之差、所述温度与预先决定的温度之差、所述负荷与预先决定的负荷之差以及所述振动与预先决定的振动之差,来计算所述回报。

在本申请的优选实施例中,所述函数更新部构成为:基于所述回报来更新行为价值表。

在本申请的优选实施例中,所述学习部构成为:按照针对多个电动机作成的训练数据集来学习所述动作指令。

本申请的优选实施例提供一种机床,包括:上述的机械学习装置;由至少一个第1电动机驱动的移动轴或者旋转轴;以及由至少一个第2电动机驱动的主轴,其中,所述机械学习装置还包括意图决定部,该意图决定部基于所述学习部学习而得的结果来执行进给速度校正、主轴转速校正、加减速时间常数校正以及位置校正中的至少某一个,所述机床构成为:按照由所述意图决定部校正后的动作指令来控制所述第1电动机及所述第2电动机。

在本申请的优选实施例中,所述状态观测部构成为:将主轴头的温度及振动作为追加的状态变量来进行观测,所述回报计算部构成为:基于所述主轴头的温度与预先决定的温度之差、以及所述主轴头的振动与预先决定的振动之差,来计算所述回报。

本发明提供一种机械学习方法,用于学习针对电动机的动作指令,其中,该机械学习方法包括:将针对所述电动机的功率供给量、所述电动机的温度、所述电动机的负荷以及所述电动机的振动作为状态变量来进行观测;以及按照基于所述状态变量而作成的训练数据集,来学习所述针对电动机的动作指令。

附图说明

通过参照附图所示的本发明的例示实施方式的详细说明能够进一步明确上述内容及本发明的其他目的、特征及优点。

图1是表示一实施方式的机床的构成例的框图。

图2是表示机械学习装置的学习过程的流程的流程图。

图3是表示神经元的模型的示意图。

图4是表示三层神经网络模型的示意图。

具体实施方式

以下,参照附图说明本发明的实施方式。图1是表示一实施方式的机床的构成例的框图。机床1包括电动机2、控制电动机2的控制装置3、学习针对电动机2的动作指令的机械学习装置4。

电动机2分别与机床1的轴相应地设置。电动机2用于驱动安装有工具的主轴头5。另外,电动机2也可以用于驱动使主轴头5在固定于作业空间的坐标系的各轴向上移动的移动轴或使主轴头5在各轴向上旋转的旋转轴。或者,电动机2还可以用于驱动使载置有工件的工作台在作业空间内移动的移动轴或者使工作台在作业空间内旋转的旋转轴。在本说明书中使用的“电动机”的术语包括机床1中使用的多个电动机2、即包括主轴用电动机及进给轴用电动机这两者。

控制装置3包括CPU、存储器、接口。CPU执行用于执行控制装置3的各种功能的运算处理。存储器包括ROM、RAM及非易失性存储器。在ROM中存储有对控制装置3的功能进行控制的系统程序。RAM用于暂时存储各种传感器的输出值及CPU的运算结果等。在非易失性存储器中存储有用于作成向电动机2发出的指令的控制程序及各种参数等。

如图1所示,控制装置3包括温度测量部31、振动测量部32、负荷测量部33、功率测量部34、判断部35以及指令作成部36。

温度测量部31测量电动机2的温度。温度测量部31基于设于能够检测出电动机2的温度变化的任意位置例如电动机2的壳体的温度传感器(未图示)的输出值来测量电动机2的温度。在一实施方式中,温度测量部31也可以构成为还利用另行设置的温度传感器检测主轴头5的温度。

振动测量部32基于任意的振动传感器的输出值,来测量电动机2的振动。在一实施方式中,振动测量部32也可以构成为还利用另行设置的振动传感器来测量主轴头5的振动。

负荷测量部33测量电动机2的负荷。例如,负荷测量部33能够根据在电动机2进行预定动作时向电动机2供给的电流量来计算负荷。

功率测量部34通过控制装置3的放大器(未图示)来测量向电动机2的功率供给量。

判断部35计算由控制装置3取得的多个测量值和与各测量值相应的比较值之差,并作出判断数据来进行输出。要进行判断的测量值包括由温度测量部31测量的电动机2的温度、由振动测量部32测量的电动机2的振动、由负荷测量部33测量的电动机2的负荷以及由功率测量部34测量的功率。

与电动机2的温度相应的比较值设定为表示能视为电动机2过热的温度。与电动机2的振动相应的比较值设定为表示能视为发生了颤振的振动。与电动机2的负荷相应的比较值设定为表示能视为电动机2处于过载状态的负荷。与电动机2的功率供给量相应的比较值设定为表示与功率供给容量的极限相应的功率。

这样,由判断部35作成的判断数据是能够判断有没有发生电动机2的过热、过载、超过功率供给容量及颤振的数据。

在构成为温度测量部31测量主轴头5的温度的实施方式的情况下,判断部35进一步构成为计算主轴头5的温度和与其相应的温度之差。在构成为温度测量部31测量主轴头5的振动的实施方式的情况下,判断部35进一步构成为计算主轴头5的振动和与其相应的值之差。

指令作成部36作成针对电动机2的动作指令。指令作成部36按照存储于非易失性存储器的动作程序及参数来作成动作指令。由指令作成部36作成的动作指令会根据由后述的机械学习装置4的意图决定部46决定的校正处理来进行校正。

机械学习装置4用于学习与机床1的状态相应地针对电动机2发出的动作指令。如图1所示,机械学习装置4包括状态观测部41、判断数据取得部42、学习部43以及意图决定部46。

状态观测部41将向电动机2的功率供给量、电动机2的温度、电动机2的负荷以及电动机2的振动作为状态变量来进行观测。在一实施方式中,状态观测部41也可以构成为将主轴头5的温度及振动作为追加的状态变量来进行观测。

判断数据取得部42从判断部35取得与由状态观测部41观测到的状态变量(各测量值)相应的判断数据。

学习部43按照基于状态变量而作成的训练数据集来学习针对电动机2的动作指令。

意图决定部46基于学习部43的学习结果来校正针对电动机2的动作指令。意图决定部46构成为执行进给速度校正、主轴转速校正、加减速时间常数校正及位置校正中的至少某一个。

机械学习装置4可以是控制装置3之外的数字计算机,也可以内置于控制装置3。在后者的情况下,机械学习装置4使用控制装置3的CPU及存储器进行机械学习。

在一实施方式中,机械学习装置4也可以是设于与电动机2及控制装置3隔离开的场所。在该情况下,机械学习装置4通过网络与控制装置3相连接。或者,机械学习装置4也可以存在于云服务器。

如图1所示,学习部43包括回报计算部44和函数更新部45。

回报计算部44基于由判断数据取得部42取得的各测量值的判断数据来计算回报。

函数更新部45基于由回报计算部44计算出的回报来更新用于决定针对电动机2的动作指令的函数。在一实施方式中,函数更新部44也可以构成为基于上述回报,来更新行为价值表。行为价值表具有参照表的形态,是将状态变量和与其相应的行为价值关联起来的数据。

参照图2,说明利用一实施方式的机械学习装置4执行的机械学习方法。

在步骤S201,更新行为价值表。在初次执行步骤S201的情况下,向行为价值表输入任意的初始值。在步骤S202,意图决定部46根据状态变量决定动作指令的校正量。在机械学习的初始阶段,意图决定部46也可以随机地决定动作指令的校正量。

在步骤S203,判断在机床1是否发生异常。这里,机床1的“异常”是是指:符合向电动机2的功率供给量超过容许值时、针对电动机2的负荷过大时、电动机的温度过高时、在机床1发生了颤振时以及主轴头5的温度过高时中的至少一者的状态。其中,基于由控制装置3的判断部35作成的判断数据来执行在步骤S203的判断。

在没有发生异常的情况下(在步骤S203的判断结果为否定的情况下),进入步骤S204,回报计算部44使对该行为(对动作指令的校正处理)的回报增大。另一方面,在发生了异常的情况下(在步骤S203的判断结果为肯定的情况下),进入步骤S205,回报计算部44使对该行为的回报减少。

在步骤S204或者S205的回报计算之后,返回步骤S201,更新行为价值表。反复执行从步骤S201到S205的处理,直到获得足够的机械学习的学习效果为止。

这里,对机械学习装置4进行详细说明。机械学习装置4具有这样的功能:通过解析从输入装置的数据的集合提取其中的有用的规则、知识表现、判断基准等,输出该判断结果,并进行知识学习。这样的方法具有多种,大致可分为“有教师学习”、“无教师学习”、“强化学习”。进而,还具有在实现这些方法的基础上、学习特征量本身的的提取的被称为“深层学习”的方法。

“有教师学习”是指:能够通过将某输入与结果(标签)的数据组大量地给予学习装置,来学习这些数据集所具有的特征,归纳获得从输入推断结果的模型即其相关性。在本实施方式中,能够用于根据针对电动机的功率供给量、电动机的温度、负荷及振动等来校正针对电动机的指令的部分等。能够使用后述神经网络等算法来实现。

“无教师学习”是这样的方法:只将输入数据大量给予学习装置,从而学习输入数据如何分布,学习即使不给予相应的教师输出数据,也能针对输入数据进行压缩、分类、整形等的装置。能够对这些数据集所具有的特征相似者进行聚类等。使用该结果,设置某些基准,进行使其最佳化这样的输出分配,从而能够实现输出的预测。另外,作为“无教师学习”与“有教师学习”的中间的问题设定,还有被称为“半有教师学习”的方法,其只存在一部分的输入与输出的数据组,除此之外仅为输入数据的情况属于“半有教师学习”。在本实施方式中,在无教师学习中使用实际上不使电动机2动作也能取得的数据,能够高效地进行学习。

强化学习的问题如下这样设定。

·电动机2的控制装置3观测环境状态,决定行为。

·环境按照某些规则发生变化,并且,自身的行为还会使环境变化。

·每次行为都返回回报信号。

·想要最大化的是将来的(折扣)回报的合计。

·从完全不知道或者并非完全知道行为导致的结果的状态起开始学习。控制装置3能够在电动机2实际动作后,首次将其结果作为数据来获得。也就是说,需要一边试错一边探索最佳行为。

·也可以像模仿人的动作那样以事前进行了学习(上述的有教师学习、反向强化学习这样的方法)的状态为初始状态,从好的开始点开始学习。

“强化学习”是这样的学习方法:并非仅进行判断、分类,还学习行为,由此依据行为给予环境的相互作用,来学习适当的行为,即,使将来能够获得的回报最大化。在本实施方式中,这表示能够获得对未来造成影响的行为。例如在Q学习中会继续说明,但不局限于此。

Q学习是学习在某环境状态s下选择行为a的价值Q(s,a)的方法。也就是说,在某状态s时,将价值Q(s,a)最高的行为a作为最佳行为来选择即可。但是,最初关于状态s与行为a的组合,完全不知道价值Q(s,a)的正确值。因此,智能体(行为主体)在某状态s下选择各种行为a,对当时的行为a给予回报。由此,智能体学习较好的行为选择、即正确的价值Q(s,a)。

行为的结果是想要使将来能够获得的回报的合计最大化,因此以最终成为Q(s,a)=E[Σγtrt]为目标(随着最佳行为,状态发生了变化时取得期望值。当然,因为不知道这个,所以不得不一边探索一边学习)。这样的价值Q(s,a)的更新式例如能够由下式表示。

这里,st表示时刻t的环境的状态,at表示时刻t的行为。由于行为at,状态变化为st+1。rt+1表示由于该状态的变化得到的回报。另外,带有max的项是在状态st+1下选择了当时所知道的Q值最高的行为a的情况下的Q值乘以γ的值。γ是0<γ≤1的参数,称为折扣率。α是学习系数,为0<α≤1的范围。

该式表示基于试行at的结果返回的回报rt+1来更新状态st下的行为at的评价值Q(st,at)的方法。示出了:与状态s下的行为a的评价值Q(st,at)相比,回报rt+1+行为a导致的下一状态下的最佳行为max a的评价值Q(st+1,max at+1)较大的情况下,增大Q(st,at),相反Q(st+1,max at+1)较小的情况下,将Q(st,at)也减小。也就是说,使某状态下的某行为的价值接近作为结果立即返回的回报和该行为导致的下一状态下的最佳行为的价值。

Q(s,a)在计算机上的表现方法有:针对所有的状态行为对(s,a),将其值以表(行为价值表)的方式保持的方法;准备能近似得出Q(s,a)的函数的方法。后者的方法中,上述更新式能够利用随机梯度下降法等方法实现调整近似函数的参数。作为近似函数,能够使用后述神经网络。

作为有教师学习、无教师学习以及强化学习中的价值函数的近似算法,能够使用神经网络。神经网络由实现模仿例如图3所示那样的神经元的模型的神经网络的运算装置及存储器等构成。图3是表示神经元的模型的示意图。

如图3所示,神经元输出针对多个输入x(这里,作为一例,是输入x1~输入x3)的输出y。各输入x1~x3乘以与该输入x对应的权值w(w1~w3)。由此,神经元输出由下式表现出来的输出y。其中,输入x、输出y及权值w都是矢量。

这里,θ是偏置,fk是激活函数。

接着,参照图4说明具有上述神经元组合而成的三层权值的神经网络。图4是表示具有D1~D3的三层权值的神经网络的示意图。

如图4所示,从神经网络的左侧输入多个输入x(这里,作为一例,是输入x1~输入x3),从右侧输出结果y(这里,作为一例,是结果y1~结果y3)。

具体而言,输入x1~输入x3分别针对三个神经元N11~N13乘以相应的权值后输入。与这些输入相乘的权值统一标记为w1

神经元N11~N13分别输出z11~z13。这些z11~z13统一标记为特征矢量z1,可以视为是将输入矢量的特征量提取后的矢量。该特征矢量z1是权值w1与权值w2之间的特征矢量。

z11~z13分别针对两个神经元N21、N22乘以相应的权值后输入。与这些特征矢量相乘的权值统一标记为w2。

神经元N21、N22分别输出z21、z22。这些统一标记为特征矢量z2。该特征矢量z2是权值w2与权值w3之间的特征矢量。

特征矢量z21,z22分别针对三个神经元N31~N33乘以相应的权值后输入。与这些特征矢量相乘的权值统一标记为w3。

最后,神经元N31~N33分别输出结果y1~结果y3。

神经网络的动作具有学习模式和价值预测模式,在学习模式下,使用学习数据集来学习权值w,使用该参数在预测模式下进行针对电动机的指令的校正(为了方便起见,写了预测,但是检测、分类、推论等各种各样的任务也可以)。

能够在预测模式下即时学习实际启动电动机而得到的数据,并将其反映到接下来的行为中(在线学习),还能够使用预先收集的数据组进行总结学习,以后一直以该参数进行检测模式(批量学习)。还能够每当中间数据积存某程度时插入学习模式。

权值w1~w3能够利用误差反向传播法(反向传播)来进行学习。误差信息从右侧进入,流向左侧。误差反向传播法这样的方法:以减小输入x输入后的输出y与真正的输出y(教师)之间的差异的方式,调整(学习)各神经元的权值。

这样的神经网络能够进一步将层增加至3层以上(被称为深层学习)。能够仅从教师数据自动获得阶段性地进行输入的特征提取、并反馈结果运算的运算装置。

因此,为了实施上述Q学习,本实施方式的机械学习装置4如图1所示那样包括状态观测部41、学习部43以及意图决定部46。但是,适用于本发明的机械学习方法不局限于Q学习。例如在应用有教师学习的情况下,价值函数与学习模型相对应,回报与误差相对应。

在本实施方式中,要观测的多个状态变量之间,存在复杂的相关关系。例如,若机床的进给速度增大,则电动机2的负荷增大,容易发生颤振。若电动机2的振动增大,则主轴头5的定位精度降低。另外,若主轴头5的温度增大,则由于热位移的影响,定位精度降低。像这样,状态变量互相复杂地影响,能引起加工精度的降低。

对此,采用上述实施方式的机械学习装置及机械学习方法,机械学习装置4能够根据状态变量学习针对电动机2的适当的动作指令,因此能够在任意状况下进行适当的校正处理。这样,采用本实施方式,不需要执行由操作者进行的校正操作,能够自动进行适当的校正处理,因此能够始终实现高加工精度。

在一实施方式中,也可以构成为学习部按照针对多个电动机而作成的训练数据集来学习动作指令。学习部可以从在同一现场使用的多个机床取得训练数据集,或者,也可以利用从在不同现场独立地运转的多个机床收集来的训练数据集,来学习针对电动机的动作指令。

对利用强化学习及神经网络来进行机械学习的实施方式进行了说明,但是也可以按照其他的公知的方法、例如遗传编程、功能逻辑编程、支持向量机等来执行机械学习。

以上,对本发明的各种实施方式进行了说明,本领域技术人员能够理解利用其它实施方式也能够实现本发明的期望作用效果。尤其是,在不脱离本发明的范围内,能够对上述实施方式的构成要素进行删除或者置换,还能够进一步添加公知的手段。另外,将在本说明书中明确公开或间接公开的多个实施方式的特征任意组合也能够实施本发明,这对本领域技术人员而言是显而易见的。

采用本发明的机械学习装置及机械学习方法,按照基于状态变量而作成的训练数据集,来学习针对电动机的动作指令。由此,不需要由操作者进行的校正操作,就能够根据状况适当地控制电动机。另外,采用本发明的机床,能够根据状况对驱动主轴及移动轴的电动机进行适当地控制,因此能够始终实现高加工精度。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1