机械学习器、电动机控制系统以及机械学习方法与流程

文档序号:12594288阅读:139来源:国知局
机械学习器、电动机控制系统以及机械学习方法与流程

本发明涉及一种对风扇电动机的清扫间隔进行学习的机械学习器、电动机控制系统以及机械学习方法。



背景技术:

以往,在NC(Numerical Control:数值控制)机床、机器人等机械装置上搭载有电动机(驱动电动机),为了冷却从这样的驱动电动机放出的热,通常设有风扇电动机。

然而,NC机床、机器人等在有各种尘埃的工厂等使用,因此,例如在风扇电动机、通风孔上附着有污浊或者积有灰尘,其结果,驱动电动机的冷却能力下降。因此,要求NC机床、机器人等机械装置的使用者进行风扇电动机、通风孔的清扫(以下,也记作风扇电动机的清扫)。

若风扇电动机的冷却能力降低,则导致驱动电动机的温度上升,尤其是驱动电动机的轴承的润滑油的温度上升。这里,轴承的润滑油的寿命是电动机的寿命的很大因素,该润滑油的寿命受温度的很大影响。即,温度越高,润滑油的寿命越短,这是公知的,例如,润滑油的温度上升10度左右,则润滑油的寿命会缩短数万小时。

以往,例如,日本特开2005-249277号公报(专利文献1)提出了在最佳定时进行风扇(风扇电动机)的维护的方案。

如上所示,例如,要求NC机床、机器人等机械装置的使用者进行风扇电动机的清扫(风扇电动机、通风孔的清扫),但是,包括专利文献1所记载的方法在内都是基于经验来决定风扇电动机的清扫间隔(风扇电动机的清扫时机)。

例如,在专利文献1中公开了:在初始特性存储部中存储的合计要求风量-风扇转速的初始特性与来自特性修正·更新部的实际特性之差超过预定范围的情况下,判断为维修时期。但是,该情况下,风扇(风扇电动机)的初始特性与实际特性之差的预定范围的决定也是依赖于经验。

这里,若风扇电动机的清扫频率过低,则例如驱动电动机的温度变高,驱动电动机(或者,设有驱动电动机的机械装置)的寿命降低。另一方面,若风扇电动机的清扫频率过高,则例如机械装置的运转率降低,相应地,生产率降低。



技术实现要素:

鉴于上述现有技术的问题,本发明的目的在于提供一种能够使电动机的寿命提高,并且能够使机械装置的运转率提高的机械学习器、电动机控制系统以及机械学习方法。

根据本发明的第1实施方式,提供一种机械学习器,该机械学习器学习对设于机械装置的电动机进行冷却的风扇电动机的清扫频率,包括:状态观测部,其观测所述机械装置的状态;以及学习部,其基于由所述状态观测部观测到的状态量,来更新清扫所述风扇电动机的行为价值表。

优选的是,所述状态观测部观测所述电动机的电流、电压、温度及转差率、所述风扇电动机的清扫间隔以及所述机械装置的运转率的状态量,所述学习部基于由所述状态观测部观测到的所述电动机的电流、电压、温度及转差率、所述风扇电动机的清扫间隔以及所述机械装置的运转率的状态量来更新清扫所述风扇电动机的行为价值表。

所述状态观测部接收所述电动机的电流、电压、温度以及转差率的第1状态量,作为从所述电动机向控制所述电动机的电动机控制部的反馈信号,从所述电动机控制部接收所述风扇电动机的清扫间隔以及所述机械装置的运转率的第2状态量。优选的是,所述状态观测部还观测所述电动机的周围温度的状态量,所述学习部还考虑由所述状态观测部观测到的所述电动机的周围温度的状态量,来更新清扫所述风扇电动机的行为价值表。所述状态观测部从配置于所述电动机附近的温度测量部接收所述电动机的周围温度的第3状态量。

优选的是,所述学习部包括:回报计算部,其基于由所述状态观测部观测到的状态量来计算回报;以及价值函数更新部,其基于由所述回报计算部计算出的回报,来更新根据当前的状态变量(状态量)决定所述风扇电动机的清扫间隔的变化量的函数。所述机械学习器还包括:意图决定部,其基于所述学习部的学习结果,根据当前的状态变量来决定是否清扫所述风扇电动机。

优选的是,所述回报计算部进行如下动作:基于所述风扇电动机的清扫间隔的增大、观测到的所述电动机的温度与所述电动机的预测温度之间的差异的缩小、或者所述机械装置的运转率的降低给予较小的回报,基于所述风扇电动机的清扫间隔的缩短、观测到的所述电动机的温度与所述电动机的预测温度之间的差异的增大、或者所述机械装置的运转率的上升给予较大的回报。并且,还能够包括:警报输出部,其在清扫所述风扇电动机时,基于所述意图决定部的输出来输出警报。所述机械学习器也可以具有神经网络。

根据本发明的第2实施方式,提供一种包括多个机械学习器的电动机控制系统,该机械学习器学习对设于机械装置的电动机进行冷却的风扇电动机的清扫频率,包括:状态观测部,其观测所述机械装置的状态;以及学习部,其基于由所述状态观测部观测到的状态量来对更新清扫所述风扇电动机的行为价值表,所述学习部包括:回报计算部,其基于由所述状态观测部观测到的状态量来计算回报;以及价值函数更新部,其基于由所述回报计算部计算出的回报来更新根据当前的状态变量决定所述风扇电动机的清扫间隔的变化量的函数,该电动机控制系统具有在多个所述机械学习器之间交换数据的单元,利用由多个所述机械学习器中的1个机械学习器的价值函数更新部更新后的函数,来更新其他机械学习器的价值函数更新部的函数。所述电动机控制系统包括多个所述电动机以及所述风扇电动机,所述机械学习器被设置成与各个所述风扇电动机相对应,利用通信介质共享或者相互交换所述机械学习器学习到的所述状态变量。

根据本发明的第3实施方式,提供一种机械学习方法,在该方法中,学习对设于机械装置的电动机进行冷却的风扇电动机的清扫频率,观测所述机械装置的状态,基于观测到的状态量来更新清扫所述风扇电动机的行为价值表。优选的是,所述机械装置的状态的观测是指,观测所述电动机的电流、电压、温度及转差率、所述风扇电动机的清扫间隔以及所述机械装置的运转率,清扫所述风扇电动机的行为价值表的更新是指,基于观测到的所述电动机的电流、电压、温度及转差率、所述风扇电动机的清扫间隔以及所述机械装置的运转率,来更新清扫所述风扇电动机的行为价值表。所述机械装置的状态的观测还指,观测所述电动机的周围温度的状态量,清扫所述风扇电动机的行为价值表的更新是指,考虑观测到的所述电动机的周围温度的状态量,来更新清扫所述风扇电动机的行为价值表。

附图说明

参照以下的附图,进一步明确地理解本发明。

图1是概略地表示本发明的电动机控制系统的一实施例的框图。

图2是表示神经元的模型的示意图。

图3是表示将图2所示的神经元组合而构成的三层神经网络的示意图。

图4是表示图1所示的机械学习器的动作的一例的流程图。

图5是用于说明图1所示的机械学习器的动作的一例的图(其一)。

图6是用于说明图1所示的机械学习器的动作的一例的图(其二)。

图7是表示图1所示的机械学习器的动作的其他例子的流程图。

图8是表示图1所示的机械学习器所使用的行为价值表的一例的图。

具体实施方式

以下,参照附图详述本发明的机械学习器、电动机控制系统以及机械学习方法的实施例。图1是概略地表示本发明的电动机控制系统的一实施例的框图。

另外,在以下的记载中,为了简化说明,主要以针对由电动机控制部13控制的一个驱动电动机12设有一个风扇电动机11、利用机械学习器2学习该风扇电动机11的清扫间隔的情况为例来进行说明。另外,以下,仅简单地记载为风扇电动机11的清扫,这可以是自动清扫风扇电动机11的情况或者操作人员手动清扫的情况中的任一方。并且,风扇电动机11的清扫并非仅是风扇电动机11的清扫,例如包括消除通风孔的污浊、堵塞这样的各种清扫作业。

如图1所示,本实施例的电动机控制系统包括机械装置1以及机械学习器2。这里,机械装置1设有NC机床、机器人等的电动机(驱动电动机)12,利用风扇电动机11来冷却从驱动电动机12放出的热。机械装置1还设有控制驱动电动机12的电动机控制部(电动机控制部)13以及温度测量部14。

机械装置1也可以包括多个驱动电动机12,另外,也可以与驱动电动机12的数量相应地设有多个用于冷却驱动电动机12的风扇电动机11。另外,也能够针对一个驱动电动机12设有多个风扇电动机11。此外,不言而喻,电动机控制部13能够控制多个驱动电动机12。

如图1所示,机械学习器2学习对设于机械装置1的驱动电动机12进行冷却的风扇电动机11的清扫频率,包括状态观测部21、学习部22以及意图决定部25。状态观测部21观测机械装置1的状态,学习部22基于由状态观测部21观测到的状态量来更新清扫风扇电动机11的行为价值表。即,状态观测部21观测驱动电动机12的电流、电压、温度及转差率(ship)、风扇电动机11的清扫间隔、以及机械装置1的运转率的状态量。另外,状态观测部21例如配置于驱动电动机12的附近,能够将测量驱动电动机12的周围温度的温度测量部14的输出(驱动电动机12的周围温度)也作为状态量来进行观测。

这里,状态观测部21例如接收驱动电动机12的电流、电压、温度以及转差率的状态量(第1状态量)SV1作为从驱动电动机12向电动机控制部13的反馈信号FB。即,电动机控制部13向驱动电动机12输出控制信号CS来控制驱动电动机12,并且从驱动电动机12接收驱动电动机12的电流、电压、温度以及转差率这样的状态量作为反馈信号FB。然后,将该反馈信号FB作为第1状态量SV1而提供给机械学习器2的状态观测部21。

另外,状态观测部21例如从电动机控制部13接收风扇电动机11的清扫间隔以及机械装置1的运转率这样的状态量(第2状态量)SV2。并且,状态观测部21还从配置于驱动电动机12的附近的温度测量部14例如接收驱动电动机12的周围温度的状态量(第3状态量)SV3。

学习部22包括:回报计算部23,其基于由状态观测部21观测到的状态量来计算回报;以及价值函数更新部24,其基于由回报计算部23计算出的回报,更新根据当前的状态量(状态变量)决定风扇电动机11的清扫间隔的变化量的函数。回报计算部23例如根据驱动电动机12的电流及电压的值(第1状态量SV1的一部分)、驱动电动机12的周围温度(第3状态量SV3)来计算驱动电动机12的预测温度,根据风扇电动机11的清扫间隔及机械装置1的运转率(第2状态量SV2)来计算回报。

然而,关于驱动电动机12的寿命,大致成为轴承的寿命,即轴承的润滑油的寿命很大的因素。如上所示,温度越高润滑油的寿命越短。作为简单的计算例,例如能够表示为ΔT(电动机的温度上升)={(电压)×(电流)-(输出)-(冷却能力)}/(热容量)。这里,若风扇电动机的清扫频率过低,则例如驱动电动机的温度变高,驱动电动机(或者,设有驱动电动机的机械装置)的寿命降低。另一方面,若风扇电动机的清扫频率过高,则例如机械装置的运转率降低,相应地,生产率降低。

因此,回报计算部23例如基于风扇电动机11的清扫间隔的增大、观测到的驱动电动机12的温度与驱动电动机12的预测温度之间的差异的缩小、或者机械装置1的运转率的降低给予较小的回报,相反,基于风扇电动机11的清扫间隔的缩短、观测到的驱动电动机12的温度与驱动电动机12的预测温度之间的差异的增大、或者机械装置1的运转率的上升给予较大的回报。

价值函数更新部24基于来自回报计算部23的回报来更新价值函数(清扫风扇电动机11的行为价值表)。另外,价值函数例如存储于设在机械学习器2上的存储器,或者,还能够经由通信线路等传送到其他机械学习器2。另外,在图1中,在机械学习器2上设有警报输出部26,在清扫风扇电动机11时,基于意图决定部25的输出来输出警报。作为该警报输出部26的输出,能够利用例如在电动机控制部13设有的显示器上进行催促风扇电动机11的清扫的显示、或者在操作人员关注的位置设置显示灯并使其闪烁等各种方法,来输出警报。收到警报后,例如操作人员能够进行风扇电动机的清扫(风扇电动机、通风孔的清扫)。另外,不言而喻,也能够基于警报输出部26的输出信号而自动地进行风扇电动机、通风孔的清扫。

另外,电动机控制系统也可以具有:多个机械装置1(1a~1z),各机械装置都包括驱动电动机12(12a~12z)、风扇电动机11(11a~11z)以及电动机控制部13(13a~13z);以及与机械装置1(1a~1z)相对应的多个机械学习器2(2a~2z)。这里,加在各附图标记之后的a~z是表示该构成要素有多个的意思。这样,电动机控制系统具有多个机械装置1a~1z以及与机械装置1a~1z相对应的多个机械学习器2a~2z的情况下,例如,能够用由一个机械学习器2a的价值函数更新部24a更新好的函数来更新其他机械学习器2b~2z的价值函数更新部24b~24z的函数。

另外,机械学习器2具有这样的功能:从输入到装置的数据的集合通过解析而提取出其中的有用的规则、知识表现、判断基准等,输出其判断结果,并进行知识的学习(机械学习)。机械学习的方法具有多种,大致分为“有教师学习”、“无教师学习”、“强化学习”。并且,还具有在实现这些方法的基础上学习特征量其本身的提取的被称为“深层学习(Deep Learning)”的方法。另外,这些机械学习(机械学习器2)例如能够通过应用GPGPU(通用图形处理器:General-Purpose computing on Graphics Processing Units)、大规模PC群等来实现。另外,本实施例中,以“强化学习”为例进行说明,但是并非一定限定于“强化学习”。

首先,作为强化学习的问题设定考虑如下。

·机械装置1(风扇电动机11)观测环境状态,决定行为(风扇电动机11的清扫)。

·环境按照某些规则发生变化,并且,自身的行为还会使环境变化。

·每次行动时,返回回报信号。

·想要最大化的是将来的回报(折扣)的合计。

·从完全不知道或者不完全知道行为所导致的结果的状态起开始学习。即,机械装置1能够在实际行动后,首次将其结果作为数据而获得。也就是说,需要一边试错一边探索最佳行为。

·也可以像模拟人的动作那样,以事先学习(上述的有教师学习、反向强化学习这样的方法)的状态为初始状态,从好的开始点开始学习。

这里,强化学习是指,并非仅进行判断、分类,还学习行为,由此依据行为给予环境的相互作用,来学习适当的行为,即,学习为了使将来能够获得的回报最大化而进行学习的方法。在本实施例中,这表示能够获得例如通过进行风扇电动机11的清扫来决定驱动电动机12的状态量(电流、电压、温度等)这样的对未来造成影响的行为。以下,作为例子以Q学习的情况继续说明,但并不限定于Q学习。

Q学习是学习在某环境状态s下选择行为a的价值Q(s,a)的方法。也就是说,在某状态s下,将价值Q(s,a)最高的行为a作为最佳行为来选择即可。但是,最初关于状态s与行为a的组合,完全不知道价值Q(s,a)的正确值。因此,智能体(行为主体)在某状态s下选择各种行为a,对此时的行为a给予回报。由此,智能体学习较好的行为选择、即正确的价值Q(s,a)。

并且,行为的结果是想要使将来能够获得的回报的合计最大化,因此以最终成为Q(s,a)=E[Σ(γt)rt]为目标。这里,设为按照最佳行为在状态发生了变化时取得期望值,因为不知道这个,所以一边探索一边学习。这样的价值Q(s,a)的更新式例如能够由下式(1)来表示。

在上述式(1)中,st表示时刻t的环境的状态,at表示时刻t的行为。由于行为at,状态变化为st+1。rt+1表示由该状态的变化得到的回报。另外,带有max的项是在状态st+1下选择了此时所知道的Q值最高的行为a时的Q值乘以γ而得的值。这里,γ是0<γ≤1的参数,称为折扣率。此外,α是学习系数,设为0<α≤1的范围。

上述式(1)表示基于试行at的结果返回的回报rt+1来更新状态st下的行为at的评价值Q(st,at)的方法。即,示出了与状态s下的行为a的评价值Q(st,at)相比,若回报rt+1+行为a导致的下一状态下的最佳行为max a的评价值Q(st+1,max at+1)较大则使Q(st,at)变大,相反,若Q(st+1,max at+1)较小则使Q(st,at)变小。也就是说,使某状态下的某行为的价值接近作为结果立即返回的回报和该行为导致的下一状态下的最佳行为的价值。

这里,Q(s,a)在计算机上的表现方法有:针对所有的状态行为对(s,a),将其值以表的方式保持的方法;准备对Q(s,a)进行近似的函数的方法。后者的方法中,能够利用随机梯度下降法(Stochastic gradient descent method)等方法调整近似函数的参数,从而实现上述式(1)。作为近似函数,能够使用后述神经网络。

这里,作为强化学习中的价值函数的近似算法,能够使用神经网络。图2是表示神经元的模型的示意图,图3是表示将图2所示的神经元组合而构成的三层神经网络的示意图。即,神经网络例如由模拟图2所示这样的神经元的模型的演算装置以及存储器等构成。

如图2所示,神经元输出与多个输入x(在图2中,作为一例,是输入x1~输入x3)对应的输出(结果)y。各输入x(x1、x2、x3)乘以与该输入x对应的权值w(w1、w2、w3)。由此,神经元输出由下式(2)表现出来的结果y。其中,输入x、结果y及权值w都是向量。另外,在下述的式(2)中,θ是偏置,fk是激活函数。

参照图3说明将图2所示的神经元组合而构成的三层神经网络。如图3所示,从神经网络的左侧输入多个输入x(这里,作为一例,是输入x1~输入x3),从右侧输出结果y(这里,作为一例,是结果y1~结果y3)。具体而言,输入x1、x2、x3分别针对三个神经元N11~N13乘以相应的权值后输入。与这些输入相乘的权值统一标记为W1。

神经元N11~N13分别输出z11~z13。在图3中,这些z11~z13统一标记为特征向量Z1,可以视为是将输入向量的特征量提取后的向量。该特征向量Z1是权值W1与权值W2之间的特征向量。z11~z13分别针对两个神经元N21以及N22乘以相应的权值后输入。与这些特征向量相乘的权值统一标记为W2。

神经元N21、N22分别输出z21、z22。在图3中,这些z21、z22统一标记为特征向量Z2。该特征向量Z2是权值W2与权值W3之间的特征向量。z21、z22分别针对三个神经元N31~N33乘以相应的权值后输入。与这些特征向量相乘的权值统一标记为W3。

最后,神经元N31~N33分别输出结果y1~结果y3。神经网络的动作具有学习模式和价值预测模式。例如,在学习模式下,使用学习数据集来学习权值W,使用该参数在预测模式下进行机器人的行为判断。另外,为了方便起见,写了预测,但是不言而喻,也可以是检测、分类、推论等各种各样的任务。

这里,能够在预测模式下即时学习实际启动机器人而得到的数据,并将其反映到接下来的行为中(在线学习),还能够使用预先收集的数据组进行总结学习,以后一直以该参数进行检测模式(批量学习)。或者,还能够每当中间数据积存某程度时插入学习模式。

另外,权值W1~W3能够利用误差反向传播法(Backpropagation)来进行学习。另外,误差信息从右侧进入,流向左侧。误差反向传播法是这样的方法:对于各神经元,以减小输入x输入后的输出y与真正的输出y(教师)之间的差异的方式,调整(学习)各个权值。这样的神经网络能够进一步将层增加至3层以上(被称为深层学习)。另外,能够仅从教师数据自动获得阶段性地进行输入的特征提取,并反馈结果运算的运算装置。

因此,如上所示,本实施例的机械学习器2例如为了实施Q学习而包括状态观测部21、学习部22、以及意图决定部25。但是,如上所述,能够应用于本发明的机械学习方法不限定于Q学习。另外,如上所述,机械学习(机械学习器2)例如能够通过应用GPGPU、大规模PC群等来实现。

图4是表示图1所示的机械学习器的动作的一例的流程图。如图4所示,在机械学习开始(学习开始)时,基于行为价值表来决定风扇电动机的清扫间隔(步骤ST11),判断机械运转率,决定回报(回报值)(步骤ST12~ST15)。例如,机械装置1的运转率低的情况下,设为没有回报(步骤ST13),机械装置1的运转率为中等程度的情况下,输出“+5”的回报(步骤ST14),另外,机械装置1的运转率高的情况下,输出“+10”的回报(步骤ST15)。之后,将由步骤ST13~ST15输出的回报累计到这之前的回报(步骤ST16)。

接着,进行与电动机的预测温度的比较,决定回报(步骤ST17~ST20)。例如,与驱动电动机12的预测温度相比,观测到的驱动电动机12的温度相当高的情况下,输出“-10”的回报(步骤ST18),观测到的驱动电动机12的温度比驱动电动机12的预测温度高的情况下,输出“+6”的回报(步骤ST19),另外,观测到的驱动电动机12的温度与驱动电动机12的预测温度同等的情况下,输出“+10”的回报(步骤ST20)。

之后,将由步骤ST18~ST20输出的回报累计到这之前的回报(步骤ST21),基于累计后的回报更新行为价值表(步骤ST21),反复进行同样的处理。这里,步骤ST13~ST15的回报值以及步骤ST18~ST20的回报值仅是简单的例子,能够适当变更。

图5以及图6是用于说明图1所示的机械学习器的动作的一例的图。这里,图5(a)表示参照图4中的步骤ST17~ST20进行了说明的与驱动电动机12的预测温度的比较、风扇电动机11的清扫间隔的关系,图5(b)表示参照图4中的步骤ST12~ST15进行了说明的机械装置1的运转率与风扇电动机11的清扫间隔的关系。并且,图5(c)表示图5(a)以及图5(b)所示的特性曲线的一致地方,即,通过本实施例的机械学习器2来求出的适当的风扇电动机11的清扫间隔的范围(学习目标部分)PR。

另外,图6(a)是与图5(a)同等的图,表示通过机械学习器2求出的学习目标部分PR,图6(b)是将图6的(a)所示的学习目标部分PR换算成回报来表示的图。即,机械学习器2将图4中的步骤ST12~ST15的回报以及步骤ST17~ST20的回报分别通过步骤ST16以及ST21累计到这之前的回报,以该累计后的回报(步骤ST21)成为最大的方式进行学习,求出风扇电动机11的最佳清扫间隔。

图7是表示图1所示的机械学习器的动作的其他例子的流程图。从图7与上述图4的比较能够明确看出:图7中的步骤ST32~ST36对应于图4中的步骤ST12~ST16,图7中的步骤ST37~ST41对应于图4中的步骤ST17~ST21。即,判断机械运转率来决定回报的处理、进行与电动机的预测温度的比较来决定回报的处理能够同时(并列地)进行,因此,在图7所示的流程图中,同时进行这些处理。这里,图7中的步骤ST31以及ST43对应于图4中的步骤ST11以及ST22。

但是,在图7中追加了将同时进行处理的、累计步骤ST32~ST35的回报的步骤ST36(对应于图4中的步骤ST16)的输出和累计步骤ST37~ST40的回报的步骤ST41(对应于图4中的步骤ST21)的输出加起来(累计)的步骤ST42。

图8是表示图1所示的机械学习器所使用的行为价值表(价值函数)的一例的图,纵向表示编号N1~N18的18种模式。并且,横向表示“与电动机的预测温度的比较(观测到的驱动电动机12的温度与驱动电动机12的预测温度之间的误差)”、“机械运转率(机械装置1的运转率)”、“清扫间隔(风扇电动机11的清扫间隔)”、“当前的状态”、“接下来的状态”以及“行为价值”。这里,在将“清扫间隔”选择为“缩小”的情况下,设为使“与电动机的预测温度的比较”降低一级,并且使“机械运转率”降低一级,另外,在将“清扫间隔”选择为“延长”的情况下,设为使“机械运转率”提高一级,以此进行说明。

具体而言,在图8中,如编号N9、N10所示,例如,若“与电动机的预测温度的比较”为“中(高:例如图4中的步骤ST19)”,则回报为“+6”,若“机械运转率”为“中(例如图4中的步骤ST14)”,则回报为“+5”,“当前的状态(回报)”为“+11”。此时,根据是“缩小”“清扫间隔”(N9)还是“延长”“清扫间隔”(N10)的情况来使“接下来的状态”变化。

即,N9的情况,“缩小”“清扫间隔”的情况下,使“与电动机的预测温度的比较”下降一级(“小(同等:例如图4中的步骤ST20)”,以及使“机械运转率”下降一级(“低(例如图4中的步骤ST13)”),而与N17、N18相对应,因此回报为“+10+0=+10”,相抵的“行为价值”为“+10-11=-1”。

另一方面,N10的情况,“延长”“清扫间隔”的情况下,“与电动机的预测温度的比较”保持不变(“中(高:例如图4中的步骤ST19)”以及使”机械运转率”上升一级(“高(例如图4中的步骤ST15)”),而与N3、N4相对应,因此回报为“+6+10=+16”,相抵的“行为价值”为“+16-11=+5”。

因而,在上述情况下,N9的“行为价值”为“-1”,N10的“行为价值”为“+5”,对于“行为价值”,N9<N10,因此选择N10的行为、即“延长”“清扫间隔”的行为。这只是一例,与“缩短”还是“延长”“清扫间隔”相对应的情况的选择、或者各种情况的回报值的设定等能够进行各种变形以及变更。此外,不言而喻,行为价值表(价值函数)并不限定于图8,能够应用各种表。

这样,通过本发明的对风扇电动机的清扫间隔进行学习的机械学习器、电动机控制系统以及机械学习方法,能够求出风扇电动机的最佳清扫间隔,能够使电动机的寿命提高,并且能够使机械装置的运转率提高。

通过本发明的机械学习器、电动机控制系统以及机械学习方法,取得这样的效果:能够使电动机的寿命提高,并且能够使机械装置的运转率提高。

以上,对实施方式进行了说明,这里记载的所有例子、条件是为了帮助理解应用于发明以及技术的发明的概念而记载的,特别是,记载的例子、条件并不意图限制发明的范围。并且,说明书的记载不是表示发明的优点以及缺点的记载。对发明的实施方式进行了详细的记载,但应该理解为能够在不脱离发明的精神以及范围的前提下进行各种变更、置换、变形。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1