机械学习装置及方法、电动机驱动装置及电动机驱动系统与流程

文档序号：11135849阅读：622来源：国知局

本发明涉及一种机械学习装置、电动机驱动装置、电动机驱动系统以及机械学习方法，特别涉及学习与机械指令对应的滤波器的机械学习装置、具备机械学习装置的电动机驱动装置、电动机驱动系统以及机械学习方法。

背景技术：

在电动机控制装置中，有时在检测向电动机的电流的电路、反馈电动机的位置的电路中使用模拟信号。如果在这些模拟信号中施加有噪声，则会对系统整体的精度产生影响。因此，对模拟信号加入滤波器而进行检测，由此除去噪声，使得不对系统整体的精度产生影响(例如日本特开2012-062044号公报。以下，称为“专利文献1”)。

在专利文献1中公开了一种通信控制系统，其应用于安装了成为噪声源的各种设备的车辆，选择该车辆相关的无线通信的通信方法，在该通信控制系统中，具备：检测单元，其检测成为噪声源的各种设备的动作状态；推定单元，其根据通过检测单元检测出的各种设备的动作状态，推定该动作状态所特有的电磁噪声特性；选择单元，其与通过推定单元推定出的电磁噪声特性对应地选择通信方法。通过这样的结构，通过选择适合于成为噪声源的各种设备的动作状态、例如车辆所安装的电动机的旋转状态的通信方法，能够适合地实施通信。

对模拟信号施加的滤波器越大，则越能够除去噪声。但是，如果过于增大滤波器，则会降低响应性，损失即时性。另外，根据系统/机械的状态，噪声的大小、成分变化，因此最佳的滤波器并不是固定的，将滤波器设为固定并不一定是最佳的。

技术实现要素：

本发明的目的在于：提供一种机械学习装置、具备机械学习装置的电动机驱动装置、电动机驱动系统以及机械学习方法，其能够通过机械学习而在系统/机械的运转状态下设定去除外部噪声的最佳的滤波器，能够不降低响应性地除去外部噪声。

本发明的一个实施例的机械学习装置是学习与对模拟的输入信号进行滤波的滤波器部关联的条件的机械学习装置，其中，具备：状态观测部，其观测由滤波器部的输出信号的噪声分量、噪声量和对输入信号的响应性构成的状态变量；学习部，其依照由状态变量构成的训练数据集，学习与滤波器部关联的条件。

本发明的一个实施例的电动机驱动装置具备上述机械学习装置。

本发明的一个实施例的电动机驱动系统具备：上述电动机驱动装置；机械指令部，其通知机械的动作信息。

本发明的一个实施例的机械学习方法是学习与对模拟的输入信号进行滤波的滤波器部关联的条件的机械学习方法，其中，包括以下步骤：观测由滤波器部的输出信号的噪声分量、噪声量和对输入信号的响应性构成的状态变量；依照由状态变量构成的训练数据集，学习与滤波器部关联的条件。

附图说明

根据与附图关联的以下的实施方式的说明，能够进一步了解本发明的目的、特征以及优点。

图1是本发明的实施例的机械学习装置的结构图。

图2是本发明的实施例的电动机驱动系统的结构图。

图3是用于说明本发明的实施例的机械学习装置的动作步骤的流程图。

图4是用于说明本发明的实施例的电动机驱动系统的动作步骤的流程图。

具体实施方式

以下，参照附图，说明本发明的机械学习装置、电动机驱动装置、电动机驱动系统以及机械学习方法。

图1是本发明的实施例的机械学习装置的结构图。图2是本发明的实施例的电动机驱动系统的结构图。

本发明的实施例的机械学习装置1是学习与对模拟的输入信号进行滤波的滤波器部关联的条件的机械学习装置1，具备状态观测部2、学习部3。

状态观测部2观测由滤波器部7(参照图2)的输出信号的噪声分量、噪声量和对输入信号的响应性构成的状态变量。

学习部3依照由状态变量构成的训练数据集，学习与滤波器部7关联的条件。

状态观测部2观测来自机械指令部9的机械运转状态的信息。学习部3根据机械运转状态的信息，更新训练数据集。

在图2所示的电动机驱动系统的结构图中示出只具备一个滤波器部7的例子。但是，并不限于这样的例子，也可以具备多个滤波器部。进而，学习部3也可以构成为依照对多个滤波器部取得的训练数据集而学习条件。

优选还具备：意图决定部4，其根据学习部3依照训练数据集学习的结果，对当前的状态变量的输入进行响应，根据训练数据集更新滤波器。

理想的是机械学习装置1具备回报计算部5、函数更新部6。回报计算部5根据噪声分量、噪声量以及响应性计算回报。函数更新部6根据回报，更新用于从当前的状态变量变更滤波器部的函数。

回报计算部5在噪声量增加、或响应性为规定值以下的情况下减少回报，在噪声量减少、并且响应性为规定值以上的情况下增加回报。

理想的是函数更新部6使用所谓的Q学习来进行强化学习。Q学习是在某环境“s”下学习选择行为“a”的价值(行为的价值)Q(s，a)的方法。在某状态“s”时，选择Q(s，a)最高的行为“a”作为最佳行为。函数更新部6使用下述的式(1)更新函数(行为价值函数Q(s_t，a_t))。

在此，Q(s_t，a_t)是行为价值函数，s_t是时刻t的状态(环境)，a_t是时刻t的行为，α是学习系数，r_t+1是回报，γ是折扣率。行为价值函数表示回报的期待值。附加了max的项是将在环境s_t+1下选择了Q值最高的行为“a”的情况下的Q值乘以γ所得的结果。

如果为了简化，将学习系数和折扣率设为1，则表示为下述的式(2)。

该更新式表示如果行为“a”引起的下一环境状态下的最佳行为的评价值Q(s_t+1，max a_t+1)比环境“s”下的行为“a”的评价值Q(s_t，a_t)大，则增大Q(s_t，a_t)，相反，如果比环境“s”下的行为“a”的评价值Q(s_t，a_t)小，则减小Q(s_t，a_t)。即，使某状态下的某行为的价值接近其引起的下一状态下的最佳行为的价值。

如图2所示，滤波器部7的状态包括因行为而间接地变化的状态、因行为而直接地变化的状态。因行为而间接地变化的状态包含滤波后的噪声分量、噪声量以及响应性。因行为而直接变化的状态包含滤波器。

学习部3构成为依照由当前的状态变量构成的追加的训练数据集，再学习条件并进行更新。

也可以经由网络将机械学习装置1与滤波器部7连接。状态观测部2也可以构成为经由网络取得当前的状态变量。

接着，说明本发明的实施例的电动机驱动装置。本发明的实施例的电动机驱动装置8具备：上述机械学习装置1；滤波器部7，其包括作为可变滤波器的可变滤波器部、以及变更可变滤波器部的滤波器的滤波器变更部。

理想的是机械学习装置1存在于云服务器中。

电动机驱动系统具备电动机驱动装置8、机械指令部9、机械10以及模拟的输入信号11。机械指令部9不仅向电动机驱动装置8和机械10提供指令，还向电动机驱动装置8发送指令中的与噪声关联的条件。模拟的输入信号11是反馈信号，从电动机驱动装置8和机械10施加噪声。

接着，说明本发明的实施例的机械学习方法。本发明的实施例的机械学习方法，学习与对模拟的输入信号进行滤波的滤波器部关联的条件，其中，包括以下步骤：观测由滤波器部的输出信号的噪声分量、噪声量和对输入信号的响应性构成的状态变量；依照由状态变量构成的训练数据集，学习与滤波器部关联的条件。

在图3中表示用于说明本发明的实施例的机械学习装置的动作步骤的流程图。首先，在步骤S101中，观测由滤波器部7的输出信号的噪声分量、噪声量、以及对输入信号的响应性构成的状态变量。

接着，在步骤S102中，依照由状态变量构成的训练数据集，学习与滤波器部7关联的条件。

接着，说明使用了本发明的实施例的电动机驱动装置的机械学习方法。在图4中表示用于说明本发明的实施例的电动机驱动装置的动作步骤的流程图。首先，在步骤S201中，开始学习。

接着，在步骤S202中，从机械指令部9得到与噪声相关的状态的信息。

接着，在步骤S203中，根据行为价值表选择滤波器的大小、滤波器的截止频率。然后，在步骤S208中，更新行为价值表。

接着，在步骤S204中，判断噪声的绝对值与上次学习相比是否下降了。在噪声的绝对值与上次学习相比没有下降的情况下，在步骤S206中减少回报。

另一方面，在噪声的绝对值与上次学习相比下降了的情况下，在步骤S205中进行响应性的评价。

在响应性不到规定值的情况下，在步骤S206中减少回报。然后，在步骤S208中，更新行为价值表。

另一方面，在响应性为规定值以上的情况下，在步骤S207中增加回报。然后，在步骤S208中，更新行为价值表。

通过根据行为价值表，以行为价值的分数大的项目为优先地决定变更滤波器的项目，来进行步骤S208中的行为价值表的更新。然后，根据所决定的项目变更滤波器，返回到步骤S202，使得与滤波器的噪声分量、噪声量、响应性有关的行为价值变得最佳。

如以上说明的那样，根据本发明的实施例的机械学习装置、具备机械学习装置的电动机驱动装置、电动机驱动系统以及机械学习方法，能够通过机械学习，在系统/机械的运转状态下，设定除去外部噪声的最佳的滤波器。

根据本发明，能够提供一种机械学习装置、具备机械学习装置的电动机驱动装置、电动机驱动系统以及机械学习方法，其能够通过机械学习，在系统/机械的运转状态下，设定除去外部噪声的最佳的滤波器，能够不降低响应性地除去外部噪声。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：土田邦夫
技术所有人：发那科株式会社
我是此专利的发明人