机械学习装置、电动机控制装置以及机械学习方法与流程

文档序号：11137954阅读：312来源：国知局

本发明涉及一种机械学习装置、电动机控制装置以及机械学习方法，特别涉及学习电动机控制中的电流增益参数的最优化的机械学习装置、具备机械学习装置的电动机控制装置以及机械学习方法。

背景技术：

作为通过逆变器对电动机进行可变速控制的情况下的电流控制系统，已知PI(比例积分)控制，作为其调整项目，有比例增益函数和积分增益函数(例如日本特开2000-184785号公报。以下称为“专利文献1”)。

专利文献1记载的电流控制增益调整方法是PI控制的比例增益的调整，比较单相交流的电流指令信号和电流检测信号的波形，测量电流检测信号波形的延迟相位或延迟时间，判定检测延迟是否比预先设定的目标延迟相位或延迟时间大，进行在检测延迟大时增大比例增益，在检测延迟小时减小比例增益的调整。

在现有技术中，根据物理常数等计算并设定适当的电流增益参数。另外，在现有技术中，由于电感因电流而变动等的理由，最优值和计算值稍微存在差值(偏差)。因此，一边改变参数一边观察阶跃响应或频率响应而由人进行微调整。

这样的现有技术难以说是最优的，另外存在调整花费时间、劳力(工夫)这样的问题。进而，电动机的物理常数有个体差异，因此真正最优的参数也由于个体而不同，每个个体的参数的最优化更加麻烦，存在不现实的问题。

技术实现要素：

本发明的目的在于：提供一种机械学习装置、具备机械学习装置的电动机控制装置以及机械学习方法，通过机械学习而对电流增益参数进行最优化，由此能够提高电动机的响应性、改善进给不稳、提高精度。

本发明的一个实施例的机械学习装置对与电动机控制中的电流增益参数的调整相关联的条件进行学习，该机械学习装置具备：状态观测部，其取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与阶跃状的转矩指令对应的实际电流的过冲量、下冲量、以及上升时间中的至少一个、积分增益函数、比例增益函数构成的状态变量；学习部，其依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

本发明的其他实施例的机械学习装置对与电动机控制中的电流增益参数的调整相关联的条件进行学习，该机械学习装置具备：状态观测部，其取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与由不同频率的正弦波的组构成的转矩指令对应的实际电流的振幅比和根据相位延迟量计算出的频带时间中的至少一个、积分增益函数、比例增益函数构成的状态变量；学习部，其依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

本发明的一个实施例的电动机控制装置具备上述机械学习装置和电动机控制部，其中，电动机控制部具备输入转矩指令的转矩指令输入部，电动机控制装置还具备：意图决定部，其根据由学习部依照训练数据集学习的结果，对当前的状态变量的输入进行响应，决定积分增益函数和比例增益函数的变更。

本发明的一个实施例的机械学习方法对与电动机控制中的电流增益参数的调整相关联的条件进行学习，其中，包括以下步骤：取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与阶跃状的转矩指令对应的实际电流的过冲量、下冲量、以及上升时间中的至少一个、积分增益函数、比例增益函数构成的状态变量；依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

本发明的其他实施例的机械学习方法对与电动机控制中的电流增益参数的调整相关联的条件进行学习，其中，包括以下步骤：取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与由不同频率的正弦波的组构成的转矩指令对应的实际电流的振幅比和根据相位延迟量计算出的频带时间中的至少一个、积分增益函数、比例增益函数构成的状态变量；依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

附图说明

根据与附图关联的以下的实施方式的说明，能够进一步了解本发明的目的、特征和优点。

图1是本发明的实施例的机械学习装置的结构图。

图2A是表示不调整电流增益的情况下的电流的时间性变化的图表。

图2B是表示调整电流增益的情况下的电流的时间性变化的图表。

图3是本发明的实施例的电动机控制装置的结构图。

图4A是表示伴随着转矩指令的增加，积分增益函数单调减少、比例增益函数单调增加的情况下的电流增益参数(积分增益、比例增益)和转矩指令之间的关系的图表。

图4B是表示学习后的积分增益函数或比例增益函数相对于转矩指令的增减而大幅度变化的情况下的电流增益参数(积分增益、比例增益)和转矩指令之间的关系的图表。

图5是用于说明本发明的实施例的机械学习装置的动作步骤的流程图。

图6是用于说明本发明的实施例的电动机控制装置的动作步骤的流程图。

具体实施方式

以下，参照附图，说明本发明的机械学习装置、电动机控制装置以及机械学习方法。

图1是本发明的实施例的机械学习装置的结构图。图3是本发明的实施例的电动机控制装置的结构图。

本发明的实施例的机械学习装置1是学习与电动机控制中的电流增益参数的调整相关联的条件的机械学习装置1，具备状态观测部2、学习部3。

状态观测部2取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与阶跃状的转矩指令对应的实际电流的过冲量、下冲量、以及上升时间中的至少一个、积分增益函数以及比例增益函数构成的状态变量。

学习部3依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

本发明的实施例的机械学习装置1通过机械学习(强化学习)对电动机控制的电流增益参数(积分增益、比例增益)进行最优化。在此，最优的积分增益、比例增益根据转矩指令而不同，因此对将转矩指令作为自变量的积分增益函数、比例增益函数进行最优化。

本发明的另一个实施例的机械学习装置1`学习与电动机控制中的电流增益参数的调整相关联的条件，具备状态观测部2`、学习部3`。

在上述的本发明的实施例的机械学习装置1中，利用了阶跃响应，但对于频率响应也可以同样，因此能够将过冲和上升时间置换为输出/输入的振幅比和频带。因此，在本发明的另一个实施例的机械学习装置1`中，状态观测部2`取得电流控制环路的积分增益函数和比例增益函数，并取得实际电流，观测由与由不同频率的正弦波的组构成的转矩指令对应的实际电流的振幅比和根据相位延迟量计算出的频带时间中的至少一个、积分增益函数、比例增益函数构成的状态变量。

学习部3`依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

学习部3、3`在学习中使用的训练数据集并不限于针对一个电动机取得。即，学习部3、3`也可以依照对多个电动机取得的训练数据集而学习条件。

本发明的实施例的机械学习装置1优选还具备：回报计算部4，其根据存储在训练数据集中的状态变量中的过冲量、下冲量以及上升时间，计算回报；函数更新部5，其根据回报，更新用于从当前的状态变量调整电流增益参数的函数。例如，如图2B所示，在满足过冲小的情况、下冲小的情况、或上升时间短的情况中的至少任意一个条件的情况下，考虑增加回报。

但是，例如如图4B所示，在学习后的积分增益函数或比例增益函数相对于转矩指令的增减大幅度地变化的情况下，在响应特性良好的情况下，还与噪声等相关联，并不理想。因此，在这样的情况下，优选减少回报。

本发明的其他实施例的机械学习装置1`优选还具备：回报计算部4`，其根据存储在训练数据集中的状态变量中的振幅比、相位延迟量，计算回报；函数更新部5`，其根据回报，更新用于从当前的状态变量调整电流增益参数的函数。

另外，如果响应性过高，则针对干扰容易振动。因此，也可以根据相对于振荡的富余的程度，决定增加还是减少回报。具体地说，例如在将比例增益固定，并使积分增益成倍时，确认阶跃响应是否振动、以及频率响应的振幅比是否超过允许值(这也是振荡)。这时，也可以如果不振动则判断为有富余而增加回报，如果振动则判断为没有富余而减少回报。

因此，在上述机械学习装置1、1`中，回报计算部4、4`也可以进而根据相对于电流的震荡的富余而计算回报。

进而，如图4A所示，基本上伴随着转矩指令的增加，积分增益函数单调减少，比例增益函数单调增加。因此，也可以如果积分增益函数的斜率为正或低于阈值则减少回报，如果比例增益函数的斜率为负或高于阈值则减少回报。

因此，在上述机械学习装置1、1`中，回报计算部4、4`也可以进而根据积分增益函数的斜率和比例增益函数的斜率计算回报。

函数更新部5、5`优选使用所谓的Q学习进行强化学习。Q学习是在某状态(环境)s下学习选择行为a的价值(行为的价值)Q(s，a)的方法。在某状态(环境)s时，选择Q(s，a)最高的行为a作为最优的行为。函数更新部5、5`使用下述的式(1)更新函数(行为价值函数Q(s_t，a_t))。

在此，Q(s_t，a_t)是行为价值函数，s_t是时刻t的状态(环境)，a_t是时刻t的行为，α是学习系数，r_t+1是回报，γ是折扣率。行为价值函数表示回报的期待值。附加了max的项是在状态(环境)s_t+1下选择了Q值最高的行为a的情况下的Q值乘以γ所得的结果。

已知以0<α，γ≤1下定学习系数和折扣率，但在此，如果为了简化而将学习系数和折扣率设为1，则如下述的式(2)所示那样表示。

该更新式表示如果行为a引起的下一环境状态下的最优的行为的价值Q(s_t+1，max a_t+1)比状态(环境)s下的行为a的价值Q(s_t，a_t)大，则增大Q(s_t，a_t)，相反，如果比状态(环境)s下的行为a的价值Q(s_t，a_t)小，则减小Q(s_t，a_t)。即，使某状态(环境)下的行为的价值接近它引起的下一状态下的最优的行为的价值。

在本实施例中，存储在训练数据集中的状态变量中的积分增益函数和比例增益函数对应于状态(环境)，决定积分增益函数和比例增益函数的变化量即Δ积分增益函数和Δ比例增益函数，并根据Δ积分增益函数和Δ比例增益函数设定新的积分增益函数和比例增益函数对应于行为。学习部3、3`通过使用了回报的学习，来更新((积分增益函数，比例增益函数)、(Δ积分增益函数，Δ比例增益函数)，行为价值Q)的表(以下称为“行为价值表”)。

本发明的实施例的电动机控制装置7具备机械学习装置1、1`以及电动机控制部6。电动机控制部6具备输入转矩指令的转矩指令输入部8。机械学习装置1、1`具备：意图决定部9，其根据由学习部3、3`依照训练数据集进行学习的结果，对当前的状态(环境)的输入进行响应，决定积分增益函数和比例增益函数的变更。

意图决定部9也可以以1-ε的概率选择行为价值Q增大的行为(Δ积分增益函数，Δ比例增益函数)，以ε的概率进行随机选择(ε-greedy法)。

可以根据电动机的绕组电阻值以及电感值来计算存储在行为价值表中的行为价值的初始值。通常，在学习开始时存储在行为价值表中的行为价值的初始值是随机值。因此，可以取得电动机的绕组电阻、电感，适当地赋予初始值，提高学习的效率。

在难以将行为价值全部存储为表并逐次更新的情况下，也可以组合使用了多层神经网络的深层学习来更新行为价值Q。已知深层学习作为削减Q学习的巨大计算量的手段是有用的。

如图3所示，电动机控制部6中的状态有因行为而间接地变化的状态、因行为而直接地变化的状态。因行为而间接地变化的状态包含每个步长的过冲量、下冲量、以及上升时间。因行为而直接地变化的状态包含积分增益函数和比例增益函数。

学习部3、3`构成为依照由当前的状态变量构成的追加的训练数据集，再学习条件来进行更新。

也可以构成为机械学习装置1、1`经由网络与电动机控制部6连接，状态观测部2、2`经由网络取得当前的状态变量。

优选机械学习装置1、1`存在于云服务器中。

电动机控制部6具备转矩指令输入部8(转矩步长指示器)。状态观测部2、2`具备电流传感器21以及用于取得积分增益函数和比例增益函数的通信单元22。也可以将机械学习装置1、1`内置于电动机控制部6中。

接着，说明本发明的实施例的机械学习方法。在图5中表示用于说明本发明的实施例的机械学习装置的动作步骤的流程图。本发明的实施例的机械学习方法对与电动机控制中的电流增益参数的调整相关联的条件进行学习，包括：取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与阶跃状的转矩指令对应的实际电流的过冲量、下冲量、上升时间中的至少一个、积分增益函数、比例增益函数构成的状态变量，依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

本发明的其他实施例的机械学习方法，对与电动机控制中的电流增益参数的调整相关联的条件进行学习，该机械学习方法包括：取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与由不同频率的正弦波的组构成的转矩指令对应的实际电流的振幅比和根据相位延迟量计算出的频带时间中的至少一个、积分增益函数、比例增益函数构成的状态变量，依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

在图5中表示用于说明本发明的实施例的机械学习装置的动作步骤的流程图。首先，在步骤S101中，取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与阶跃状的转矩指令对应的实际电流的过冲量、下冲量、以及上升时间中的至少一个、积分增益函数、比例增益函数构成的状态变量。或者，也可以在步骤S101中，取得电流控制环路的积分增益函数和比例增益函数，并且取得实际电流，观测由与由不同频率的正弦波的组构成的转矩指令对应的实际电流的振幅比和根据相位延迟量计算出的频带时间中的至少一个、积分增益函数、比例增益函数构成的状态变量。

接着，在步骤S102中，依照由状态变量构成的训练数据集，学习与电流增益参数的调整相关联的条件。

接着，说明使用了本发明的实施例的电动机控制装置电动机驱动系统的机械学习方法。在图6中表示用于说明本发明的实施例的电动机控制装置的动作步骤的流程图。首先，在步骤S201中，开始学习。

接着，在步骤S202中，设定积分增益函数和比例增益函数。

接着，在步骤S203中，输入步长指令。例如，一边如10％、20％、……那样逐渐地增加一边输入转矩指令。

接着，在步骤S204中，采样电流，并变换为转矩指令的每个大小的过冲量等。例如，一边按照10％的刻度增加转矩指令，一边将采样的电流变换为各转矩指令下的过冲量(OS量)、下冲量(US量)、上升时间(Rise Time)。

接着，在步骤S205中，计算回报。在此，回报并不限于决定为0或1的情况。即，根据相对于过冲量单调减少的函数、相对于下冲量单调增加的函数、相对于上升时间单调减少的函数来计算。例如，既可以赋予与积分增益函数、比例增益函数全体对应的一个回报，也可以对步长的每个大小设为一个回报。这是将积分增益函数、比例增益函数最优化为函数、还是个别地对每个转矩指令的积分增益和比例增益进行最优化的不同。具体地说，可以按照10％的刻度，如果是10步长则增减10种回报。

接着，在步骤S206中，更新行为价值表。

接着，在步骤S207中，根据更新后的行为价值表，决定Δ积分增益函数和Δ比例增益函数。通过重复以上的步骤S202～S207，能够最优化积分增益函数和比例增益函数。

在以上的说明中，说明了使用电流环路的增益参数的例子，但对于速度环路的增益参数也可以同样。在该情况下，需要将转矩指令置换为速度指令。

如以上说明的那样，根据本发明的实施例的机械学习装置和具备机械学习装置的电动机控制装置和机械学习方法，通过还考虑到电动机的个体差异的电流增益参数的最优化，能够提高电动机的响应性，改善进给不稳，提高精度，削减调整的工时。

根据本发明，可以提供一种机械学习装置、具备机械学习装置的电动机控制装置以及机械学习方法，其通过机械学习来对电流增益参数进行最优化，由此能够提高电动机的响应性，改善进给不稳以及提高精度。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：妹尾达也;
技术所有人：发那科株式会社;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、朱老师：1.聚合物绝缘材料老化 2.电力系统可靠性分析
2、赵老师：1.智能控制理论及应用 2.机器人控制技术 3.新能源控制技术与应用
3、杨老师：工程电磁场与磁技术，无线电能传输技术
4、李老师：新型电力电子技术在微网中的应用
5、王老师：薄膜光电子材料与器件、太阳能电池、光伏能源器件及材料测试
如您是高校老师，可以点此联系我们加入专家库。