机械学习方法及其装置、电动机控制装置以及电动机装置与流程

文档序号：11137946阅读：304来源：国知局

本发明涉及学习地线或屏蔽线的连接位置的机械学习方法以及机械学习装置、具备该机械学习装置的电动机控制装置以及电动机装置。

背景技术：

电动机装置具备为了确保接地电位而与电动机的外壳连接的地线、具备噪音降低用的屏蔽且同样与电动机的外壳连接的屏蔽线。

日本特开2004-206962号公报、日本特开2004-248371号公报以及日本特开2004-098174号公报中公开一种用于抑制噪音产生的各种配线结构。

技术实现要素：

地线或屏蔽线的连接位置大多依存于熟练者的知识和专业技巧的累积，不一定限于选择对抑制噪音最佳的连接位置。另外，随着控制方法的复杂化、高度化，同时使用多个控制系统的机会也增大，噪音产生的机理也复杂化。因此谋求一种能够决定对抑制噪音最佳的地线或屏蔽线的连接位置的技术。

在本发明的优选实施方式中，提供一种学习在电动机装置中使用的地线或屏蔽线的连接位置的机械学习装置，具备：状态观测部，其将上述地线或屏蔽线的连接位置以及来自电动机的反馈信号观测为状态变量；以及学习部，其按照根据上述状态变量生成的训练数据集，学习抑制上述反馈信号中包括的噪音的上述地线或屏蔽线的连接位置。

在本发明的优选实施方式中，提供一种电动机控制装置，具备：上述机械学习装置；连接部，其将上述地线或屏蔽线与上述连接位置连接；信号取得部，其取得上述反馈信号；以及意图决定部，其根据上述学习部学习的结果，决定上述地线或屏蔽线的连接位置。

在本发明的优选实施方式中，在上述电动机控制装置中，上述学习部具备：回报计算部，其根据上述反馈信号中包括的噪音来计算回报；以及函数更新部，其根据上述回报来更新用于决定上述地线或屏蔽线的上述连接位置的函数。

在本发明的优选实施方式中，在上述电动机控制装置中，上述回报计算部构成为，当上述噪音比预先决定的阈值小时增大回报，在是上述阈值以上时降低回报。

在本发明的优选实施方式中，在上述电动机控制装置中，上述函数更新部构成为，按照上述回报更新行为价值表。

在本发明的优选实施方式中，提供一种电动机装置，其具备上述电动机控制装置、通过上述电动机控制装置控制的电动机、输出上述反馈信号的编码器。

在本发明的优选实施方式中，提供一种学习在电动机装置中使用的地线或屏蔽线的连接位置的机械学习方法，包括以下步骤：将上述地线或屏蔽线的连接位置以及来自电动机的反馈信号观测为状态变量；按照根据上述状态变量生成的训练数据集，学习抑制上述反馈信号中包括的噪音的上述地线或屏蔽线的连接位置。

附图说明

通过参照附图所示的本发明例示的实施方式的详细说明，能够更加明确这些以及其他的本发明的目的、特征以及优点。

图1是一个实施方式的电动机装置的框图。

图2是表示一个实施方式的机械学习流程的流程图。

图3是表示神经网络的结构例的图。

具体实施方式

以下，参照附图说明本发明的实施方式。为了帮助理解本发明，图示的实施方式的结构要素的尺寸被进行了适当变更。另外，对于相同或对应的结构要素使用相同的参照标记。

图1是一个实施方式的电动机装置的框图。电动机装置1具有学习地线或屏蔽线的连接位置的机械学习功能。

在本说明书中，“地线”是为了将电动机2接地而与电动机2的外壳连接的导线。“屏蔽线”是由用于降低噪音的屏蔽线进行包围的导线。屏蔽线也可以包括动力电缆或从编码器21的输出信号线。

电动机装置1具备电动机2、控制电动机2的电动机控制装置3、学习地线或屏蔽线的连接位置的机械学习装置4。

电动机2响应按照由电动机控制装置3生成的转矩指令而提供的电力来进行驱动。电动机2具备检测电动机2的旋转位置的编码器21。从编码器21输出的反馈信号经由输出信号线12(以下有时称为“屏蔽线12”)被输入给电动机控制装置3。

电动机2除了与屏蔽线12连接，还连接用于提供电力的动力线13(以下有时会称为“屏蔽线13”)。另外，电动机2还与将电动机2进行接地的地线11连接。

电动机控制装置3是具备CPU、ROM、RAM、非易失性存储器以及与外部装置连接的接口的数字计算机。电动机控制装置3如图1所示，具备连接部31、信号取得部32和意图决定部33。

连接部31将地线11或屏蔽线12、13与希望的连接位置连接。在一个实施方式中，连接部31可以构成为能够通过晶体管等开关元件来变更连接位置。

在其他的实施方式中，连接部31可以构成为，经由操作员的作业执行连接工序。此时，连接部31在与电动机控制装置3连接的显示设备上显示地线11或屏蔽线12、13的连接位置。操作员参照所显示的信息来执行连接作业。另外，在另外的实施方式中，连接部31可以构成为，使用外部装置例如机器人来执行连接工序。

信号取得部32从编码器21取得表示电动机2的位置信息的反馈信号。信号取得部32将取得的反馈信号输出给状态观测部41。

意图决定部33根据机械学习装置4学习的结果来决定地线11或屏蔽线12、13的连接位置。

如果再次参照图1，则机械学习装置4具备状态观测部41和学习部42。机械学习装置4可以内置在电动机控制装置3中，也可以是与电动机控制装置3不同的另外的数字计算机。或者，机械学习装置4也可以存在云服务器中。

状态观测部41将地线11或屏蔽线12、13的连接位置以及来自电动机2的反馈信号观测为状态变量。

学习部42按照根据状态变量生成的训练数据集，学习能够抑制反馈信号中包括的噪音的地线11或屏蔽线12、13的连接位置。在一个实施方式中，学习部42按照强化学习的概念来学习地线11或屏蔽线12、13的连接位置和噪音产生之间的关系性。

本实施方式的机械学习装置4根据公知的Q学习的方法来执行强化学习。机械学习装置4根据求出在某个状态变量s时选择了行为a时的行为价值Q(期待值)的行为价值函数Q(s、a)，学习最优的行为。

在学习的初始阶段，针对某个状态变量s和行为a的组合而分配的行为价值Q是未知的。机械学习装置4针对各种状态变量s随机地选择并执行行为a，通过累计作为行为a的结果而赋予的回报来更新行为价值函数Q(s、a)。通过公式1表示更新行为价值函数Q(s、a)的一般式。

这里，s_t是时刻t的状态变量。a_t是在时刻t执行的行为。s_t+1是时刻t+1的状态变量，换言之，是作为进行了行为a_t后的结果而发生了变化后的状态变量。r_t+1是根据作为行为a_t的结果而变化的环境而被赋予的回报。[max]的项表示状态变量s_t+1的行为价值Q的最大值(即，针对最优行为a的行为价值)。γ是折扣率，设定为满足0<γ≤1(例如，γ＝0.9～0.99)。α是学习系数，设定为满足0<α≤1(例如，α＝0.05～0.2)。

通过公式1表示的更新式，如果时刻t+1的最优行为a的行为价值比在时刻t执行的行为a的行为价值Q大，则增大行为价值Q，相反的情况下，则缩小行为价值Q。换言之，更新行为价值函数Q(s、a)，使得时刻t的行为a的行为价值Q接近时刻t+1的最优的行为价值。这样，某个环境的最优的行为价值向之前的环境的行为价值依次进行传播。

如果再次参照图1，则学习部42还具备回报计算部43、函数更新部44。

回报计算部43根据来自编码器21的反馈信号中包括的噪音来计算回报r。例如，当噪音的级别比预定阈值小时增大回报r(例如赋予“1”的回报)。另一方面，当噪音的级别是预定阈值以上时降低回报r(例如赋予“-1”的回报)。按照公知的方法提取噪音。例如，通过电容器从反馈信号提取交流部分，从而能够提取噪音。

函数更新部44按照通过回报计算部43计算出的回报来更新用于决定地线11或屏蔽线12、13的连接位置。能够按照训练数据集，例如通过更新行为价值表来进行函数的更新。行为价值表是将任意的行为与其行为价值关联并以表的形式进行存储的数据集。

接着，参照图2所示的流程图，说明更新行为价值Q(s、a)的强化学习方法。在步骤S201，连接部31选择地线11或屏蔽线12、13的连接位置。连接部31随机选择连接位置。

在步骤S202中，为了取得来自编码器21的反馈信号而启动电动机控制装置3。

在步骤S203中，状态观测部41从连接部31以及信号取得部32取得状态变量。状态变量s分别包括地线11或屏蔽线12、13的连接位置、反馈信号。另外，为了尽可能地准确地检测出反馈信号中包括的噪音，最好将在电动机2停止时所取得的反馈信号作为状态变量s来使用。

在步骤S204中，判定反馈信号中包括的噪音是否小于预定的阈值。当步骤S204的判定结果是肯定时(噪音比阈值小时)，进入步骤S205。在步骤S205，回报计算部43为了使针对连接部31的行为(地线或屏蔽线12、13的连接位置的选择)的行为价值Q增大而增大回报r。

另一方面，当步骤S204的判定结果是否定时(噪音是阈值以上时)，进入步骤S206。在步骤S206中，回报计算部43为了使针对连接部31的行为的行为价值Q下降，降低回报r。

在步骤S207，根据在步骤S205或步骤S206计算出的回报r，函数更新部44更新行为价值函数Q(a、s)。之后，再次返回步骤S201，连接部31选择下一个连接位置。之后，关于新选择出的连接位置，根据噪音的级别大小来求出行为价值Q。以预定的周期重复执行步骤S201～S207的处理。

在其他的实施方式中，机械学习装置4可以按照神经网络模型来执行机械学习。图3表示神经网络模型的例子。神经网络由包括l个神经元x₁、x₂、x₃、……、x_l的输入层、包括m个神经元y₁、y₂、y₃、……、y_m的中间层(隐藏层)、包括n个神经元z₁、z₂、z₃、……、z_n的输出层构成。另外，在图3中，中间层只表示了1层，但也可以设置2层以上的中间层。

神经网络以人们根据成功体验或失败体验而凭感觉地学习最优行为的方式来学习地线11以及屏蔽线12、13的连接位置和噪音产生之间的关系性。神经网络按照根据状态观测部41所观测到的状态变量生成的训练数据集，通过所谓有教师学习来学习状态变量和环境变化之间的关系性。根据本实施方式，电动机控制装置3的意图决定部33发挥以下功能，即响应被输入到神经网络的输入层的连接位置的原委，输出层决定最佳的连接位置。

电动机控制装置3的意图决定部33使用机械学习装置4学习后的结果来决定地线11以及屏蔽线12、13的连接位置。但是，一旦决定了连接位置后，有时地线11以及屏蔽线12、13由于老化噪音会增大。本实施方式的机械学习装置4已经学习了连接位置的候补，所以电动机控制装置3的意图决定部33能够根据需要决定连接位置的切换目的地。

进一步，机械学习装置4能够学习连接位置的原委和噪音产生之间的关联性。因此，可以构成为在推测地线11以及屏蔽线12、13由于经年老化而有噪音增大的倾向时，意图决定部33切换连接位置。

根据具备本实施方式的机械学习装置以及机械学习方法的电动机装置，自发地学习连接位置和噪音产生之间的关系性。并且，意图决定部33根据学习结果决定地线11或屏蔽线12、13的最佳连接位置。因此，即使没有熟练者的知识或专业技巧的积累也能够抑制噪音。不需要试错，所以工作效率提高。

根据本实施方式，能够推测地线11或屏蔽线12、13的老化，所以在对电动机2的动作产生影响之前变更连接位置，能够防止误动作和精度下降。

在一个实施方式中，学习部可以构成为，按照针对多个电动机装置生成的训练数据集，学习最佳的连接位置。学习部可以从在相同的现场使用的多个电动机装置取得训练数据集，或者也可以使用从在不同的现场独立运转的多个电动机装置收集到的训练数据集来学习地线或屏蔽线的连接位置。

说明使用强化学习以及神经网络进行机械学习的实施方式，但是也可以按照其他的公知方法、例如遗传编程、功能理论编程、支持向量机等来执行机械学习。

以上，说明了本发明的各种实施方式，但是本领域技术人员能认识到通过其他的实施方式也能够实现本发明的要达到的作用效果。特别是能够在不脱离本发明的范围的情况下，删除或置换上述实施方式的结构要素，或者能够进一个附加公知的单元。另外，本领域技术人员也明白能够通过任意地组合在本说明书中明示或暗示的多个实施方式的特征来实施本发明。

根据本发明的机械学习装置以及机械学习方法，自发地学习地线或屏蔽线的连接位置和噪音产生之间的关系性。因此即使没有熟练者的知识或专业技巧的积累也能够决定最佳的连接位置。另外，本发明的电动机控制装置以及电动机装置通过机械学习装置使地线或屏蔽线的连接位置最优化，所以能够有效地抑制噪音。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：西冈辉;
技术所有人：发那科株式会社;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、朱老师：1.聚合物绝缘材料老化 2.电力系统可靠性分析
2、赵老师：1.智能控制理论及应用 2.机器人控制技术 3.新能源控制技术与应用
3、杨老师：工程电磁场与磁技术，无线电能传输技术
4、李老师：新型电力电子技术在微网中的应用
5、王老师：薄膜光电子材料与器件、太阳能电池、光伏能源器件及材料测试
如您是高校老师，可以点此联系我们加入专家库。