五自由度无轴承永磁同步电机强化学习控制器及构造方法与流程

文档序号：11064609阅读：来源：国知局

技术特征：

1.一种五自由度无轴承永磁同步电机强化学习控制器，其特征是：所述强化学习控制器由一个电流控制模块(4)、六个微分器和三个执行器-评价器模块组成，三个执行器-评价器模块的输出经电流控制模块(4)连接无轴承永磁同步电机系统(7)，电流控制模块(4)的输出是组成无轴承永磁同步电机中二自由度无轴承永磁同步电机的转矩绕组电流i_Ma、i_Mb、i_Mc、悬浮绕组电流i_Ba、i_Bb、i_Bc、组成无轴承永磁同步电机中三自由度混合磁轴承径向位移控制电流i_a、i_b、i_c和轴向位移控制电流i_z；无轴承永磁同步电机系统(7)的输出为二自由度无轴承永磁同步电机实时径向位移值x、y与实际转速ω以及所述磁轴承径向位移x_r、y_r与轴向位移z；实时径向位移值x、y、实际转速ω以及磁轴承径向位移x_r、y_r与轴向位移z分别与相应的给定值x^*、y^*、x_r^*、y_r^*、z^*、ω^*一一对应地比较得到实时径向位移误差e_x、e_y、实际转速e_ω误差以及磁轴承径向位移误差e_xr、e_yr与轴向位移e_z这6个误差，每个误差各输入一个对应的微分器得到误差误差e_x、e_y、是第一执行器-评价器模块(1)的输入，误差e_ω、是第二执行器-评价器模块(2)的输入，误差e_xr、e_yr、e_z、是第三执行器-评价器模块(3)的输入，第一执行器-评价器模块(1)的输出是二自由度无轴承永磁同步电机d-q坐标系下的悬浮绕组给定电流i_Bd^*、i_Bq^*，第二执行器-评价器模块(2)的输出是d-q坐标系下的转矩绕组给定电流i_Md^*、i_Mq^*，第三执行器-评价器模块(3)的输出是三自由度混合磁轴承控制电流i_x^*、i_y^*、i_z^*。

2.根据权利要求1所述五自由度无轴承永磁同步电机强化学习控制器，其特征是：每个执行器-评价器模块各由执行器神经网络、评价器神经网络、第一强化信号模块和第一瞬时差分模块组成，每个执行器-评价器模块中的评价器神经网络的输出端经瞬时差分模块连接执行器神经网络，瞬时差分模块的输出端连接评价器神经网络的输入端，强化信号模块的输出端连接瞬时差分模块，每个强化信号模块各输出对应的强化信号，每个评价器神经网络生成并输出对应的值函数，每个瞬时差分模块生成对应的瞬时差分信号，每个执行器-评价器模块中的执行器神经网络和评价器神经网络根据瞬时差分信号调整权值；所述误差e_x、e_y为第一强化信号模块(13)的输入，所述误差e_x、e_y、为第一执行器神经网络(11)和第一评价器神经网络(12)的共同输入，第一执行器神经网络(11)输出d-q坐标系下的悬浮绕组给定电流i_Bd^*、i_Bq^*；所述误差e_ω、为第二执行器神经网络(21)和第二评价器神经网络(22)的共同输入，所述误差e_ω为第二强化信号模块(23)的输入，第二执行器神经网络(21)输出d-q坐标系下的转矩绕组给定电流i_Md^*、i_Mq^*；所述误差e_xr、e_yr、e_z、为第三执行器神经网络(31)和第三评价器神经网络(32)的共同输入，所述误差e_xr、e_yr、e_z为第三强化信号模块(33)的输入，第三执行器神经网络(31)输出磁轴承控制电流i_x^*、i_y^*、i_z^*。

3.一种如权利要求2所述五自由度无轴承永磁同步电机强化学习控制器的构造方法，其特别是包括以下步骤：

步骤1：构造电流控制模块(4)和五自由度无轴承永磁同步电机系统(7)；

步骤2：采用三个执行器-评价器复合RBF神经网络同时实现三个执行器神经网络和评价器神经网络的学习，每个执行器与评价器共享执行器-评价器复合RBF神经网络的输入层和隐含层，构造出三个执行器神经网络与三个评价器神经网络；

步骤3：构造三个强化信号模块，第一强化信号模块(13)输出强化信号r₁(t)＝α_xr_x(t)+α_yr_y(t)，r_x(t)、r_y(t)分别为x、y轴向位移误差强化信号，α_x、α_y分别为x、y轴向位移误差强化信号系数；第二强化信号模块(23)输出强化信号r₂(t)＝β_ω1r_ω1(t)+β_ω2r_ω2(t)，r_ω1(t)、r_ω2(t)分别为转速当前时刻误差强化信号和转速误差变化强化信号，β_ω1和β_ω2分别为它们的权重；第三强化信号模块(33)输出强化信号r₃(t)＝α_xrr_xr(t)+α_yrr_yr(t)+α_zr_z(t)，r_xr(t)、r_yr(t)和r_z(t)分别为磁轴承x、y轴向位移误差强化信号和z轴向位移强化信号，α_xr、α_yr和α_z分别为x、y轴向位移误差强化信号系数和z轴向位移强化信号系数；

步骤4：构造三个瞬时差分模块，瞬时差分信号δ_a(t)＝r_a(t)+γ_aV_a(t+1)-V_a(t)，γ_a折扣因子，0≤γ_a≤1，t为当前时刻，V_a(t+1)和V_a(t)分别为更新前后的值函数，a＝1,2,3，分别代表第一、第二、第二执行器-评价器模块；

步骤5：由三个执行器-评价器模块与电流控制模块(4)共同组成五自由度无轴承永磁同步电机强化学习控制器。

4.根据权利要求3所述五自由度无轴承永磁同步电机强化学习控制器的构造方法，步骤2中，每个执行器-评价器模块的复合RBF神经网络的第一层为输入层，第二层为隐含层，隐含层的节点基函数采用高斯核函数，第三层为输出层，由执行器输出和评价器输出两个部分组成，执行器神经网络输出值函数和评价器神经网络输出值函数。

5.根据权利要求3所述五自由度无轴承永磁同步电机强化学习控制器的构造方法，其特别是：在步骤4之后，先确定执行器-评价器复合RBF神经网络参数更新方式，再确定执行器-评价器算法流程。

完整全部详细技术资料下载

当前第2页1 2 3