五自由度无轴承永磁同步电机强化学习控制器及构造方法与流程

文档序号:11064609阅读:477来源:国知局
五自由度无轴承永磁同步电机强化学习控制器及构造方法与制造工艺

本发明属于电力传动控制设备的技术领域,涉及五自由度无轴承永磁同步电机的控制器结构及其构造方法,适用于五自由度无轴承永磁同步电机的高性能控制。五自由度无轴承永磁同步电机在离心机、密封泵、航空航天、数控机床、飞轮储能、生命科学等众多高速、超高速特种电气传动领域应用广阔。



背景技术:

五自由度无轴承永磁同步电机由一台二自由度无轴承永磁同步电机和一个三自由度混合磁轴承构成,是多变量、强耦合的非线性复杂系统。五自由度无轴承永磁同步电机具备运行可靠、质量轻、运行损耗低、控制性能好等优良特性。在五自由度无轴承永磁同步电机的控制系统里,控制器设计往往需要精确的电机参数值来辅助设计,如无速度传感器控制、矢量控制等。但是随着温度、负载和磁饱和程度的变化,永磁同步电机的定子电感、绕组电阻和转子永磁磁链幅值等参数值大小都会随之而变化,当电机实际参数值相对于常温下的设计参数值发生比较大变化时,会对所设计的控制系统性能造成很大影响,甚至会让其无法工作。同样的,三自由度混合磁轴承由于铁芯饱和以及温度对永磁体影响等因素也导致类似问题。

自适应控制器具有修正自己的特性以适应对象扰动的能力。在系统运行中,自适应控制器依靠不断采集控制过程信息,确定被控对象的当前实际工作状态,以优化性能为准则,产生自适应控制规律,从而实时地调整控制器结构或参数,使系统始终自动地工作在最优或次最优状态下。然而要实施自适应控制,通常需要准确获得被控对象的数学模型,而五自由度无轴承永磁同步电机系统是一个多变量、非线性、强耦合的复杂系统,很难获取其精确的数学模型。

中国专利公开号为CN1737708的文献中公开的“基于神经网络逆五自由度无轴承永磁同步电机控制系统及控制方法”,对五自由度无轴承永磁同步电机系统设计了神经网络逆解耦控制器,该神经网络需要事先读取训练数据,进行大量离线训练,权值一旦固定无法在线调节,导致控制器无法克服五自由度无轴承永磁同步电机系统参数变化、负载突变、铁芯饱和等不确定因素对系统的影响,鲁棒性差。中国专利公开号为CN102790579A的文献中公开的“一种五自由度无轴承永磁同步电机解耦控制器的构造方法”,对五自由度无轴承永磁同步电机系统设计了基于支持向量机逆的解耦控制器,该支持向量机逆解耦控制器同样存在学习之后不能在线调节参数的问题,导致控制器无法克服五自由度无轴承永磁同步电机系统参数变化、负载突变、铁芯饱和等不确定因素对系统的影响。

执行器–评价器算法(Actor-Critic,AC),也称为自适应启发式评价算法,是一种重要的强化学习算法,具有无模型在线学习能力。它包含两个部件:执行器(Actor)和评价器(Critic)。执行器即策略结构,用于选择动作。评价器即值函数,用于评估执行器选择的动作。执行器–评价器算法中,动作的选择与值函数的更新釆用了相同的策略。评价器必须了解和评价执行器当前采用的策略。评价采用瞬时差分误差的方式。这个标量信号是评价器的唯一输出并推动了执行器–评价器的所有学习。一般情况下,评价器是一个状态值函数,评价器的实现机制,即值函数的更新可以采用时间差分学习(Temporal-Difference learning,TD)。评价器的作用在于,在每个动作选择之后,评价器评估新状态来决定事情是否比期望的好或者更糟,这个评估就是瞬时差分误差。如果瞬时差分误差是正值,表明未来选择当前动作的倾向要被加强,但是如果瞬时差分误差是负值,表明倾向要被减弱。



技术实现要素:

本发明的目的是为解决现有五自由度无轴承永磁同步电机控制存在的自适应控制需要精确数学模型的难题,解决现有单一神经网络控制器需要事先读取训练数据,进行大量离线训练,权值一旦固定无法在线调节的问题,提出一种可使五自由度无轴承永磁同步电机具有优良的动、静态控制性能的自适应强化学习控制器,同时提出该强化学习控制器的构造方法。

本发明五自由度无轴承永磁同步电机强化学习控制器采用的技术方案是:由一个电流控制模块、六个微分器和三个执行器-评价器模块组成,三个执行器-评价器模块的输出经电流控制模块连接无轴承永磁同步电机系统,电流控制模块的输出是组成无轴承永磁同步电机中二自由度无轴承永磁同步电机的转矩绕组电流iMa、iMb、iMc、悬浮绕组电流iBa、iBb、iBc、组成无轴承永磁同步电机中三自由度混合磁轴承径向位移控制电流ia、ib、ic和轴向位移控制电流iz;无轴承永磁同步电机系统的输出为二自由度无轴承永磁同步电机实时径向位移值x、y与实际转速ω以及所述磁轴承径向位移xr、yr与轴向位移z;实时径向位移值x、y、实际转速ω以及磁轴承径向位移xr、yr与轴向位移z分别与相应的给定值x*、y*、xr*、yr*、z*、ω*一一对应地比较得到实时径向位移误差ex、ey、实际转速eω误差以及磁轴承径向位移误差exr、eyr与轴向位移ez这6个误差,每个误差各输入一个对应的微分器得到误差误差ex、ey、是第一执行器-评价器模块的输入,误差eω、是第二执行器-评价器模块的输入,误差exr、eyr、ez、是第三执行器-评价器模块的输入,第一执行器-评价器模块的输出是二自由度无轴承永磁同步电机d-q坐标系下的悬浮绕组给定电流iBd*、iBq*,第二执行器-评价器模块的输出是d-q坐标系下的转矩绕组给定电流iMd*、iMq*,第三执行器-评价器模块的输出是三自由度混合磁轴承控制电流ix*、iy*、iz*

本发明五自由度无轴承永磁同步电机强化学习控制器的构造方法采用的技术方案是:其特别是包括以下步骤:

步骤1:构造电流控制模块和五自由度无轴承永磁同步电机系统;

步骤2:采用三个执行器-评价器复合RBF神经网络同时实现三个执行器神经网络和评价器神经网络的学习,每个执行器与评价器共享执行器-评价器复合RBF神经网络的输入层和隐含层,构造出三个执行器神经网络与三个评价器神经网络;

步骤3:构造三个强化信号模块,第一强化信号模块输出强化信号r1(t)=αxrx(t)+αyry(t),rx(t)、ry(t)分别为x、y轴向位移误差强化信号,αx、αy分别为x、y轴向位移误差强化信号系数;第二强化信号模块输出强化信号r2(t)=βω1rω1(t)+βω2rω2(t),rω1(t)、rω2(t)分别为转速当前时刻误差强化信号和转速误差变化强化信号,βω1和βω2分别为它们的权重;第三强化信号模块输出强化信号r3(t)=αxrrxr(t)+αyrryr(t)+αzrz(t),rxr(t)、ryr(t)和rz(t)分别为磁轴承x、y轴向位移误差强化信号和z轴向位移强化信号,αxr、αyr和αz分别为x、y轴向位移误差强化信号系数和z轴向位移强化信号系数;

步骤4.构造三个瞬时差分模块,瞬时差分信号δa(t)=ra(t)+γaVa(t+1)-Va(t),γa折扣因子,0≤γa≤1,t为当前时刻,Va(t+1)和Va(t)分别为更新前后的值函数,a=1,2,3,分别代表第一、第二、第二执行器-评价器模块;

步骤5:由三个执行器-评价器模块与电流控制模块共同组成五自由度无轴承永磁同步电机强化学习控制器。

本发明的优点在于:

1.本发明将人工智能领域强化学习中的执行器-评价器(Actor-Critic,AC)与传统矢量控制技术相结合,利用强化学习中的执行器-评价器算法,也称为自适应启发式评价算法,是一种重要的强化学习算法,由评价器评价五自由度无轴承永磁同步电机系统的转速与位移反馈信息,并指导执行器输出五自由度无轴承永磁同步电机的各个电流,能够在没有电机精确模型的情况下在线更新控制器参数,维持五自由度无轴承永磁同步电机的稳定运行,抗电机参数变化及抗负载扰动能力强,同时克服了系统参数变化、负载突变等不确定因素对系统性能的影响,具有更好的鲁棒性,能够维持五自由度无轴承永磁同步电机的高性能稳定运行和跟踪控制。

2.本发明采用了径向基函数神经网络(RBF network)。RBF神经网络能够逼近任意的非线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能力。同时RBF神经网络作为一种局部逼近网络相比BP神经网络等全局逼近网络具有更快的学习收敛速度。已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。

附图说明

图1是本发明五自由度无轴承永磁同步电机强化学习控制器的结构框图;

图2是图1中电流控制模块和五自由度无轴承永磁同步电机系统的放大的构造框图及等效图;

图3是图1中第一执行器-评价器模块1的构造框图及等效图;

图4是图1中第二执行器-评价器模块2的构造框图及等效图;

图5是图1中第三执行器-评价器模块3的构造框图及等效图;

图6是图3中复合RBF神经网络结构图;

图7是图4中复合RBF神经网络结构图;

图8是图5中复合RBF神经网络结构图;

图9是图3中第一强化信号模块13的构造原理图;

图10是图4中第二强化信号模块23的构造原理图;

图11是图5中第三强化信号模块23的构造原理图;

图12是图3中第一瞬时差分模块14的构造原理图;

图13是图4中第二瞬时差分模块24的构造原理图;

图14是图5中第三瞬时差分模块34的构造原理图;

图15是图1中三个执行器-评价器模块的算法流程图。

图中:1.第一执行器-评价器模块;2.第二执行器-评价器模块;3.第三执行器-评价器模块;4.电流控制模块;7.五自由度无轴承永磁同步电机系统;8.五自由度无轴承永磁同步电机强化学习控制器;9.复合被控对象;11.第一执行器神经网络;12.第一评价器神经网络;13.第一强化信号模块;14.第一瞬时差分模块;

21.第二执行器神经网络;22.第二评价器神经网络;23.第二强化信号模块;24.第二瞬时差分模块;

31.第三执行器神经网络;32.第三评价器神经网络;33.第三强化信号模块;34.第三瞬时差分模块;

41.第一PI调节器;42.第二PI调节器;43.第一IPARK变换器;44.第一SVPWM;45.第一PARK变换器;46.第一CLARK变换器;47.第一电流传感器;48.第一电压源逆变器;49.第三PI调节器;

50.第四PI调节器;51.第二SVPWM;52.第二电压源逆变器;53.第二CLARK变换器;54.第二电流传感器;55.功率放大器;56.第五PI调节器;57.第六PI调节器;58.第二IPARK变换器;59.第三SVPWM;

60.第三电压源逆变器;61.第三电流传感器;62.第三CLARK变换器;63.第二PARK变换器;64.光电编码器;65.位移传感器;66.五自由度无轴承永磁同步电机。

具体实施方式

参见图1,本发明五自由度无轴承永磁同步电机强化学习控制器8由一个电流控制模块4、六个微分器和三个执行器-评价器模块组成,三个执行器-评价器模块分别是第一执行器-评价器模块1、第二执行器-评价器模块2和第三执行器-评价器模块3。三个执行器-评价器模块的输出端连接电流控制模块4的输入端,电流控制模块4的输出端连接五自由度无轴承永磁同步电机系统7。五自由度无轴承永磁同步电机系统7中的五自由度无轴承永磁同步电机由一台二自由度无轴承永磁同步电机和一个三自由度混合磁轴承构成。

由无轴承永磁同步电机系统7和电流控制模块4组成复合被控对象9,复合被控对象9的输出即无轴承永磁同步电机系统7的输出,为二自由度无轴承永磁同步电机实时径向位移值x、y与实际转速ω以及三自由度混合磁轴承径向位移xr、yr与轴向位移z。电流控制模块4的输出是二自由度无轴承永磁同步电机的转矩绕组电流iMa、iMb、iMc、二自由度无轴承永磁同步电机的悬浮绕组电流iBa、iBb、iBc、三自由度混合磁轴承径向位移控制电流ia、ib、ic和轴向位移控制电流iz

将电机实时径向位移值x、y、实际转速ω以及磁轴承径向位移xr、yr与轴向位移z作为反馈值,分别与相应的给定值x*、y*、xr*、yr*、z*、ω*一一对应地进行比较,得到电机实时径向位移误差ex、ey、实际转速eω误差以及磁轴承径向位移误差exr、eyr与轴向位移ez这6个误差,将每个误差各输入一个对应的微分器d/dt,通过6个微分器分别对时间求导,得到误差将其中的误差ex、ey、作为第一执行器-评价器模块1的输入,误差eω、作为第二执行器-评价器模块2的输入,误差exr、eyr、ez、作为第三执行器-评价器模块3的输入。第一执行器-评价器模块1的输出是二自由度无轴承永磁同步电机d-q坐标系下的悬浮绕组给定电流iBd*、iBq*,第二执行器-评价器模块2的输出是d-q坐标系下的转矩绕组给定电流iMd*、iMq*,第三执行器-评价器模块3的输出是三自由度混合磁轴承控制电流ix*、iy*、iz*。复合被控对象9的输入即电流控制模块4的输入,为三个执行器-评价器模块的输入。

如图2所示,电流控制模块4由6个PI调节器、2个PARK变换器与2个IPARK变换器、3个CLARK变换器、3个SVPWM、3个电流传感器与3个电压源逆变器以及1个功率放大器55组成。五自由度无轴承永磁同步电机系统7由位移传感器65、光电编码器64和五自由度无轴承永磁同步电机66组成。其中,6个PI调节器分别是第一PI调节器41、第二PI调节器42、第三PI调节器49、第四PI调节器50、第五PI调节器56和第六PI调节器57;2个PARK变换器分别是第一PARK变换器45和第二PARK变换器63;2个IPARK变换器分别是第一IPARK变换器43和第二IPARK变换器58;3个CLARK变换器分别是第一CLARK变换器46、第二CLARK变换器53和第三CLARK变换器62;3个SVPWM分别是第一SVPWM44、第二SVPWM51和第三SVPWM59;3个电流传感器分别是第一电流传感器47、第二电流传感器54和第三电流传感器61;3个电压源逆变器分别是第一电压源逆变器48、第二电压源逆变器52和第三电压源逆变器60。

位移传感器65采用五个电涡流位移传感器分别检测二自由度无轴承永磁同步电机转子的x轴与y轴的实时径向位移值x、y以及三自由度混合磁轴承的径向位移xr、yr和轴向位移z,采用光电编码器64检测二自由度无轴承永磁同步电机转子的转速ω。

第三电流传感器61检测二自由度无轴承永磁同步电机的悬浮绕组电流iBa、iBb、iBc,第三电流传感器61的输出端依序连接第三CLARK变换器62和第二PARK变换器63,悬浮绕组电流iBa、iBb、iBc经第三CLARK变换器62处理后生成α-β坐标系下的悬浮绕组电流i、i。第二PARK变换器63处理α-β坐标系下的悬浮绕组电流i、i生成d-q坐标系下的悬浮绕组电流iBd、iBq。将该悬浮绕组电流iBd、iBq作为反馈电流,与d-q坐标系下的悬浮绕组给定电流iBd*、iBq*比较,比较得到的误差分别一一对应地输出到第五PI调节器56和第六PI调节器57,第五PI调节器56和第六PI调节器57的输出端依序连接第二IPARK变换器58、第三SVPWM59和第三电压源逆变器60,比较得到的误差经第五PI调节器56和第六PI调节器57处理后分别生成d-q坐标系下的悬浮绕组电压VBd*和VBq*,悬浮绕组电压VBd*和VBq*经第二IPARK变换器58处理后生成α-β坐标系下的悬浮绕组电压V*和V*。α-β坐标系下的悬浮绕组电压V*和V*经第三SVPWM59处理后生成第三电压源逆变器60的开关信号SB(B=1,2,3,4,5,6)。第三电压源逆变器60根据开关信号SB控制二自由度无轴承永磁同步电机的悬浮绕组电流。

第一电流传感器47检测二自由度无轴承永磁同步电机的转矩绕组电流iMa、iMb、iMc,第一电流传感器47的输出端依序连接第一CLARK变换器46和第一PARK变换器45,转矩绕组电流iMa、iMb、iMc经第一CLARK变换器46处理后生成α-β坐标系下的转矩绕组电流i、i,第一PARK变换器45处理α-β坐标系下的转矩绕组电流i、i生成d-q坐标系下的转矩绕组电流iMd、iMq,将转矩绕组电流iMd、iMq作为反馈电流,与d-q坐标系下的转矩绕组给定电流iMd*、iMq*比较,比较得到误差分别一一对应地输出到第一PI调节器41和第二PI调节器42,比较得到的误差经第一PI调节器41和第二PI调节器42处理后分别生成d-q坐标系下的转矩绕组电压VMd*和VMq*,第一PI调节器41和第二PI调节器42的输出端依次串接第一IPARK变换器43、第一SVPWM44和第一电压源逆变器48,第一IPARK变换器43处理d-q坐标系下的转矩绕组电压VMd*和VMq*,生成α-β坐标系下的转矩绕组电压V*和V*,α-β坐标系下的转矩绕组电压V*和V*经第一SVPWM44处理后生成第一电压源逆变器48的开关信号SM(M=1,2,3,4,5,6)。第一电压源逆变器48根据开关信号SM控制二自由度无轴承永磁同步电机的转矩绕组电流。

第二电流传感器54检测三自由度混合磁轴承径向位移控制电流ia、ib、ic,径向位移控制电流ia、ib、ic经第二CLARK变换器53处理后生成α-β坐标系下的径向位移控制电流ix、iy,将α-β坐标系下的径向位移控制电流ix、iy作为反馈电流,与给定径向位移控制电流ix*、iy*比较,比较得到的误差分别一一对应地输出到第三PI调节器49和第四PI调节器50,比较误差经第三PI调节器49和第四PI调节器50处理后生成α-β坐标系下的径向位移控制电压Vx*和Vy*。第三PI调节器49和第四PI调节器50的输出端依次串接第二SVPWM51和第二电压源逆变器52,α-β坐标系下的径向位移控制电压Vx*和Vy*经第二SVPWM51处理后生成第二电压源逆变器52的开关信号ST(T=1,2,3,4,5,6),第二电压源逆变器52根据开关信号ST控制三自由度混合磁轴承径向位移控制电流。

三自由度磁轴承轴向位移控制电流iz直接经由轴向位移给定电流iz*经过功率放大器55得到。

如图3所示,第一执行器-评价器模块1由第一执行器神经网络11、第一评价器神经网络12、第一强化信号模块13和第一瞬时差分模块14组成。误差ex、ey、为第一执行器神经网络11和第一评价器神经网络12的共同输入,第一评价器神经网络12的输出端经第一瞬时差分模块14连接第一执行器神经网络11,第一瞬时差分模块14的输出端还连接第一评价器神经网络12的输入端。误差ex、ey作为第一强化信号模块13的输入,第一强化信号模块13的输出端连接第一瞬时差分模块14,第一强化信号模块13输出强化信号r1(t)。第一评价器神经网络12生成并输出值函数V1(t),第一执行器神经网络11输出d-q坐标系下的悬浮绕组给定电流iBd*、iBq*,第一瞬时差分模块14根据强化信号r1(t)和值函数V1(t)生成瞬时差分信号δ1(t)。第一执行器神经网络11和第一评价器神经网络12根据瞬时差分信号δ1(t)调整权值。

如图4所示,第二执行器-评价器模块2由第二执行器神经网络21、第二评价器神经网络22、第二强化信号模块23和第二瞬时差分模块24组成。将误差eω、作为第二执行器神经网络21和第二评价器神经网络22的共同输入,第二评价器神经网络22的输出端经第二瞬时差分模块24连接第二执行器神经网络21,第二瞬时差分模块24的输出端还连接第二评价器神经网络22的输入端。第二强化信号模块23以eω作为的输入,第二强化信号模块23的输出端连接第二瞬时差分模块24,输出强化信号r2(t)。第二评价器神经网络22生成输出值函数V2(t),第二执行器神经网络21输出d-q坐标系下的转矩绕组给定电流iMd*、iMq*。第二瞬时差分模块24根据强化信号r2(t)和值函数V2(t)生成瞬时差分信号δ2(t)。第二执行器神经网络21和第二评价器神经网络22根据瞬时差分信号δ2(t)调整权值。

如图5所示,第三执行器-评价器模块3由第三执行器神经网络31、第三评价器神经网络32、第三强化信号模块33和第三瞬时差分模块34组成。将误差exr、eyr、ez、作为第三执行器神经网络31和第三评价器神经网络32的共同输入,第三评价器神经网络32的输出端经第三瞬时差分模块34连接第三执行器神经网络31,第三瞬时差分模块34的输出端还连接第三评价器神经网络32的输入端。第三强化信号模块33以exr、eyr、ez作为的输入,第三强化信号模块33的输出端连接第三瞬时差分模块34,输出强化信号r3(t)。第三评价器神经网络32生成输出值函数V3(t),第三执行器神经网络31输出三自由度混合磁轴承控制电流ix*、iy*、iz*,第三瞬时差分模块34根据强化信号r3(t)和值函数V3(t)生成瞬时差分信号δ3(t),第三执行器神经网络31和第三评价器神经网络32根据瞬时差分信号δ3(t)调整权值。

五自由度无轴承永磁同步电机强化学习控制器8的具体构造方法分以下6步:

1.构造电流控制模块4和五自由度无轴承永磁同步电机系统7

如图2所示,由6个PI调节器、2个PARK变换器与2个IPARK变换器、3个CLARK变换器、3个SVPWM、3个电流传感器与3个电压源逆变器以及1个功率放大器55构成电流控制模块4。由位移传感器65、光电编码器64和五自由度无轴承永磁同步电机66构成五自由度无轴承永磁同步电机系统7。

第三电流传感器61检测二自由度无轴承永磁同步电机的悬浮绕组电流iBa、iBb、iBc,悬浮绕组电流iBa、iBb、iBc经第三CLARK变换器62处理后生成α-β坐标系下的悬浮绕组电流i、i。第二PARK变换器63处理α-β坐标系下的悬浮绕组电流i、i生成d-q坐标系下的悬浮绕组电流iBd、iBq。悬浮绕组电流iBd、iBq作为反馈电流与d-q坐标系下的悬浮绕组给定电流iBd*、iBq*比较,比较误差分别输出到第五PI调节器56和第六PI调节器57,比较误差经第五PI调节器56和第六PI调节器57处理后生成d-q坐标系下的悬浮绕组电压VBd*和VBq*。第二IPARK变换器58处理d-q坐标系下的悬浮绕组电压VBd*和VBq*生成α-β坐标系下的悬浮绕组电压V*和V*。α-β坐标系下的悬浮绕组电压V*和V*经第三SVPWM59处理后生成第三电压源逆变器60的开关信号SB(B=1,2,3,4,5,6)。第三电压源逆变器60根据开关信号控制二自由度无轴承永磁同步电机的悬浮绕组电流。第一电流传感器47检测二自由度无轴承永磁同步电机的转矩绕组电流iMa、iMb、iMc,转矩绕组电流iMa、iMb、iMc经第一CLARK变换器46处理后生成α-β坐标系下的转矩绕组电流i、i。第一PARK变换器45处理α-β坐标系下的转矩绕组电流i、i生成d-q坐标系下的转矩绕组电流iMd、iMq。转矩绕组电流iMd、iMq作为反馈电流与d-q坐标系下的转矩绕组给定电流iMd*、iMq*比较,比较误差分别输出到第一PI调节器41和第二PI调节器42,比较误差经第一PI调节器41和第二PI调节器42处理后生成d-q坐标系下的转矩绕组电压VMd*和VMq*。第一IPARK变换器43处理d-q坐标系下的转矩绕组电压VMd*和VMq*生成α-β坐标系下的转矩绕组电压V*和V*。α-β坐标系下的转矩绕组电压V*和V*经第一SVPWM44处理后生成第一电压源逆变器48的开关信号SM(M=1,2,3,4,5,6)。第一电压源逆变器48根据开关信号控制二自由度无轴承永磁同步电机的转矩绕组电流。第二电流传感器54检测三自由度混合磁轴承径向位移控制电流ia、ib、ic,径向位移控制电流ia、ib、ic经第二CLARK变换器53处理后生成α-β坐标系下的径向位移控制电流ix、iy。α-β坐标系下的径向位移控制电流ix、iy作为反馈电流与g给定径向位移控制电流ix*、iy*比较,比较误差分别输出到第三PI调节器49和第四PI调节器50,比较误差经第三PI调节器49和第四PI调节器50处理后生成α-β坐标系下的径向位移控制电压Vx*和Vy*。α-β坐标系下的径向位移控制电压Vx*和Vy*经第二SVPWM51处理后生成第二电压源逆变器的开关信号ST(T=1,2,3,4,5,6)。第二电压源逆变器52根据开关信号控制三自由度混合磁轴承径向位移控制电流。三自由度磁轴承轴向位移控制电流iz直接由iz*经过功率放大器55得到。

2.构造第一执行器神经网络11、第二执行器神经网络21、第三执行器神经网络31与第一评价器神经网络12、第二评价器神经网络22、第三评价器神经网络32。

如图6、7、8所示,本发明采用三个执行器-评价器复合RBF神经网络同时实现三个执行器神经网络和评价器神经网络的学习,每个执行器与评价器共享执行器-评价器复合RBF神经网络的输入层和隐含层资源。如图6所示,第一执行器-评价器模块1的复合RBF神经网络共有三层,第一层为输入层节点数为4个,第二层为隐含层节点数为8个,第三层为输出层节点数为3个。如图7所示,第二执行器-评价器模块2的复合RBF神经网络共有三层,第一层为输入层节点数为2个,第二层为隐含层节点数为6个,第三层为输出层节点数为3个。如图8所示,第三执行器-评价器模块3的复合RBF神经网络共有三层,第一层为输入层节点数为6个,第二层为隐含层节点数为12个,第三层为输出层节点数为4个。

如图6,第一执行器-评价器模块1的复合RBF神经网络的第一层为输入层,每个输入节点代表状态向量的一个分量,其中t代表当前时刻,上标T表示矩阵的转置。第二层为隐含层,隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为:

其中:

μ(1)j=[μ(1)1jμ(1)2jμ(1)3jμ(1)4j]T

为第一个神经网络的第j个节点的基函数中心向量,μ(1)1j,μ(1)2j,μ(1)3j,μ(1)4j分别对应状态变量ex(t)、ey(t)、的基函数中心向量,t为当前时刻,上标T表示矩阵的转置。σ(1)j为第一个神经网络的第j个节点的方差。下标(1)代表执行器-评价器模块1。第三层为输出层,由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I1m(t)和评价器神经网络输出值函数V1(t)由下面式子计算:

其中w(1)jk(t)为第一个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I(1)1(t)、I(1)2(t)分别对应iBd*、iBq*

其中v(1)j(t)为第j个隐含层节点到评价器输出节点的权值。

如图7,第二执行器-评价器模块2的复合RBF神经网络的第一层为输入层,每个输入节点代表状态向量的一个分量,其中t代表当前时刻。第二层为隐含层,隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为:

其中:

μ(2)j=[μ(2)1jμ(2)2j]T

为第二个神经网络的第j个节点的基函数中心向量,μ(2)1j、μ(2)2j分别对应状态变量eω(t)、的基函数中心向量。σ(2)j为第二个神经网络的第j个节点的方差。下标(2)代表第二执行器-评价器模块2。第三层为输出层由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I2m(t)和评价器神经网络输出值函数V2(t)由下面式子计算:

其中w(2)jk(t)为第二个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I(2)1(t)、I(2)2(t)分别对应iMd*、iMq*

其中v(2)j(t)为第二个神经网络第j个隐含层节点到评价器输出节点的权值。

如图8,第三执行器-评价器模块3的复合RBF神经网络的第一层为输入层,每个输入节点代表状态向量的一个分量,其中t代表当前时刻。第二层为隐含层,隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为:

其中:

μ(3)j=[μ1jμ2jμ3jμ4jμ5jμ6j]T

为第三个神经网络的第j个节点的基函数中心向量,μ1j、μ2j、μ3j、μ4j、μ5j、μ6j分别对应状态变量exr(t)、eyr(t)、ez(t)、的基函数中心向量,上标T表示矩阵的转置。σ(3)j为第三个神经网络的第j个节点的方差。下标(3)代表第三执行器-评价器模块3。第三层为输出层由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I3m(t)和评价器神经网络输出值函数V3(t)由下面式子计算:

其中w(3)jk(t)为第三个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I(3)1(t)、I(3)2(t)、I(3)3(t)分别对应ix*、iy*、iz*

其中v(3)j(t)为第三个神经网络第j个隐含层节点到评价器输出节点的权值。

3.构造第一强化信号模块13、第二强化信号模块23、第三强化信号模块33。

如图3和图9所示,第一强化信号模块13有两个输入端,一个输出端。输入为二自由度无轴承永磁同步电机位移误差信号ex、ey,输出为强化信号r1(t)。强化信号的计算由以下公式得到:

r1(t)=αxrx(t)+αyry(t),

其中rx(t)、ry(t)分别为x轴向位移误差强化信号,y轴向位移误差强化信号。αx、αy分别为x轴向位移误差强化信号系数,y轴向位移误差强化信号系数。这里两个系数值都取0.5。

x轴向位移误差强化信号rx(t),y轴向位移误差强化信号ry(t)的计算由以下公式得到:

rx(t)=βx1rx1(t)+βx2rx2(t)

ry(t)=βy1ry1(t)+βy2ry2(t)

其中rx1(t),rx2(t)分别为x轴向位移当前时刻误差强化信号和x轴向位移误差变化强化信号,系数βx1和βx2分别为他们的权重,这里均取0.5。其中ry1(t),ry2(t)分别为y轴向位移当前时刻误差强化信号和误差变化强化信号系数βy1和βy2分别为他们的权重,均取0.5。ex(t)为x轴向位移当前时刻误差,ey(t)为y轴向位移当前时刻误差,ex(t-1)为x轴向位移上一时刻误差,ey(t-1)为y轴向位移上一时刻误差,εx和εy分别为x轴向位移误差信号的容许误差带,y轴向位移误差信号的容许误差带,统一设为反馈量大小的1%。

如图4和图10所示,第二强化信号模块23有一个输入端,一个输出端。输入为转速误差信号eω,输出为强化信号r2(t)。强化信号的计算由以下公式得到:

r2(t)=βω1rω1(t)+βω2rω2(t)

其中rω1(t)、rω2(t)分别为转速当前时刻误差强化信号和转速误差变化强化信号。系数βω1和βω2分别为它们的权重,这里均取0.5。转速当前时刻误差强化信号rω1(t)和转速误差变化强化信号rω2(t)的计算由以下公式得到:

其中eω(t)为转速当前时刻误差,eω(t-1)为转速上一时刻误差,εω转速误差信号的容许误差带,设为反馈量大小的1%。

如图5和图11所示,第三强化信号模块33有三个输入端,一个输出端。输入为三自由度混合磁轴承径向与轴向位移误差信号exr、eyr和ez,输出为强化信号r3(t)。强化信号的计算由以下公式得到:

r3(t)=αxrrxr(t)+αyrryr(t)+αzrz(t)

其中rxr(t)、ryr(t)和rz(t)分别为三自由度混合磁轴承x轴向位移误差强化信号,y轴向位移误差强化信号和z轴向位移强化信号。αxr、αyr和αz分别为x轴向位移误差强化信号系数,y轴向位移误差强化信号系数和z轴向位移强化信号系数。这里三个系数值都取0.3。

三自由度混合磁轴承的x轴向位移误差强化信号rxr(t)、y轴向位移误差强化信号ryr(t)和x轴向位移误差强化信号rz(t)的计算由以下公式得到:

rxr(t)=βxr1rxr1(t)+βxr2rxr2(t)

ryr(t)=βyr1ryr1(t)+βyr2ryr2(t)

rz(t)=βz1rz1(t)+βz2rz2(t)

其中rxr1(t),rxr2(t)分别为三自由度混合磁轴承x轴向位移当前时刻误差强化信号和x轴向位移误差变化强化信号,系数βxr1和βxr2分别为它们的权重,这里均取0.5。ryr1(t),ryr2(t)分别为三自由度混合磁轴承y轴向位移当前时刻误差强化信号和误差变化强化信号系数βyr1和βyr2分别为他们的权重,均取0.5。rz1(t),rz2(t)分别为三自由度混合磁轴承z轴向位移当前时刻误差强化信号和误差变化强化信号系数βz1和βz2分别为他们的权重,均取0.5。exr(t)为x轴向位移当前时刻误差,eyr(t)为y轴向位移当前时刻误差,ez(t)为z轴向位移当前时刻误差。exr(t-1)为x轴向位移上一时刻误差,eyr(t-1)为y轴向位移上一时刻误差,ez(t-1)为z轴向位移上一时刻误差。εxr、εyr和εz分别为x轴向位移误差信号的容许误差带,y轴向位移误差信号的容许误差带和z轴向位移误差信号的容许误差带,统一设为反馈量大小的1%。

4.构造第一瞬时差分模块14、第二瞬时差分模块24和第三瞬时差分模块34。

如图3-5所示,三个瞬时差分模块14、24、34中的每个都有两个输入端和两个输出端。两个输入分别为强化信号ra(t)(a=1,2,3,分别代表执行器-评价器模块1,2,3),评价器神经网络输出值函数Va(t)(a=1,2,3),两个输出相同都为瞬时差分信号δa(t)(a=1,2,3),一个输出到执行器神经网络,一个输出到评价器神经网络。如图12、13和图14所示,瞬时差分信号δa(t)的计算由以下公式得到:

δa(t)=ra(t)+γaVa(t+1)-Va(t)(a=1,2,3)

其中0≤γa≤1(a=1,2,3)为折扣因子,其大小表明了未来的回报相对于当前回报的重要程度。特别的,γa=0时,相当于只考虑立即不考虑长期回报,γa=1时,将长期回报和立即回报看得同等重要。t为当前时刻,Va(t+1)和Va(t)分别为更新前后的值函数。

5.确定执行器-评价器复合RBF神经网络参数更新方式。

在执行器-评价器复合RBF神经网络中需要更新的参数有w(a)jk,v(a)j,μ(a)j和σ(a)j(a=1,2,3)。其计算方法由如下公式得到:

w(a)jk(t+1)=w(a)jk(t)+α(a)Aδa(t)Φ(a)j(t),

v(a)j(t+1)=v(a)j(t)+α(a)Cδa(t)Φ(a)j(t),

其中α(a)A和α(a)C分别为执行器和评价器的学习率,α(a)μ和α(a)σ分别为中心向量和方差的学习率,所有学习率的取值范围均为0到1。所有的下标a可取1,2,3表示执行器-评价器模块1,2,3。

6.确定执行器-评价器算法流程

本发明中的强化学习执行器评价器算法流程如图15所示。具体步骤如下:

步骤1:初始化第一、第二、第三执行器评价器模块1,2,3中各个参数。

步骤2:由系统输出得到反馈值x、y、xr、yr、z、ω。

步骤3:将反馈值x、y、xr、yr、z、ω与给定值x*、y*、xr*、yr*、z*、ω*比较得到系统误差ex、ey、exr、eyr、ez、eω

步骤4:误差信号分别对时间求导,得到

步骤5:构造状态向量:

步骤6:计算三个执行器-评价器复合RBF神经网络的输出I(a)m(t)、V(a)(t)。

步骤7:计算三个强化信号r(a)(t)。

步骤8:计算下一采样时间的系统输出。

步骤9:计算t+1时刻三个执行器-评价器复合RBF神经网络输出I(a)m(t+1)、V(a)(t+1)。

步骤10:计算强化信号r(a)(t+1)。

步骤11:计算瞬时差分信号δa(t)。

步骤12:更新执行器-评价器复合RBF神经网络的参数包括w(a)jk、v(a)j、μ(a)j、σ(a)j

步骤13:判断系统是否稳定即误差信号是否处于容许误差带。若系统稳定则结束流程,否则跳转到步骤8。

最终由第一、第二、第三执行器-评价器模块1,2,3与电流控制模块4共同组成完整的五自由度无轴承永磁同步电机强化学习控制器8,如图1所示。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1