本发明涉及非线性系统控制技术领域,具体涉及一种弹簧质量阻尼器系统的鲁棒跟踪控制方法。
背景技术:
在控制理论与工程中,当被控对象具有不确定性或受到扰动时,鲁棒性是评估控制器性能的重要标准。由于非线性被控对象通常会受到未知干扰影响,为了提高非线性系统控制的性能,一些鲁棒控制方法已经被提出。例如,模糊控制方法、滑模控制方法、基于观测器的复合控制方法等。
自适应动态规划是一种近似最优控制方法,包括强化学习和自适应评估机制,一般由神经网络来实现,是传统优化方法的智能控制实现。针对非线性系统受到扰动情况下的控制问题,获取一般非线性系统的最优解难以实现,自适应动态规划方法是一种有效的设计近似最优控制器的方法。
技术实现要素:
为了解决现有技术中的上述问题,即为了解决非线性的弹簧质量阻尼器系统受到扰动情况下的控制问题,本发明的一方面提出了一种弹簧质量阻尼器系统的鲁棒跟踪控制方法,应用于弹簧阻尼器系统,其特征在于,根据弹簧质量阻尼器系统的鲁棒跟踪控制器进行跟踪控制;
所述的弹簧质量阻尼器系统的鲁棒跟踪控制器,其构建方法包括:
步骤1,获取弹簧质量阻尼器系统的物块质量m、弹簧的刚性系数k、系统的阻尼c、物块位置p(t)、物块速度v(t);
步骤2,确定弹簧质量阻尼器系统跟踪控制的状态变量x(t),建立被控模型;
步骤3,根据期望的跟踪轨迹r(t),计算弹簧质量阻尼器系统的跟踪误差z(t)和增广向量ξ(t),建立增广向量ξ(t)的动态方程;
步骤4,基于步骤3所建立的增广向量ξ(t)的动态方程构建效用函数u(ξ,t)和代价函数j(ξ,t);
步骤5,基于所述效用函数u(ξ,t)和所述代价函数j(ξ,t),采用自适应动态规划方法,构建弹簧质量阻尼器系统的鲁棒跟踪控制器
进一步地,所述状态变量x(t)为
x(t)=[x1(t),x2(t)]t=[p(t),v(t)]t
其中x1(t)为第一分量,x2(t)为第二分量,p(t)为物块位置,v(t)为物块速度。
进一步地,步骤2中所构建的所述被控模型,其式表示为
其中,u(t)为外加控制力。
进一步地,步骤3中所述“增广向量ξ(t)的动态方程”为:
其中,f(ξ(t))是系统矩阵,g(ξ(t))是控制矩阵,△f(ξ(t))是干扰矩阵;
且
△f(x(t))为弹簧质量阻尼器系统受到的外部干扰,||△f(x(t))||≤λf(x)。
进一步地,步骤4中所述效用函数u(ξ,t)为
u(ξ,u)=ξt(t)qξ(t)+ut(t)ru(t)
其中,
进一步地,步骤4中所述代价函数j(ξ,t)为
其中,
进一步地,步骤5中构建的所述弹簧质量阻尼器系统的鲁棒跟踪控制器
其中,gt(ξ)为矩阵g(ξ(t))的转置,
本发明具有以下有益效果:
(1)本发明通过采用自适应动态规划方法,设计了弹簧质量阻尼器系统对期望轨迹的鲁棒跟踪控制器,在存在干扰和不确定性的条件下对弹簧质量阻尼器系统进行自适应鲁棒控制,使跟踪误差趋于零,从而实现弹簧质量阻尼器系统对期望轨迹的鲁棒跟踪控制。
(2)本发明通过设计弹簧质量阻尼器跟踪误差系统的效用函数、代价函数,构建评价神经网络并根据代价函数调节评价神经网络权值,对弹簧质量阻尼器系统受到的干扰具有自适应学习能力,是一种具有学习能力的鲁棒跟踪控制方法。
附图说明
图1是弹簧质量阻尼器系统结构示意图;
图2是弹簧质量阻尼器系统鲁棒跟踪控制算法结构示意图;
图3是鲁棒跟踪控制系统评价网络权值向量
图4是鲁棒跟踪控制系统增广向量的曲线图;
图5是鲁棒跟踪控制系统控制输入
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明讨论了包含弹簧、质量模块组成的弹簧质量阻尼器系统,在含有外加干扰和不确定性情况下,根据参考系统的期望轨迹,利用自适应动态规划方法设计鲁棒跟踪控制器,使弹簧质量阻尼器系统能够很好的跟踪期望轨迹。
本发明提出的一种弹簧质量阻尼器系统的鲁棒跟踪控制方法,应用于弹簧阻尼器系统,根据弹簧质量阻尼器系统的鲁棒跟踪控制器进行跟踪控制;
所述的弹簧质量阻尼器系统的鲁棒跟踪控制器,其构建方法包括:
步骤1,获取弹簧质量阻尼器系统的物块质量m、弹簧的刚性系数k、系统的阻尼c、物块位置p(t)、物块速度v(t);
步骤2,确定弹簧质量阻尼器系统跟踪控制的状态变量x(t),建立被控模型;
步骤3,根据期望的跟踪轨迹r(t),计算弹簧质量阻尼器系统的跟踪误差z(t)和增广向量ξ(t),建立增广向量ξ(t)的动态方程;
步骤4,基于步骤3所建立的增广向量ξ(t)的动态方程构建效用函数u(ξ,t)和代价函数j(ξ,t);
步骤5,基于所述效用函数u(ξ,t)和所述代价函数j(ξ,t),采用自适应动态规划方法,构建弹簧质量阻尼器系统的鲁棒跟踪控制器
本发明提出的控制方法是在含有外加干扰和不确定性情况下,根据参考系统的期望轨迹,采用自适应动态规划方法设计弹簧质量阻尼器系统的鲁棒跟踪控制器,使弹簧质量阻尼器系统能够很好的跟踪期望轨迹,是符合非线性系统控制技术的应用需求和发展趋势的。
下面通过对本发明中弹簧质量阻尼器系统的鲁棒跟踪控制器的构建方法进行逐步详细说明。
步骤1,通过测量的方式获取弹簧质量阻尼器系统的物块质量m、弹簧的刚性系数k、系统的阻尼c、物块位置p(t)、物块速度v(t)。如图1所示为弹簧质量阻尼器系统结构示意图。
步骤2,确定弹簧质量阻尼器系统跟踪控制的状态变量x(t),建立被控模型。
弹簧质量阻尼器系统跟踪控制的状态变量为物块位置p(t),物块速度v(t),因此构成的被跟踪系统的状态变量x(t)如式(1)所示:
x(t)=[x1(t),x2(t)]t=[p(t),v(t)]t(1)
根据牛顿第二运动定律,建立的弹簧质量阻尼器系统被控模型如式(2)、式(3)所示:
其中f(t)是外加控制力,定义为u(t)。应用定义的状态变量x(t),弹簧质量阻尼器系统的被控模型可以表示为式(4)、式(5):
步骤3,根据期望的跟踪轨迹r(t),计算弹簧质量阻尼器系统的跟踪误差z(t)和增广向量ξ(t),建立增广向量ξ(t)的动态方程。具体步骤如下:
步骤31,对弹簧质量阻尼器系统,期望的跟踪轨迹r(t)满足式(6)所示微分方程:
其中,
步骤32,定义弹簧质量阻尼器系统的跟踪误差z(t)如式(7)所示:
z(t)=x(t)-r(t)(7)
步骤33,结合式(4)、(5)、(6)和(7),在存在一定的外部干扰和不确定项情况下,跟踪误差z(t)满足式(8)所示动态方程:
其中
由于x(t)=z(t)+r(t),定义增广向量ξ(t)=[zt(t),rt(t)]t,基于(6)和(8),可得增广向量ξ(t)满足式(9)所示微分方程:
其中,f(ξ(t))是系统矩阵,g(ξ(t))是控制矩阵,△f(ξ(t))是干扰矩阵,分别如式(10)、式(11)、式(12)所示。
并且增广向量ξ(t)的微分方程中不确定量△f(ξ(t))有上界,定义为λf(ξ),得到式(13),
步骤4,基于步骤3所建立的增广向量ξ(t)的动态方程构建效用函数u(ξ,t)和代价函数j(ξ,t)。
增广向量ξ(t)动态方程的标称系统如式(14)所示
对标称系统(14)设计效用函数u(ξ,u)如式(15)所示:
u(ξ,u)=ξt(t)qξ(t)+ut(t)ru(t)(15)
式中
用式(15)的效用函数进一步构成代价函数,表示式(16):
其中,j(ξ(t))表示增广系统t时刻的代价函数,
步骤5,基于所述效用函数u(ξ,t)和所述代价函数j(ξ,t),采用自适应动态规划方法,构建弹簧质量阻尼器系统的鲁棒跟踪控制器
步骤51,依据式(16),最优代价函数表示为式(17):
其中
步骤52,最优控制律u*(t)可以通过解偏微分方程
其中
步骤53,由于最优代价函数j*(ξ(t))及其梯度
设计的评价神经网络包含n个输入层神经元,l个隐层神经元,1个输出层神经元,评价神经网络学习率为αc,αc>0,激励函数为σc(ξ),
式中,εc(ξ)是神经网络的重构误差。根据式(19),最优代价函数j*(ξ(t))的梯度表示为式(20):
由于理想权值wc未知,定义估计的隐层到输出层的权值矩阵为
其中,
基于式(18),(19)和(20),使用理想权值矩阵wc,最优控制律u*(t)可表示为式(23):
基于式(18),(21)和(22),使用估计权值矩阵
步骤54,评价神经网络获得j*(ξ(t))的近似值
步骤541,定义评价神经网络权值训练的目标函数ec(t)。根据最优控制理论,可得式(25):
令
进一步得到式(27):
其中:
a(ξ)≥0,b(ξ)≥0,εch定义了理想权值矩阵wc下评价神经网络的重构误差。使用估计的权值矩阵
定义评价神经网络的误差为
由于
定义评价神经网络的权值训练的目标函数
步骤542,通过最小化目标函数ec(t),权值
其中αc>0是评价神经网络的学习率,αs>0是附加项调节系数。
将无外加干扰和不确定下的标称系统(如式(14)所示)、设计的近似最优控制器
为了使本领域人员更好地理解本发明,下面结合具体实施例,对本发明的弹簧质量阻尼器系统的鲁棒跟踪控制方法进行详细说明。
根据步骤1,测量弹簧质量阻尼器系统的参数,弹簧质量阻尼器系统的物块质量m=1kg,弹簧的刚性系数k=3n/m,系统的阻尼c=0.5ns/m,物块初始位置p(0)=0.5m,物块初始速度v(0)=0.5m/s。
根据步骤2,弹簧质量阻尼器系统跟踪控制的状态变量为物块位置p(t),物块速度v(t),构成的跟踪控制状态变量为x(t)=[x1(t),x2(t)]t=[p(t),v(t)]t,x1(t)为第一分量,x2(t)为第二分量。通过这样定义的状态变量x(t),弹簧质量阻尼器系统的被控模型可以表示为式(31)、式(32):
根据步骤3,得到弹簧质量阻尼器系统的跟踪误差z(t)和增广向量ξ(t)。弹簧质量阻尼器系统期望的跟踪轨迹r(t)满足式(33):
定义弹簧质量阻尼器系统的跟踪误差为z(t)=x(t)-r(t)。考虑一定的不确定项,并引入增广向量ξ(t)=[zt(t),rt(t)]t,由此建立增广向量ξ(t)的动态方程表示为式(34):
△f(ξ)是增广系统受到的外界未知干扰。设定弹簧质量阻尼器系统的初始状态为x(0)=[-0.5,1.5]t,弹簧质量阻尼器系统期望跟踪的初始状态为r(0)=[0.5,0.5]t,因此,增广系统的初始状态ξ(0)=[-1,1,0.5,0.5]t。
增广系统的第一个状态分量ξ1(t)的初始值为ξ1(0)=-1,第二个状态分量ξ2(t)的初始值为ξ2(0)=1,调节ξ1(t)和ξ2(t)至0,则实现弹簧质量阻尼器系统对期望位置和速度跟踪的目标。
步骤4中,基于增广向量ξ(t)的动态方程(34),设计效用函数u(ξ,t)和代价函数j(ξ,t)。进一步包括如下步骤:
增广向量ξ(t)动态方程(34)的标称系统表示为式(35)
设计效用函数为式(36):
u(ξ,u)=ξt(t)qξ(t)+ut(t)u(t)(36)
其中q是4×4的单位矩阵,r=1,进一步构成代价函数为式(37):
根据步骤5,设计基于自适应动态规划方法的弹簧质量阻尼器系统鲁棒跟踪控制器。给定评价神经网络输入层神经元数目为n=4,隐藏层神经元数目l=10,输出层神经元数目为1,学习率αc=1.2和附加项调节系数αs=0.01,激活函数选为
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。