基于强化学习方法的无人水面船最优轨迹跟踪控制方法与流程

文档序号:18187026发布日期:2019-07-17 05:24阅读:955来源:国知局
基于强化学习方法的无人水面船最优轨迹跟踪控制方法与流程

本发明涉及船舶控制工程与船舶自动化航行领域,具体而言,尤其涉及一种基于强化学习方法的无人水面船最优轨迹跟踪控制方法。



背景技术:

目前,在船舶轨迹跟踪控制领域,所设计的控制方法使无人船实现高精度轨迹跟踪是研究的核心内容。它不仅能够使无人水面船安全有效的运行,而且可以增强其鲁棒性,精确稳定地完成既定任务。常见的无人船跟踪控制算法有pid、滑模、神经网络等。

无人水面船轨迹跟踪控制系统是典型的非线性控制系统。对于非线性控制系统优化控制问题的传统解决办法是求解汉密尔顿—雅可比—贝尔曼(hjb)方程。针对hjb方程非线性全微分方程问题,文献(1)中bellman设计了动态规划(dp)优化控制算法,算法中无法克服非线性系统维数增加的问题,其后期文献(2)提出了基于强化学习的最优控制方法,该算法利用神经网络对dp指标函数和控制策略进行逼近,满足最优性原则,从而得到最优控制方法和最优性能指标函数,并避免了高维数的问题。根据已有的方法,文献(3)提出了一种基于迭代的执行器神经网络和评判器神经网络结构的在线自适应算法,该算法能够实现执行器神经网络和评判器神经网络同步的更新。文献(4)针对复杂的工业过程所导致的系统不确定性,通过评判器神经网络和在线策略迭代等方法设计了克服系统不确定性的最优控制方法。为了解决无人水面船轨迹跟踪问题,文献(5)和文献(6)结合反步递推方法和策略迭代方法,提出了基于强化学习的跟踪最优控制算法。

随着上述控制算法从理论逐渐向实际转化,系统的未知动态是必须考虑的重要问题。文献(7)中,利用执行器神经网络、评判器神经网络和辨识器连续性和同步性优势,提出了执行器神经网络-评判器神经网络-辨识器(actor-critic-identifier,简称aci)辨识未知系统动态逼近hjb方程的算法。文献(8)通过积分强化学习技术和增广系统,在系统动态部分未知并且控制输入受限的情况下,提出了连续时间的最优跟踪控制算法。文献(9)基于数据驱动的自适应评判器神经网络框架,利用神经网络对未知系统辨识,提出了一类连续时间不确定非线性系统的鲁棒最优控制方法。文献(10)结合水面无人船的实际应用,在船体质量和惯性参数均未知的情况下,提出了一种自适应模糊跟踪控制算法。

执行器含有死区会严重降低系统的性能、精度,甚至会破坏系统的稳定性。文献(11)引入了径向基神经网络来逼近执行器中的未知死区,并针对含有未知机器臂动态的不确定系统,提出了有效的控制方法同时消除系统振动。文献(12)将未知死区分为输入相关函数和时变有界函数,并将其作为系统不确定性进行处理,该控制方法有效补偿了未知死区对无人水面船的影响。文献(13)结合反步法和自适应动态面技术,解决高超声速飞行器系统,同时保证了被控系统的稳定性和收敛性,在未知死区情况下,利用nussbaum函数处理执行器中未知死区的问题。

基于以上分析,现有方法在解决无人水面船轨迹跟踪问题时,鲜有学者考虑强化学习的先进方法,现有系统缺乏对于环境的适应性和容错性,难以保证其运行的鲁棒性。现有基于强化学习方法所提出的最优控制方法主要解决系统状态已知的非线性系统的最优控制,鲜有学者考虑带有死区或完全未知系统动态等情况下的无人水面船控制问题,从而导致实际控制系统的精确性和鲁棒性降低。

参考文献如下:

文献1:r.e.gbellman,dynamicprogramming,newjerseybyprincetonuniversitypress,1957;

文献2:p.j.werbos,“approximatedynamicprogrammingforreal-timecontrolandneuralmodeling,”inhandbookofintelligentcontrol,d.a.whiteandd.a.sofge,eds.newyork:vannostrandreinhold,1992;

文献3:k.vamvoudakis,d.vrabieandf.lewis,“onlinepolicyiterationbasedalgorithmstosolvethecontinuous-timeinfinitehorizonoptimalcontrolproblem,”proc.ieeesymp.adprl,2009;

文献4:d.wang,d.r.liuandh.l.li,“policyiterationalgorithmforonlinedesignofrobustcontrolforaclassofcontinuous-timenonlinearsystems,”ieeetrans.autom.sci.eng.,vol.11,no.2,pp.627-632,2014;

文献5:g.x.wen,s.s.ge,c.l.p.chen,f.w.tuands.n.wang,“adaptivetrackingcontrolofsurfacevesselusingoptimizedbacksteppingtechnique,”ieeetrans.cybern.,tobepublished;

文献6:z.yin,w.he,c.g.yangandc.y.sun,“controldesignofamarinevesselsystemusingreinforcementlearning,”neurocomputing,vol.311,pp.353-362,2018;

文献7:s.bhasin,r.kamalapurkar,m.johnson,k.vamvoudakis,f.lewisandw.dixon,“anovelactor-ccritic-cidentifierarchitectureforapproximateoptimalcontrolofuncertainnonlinearsystems,”automatica,vol.49,no.1,pp.82-92,2013;

文献8:h.modaresandf.l.lewis,“optimaltrackingcontrolofnonlinearpartially-unknownconstrained-inputsystemsusingintegralreinforcementlearning,”automatica,vol.50,no.7,pp.1780-1792,2014;

文献9:x.yang,d.r.liuandd.wang,“reinforcementlearningforadaptiveoptimalcontrolofunknowncontinuous-timenonlinearsystemswithinputconstraints,”int.j.control,vol.87,no.3,pp.553-566,2014;

文献10:n.wangandm.j.er,“directadaptivefuzzytrackingcontrolofmarinevehiclewithfullyunknownparametricdynamicsanduncertainties,”ieeetrans.contr.syst.technol.,vol.24,no.5,pp.1845-1852,2016;

文献11:w.he,y.c.ouyangandj.hong,“vibrationcontrolofaflexibleroboticmanipulatorinthepresenceofinputdeadzone,”ieeetrans.ind.inform.,vol.13,no.1,pp.48-59,2017;

文献12:n.wang,y.gao,z.sunandz.j.zheng,“nussbaum-basedadaptivefuzzytrackingcontrolofunmannedsurfacevehicleswithfullyunknowndynamicsandcomplexinputnonlinearities,”int.j.fuzzysyst.,vol.20,no.1,pp.259-268,2018;

文献13:b.xu,“robustadaptiveneuralcontrolofflexiblehypersonicflightvehiclewithdead-zoneinputnonlinearity,”nonlineardyn.,vol.80,no.3,pp.1509-1520,2015。



技术实现要素:

根据上述提出现有基于强化学习方法所提出的最优控制方法主要解决系统状态已知的非线性系统的最优控制,没有考虑带有死区或完全未知系统动态等情况下的无人水面船控制问题,从而导致实际控制系统的精确性和鲁棒性降低的技术问题,而提供一种基于强化学习方法的无人水面船最优轨迹跟踪控制方法。本发明主要通过在无人水面船系统中引入死区,能提高轨迹跟踪控制系统的操纵精确性和鲁棒性。

本发明采用的技术手段如下:

基于强化学习方法的无人水面船最优轨迹跟踪控制方法,包括以下步骤:

s1:建立无人水面船系统数学模型m1以及不考虑扰动情况的期望轨迹系统数学模型m2;

定义北东坐标系ox0y0z0和附体坐标系bxyz;北东坐标系ox0y0z0视作惯性坐标系,取地球任一点o为坐标原点,ox0指向正北,oy0指向正东,oz0指向地球球心;附体坐标系bxyz视作非惯性坐标系,当船舶左右对称时,取其中心为坐标原点b,bx轴沿着船舶中线指向船艏方向,by轴垂直指向右舷,bz轴沿xy平面垂直指向下;

无人水面船系统数学模型m1表示为:

其中:

η=[x,y,ψ]t表示北东坐标系下的无人水面船位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;

ν=[u,v,r]t表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;

τ'(u)=[τ(uu),τ(uv),τ(ur)]t表示带有未知非线性的控制输入;

f(η,v)表示系统不确定性,包含了未知的coriolis矩阵、阻尼矩阵和未建模动态;

r(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;

用于产生无人水面船期望轨迹的期望轨迹系统数学模型m2表示为:

其中:

χd=[ηdt,vdt]t,ηd=[xd,yd,ψd]t和νd=[ud,vd,rd]t分别是无人水面船跟踪的期望位置向量及期望速度向量;

s2:建立死区数学模型τ:

τ=βu+h(3)

其中:

u=[uu,uv,ur]t表示系统控制输入,并且|ui|≤δi,i=u,v,r,δi是三个方向力矩的上界;β表示死区的斜率并满足0<βmin<β<βmax,βmin和βmax为根据需要设定的已知参数;参数h=[hu,hv,hr]t满足如下条件:

其中:

bli=[blu,blv,blr]t和bri=[bru,brv,brr]t表示输入非线性的左端点和右端点;

将死区数学模型代入至m1中得到引入死区的无人水面船系统数学模型m1’:

对m1’与m2做差,得到跟踪误差系统e:

其中:

e=[ηet,vet]t,ηe=η-ηd,ve=v-vd,以及ηe=[ηe,x,ηe,y,ηe,ψ]t,ve=[ve,u,ve,v,ve,r]t,f(e)=[vetrt(ψ),(m-1h)t+(m-1f(η,v))t-fdt(ηd,vd)]t,g(e)=[03*3,βm-1]t;m(t)=mt(t)>0表示包含附加质量的惯性矩阵;f(e)和g(e)是含有未知结构的非线性方程;a是严格的huwriz矩阵满足a是一个正的常数,是建模时根据需要自定义的正定矩阵;

s3:建立非线性未知系统的辨识器系统;

构建分别对应f(e)和g(e)的rbfnn逼近器:

其中:输入向量wf、wg分别是f(e)、g(e)神经网络权重,表示基函数,满足:

其中,神经网络节点数为l>1;

在集合范围内,利用f(e)和g(e)的逼近器来逼近未知动态f(e)和g(e):

其中:输入向量是神经网络的逼近误差;分别是g(e)理想的神经网络权重;

将公式(10a)和(10b)代入期望误差系统e后得到:

其中:

构建用于观测未知动态的观测器模型,将无人水面船系统的控制策略输入观测器得到辨识后的状态,观测器模型表示为:

其中:

是观测器状态,分别是wf和wg的估计,是理想逼近误差的估计;

为期望误差系统e设计权重更新率,从而保证所有辨识器的系统状态有界,根据观测误差,通过稳定性分析得到当t→∞时观测误差可以趋近于零,所以当t→∞时趋近于常数;权重更新率表示为:

其中:λf,λg和λε是设计矩阵;umax=[δu,δv,δr]t,p是正定矩阵;

s4:根据辨识后的状态建立用于评判控制策略的最优代价函数:

其中:

q∈r6×6,μ∈r3,k是正的参数,φ∈r3×3满足φ=diag(φ1,φ2,φ3)>0,tanh(·)具有单调奇函数的特性,并且其一阶导数有界;

根据最优代价函数构造hjb方程,并根据hjb方程求出控制策略:

根据得到控制策略如下:

根据前馈神经网络的全局逼近特性,最优代价函数表示成如下形式:

其中:

是代价函数神经网络理想的权重向量,n是神经元的个数,表示神经网络输入向量基函数,是有界神经网络函数逼近误差;

设计最优代价函数的逼近函数如下式所示:

其中:

的估计;

将式(19)代入式(16)得到hjb方程的逼近形式:

为获得最小的值,定义一个bellman误差方程,如下式所示:

其中:

通过使用梯度下降算法,得到最优代价函数神经网络权重更新率如下式所示:

其中:

γc是一个正定矩阵;

引入独立权重获得最优控制策略如下:

其中:

表示期望权重的逼近值;

根据公式(23),最优代价函数的自适应律可以更新为

同样,通过最小化bellman误差,最优控制策略自适应律设计成如下形式:

其中:

通过最优代价函数评判控制策略是否符合公式(23)的要求:

若符合,则将该控制策略输出至无人水面船系统作为最优控制策略;

若不符合,则重新生成控制策略并通过最优代价函数评判重新生成的控制策略是否符合公式(23)的要求,重复上述过程直至得到最优控制策略输出至无人水面船系统。

与现有技术相比,本发明具有以下有益效果:

1、本发明提供的基于强化学习方法的无人水面船最优轨迹跟踪控制方法,考虑到实际无人船系统会存在未知死区和系统状态完全未知的情况,本发明中无人船数学模型引入未知死区和完全未知系统动态参数,具备更强的实际应用价值,能够在存在复杂干扰的情况下,增强系统的鲁棒性、精确性和稳定性。

2、本发明提供的基于强化学习方法的无人水面船最优轨迹跟踪控制方法,将基于强化学习方法的最优控制方法用到无人船的轨迹跟踪问题中,在系统状态未知的情况下,可以实现控制策略和代价函数同时更新,得到被控系统的最优控制策略,改善了以往控制算法的收敛性能,明显提高了无人船系统在未知环境下运行的适应性和可靠性。

综上,应用本发明的技术方案在无人水面船系统中引入死区,能提高轨迹跟踪控制系统的操纵精确性和鲁棒性。因此,本发明的技术方案解决了现有基于强化学习方法所提出的最优控制方法主要解决系统状态已知的非线性系统的最优控制,没有考虑带有死区或完全未知系统动态等情况下的无人水面船控制问题,从而导致实际控制系统的精确性和鲁棒性降低的技术问题。

基于上述理由本发明可在船舶控制工程与船舶自动化航行等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是无人水面船模型及坐标系示意图。

图2是本发明所述无人水面船最优轨迹跟踪控制方法逻辑执行框架图。

图3是在线学习未知系统的辨识误差曲线。

图4是无人水面船的期望和实际轨迹示意图。

图5是期望和实际轨迹在附体坐标系下x轴方向的变化曲线。

图6是期望和实际轨迹在附体坐标系下y轴方向的变化曲线。

图7是附体坐标系下期望和实际艏向角的变化曲线。

图8是期望和实际的纵荡速度曲线。

图9是期望和实际的横荡速度曲线。

图10是期望和实际的艏摇速度曲线。

图11是最优代价函数神经网络权重收敛性示意图。

图12是最优控制策略神经网络权重收敛性示意图。

图13是纵荡速度对应的控制输入曲线。

图14是横荡速度对应的控制输入曲线。

图15艏摇速度对应的控制输入曲线。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

强化学习技术的基本原理是:如果被控系统的某个状态,得到环境“正”的奖赏,即为强化信号,则系统以后的每个动作的趋势便会加强;反之系统产生这个状态的趋势减弱。因此,强化学习的目标是学习一个行为策略,使得系统输出的状态能够获得环境最大的奖赏。在一个标准的强化学习框架结构中,它主要有四个要素,即策略(policy)、奖惩反馈(reward)、代价函数(costfunction)和环境模型(modelofenvironment)。

如图1-2所示,本发明提供了一种基于强化学习方法的无人水面船最优轨迹跟踪控制方法,包括以下步骤:

s1:建立无人水面船系统数学模型m1以及不考虑扰动情况的期望轨迹系统数学模型m2;

定义北东坐标系ox0y0z0和附体坐标系bxyz;北东坐标系ox0y0z0视作惯性坐标系,取地球任一点o为坐标原点,ox0指向正北,oy0指向正东,oz0指向地球球心;附体坐标系bxyz视作非惯性坐标系,当船舶左右对称时,取其中心为坐标原点b,bx轴沿着船舶中线指向船艏方向,by轴垂直指向右舷,bz轴沿xy平面垂直指向下;

无人水面船系统数学模型m1表示为:

其中:

η=[x,y,ψ]t表示北东坐标系下的无人水面船位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;

ν=[u,v,r]t表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;

τ'(u)=[τ(uu),τ(uv),τ(ur)]t表示带有未知非线性的控制输入;

f(η,v)表示系统不确定性,包含了未知的coriolis矩阵、阻尼矩阵和未建模动态;

r(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;

用于产生无人水面船期望轨迹的期望轨迹系统数学模型m2表示为:

其中:

χd=[ηdt,vdt]t,ηd=[xd,yd,ψd]t和νd=[ud,vd,rd]t分别是无人水面船跟踪的期望位置向量及期望速度向量;

s2:建立死区数学模型τ:

τ=βu+h(3)

其中:

u=[uu,uv,ur]t表示系统控制输入,并且|ui|≤δi,i=u,v,r,δi是三个方向力矩的上界;β表示死区的斜率并满足0<βmin<β<βmax,βmin和βmax为根据需要设定的已知参数;参数h=[hu,hv,hr]t满足如下条件:

其中:

bli=[blu,blv,blr]t和bri=[bru,brv,brr]t表示输入非线性的左端点和右端点;

将死区数学模型代入至m1中得到引入死区的无人水面船系统数学模型m1’:

定义期望跟踪误差为:

其中:

e=[ηet,vet]t,ηe=η-ηd,ve=v-vd,以及ηe=[ηe,x,ηe,y,ηe,ψ]t,ve=[ve,u,ve,v,ve,r]t,f(e)=[vetrt(ψ),(m-1h)t+(m-1f(η,v))t-fdt(ηd,vd)]t,g(e)=[03*3,βm-1]t;m(t)=mt(t)>0表示包含附加质量的惯性矩阵;f(e)和g(e)是含有未知结构的非线性方程,因为船在航行过程中的质量m未知,因此f(e)和g(e)未知;

对m1’与m2做差,对公式(6)变形得到跟踪误差系统e:

其中:

a是严格的huwriz矩阵满足a是一个正的常数,是建模时根据需要自定义的正定矩阵;

s3:建立非线性未知系统的辨识器系统;

构建分别对应f(e)和g(e)的rbfnn逼近器:

其中:输入向量wf、wg分别是f(e)、g(e)神经网络权重,表示基函数,满足:

其中,神经网络节点数为l>1;

在集合范围内,利用f(e)和g(e)的逼近器来逼近未知动态f(e)和g(e):

其中:输入向量是神经网络的逼近误差;分别是g(e)理想的神经网络权重;

将公式(10a)和(10b)代入期望误差系统e后得到:

其中:

构建用于观测未知动态的观测器模型,将无人水面船系统的控制策略输入观测器得到辨识后的状态,观测器模型表示为:

其中:

是观测器状态,分别是wf和wg的估计,是理想逼近误差的估计;

为期望误差系统e设计权重更新率,从而保证所有辨识器的系统状态有界,根据观测误差,通过稳定性分析得到当t→∞时观测误差可以趋近于零,所以当t→∞时趋近于常数;权重更新率表示为:

其中:λf,λg和λε是设计矩阵;umax=[δu,δv,δr]t,p是正定矩阵;

s4:根据辨识后的状态建立用于评判控制策略的最优代价函数:

其中:

q∈r6×6,μ∈r3,k是正的参数,φ∈r3×3满足φ=diag(φ1,φ2,φ3)>0,tanh(·)具有单调奇函数的特性,并且其一阶导数有界;

根据最优代价函数构造hjb方程(hamilton-jacobi-bellmanequation,又称哈密顿-雅可比-贝尔曼方程),并根据hjb方程求出控制策略:

根据得到控制策略如下:

根据前馈神经网络的全局逼近特性,最优代价函数表示成如下形式:

其中:

是代价函数神经网络理想的权重向量,n是神经元的个数,表示神经网络输入向量基函数,是有界神经网络函数逼近误差;

设计最优代价函数的逼近函数如下式所示:

其中:

的估计;

将式(19)代入式(16)得到hjb方程的逼近形式:

为获得最小的值,定义一个bellman误差方程,如下式所示:

其中:

通过使用梯度下降算法,得到最优代价函数神经网络权重更新率如下式所示:

其中:

γc是一个正定矩阵;

式(17)所示控制策略不可用在未知梯度的代价方程中,通过引入独立的权重,以便同时调整控制策略神经网络和代价函数神经网络,引入独立权重获得最优控制策略如下:

其中:

表示期望权重的逼近值;

根据公式(23),最优代价函数的自适应律可以更新为

同样,通过最小化bellman误差,最优控制策略自适应律设计成如下形式:

其中:

通过最优代价函数评判控制策略是否符合公式(23)的要求:

若符合,则将该控制策略输出至无人水面船系统作为最优控制策略;

若不符合,则重新生成控制策略并通过最优代价函数评判重新生成的控制策略是否符合公式(23)的要求,重复上述过程直至得到最优控制策略输出至无人水面船系统。

为了说明上述无人水面船最优轨迹跟踪控制方法的有效性和先进性,本实施例以文(14)cybershipii无人水面船进行matlab仿真研究,其相应参数见下表:

表1:cybershipii无人水面船参数

本实施例中,无人水面船初始状态为νd(0)=[1,0,0]t,η(0)=[16.9,8.2,π/4]t,ν(0)=[0,0,0]t

辨识器的更新律参数设置为λf=i6×6和λg=i6×6;死区的输入非线性参数设置为β=1,br=[0.3,0.3,0.3]t,bl=[0.5,0.5,0.5]t;代价函数设置为

代价函数和控制策略的神经网络参数分别设置为γc=0.01i6×6,γa=0.01i6×6,ka=1;并且其初始权重设置为

仿真结果如图3-15所示:

图3显示:完全未知环境下,系统辨识误差收敛到零点的领域内;

图4显示:虚线为期望参考轨迹,实线为无人水面船实际行驶轨迹,经过一定的自适应调整之后,无人船能够跟踪期望参考轨迹,并保持在这条轨迹上行驶;

图5-7显示:x、y、ψ三个自由度期望值和实际值随时间变化的过程,最终,这三个自由度能够跟踪其对应的期望曲线分量;

图8-10显示:u、v、r纵荡速度、横荡速度、艏摇速度三个自由度期望值和实际值随时间变化的过程,最终,这三个自由度速度能够跟踪其对应的期望速度曲线分量;

图11-12显示:ac算法权重的收敛曲线;

图13-15显示:完成无人船跟踪三自由度期望轨迹过程中对应的三自由度控制器随时间变化的过程,体现了显著的跟踪特性。

文献14:skjetne,t.i.fossenandp.v.kokotovic,“adaptivemaneuveringwithexperiments,foramodelshipsinamarinecontrollaboratory,”automatica,vol.41,no.2,pp.289-298,2005。

本发明设计了无人水面船最优轨迹跟踪控制方法,首先要对无人船系统中的未知动态进行辨识。然后将系统的输出带到代价函数中,根据代价函数构造hjb方程并求出控制策略,将所得的控制策略反馈给代价函数,代价函数对控制策略进行评判作出奖赏,最终将评判结果反馈给被控系统,根据评判结果使得被控系统输出下一个状态。经过反复的策略迭代最终得到最优的控制策略。在本文中,所设计的控制策略能够抑制误差和扰动对系统的影响,那么这个控制策略为最优,所以代价函数会根据这个标准来判定所设计的控制策略是否为最优的。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1