模糊自适应动态规划方法

文档序号:6310033阅读:493来源:国知局
专利名称:模糊自适应动态规划方法
技术领域
本发明涉及智能控制技术领域,尤其是一种模糊自适应动态规划方法。
背景技术
欠驱动系统是指系统的独立控制变量个数小于系统自由度个数的一类非线性系统,在节约能量、降低造价、减轻重量、增强系统灵活度等方面都较完全驱动系统优越。欠驱动系统结构简单,便于进行整体的动力学分析和试验。同时由于系统的高度非线性、参数摄动、多目标控制要求及控制量受限等原因,欠驱动系统又足够复杂,便于研究和验证各种算法的有效性。传统的欠驱动系统控制方法一般都需要被控系统的数学模型,然后才能设计欠驱动系统的控制器。但被控系统的数学模型往往很难得到,而且不精确,这样得到的控制器控制效果不太令人满意。自适应动态规划自20世纪80年代提出,其基于人工神经网络能以任意精度逼近非线性函数的特性,通过单步计算实现对动态规划的一段时间序列的性能指标函数的估计,有效地解决了动态规划性能指标函数计算维数灾的难题,为高维复杂系统的最优控制提供了一种切实可行的理论和方法。模糊控制不论是在理论研究还是实际应用上都占有了重要的地位。类似于人类的思考和自然语言,模糊控制不需要精确的输入输出关系,而是基于模糊规则,将建立在专家知识的语言性控制策略转变为自动控制策略。它主要包括隶属度函数和模糊规则。隶属度函数将精确变量转换为模糊变量,而典型的模糊规则如下所示如果X为A,y为B,那么z为C,其中,X,y和z是模糊变量,A,B和C是相应的模糊集。大多数情况下,隶属度函数和模糊规则需要专家根据他们过去的经验和知识给出。一旦给出的参数不能够成功的控制,则需要反复的对其进行修正才能达到令人满意的结果。

发明内容
针对欠驱动系统的强复杂性和高非线性的特性,本发明将模糊控制和自适应动态规划两者结合起来,利用模糊控制的结构简单、不需要精确模型的特性,和自适应动态规则的学习特点,从而得到一种能够高效地对欠驱动系统进行智能控制的方法。将本发明方法应用在一阶倒立摆的结果表明其具有很好的控制效果。模糊控制器中的隶属度函数和模糊规则是需要学习的对象。将它们都初始为随机 值后,利用自适应动态规则对它们进行学习,能够迅速地学习出成功的控制器,使对被控对象的控制过程达到令人满意的效果。本发明提出的一种模糊自适应动态规划方法,其特征在于,该方法包括以下步骤步骤1,将模糊控制器作为自适应动态规划方法中的动作模块并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化,得到所述模糊控制器输出的控制变量; 步骤2,采集被控制对象的状态变量;步骤3,将采集得到的所述被控制对象的状态变量和所述模糊控制器输出的控制变量作为所述评价模块的输入,对评价模块进行学习直至其满足学习指标要求;步骤4,在对所述评价模块进行学习的同时,对当前模糊控制器也进行学习,以使所述评价模块和所述当前模糊控制器同时满足学习指标要求;步骤5,重复上述步骤2 4,利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习,使下一个时刻的评价模块和模糊控制器同时满足学习指标要求,直到利用完所有时刻的数据为止;步骤6,将最终获得的模糊控制器的输出控制量输出到被控对象上,对被控对象进行实时控制。本发明中直接利用从欠驱动系统采集到测量信号,不依赖于模型模块。将旋转倒立摆作为该发明的研究对象,如图3所示。旋转倒立摆的控制目标是控制水平臂上施加的力矩,使得联接在水平臂末端的摆杆平衡在垂直位置的最顶端。综上所述,与传统的欠驱动系统控制方法相比,本发明提出的模糊自适应动态规划方法具有以下优点 本发明提出的模糊自适应动态规划方法不依赖于被控对象模型,适用性较广; 模糊控制器参数不再根据专家的经验和知识进行获得,而是由不断的学习最终得到一个能够完全对被控对象控制得了的值。 本发明采用了模糊控制器,并对隶属度函数和模糊规则同时进行学习,控制效果优于其他控制器。


图I是本发明模糊自适应动态规划方法流程图。图2是自适应动态规划方法实现结构图。图3是旋转倒立摆结构图。图4是模糊双曲线模型示意图。图5是三层前向神经网络结构图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。图I是基于模糊自适应动态规划方法的应用流程图。为了方便起见,下文以欠驱动系统的一个典型实例——旋转倒立摆为例进行解释和说明。如图I所示,该方法包括以下几个步骤步骤1,将模糊控制器作为自适应动态规划方法中的动作模块并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化,得到所述模糊控制器输出的控制
变量;图2是自适应动态规划方法实现结构图。在图2中,欠驱动系统可以是实际被控制对象也可以是计算机模拟的数学模型。从欠驱动系统得到的测量数据传递到计算机中的自适应动态规划程序中,进行评价模块和动作模块的学习。为了综合利用模糊控制器结构简单、不需要精确模型的特性,和自适应动态规则的学习特点,本发明将模糊控制器作为自适应动态规划方法的动作模块,并采用模糊双曲线模型作为所述模糊控制器的隶属度函数,模糊双曲线模型如图4所示。该模型用公式表示为

权利要求
1.一种模糊自适应动态规划方法,其特征在于,该方法包括以下步骤 步骤1,将模糊控制器作为自适应动态规划方法中的动作模块,并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化,得到所述模糊控制器输出的控制变量; 步骤2,采集被控制对象的状态变量; 步骤3,将采集得到的所述被控制对象的状态变量和所述模糊控制器输出的控制变量作为所述评价模块的输入,对评价模块进行学习直至其满足学习指标要求; 步骤4,在对所述评价模块进行学习的同时,对当前模糊控制器也进行学习,以使所述评价模块和所述当前模糊控制器同时满足学习指标要求; 步骤5,重复上述步骤2 4,利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习,使下一个时刻的评价模块和模糊控制器同时满足学习指标要求,直到利用完所有时刻的数据为止; 步骤6,将最终获得的模糊控制器的输出控制量输出到被控对象上,对被控对象进行实时控制。
2.根据权利要求I所述的方法,其特征在于,采用模糊双曲线模型作为所述模糊控制器的隶属度函数,所述模糊双曲线模型用公式表示为 其中,tanh(仍表示求取0 A的双曲正切值,μ ijN为隶属度函数Negative计算得到的模糊变量,Uiip为隶属度函数Positive计算得到的模糊变量,i = Ρ··η,η为被控制对象状态变量的个数,Xi为被控制对象的状态变量,是隶属度函数参数。
3.根据权利要求2所述的方法,其特征在于,所述模糊控制器采用如下模糊规则 如果X1SN, X2SN...并且XnS N,那么输出为R1 ; 如果X1SN, X2SN...但XnS P,那么输出为R2 ; 如果X1为J1,X2为J2- · · Xn为jn,那么输出为Rm; 如果X1为P,X2为P...并且Xn为P,那么输出为; 其中,Ji = N或P,m = L··· 2n,Rm是每条模糊规则相应的输出变量。
4.根据权利要求3所述的方法,其特征在于,对每一个模糊规则输出变量Rm,其相应的权重为
5.根据权利要求I所述的方法,其特征在于,所述评价模块采用标准三层前向人工神经网络模型。
6.根据权利要求I所述的方法,其特征在于,所述被控制对象为旋转倒立摆,其状态变量包括4个摆杆的偏移角度Θ (t);摆杆的角速度^00;水平臂的偏移角度β (t)以及水平臂的角速度
7.根据权利要求I所述的方法,其特征在于,所述步骤3进一步包括将被控制对象的状态变量X (t)和模糊控制器输出的控制变量u (t)合并成输入变量X (t)输入到评价模块,评价模块输出性能指标函数J (t),利用J(t)、J(t-l)和评价变量r(t)构造出评价模块学习的误差信号ee(t)和目标函数Ee(t)
8.根据权利要求I所述的方法,其特征在于,所述步骤4进一步为使用梯度下降法或粒子群优化算法,通过调节模糊控制器的隶属函数参数和模糊规则的取值范围,来对模糊控制器进行优化,即使评价模块输出的性能指标函数J(t)为零,最终满足学习指标要求,即目标函数^⑴减小到小于O. 005或学习到100次。
9.根据权利要求8所述的方法,其特征在于,所述目标函数Ea(t)表示为
10.根据权利要求I所述的方法,其特征在于,若最终获得的模糊控制器的控制性能低下或者被控对象参数变化、所优化的模糊控制器的控制性能下降,则重复所述步骤I 5,进行模糊控制器的优化更新。
全文摘要
本发明公开了一种模糊自适应动态规划方法。所述方法包括以下步骤步骤1,对自适应动态规划方法中的动作模块和评价模块的参数进行初始化;步骤2,采集被控制对象的状态变量;步骤3,对评价模块进行学习直至其满足学习指标要求;步骤4,对当前模糊控制器也进行学习,使评价模块和当前模糊控制器同时满足学习指标要求;步骤5,重复步骤2~4,利用下一个时刻的状态变量重复进行学习,直到用完所有数据;步骤6将获得的模糊控制器的输出控制量输出到被控对象上,对被控对象进行实时控制。本发明利用模糊控制的结构简单、不需要精确模型的特性和自适应动态规则的学习特点,从而能够对欠驱动系统进行高效地智能控制。
文档编号G05B13/04GK102645894SQ20121011898
公开日2012年8月22日 申请日期2012年4月20日 优先权日2012年4月20日
发明者朱圆恒, 赵冬斌 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1