翼伞运动PID自适应控制方法

文档序号:34121861发布日期:2023-05-11 05:03阅读:356来源:国知局

本发明属于翼伞运动控制的,具体涉及一种利用深度强化学习辅助的翼伞运动pid自适应控制方法。


背景技术:

1、如何实现翼伞系统精确、稳定的运动控制是一个技术难点,其原因在于:首先,翼伞系统是一个复杂的欠驱动系统,具有强耦合、非线性、大时滞、不确定性和非线性扰动等特点,并受多约束综合影响;其次,翼伞的主要操作方式是下拉左右后缘以实现转向,同直升机、四旋翼和固定翼无人机相比,其独有的冲压结构气动外形和伞绳操纵结构决定了其操纵性能有限,机动性能较差,受外界环境干扰明显。

2、pid控制器是最早出现的控制器类型,在工业过程控制中有着广泛的应用,也是目前翼伞运动控制中主要使用的控制器。pid控制器作为一种非基于模型控制方式的控制器,具有结构简单,调整方便的优点,具体表现在以下四个方面:一、pid算法蕴含了动态控制过程中过去、现在、将来的主要信息,而且其配置几乎最优;二、pid控制适应性好,有较强的鲁棒性,对各种工业应用场合,都可在不同的程度上应用;三、pid算法简单明了,各个控制参数较为独立,参数的选定较为简单,形成了完整的设计和参数调整方法,很容易为工程技术人员所掌握;四、pid控制根据不同要求,针对自身的缺陷进行了不少改进,形成了一系列改进的pid算法。然而,pid控制仅适用于较为简单的应用,无法对复杂、大惯性、大滞后的对象进行控制,它的缺点主要表现在以下三个方面:一、pid控制初始误差可能很大,容易引起超调,所以pid控制产生误差的方法不合理;二、误差的微分信号无法太好的产生;三、误差积分反馈的引入存在副作用。现有翼伞运动pid控制方法主要基于翼伞气动力模型,利用模拟和真实实验数据来确定pid控制参数。然而,翼伞系统是一个具有大时滞特性的复杂的非线性控制系统,在飞行过程中容易受外界不确定因素的影响而呈现出非线性特性和耦合性。在实际情况下,任何一个小的外力扰动都可能改变翼伞的气动力外形。仅凭仿真模型、有限次真实或者模拟实验数据无法精确而完整的描述翼伞运动的实际轨迹。

3、强化学习方法起源于动物心理学的相关原理,表现为模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累积期望汇报的方法。其次,强化学习是实现通用型人工智能(可处理多种不同任务和适应各种情况)的重要途径,该方法被广泛应用于训练各种无人装备(如无人机,无人车,机器人等)的控制策略。但是,其在翼伞运动控制方面的研究还非常少。深度神经网络可以直接学习最优策略,而无需遍历系统的所有可能状态,是目前最常使用的强化学习的控制策略模型。深度神经网络可以对没有明确模型的高度非线性现象进行拟合,利用强化学习在真实环境/模拟环境中在线/离线训练深度神经网络得到的控制策略可以有效预测和响应翼伞系统的运动情况。该控制策略的主要缺点在于:首先,强化学习将空白初始模型训练至性能收敛需要大量训练数据和训练时间,且模型越复杂,所需的训练数据和训练时间越多;其次,深度神经网络控制策略缺乏可解释性,这阻碍了其在众多对代价和安全敏感领域的广泛而深入的应用。


技术实现思路

1、本发明的目的在于针对现有技术的不足之处,提供一种翼伞运动pid自适应控制方法,该方法利用深度强化学习方法辅助pid控制策略合成翼伞当前飞行状态下的pid控制参数,完成翼伞系统的运动控制,实现了深度强化学习与pid控制器的优势互补,规避了各自的缺点。

2、为解决上述技术问题,本发明采用如下技术方案:

3、一种翼伞运动pid自适应控制方法,包括如下步骤:

4、步骤1、选择影响翼伞动力学性能的p个关键特征因素构建状态空间s,并将该状态空间划分为多个状态子空间;

5、步骤2、利用深度强化学习方法获得每个状态子空间的有效pid参数;

6、步骤3、选择与翼伞飞行的当前状态最相似的k个状态子空间,利用该k个状态子空间下的有效pid参数合成翼伞当前飞行状态下的pid控制参数,完成翼伞系统的运动控制。

7、进一步地,步骤1中构建状态空间的方法为:

8、选择影响翼伞动力学性能的p个关键特征因素构成状态空间p∈{1,2,3,4,5,6}。

9、进一步地,步骤1中关键特征因素包括但不限于翼伞飞行环境中风场的风向角、风力、载重倍数。

10、进一步地,步骤1中划分状态子空间的方法为:

11、将状态空间s划分为n个状态子空间,构成状态子空间集合

12、将状态空间s的j(j=1,2,3,...p)维取值范围划分为nj个子区间,则状态空间s划分的状态子空间数n=n1*n2*n3*...*np;

13、在每个状态子空间中选择一个状态作为状态子空间内的代表状态。

14、进一步地,步骤2中采用actor-critic深度强化学习方法获得每个状态子空间的有效pid参数。

15、进一步地,步骤2具体包括如下步骤:

16、步骤2.1、假定已知l个状态子空间的代表状态和有效pid参数,令该l个状态子空间集合为g={sig}i=1,2,3,...,l,其中,l≥1,有效pid参数集合为{pidig}i=1,2,3,...,l;

17、步骤2.2、利用actor-critic深度强化学习为集合g中的每个状态子空间训练actor模型和critic模型;

18、步骤2.3、对每个状态子空间进行如下操作:如果状态子空间已经设定了有效的pid参数,则结束步骤2.3;如果状态子空间未设定有效pid参数,则搜索相邻状态子空间,如相邻状态子空间没有设定有效pid参数,则结束步骤2.3;如果状态子空间未设定有效pid参数,而其相邻状态子空间中有至少1个状态子空间已经设定了有效pid参数,此时首先任选一个已经设定有效pid参数的相邻状态子空间,取该相邻状态子空间的actor模型和critic模型作为当前状态子空间的初始actor模型和初始critic模型;然后,在状态子空间内,运用actor-critic强化学习方法训练和模型直到两者均性能收敛;最后,取出的模型参数作为当前状态子空间的有效pid参数;

19、步骤2.4、重复步骤2.3,直到所有状态子空间均已经设定有效pid参数。

20、进一步地,步骤2.2具体方法为:

21、首先,对集合g中的任意状态子空间sig(i=1,2,3,...,l),利用参数pidig(i=1,2,3,...,l)构建pid模型作为actorig模型,使用深度神经网络构建初始criticig模型;其次,固定actorig模型参数不变,在状态子空间sig内,运用actor-critic深度强化学习方法训练criticig模型,直到其性能收敛。

22、进一步地,步骤3中具体实施步骤为:

23、步骤3.1、以ot∈rp表示翼伞飞行过程中的当前状态;

24、步骤3.2、计算当前状态ot与状态子空间之间的相似度

25、

26、步骤3.3、取与当前状态ot最相似的k个状态子空间的有效pid参数构成集合对应的k个相似度构成集合则当前状态ot下的pid控制参数合成结果如下:

27、

28、步骤3.4、在翼伞系统的运动过程中按顺序迭代执行步骤3.1、步骤3.2、步骤3.3,合成翼伞系统当前状态的pid参数,完成翼伞系统的运动控制。

29、进一步地,步骤3.2中相似度的计算公式为:

30、

31、式中,表示向量内积,“||·||”表示取向量的模值,表示状态子空间的代表状态。

32、与现有技术相比,本发明的有益效果为:

33、1)降低了获取多组有效pid参数的人力成本;本发明仅需提供至少一个状态子空间内的有效pid控制参数,便可利用深度强化学习方法获取其他所有状态子空间内的有效pid控制参数;

34、2)实现了对复杂非线性翼伞系统的自适应pid控制;通用pid控制由于采用固定单组参数,无法适应复杂非线性翼伞系统,本发明通过划分状态子空间,将复杂非线性翼伞系统拆分为多个近似线性翼伞系统;

35、3)节省了深度强化学习模型训练的数据和时间;通常,深度强化学习将空白初始模型训练至性能收敛需要大量的训练数据和训练时间,且模型越复杂,所需的训练数据和训练时间越多,而本发明使用简单的pid模型作为actor-critic强化学习中的actor模型,每次训练新状态子空间下的模型时,迁移使用相邻状态子空间的已收敛actor模型和critic模型作为初始,这样可以大大减少对训练数据和训练时间的需求;

36、4)对现有翼伞控制系统的升级要求低,提高性能的同时代价小;本发明的最终控制策略仍然是pid,因此不需要更新现有的pid控制系统硬件,也不需要添加高性能并行计算硬件,仅需要存储多组状态子空间的代表状态和有效pid参数用于计算矢量间相似度以及矢量加权求和。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1