一种基于预测学习的自适应动态规划路径跟踪控制方法

文档序号:36933877发布日期:2024-02-02 21:59阅读:27来源:国知局
一种基于预测学习的自适应动态规划路径跟踪控制方法

本发明涉及一种基于预测学习的自适应动态规划路径跟踪控制方法,属于汽车驾驶控制领域。


背景技术:

1、随着时代的进步,车辆自动驾驶技术的发展为交通系统带来了巨大的变革,在提升安全性、出行效率等方面发挥重要作用;车辆路径跟踪控制作为自动驾驶系统的核心技术之一,它的主要目标是通过设计横、纵向控制器来确保车辆能够准确、稳定地沿着规划层生成的期望路径行驶;然而由于车辆系统的强非线性以及紧急避险、高速转弯等复杂路况的干扰,如何同时保证跟踪精度和车辆稳定性仍是该领域的研究热点及难点;因此,目前急需一种能够有效处理车辆非线性问题和适应驾驶环境迅速变化的车辆路径跟踪控制方法。


技术实现思路

1、本发明提出了一种基于预测学习的自适应动态规划路径跟踪控制方法,考虑高速、大曲率工况下车辆非线性特性显著,利用利用自适应动态规划提高车辆非线性问题优化求解能力,引入预测学习框架提高车辆对驾驶环境迅速变化的适应能力,设计基于预测学习的自适应动态规划路径跟踪控制器对车辆进行控制;

2、本发明所述的一种基于预测学习的自适应动态规划路径跟踪控制方法,是采用如下技术方案实现的:

3、本发明提出一种基于预测学习的自适应动态规划路径跟踪控制方法,在一些高速、大曲率工况下,由于车辆系统具有强非线性特性以及道路环境对车辆的影响,车辆有发生侧滑的风险,甚至于车辆失去稳定发生交通事故,因此,本方法利用自适应动态规划提高车辆非线性问题优化求解能力,引入预测学习框架提高车辆对驾驶环境迅速变化的适应能力,设计基于预测学习的自适应动态规划路径跟踪控制器对车辆进行控制;首先,结合魔术公式建立了可表征侧向轮胎力非线性特性的车辆系统模型;然后基于此模型以及车辆路径跟踪控制目标设计对自适应动态规划权重更新规则;最后设计基于预测学习的自适应动态规划路径跟踪控制器来实现对车辆跟踪控制;

4、其特征在于,本方法的具体步骤如下:

5、步骤一、建立车辆非线性动力学模型:

6、假定车辆是一个刚性体,车辆的前轮作为转向轮,本方法通过控制车辆的前轮转角来实现车辆的路径跟踪控制;假定车辆纵向速度恒定,考虑车辆横摆运动、侧向运动,根据牛顿第二定律可得车辆沿y轴和绕z轴受力平衡方程:

7、

8、式中,m为车辆的质量,单位:kg;iz为车辆绕z轴的转动惯量,单位:kg·m2;a为车辆质心到车辆前轴的距离,单位:m;b为车辆质心到车辆后轴的距离,单位:m;fyf为车辆的前轮侧向力,单位:n;fyr为车辆的后轮侧向力,单位:n;vx为车辆质心处的纵向速度,单位:m/s;vy为车辆质心处的侧向速度,单位:m/s;r为车辆的横摆角速度,单位:rad/s;δf为车辆的前轮转角,单位:rad;为车辆的横摆角,单位:rad;考虑车身坐标系与大地坐标系之间的转换关系,有:

9、

10、式中,y是车辆在大地坐标系下的侧向位置;根据hans b.pacejka提出的pacejke轮胎模型即魔术公式,轮胎侧向力能够表示为:

11、fyi=-μdisin(ciarctan(biαi-ei(biαi-arctan(biαi)))),i=f,r           (3)

12、式中,μ是路面附着系数,其值在0~1之间;d代表轮胎能够提供的最大横比向力,c是轮胎的侧向刚度参数,描述了在小幅轮胎侧偏角范围内轮胎侧向力和轮胎侧偏角之间的线性关系,b是非线性轮胎侧向力对轮胎侧偏角响应的形状参数,e是影响轮胎侧向力饱和效应的参数,b、c、d、e这些参数能够通过对轮胎特性曲线进行数学拟合获得;α是轮胎侧偏角,单位:rad;根据几何关系,前、后轮侧偏角表示为:

13、

14、将式(3)、(4)所示的轮胎模型代入式(1),并联立式(2),能够得到连续时域的车辆非线性动力学模型:

15、

16、式中:

17、kf=bf(arctan(vy+ar/vx)-δf)

18、kr=brarctan(vy-br/vx)

19、选择为状态变量,u=δf前轮转角为控制变量,f(x,u)表示为状态量和控制量的函数关系,设置采样时间为t,单位s,t取值为0.02,将连续时域的车辆非线性动力学模型式(5)离散化得到:

20、x(k+1)=f(x(k),u(k))·t+x(k)                    (6)

21、其中,x(k)表示在k时刻的状态量;u(k)表示在k时刻的控制量;

22、步骤二、设计自适应动态规划算法中的权重更新规则:

23、由于bp网络具有较强的非线性拟合能力,自适应动态规划中的评价器和执行器采用其构造:

24、

25、

26、式中,表示执行器对最优控制动作的逼近输出值;是评价器对k时刻最优值函数对状态导数的逼近输出值;ga(·)和gc(·)是sigmoid激活函数;是执行器网络隐藏层到输出层的权重矩阵,是执行器网络输入到隐藏层的权重矩阵,ba1是执行器网络隐藏层的偏置,ba2是执行器网络输出层的偏置;是评价器网络隐藏层到输出层的权重矩阵,是评价器网络输入到隐藏层的权重矩阵,bc1是评价器网络隐藏层的偏置,bc2是评价器网络输出层的偏置;为了使车辆跟踪上参考轨迹、控制动作尽可能小,将回报函数设计为如下形式:

27、

28、式中,q是与状态x(k)维度相关的矩阵,q=diag(0,0,114000,94000),r是与维度相关的矩阵,在本方法中是一维的,因此r=10000;xref(k)是状态参考值,也就是车辆要跟踪的参考轨迹;由于回报函数只与当前系统状态和控制动作相关而与下一时刻状态无关,根据贝尔曼最优原理,最优值函数表示为:

29、v*(x(k))=r(x(k),u*(x(k)))+γeq[v*(x(k+1))]               (10)

30、式中,γ是折扣因子,γ取值为0~1;v*(x(k+1))表示下一时刻最优值函数;eq[·]表示对括号内公式求数学期望;而最优控制动作u*(x(k))则能够通过极小化v*(x(k))得到:

31、

32、公式(11)的含义为求解出一个最优控制动作u*(x(k))使车辆与期望路径之间的偏差和控制动作尽可能小,即最小化状态值函数,故将式(10)中v*(x(k))对u*(x(k))求导并令其为0,即:

33、

34、由此可得,最优控制动作u*(s(k))的具体表达式:

35、

36、而在自适应动态规划算法中,执行器的学习目标为逼近最优控制策略,得到车辆前轮转角控制信号,即极小化如下误差函数:

37、

38、式中,是执行器的输出,ud(x(k))则通过类比式(13)得到:

39、

40、式中,能够通过式(6)和式(8)获取,表示评价器对k+1时刻最优值函数对状态导数的逼近输出值;综上所述,根据梯度下降法原理,得到自适应动态规划算法中的执行器的权重矩阵更新规则:

41、

42、式中,αa是学习步长;为误差函数ea(x(k))对ha(k)的偏导,为误差函数ea(x(k))对wa(k)的偏导,为误差函数ea(x(k))对ba1(k)的偏导,为误差函数ea(x(k))对ba2(k)的偏导,通过式(14)和式(7)求得;

43、随后,令根据式(10)和式(15)得到:

44、

45、将状态为x(k)时的误差定义为:

46、

47、式中,和在实际算法中都通过式(8)计算得到;评价器的学习目标是逼近最优值函数对状态的倒数,通过极小化如下误差函数实现:

48、

49、同样根据梯度下降法,得到自适应动态规划算法中的评价器的权重更新规则:

50、

51、式中,βc是学习步长;为误差函数ec(x(k))对hc(k)的偏导,为误差函数ec(x(k))对wc(k)的偏导,为误差函数ec(x(k))对bc1(k)的偏导,为误差函数ec(x(k))对bc2(k)的偏导,由式(19)和式(8)联立求解得到;

52、步骤三、基于预测学习的自适应动态规划路径跟踪控制器设计

53、基于预测学习的自适应动态规划路径跟踪控制方法在得到自适应动态规划的权重更新规则后,还需要引入预测学习框架;定义预测时域为[k,k+np-1],np为预测时域长度,np取值为10~20,nc为控制时域长度,nc取值为1~5;在预测时域[k,k+np-1]内,式(10)所示的值函数重写为:

54、

55、式中r(x(ξ),u(x(ξ)))与步骤二中近自适应动态规划中的回报函数不同,因为在预测时域内的不同时刻车辆的状态参考值是时变的,即:

56、rξ(x(ξ),u(ξ))=(x(ξ)-xref(ξ))tq(x(ξ)-xref(ξ))+ut(x(ξ))ru(x(ξ))       (22)

57、式中,xref(ξ)为参考序列,由上层规划层给定;式(7)和式(8)所示的执行器、评价器结构在引入预测学习框架后,分别重写为:

58、

59、

60、式中,waξ、baξ1、haξ、baξ2为执行器在预测时域[k,k+np-1]内ξ时刻的权重,其中waξ是执行器网络隐藏层到输出层的权重矩阵,haξ是执行器网络输入到隐藏层的权重矩阵,baξ1是执行器网络隐藏层的偏置,baξ2是执行器网络输出层的偏置;wcξ、bcξ1、hcξ、bcξ2为评价器在预测时域[k,k+np-1]内ξ时刻的权重,其中wcξ是评价器网络隐藏层到输出层的权重矩阵,hcξ是评价器网络输入到隐藏层的权重矩阵,bcξ1是评价器网络隐藏层的偏置,bcξ2是评价器网络输出层的偏置;在预测时域内这些权重都是时变的,要获取这些权重的更新规则,需要极小化如下目标函数:

61、

62、式中:

63、

64、式中,通过式(6)计算得到,为评价器在ξ+1时刻的输出;因此在预测时域[k,k+np-1]内,自适应动态规划算法中的执行器的更新规则为:

65、

66、对于评价器权重更新规则,先求出在ξ时刻的误差:

67、

68、式中,和由式(24)计算得到,通过式(6)获得;而自适应动态规划算法中的评价器的学习目标为极小化如下误差函数:

69、

70、因此,给出自适应动态规划算法中的评价器的权重更新规则:

71、

72、然后根据式(27)和式(30)所示权重更新规则更新自适应动态规划算法中的执行器的权重矩阵和自适应动态规划算法中的评价器的权重矩阵,当满足如式(31)所示的收敛条件后选取执行器输出的最优控制动作序列的前nc个信号作用到车辆系统中,也就是在接下来的nc*t时间段内将前轮转角控制信号逐一作用到车辆系统上,即可实现车辆的路径跟踪控制,使车辆沿着期望路径行驶;

73、

74、式中△wactor是执行器权重收敛阈值,0<△wactor<0.00001;△wcritic是评价器权重收敛阈值,0<△wcritic<0.00001。

75、与现有技术相比,本发明的有益效果为:

76、本发明提出了一种基于预测学习的自适应动态规划路径跟踪控制方法;首先建立了一个考虑轮胎非线性特性的车辆动力学模型,以提高车辆未来状态信息的预测精度;然后将自适应动态规划和预测学习有机结合,根据车辆模型提供的状态信息对预测时域内执行器、评价器的权值进行更新;该方法对系统未来时刻状态的预测提高了车辆在参考控制输入快速变化时的适应性,而自适应动态规划与环境交互试错的特点使其能更好地应对高速工况下系统模型不确定性带来的影响。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1