一种自动驾驶车辆路径跟踪在线学习模型预测控制方法

文档序号:36892477发布日期:2024-02-02 21:24阅读:26来源:国知局
一种自动驾驶车辆路径跟踪在线学习模型预测控制方法

本发明属于自动驾驶,尤其涉及一种自动驾驶车辆路径跟踪在线学习模型预测控制方法。


背景技术:

1、随着传感、计算机和人工智能的不断发展,自动驾驶已经成为近十年来世界范围内的研究热点之一,跟踪路径的好坏直接影响着自动驾驶的最终效果,对其进行研究具有重要意义。面对自动驾驶车辆路径跟踪这种多输入多输出、快速动态系统,且必须满足关键的安全约束及执行机构约束的控制问题,模型预测控制这一能够在设计阶段系统地考虑未来的动态和系统约束的控制方法成为了合适的选择。但由于车辆控制器的计算量有限,在物理模型的建模过程中普遍采用模型简化的方法,这不可避免地导致模型精度的下降。

2、经研究发现,在各种模型预测控制方法中,非线性模型预测控制在跟踪曲率急剧变化的路径时表现更好。但模型精度越高,对应的计算复杂度越高。因此很多研究选择基于低自由度模型的非线性预测控制器。此类控制器虽然在大部分常规工况下具有较好的跟踪精度,但低自由度车辆模型由于存在相较真实的车辆模型的模型偏差和未建模动态,在大曲率路段高速行驶等工况下会导致预测模型的精度下降。并且在不同路况下由于控制器参数固定,导致控制器的对路况的适应能力较差,使得路径跟踪控制器有较大的跟踪偏差。


技术实现思路

1、本发明的目的在于提供一种自动驾驶车辆路径跟踪在线学习模型预测控制方法,旨在解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、一种自动驾驶车辆路径跟踪在线学习模型预测控制方法,包括以下步骤:

4、步骤一、搭建数据机理混合模型:搭建机理模型和神经网络补偿模型,并结合离线rbf神经网络进行精度补偿;

5、步骤二、在线rbf神经网络及数据集更新:通过事件触发机制对神经网络参数进行更新,通过在线数据集的更新和神经网络的实时训练实现神经网络的在线更新;

6、步骤三、目标函数权值自适应更新:根据道路工况的曲率、速度和路面摩擦系数将工况划分为八种类型,并通过贝叶斯优化分别实现对应工况的最佳权值确定,通过查表法进行最佳目标函数权值的实时更新;

7、步骤四、搭建学习预测控制器:完成路径跟踪非线性预测控制器的设计。进一步的,所述步骤一中,机理混合模型表示为:

8、xk+1=f(xk,uk)+bdd(xk,uk)

9、其中,f(xk,uk)为机理模型预测部分,bdd(xk,uk)为数据驱动的预测模型偏差补偿部分,bd表示偏差补偿的加权系数,bd表示通过径向基神经网络学习得到的预测模型偏差补偿量;

10、所述机理模型预测部分采用三自由度车辆模型,基于三自由度车辆模型,状态量车身坐标系下的纵向加速度和前轮偏角为控制量u=[a,δf];车辆横纵向耦合模型表示为:

11、

12、上式中,fx为在车身坐标系中沿纵向作用在车辆上的总力,m为车辆的总质量,vx和vy分别为车辆横向速度和纵向速度,fyf和fyr分别为前轮和后轮上的横向力,iz为转动惯量,γ为车辆横摆角速度,a和b分别为从质心到前轴和后轴的距离,β为车辆质心侧偏角,cf和cr分别为前轮和后轮的轮胎侧偏刚度,μ为路面摩擦系数,为车辆横摆角,x和y分别为大地坐标系下的横向位移和纵向位移;

13、所述数据驱动的预测模型偏差补偿部分包括:

14、建立离线数据集:采集120000组数据,选取的路径包括曲率、速度和摩擦系数的不同组合;在训练离线rbf神经网络之前,对离线数据集进行归一化处理;

15、训练离线rbf神经网络,离线rbf神经网络具体为:

16、假设神经网络的输入量个数为i,隐含层神经元个数为h,神经网络输出量个数为l,定义网络的输入向量为in=[in1,in2…inh],定义hj为隐含层第j个神经元的输出,由输入层到隐含层的非线性映射关系采用高斯基函数,则hj表示为:

17、

18、其中,cj=[c1 c2…cj]t为第j个隐含层神经元中心向量,xr为神经网络的样本输入,高斯基函数的宽度向量表示为b=[b1,b2…bh],rbf神经网络的输出表示为:

19、y=wh

20、其中,w为隐含层空间到输出层空间的权值。

21、进一步的,所述训练离线rbf神经网络的步骤具体包括:

22、采用k-means聚类方法对中心向量ck进行选取,算法具体包括:

23、初始化:选择k个初始中心点作为簇的中心向量ck,随机选择k个数据点作为初始中心;

24、分配数据点:对于每个数据点,计算其与各个簇中心的距离dk,并将其分配到距离最近的簇;dk公式如下所示:

25、

26、其中,n为样本序号,dr为中心向量ck(n-1)与样本输入向量xr(k)最近距离,h为隐含层神经元个数;

27、更新簇中心:计算每个簇所有数据点的均值并作为新簇的中心,其中β为学习速率,如下所示:

28、

29、重复分配数据点和更新簇中心步骤,直到簇中心达到指定精度或达到预定的迭代次数;

30、输出结果:聚类结束后,每个数据点被分配到一个簇中;

31、通过下式计算出宽度向量:

32、

33、其中,cmax为所选取中心之间的最大距离,h为隐含层神经元个数;

34、通过最小二乘算法推导,连接权值矩阵w表示为:

35、wkj=(xhtxh)-1xhty

36、其中,xh为隐藏层的输出矩阵,输出矩阵的行数为样本数量,列数为隐藏层元素个数;y为输出标签矩阵,输出标签矩阵的行数为输出层元素个数,列数为样本数量。

37、进一步的,所述步骤二中,在线数据集的更新具体为:

38、选取12000组数据作为初始样本;样本更新方式为:若系统实时样本与初始样本某个点接近则替换,否则将其加入初始样本;

39、将经过系统实时更新后的样本保存为下一时刻的初始样本,判断距离采用欧式距离法,距离公式如下:

40、

41、其中,n为样本特征个数,d为实时样本与数据集中第i个样本的差值,d为实时样本与数据集中所有样本的最小距离,α为数据集中两个样本之间的最大距离,η为数据集中样本平均值;

42、当d小于0.5η时,此实时样本替换数据集中距离最小样本;当d处于0.5η和1.5α之间时,加入数据集,反之则筛除此数据。

43、进一步的,所述步骤二中,在线rbf神经网络的更新具体为:

44、当达到事件触发的阈值且训练标志位flag大于20次时,进行在线rbf神经网络的权值训练;

45、触发事件的具体形式如下:

46、

47、其中,e为事件触发值,包括横向位移偏差和横摆角位移偏差;y和ydes分别为车身坐标系下横向位移的反馈值和参考值,和分别为横摆角的反馈值和参考值,τe1和τe2分别为横向位移偏差与横摆角偏差的权重系数,其中τe1=1,τe2=10,emax为事件触发的阈值;当事件触发值e大于emax时,对在线rbf神经网络进行更新。

48、进一步的,所述步骤三中,贝叶斯优化具体为:

49、将整个路径跟踪过程作为一个黑盒函数bb,则函数的输入为待优化的权值构成的向量tau=[τv,τy,τp,τdu1,τdu2,τβ],函数的输出为当前这组权值在整个路径跟踪控制中的表现好坏的量化,用l表示;则贝叶斯优化过程表示为:

50、l=bb(tau)

51、对于要跟踪的路径,初始化一组权值参数,作为贝叶斯优化的初始输入,在实现整个路径跟踪过程后,得到相应的损失函数值l,如果没有到达迭代精度或迭代次数,则通过采集函数确定下一组权值,进行路径跟踪,依此迭代循环,直至满足迭代终止条件,最后得到最佳权值组合;

52、损失函数l的具体形式如下:

53、

54、其中,ly-lyre为横向距离偏差,lx-lxre为纵向距离偏差,l的物理意义为车辆采样点到给定点之间的欧式距离之和。

55、进一步的,所述步骤四的具体步骤包括:

56、设p为控制器的预测时域,c为控制时域,k时刻状态量序列和控制量序列分别为预测时域内的如下所示:

57、

58、将数据机理混合预测模型写成如下形式:

59、x1(k+1)=f1(x(k),u(k))+bn1(x(k),u(k))

60、x2(k+1)=f2(x(k),u(k))+bn2(x(k),u(k))

61、x3(k+1)=f3(x(k),u(k))+bn3(x(k),u(k))

62、x4(k+1)=f4(x(k),u(k))

63、x5(k+1)=f5(x(k),u(k))

64、x6(k+1)=f6(x(k),u(k))

65、x7(k+1)=f7(x(k),u(k))

66、控制目标描述为:要求在满足执行机构和控制量约束的情况下跟踪给定路径,同时保证车辆的平稳性;形式如下:

67、

68、

69、

70、x0=x(k)

71、下式为具体的目标函数:

72、

73、上式中,nc与np分别为控制时域和预测时域,v和vdes分别为纵向速度的反馈值和参考值,x和u分别为状态量和控制量,τv、τy、τu以及τyaw分别表示各部分的权值大小,δu为控制量的变化量,x0为状态量的初始值;

74、约束部分包括执行器约束和安全约束,具体为:

75、δmin≤δ≤δmax

76、atmin≤at≤atmax

77、其中,δ为前轮偏角,at为车身横纵向加速度的大小。

78、与现有技术相比,本发明的有益效果是:

79、1.本发明提出的数据机理混合模型对低自由度车辆机理模型的模型误差进行了补偿,相比于基于高自由度的机理模型具有更高的实时性,同时,相比于基于低自由度的机理模型具有更高的预测精度,在一定程度上降低了预测模型因车身参数导致的预测误差,提升了车辆路径跟踪精度。

80、2.本发明基于在线数据集更新的模型预测控制器可在车辆路径跟踪过程中采集实时数据并进行在线训练,相比于普通的离线神经网络预测模型具有更高的适应性和精度,同时使用贝叶斯优化实现控制器参数在不同路况下的实时切换,进一步提升了控制器的自适应性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1