一种基于半监督学习的自动驾驶商用车编队行驶决策方法与流程

文档序号:37722233发布日期:2024-04-23 11:58阅读:12来源:国知局
一种基于半监督学习的自动驾驶商用车编队行驶决策方法与流程

本发明涉及一种商用车自动驾驶决策方法,尤其是涉及一种基于半监督学习的自动驾驶商用车编队行驶决策方法,属于汽车安全。


背景技术:

1、随着智能驾驶技术的快速发展,商用车迎来了前所未有的发展机遇。智能驾驶为解决商用车的人力成本、交通事故以及长途物流运输等难题,带来了全新的解决方案。智能驾驶主要涉及环境感知、规划决策和操作控制等关键环节。其中,驾驶决策模块将环境感知模块的感知结果、定位结果、预测结果以及环境先验信息作为输入,根据决策方法,规划出合理的车辆驾驶行为,并发送给后续的执行模块。因此,驾驶决策决定了智能驾驶的合理性和有效性,是智能驾驶的重要中枢。

2、在智能驾驶领域,近年来飞速发展的编队行驶肩负着减少能源消耗、提高行车安全性和缓解交通拥堵的重任,也是最有可能在高速公路上率先落地的智能驾驶应用之一。编队行驶的车辆由领航车和跟随车组成。领航车作为编队中最前方的车辆,是整个编队行为的决策者,对编队行为进行管控和决策。跟随车辆作为编队中位于领航车辆之后的所有其他车辆,具有与前方车辆保持合理安全距离的能力。对于跟随车而言,现有的编队行驶决策多关注纵向的驾驶策略,忽略了编队变道过程中车辆的侧倾稳定性问题,难以有效地保障商用车编队行驶的安全性和平顺性。


技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题,为了实现商用车编队行驶特别是编队变道过程中的安全驾驶决策,特别创新地提出了一种基于半监督学习的自动驾驶商用车编队行驶决策方法。该方法不仅考虑了编队变道过程中车辆的侧倾稳定性问题,还综合考虑了车辆碰撞、侧翻、行进一致性等因素对于编队行驶安全性的影响。该方法能够有效保障商用车编队行驶特别是编队变道过程中的安全性,解决了现有的商用车驾驶决策方法在某些工况下安全性差、决策不准确的问题。同时,该方法使用的传感器成本较低,计算方法清晰,计算耗时低,可以实时地提供纵向加速度、侧向加速度等连续决策输出,便于大规模推广。

2、为了实现本发明的上述目的,本发明提供了一种基于半监督学习的自动驾驶商用车编队行驶决策方法。首先,将编队行驶的序贯决策问题转化为马尔科夫决策过程,构建基于半监督学习的商用车编队行驶决策模型,并设计了综合考虑防碰撞、防侧翻、行进一致性、横向距离偏移量和平顺性的奖励函数。其次,为了解决动作空间采用连续控制量导致的模型不易收敛的问题,构建了基于数据聚合的编队行驶决策子网络,通过监督学习的方式,引导该网络学习专家经验。最后,为了探索包含常规、边缘和危险等工况在内的驾驶策略,构建了基于改进软演员评论家的编队行驶决策子网络,通过无监督学习的方式,进一步学习跟随车的编队行驶策略。其中,为了避免因神经网络过拟合导致决策模型性能受限的问题,借鉴集成学习的思想,构建并训练了3个用于策略学习的策略网络。具体包括以下步骤:

3、步骤一:构建基于半监督学习的商用车编队行驶决策模型

4、多辆商用车在高速公路上编队行驶。其中,第一辆车为领航车,后续车辆为跟随车,编队中的各车辆以固定的车间距离同时行进,车车之间通过车联网通信实时交换车辆与周围环境信息。对于跟随车,如何实现安全、有效的编队行驶决策是本发明的研究目标。

5、考虑到跟随车的未来运动状态受到当前动作和当前运动状态的影响,将编队行驶的序贯决策问题建模为马尔可夫决策过程(markov decision process,mdp),并将该过程定义为(s,a,γ,p,r),其中,st∈s={s0,s1,...}表示一组状态空间,其中的参数可通过车载传感器测量获得,r表示奖励函数,p:s×a×s→r表示状态转移概率,γ∈[0,1]表示用于计算累积奖励的折扣因子。mdp的任务是学习最佳的编队行驶策略π*,且该策略能够使累积奖励最大化。为了使跟随车执行安全、有效的编队行驶策略,本发明将监督学习和无监督学习方法相结合,充分发挥两者的优势,构建了一种基于半监督学习的商用车编队行驶驾驶决策模型。该模型由两部分组成。第一部分采用深度神经网络结构,通过监督学习的方式学习编队行驶的专家经验。第二部分利用改进的软演员评论家算法,构建编队行驶决策子网络。通过无监督学习的方式,进一步学习跟随车的编队行驶策略。决策模型的设计细节如下。

6、对马尔科夫决策任务中的状态空间(即决策模型的输入)、动作空间(即决策模型的输出)和奖励函数进行定义。

7、1)定义状态空间

8、引入11维的时间序列信息描述跟随车的运动状态信息和跟随车与领航车的相对运动状态信息,状态空间可描述为:

9、st=[x,y,vlon,vlat,alon,alat,θh,xrel,yrel,vrel,arel]    (1)

10、式中,st表示t时刻的状态空间;。x,y分别表示跟随车的横向位置和纵向位置,vlon,vlat分别表示跟随车的纵向速度和侧向速度,单位为m/s,alon,alat分别表示跟随车的纵向加速度和侧向加速度,单位为m/s2。以上信息可通过北斗系统或高精度差分全球导航卫星系统测量获得。θh表示跟随车的航向角,单位为度,可通过惯性导航系统获得。xrel,yrel,vrel,arel分别表示跟随车与领航车的相对横向位置、相对纵向位置、相对速度和相对加速度。以上信息可通过毫米波雷达测量获得。

11、2)定义动作空间

12、在现有的编队行驶决策方法中,通常将纵向加速度作为输出的驾驶策略。尽管编队行驶过程是以纵向控制为主,但在编队变道、转向等过程中,不能忽略横向控制对于编队行驶决策性能的影响。为了充分覆盖跟随车在编队行驶过程中的驾驶动作,将连续的纵向加速度和侧向加速度作为动作空间中的控制量,基于当前状态所做出的驾驶策略可表示为:

13、at=[alon,alat]    (2)

14、其中,alon和alat分别表示输出的纵向加速度和侧向加速度,单位均为m/s2,取alon=[-3,1.5],alat=[-3,3]。

15、3)定义奖励函数

16、为了评估驾驶策略的优劣,设计了如下式所示的奖励函数。

17、rt=r1+r2+r3+r4    (3)

18、式中,rt表示t时刻的奖励函数,r1,r2,r3,r4,r5分别表示防碰撞奖励函数、防侧翻奖励函数、行进一致性奖励函数、横向偏移量奖励函数和平顺性奖励函数。

19、首先,在编队行驶过程中,跟随车应始终与领航车保持合理的安全间距。同时,还应避免因跟随领航车进行紧急制动而造成后向碰撞。

20、r1(t)=-α1·e-|th(t)-1.5|-α1·e-|rttc(t)-2|    (4)

21、式中,th(t)表示t时刻的车头时距,rttc(t)表示t时刻的后向碰撞时间,单位均为s,α1表示权重系数,取α1=2。

22、在所有商用车交通事故中,侧翻事故的危害程度仅次于碰撞事故,位居第2位。为此,除了避免碰撞事故外,跟随车在编队行驶过程中,特别是在执行编队变道、急转向、紧急制动等驾驶策略时还应避免侧翻。考虑到不同车辆的动力学模型具有差异性,利用动力学参数约束车辆的侧倾稳定性在某些车辆上效果较好,但在其他车辆上效果较差,存在着安全性较差不足。为此,利用侧向加速度这一运动学参数构建防侧翻奖励函数。具体可表示为:

23、

24、式中,表示侧向加速度的阈值,α2表示防侧翻奖励函数的权重系数,取α2=1.5。

25、其次,编队变道作为商用车编队行驶中的重要场景之一,当队列中的领航车开始向相邻车道变道时,跟随车应及时地跟随领航车进行车道变换。为了评价跟随车是否能够及时跟随领航车变道,引入行进一致性奖励函数,可表示为:

26、

27、式中,表示t时刻领航车的侧向加速度,单位为m/s2,α3表示权重系数,取α3=1。

28、此外,当编队变道完成后,跟随车与领航车的横向距离偏移量应尽可能地小,引入横向偏移量奖励函数,可表示为:

29、

30、式中,xleader(t)表示t时刻领航车的横向位置,x(t)表示t时刻跟随车的横向位置,α4表示权重系数,取α4=1。

31、此外,为了提高跟随车的平顺性,应尽可能避免突然加速和急减速。为此,引入平顺性奖励函数,具体可表示为:

32、

33、式中,alon(t+1)表示t+1时刻的纵向加速度;

34、alon(t)表示t时刻的纵向加速度;

35、α5表示权重系数,取α5=0.75。

36、最后,当商用车处于不安全条件下时,应将当前奖励设置为一个大的负常数,以确保安全。因此,当发生碰撞或侧翻事故时,将执行-150的负奖励。

37、步骤二:构建基于数据聚合的编队行驶决策子网络

38、考虑到模仿学习能够减少无监督学习阶段过多的无效探索,同时可以缓解动作空间采用连续控制量导致的网络不易收敛的问题,引入了模仿学习方法。在这类方法中,数据集聚合作为一种更先进的行为克隆方法,其本质也是一种监督学习方法,可以根据从专家经验中主动选择编队行驶策略,并在随后训练过程中更容易匹配到专家驾驶策略,具有较强的模仿学习能力。此外,该方法可以部分解决行为克隆等监督学习方法因复合误差导致决策性能受限的问题。因此,构建了基于数据聚合的编队行驶决策子网络,即通过监督学习的方式指导决策网络学习专家经验。

39、在网络架构方面,该决策子网络由3个全连接层结构的神经网络组成。其中,各全连接层的神经元数量均为128。全连接层的激活函数均为线性整流单元(rectified linearunit,relu)。

40、接下来,从highd数据集中提取跟随车跟随领航车行驶的驾驶数据,并将其作为专家驾驶数据。提取数据的原则如下:

41、1)在一段时间内,目标车辆(即跟随车)前方车辆的id号没有改变,表明目标车辆的前方具有相同的领航车;所述一段时间一般为30、40秒。

42、2)目标车辆与其前方车辆的纵向车间距离小于120m,该设置也用于消除自由流交通状况;

43、3)目标车辆与其前方车辆的横向间距小于2.5m,该设置也用于确保两车处于同一车道内;

44、4)跟车的持续时间大于10s,该设置也用于确保拥有足够的专家驾驶数据。

45、基于上述原则,提出的包含m条轨迹的专家驾驶数据可描述为:

46、

47、式中,d表示专家驾驶数据,即专家经验,tri表示i时刻的专家轨迹,每个时刻对应一条轨迹;每帧专家轨迹可描述为tri{s1,a1,s2,a2,...,si,ai}。提取的专家驾驶数据共6000条,其中80%的数据用于决策子网络的训练(即策略更新),剩余20%的数据用于整个决策模型的性能验证。

48、专家经验d会在每个时间步i连续地聚合新的数据集di,具体的策略更新过程如下:

49、步骤1:初始化d←φ;

50、步骤2:初始化策略;

51、步骤3:进行n个时间步长的循环,每一次循环包括子步骤3.1至子步骤3.5,具体地:

52、子步骤3.1:利用下式更新策略

53、

54、式中,π*表示专家策略,βi表示第i次迭代时对策略软更新的参数,πi表示第i时刻的策略;

55、子步骤3.2:利用πi对专家轨迹进行采样;

56、子步骤3.3:输出由πi访问的策略和专家给出的动作组成的数据集di={(s,π*(s))};

57、子步骤3.4:聚合数据集:d←d∪di;

58、子步骤3.5:在d上训练编队行驶策略

59、步骤4:返回策略

60、步骤三:构建基于改进软演员评论家的编队行驶决策子网络

61、接下来,为了探索包含常规、边缘和危险等工况在内的驾驶策略,采用无监督学习的方法,进一步学习跟随车的编队行驶策略。考虑到基于最大熵思想的软演员评论家(softactor-critic,sac)算法,采用随机分布式策略函数,通过策略优化的方式获取更高的累计收益和最大化策略的熵。软演员评论家算法在处理连续动作空间的决策问题时,可以有效地避免采样效率低、对超参数敏感等因素对决策性能的影响。因此,利用软演员评论家算法构建编队行驶决策子网络。

62、构建的决策子网络由策略网络和评价网络两部分组成。其中,策略网络用于对状态空间信息的特征提取,并对特征向量进行回归,从而输出连续的编队行驶策略at;价值网络用于接收状态空间信息和编队行驶策略,进而评估当前“状态-动作”的价值。具体地:

63、(1)设计策略网络

64、利用多个全连接层结构的神经网络建立策略网络。首先,将归一化后的状态量st依次与全连接层f1、全连接层f2和全连接层f3连接。最后,得到输出o1,即编队行驶策略at。

65、考虑到状态空间的维度为11,设置状态输入层的神经元数量为11。设置f1、f2和f3层的神经元数量均为128。全连接层f1、f2和f3的激活函数均为线性整流单元(rectifiedlinear unit,relu)。

66、(2)设计价值网络

67、利用多个全连接层结构的神经网络建立价值网络。首先,将归一化后的状态量st输入到全连接层s1中;同时,将编队行驶策略at输入到全连接层s2中。其次,通过张量相加的方式将两者进行合并。最后,依次通过全连接层s3、全连接层s4后得到输出o2,即q函数值q(s,a)。设置s1层和s2层的神经元数量为64,其余全连接层的神经元数量均为128,各层的激活函数均为relu。

68、考虑到深度强化学习的本质是不断的试错,它在每个时间步骤输出的驾驶策略本质上是次优解。另一方面,集成学习可以突破单个神经网络容易导致过拟合的局限,为了进一步提高决策模型的性能,故借鉴集成学习的思想对决策子网络进行改进。具体地,分别训练三个策略网络。然后,对各策略网络的预测结果求平均,并以此更新值函数。在基于改进软演员评论家的编队行驶决策子网络中,具体的策略更新过程如下:

69、步骤1:初始化网络中的动作选择网络和目标网络。

70、步骤2:初始化动作选择网络的权重θ1和目标网络的权重θ2,并使其相等。

71、步骤3:初始化经验回放池d。

72、步骤4:进行m次迭代求解,每一次迭代包括步骤4.1至4.2,具体地:

73、步骤4.1:进行n次迭代求解,每一次迭代包括步骤4.1.1至4.1.3,具体地:

74、步骤4.1.1:在策略中,对动作进行采样。

75、at~πφ(at|st)    (11)

76、其中,at表示t时刻的编队行驶策略;

77、πφ(at|st)表示策略函数;

78、步骤4.1.2:在环境中,对状态转移进行采样。

79、st+1~p(st+1|st,at)    (12)

80、其中p(st+1|st,at)表示状态转移矩阵;

81、st+1表示t+1时刻的状态空间,st表示t时刻的状态空间;

82、步骤4.1.3:将状态转移储存到经验回放池d中。

83、d~d∪{st,at,r(st,at),st+1}    (13)

84、其中,r(st,at)表示根据t时刻状态空间和动作空间计算得出的奖励值;

85、步骤4.2:进行l次迭代求解,每一次迭代包括步骤4.2.1至4.2.4,具体地:

86、步骤4.2.1:利用下式更新q函数的参数。

87、

88、式中,jq(θi)表示q值的目标函数,λq表示q函数更新的学习率;

89、表示软q值函数的梯度;

90、θi表示目标函数的参数。

91、步骤4.2.2:利用下式更新策略权重。

92、

93、式中,jπ(φ)表示策略参数的目标函数,表示策略函数的梯度,←为赋值。

94、步骤4.2.3:利用下式更新温度参数。

95、

96、式中,j(α)表示温度参数的目标函数,λ表示温度参数更新的学习率;

97、表示温度参数的目标函数的梯度;

98、步骤4.2.4:利用下式更新目标网络的权重。

99、

100、其中,表示当前的网络参数;

101、qi表示下一步更新后的网络参数;

102、τ表示需手动调整的超参数;

103、步骤5:输出参数θ1,θ2和φ。

104、综上所述,由于采用了上述技术方案,相比于一般的驾驶决策方法,本发明提出的决策方法具有更为安全、可靠的特点,具体体现在:

105、(1)本发明提出的方法综合考虑了车辆碰撞、侧翻、行进一致性等因素对于编队行驶安全性的影响,解决了现有的商用车驾驶决策方法在编队变道等工况下安全性差、决策不准确的问题。

106、(2)本发明提出的方法考虑到了编队变道过程中车辆的侧倾稳定性,能够进一步保障商用车在编队行驶过程中的安全性和平顺性。

107、(3)本发明的决策方法使用的传感器成本较低,计算方法清晰,计算耗时低,可以实时地提供纵向加速度、侧向加速度等连续决策输出,便于大规模推广。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1