一种自动驾驶变道速度控制方法、计算机设备及存储介质

文档序号：32387344发布日期：2022-11-30 06:46阅读：42来源：国知局

1.本发明涉及自动驾驶领域，尤其涉及一种自动驾驶变道速度控制方法、计算机设备及存储介质。

背景技术：

2.变道行为是一种常见的驾驶行为。变道操作对驾驶员来说是复杂和具有挑战性的，因为变道车辆需要与其他车辆交互，并且他在操纵时需要同时完成横向和纵向运动。驾驶员一旦在执行变道过程中出现错误，就会导致严重的交通事故，对交通流的安全和稳定产生很大的影响。
3.传统的变道模型包括数值变道模型和基于监督学习的变道模型。然而传统的数值变道模型是使用一定数量的参数来表达变道行为，但这些参数难以全面覆盖驾驶风格的多样性和驾驶场景的复杂性，因此数值变道模型不适合复杂环境。其次，基于监督学习的变道模型缺乏区分好行为和坏行为的能力，只能通过监督学习尽可能完美地模仿人类行为。

技术实现要素：

4.有鉴于此，本发明提供了一种自动驾驶变道速度控制方法、计算机设备及存储介质，以使得自动驾驶车辆能够在周围车辆之间安全且高效地完成变道，以提高道路驾驶安全性和驾驶效率。
5.为达到上述目的，本发明的技术方案是这样实现的：
6.第一方面，本发明提供了一种自动驾驶变道速度控制方法，所述方法包括：
7.获取变道车辆当前的驾驶信息数据，其中，所述驾驶信息数据包括位置信息及速度信息，所述变道车辆为自动驾驶车辆；
8.基于所述位置信息确定所述变道车辆在原车道以及目标车道的周围车辆驾驶信息数据，其中，所述周围车辆包括所述变道车辆原车道前车、目标车道的前后车；
9.基于所述变道车辆当前的驾驶信息数据、所述周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
10.其中，所述获取变道车辆当前的驾驶信息数据，包括：
11.通过目标区域的路段上的摄像头及路段检测器采集车辆驾驶信息数据，包括位置信息及速度信息，将所述驾驶信息数据通过路侧通信单元传输给所述变道车辆。
12.其中，所述基于所述位置信息确定所述变道车辆在原车道以及目标车道的周围车辆的驾驶信息数据，包括：
13.基于所述变道车辆的位置信息确定所述变道车辆的车道位置数据；
14.基于所述车道位置数据以及自动驾驶车辆的变道意图确定变道的原车道及目标车道，并确定变道过程的起点；
15.获取起点时刻下当前车道的前车及目标车道前后车的驾驶信息数据，构建自动驾驶车辆的变道仿真环境。
16.其中，所述构建自动驾驶车辆的变道仿真环境，包括：
17.确定深度强化学习模型中的智能体为自动驾驶车辆，动作空间为自动驾驶车辆的加速度的值和方向角[av，ad]，状态空间为变道车辆与周围车辆之间相对纵向速度以及纵向距离、变道车辆横向速度以及变道车辆横向移动距离[δv
y_lcs
，δv
y_lts
，δv
y_fts
，δy
lcs
，δy
lts
，δy
fts
，v
x_s
，x
s-xo]，所述状态根据运动学原理进行更新，公式为：
[0018]vx_s
(t+1)＝v
x_s
(t)+av(t)*sin ad(t)*δt
[0019]vy_s
(t+1)＝v
y_s
(t)+av(t)*cos ad(t)*δt
[0020][0021][0022]
其中，s，lc，lt，ft分别代表自动驾驶车辆、原车道的前车、目前车道的前车以及目标车道的后车，δt为测量时间步长。
[0023]
其中，所述深度强化学习模型的网络结构包括策略网络，两个值函数网络以及两个q函数网络。
[0024]
其中，还包括：
[0025]
设计奖励函数引导自动驾驶车辆在变道过程中在给定的横向范围内完成加减速运动，并在变道完成时其横向速度小于给定范围。其中，所述给定的横向范围根据车道中心线确定，给定的最终横向速度根据直线行驶要求以及道路限速确定，奖励函数通过对变道过程中不同阶段的横向移动位置及横向速度或横向加速设计相应的奖励值。
[0026]
其中，将所述基于所述变道车辆当前的驾驶信息数据、所述周围车辆的驾驶信息数据输入训练好的深度强化学习模型之前，还包括：
[0027]
将所述变道车辆以及周围车辆的驾驶信息数据输入初始深度强化学习模型进行训练，更新各网络参数；
[0028]
对所述深度强化学习模型进行迭代更新，直至设置的奖励函数满足收敛条件，获得训练好的深度强化学习模型。
[0029]
其中，所述基于所述目标车辆当前的驾驶信息数据、所述基于所述变道车辆当前的驾驶信息数据以及周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角，包括：
[0030]
基于所述变道车辆以及周围车辆的驾驶信息数据确定当前目标状态；
[0031]
基于所述目标状态输入所述训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
[0032]
第二方面，本发明提供了一种计算机设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；
[0033]
其中，所述处理器用于运行所述计算机程序时，实现执行实现上述任意所述的自动驾驶变道速度控制方法。
[0034]
第三方面，本发明提供了一种计算存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行实现上述任意所述的自动驾驶变道速度控制方法。
[0035]
本发明实施例提供的自动驾驶变道速度控制方法、计算机设备及存储介质，包括：
以变道车辆原车道前车、目标车道的前后车作为自动驾驶车辆变道过程的周围车辆，通过获取位置信息及速度信息构建自动变道驾驶环境；基于深度强化学习算法确定动作空间为加速度的值以及方向角，且状态空间为变道车辆与周围车辆之间相对纵向速度以及纵向距离、变道车辆横向速度以及变道车辆横向移动距离；通过设计强化学习算法中的奖励函数来引导自动驾驶车辆完成变道过程中横向运动的加减速过程，且引入避撞策略确保自动驾驶车辆在纵向运动中不会与周围车辆发生碰撞；将自动驾驶车辆当前的驾驶信息数据以及周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出变道过程中的加速度的值以及相应的方向角，从而控制自动驾驶车辆的变道速度。如此，在未来车联网的混合交通流情况下，自动驾驶车辆能够充分感知混合交通流中的周围车辆驾驶状态，从而能够提高变道效率，从而提高道路出行效率以及安全性道；本发明方法设计简单，易于计算；基于深度强化学习的自动驾驶车辆的变道模型，能够克服已有变道模型的缺陷，能够提高自动驾驶车辆的变道效率，并且有效提高道路交通的出行效率。
附图说明
[0036]
图1为本发明实施例提供的一种自动驾驶变道速度控制方法的流程示意图；
[0037]
图2为本发明实施例提供的另一种自动驾驶变道速度控制方法的流程示意图；
[0038]
图3为本发明实施例提供的深度强化学习模型的网络结构示意图；
[0039]
图4为本发明实施例提供的一种自动驾驶变道速度控制装置的结构示意图；
[0040]
图5为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0041]
下面结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0042]
随着人工智能的不断迭代更新，目前应用强化学习方法来研究自动驾驶的控制策略已经成为一个新的热点。与基于监督学习的控制策略相比，强化学习能够使得智能体与环境间交互进行试错学习，以最大化奖励为目标。自动驾驶车辆驾驶过程与强化学习中马尔科夫过程类似，自动驾驶车辆观察周围车辆环境做出决策，并执行该策略，从而更新环境。因此，基于大量的自然驾驶数据，应用深度强化学习方法对自动驾驶车辆的变道行为控制有一定的参考价值。
[0043]
请参见图1，为本发明实施例提供的一种自动驾驶变道速度控制方法，该方法可以适用于任何装有自动驾驶的车辆终端。该方法可以由计算机设备执行，该计算机设备可以是终端或者服务器等，终端可以具体是台式电脑、笔记本电脑、智能手机、个人数字助理或者平板电脑等终端；服务器可以是单个的服务器设备或者服务器集群等。该自动驾驶变道速度控制方法包括以下步骤：
[0044]
步骤101：获取变道车辆当前的驾驶信息数据，其中，所述驾驶信息数据包括位置信息及速度信息，所述变道车辆为自动驾驶车辆。；
[0045]
在一实施方式中，所述获取目标车辆当前的驾驶信息数据，包括：
[0046]
通过目标区域的路段上的摄像头及路段检测器采集车辆驾驶信息数据，包括位置及速度信息，将所述驾驶信息数据通过路侧通信单元传输给所述变道车辆。
[0047]
基于所述位置信息确定所述变道车辆的周围车辆驾驶信息数据，其中，周围车辆包括变道车辆原车道前车、目标车道的前后车；
[0048]
基于所述变道车辆的位置信息确定所述变道车辆的车道位置数据；
[0049]
基于所述车道位置数据以及自动驾驶车辆的变道意图确定变道的原车道及目标车道，并确定变道过程的起点；
[0050]
获取起点时刻下当前车道的前车及目标车道前后车的驾驶信息数据，构建自动驾驶车辆的变道仿真环境。
[0051]
步骤102：基于所述位置信息确定所述变道车辆在原车道以及目标车道的周围车辆驾驶信息数据，其中，所述周围车辆包括所述变道车辆原车道前车、目标车道的前后车。
[0052]
在一实施方式中，所述构建自动驾驶车辆的变道仿真环境，包括：
[0053]
确定深度强化学习模型中的智能体为自动驾驶车辆，动作空间为自动驾驶车辆的加速度的值和方向角[av，ad]，状态空间为变道车辆与周围车辆之间相对纵向速度以及纵向距离、变道车辆横向速度以及变道车辆横向移动距离[δv
y_lcs
，δv
y_lts
，δv
y_fts
，δy
lcs
，δy
lts
，δy
fts
，v
x_s
，x
s-xo]，所述状态根据运动学原理进行更新，公式为：
[0054]vx_s
(t+1)＝v
x_s
(t)+av(t)*sin ad(t)*δt
[0055]vy_s
(t+1)＝v
y_s
(t)+av(t)*cos ad(t)*δt
[0056][0057][0058][0059]
其中，s，lc，lt，ft分别代表自动驾驶车辆、原车道的前车、目前车道的前车以及目标车道的后车，δt为测量时间步长。
[0060]
步骤103：基于所述变道车辆当前的驾驶信息数据、所述周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
[0061]
在一实施方式中，还包括：
[0062]
设计奖励函数引导自动驾驶车辆在变道过程中在给定的横向范围内完成加减速运动，并在变道完成时其横向速度小于给定范围。其中，所述给定的横向范围根据车道中心线确定，给定的最终横向速度根据直线行驶要求以及道路限速确定，奖励函数通过对变道过程中不同阶段的横向移动位置及横向速度或横向加速设计相应的奖励值，从而引导自动驾驶车辆学会如何在给定范围内完成横向运动的加减速过程。
[0063]
其中，变道过程中每一个步长的奖励值的确定划分为四种情况，首先在变道过程中，自动驾驶车辆的横向位置小于初始横向位置，给定常数惩罚值；自动驾驶车辆横向移动距离不超过最大横向距离的一半时，车辆在横向上进入加速过程，按照横向速度与最终横向速度范围进行比较给定奖惩值r
vx
＝f(v
x_s
)＝ω1*v
x_s
+b1，且r
td
＝f(x
s-xo)，总奖励值为r＝r
vx
+r
td
；自动驾驶车辆横向移动距离超过最大横向距离的一半但小于最大横向距离时，
车辆在横向运动上进入减速过程，根据横向加速度给定奖惩值r＝f(a
x_s
)＝ω2*a
x_s
+b2，且r
td
＝f(x
s-xo)，总奖励值为r＝r
vx
+r
td
；自动驾驶车辆横向移动距离超过最大横向距离，根据超过范围给定相应的惩罚值。
[0064]
还包括，引入避撞策略以保证自动驾驶车辆在纵向运动与周围车辆不发生碰撞，避撞策略为将车辆纵向距离与安全距离进行比较，根据情况给自动驾驶车辆分配相应的加减速和角度值，分为以下情况，其余的情况按照模型的输入分配：
[0065]
(1)(δy
lcs
＜d
sf_lcs orδy
lts
＜d
sf_lts
)andδy
fts
＞d
sf_fts
，av＝-3m/s2，ad＝0
°
；
[0066]
(2)(δy
lcs
＞d
sf_lcs andδy
lts
＞d
sf_lts
)andδy
fts
＜d
sf_fts
，av＝3m/s2，ad＝0
°
；
[0067]
(3)(δy
lcs
＜d
sf_lcs orδy
lts
＜d
sf_lts
)andδy
fts
＜d
sf_fts
，
[0068]
min(δy
lcs
/δv
y_lcs
，δy
lts
/δv
y_lts
)＜δy
fts
/δv
y_fts
，av＝-3m/s2，ad＝0
°
[0069]
min(δy
lcs
/δv
y_lcs
，δy
lts
/δv
y_lts
)≥δy
fts
/δv
y_fts
，av＝3m/s2，ad＝0
°
[0070]
步骤104：基于所述变道车辆当前的驾驶信息数据、所述周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角；
[0071]
在一实施方式中，所述深度强化学习模型的网络结构包括策略网络，两个值函数网络以及两个q函数网络。
[0072]
在一实施方式中，将所述基于所述变道车辆当前的驾驶信息数据、所述周围车辆的驾驶信息数据输入训练好的深度强化学习模型之前，还包括：
[0073]
将所述变道车辆以及周围车辆的驾驶信息数据输入初始深度强化学习模型进行训练，更新各网络参数；
[0074]
对所述深度强化学习模型进行迭代更新，直至设置的奖励函数满足收敛条件，获得训练好的深度强化学习模型。
[0075]
在一实施方式中，所述基于所述变道车辆当前的驾驶信息数据以及周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角，包括：
[0076]
基于所述变道车辆以及周围车辆的驾驶信息数据确定当前目标状态；
[0077]
基于所述目标状态输入所述训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
[0078]
通过本发明上述实施例，在未来车联网的混合交通流情况下，自动驾驶车辆能够充分感知混合交通流中的周围车辆驾驶状态，从而能够提高变道效率，从而提高道路出行效率以及安全性；本发明方法设计简单，易于计算；基于深度强化学习的自动驾驶车辆的变道模型，能够克服已有变道模型的缺陷，能够提高自动驾驶车辆的变道效率，并且有效提高道路交通的出行效率。
[0079]
示例性的，请参阅图2，通过一个具体实施例进行说明。
[0080]
步骤201：使用目标区域的路段上的摄像头及路段检测器采集车辆驾驶信息数据，包括位置及速度信息，将所述驾驶信息数据通过路侧通信单元传输给所述变道车辆；
[0081]
步骤202：基于所述变道车辆的位置信息确定所述变道车辆的车道位置数据，基于所述车道位置数据以及自动驾驶车辆的变道意图确定变道的原车道及目标车道，并确定变道过程的起点，并获取起点时刻下当前车道的前车及目标车道前后车的驾驶信息数据，构建自动驾驶车辆的变道仿真环境；
[0082]
步骤203：根据上述自动驾驶车辆的变道仿真环境，确定深度强化学习模型中的智能体为自动驾驶车辆，动作空间为自动驾驶车辆的加速度的值和方向角[av，ad]，状态空间为变道车辆与周围车辆之间相对纵向速度以及纵向距离、变道车辆横向速度以及变道车辆横向移动距离[δv
y_lcs
，δv
y_lts
，δv
y_fts
，δy
lcs
，δy
lts
，δy
fts
，v
x_s
，x
s-xo]，所述状态根据运动学原理进行更新，公式为：
[0083]vx_s
(t+1)＝v
x_s
(t)+av(t)*sin ad(t)*δt
[0084]vy_s
(t+1)＝v
y_s
(t)+av(t)*cos ad(t)*δt
[0085][0086][0087][0088]
其中，s，lc，lt，ft分别代表自动驾驶车辆、原车道的前车、目前车道的前车以及目标车道的后车，δt为测量时间步长。
[0089]
步骤204：根据上述的状态和对应的动作，设计奖励函数引导自动驾驶车辆在变道过程中在给定的横向范围内完成加减速运动，并在变道完成时其横向速度小于给定范围。其中，所述给定的横向范围根据车道中心线确定，给定的最终横向速度根据直线行驶要求以及道路限速确定，奖励函数通过对变道过程中不同阶段的横向移动位置及横向速度或横向加速设计相应的奖励值，从而引导自动驾驶车辆学会如何在给定范围内完成横向运动的加减速过程；
[0090]
其中，变道过程中每一个步长的奖励值的确定划分为四种情况，首先在变道过程中，自动驾驶车辆的横向位置小于初始横向位置，给定常数惩罚值；自动驾驶车辆横向移动距离不超过最大横向距离的一半时，车辆在横向上进入加速过程，按照横向速度与最终横向速度范围进行比较给定奖惩值r＝f(v
x_s
)；自动驾驶车辆横向移动距离超过最大横向距离的一半但小于最大横向距离时，车辆在横向运动上进入减速过程，根据横向加速度给定奖惩值r＝f(a
x_s
)；自动驾驶车辆横向移动距离超过最大横向距离，根据超过范围给定相应的惩罚值。
[0091]
步骤205：确定深度强化学习sac算法中策略网络、两个值网络，两个q网络的网络结构。策略网络的网络参数为φ，输入为状态，输出为高斯分布的均值和方差，通过重参数化方法采样得到动作及其对应的熵；值函数网络参数为ψ，输入为状态，输出为值函数；q函数网络参数为θ，输入为状态及动作，输出为状态动作值。该算法中的包含五个网络，其中每个神经网络的隐藏层为两层，每层隐藏层的神经元个数为256。基于sac算法的自动驾驶变道模型的网络结构如图3。
[0092]
步骤206：根据步骤202中的自动驾驶变道仿真环境，初始化驾驶环境，并将状态输入到策略网络中，输入相应的动作和熵，从而当前时刻的状态被更新至下一时刻，并获得当前时刻的奖励，并将获得的经验(s
t
，a
t
，r
t
，s
t+1
)存储到经验回放缓冲区。经验回放缓冲区的功能为储存智能体探索过程中的经验，并在算法学习过程中以最小批处理数进行采样，从而更新网络参数；
[0093]
步骤207：自动驾驶车辆在驾驶环境中进行一个变道操作即为一个变道回合，当自
动驾驶车辆发生碰撞或者变道完成或者变道失败即被认为回合的终止条件。当智能体探索的经验足够更新各网络参数，网络参数学习的过程就开始。值函数网络和q函数网络都是基于最优贝尔曼方程得到的值与网络输入值的均方误差进行网络更新，策略网络是最小化动作的kl散度更新网络。因此，值函数网络通过计算梯度更新网络，且目标值函数网络根据更新网络；q函数网络通过计算梯度更新网络；策略网络根据计算梯度
[0094]
步骤208：基于上述一个变道回合结束，重新初始化变道回合，并不断进行迭代更新直至sac算法达到收敛。
[0095]
该方法利用交通流检测设备获取目标区域的车辆驾驶信息，并构建以变道车辆原车道前车以及目标车道前后车组成的变道环境，以模拟未来自动驾驶车辆与人类驾驶车辆的混合交通流；采用深度强化学习中的软行动者-批评者(soft actor-critic，sac)算法作为自动驾驶车辆在变道过程中的速度控制策略算法，定义sac框架中动作空间为加速度的值和方向角，状态空间为状态空间为变道车辆与周围车辆之间相对纵向速度以及纵向距离、变道车辆横向速度以及变道车辆横向移动距离；设计一种基于状态和相应动作的奖励函数来引导自动驾驶车辆在给定范围内完成变道的横向运动，并使得最终横向速度降低到给定范围内；同时引入避撞策略以保证自动驾驶车辆在纵向运动与周围车辆不发生碰撞；利用目标区域采集的变道车辆周围车辆的运行数据作为模型的外部输入，将人类驾驶的变道车辆替换为自动驾驶车辆，并作为模型的训练集数据。在未来车联网的混合交通流情况下，自动驾驶车辆能够充分感知混合交通流中的周围车辆驾驶状态，从而能够提高变道效率，从而提高道路出行效率以及安全性；本发明方法设计简单，易于计算；基于深度强化学习的自动驾驶车辆的变道模型，能够克服已有变道模型的缺陷，能够提高自动驾驶车辆的变道效率，并且有效提高道路交通的出行效率。
[0096]
本发明实施例还提供一种自动驾驶变道速度控制装置，如图4所示，该装置包括：
[0097]
获取模块51，用于获取变道车辆当前的驾驶信息数据，其中，所述驾驶信息数据包括位置信息及速度信息，所述变道车辆为自动驾驶车辆；
[0098]
确定模块52，基于所述位置信息确定所述变道车辆在原车道以及目标车道的周围车辆驾驶信息数据，其中，所述周围车辆包括所述变道车辆原车道前车、目标车道的前后车；
[0099]
输出模块53，用于基于所述变道车辆当前的驾驶信息数据、所述周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
[0100]
在一个可选的实施例中，所述获取模块51，还用于：
[0101]
通过目标区域的路段上的摄像头及路段检测器采集车辆驾驶信息数据，包括位置及速度信息，将所述驾驶信息数据通过路侧通信单元传输给所述变道车辆。
[0102]
在一个可选的实施例中，所述确定模块52，还用于：
[0103]
基于所述变道车辆的位置信息确定所述变道车辆的车道位置数据；
[0104]
基于所述车道位置数据以及自动驾驶车辆的变道意图确定变道的原车道及目标车道，并确定变道过程的起点；
[0105]
获取起点时刻下当前车道的前车及目标车道前后车的驾驶信息数据，构建自动驾驶车辆的变道仿真环境。
[0106]
在一个可选的实施例中，所述确定模块52，还用于：
[0107]
确定深度强化学习模型中的智能体为自动驾驶车辆，动作空间为自动驾驶车辆的加速度的值和方向角[av，ad]，状态空间为变道车辆与周围车辆之间相对纵向速度以及纵向距离、变道车辆横向速度以及变道车辆横向移动距离[δv
y_lcs
，δv
y_lts
，δv
y_fts
，δy
lcs
，δy
lts
，δy
fts
，v
x_s
，x
s-xo]，所述状态根据运动学原理进行更新，公式为：
[0108]vx_s
(t+1)＝v
x_s
(t)+av(t)*sin ad(t)*δt
[0109]vy_s
(t+1)＝v
y_s
(t)+av(t)*cos ad(t)*δt
[0110][0111][0112][0113]
其中，s，lc，lt，ft分别代表自动驾驶车辆、原车道的前车、目前车道的前车以及目标车道的后车，δt为测量时间步长。
[0114]
其中，v代表速度，y代表纵向位置，s代表自动驾驶车辆，l代表前车，f代表后车，δt为测量时间步长。
[0115]
在一个可选的实施例中，所述装置还包括控制模块，用于：
[0116]
设计奖励函数引导自动驾驶车辆在变道过程中在给定的横向范围内完成加减速运动，并在变道完成时其横向速度小于给定范围。其中，所述给定的横向范围根据车道中心线确定，给定的最终横向速度根据直线行驶要求以及道路限速确定，奖励函数通过对变道过程中不同阶段的横向移动位置及横向速度或横向加速设计相应的奖励值，从而引导自动驾驶车辆学会如何在给定范围内完成横向运动的加减速过程。
[0117]
其中，变道过程中每一个步长的奖励值的确定划分为四种情况，首先在变道过程中，自动驾驶车辆的横向位置小于初始横向位置，给定常数惩罚值；自动驾驶车辆横向移动距离不超过最大横向距离的一半时，车辆在横向上进入加速过程，按照横向速度与最终横向速度范围进行比较给定奖惩值r＝f(v
x_s
)；自动驾驶车辆横向移动距离超过最大横向距离的一半但小于最大横向距离时，车辆在横向运动上进入减速过程，根据横向加速度给定奖惩值r＝f(a
x_s
)；自动驾驶车辆横向移动距离超过最大横向距离，根据超过范围给定相应的惩罚值。
[0118]
同时，引入避撞策略以保证自动驾驶车辆在纵向运动与周围车辆不发生碰撞，避撞策略为将车辆纵向距离与安全距离进行比较，根据情况给自动驾驶车辆分配相应的加减速和角度值，分为以下情况，其余的情况按照模型的输入分配：
[0119]
(1)(δy
lcs
＜d
sf_lcs orδy
lts
＜d
sf_lts
)andδy
fts
＞d
sf_fts
，av＝-3m/s2，ad＝0
°
；
[0120]
(2)(δy
lcs
＞d
sf_lcs andδy
lts
＞d
sf_lts
)andδy
fts
＜d
sf_fts
，av＝3m/s2，ad＝0
°
；
[0121]
(3)(δy
lcs
＜d
sf_lcs orδy
lts
＜d
sf_lts
)andδy
fts
＜d
sf_fts
，
[0122]
min(δy
lcs
/δv
y_lcs
，δy
lts
/δv
y_lts
)＜δy
fts
/δv
y_fts
，av＝-3m/s2，ad＝0
°
[0123]
min(δy
lcs
/δv
y_lcs
，δy
lts
/δv
y_lts
)≥δy
fts
/δv
y_fts
，av＝3m/s2，ad＝0
°
[0124]
在一个可选的实施例中，所述装置还包括训练模块，用于：
[0125]
将所述变道车辆以及周围车辆的驾驶信息数据输入初始深度强化学习模型进行训练，更新各网络参数；
[0126]
基于对所述深度强化学习模型进行迭代更新，直至设置的奖励函数满足收敛条件，获得训练好的深度强化学习模型。
[0127]
在一个可选的实施例中，所述输出模块53，还用于：
[0128]
基于所述变道车辆以及周围车辆的驾驶信息数据确定当前目标状态；
[0129]
基于所述目标状态输入所述训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
[0130]
需要说明的是：上述实施例提供的自动驾驶变道速度控制装置在实现自动驾驶变道速度控制方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将网约车驾驶员安全性评价装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的自动驾驶变道速度控制装置与对应的自动驾驶变道速度控制实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0131]
本发明实施例提供了一种计算机设备，如图5所示，该计算机设备包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图5中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110的个数可以为一个或多个；同样，图5中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111的个数可以为一个或多个。
[0132]
所述处理器110用于运行所述计算机程序时，执行如下步骤：
[0133]
获取变道车辆当前的驾驶信息数据，其中，所述驾驶信息数据包括位置信息及速度信息，变道车辆为自动驾驶车辆；
[0134]
基于所述位置信息确定所述变道车辆的周围车辆驾驶信息数据，其中，周围车辆包括变道车辆原车道前车、目标车道的前后车；
[0135]
基于所述变道车辆当前的驾驶信息数据、所述周围车辆的驾驶信息数据输入训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
[0136]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0137]
通过目标区域的路段上的摄像头及路段检测器采集车辆驾驶信息数据，包括位置及速度信息，将所述驾驶信息数据通过路侧通信单元传输给所述变道车辆。
[0138]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0139]
基于所述变道车辆的位置信息确定所述变道车辆的车道位置数据；
[0140]
基于所述车道位置数据以及自动驾驶车辆的变道意图确定变道的原车道及目标
车道，并确定变道过程的起点；
[0141]
获取起点时刻下当前车道的前车及目标车道前后车的驾驶信息数据，构建自动驾驶车辆的变道仿真环境。
[0142]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0143]
确定深度强化学习模型中的智能体为自动驾驶车辆，动作空间为自动驾驶车辆的加速度的值和方向角[av，ad]，状态空间为变道车辆与周围车辆之间相对纵向速度以及纵向距离、变道车辆横向速度以及变道车辆横向移动距离[δv
y_lcs
，δv
y_lts
，δv
y_fts
，δy
lcs
，δy
lts
，δy
fts
，v
x_s
，x
s-xo]，所述状态根据运动学原理进行更新，公式为：
[0144]vx_s
(t+1)＝v
x_s
(t)+av(t)*sin ad(t)*δt
[0145]vy_s
(t+1)＝v
y_s
(t)+av(t)*cos ad(t)*δt
[0146][0147][0148][0149]
其中，s，lc，lt，ft分别代表自动驾驶车辆、原车道的前车、目前车道的前车以及目标车道的后车，δt为测量时间步长。
[0150]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0151]
设计奖励函数引导自动驾驶车辆在变道过程中在给定的横向范围内完成加减速运动，并在变道完成时其横向速度小于给定范围。其中，所述给定的横向范围根据车道中心线确定，给定的最终横向速度根据直线行驶要求以及道路限速确定，奖励函数通过对变道过程中不同阶段的横向移动位置及横向速度或横向加速设计相应的奖励值，从而引导自动驾驶车辆学会如何在给定范围内完成横向运动的加减速过程。
[0152]
其中，变道过程中每一个步长的奖励值的确定划分为四种情况，首先在变道过程中，自动驾驶车辆的横向位置小于初始横向位置，给定常数惩罚值；自动驾驶车辆横向移动距离不超过最大横向距离的一半时，车辆在横向上进入加速过程，按照横向速度与最终横向速度范围进行比较给定奖惩值r＝f(v
x_s
)；自动驾驶车辆横向移动距离超过最大横向距离的一半但小于最大横向距离时，车辆在横向运动上进入减速过程，根据横向加速度给定奖惩值r＝f(a
x_s
)；自动驾驶车辆横向移动距离超过最大横向距离，根据超过范围给定相应的惩罚值。
[0153]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0154]
引入避撞策略以保证自动驾驶车辆在纵向运动与周围车辆不发生碰撞，避撞策略为将车辆纵向距离与安全距离进行比较，根据情况给自动驾驶车辆分配相应的加减速和角度值，分为以下情况，其余的情况按照模型的输入分配：
[0155]
(1)(δy
lcs
＜d
sf_lcs orδy
lts
＜d
sf_lts
)andδy
fts
＞d
sf_fts
，av＝-3m/s2，ad＝0
°
；
[0156]
(2)(δy
lcs
＞d
sf_lcs andδy
lts
＞d
sf_lts
)andδy
fts
＜d
sf_fts
，av＝3m/s2，ad＝0
°
；
[0157]
(3)(δy
lcs
＜d
sf_lcs orδy
lts
＜d
sf_lts
)andδy
fts
＜d
sf_fts
，
[0158]
min(δy
lcs
/δv
y_lcs
，δy
lts
/δv
y_lts
)＜δy
fts
/δv
y_fts
，av＝-3m/s2，ad＝0
°
[0159]
min(δy
lcs
/δv
y_lcs
，δy
lts
/δv
y_lts
)≥δy
fts
/δv
y_fts
，av＝3m/s2，ad＝0
°
[0160]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0161]
将所述变道车辆以及周围车辆的驾驶信息数据输入初始深度强化学习模型进行训练，更新各网络参数；
[0162]
对所述深度强化学习模型进行迭代更新，直至设置的奖励函数满足收敛条件，获得训练好的深度强化学习模型。
[0163]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0164]
基于所述变道车辆以及周围车辆的驾驶信息数据确定当前目标状态；
[0165]
基于所述目标状态输入所述训练好的深度强化学习模型，输出所述变道车辆的加速度的值和方向角。
[0166]
该计算机设备还包括：至少一个网络接口112。该装置中的各个组件通过总线系统113耦合在一起。可理解，总线系统113用于实现这些组件之间的连接通信。总线系统113除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统113。
[0167]
其中，存储器111可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、磁性随机存取存储器(fram，ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram，random access memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(sram，static random access memory)、同步静态随机存取存储器(ssram，synchronous static random access memory)、动态随机存取存储器(dram，dynamic random access memory)、同步动态随机存取存储器(sdram，synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram，double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram，enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram，synclink dynamic random access memory)、直接内存总线随机存取存储器(drram，direct rambus random access memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。
[0168]
本发明实施例中的存储器111用于存储各种类型的数据以支持该装置的操作。这些数据的示例包括：用于在该装置上操作的任何计算机程序，如操作系统和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统包含各种系统程序，例如框架层、
核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。
[0169]
本实施例还包含了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，计算机存储介质可以是磁性随机存取存储器(fram，ferromagnetic random access memory)、只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时，实现上述车辆识别方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图1所示实施例的描述，在此不再赘述。
[0170]
以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0171]
在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。
[0172]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐进君王喆孟宪伟黄合来
技术所有人：中南大学
我是此专利的发明人

上一篇：一种正极材料的制备方法及其应用与流程
上一篇：一种中药液体提取装置

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、林老师：1.智能驾驶技术研究 2.智能汽车人机交互研究 3.自动驾驶预期功能安全及可靠性 4.驾驶功能与车辆动力学数据融合 5.驾驶场景大数据分析技术 6.车辆性能研究
2、朱老师：1.新能源汽车电驱动技术 2.轮毂电机驱动与控制 3.开关磁阻电机驱动系统控制 4.智能电动汽车
3、徐老师：1.内燃机节能及排放控制技术 2.汽车节能与新能源汽车技术 3. 车辆现代设计理论与方法
4、王老师：1.机械设计原理与方法 2.生理系统耦合及生物力学 3.康复工程学
5、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
如您是高校老师，可以点此联系我们加入专家库。