一种基于蒙特卡洛搜索树的无人驾驶决策方法及其系统与流程

文档序号：37543706发布日期：2024-04-08 13:45阅读：8来源：国知局

本发明涉及人工智能、无人驾驶汽车的，尤其涉及一种基于蒙特卡洛搜索树的无人驾驶决策方法及其系统。

背景技术：

1、无人汽车驾驶技术是当前解决车辆点对点通行安全问题、效率问题的关键技术，而其中的决策规划系统是决定无人驾驶技术能否成功应用的重中之重。当前主流的分级决策规划系统中，从上而下一般分为：车道级决策层、路径级决策以及轨迹级决策，如图1所示。其中车道级决策发挥着重要的承上启下的作用，需要根据当前天气信息、车流信息、人流信息、交通规则信息、车道信息等感知信息以及任务目标信息，对无人车辆的驾驶车道进行决策和判断，从车道层面实现从当前点到目标点的决策规划过程。

2、目前，车道级决策多用传统穷举法和启发式方法。然而，传统穷举法如深度搜索和广度搜索，尽管具备搜索完备性，但效率低下；而启发式方法如a*、d*等方法难以处理高维的感知信息输入(如道路场景、天气等)，并且需要耗费巨大精力和深层次的专家知识来设计代价函数，造成决策准确率不足，为此，我们提出一种基于蒙特卡洛搜索树的无人驾驶决策方法及其系统来解决上述提出的问题。

技术实现思路

1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

2、鉴于上述现有基于蒙特卡洛搜索树的无人驾驶决策方法及其系统存在的问题，提出了本发明。

3、因此，本发明目的是提供一种基于蒙特卡洛搜索树的无人驾驶决策方法及其系统，其充分利用车道级决策任务的离散性、车道序列长、每段道路可选车道少的特征，结合蒙特卡洛树的扩展机制，增量式地构建蒙特卡洛树网络结构，避免了因长车道序列进行穷举法带来的计算复杂度高的问题。同时利用人类驾驶数据和深度神经网络，构建一种新的评分机制。

4、为解决上述技术问题，本发明提供如下技术方案：一种基于蒙特卡洛搜索树的无人驾驶决策方法，包括以下步骤：

5、步骤一：初始化，构建n层树结构；以当前车道为根节点，利用蒙特卡洛搜索树的节点和边结构在无人驾驶过程中增量式地构建车道与车道之间的路由关系，每一个树节点代表一条车道；

6、步骤二：模拟，根据现感知信息和任务信息，利用离线训练模块中已经训练好的车道评分模型对每一个车道节点进行第一轮评价打分；

7、步骤三：回溯，对节点分数进行回溯，更新整个搜索树，完成所有节点的最终评价；

8、步骤四：筛选，选取评价最优的下一节点作为当前的最优决策车道；

9、步骤五：扩展，对搜索树进行增量式扩展，即车辆每次决策时，搜索根节点就前进一层，同时搜索树扩展一层，并且剪去红色禁止车道的树节点，确保树结构仅包含n层；

10、步骤六：循环步骤二到五，直到无人车辆到达终点。

11、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述步骤一之前通过离线训练模块收集人类驾驶员在各类型车道驾驶的真实数据信息，包括车道上的天气信息、车流信息、人流信息、交通规则信息和车道信息作为感知信息以及人类驾驶员在这些信息下的车道决策信息，作为车道决策标签。

12、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述离线训练模块收集信息后使用感知信息、任务信息和对应的标签对评分模型进行监督学习训练，将训练完的评分模型部署在无人车上。

13、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述步骤五中根据车道连接的路由关系，初始全面扩展n层网络，n越大，扩展效率越低，决策效果越好。

14、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述步骤二中根据当前的感知信息和任务信息对n层网络的每个节点进行第一轮打分，根据树网络的边关系，将分数向上进行回溯，节点最终的分数为：

15、

16、式中：score'ij代表第i层第j个节点的最终分数，scorenm代表第n层第m个节点的第一轮分数，式中右边第二项代表其后继节点分数之和，γ为超参折扣因子0<γ<1，γn-i表示离得越远的节点分数对本节点分数的贡献逐层降低。

17、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述筛选步骤中按照最终分数的对车道进行分类：最优车道前20％、次优车道中间40％、禁止车道后20％；对筛选出最终分数最高的节点作为下一车道决策。

18、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述步骤五中根据设定的决策频率开始下个频次的车道决策，对最底层的节点进行扩展，仅扩展一层，保证树网络总层数为n。

19、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述回溯机制进行综合打分，使得对每一车道的评价不局限于车道本身，还有车道的未来期望，评分模型根据当前的感知信息对最新一层网络的每个节点进行第一轮打分。

20、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述基于蒙特卡洛搜索树的无人驾驶决策系统包括离线训练评分模块和在线应用模块，所述离线训练评分模块内设置有场景信息采集单元；所述在线应用模块内设置有决策系统单元和跟踪控制单元。

21、作为本发明所述基于蒙特卡洛搜索树的无人驾驶决策方法的一种优选方案，其中：所述决策系统单元内设置有车道级决策子单元、路径级决策子单元和轨迹级决策子单元，且车道级决策子单元、路径级决策子单元和轨迹级决策子单元之间依次连接，所述场景信息采集单元与车道级决策子单元连接，所述轨迹级决策子单元与跟踪控制单元连接。

22、本发明的有益效果：本发明充分利用车道级决策任务的离散性、车道序列长、每段道路可选车道少的特征，结合蒙特卡洛树的扩展机制，增量式地构建蒙特卡洛树网络结构，避免了因长车道序列进行穷举法带来的计算复杂度高的问题。同时利用人类驾驶数据和深度神经网络，构建一种新的评分机制，解决了蒙特卡洛树搜索模拟阶段无法处理高维输入问题和人工设计代价函数困难问题，并且直接用训练好的模型进行模拟阶段的打分，规避了蒙特卡洛树传统模拟方法时间长的问题，提高了决策效率和准确率。。

技术特征：

1.一种基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述步骤一之前通过离线训练模块收集人类驾驶员在各类型车道驾驶的真实数据信息，包括车道上的天气信息、车流信息、人流信息、交通规则信息和车道信息作为感知信息以及人类驾驶员在这些信息下的车道决策信息，作为车道决策标签。

3.根据权利要求2所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述离线训练模块收集信息后使用感知信息、任务信息和对应的标签对评分模型进行监督学习训练，将训练完的评分模型部署在无人车上。

4.根据权利要求3所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述步骤五中根据车道连接的路由关系，初始全面扩展n层网络，n越大，扩展效率越低，决策效果越好。

5.根据权利要求1所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述步骤二中根据当前的感知信息和任务信息对n层网络的每个节点进行第一轮打分，根据树网络的边关系，将分数向上进行回溯，节点最终的分数为：

6.根据权利要求5所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述筛选步骤中按照最终分数的对车道进行分类：最优车道前20％、次优车道中间40％、禁止车道后20％；对筛选出最终分数最高的节点作为下一车道决策。

7.根据权利要求5所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述步骤五中根据设定的决策频率开始下个频次的车道决策，对最底层的节点进行扩展，仅扩展一层，保证树网络总层数为n。

8.根据权利要求5所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述回溯机制进行综合打分，使得对每一车道的评价不局限于车道本身，还有车道的未来期望，评分模型根据当前的感知信息对最新一层网络的每个节点进行第一轮打分。

9.根据权利要求1所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述基于蒙特卡洛搜索树的无人驾驶决策系统包括离线训练评分模块和在线应用模块，所述离线训练评分模块内设置有场景信息采集单元；所述在线应用模块内设置有决策系统单元和跟踪控制单元。

10.根据权利要求9所述的基于蒙特卡洛搜索树的无人驾驶决策方法，其特征在于：所述决策系统单元内设置有车道级决策子单元、路径级决策子单元和轨迹级决策子单元，且车道级决策子单元、路径级决策子单元和轨迹级决策子单元之间依次连接，所述场景信息采集单元与车道级决策子单元连接，所述轨迹级决策子单元与跟踪控制单元连接。

技术总结
本发明公开了一种基于蒙特卡洛搜索树的无人驾驶决策方法及其系统，包括以下步骤：步骤一：初始化，构建N层树结构；以当前车道为根节点，利用蒙特卡洛搜索树的节点和边结构在无人驾驶过程中增量式地构建车道与车道之间的路由关系，每一个树节点代表一条车道；步骤二：模拟，根据现感知信息和任务信息。本发明充分利用车道级决策任务的离散性、车道序列长、每段道路可选车道少的特征，结合蒙特卡洛树的扩展机制，增量式地构建蒙特卡洛树网络结构，避免了因长车道序列进行穷举法带来的计算复杂度高的问题。同时利用人类驾驶数据和深度神经网络，构建一种新的评分机制。

技术研发人员：林瑞玉,凌承昆,周伟伟,覃元锋
受保护的技术使用者：天翼云科技有限公司
技术研发日：
技术公布日：2024/4/7

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林瑞玉,凌承昆,周伟伟,覃元锋
技术所有人：天翼云科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、林老师：1.智能驾驶技术研究 2.智能汽车人机交互研究 3.自动驾驶预期功能安全及可靠性 4.驾驶功能与车辆动力学数据融合 5.驾驶场景大数据分析技术 6.车辆性能研究
2、朱老师：1.新能源汽车电驱动技术 2.轮毂电机驱动与控制 3.开关磁阻电机驱动系统控制 4.智能电动汽车
3、徐老师：1.内燃机节能及排放控制技术 2.汽车节能与新能源汽车技术 3. 车辆现代设计理论与方法
4、王老师：1.机械设计原理与方法 2.生理系统耦合及生物力学 3.康复工程学
5、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
如您是高校老师，可以点此联系我们加入专家库。