用于自主机器系统和应用的车道规划架构的制作方法

文档序号：35774485发布日期：2023-10-21 00:59阅读：41来源：国知局

背景技术：

1、为了使自主车辆有效地导航通过环境，这些自主车辆需要生成用于在两个或更多个位置之间导航的路线规划。例如，车辆的规划和控制组件可用于识别路线和动作，路线和动作可由车辆针对朝向目标的特定驾驶任务来执行。规划和控制组件(例如，路线规划器、车道规划器和/或行为规划器)可以使用由车辆生成和/或提供给车辆的感知和映射信息。例如，有向图可以包括可用于促进执行与规划和控制组件相关联的操作的感知和映射信息——表示驾驶规划状态和动作。感知和映射信息可在规划和控制组件的接口之间交换以支持导航车辆。

2、驾驶或路线规划中的常规车道规划可以利用支持生成输出(例如，车道规划器输出数据)的输入(例如，车道规划器输入数据)进行操作。输入可包括地图、源和目标，其中源和目标可以是例如gps位置——可选地与车道相关联——从第一点a到第二点b。输出可以包括可由车辆执行的路线和动作。动作可以包括用于执行的指令，如用于保持在车道中、进行车道变换、跟随车道合并或进行车道分离。传统车道规划器可被配置成使得只有一组有限的动作对于车辆是可用的，并且因此提供精确的动作以导航车辆，而不考虑汽车可能无法执行动作——例如，因为安全相关的问题，或者因为在给定当前道路或交通条件无法执行一个或更多个所指示的动作。

3、以此方式，常规车道规划可以具体地基于确定性方法。在操作上，生成确定性图形，并且使用搜索算法(例如，迪杰斯特拉(dijkstra)算法，a*搜索算法)来寻找位置之间的最短路径，同时将动作建模为全确定性的。然而，作为示例，车辆可能尝试变道或至少希望进行变道，但是变道可能被竞争的车辆阻挡，迫使车辆停留在当前车道中。在另一示例中，在车辆进行变道的最后机会，车辆可能被阻挡，使得车辆等待而不是在车道中前进。因此，用于执行动作的输入、输出和控制的当前组合可能是限制性的—并且传统车道规划器不提供复杂的输出来在驾驶系统中以不完全确定的方式执行驾驶规划。因此，具有用于执行车道规划操作的替代基础的更全面的驾驶系统可以改进用于驾驶系统的计算操作和接口。

技术实现思路

1、本公开的实施例涉及操作车道规划器以基于状态和概率动作空间生成车道规划器输出数据。车道规划器输出数据对应于驾驶系统的车道检测和/或引导数据，所述驾驶系统基于与车道规划器和其他规划和控制组件相关联的分级驾驶规划框架来操作。车道规划器处理车道规划器输入数据(例如，大车道图、源、目标)，以生成车道规划器输出数据(例如，与源和目标之间的大车道图的节点之间的边相对应的预期时间奖励)。驾驶系统还可以包括路线规划器(例如，第一规划层)，该路线规划器进行操作以将更高级或粗略的路线信息作为车道规划器输入数据提供至车道规划器——例如以提供源位置、目标位置以及映射源与目标之间的路线的初始高级车道图。车道规划器可作为(例如但不限于)第二规划层进行操作，该第二规划层处理车道规划器输入数据以生成被表示为更细粒度或“大(large)”车道图的状态和概率动作空间，其包括与从源节点导航至一个或更多个目标节点相关联的时间成本。车道规划器将车道规划器输出数据传送至行为规划器，以引起识别要由车辆执行的至少一个动作，以通过大车道图从源位置(例如，本机的位置)到目标节点从节点到节点地横穿。在实施例中，除了实时感知之外，行为规划器还可使用由车道规划器生成的大车道图(例如，包括具有不同时间奖励的多个可选动作)来作出关于要遵循大车道图的哪些边，以及因此在环境中采取哪条路径的决定。在一些实施例中，行为规划器可将实时感知信息馈送至车道规划器，使得车道规划器可动态更新大车道图，并且行为规划器可仅对填充有实时感知信息的大车道图进行操作。

2、与常规系统(如以上所描述的那些)相比，来自车道规划器的输出可以包括针对到达节点的预期等效时间奖励，其中该预期等效时间奖励(可替代地，在此被称为“预期时间奖励”)是例如转换为时间的最佳或最好当前计算的预期奖励。车道规划器输出数据还可包括具有概率分布的动作。例如，在大车道图边的一边中编码的每个动作可具有正的失败概率。在操作上，可以随机地识别边的目标节点，并且可以通过最初使用诸如(并且不限于)djikstra算法的搜索算法来计算预期的等效时间奖励，以识别从源节点到任何大车道图节点的时间成本。时间成本可以用于值迭代(或值迭代的变体)以计算预期的等效时间奖励。因此，不同于常规系统，本技术方案中的预期的等效时间奖励是基于时间奖励的最佳预期值并且进一步考虑了未来的不确定性。

3、更确切地，可以基于强化学习生成车道规划器输出数据。强化学习可以使用与状态集合和动作集合相关联的马尔可夫决策过程(“mdp”)来实现。每个动作将现有状态带到随机输出状态，这触发奖励。作为强化学习的一部分，大车道图可被转化成mdp，其中大车道图节点对应于状态并且边对应于具有随机输出节点的动作。负边成本对应于奖励，并且预期时间奖励可被计算为最佳值。

4、在一些实施例中，修改值迭代方法用于控制迭代次数。修改值迭代方法在计算上打破大车道图的循环，因此图形变成非循环的—并且可创建节点的顺序，使得可向源节点有效地传播预期时间奖励。因此，修改值迭代方法的一次迭代——经由这个顺序——可以返回足够好的结果，这与需要多次迭代才能生成最终结果的常规系统相反，其在计算和时间方面都是密集的。

技术特征：

1.一种处理器，包括：

2.根据权利要求1所述的处理器，其中所述行驶路线的确定进一步至少部分地基于实时感知信息。

3.根据权利要求1所述的处理器，其中至少部分地基于与所述至少一个边相关联的动作被成功完成的概率来计算该边的所述更新的关联成本值。

4.根据权利要求1所述的处理器，其中所述确定性算法包括最短路径算法。

5.根据权利要求4所述的处理器，其中所述最短路径算法包括迪杰斯特拉算法或a*算法中的至少一个。

6.根据权利要求1所述的处理器，其中所述随机算法包括强化学习算法。

7.根据权利要求6所述的处理器，其中所述强化学习算法包括马尔可夫决策过程mdp算法，并且所述第三车道图被表示为mdp。

8.根据权利要求1所述的处理器，其中使用行为规划器来执行最终行驶路线的确定。

9.根据权利要求1所述的处理器，其中使用路线规划器来生成所述第一车道图，并且使用车道规划器来生成所述第二车道图和所述第三车道图中的至少一个。

10.根据权利要求1所述的处理器，其中使用从目标奖励、花费的时间、花费的资源、不适、舒适、障碍物安全、路径服从或等待条件服从中选择的至少一个优化类别，来确定所述关联成本值或所述更新的关联成本值中的至少一个。

11.根据权利要求1所述的处理器，其中所述多个节点中的至少一个节点与车辆状态相对应，并且所述多个边中的至少一个边与车辆动作相对应。

12.根据权利要求11所述的处理器，其中所述车辆动作包括车道保持、变道、转弯、选择岔路或并线中的至少一个。

13.根据权利要求1所述的处理器，其中至少部分地基于执行修改值迭代来计算至少一个边的所述更新的关联成本值，所述修改值迭代控制用于执行修改值迭代操作的迭代次数。

14.根据权利要求1所述的处理器，其中所述至少一个边的关联成本值和所述至少一个边的更新的关联成本值与预期时间奖励相对应，所述预期时间奖励与执行与所述至少一个边相关联的动作相关联。

15.根据权利要求14所述的处理器，其中用于计算所述预期时间奖励的至少一个输入至少部分地通过将所述至少一个输入转换成基于时间的输入来计算。

16.根据权利要求1所述的处理器，其中所述处理器被包括在以下的至少一者中：

17.一种系统，包括：

18.根据权利要求17所述的系统，其中至少一个边与车辆动作相关联，并且执行所述一个或更多个操作包括根据一个或更多个车辆动作来控制车辆，所述一个或更多个车辆动作与通过所述概率车道表示的所选路径的一个或更多个边相关联。

19.根据权利要求18所述的系统，其中所述一个或更多个车辆动作包括车道保持、变道、转弯、选择岔路或者并线中的至少一个。

20.根据权利要求17所述的系统，其中所述确定性车道表示至少部分地基于对初始车道表示执行最短路径算法来生成。

21.根据权利要求17所述的系统，其中所述概率车道表示至少部分地基于执行强化学习算法来生成。

22.根据权利要求17所述的系统，其中所述概率车道表示包括与所述边中的至少一个边相关联的至少一个车辆动作的成功的概率。

23.根据权利要求17所述的系统，其中所述一个或更多个操作的执行进一步至少部分地基于实时感知信息。

24.根据权利要求17所述的系统，其中所述系统被包括在以下中的至少一个中：

25.一种方法，包括：

26.根据权利要求25所述的方法，其中计算所述多个节点中的每个节点的所述时间奖励是至少部分地基于执行修改值迭代，所述修改值迭代控制用于执行计算所述时间奖励的修改值迭代操作的迭代次数。

27.根据权利要求25所述的方法，其中通过最初使用最短路径算法来识别从源节点到所述车道图上的任何节点的时间成本，来计算每个节点的所述时间奖励。

28.根据权利要求25所述的方法，其中通过以下中的至少一个执行所述方法：

技术总结
本公开涉及用于自主机器系统和应用的车道规划架构。在各个示例中，提供了用于基于状态和概率动作空间生成车道规划器输出数据的车道规划器。驾驶系统(基于分层驾驶规划框架进行操作)包括车道规划器和其他规划和控制组件。车道规划器处理车道规划器输入数据(例如，大车道图、源节点、目标节点)以生成车道规划器输出数据(例如，预期时间奖励)。驾驶系统还可以包括路线规划器(例如，第一规划层)，其操作以将车道规划器输入数据提供给车道规划器。车道规划器作为第二规划层操作，其至少部分地基于大车道图的状态和概率动作空间来处理车道规划器输入数据并且计算与从大车道图中的源节点导航至目标节点相关联的时间成本。

技术研发人员：D·尼斯特,李汉良,王一舟,R·阿维夫,B·亨克,J·额,A·阿克巴扎德
受保护的技术使用者：辉达公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D
技术所有人：辉达公司
我是此专利的发明人

上一篇：用双AAV载体同步定点基因编辑制备CAR-T细胞的方法与流程
上一篇：一种风道防漏风边角间隙封堵器及使用方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、林老师：1.智能驾驶技术研究 2.智能汽车人机交互研究 3.自动驾驶预期功能安全及可靠性 4.驾驶功能与车辆动力学数据融合 5.驾驶场景大数据分析技术 6.车辆性能研究
2、朱老师：1.新能源汽车电驱动技术 2.轮毂电机驱动与控制 3.开关磁阻电机驱动系统控制 4.智能电动汽车
3、徐老师：1.内燃机节能及排放控制技术 2.汽车节能与新能源汽车技术 3. 车辆现代设计理论与方法
4、王老师：1.机械设计原理与方法 2.生理系统耦合及生物力学 3.康复工程学
5、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
如您是高校老师，可以点此联系我们加入专家库。