用于规划机动车辆的路径和/或轨迹的设备的制作方法

文档序号:24984910发布日期:2021-05-07 23:02阅读:103来源:国知局
本申请涉及用于规划机动车辆的路径和/或轨迹的设备和方法、以及用于实施这种方法的计算机程序的领域。
背景技术
::目前,机动车辆配备有性能水平不断提高的高级驾驶辅助设备。高级驾驶辅助设备旨在允许机动车辆的自主驾驶,即,在没有驾驶员的干预下进行驾驶。特别地,高级驾驶辅助设备可以用于规划机动车辆的路径和/或轨迹。在本申请中,术语“规划”及其派生词将按照它们在高级驾驶辅助设备领域中的通常定义进行解释,即意思是路径或轨迹的规划表示机动车辆未来的一系列状态(位置、速度、加速度)对应于从一个状态到另一期望状态的路径或轨迹。在本申请中,车辆的路径将被理解为与车辆在出发点与到达点之间的行进相对应的几何形状。车辆的轨迹将被理解为车辆在出发点与到达点之间的位置随时间的变化。用于规划机动车辆的路径和/或轨迹的方法的已知示例特别地包括通过求解基于一阶拉格朗日力学方程建模的最优控制问题来进行规划的方法。用于生成路径和/或轨迹的方法通常旨在找到车辆乘员的舒适度与安全之间的良好折衷。可以在m.werling、j.ziegler、s.kammel和s.thrun的论文“optimaltrajectorygenerationfordynamicstreetscenariosinafrenétframe,ieeeinternationalconferenceonroboticsandautomation[在frenét坐标系中针对动态街道场景的最优轨迹生成,ieee机器人与自动化国际会议]”[1]中找到一种用于生成轨迹的方法的示例(下文称为“werling方法”)。werling方法涉及用于求解最优控制问题的间接方法。根据此方法,选择一些输入参数,通过仅考虑所选的输入参数来部分地求解最优控制问题,并且使用未被选择的输入参数和所选的输入参数对解进行后验验证。然而,使用间接方法由于要考虑大量的输入参数而缺少鲁棒性。而且,防撞约束是后验验证的事实可能导致最终由于碰撞风险而拒绝对大量路径和/或轨迹的规划,使得许多资源被用于大量的被拒绝计算。在t.mercy、w.vanloock、g.pipeleers和j.swevers的论文“time-optimalmotionplanninginthepresenceofmovingobstacles[在存在移动障碍物的情况下的时间最优运动规划]”[2]中描述了轨迹规划方法的另一个示例(下文称为“mercy方法”)。该示例使用直接方法来求解最优控制问题。根据直接方法,在求解该问题时考虑了所有约束。因此,本发明更接近于mercy方法而不是werling方法。然而,与mercy方法相关联的算法的复杂度使得不可能将其结合到机动车辆的车载设备中。路径和/或轨迹规划方法的其他示例包括势场方法,在势场方法中,每个障碍物都会产生倾向于阻止车辆接近它的反重力场。然而,这种方法存在陷入局部最小值的风险,并且因此可能无法生成针对路径和/或轨迹规划问题的最佳解。技术实现要素:鉴于以上内容,本发明的目的是使得能够规划机动车辆的路径和/或轨迹,同时克服上述缺点。更具体地,本发明提出使得能够实施足够鲁棒的路径和/或轨迹生成,同时降低计算复杂度。出于此目的,提出了一种用于规划机动车辆的路径和/或轨迹的设备,该设备包括用于接收一系列输入变量的模块、以及用于根据所接收的一系列输入变量确定与该路径和/或该轨迹相对应的控制律的硬件和软件装置。根据其一般特性之一,该设备包括呈紧凑表示集合的形式的时间分类装置。通过使用时间分类装置,可以基于历史记录来规划路径和/或轨迹。与mercy方法一样,这种方法使得能够考虑所有输入参数,同时具有相对较低的复杂度。事实上,时间分类装置的使用需要大量的工作来设计和调整算法,但是需要少量的工作用于规划的推断阶段。因此,计算资源需求从在线推断情况转移到离线训练阶段。在本申请中,表述“控制律”将在以下意义上进行解释:与路径或轨迹相对应的控制律包括操作致动器以使车辆遵循该路径或轨迹同时对底盘的物理约束进行建模所需的命令集。表述“时间分类”表示对作为时间的函数的多个输入序列进行分类的动作。表述“紧凑表示集合”表示由经历了变为紧凑状态的操作(即,例如丢掉输入序列中的时间概念、或删除输入序列中的某些点,目的是减少它们的存储器占用)的输入序列形成的集合。根据一个实施例,该时间分类装置被配置用于限定由可变长度的不同输入变量序列组成的输入集合到由可变长度的不同输出变量序列组成的输出集合的满射。特别地,这种特性是由于时间分类装置的使用而成为可能。因此,时间分类装置不会选择预定义长度的输入变量序列,而是持续接收输入变量,直到它具有足够的数据来确定令人满意的解为止,从而增加了序列的长度。输入集合与输出集合之间的满射是与所存储的不同类别的轨迹相对应的输入轨迹集合到输出轨迹集合的满射应用。例如,该应用可能属于其中所使用的系统还能够对学习期间未看到的轨迹进行内插或外推的分组。在本申请中,序列的长度可以是时间性的,即对应于该序列的采样周期,或者是度量性(metric)的,即对应于该序列的采样距离。类似地,时间分类装置在其输出端处生成可以取任何长度的变量序列。优选地,该输入集合包括时间输入变量序列和/或度量输入变量序列。根据这种变体,通过时间分类将各种类别的轨迹存储在存储器中的输入集合中,但是轨迹具有不同长度,以便更好地表示可能的情况。有利地,该输入集合包括选自以下各项的至少一个输入变量序列:从传感器获得的原始变量序列、用于合并表示该车辆的外部环境的变量序列、用于表示该车辆的内部参数的变量序列、用于表示代理的行为的变量序列、以及用于表示代理的意图的变量序列。在本申请中,使用术语“表示”是指代表事件、参数、状态等的数据集。“合并表示”是通过对从不同传感器和/或估计器获得的数据进行合并而获得的数据集。在一个实施例中,该输出集合包括时间输出变量序列和/或度量输出变量序列。优选地,该输出集合至少包括选自以下各项的输出序列:路线点的坐标对序列、路线点的横坐标序列、以及路线点的纵坐标序列。在另一实施例中,该时间分类装置被配置用于使用联结主义时间分类函数。时间分类函数可以具有各种类型,诸如:隐马尔可夫场、rnn-lstm、rnn-lstm-ctc(联结主义)。通过使用这种函数,可以实施对时间分类装置的高效训练。根据又另一实施例,该时间分类装置包括隐马尔可夫链模型和/或循环神经网络、优选地是具有长短期记忆的循环神经网络。这种示例特别地适合于形成时间分类装置,因为可以在离线训练阶段期间容易地对这些装置进行训练。根据另一方面,提出了一种用于规划机动车辆的路径和/或轨迹的方法,该方法包括接收输入变量序列、以及基于该输入变量序列确定与该机动车辆的路径和/或轨迹相对应的控制律。根据其一般特性之一,该方法包括使用呈紧凑表示集合的形式的时间分类装置。根据一个实施例,该方法包括该时间分类装置的离线训练阶段,在该离线训练阶段中,各自与相同操纵相对应的输出变量序列的集合被分组为第一级分组。这种分组特别地适合于在推断阶段期间准备时间分类装置以达到其正确操作的目的。在本申请中,使用表述“离线”是指离线阶段发生在车辆由控制律控制的时间段之外,例如在车辆不在移动时。根据一个实施例,在该离线训练阶段期间,针对每个第一级分组,各自与具有基本相等的实施周期和/或基本相等的实施距离的操纵相对应的变量序列的集合被分组为第二级分组。因此,对时间分类装置的调整更加精细,从而提高了规划的鲁棒性而不会由此增加计算复杂度。在一个实施例中,该方法包括:由该时间分类装置传输索引和至少一个时间调制因子,在查找表中读取与所传输的索引相关联的路径,以及对通过所传输的时间调制因子读取的该路径进行时间调制。因此,根据本发明的方法特别地在于存储相对于时间具有一定自由度的多个路径模式,该自由度成为参数。这使得计算复杂度更进一步地受限。有利地,该时间分类装置在纵向方向上传输时间调制因子和/或在横向方向上传输时间调制因子。根据又另一方面,提出了一种计算机程序,该计算机程序包括被配置用于在由处理器或电子控制单元执行时实施如上所限定的方法的代码。附图说明通过精读仅仅以非限制性示例提供并且参考附图给出的以下说明,本发明的其他目的、特性和优点将变得明显,在附图中:-图1是根据本发明实施例的规划设备的示意性表示,-图2是根据本发明实施例的规划方法的示意性表示,-图3示出了图2的方法的第一阶段,-图4示出了图2的方法的第二阶段,以及-图5和图6示意性地示出了车辆在两种相应运行情况下的路径选择。具体实施方式参考图1,示意性地表示了规划设备2。设备2旨在为结合了其的机动车辆4规划路径。显然,在不脱离本发明的范围的情况下,可以设想用于规划车辆4的轨迹的设备2的配置。在所展示的示例中,车辆4是自主驾驶的。在不脱离本发明的范围的情况下,可以设想结合了设备2的车辆不是自主驾驶的;即,该车辆由驾驶员驾驶。在这种情况下,设备2仅旨在向驾驶员提供辅助(例如在危险的情况下)。在所展示的示例中,设备2形成了自主驾驶架构(未示出)的一部分。更具体地,设备2与属于自主驾驶架构的预测模块(未示出)、传感器合并模块(未示出)和定位模块(未示出)进行数据链接。设备2包括与自主驾驶架构的其他模块以及车辆的车载计算机进行数据链接的接收模块6。更确切地,模块6能够接收多个输入变量序列。序列是变量所取值的集合。时间序列是变量在多个不同时刻所取值的集合。度量序列是变量在多个不同位置处所取值的集合。在所展示的示例中,序列是时间性的并且由在以40ms的间隔分开的多个时刻所取的变量值组成。在所展示的示例中,模块6接收输入向量序列,这些输入向量的标量为可以是内部约束和外部约束的输入变量。内部约束特别地涉及车辆4中的乘客的舒适度和安全,并且包括驾驶员的意图、对未来操纵的预测、车辆4的速度、或乘客对车辆4的驾驶模式的输入。外部约束特别地涉及环境条件以及交通,并且包括其他车辆的位置、速度和加速度、道路的曲率、气象条件、道路表面类型、白天或夜间的条件、或与能见度有关的信息。设备2包括通常由英文术语“recurrentneuralnetwork(循环神经网络)”或对应的首字母缩略词“rnn”指代的循环神经网络8。可以参考y.-m.lee和j.-h.kim在robotintelligencetechnologyandapplications[机器人智能技术与应用]杂志中的文献“trajectorygenerationusingrnnwithcontextinformationformobilerobots[使用rnn和背景信息生成移动机器人的轨迹]”[3],其中提到了循环神经网络的示例。循环神经网络8与接收模块6进行数据链接。在所展示的示例中,循环神经网络8属于长短期记忆类型。该特性通常由英文术语“longshorttermmemory(长短期记忆)”或对应的首字母缩略词“lstm”指代。循环神经网络8被配置用于使用联结主义时间分类函数。这种函数通常由英文术语“connectionisttemporalclassification(联结主义时间分类)”或对应的首字母缩略词“ctc”指代。因此,循环神经网络8形成设备2的时间分类装置。此外,使用循环神经网络使得可以通过收集可变长度的输入变量序列来生成可变长度的输出变量序列。循环神经网络8被配置用于基于接收模块6所接收的输入变量来确定并传输索引ind、纵向调制因子lon和横向调制因子lat。更具体地,变量ind、lon和lat被确定为使得在确保安全程度、避开任何障碍物并遵守最大操纵长度的同时,车辆4在操纵期间经历的横向加加速度的总和最小。显然,本发明不限于使用循环神经网络8。特别地,可以使用隐马尔可夫模型(也被称为英文术语“hiddenmarkovmodel(隐马尔可夫模型)”或对应的首字母缩略词“hmm”)。设备2具有查找表10。表10可以由英文名称“look-uptable(查找表)”或对应的首字母缩略词“lut”指代。表10与循环神经网络8进行数据链接。表10包含基于索引ind的多个路径形状。存储在表10中的路径形状对应于车辆4的可能路径。设备2包括时间调制器12。调制器12与循环神经网络8以及表10进行数据链接。更确切地,调制器12能够基于循环神经网络8所传递的纵向调制因子和横向调制因子,相对于时间对形成由表10传递的路径的点的纵向位置和横向位置分别进行调制。换言之,调制器12能够扩展或收缩由表10传递的路径。调制器12所扩展或收缩的路径与速度曲线相关联,该速度曲线确定了路线点的时间序列。该时间序列被供应给车辆4的控制律设备(未示出)。参考图2,其示出了可以通过设备2实施的、用于规划机动车辆4的路径的方法的主要阶段。该方法包括训练循环神经网络8的第一阶段p01。阶段p01在车辆4的车载计算机(未示出)离线时实施,即在车辆4运输之前、在车辆4维修期间、或在车辆4长期停车期间实施。参考图3,阶段p01包括记录实际驾驶员行为的第一步骤e01。例如,可以记录与车辆4同型号的车辆上的测试驾驶员的行为。可以在识别并记录行为的同时识别并记录操纵的类型。例如,可以识别并记录离开行车道的中心以到达行车道(可以是同一车道或不同车道)的中心的动作。阶段p01包括按操纵类型对所记录的数据进行分组的第二步骤e02。更确切地,在步骤e02中,创建多个第一级的分组,每个分组对应于步骤e01中所记录的相应操纵。例如,如果在步骤e01期间已分别针对改变行车道的操纵、在同一条行车道内重新居中的操纵、紧急制动操纵和车辆的紧急避让操纵记录了数据,则分别将四个第一级分组与前述四个操纵相关联。该方法包括按操纵长度对所记录的数据进行分组的第三步骤e03。在步骤e03中,在每个第一级分组中创建多个第二级的分组,每个第二级的分组对应于步骤e01中所记录的相应操纵长度。例如,如果已分别针对关于20米(+/-10%)距离的紧急制动操纵、关于30米(+/-10%)距离的紧急制动操纵和关于50米(+/-10%)距离的紧急制动操纵记录了数据,则将与紧急制动操纵相关联的第一级分组细分为分别与前述三个操纵长度相关联的三个第二级分组。阶段p01包括使表10丰富的第四步骤e04。在步骤e04中,使用在步骤e01中接收到的轨迹来精细化存储在表10中的轨迹。阶段p01包括将与步骤e02和e03中限定的不同分组相关联的区别特性分离开的步骤e05。特别地,在步骤e05中,区别特性可以是:-从合并模块获得的信息,诸如:关于车辆4的状态信息;关于周围物体的状态信息;针对每个相邻车辆表示该相邻车辆的位置、速度和加速度以及相邻车辆周围的自由空间或无风险空间的地图;以及行车道的边界线,-与背景有关的信息,诸如道路表面、天气预报、白天或夜间的条件或能见度信息,-与车辆4有关的信息,诸如驾驶模式的选择,-关于意图的信息,诸如指示灯的实际或模拟操作、方向角的突然变化、急刹车(从而检测到紧急制动的意图)。阶段p01包括定义时间分类装置的步骤e06。在这种情况下,在步骤e06中定义了使用ctc函数的rnn-lstm类型的循环神经网络8。阶段p01包括训练循环神经网络8的步骤e07。通过使用步骤e05中分离开的区别特性集合作为输入并通过使用步骤e01、e02和e03中记录和进行分组的可能轨迹作为输出来实施步骤e07。本发明不限于如上参考所展示的示例描述的步骤。特别地,代替使用在步骤e02和e03中实施的分组技术,可以使用竞争性学习策略。在c.sung、d.feldman和d.rus的公开文件“trajectoryclusteringformotionprediction,internationalconferenceonintelligentrobotsandsystems[用于运动预测的轨迹聚类,智能机器人和系统国际会议]”[4]中描述了可以使用的其他变体。参考图2,该方法包括进行推断的第二阶段p02。阶段p02是在线执行的;即在车辆4行驶时不断实施该阶段。虽然以上表示了阶段p01并且已在阶段p02之前对其进行了描述,但是阶段p01可以在阶段p02之后和/或在其之前。参考图4,阶段p02包括接收输入变量序列的第一步骤f01。所接收的输入变量序列由n个向量组成,每个向量由模块10在时刻ti接收的不同输入变量组成,其中,i处于1至n的范围内。将数字n的值选择为使得输入变量序列的长度足以确定相关值ind、lon和lat。输入变量与在阶段p01的步骤e05中分离开的区别特性基本相同,通常是从传感器合并模块获得的数据以及来自某些特定传感器的其他信息(诸如道路保持和能见度条件)或关于来自行为规划者的意图的信息。在该实施方式的示例中,所接收的序列是时间性的。在不脱离本发明的范围的情况下,可以设想另一种类型的序列、特别地是度量序列。阶段p02包括将输入变量序列输入到循环神经网络8中的第二步骤f02。在步骤f02中,收集由循环神经网络8传递的索引ind、纵向调制因子lon和横向调制因子lat。阶段p02包括将索引ind输入到表10中的第三步骤f03。在步骤f03中,收集由表10传递的路径形状。阶段p02包括对在步骤f03中收集的路径形状进行时间调制的第四步骤。在步骤f04中,实施对步骤f03中收集的路径形状相对于因子lon的纵向扩展或收缩,并实施对步骤f03中收集的路径形状相对于因子lat的横向扩展或收缩。阶段p02包括针对防撞进行检查的步骤f05。在步骤f05中,检查在步骤f04结束时获得的调制后的路径是否不会存在车辆4与另一物体碰撞的风险。如果存在与另一物体碰撞的风险,则传输错误信号,使得通过选择不同的路径来重复阶段p02。图5和图6示出了可以由设备2为车辆4规划的路径的示例。图5示出了车辆4的第一运行情况,并且图6示出了车辆4的第二运行情况。图5和图6示意性地示出了道路14,该道路包括由第一边界线16、第二边界线18和第三边界线20横向地界定的多个行车道。还示意性地示出了位于线16与18之间的车道的中心线22和位于线18与20之间的车道的中心线24。在这两种运行情况下,规划了使得车辆4能够改变行车道的路径。在初始状态和最终状态下,横向速度为零。在初始状态和最终状态下的纵向速度相同。参考图5,在循环神经网络8传输对应的索引ind56之后,由表10传递通过一系列圆圈示意性表示的路径26。路径26对应于在根据本发明的方法的步骤f03中收集的路径形状。循环神经网络8传递因子lon5,该因子被选择为使得整个操纵过程中横向加加速度的总和最小。在图5和图6的示例中,循环神经网络传递的因子lat56等于1。由一系列叉号示意性地表示的路径28对应于由调制器12在循环神经网络8所传输的因子lon5的作用下纵向扩展的路径。路径28对应于在根据本发明的方法的步骤f04结束时获得的调制后的路径。在这些条件下,车辆4将遵循路径28。参考图6,第一障碍物28和第二障碍物30位于道路14上。循环神经网络8所传递的索引ind56与图5的情况相同。因此,在此再次参见图5的路径26。然而,循环神经网络8考虑到障碍物28和30的存在,并传输因子lon6以使得能够避开障碍物28和30。由一系列正方形示意性地表示的路径32对应于由调制器12在因子lon6作用下纵向收缩的路径。因此,路径32对应于在步骤f04结束时获得的调制后的路径,并且将是车辆4在该运行模式下所遵循的路径。鉴于以上内容,本发明使得可以在允许考虑所有内部约束和外部约束的同时提供最优路径和/或轨迹,同时在推断阶段使用很少的计算资源。特别地,通过使用时间分类装置,对计算资源的需求被转移到离线训练阶段,使得能够在限制其复杂度的同时获得鲁棒的规划。所引用公开文件的清单:[1]moritzwerling、juliusziegler、kammel等人的optimaltrajectorygenerationfordynamicstreetscenariosinafrenetframe[在frenet坐标系中针对动态街道场景的最优轨迹生成]。roboticsandautomation(icra),2010ieeeinternationalconferenceon.ieee[机器人与自动化(icra),2010ieee国际会议.ieee],2010年第987-993页(isbn978-1-4244-5040-4)。[2]timmercy、wannesvanloock、goelepipeleers等人的time-optimalmotionplanninginthepresenceofmovingobstacles[在存在移动障碍物的情况下的时间最优运动规划],2015年。[3]you-minlee和jong-hwankim的trajectorygenerationusingrnnwithcontextinformationformobilerobots[使用rnn和背景信息生成移动机器人的轨迹]。robotintelligencetechnologyandapplications[机器人智能技术与应用]4。springer,cham,2017年第21-29页(isbn:978-3-319-31291-0)。[4]cynthiasung、danfeldman和danielarus的trajectoryclusteringformotionprediction[用于运动预测的轨迹聚类]。intelligentrobotsandsystems(iros),2012ieee/rsjinternationalconferenceon.ieee[智能机器人和系统(iros),2012ieee/rsj国际会议.ieee],2012年第1547-1552页。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1