基于学徒学习的路径规划方法及装置的制造方法

文档序号:10637782阅读:193来源:国知局
基于学徒学习的路径规划方法及装置的制造方法
【专利摘要】基于学徒学习的路径规划方法及装置,包括如下步骤,找出路径规划问题中所有的状态序列,将状态序列的位势场项进行加权,计算总势场最低的状态序列,根据总势场最低的状态序列得到最佳路径。解决自动路径规划的问题。
【专利说明】
基于学徒学习的路径规划方法及装置
技术领域
[0001] 本发明涉及自动驾驶领域,尤其涉及一种基于学徒学习的路径规划方法及装置。
【背景技术】
[0002] 无人车辆的运动和路径规划通常都是通过利用复杂的成本价值方程,来进行全局 导航或实现局部轨迹线路的平滑化。在现实操作中,在设计运动路径规划的成本价值方程 时,我们常常需要考虑大量不同的所需参数,而这些独立地对我们的路径规划有重要影响 的参数,互相之间亦有冲突的可能。比如说,我们需要的参数可能包括轨迹的平滑程度,与 障碍物的接近程度,路径的最大曲率,车道的保持等等。此外,我们很可能并不知道每一个 参数的确切衡量标准,因此针对一个特定的参数,我们可能需要考虑好几个不同的位势场 项(potential-field terms)。为了完整地详细说明利用位势方程来进行无人车辆的运动 路径规划的问题,我们需要量化地确定到底如何去平衡这些位势场项(也就是给这些位势 场项加权)。在实际操作中,位势场项的权衡结果很可能并不是唯一的,并且通常需要大量 的人工手动工程才能得到我们所期待的路径规划结果。
[0003] 对大量的人工手动工程的需求显然对于实现无人车辆路径规划不利,但获得一些 人工演示驾驶轨迹案例却并不困难。而这样的演示案例固有地包含了我们所需要的如何对 位势场项进行恰当权衡的信息。我们可以通过"模仿",能够避免盲目地全局搜索,而能专注 于更有意义地局部优化。
[0004] 本发明将要介绍一种基于学徒学习技术的运动路径规划方法。通过对演示案例进 行学徒学习,我们能够学会如何对对位势场项进行权衡,从而减少对人工手动工程的依赖。 此外,我们还会介绍如何将关于对位势场项进行加权的先验信息囊括进学徒学习算法中。

【发明内容】

[0005] 为此,需要提供一种基于学徒学习技术的运动路径规划方法,解决自动路径规划 的问题。
[0006] 为实现上述目的,发明人提供了一种基于学徒学习的路径规划方法,包括如下步 骤,找出路径规划问题中所有的状态序列,将状态序列的位势场项进行加权,计算总势场最 低的状态序列,根据总势场最低的状态序列得到最佳路径。
[0007] 进一步地,还包括步骤,获取关于加权向量的先验知识集,从所述先验知识集中随 机挑选一个加权向量作为当前加权向量,根据当前加权向量求得路径规划问题的当前解, 根据当前解计算势场项的累积势能值,根据累积势能值找到下一个加权向量的估计,将下 一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。
[0008] 具体地,还包括步骤,运行离散的全局搜索,用离散版本的位势场项取代连续坐标 版本中偏离车道相关的位势场项。
[0009] 进一步地,还包括步骤,用共辄梯度下降法对轨迹本身属性相关的位势场项进行 优化。
[0010] 具体地,所述位势场项包括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方 向的转换次数、偏离车道的轨迹长度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的 测量。
[0011] -种基于学徒学习的路径规划装置,包括状态序列找寻模块、加权计算模块、最佳 路径模块,所述状态序列找寻模块用于找出路径规划问题中所有的状态序列,所述加权计 算模块用于将状态序列的位势场项进行加权,计算总势场最低的状态序列,所述最佳路径 模块用于根据总势场最低的状态序列得到最佳路径。
[0012] 进一步地,还包括先验获取模块、当前解模块、加权估计模块,所述先验模块用于 获取关于加权向量的先验知识集,所述当前解模块用于从所述先验知识集中随机挑选一个 加权向量作为当前加权向量,根据当前加权向量求得路径规划问题的当前解,所述加权估 计模块用于根据当前解计算势场项的累积势能值,根据累积势能值找到下一个加权向量的 估计,所述当前解模块还用于将下一个加权向量的估计作为当前加权向量并重复求解,直 至找到最佳路径。
[0013] 进一步地,还包括全局搜索模块,所述全局搜索模块用于运行离散的全局搜索,用 离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。
[0014] 进一步地,还包括轨迹平滑模块,所述轨迹平滑模块用于用共辄梯度下降法对轨 迹本身属性相关的位势场项进行优化。
[0015] 具体地,所述位势场项包括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方 向的转换次数、偏离车道的轨迹长度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的 测量。
[0016] 区别于现有技术,上述技术方案整合了学徒学习应用到路径规划中,使得机器能 够"学会"如何对对位势场项进行权衡,从而减少对人工手动工程的依赖。此外,还将关于对 位势场项进行加权的先验信息囊括进学徒学习算法中。更好地解决了自动路径规划的问 题。
【附图说明】
[0017] 图1为本发明【具体实施方式】所述的方法流程图;
[0018] 图2为本发明【具体实施方式】所述的装置模块图;
[0019]图3为本发明【具体实施方式】所述的停车场网络图;
[0020] 图4为本发明【具体实施方式】所述的轨迹规划示例图。
[0021] 附图标记说明:
[0022] 200、状态序列找寻模块;
[0023] 202、加权计算模块;
[0024] 204、最佳路径模块;
[0025] 206、先验获取模块;
[0026] 208、当前解模块;
[0027] 210、加权估计模块;
[0028] 212、全局搜索模块;
[0029] 214、轨迹平滑模块。
【具体实施方式】
[0030] 为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实 施例并配合附图详予说明。
[0031] 1.1基本思路
[0032] A.路径规划是一个最优化的问题
[0033]这里请看图1,为一种基于学徒学习的路径规划方法流程图,包括如下步骤,S100 找出路径规划问题中所有的状态序列,将状态序列的位势场项进行加权,计算总势场最低 的状态序列,S106根据总势场最低的状态序列得到最佳路径。我们用S来表示车辆的状态空 间。每一条轨迹或路线s都对应了一个状态序列。我们可以将路径规划的问题,转化成一个 轨迹势能的最小化问题。我们将位势场项表示为。我们让ω e 来表示对应 不同位势场项的加权系数的向量。轨迹的总势能Φ(8)即为: Ρ_
[0034] Φ(5) = 说Ι?φιΛ、) k-1
[0035] 在给定一个起始状态so和一个目标状态況的情况下,路径规划的问题将被转化成:
[0036] min Φ(β) S6S
[0037] 这里找出路径规划问题中所有的状态序列指满足问题预设条件的路径集合,具体 地S代表的是所有可能的状态序列的集合。要成为一个可能的状态序列,轨迹s需要满足一 个最基本的条件:从起始状态so开始,在目标状态sc停止。除此之外也可能需要满足其他的 条件,比如说两个相继的状态之间不能够超过某一个特定距离。
[0038] 在实际操作中,许多位势场项都能够被进一步分解成几个子位势场项的总和,而 每个子位势场项只取决在一个单独时间t的状态。然而,这样一个分解在我们的算法中并没 有体现,这是由于大多数我们在运动路径规划中所使用的位势场项并不能够被分解。
[0039] 我们将位势场运动路径规划的问题用一个元组Μ二(3,%,%,{么〇扣=1旧) 来表示,并用Μ来表示不包括加权向量ω位势场运动路径规划问题。
[0040] -般来说,·[办^)扣=1定义了一个复杂的势能,使得最小化势能的问题成为了一 个非线性的多模式最优化问题。
[0041] 我们的最优化算法也因此更加基于特定的问题,取决于多个位势场项{必/^·)}^^ 的公式表达,会有灵活的变动。
[0042] Β.学徒学习和位势场
[0043]在学徒学习的设定下,我们会被给定一系列m个不包括加权向量ω的运动路径规 划问题,和一系列相应的人工演示驾驶轨迹案例[se%:。 ? ····丄. i 一·丄
[0044] 贯穿全文,我们让/々({sW})二Σ丨因此对每一个位势场项来说, 以!<是一个累积了所有轨迹{s(1)}的势能值的向量。
[0045] 1.2学徒学习算法
[0046] 学徒学习算法原本是基于马尔可夫决策过程(Markov decision process)设定 的,在这里,我们要介绍一个学徒学习算法在位势场运动路径规划设定下的改良版本。从本 质上来说,学徒学习算法要解决的是一个逆优化问题:在给定演示案例的情况下,学徒学习 算法会为势能方程找到一系列的加权系数,使得势能方程能够给出与演示案例最为接近的 轨迹规划结果。这里我们通过对比轨迹规划结果的势能方程累积值和演示案例的势能方程 累积值才衡量轨迹规划结果是否与演示案例足够接近。举个例子来说,如果前进驾驶分段 (forward driving segments)和后退驾驶分段(backward driving segments)的长度是唯 二的位势场项,那么对从同一个起始状态so开始,在同一个目标状态sC结束的两条路径来 说,如果它们有大致等量的前进驾驶和后退驾驶,我们就认为它们是接近的。
[0047]接下来我们将结束学徒学习算法在位势场运动路径规划设定下的改良版本:图1 所示的实施例中,本方法还包括步骤,S102获取关于加权向量的先验知识集,从所述先验知 识集中随机挑选一个加权向量作为当前加权向量,S104根据当前加权向量求得路径规划问 题的当前解,根据当前解计算势场项的累积势能值,S106根据累积势能值找到下一个加权 向量的估计,将下一个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。
[0048] 我们的算法将和一个描述了关于加权向量ω的先验知识 的凸(convex)集W作为输入值。其中W是选择性输入的。接着算法如下展开:
[0049] 1)算法首先随机地挑选一个加权向量ω^。设定j = 〇。
[0050] 2)为当前的加权向量ω (j>求路径规划的问题的解,也就是说,要找到:
[0051 ] s⑴.=arg n'in (s)
[0052] 3)计算位势场项的累积势能值:
[0053] 0fc(s(,:))
[0054] 4)找到对下一个加权向量的估计。这个估计值就是以下凸优化问题的解:
[0055] ^?η\\ω\\1 ω,χ
[0056] 包乂· /1 Xy:."..⑴.,X 2 .0, /
[0057] ^ XJ = 1; ω - 0: }
[0058] ω ^μ-με; ω eff
[0059] 如果||ω||彡e (准确度阀值),就退出算法并返回x,{cow,yw,…, ωω,μω}。否 贝1J,设.
并继续步骤2。
[0060] 大致来说,算法交替地"猜测"新的加权向量和对路径规划问题进行求解。前者仅 需要通过解凸优化问题便可有效地解决。在本方法中,我们为凸优化问题添加了三个限制。 ω彡〇,ω彡μ-μ Ε涵盖了我们已知的事实:权重都是正值,而不同的位势场项对距离的贡献 只有在演示案例的表现胜过当前最佳路径μ ω的情况下才为非零。ω ew这个限制使我们能 够将额外的先验信息也囊括到算法中。
[0061]当算法执行"退出"操作时,必须满足||μ_μΕ||彡||ω||彡e。因此,当随机地(根据X) 选择由算法经过多次迭代得到的路径时,我们能得到和演示案例在准确度e内表现相当的 轨迹选择结果。为了将算法延伸成一个完整的设定,我们可以相应地随机选择基于X得到的 加权向量{ ω (()),μ(()),…,ω ,然后对所产生的路径规划问题进行求解。然而在现实操作 中,随机的组合通常无法得到我们想要的结果。相反,我们可以对由满足x(j)多〇的向量 ω ?)生成的轨迹进行抽检。通过凸分析(convex analysis),我们能够保证步骤4的最优化 问题有一个最多有P+1个非零项的解;同时我们能够保证最少其中一个解,拥有能跟演示案 例相媲美的表现。
[0062] 1.3在停车场导航中利用学徒学习算法进行路径规划
[0063] -个有能力在停车场设定中产生类人的轨迹的算法必须要对成本建模,各种广泛 的需要考虑的因素包括:
[0064] ?轨迹的总长度
[0065] ?逆行(倒车)的轨迹分段的长度
[0066] ?运动方向在前行和后退之间转换的次数
[0067] ?轨迹上的点距离障碍物的接近程度
[0068] ?轨迹的平滑程度
[0069] ?轨迹与环境中驾驶车道的距离
[0070] ?轨迹与停车场中主要的行驶方向的对齐程度(measure of alignment)
[0071] 我们需要轨迹与环境中驾驶车道的距离测量,来区别那些会在停车场中(不遵守 规则)穿过空地的司机和那些会停留在适当的车道直到到达目的地的司机。图3展示留一个 典型的停车场车道网络图(g),我们假设这样一张图是给定的,是路径策划模块的一个输 入。
[0072] 我们需要轨迹与停车场中主要的行驶方向的对齐程度,来区分那些擦着拐角行驶 以减小转弯曲率的司机,和那些会转较大的弯以沿着停车场的主要行驶方向行驶的司机。 所谓的主要行驶方向可以通过传感器的数据计算出来。在这个例子中,我们用图3中的驾驶 车道网络作为主要行驶方向的定义。
[0073] 让我们将车辆的运动学状态用<x,0,d>,其中X =〈x,y>代表来车辆的方位,Θ代表 来车辆的朝向,而d={0,l}代表车辆运动的方向:前进(d = 0)或后退(d=l)。进一步地,我 们假设停车场的驾驶车道网络图G二已给出,让αΕ代表边E的角度。我们将一个点X 与图g之间的距离定义为:
[0074] = minX)(iT,x) E
[0075] 其中?(β,Χ)代表的是点x与边E之间的二维欧几里德距离。同样,我将一个定向点 <χ,Θ>与图夕之间的距离定义为:
[0076] T)(x,e,g)^ min 、:D (F, x) {E:\aE -e\<amin]
[0077] 换句话说,也就是点x和与车辆朝向的夹角小于一定阀值(amin)的最近边之间的距 离。
[0078]进一步,将R(s)定义为一个指标方程。当车辆在车道上时,R(s) = 1,换句话说,即 与图分之间的距离低于一个给定:尺〇)二1白D(xj) < 2)road〇
[0079] 最后,让0?二代表边E与轨迹上最近的点xi间的夹角。
[0080] 路径规划的目的是要最小化路径s = {<Xl,,cU>}的势能: (-Ofwd ^ llXj-Xi-ill+ω7.6ν ^ llXj - x^ill+ω5?ν ^ 1 ?. I £ ^ 1, 6?:? -- Ο £??^1, rfj -0 I '.Ctf.本 df - Σ ν~·* ||Xf -Χ^_ι|| + (^iane χ j>Q) i\R(si)=0 i + (^dir ^ sin2(2(0f: - at)) + 〇)curv ^ (δ χ?+1 -Δ x{)2 i i>i^<|s|
[0082]其中Δχ,ιχ,-χκ。上面各项分别代表了 :1)前进行驶轨迹的长度,2)后退行驶轨 迹的长度,3)运动方向在前行和后退之间转换的次数,4)偏离车道的轨迹长度,5)轨迹到车 道图:?之间的总计距离,6)轨迹方向与停车场中主要的行驶方向的偏离测量,和7)轨迹平 滑程度的测量。
[0083]势能方程中各项的权重定义了上文所说的加权向量ω,在学习过程中将会使用 到。
[0084]以上定义的路径规划问题是一个复杂的连续坐标最优化程序,有多个局部最小 值。为了能更有效率地进行运算,我们将运用一个两个阶段的方法。第一阶段,我们将运行 一个大致的离散的全局搜索,以找到在全局最优值附近的解;第二阶段我们将找到的解在 连续坐标上进一步的细化调整。
[0085] A ·全局搜索
[0086]进一步地,还包括步骤运行离散的全局搜索,用离散版本的位势场项取代连续坐 标版本中偏离车道相关的位势场项。
[0087]在第一阶段中,我们使用一个A星搜索算法的变型,利用一系列离散的控制动作, 应用在如上定义的车辆的四维运动学状态上。由于这个阶段中我们使用了一系列高度离散 话的控制动作,所以无法完整精确的将与轨迹本身属性相关的位势场项(比如平滑程度、偏 离测量)纳入考虑。因此,第一阶段中,我们只能考虑那些与全局的相关的位势场项。而局部 的特征只会在第二阶段的最优化算法中用到。
[0088]在这里,定义A星搜索算法的行为的主要元素是局部解的成本和成本启发式算法 (cost-to-go heuristics)。成本价值方程由等式3中的那些与全局相关的位势能项〈c〇fwd, ^ rev j ^ sw j ^ road j ω iane>定义。
[0089]由于全局搜索的离散性以及处于运算的原因,我们要用一个离散版本的相似位势 场项将连续坐标版本中的与偏离车道相关的位势场项取代。首先我们定义一个指标方程L (s),如果车辆在正确的车道上,也就是说车辆与车道图§之间的距离低于一个给定阀值 功ane的话,Us)就等于 1:L(S) = 1 仁>D(X,仏 f) < DZane.
[0090]与偏尚车道相关的位势场项被近似为:
[0091] iane 〉: Ι.Ιχ? - X.i-1II. i:i>i,L(Sj)=O
[0092] 换句话说,这一项计算的是(经过加权的)偏离车道的轨迹长度。
[0093] B.局部的轨迹平滑
[0094] 进一步地,还包括步骤,用共辄梯度下降法对轨迹本身属性相关的位势场项进行 优化。
[0095] 处于计算的考量,全局A星搜索算法使用的是一系列高度离散的控制动作,得到的 轨迹并不是最优化的轨迹。在算法的第二阶段,我们利用共辄梯度法,一种从运算角度上来 说非常有效率的连续坐标最优化方法,来进一步优化我们的结果。
[0096] 平滑算法用上文A部分的A星搜索算法得到的轨迹作为输入值。由于轨迹的全局行 为已经在上一个阶段确定了,所以等式3中的全局性的位势场项在第二阶段中已经不在有 利用意义了。在第二阶段中,我们的目标是要对由A星搜索算法得到的轨迹进行局部的调 整。
[0097] 因此,第二阶段用到的是等式3中与轨迹本身属性相关的局部位势场项<codir, ω。_,ω lane3>,而具体的优化中采取的是共辄梯度下降法。共辄梯度下降法的执行需要目标 方程的梯度,我们可以针对每一个位势场项将这个梯度计算出来。
[0098] C.轨迹演示案例
[0099] 通过对第一阶段和第二阶段所用到的位势场项的权重ω进行不同的设定,使我们 的轨迹规划算法能够去模仿广泛而多样的人类驾驶风格。图2展示了几个不同的典型轨迹 代表案例。在所有这些例子中,起始状态和目标状态的设定(起始状态和目标状态由车辆的 位置和方向<x,y,9>决定)都是一样的,算法所使用的位势场项也是一样的。唯一的区别就 是加权向量ω =〈cofwd, CO rev,CO sw,CO roac), CO lane , 〇 lane,〇 curv〉的 1^疋_不^问 〇
[0100] 图4中,灰色的物体代表了障碍物;起始状态由一个空心的长方形表示,而目标状 态由一个实心的长方形表示;路径的χ-y坐标根据路径规划模块的时间粒度,用一条虚线表 示,虚线上的小三角形指明了车辆的行驶方向。每当车辆不在车道上行驶时,即L(s)=0时, 虚线就会被换成更深色的虚线。当车辆完全在道路之外行驶时,即R(s)=0时,我们用比较 大的黑圆圈代替虚线上的点。双平行线的网络即为我们的驾驶车道网络图5。
[0101] 图4轨迹规划算法示例图,在设定不同的初始加权向量ω的情况下,生成的不同的 轨迹。这些轨迹模仿的是不同的全局和局部行为。
[0102] 图4a对应的,就是一个对改变方向的惩罚(c〇sw)低,后退行驶成本(corev)低的初始 加权向量设定下得出的轨迹。如果我们加重对改变方向的惩罚,加大后退行驶的成本,就会 得到如图4b所对应的轨迹一行驶了更长的距离才到达终点,但避免了后退行驶。如果加重 对轨迹方向与停车场中主要的行驶方向的偏离测量的权重(ω dir ),我们就会得到如图4c所 对应的轨迹一图4c的轨迹选择了与图4b轨迹大致相同的全局路径,但是与停车场中的主要 行驶方向更加一致,虽然它依然选择了从两排停车位中横穿过去。如果加重对偏离道路的 惩罚(co rciad),我们将会得到如图4d的轨迹一车辆不再横穿停车位,但是我们仍能观察到车 辆有时并不在正确的车道上行驶。最后,如果加强对偏离车道的惩罚(《 lane,,我们 会得到一条更加与正确车道吻合的轨迹,如图4e所示。
[0103] 3.4部分实验结果
[0104] 为了验证学徒学习算法是否能有效的"模仿"学习人类的驾驶行为。我们让一个司 机在停车场中进行驾驶以采集演示案例,这些案例被分为了三类:
[0105] ?"优秀类":要求司机尽最大可能在正确的车道行驶;
[0106] ?"草率类":告知司机他可以偏离正确车道,但只能一直前行行驶,不能倒车;
[0107] ?"后退类":告知司机在倒退行驶可以更快到达目的地时,允许倒退行驶;
[0108] 每一类型我们各收集五个案例,并运行我们的算法"学习"若干次,最后对比算法 生产的轨迹和案例轨迹。我们发现,算法学习到的驾驶行为跟司机所展示的驾驶行为非常 相似一它甚至学会了要靠右行驶。上文我们提到过,我们能通过对比轨迹规划结果的势能 方程累积值μ和演示案例的势能方程累积值μ Ε才衡量轨迹规划结果是否与演示案例足够接 近。表格1展示了一些关于μ,μΕ和ω的实验数据。
[0110] 表1
[0111] 请看图2,为一种基于学徒学习的路径规划装置,包括状态序列找寻模块200、加权 计算模块202、最佳路径模块204,所述状态序列找寻模块200用于找出路径规划问题中所有 的状态序列,所述加权计算模块202用于将状态序列的位势场项进行加权,计算总势场最低 的状态序列,所述最佳路径模块204用于根据总势场最低的状态序列得到最佳路径。通过上 述模块设计,能够找出满足路径规划问题的状态序列集合,通过计算状态序列中位势场项 加权总势场,达到计算最佳路径的效果。
[0112] 在进一步的实施例中,还包括先验获取模块206、当前解模块208、加权估计模块 210,所述先验模块206用于获取关于加权向量的先验知识集,所述当前解模块208用于从所 述先验知识集中随机挑选一个加权向量作为当前加权向量,根据当前加权向量求得路径规 划问题的当前解,所述加权估计模块210用于根据当前解计算势场项的累积势能值,根据累 积势能值找到下一个加权向量的估计,所述当前解模块208还用于将下一个加权向量的估 计作为当前加权向量并重复求解,直至找到最佳路径。通过上述设计,能够达到根据不同的 加权向量"预测"下一个加权向量的效果,更好地解决了路径规划的问题。
[0113] 其他一些实施例中,还包括全局搜索模块212,所述全局搜索模块212用于运行离 散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场项。使 得车辆的轨迹不易偏离车道,更好地解决了路径规划的问题。
[0114] 进一步地,还包括轨迹平滑模块214,所述轨迹平滑模块用于用共辄梯度下降法对 轨迹本身属性相关的位势场项进行优化。使得车辆的轨迹不易出现反复的转换,更好地解 决了路径规划的问题。
[0115] 具体地,所述位势场项包括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方 向的转换次数、偏离车道的轨迹长度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的 测量。
[0116]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些 要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终 端设备所固有的要素。在没有更多限制的情况下,由语句"包括……"或"包含……"限定的 要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此 外,在本文中,"大于"、"小于"、"超过"等理解为不包括本数;"以上"、"以下"、"以内"等理解 为包括本数。
[0117] 本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产 品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例 的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来 完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方 法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算 机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式 智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、R0M、磁碟、磁带、光盘、闪 存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
[0118] 上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的 流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每 一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机 程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指 令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的 功能的装置。
[0119] 这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设 备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造 品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指 定的功能。
[0120] 这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列 操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程 图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0121]尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创 造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例, 并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构 或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利 保护范围之内。
【主权项】
1. 一种基于学徒学习的路径规划方法,其特征在于,包括如下步骤,找出路径规划问题 中所有的状态序列,将状态序列的位势场项进行加权,计算总势场最低的状态序列,根据总 势场最低的状态序列得到最佳路径。2. 根据权利要求1所述的基于学徒学习的路径规划方法,其特征在于,还包括步骤,获 取关于加权向量的先验知识集,从所述先验知识集中随机挑选一个加权向量作为当前加权 向量,根据当前加权向量求得路径规划问题的当前解,根据当前解计算势场项的累积势能 值,根据累积势能值找到下一个加权向量的估计,将下一个加权向量的估计作为当前加权 向量并重复求解,直至找到最佳路径。3. 根据权利要求1所述的基于学徒学习的路径规划方法,其特征在于,还包括步骤,运 行离散的全局搜索,用离散版本的位势场项取代连续坐标版本中偏离车道相关的位势场 项。4. 根据权利要求1所述的基于学徒学习的路径规划方法,其特征在于,还包括步骤,用 共辄梯度下降法对轨迹本身属性相关的位势场项进行优化。5. 根据权利要求1所述的基于学徒学习的路径规划方法,其特征在于,所述位势场项包 括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方向的转换次数、偏离车道的轨迹长 度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的测量。6. -种基于学徒学习的路径规划装置,其特征在于,包括状态序列找寻模块、加权计算 模块、最佳路径模块,所述状态序列找寻模块用于找出路径规划问题中所有的状态序列,所 述加权计算模块用于将状态序列的位势场项进行加权,计算总势场最低的状态序列,所述 最佳路径模块用于根据总势场最低的状态序列得到最佳路径。7. 根据权利要求6所述的基于学徒学习的路径规划装置,其特征在于,还包括先验获取 模块、当前解模块、加权估计模块,所述先验模块用于获取关于加权向量的先验知识集,所 述当前解模块用于从所述先验知识集中随机挑选一个加权向量作为当前加权向量,根据当 前加权向量求得路径规划问题的当前解,所述加权估计模块用于根据当前解计算势场项的 累积势能值,根据累积势能值找到下一个加权向量的估计,所述当前解模块还用于将下一 个加权向量的估计作为当前加权向量并重复求解,直至找到最佳路径。8. 根据权利要求6所述的基于学徒学习的路径规划装置,其特征在于,还包括全局搜索 模块,所述全局搜索模块用于运行离散的全局搜索,用离散版本的位势场项取代连续坐标 版本中偏离车道相关的位势场项。9. 根据权利要求6所述的基于学徒学习的路径规划装置,其特征在于,还包括轨迹平滑 模块,所述轨迹平滑模块用于用共辄梯度下降法对轨迹本身属性相关的位势场项进行优 化。10. 根据权利要求6所述的基于学徒学习的路径规划装置,其特征在于,所述位势场项 包括:前进行驶轨迹的长度、后退形式轨迹的长度、运动方向的转换次数、偏离车道的轨迹 长度、轨迹与主要行驶方向的偏离测量或轨迹平滑程度的测量。
【文档编号】G01C21/34GK106017494SQ201610344023
【公开日】2016年10月12日
【申请日】2016年5月23日
【发明人】潘晨劲, 赵江宜
【申请人】福州华鹰重工机械有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1