停车入库方法及装置的制造方法_3

文档序号:9389079阅读:来源:国知局
il= 1000,最大移动步数 即预设步数MaxStep= 5。停车环境可以划分为至少两个面积相等的网格,每个网格对应一 个位置状态,而移动步数指的是车辆移动一次所经过的网格数。图2-2示出了机器学习算 法原理图,如图2-2所示,车辆上的停车入库系统先与无先验知识的停车环境(即虚拟停车 环境)实时交互,车辆自身感知车辆的当前状态量X(t),X(t)包括车辆在停车环境中的位 置及目标车位在停车环境中的位置,车辆感知到当前状态量之后,作出一个决策动作u(t), 该决策动作u(t)对应一组动作控制参数,该动作控制参数包括油门或刹车的力度值、方向 盘旋转的角度。该决策动作u(t)会改变车辆当前的位置状态,使得车辆从当前位置状态转 变到一个新的位置状态,相应获得一个新的状态量X(t+1)。与此同时,停车环境会反馈给 车辆一个增强信号r(t),该增强信号r(t)用于表示对决策动作u(t)的立即回报。本发明 实施例通过增强信号表示车辆受到的奖励或惩罚。通常,增强信号用数值来表示,数值的大 小表示决策动作的"好"与"坏"。同样,对于新的状态量X(t+1),车辆也会做出新的决策动 作u(t+1),并从停车环境中获取一个新的增强信号r(t+1)。以此类推,即车辆在每个时刻 都会与停车环境交互,根据停车环境反馈的增强信号值,在线调节动作策略,以便在后续决 策动作中获得最大的回报。
[0100] 随机选取车辆的状态,并将该状态作为车辆的初始状态。当车辆处于初始状态时, 试验次数trail= 0。每一次试验开始时,移动步数step= 0。车辆的状态指的是车辆在 停车环境中的位置及目标车位在停车环境中的位置。本发明实施例将停车环境离散化,如 可以将停车环境划分为多个网格,每个网格对应一个位置状态,如图2-3所示的停车环境 被划分为11*9个网格,通常,车辆从当前位置行驶至目标车位,需要经过多个网格。图2-3 中的231表示其他车辆,232也表示其他车辆,233表示本车,234表示目标车位。需要补充 说明的是,实际应用中,停车环境被划分的网格数远比图2-3中的网格数多得多,本发明实 施例对此不作限定。
[0101] 示例的,可以在车辆上安装雷达和摄像机,通过雷达和摄像机实时检测车辆的状 态,获取车辆的状态信息,如通过雷达检测目标车位的边界和其他车辆,通过摄像机检测车 位线。其中,其他车辆为障碍车,障碍车和目标车位的边界为障碍物。当车辆处于初始状态 时,车辆可以随机产生一个决策动作,进而得到第一动作控制参数。
[0102] 步骤202、根据第一动作控制参数调整本车的位置状态,调整后的本车的位置状态 为第一位置状态。执行步骤203。
[0103] 当车辆处于初始状态时,根据该初始状态信息确定第一动作控制参数,进而根据 该第一动作控制参数调整车辆的位置状态,使得车辆到达一个新的位置状态即第一位置状 态,此时,移动步数step=step'+l,step'表示车辆处于上一位置状态时对应的移动步数。
[0104] 步骤203、判断本车与障碍物是否发生碰撞。若本车与障碍物发生碰撞,执行步骤 204 ;若本车与障碍物未发生碰撞,执行步骤207。
[0105] 判断车辆与障碍物是否发生碰撞,具体的,可以判断车辆与障碍车是否发生碰撞, 或车辆是否行使至目标车位的边界。若本车与障碍物发生碰撞,则按照步骤204根据增强 学习算法更新增强信号值,并进行下一次试验,重新随机选取车辆的初始状态,最终获取增 强学习算法的输出参数,从而确定车辆的目标行驶路径,若本车与障碍物未发生碰撞,则检 测本车是否到达目标车位。
[0106] 步骤204、将本车处于第一位置状态时在停车环境中的位置信息和目标车位在停 车环境中的位置信息作为机器学习算法的输入参数,得到机器学习算法的输出参数。执行 步骤205。
[0107] 若车辆与障碍物发生碰撞,根据机器学习算法确定车辆的目标行驶路径。具体的, 可以通过增强学习算法确定目标行驶路径。则步骤204具体包括:将本车处于第一位置状 态时在停车环境中的位置信息和目标车位在停车环境中的位置信息作为增强学习算法的 输入参数,得到增强学习算法的输出参数。
[0108] 增强学习算法能够解决的问题是:一个能够感知停车环境的车辆,怎样通过学习 选择能到达目标车位的最优决策动作。当车辆在停车环境中每执行一个决策动作时,车辆 都会被给予奖励或惩罚,通过奖励或惩罚使车辆学习到执行该决策动作到一个新的位置状 态是否正确。如当车辆到达目标车位时被给予奖励即正回报,当车辆与障碍物发生碰撞时 被给予惩罚即负回报,其他情况车辆被既不给予奖励也不给予惩罚即零回报。车辆的任 务就是从这个非直接的,有延迟的回报中自我学习,以便在后续决策动作中获得最大的回 报。本发明实施例通过增强信号表示车辆受到的奖励或惩罚,示例的,增强信号的设置规则 可以为:车辆到达目标车位获得增强信号r= +1,车辆与障碍物发生碰撞获得增强信号r =-1,其他状态下车辆获得增强信号r= 0。
[0109] 为了确定车辆的目标行驶路径,采用增强学习算法更新增强信号值。相应的,步骤 204如图2-4所示,可以包括:
[0110] 步骤2041、根据预设增强信号、本车处于第一位置状态时在停车环境中的位置信 息、目标车位在停车环境中的位置信息确定第一增强信号。
[0111] 预设增强信号用于表示本车到达目标车位的可靠程度,第一增强信号用于表示本 车从一个位置状态转移到另一个位置状态的增强信号。
[0112] 步骤2042、根据增强学习算法对第一增强信号进行更新,得到第二增强信号。
[0113] 第二增强信号用于表示本车在任一位置状态选择第三动作控制参数获得的增强 信号,任一位置状态对应至少一个动作控制参数,第三动作控制参数为至少一个动作控制 参数中的任一参数。
[0114] 步骤2043、根据第二增强信号确定本车在各个位置状态对应的增强信号,得到增 强信号组。
[0115] 本发明实施例以图2-5至图2-7为例对步骤2041至步骤2043的具体过程进行说 明。图2-5至图2-7示出了更新增强信号值的原理图,图2-5至图2-7中的9个网格表示 车辆可能位于停车环境中的9个位置状态,这9位置状态分别为Sl至S9。本发明实施例假 设S3为目标车位。如图2-5所示,箭头用于指示车辆选择某一决策动作后从一个位置状态 转移到另一位置状态,箭头旁边的数字表示预设增强信号。示例的,按照增强信号的设置规 贝1J,车辆从位置状态Sl转移到位置状态S2的增强信号rl2 (图2-5中未标识)为0,车辆从 位置状态S2转移到位置状态S3的增强信号r23(图2-5中未标识)为1。增强信号rl2、 增强信号r23或其他增强信号均为第一增强信号。
[0116] 采用增强更新公式,对第一增强信号进行更新,得到第二增强信号,该增强更新公 式为:
[0117]
[0118] 其中,r为第一增强信号即决策动作对应的立即回报,表示车辆从当前位置状态转 移到下一个位置状态的增强信号,a为折算因子,示例的,a可以为0.8。X表示当前位置 状态,X'表示下一个位置状态,u'表示下一位置状态对应的决策动作,maxQ(x',u')表示 车辆在下一位置状态选择决策动作时产生的最大增强信号,为第二增强信号,表 示车辆在当前位置状态选择某一决策动作对应的动作控制参数获得的增强信号。假设对图 2-5中的增强信号rl2进行更新,则采用增强更新公式可以得到:
[0119]
[0120] 从而得到rl2对应的第二增强信号Q12为0. 8。同理可以得到。丨,H4), 6CS1,H4),6(57^2丨),0(S2,r23),6(S2,r25)等。多次更新后的增强信 号如图2-6所示,图2-6中箭头用于指示车辆选择某一决策动作后从一个位置状态转移到 另一位置状态,箭头旁边的数字表示第二增强信号即Q值,该Q值也表示车辆从一个位置状 态选择一个决策动作对应的动作控制参数获得的最大累计增强信号。
[0121] 接着在图2-6的基础上,根据最大值公式,确定车辆在各个位置状态对应的增强 信号,得到增强信号组。该最大值公式为:
[0123]其中,X表示当前位置状态,u表示当前位置状态对应的决策动作,V#(X)表示车辆 在当前位置状态对应的增强信号。示例的,当X为图2-6中的Sl时,则由最大值公式可得到 V*(S1) =max[0. 8, 0? 51] = 0? 8。同理可以得到V*(S2) =max[0. 64, 1,0? 64] = 1,V*(S4) =max[0. 64, 0? 64, 0? 41] = 0? 64,V*(S5) =max[0. 8, 0? 51,0? 8, 0? 51] = 0? 8,V*(S6)= max[1,0. 64, 0. 64] =I等。确定的车辆在各个位置状态对应的
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1