驾驶方法及系统的制作方法_4

文档序号:9389080阅读:来源:国知局
+ar(t+2) +a2r(t+3) + …
[0155] 其中,R(t)表示未来无穷回报累加和,r(t+1)表示t+1时刻的增强信号,r(t+2) 表示t+2时刻的增强信号,r(t+3)表示t+3时刻的增强信号,a表示折算因子,参见上述公 式可知,对未来回报累加和影响最大的是t+1时刻的增强信号,t+2时刻、t+3时刻的增强信 号对未来回报累加和影响以指数形式衰减。
[0156] 示例地,避撞控制模块分别计算决策动作ul(t)、u2(t)和u3(t)的未来无穷回报 累加和。
[0157] 需要说明的是,当障碍物的位置为X(t)时,避撞控制模块执行X(t)对应的任意一 个决策动作都会改变障碍物的位置,使得障碍物的位置变为X(t+1),同时避撞控制模块会 得到X(t+1)对应的一个增强信号,当障碍物的位置为X(t+1)时,避撞控制模块执行X(t+1) 对应的任意一个决策动作都会改变障碍物的位置,使得障碍物的位置变为X(t+2),同时避 撞控制模块会得到X(t+2)对应的一个增强信号,依次类推。示例地,假设避撞控制模块执 行X(t)对应的决策动作ul(t),使得障碍物的位置变为X(t+1),避撞控制模块得到X(t+1) 对应的一个增强信号为rl(t+1),避撞控制模块执行X(t+1)对应的决策动作为ul(t+1),使 得障碍物的位置变为X(t+2),避撞控制模块得到X(t+2)对应的一个增强信号为rl(t+2), 依次类推,则可以根据上述未来无穷回报累加和计算公式得到决策动作ul(t)对应的未来 无穷回报累加和为Rl⑴=rl(t+l) +arl(t+2) +a2rl(t+3)+…
[0158] 在子步骤4043a中,将未来无穷回报累加和最大的决策动作作为目标决策动作。
[0159] 避撞控制模块计算得到目标可执行动作中的每个决策动作的未来无穷回报累加 和之后,可以从目标可执行动作中的所有决策动作的未来无穷回报累加和中确定出未来回 报累加和最大的决策动作,并将未来无穷回报累加和最大的决策动作作为目标决策动作。 示例地,假设决策动作ul(t)的未来无穷回报累加和为Rl(t),决策动作u2(t)的未来无穷 回报累加和为R2(t),决策动作u3(t)的未来无穷回报累加和为R3(t),且Rl(t) >R2(t) >R3 (t),则避撞控制模块将决策动作ul(t)作为目标决策动作。
[0160] 需要说明的是,参见表1可知,对于任意时刻t的障碍物的位置X(t),都会有多种 不同的决策动作可供驾驶系统选择。选择不同的决策动作意味着下一个时刻t+1的障碍物 的位置x(t+l)和对应的增强信号r(t+l)也会不同。虽然驾驶系统选择决策动作的标准是 依据于增强信号带来的回报,但这并不表示驾驶系统在t时刻要选择能在下一时刻带来最 大回报的决策动作。对于动态变化过程,最优决策动作选择的标准要依据于贝尔曼最优化 原则,即,要考虑该决策动作之后,余下(未来)所有可能存在的状态、可供选择的动作和反 馈的增强信号都要是最优的。
[0161] 还需要说明的是,在子步骤4041a之前,驾驶系统可以先通过机器学习算法得到 表1所示的障碍物的位置与可执行动作的对应关系。其中,学习的过程可以在计算机里进 行,可以在计算机(比如,在计算机的Matlab软件)里进行模拟实验,创建车辆行驶环境模 型,并设计多种插车情况,使车辆的驾驶系统能够自主学习避撞策略。学习后的驾驶系统可 以储存学习经验(如表1所示的对应关系),之后将驾驶系统安装到车辆上使用。
[0162]示例地,请参考图8,其示出的是图4所示实施例提供的一种通过机器学习算法确 定障碍物的位置与可执行动作的对应关系的示意图。参见图8,环境感知模块可以获取障碍 物的位置X(t),并将障碍物的位置X(t)发送至避撞控制模块,避撞控制模块可以根据障碍 物的位置X(t)做出决策动作u(t),该决策动作u(t)会改变车辆的位置,进而使得障碍物的 位置变为X(t+1),同时,环境感知模块会反馈给避撞控制模块一个增强信号r(t),该增强 信号r(t)表示执行决策动作u(t)后的立即回报,通常,增强信号可以以数值方式存在,不 同的数值用以评价做出的决策动作的"好"、"坏",且增强信号的数值越大表明对应的决策 动作越好,增强信号的数值越小表明对应的决策动作越差。同样,对于新的位置X(t+1),避 撞控制模块会做出新的决策动作U(t+1),并从得到一个增强信号r(t+l)。依次类推下去, 即避撞控制模块在每个时刻都会与环境感知模块交互,通过环境感知模块反馈的增强信号 的"好"、"坏",在线调节决策策略,以便在后续决策动作中获得最大的回报,使得整个决策 过程趋于最优,最终,可以根据增强信号确定决策动作的好坏,得到表1所示的对应关系。
[0163] 再示例地,请参考图9,其示出的是图4所示实施例提供的另一种根据障碍物的位 置,采用机器学习算法确定目标决策动作的方法流程图,参见图9,该方法流程可以包括如 下几个步骤:
[0164] 在子步骤4041b中,获取驾驶员的决策动作。
[0165] 在本发明实施例中,在车辆的行驶环境中会发生由障碍物引发的突发事件时,驾 驶员可以人为做出决策动作,比如,驾驶员人为操作方向盘,油门,刹车等。避撞控制模块可 以获取驾驶员的决策动作,示例地,避撞控制模块可以通过读取油门,刹车,方向盘的操作 数据,来获取驾驶员的决策动作。
[0166] 在子步骤4042b中,获取执行驾驶员的决策动作之后障碍物的第一位置。
[0167] 驾驶员做出的决策动作会改变车辆的位置,进而导致障碍物的位置发生改变,示 例地,执行驾驶员的决策动作之后障碍物的位置可以变为第一位置,因此,避撞控制模块可 以获取执行驾驶员的决策动作之后障碍物的第一位置,假设障碍物的第一位置为X(t+1), 则避撞控制模块可以获取障碍物的第一位置X(t+1)。
[0168] 示例地,请参考图10,其示出的是图4所示实施例提供的避撞控制模块获取执行 驾驶员的决策动作之后障碍物的第一位置的方法流程图,参见图10,在本发明实施例中, 避撞控制模块获取执行驾驶员的决策动作之后障碍物的第一位置的可以包括如下几个步 骤:
[0169] 在子步骤4042bl中,计算驾驶员的决策动作对应的未来n个状态的增强信号,得 到n个增强信号,n为大于或者等于1的整数。
[0170] 其中,未来n个状态也即是障碍物的未来的n个位置。假设驾驶员的决策动作为 表1所示的决策动作u2 (t),则该决策动作u2 (t)可以改变障碍物的位置,使得障碍物的位 置从X(t)改变为X(t+1),该障碍物的位置X(t+1)可以为驶员的决策动作u2(t)对应的 未来n个状态中的第一个状态,则避撞控制模块计算障碍物的位置X(t+1)对应的增强信 号,参见表1可知,障碍物的位置X(t+1)对应的增强信号包括rl(t+1)、r2 (t+1)、r3 (t+1) 和r4(t+1)共4个增强信号,且每个增强信号对应一个决策动作,因此,避撞控制模块计算 每个决策动作对应的未来n-1个状态的增强信号。示例地,避撞控制模块计算决策动作 ul(t+1)对应的增强信号rl(t+1),并计算执行决策动作ul(t+1)后障碍物的位置X(t+2), 假设该X(t+2)对应的决策动作对应的增强信号为rl(t+2),依次类推,避撞控制模块可以 得到n个增强信号。
[0171] 在子步骤4042b2中,判断n个增强信号中是否存在符合预设条件的增强信号。
[0172] 其中,在执行符合预设条件的增强信号对应的决策动作时,车辆与车辆的行驶环 境中的障碍物会发生碰撞。示例地,预设条件可以为增强信号小于或者等于-1,也即,避撞 控制模块判断n个增强信号中是否存在小于或者等于-1的增强信号。
[0173] 在子步骤4042b3中,若n个增强信号中存在符合预设条件的增强信号,则获取执 行驾驶员的决策动作之后障碍物的第一位置。
[0174] 若在步骤4042b2中,避撞控制模块确定n个增强信号中存在符合预设条件的增强 信号,说明驾驶员的决策动作存在误差,因此,可以由环境感知模块获取执行驾驶员的决策 动作之后障碍物的第一位置,进而由避撞控制模块根据执行驾驶员的决策动作之后障碍物 的第一位置对驾驶员的决策动作进行修正。
[0175] 在子步骤4043b中,从经验存储库中确定与障碍物的第一位置对应的目标可执行 动作。
[0176] 其中,经验存储库中记录了预先通过机器学习算法确定的障碍物的位置与可执行 动作的对应关系,每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决策 动作和与决策动作一一对应的增强信号,增强信号用于指示与增强信号一一对应的决策动 作在执行时的立即回报。
[0177] 在子步骤4044b中,计算目标可执行动作中的每个决策动作的未来无穷回报累加 和。
[0178] 在子步骤4045b中,将未来无穷回报累加和最大的决策动作作为目标决策动作。
[0179] 上述步骤4043b至步骤4045b的实现过程与图7所示实施例中的步骤4041a至 步骤4043a相同或者类似,其实现过程可以参考图7所示实施例中的步骤4041a至步骤 4043a,本发明实施例在此不再赘述。
[0180] 在步骤405中,根据目标决策动作控制车辆行驶。
[0181] 避撞控制模块确定目标决策动作后,可以根据目标决策动作控制车辆行驶。示例 地,避撞控制模块根据目标决策动作ul(t)控制车辆行驶。
[0182] 需要说
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1