智能调头方法及装置的制造方法_3

文档序号：9389077阅读：来源：国知局

从状态A到状态B的决策动作时，由于状态B不是目标状态，所以执行该决策动作获取到的增强信号为0。
[0116] 202、在一次试验过程中，生成试验状态信息，该试验状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角。
[0117] 由于Q学习算法是一个通过学习获得最优控制策略的过程，而在学习智能调头方法时，车辆要从成功和失败的经验中学会如何在不同的状态信息下使用最少的步数实现调头，因此，在每一次试验开始时，都要随机生成本次试验中车辆的状态信息，该状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角，针对该状态信息学习如何完成车辆的调头任务。
[0118] 例如，在图2C中，状态1、状态2、状态3和状态4表示在本次试验中车辆完成一次调头任务所处的四种状态，其中，状态1是车辆在调头前的初始状态该，该状态的状态信息包括车道宽度为D、车辆在车道中的位置以及车辆与车道边界的夹角0°，其中车辆在车道中的位置是指车辆与车道两个边界的距离；状态4是车辆完成调头后的状态，也即是目标状态，该状态的状态信息包括车道宽度为D、车辆在车道中的位置以及车辆与车道边界的夹角 180。。
[0119] 203、根据该试验状态信息，生成试验决策动作，该试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度。
[0120] 根据该试验状态信息，交替生成前进的决策动作和后退的决策动作，因为生成该试验决策动作的个数即为步骤201中的移动步数，所以为了尽量减少该移动步数，采用交替生成前进的决策动作和后退的决策动作的方式生成试验决策动作。
[0121] 根据试验状态信息生成试验决策动作，具体是指根据车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角，生成试验决策动作，该试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度。
[0122] 该试验决策动作的具体生成方式可以为：根据车辆在车道中的位置、车道宽度以及车辆与车道边界的夹角确定方向盘的转动角度，距离车道边界越远，方向盘转动角度越大；根据车辆在车道中的位置以及上一次生成的决策动作确定本次决策动作，如果上一次生成的决策动作为前进的决策动作，则本次生成的决策动作为后退的决策动作，如果上一次生成的决策动作为后退的决策动作，则本次生成的决策动作为前进的决策动作；根据车辆在车道中的位置、车道宽度确定前进或者后退时间以及前进或者后退速度。
[0123] 204、执行该试验决策动作后，判断该车辆是否出界。
[0124] 通过检测在执行该试验决策动作后车辆在车道中的位置，获取该车辆与车道两侧边缘的距离，如果该车辆与车道任一侧边缘的距离不大于指定阈值时，则认为该车辆出界，因为在调头方法的学习过程中，车辆为计算机中的模拟车辆，因此不存在车辆损坏的情况，因此可以将该指定阈值设置为0,为了确保在实际使用中的安全性，也可以将该指定阈值设置为任一大于〇的数值，本发明实施例对此不作具体限定。
[0125]205、当该车辆出界时，执行下一轮试验过程。
[0126] 当该车辆出界时，结束本次试验，对试验次数执行加1操作后，进行下一次试验，即重复执行步骤202及其以后步骤。
[0127] 206、当该车辆未出界时，判断该车辆是否到达该目标状态。
[0128] 判断车辆是否到达目标状态的方法可以为以下两种：
[0129] 第一种、根据车辆从初始状态变为目标状态车辆角度变化是否在指定阈值范围内，判断该车辆是否到达目标状态，该指定阈值范围可以为[160°，200° ]，也即是，通过判断车辆旋转角度是否在该指定阈值范围内，判断该车辆是否到达目标状态；例如，在初始状态时，设定车辆与参考边界的夹角为20°，经过执行若干次（不大于7次）决策动作后到达的状态中，如果该车辆与左侧边界的夹角为190°，该角度变化值即为170°，在该指定阈值范围内，认为该车辆到达目标状态，如果该车辆与左侧边界的夹角为150°，该角度变化值即为130°，不在该指定阈值范围内，认为该车辆未到达目标状态；上述指定阈值范围可由相关领域的技术人员自行设置。
[0130] 第二种、根据车辆到达目标状态后该车辆与车道边界的夹角是否在指定阈值范围内，判断车辆是否到达目标状态，该指定阈值范围可以为[160°，200° ];如图2C所示，当车辆在初始状态时，车头方向与B侧的夹角为0°，经过执行若干次（不大于7次）决策动作后到达的状态中，如果车头方向与B侧的夹角为180°，该夹角的值在指定阈值范围内，认为该车辆到达目标状态，如果车头方向与B侧的夹角为150°时，该夹角的值不在指定阈值范围内，认为该车辆未到达目标状态；上述指定阈值范围可由相关领域的技术人员自行设置。
[0131] 除上述方法外，还可以采用其他方法判断车辆是否到达目标状态，本发明实施例对此不作限定。
[0132] 207、当该车辆到达该目标状态时，更新该调头策略值表，执行下一轮试验过程，直到达到该试验次数。
[0133] 调头策略值表的更新方法可以包括如下步骤：
[0134]步骤一、当该车辆到达该目标状态时，根据本次试验的所用移动步数，获取本次试验过程中每一步的车辆状态以及车辆从一个车辆状态变化为下一个车辆状态时所获得的增强信号；判断在该调头策略值表中是否存在第一状态和第二状态，该第一状态为该本次试验中一个车辆状态，该第二状态为该本次试验中第一状态的下一个状态。
[0135] 根据Q学习算法更新调头策略值表的方法可以以图2B为例进行具体说明：
[0136] 在图2B中，（a)图为获取掉头策略值表过程中产生的初始值表，在该初始值表中， G为目标状态，A、B、C、D、E、F、H、I的状态信息为空，对应的状态量为0,状态F和状态H到达状态G所执行决策动作获取的增强信号为100,其他状态之间变化所执行决策动作获取的增强信号均为0。
[0137] 当进行完一次试验后，如果车辆在最大移动步数内到达目标状态，也即是移动步数小于最大移动步数时完成调头任务时，获取本次试验过程中每一步的车辆状态以及车辆从一个车辆状态变化为下一个车辆状态时所获得的增强信号；例如，图2B中的（b)图为Q 值表，在图2B中的（b)图中，如果在本次试验中，车辆从初始状态C，经过状态D、状态I、状态H到达目标状态G，车辆的移动步数为4步：状态C-状态D，状态D-状态I，状态I- 状态H，状态H-状态G，该移动步数小于最大移动步数，认为本次试验成功，获取状态C、状态D、状态I、状态H和状态G的状态信息，并根据Q学习算法分别获取状态C-状态D、状态 D-状态I、状态I-状态H、状态H-状态G所执行决策动作获取的增强彳目号，具体方法可以为：
[0138] 设Q为从一个状态变化为另一个状态所执行决策动作获取的增强信号，将从状态 C-状态D、状态D-状态I、状态I-状态H、状态H-状态G所执行的决策动作分别记为 C-D、D-I、I-H、H-G，根据式
获取状态变化所执行决策动作获取的增强信号，其中，u和u'表示决策动作，X和X'表示状态信息，表示执行决策动作u后到达状态X获取的增强信号，
表示由状态X'变化为其临近状态所执行对应决策动作获取到的增强信号中的最大增强信号，r为增强信号，当到达目标状态时，r为100,当未到达目标状态时，r为0,a为折算因子，本发明实施例取0.8,也可以取其他任何大于0小于1的值，本发明实施例对此不作限定；根据上式可得：
[0141] 图2B中的（b)图中对应箭头上方的数值即为执行相应决策动作获取的增强信号，
[0142] 根据该调头策略值表中是否存在第一状态和第二状态，该步骤二可以包括以下几种情况：
[0143] 第一种情况、当该第一状态和该第二状态都不存在时，存储该第一状态、该第二状态以及目标决策动作获得的增强信号至该调头策略值表中，该目标决策动作为从第一状态变化为第二状态的决策动作。
[0144] 第二种情况、当该第一状态存在且该第二状态不存在时，存储该第二状态以及该目标决策动作获得的增强信号至该调头策略值表中。
[0145] 例如，当经过该试验之前的试验得到的调头策略值表中不包括状态C、状态D、状态I、状态H时，将这4个状态的状态信息及对应决策动作获取的增强信号存储至该调头策略值表中；如果状态C已存在，而状态D不存在时，将状态D的状态信息即从状态C变化为状态D所执行决策动作获取的增强信号存储至该调头策略值表中。
[0146] 第三种情况、当该第一状态和该第二状态都存在时，判断是否存在该目标决策动作获得的增强信号；当存在该目标决策动作获得的增强信号时，存储所有该目标决策动作获得的增强信号中的最大增强信号至该调头策略值表中；当不存在该目标决策动作获得的增强信号时，存储该目标决策动作获得的增强信号至该调头策略值表中；根据从该第一状态变化为该第二状态的决策动作获得的增强信号，获取该第一状态的状态量，该第一状态的状态量为从该第一状态至其所有临近状态的决策动作获得的增强信号中的最大增强信号。
[0147] 当在经过该试验之前的试验得到的调头策略值表中包括状态C和状态D且存在从状态C变化为状态D所执行决策动作获得的增强信号时，如图2B中的（e)图和图2B中的 (f)图分别表示包括状态C和状态D的经过该试验之前的试验得到的调头策略值表和经过该试验后更新得到的调头策略值表，在图2B中的（e)图中，（?(CC^Z>)=:41，而经过该试验获得从状态C到状态D所执行决策动作获得的增强信号为：
[0148]
[0149] 因此，用= 替换得到图2B中的（f)图更新后的调头策略值表。
[0150] 当在经过该试验之前的试验得到的调

完整全部详细技术资料下载

当前第3页1 2 3 4 5