移动体控制装置、移动体控制方法及存储介质与流程

文档序号:26838889发布日期:2021-10-08 19:49阅读:169来源:国知局

1.本发明涉及移动体控制装置、移动体控制方法及存储介质。


背景技术:

2.近年来,关于不依赖于由驾驶员进行的驾驶操作而使车辆自动地行驶的自动驾驶技术,研究及实用化正在被推进(例如专利文献1)。
3.【在先技术文献】
4.【专利文献】
5.专利文献1:日本特开2019

144668号公报


技术实现要素:

6.发明要解决的课题
7.在进行自动驾驶或高度的驾驶支援方面,由于信息处理的复杂化,存在进行迅速的控制变得困难这样的课题。关于这点,不限于车辆,在自主地移动的移动体的移动控制中也是同样的。
8.本发明是考虑这样的情况而完成的,其目的之一在于,提供能够迅速地进行与场景相应的必要的控制的移动体控制装置、移动体控制方法及存储介质。
9.用于解决课题的方案
10.本发明的移动体控制装置、移动体控制方法及存储介质采用了以下的结构。
11.(1):本发明的一方案的移动体控制装置具备:第一控制部,其基于将移动体的周边的空间作为检测范围的检测器件的输出,来识别所述移动体的周边状况,并基于所述识别的所述移动体的周边状况,以第一周期生成所述移动体的第一移动规划;以及第二控制部,其以比所述第一周期短的第二周期生成所述移动体的第二移动规划,所述第二控制部生成标签数据,并基于所述标签数据来生成所述第二移动规划,该标签数据是指,对于将所述移动体的周边的空间进行有限个数分割得到的分割要素,分别赋予至少根据移动物体目标的有无而表示不同的值的标签信息得到的数据。
12.(2):在上述(1)的方案的基础上,所述第二控制部在所述标签数据中,对于所述移动物体目标、不可行驶区域及可行驶区域分别赋予互不相同的值的所述标签信息。
13.(3):在上述(1)或(2)的方案的基础上,所述第二控制部以所述第二周期生成所述标签数据。
14.(4):在上述(1)至(3)中任一方案的基础上,至少在规定的场景中,所述第二移动规划比所述第一移动规划优先地用于所述移动体的移动控制中。
15.(5):在上述(1)至(4)中任一方案的基础上,所述第二处理部对于以当输入包含标签数据的输入数据时输出用于避免与所述移动物体目标接触的移动规划的方式进行了学习的模型,输入所述生成的标签数据,由此取得所述第二移动规划。
16.(6):在上述(5)的方案的基础上,所述输入数据包括最近生成的最近标签数据、过
去生成的过去标签数据、以及预想表示将来的状态的将来标签数据。
17.(7):在上述(6)的方案的基础上,所述输入数据中包含相比于所述将来标签数据而与较长时间的期间相当的所述过去标签数据。
18.(8):在上述(6)或(7)的方案的基础上,在所述输入数据中包含与时间比所述第一周期长的期间相当的所述过去标签数据。
19.(9):在上述(6)至(8)中任一方案的基础上,在所述输入数据中包含与时间比所述第一周期短的期间相当的所述将来标签数据。
20.(10):在上述(5)至(9)中任一方案的基础上,所述第二控制部判定所述输入数据是否为表示已知情景的输入数据,在判定为表示已知情景的输入数据的情况下,基于所述模型所输出的第二移动规划来进行所述移动体的移动控制,在判定为不是表示已知情景的输入数据的情况下,进行不使所述移动体的转向控制执行而进行专门输出制动力的移动控制,或者进行与判定为表示已知情景的输入数据的情况相比限制了所述转向控制的程度的移动控制。
21.(11):在上述(5)至(11)中任一方案的基础上,所述模型是通过基于报酬进行的强化学习而学习了参数的模型,该报酬通过对所述模型的输出进行评价的报酬函数进行计算。
22.(12):本发明的另一方案涉及一种移动体控制方法,其中,所述移动体控制方法使计算机执行:第一处理,基于将移动体的周边的空间作为检测范围的检测器件的输出来识别所述移动体的周边状况,并基于所述识别的所述移动体的周边状况,以第一周期生成所述移动体的第一移动规划;以及第二处理,以比所述第一周期短的第二周期生成所述移动体的第二移动规划,所述第二处理是以所述第二周期生成标签数据并基于所述标签数据来生成所述第二移动规划的处理,该标签数据是指,对于将所述移动体的周边的空间进行有限个数分割得到的分割要素,分别赋予至少根据移动物体目标的有无而表示不同的值的标签信息得到的数据。
23.(13):本发明的另一方案涉及一种存储介质,其存储有程序,其中,所述程序使计算机执行:第一处理,基于将移动体的周边的空间作为检测范围的检测器件的输出来识别所述移动体的周边状况,并基于所述识别的所述移动体的周边状况,以第一周期生成所述移动体的第一移动规划;以及第二处理,以比所述第一周期短的第二周期生成所述移动体的第二移动规划,所述第二处理是以所述第二周期生成标签数据并基于所述标签数据来生成所述第二移动规划的处理,该标签数据是指,对于将所述移动体的周边的空间进行有限个数分割得到的分割要素,分别赋予至少根据移动物体目标的有无而表示不同的值的标签信息得到的数据。
24.(14):本发明的另一方案涉及一种移动体控制装置,其中,所述移动体控制装置具备基于将移动体的周边的空间作为检测范围的检测器件的输出来进行所述移动体的移动控制的控制部,所述控制部进行如下处理:对于以当输入输入数据时输出用于抑制与移动物体目标接触的移动规划的方式学习的模型,输入基于所述检测器件的输出得到的输入数据,由此取得所述移动规划,判定向所述模型输入的输入数据是否为表示已知情景的输入数据,在判定为表示已知情景的输入数据的情况下,基于所述模型所输出的移动规划来进行所述移动体的移动控制,在判定为不是表示已知情景的输入数据的情况下,进行不使所
述移动体的转向控制执行而专门输出制动力的移动控制,或者进行与判定为表示已知情景的输入数据的情况相比限制了所述转向控制的程度的移动控制。
25.(15):在上述(14)的方案的基础上,所述模型是通过基于报酬进行的强化学习而学习了参数的模型,该报酬通过对所述模型的输出进行评价的报酬函数来计算。
26.发明效果
27.根据上述(1)~(13)的方案,能够迅速地进行与场景相应的必要的控制。
28.根据上述(14)、(15)的方案,鉴于在以往的技术中,在使用模型进行控制的情况下若非已知情景则难以预测结果这方面问题,能够抑制发生模型所带来的预料不到的行为。
附图说明
29.图1是利用了实施方式的移动体控制装置的车辆系统的结构图。
30.图2是自动驾驶控制装置的功能结构图。
31.图3是表示由风险分布预测部设定的风险的概要的图。
32.图4是表示标签数据的一例的图。
33.图5是用于说明标签数据生成部的补充处理的图。
34.图6是表示输入数据的推移的一例的图。
35.图7是示意性地表示使行动决定模型学习的构成的图。
36.图8是示意性地表示行为决定部的处理内容的图。
37.图9是表示实施方式的自动驾驶控制装置的硬件结构的一例的图。
具体实施方式
38.以下,参照附图来说明本发明的移动体控制装置、移动体控制方法及存储介质的实施方式。移动体是指车辆、自主步行机器人、无人机等能够通过自身所具备的驱动机构而自主地移动的构造体。在以下的说明中,以移动体是在地上移动的车辆为前提,专门说明用于使车辆在地上移动的结构及功能,但在移动体是无人机等飞翔体的情况下,飞翔体可以具备用于在三维空间移动的结构及功能。
39.[整体结构]
[0040]
图1是利用了实施方式的移动体控制装置的车辆系统1的结构图。搭载车辆系统1的车辆例如是二轮、三轮、四轮等的车辆,其驱动源是柴油发动机、汽油发动机等内燃机、电动机、或者它们的组合。电动机使用由与内燃机连结的发电机发出的发电电力、或者二次电池、燃料电池的放电电力来进行动作。
[0041]
车辆系统1例如具备相机10、雷达装置12、lidar(light detection and ranging)14、物体识别装置16、通信装置20、hmi(human machine interface)30、车辆传感器40、导航装置50、mpu(map positioning unit)60、驾驶操作件80、自动驾驶控制装置100、行驶驱动力输出装置200、制动装置210及转向装置220。这些装置、设备通过can(controller area network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。需要说明的是,图1所示的结构只是一例,可以省略结构的一部分,也可以还追加别的结构。
[0042]
相机10例如是利用了ccd(charge coupled device)、cmos(complementary metal oxide semiconductor)等固体摄像元件的数码相机。相机10安装于搭载车辆系统1的车辆
(以下称作本车辆m)的任意部位。在对前方进行拍摄的情况下,相机10安装于前风窗玻璃上部、车室内后视镜背面等。相机10例如周期性地反复对本车辆m的周边进行拍摄。相机10也可以是立体相机。
[0043]
雷达装置12向本车辆m的周边放射毫米波等电波,并且检测由物体反射的电波(反射波)来至少检测物体的位置(距离及方位)。雷达装置12安装于本车辆m的任意部位。雷达装置12也可以通过fm

cw(frequency modulated continuous wave)方式来检测物体的位置及速度。
[0044]
lidar14向本车辆m的周边照射光(或与光接近的波长的电磁波),并测定散射光。lidar14基于从发光到受光的时间,来检测直至对象的距离。照射的光例如是脉冲状的激光。lidar14安装于本车辆m的任意部位。
[0045]
物体识别装置16对由相机10、雷达装置12及lidar14中的一部分或全部检测的检测结果进行传感器融合处理,来识别物体的位置、种类、速度等。物体识别装置16将识别结果向自动驾驶控制装置100输出。物体识别装置16可以将相机10、雷达装置12及lidar14的检测结果直接向自动驾驶控制装置100输出。也可以从车辆系统1省略物体识别装置16。
[0046]
通信装置20例如利用蜂窝网、wi

fi网、bluetooth(注册商标)、dsrc(dedicated short range communication)等,来与存在于本车辆m的周边的其他车辆通信,或者经由无线基站而与各种服务器装置通信。
[0047]
hmi30对本车辆m的乘员提示各种信息,并且接受由乘员进行的输入操作。hmi30包括各种显示装置、扬声器、蜂鸣器、触摸面板、开关、按键等。
[0048]
车辆传感器40包括检测本车辆m的速度的车速传感器、检测加速度的加速度传感器、检测绕铅垂轴的角速度的横摆角速度传感器、检测本车辆m的朝向的方位传感器等。
[0049]
导航装置50例如具备gnss(global navigation satellite system)接收机51、导航hmi52、路径决定部53。导航装置50在hdd(hard disk drive)、闪存器等存储装置中保持有第一地图信息54。gnss接收机51基于从gnss卫星接收到的信号来确定本车辆m的位置。本车辆m的位置也可以由利用了车辆传感器40的输出的ins(inertial navigation system)确定或补充。导航hmi52包括显示装置、扬声器、触摸面板、按键等。导航hmi52也可以一部或全部与前述的hmi30共用化。路径决定部53例如参照第一地图信息54来决定从由gnss接收机51确定的本车辆m的位置(或者输入的任意的位置)到由乘员使用导航hmi52而输入的目的地为止的路径(以下称作地图上路径)。第一地图信息54例如是通过表示道路的路段和由路段连接的节点来表现道路形状的信息。第一地图信息54也可以包括道路的曲率、poi(point ofinterest)信息等。地图上路径向mpu60输出。导航装置50也可以基于地图上路径来进行使用了导航hmi52的路径引导。导航装置50例如也可以通过乘员持有的智能手机、平板终端等终端装置的功能来实现。导航装置50也可以经由通信装置20向导航服务器发送当前位置和目的地,并从导航服务器取得与地图上路径同等的路径。
[0050]
mpu60例如包括推荐车道决定部61,在hdd、闪存器等存储装置中保持有第二地图信息62。推荐车道决定部61将从导航装置50提供的地图上路径分割为多个区块(例如在车辆行进方向上按每100[m]进行分割),并参照第二地图信息62而按每个区块决定推荐车道。推荐车道决定部61进行在从左数第几个车道上行驶这样的决定。推荐车道决定部61在地图上路径存在分支部位的情况下,决定推荐车道以使本车辆m能够在用于向分支目的地行进
的合理的路径上行驶。
[0051]
第二地图信息62是比第一地图信息54高精度的地图信息。第二地图信息62例如包括车道的中央的信息或车道的边界的信息等。另外,第二地图信息62中也可以包括道路信息、交通限制信息、住所信息(住所、邮政编码)、设施信息、电话号码信息等。第二地图信息62也可以通过通信装置20与其他装置通信而随时被升级。
[0052]
驾驶操作件80例如包括油门踏板、制动踏板、换挡杆、转向盘、异形转向器、操纵杆、其他操作件。在驾驶操作件80上安装有检测操作量或操作的有无的传感器,其检测结果向自动驾驶控制装置100、或者行驶驱动力输出装置200、制动装置210及转向装置220中的一部分或全部输出。
[0053]
自动驾驶控制装置100例如具备第一控制部120、第二控制部160、第三控制部190。第一控制部120、第二控制部160及第三控制部190分别例如通过cpu(central processing unit)等硬件处理器执行程序(软件)来实现。另外,这些构成要素中的一部分或全部可以通过lsi(large scale integration)、asic(application specific integrated circuit)、fpga(field

programmable gate array)、gpu(graphics processing unit)等硬件(包含电路部:circuitry)来实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于自动驾驶控制装置100的hdd、闪存器等存储装置(具备非暂时性的存储介质的存储装置),也可以保存于dvd、cd

rom等能够装卸的存储介质,并通过存储介质(非暂时性的存储介质)装配于驱动装置装配而安装于自动驾驶控制装置100的hdd、闪存器。自动驾驶控制装置100是“移动体控制装置”的一例。
[0054]
图2是自动驾驶控制装置100的功能结构图。第一控制部120例如具备识别部130、风险分布预测部135、行动计划生成部140。
[0055]
第一控制部120例如预测其他交通参加者(是指车辆、行人、自行车等可能成为移动物体目标的所有物体)的将来行动,并基于交通参加者的当前位置将将来位置表现为风险(后述),而且不可行驶区域也通过风险来表现,以使风险成为最小的方式通过逐次优化算法来决定本车辆m的将来行动。第一控制部120以第一周期执行以下说明的处理。第一周期是例如百[msec]~数百[msec]程度的周期。“以第一周期执行”是指,至少最终的处理结果即目标轨道的输出以第一周期进行。
[0056]
识别部130基于从相机10、雷达装置12及lidar14经由物体识别装置16而输入的信息,来识别处于本车辆m的周边的物体的位置、速度、加速度等状态。物体的位置例如被识别为以本车辆m的代表点(重心、驱动轴中心等)为原点的绝对坐标上的位置,并使用于控制。物体的位置可以通过该物体的重心、角部等代表点来表示,也可以通过表现出的区域来表示。物体的“状态”也可以包括物体的加速度、加加速度、或者“行动状态”(例如是否正进行车道变更或要进行车道变更)。
[0057]
另外,识别部130例如识别本车辆m行驶着的车道(行驶车道)。例如,识别部130将从第二地图信息62得到的道路划分线的图案(例如实线与虚线的排列)与根据由相机10拍摄到的图像而识别出的本车辆m的周边的道路划分线的图案进行比较,由此识别行驶车道。需要说明的是,识别部130不限于识别道路划分线,也可以通过识别道路划分线、包括路肩、缘石、中央隔离带、护栏等在内的行驶路边界,来识别行驶车道。在该识别中,也可以加进从导航装置50取得的本车辆m的位置、由ins处理的处理结果。另外,识别部130识别暂时停止
线、障碍物、红灯、收费站、其他道路现象。
[0058]
识别部130在识别行驶车道时,识别本车辆m相对于行驶车道的位置、姿态。识别部130例如也可以识别本车辆m的基准点从车道中央的偏离、以及本车辆m的行进方向相对于将车道中央相连的线所成的角度,来作为本车辆m相对于行驶车道的相对位置及姿态。也可以代替于此,识别部130识别本车辆m的基准点相对于行驶车道的任意侧端部(道路划分线或道路边界)的位置等,来作为本车辆m相对于行驶车道的相对位置。
[0059]
风险分布预测部135在由从上空观察本车辆m的周边的空间时的二维平面表示的设想平面s中,设定表示本车辆m不应该进入乃至于接近的程度的指标值即风险。换言之,风险表示物体目标(也包括路肩、护栏、白线外区域等不可行驶区域)的存在概率(也可以不是严格意义上的“概率”)。关于风险,值越大则表示本车辆m越不应该进入乃至于接近,值越接近零则表示本车辆m越优选行驶。但是,该关系也可以相反。在移动体不是车辆而是无人机等飞翔体的情况下,风险分布预测部135可以不在设想平面s而是在三维空间中进行同样处理。关于标签数据生成部165也是同样的。
[0060]
风险分布预测部135如针对当前时刻t、δt后(时刻t+δt)、2δt后(时刻t+2δt)、

这样设定设想平面s中的风险,即不仅针对当前时间点进行设定,也针对以恒定的时间间隔规定的将来的各时间点进行设定。风险分布预测部135基于由识别部130持续地识别着的移动物体目标的位置的变化来预测将来的各时间点的风险。
[0061]
图3是表示由风险分布预测部135设定的风险的概要的图。风险分布预测部135针对车辆、行人、自行车等交通参加者(移动物体目标),在设想平面s上设定使基于行进方向及速度得出的椭圆乃至于圆为等高线的风险,针对不可行驶区域而设定恒定值的风险。在图中,dm为本车辆m的行进方向。r(m1)为停止车辆m1的风险,r(p)为行人p的风险。行人p正在沿着横穿道路的方向进行移动,因此针对将来的各时间点而在与当前时刻不同的位置设定风险。关于正在移动的车辆、自行车等也是同样的。r(bd)为不可行驶区域bd的风险。在图中,影线的浓度表示风险的值,影线越浓则表示风险越大。风险分布预测部135也可以以越远离车道的中央则值越大的方式,设定风险。
[0062]
行动计划生成部140以原则上在由推荐车道决定部61决定的推荐车道上行驶、而且通过由风险分布预测部135设定的风险小的部分的方式,生成本车辆m自动地(不依赖于驾驶员的操作地)将来行驶的目标轨道。目标轨道例如包含速度要素。例如,目标轨道表现为将本车辆m应该到达的地点(轨道点)依次排列而成的轨道。轨道点可以按沿途距离计每隔规定的行驶距离(例如数[m]程度)的本车辆m应该到达的地点,有别于此,每隔规定的采样时间(例如零点几[sec]程度)的目标速度及目标加速度作为目标轨道的一部分而生成。另外,轨道点也可以是每隔规定的采样时间在该采样时刻本车辆m应该到达的位置。在该情况下,目标速度、目标加速度的信息由轨道点的间隔表现。行动计划生成部140生成多个目标轨道的候补,并分别计算基于效率性、安全性的观点得到的得分,且将得分良好的目标轨道的候补选择为目标轨道。第二控制部160也生成同样的目标轨道,因此有时将第一控制部120生成的目标轨道区别为目标轨道(1),将第二控制部160生成的目标轨道区别为目标轨道(2)。目标轨道(1)为第一移动规划的一例,目标轨道(2)为第二移动规划的一例。第一控制部120将目标轨道(1)向第三控制部190输出。
[0063]
第二控制部160例如具备标签数据生成部165和行为决定部170。行为决定部170具
备已知情景判定部175。第二控制部160以第二周期执行以下说明的处理。第二周期例如是十[msec]~数十[msec]程度的周期。“以第二周期执行”是指至少最终的处理结果即目标轨道的输出以第二周期进行。
[0064]
标签数据生成部165基于从相机10、雷达装置12、lidar14、物体识别装置16输入的数据、以及识别部130的识别结果,来进行以下的处理。标签数据生成部165生成标签数据,该标签数据是指针对将与风险分布预测部135同样的设想平面s(表示车辆的周边的空间的平面)进行有限个数分割得到的区块(分割要素的一例),分别赋予了至少根据移动物体目标的有无而表示不同的值的标签信息而得到的数据。
[0065]
图4是表示标签数据的一例的图。标签数据生成部165设想将设想平面s中的至少本车辆m的行进侧的区域分割为例如数十平方[cm]的区块br。标签数据生成部165例如以对移动物体目标赋予“2”、对不可行驶区域赋予“1”、且对可行驶区域赋予“0”这样的方式赋予互不相同的值的标签信息。在图中,关于停止车辆,当作移动物体目标进行处理而赋予了标签信息“2”,但在识别到处于驻车中(暂且不动)的情况下,也可以不当作移动物体目标而当作不可行驶区域进行处理,从而赋予标签信息“1”。关于护栏等静止物(不可行驶区域)与行人等移动物体目标,避免接近的必要性、现实性不同,因此通过像这样使移动物体目标的标签信息与不可行驶区域的标签信息不同,行为决定部170能够准确地进行与情景相应的行为决定。
[0066]
标签数据生成部165例如以第二周期进行生成标签数据的处理。在此,为了识别移动物体目标及不可行驶区域,使用从相机10、雷达装置12、lidar14、物体识别装置16输入的数据、以及识别部130的识别结果。在它们中,认为识别部130的识别结果的可靠度最高。然而,识别部130以第一周期输出识别结果。因此,标签数据生成部165关于识别部130的识别结果被取得的时机与时机之间,基于里程计信息、相机10的拍摄图像等来补充数据。
[0067]
图5是用于说明标签数据生成部165的补充处理的图。识别部130的识别结果以第一周期t1输入。第二周期t2为第一周期的1/10左右的长度,因此标签数据生成部165例如在本车辆m的行进方向上以里程计信息进行补充,在横向上以相机10的拍摄图像进行补充,由此将识别部130的识别结果升频转换(up

convert)而以第二周期生成标签数据。里程计信息是通过对根据车轮速度传感器等的输出而得到的本车辆m的速度进行积分来得到的、本车辆m的每单位时间的行驶距离的信息。里程计信息也可以是还加进通过横摆角速度传感器等的输出而得到的转弯角的信息的信息。关于相机10的拍摄图像,标签数据生成部165以通过将识别部130的识别结果安插到拍摄图像中得到的移动物体目标的图像中的位置为起点,进行追踪移动物体目标的处理,由此取得横向的信息。
[0068]
行为决定部170通过向模型(以下称作行动决定模型)输入输入数据而取得目标轨道,并通过向第三控制部190输出该目标轨道而进行本车辆m的行驶控制(移动控制),该行动决定模型是以当输入包含标签数据的输入数据时,输出用于至少抑制向移动物体目标接近的本车辆的行驶控制的模式即目标轨道的方式进行了学习的模型。
[0069]
输入数据例如是将最近生成的标签数据(以下称作最近标签数据)、过去生成的标签数据(以下称作过去标签数据)、预想表示将来的状态的标签数据(将来标签数据)结合并做成向量、矩阵等形式的数据。图6是表示输入数据的推移的一例的图。在图中,控制时刻将控制的循环以时刻的形式表示。控制的循环以第二周期反复到来。与控制时刻k

3、k

2、k

1、k分别对应的部分成为1次量的输入数据。输入数据例如包括数十循环的量的过去标签数据、最近标签数据、数循环的量的将来标签数据。例如,在输入数据中,包含与比第一周期时间长的期间相当的过去标签数据,包含与比第一周期时间短的期间相当的将来标签数据。即,在输入数据中包含的过去标签数据比将来标签数据多。其依据在于,将来的周边环境中不确定要素多。关于将来标签数据,标签数据生成部165可以假定为从过去标签数据趋向最近标签数据的、赋予了“1”或“2”的区块的位置变化直接持续而生成将来标签数据,也可以与前述的“补充处理”同样,基于根据里程计信息、相机10的拍摄图像而得到的信息来生成将来标签数据。
[0070]
行为决定部170所使用的行动决定模型例如是通过使用了模拟器的强化学习进行了学习的dnn(deep neural network)。图7是示意性地表示使行动决定模型学习的构成的图。图示的结构是由用于使行动决定模型学习的学习装置实现的假想的软件结构。
[0071]
向行动决定模型300中输入上述说明的形式的输入数据。行动决定模型300输出目标轨道。目标轨道向车辆模型310输入,车辆模型310计算实际的车辆行为。车辆模型310是当将目标轨道向本车辆m的行驶驱动力输出装置200、制动装置210及转向装置220赋予了的情况下计算是表示何种车辆行为的模型,能够再现上述那些装置的硬件规格、控制器的详情、本车辆m的悬架、轴距等信息、假想的路面状况等。
[0072]
由车辆模型310计算出的车辆行为向模拟器320输入。模拟器320向预先给出的场合(行驶场景)输入车辆行为,由此例如生成假想的三维空间信息。该场合尤其收集了需要基于制动、转弯而避免接近移动物体目标的场景。三维空间信息向假想识别功能330输入。假想识别功能330再现本车辆m的识别部130及风险分布预测部135的功能。由识别部130及风险分布预测部135生成向行动决定模型300输入的输入数据。这样,模拟行动决定模型300的动作。
[0073]
向报酬函数(reward function)340输入给予行动决定模型300的输入数据和行动决定模型300所输出的目标轨道。报酬函数340参照输入数据的推移,目标轨道越是期望的轨道,则输出越肯定性的值的报酬(reward)。例如,报酬函数340设定为,若不存在向输入数据所包含的标签信息为“1”或“2”的区块的接触,则输出肯定性的值的报酬,而且,若向标签信息为“1”或“2”的区块的接近程度(是指距离、距离变化速度等)不过度,则输出较肯定的值的报酬,根据目标轨道得到的加减速度、转弯程度(角速度)越大,则输出越否定性的值的报酬。此时,向标签信息为“2”的区块的接触的有无及接近程度优选以比向标签信息“1”的区块的接触的有无及接近程度大的权重进行评价。强化学习部350以使由报酬函数340输出的报酬成为更肯定性的值的方式,调整行动决定模型300的参数。由此,使行动决定模型300学习。
[0074]
已知情景判定模型360是用于学习本车辆m中的已知情景判定部175的功能的模型。已知情景判定模型360由dnn、低层神经网络(例如径向基函数神经网络、隶属函数、多维响应曲面等实现。已知情景判定模型360判定输入数据是否表示与行动决定模型300已经学习到的行驶场景类似的行驶场景(已知情景)。“类似”是指,即便不完全相同也是大致相同那样的行驶场景(例如以“在t字路中自行车从与本车辆m的行进方向正交的方向进入而过来、本车辆m行驶的道路的宽度为3[m]左右、自行车所进入而来到的道路的宽度为2[m]左右”这样的级别(粒度)一致)。已知情景判定模型360例如以在判定为输入数据表示已知情
景的情况下输出1、且在判定为输入数据不表示已知情景的情况下输出0的方式学习。也可以代替于上述,已知情景判定模型360从行动决定模型300的输入数据及/或中间层的输出中提取特征量,并基于特征量相对于表示学习完毕条件的超平面而处于哪一侧,来进行上述的判定。
[0075]
已知情景判定部175使用已知情景判定模型360,来判定向行为决定部170输入的输入数据是否表示已知情景。
[0076]
图8是示意性地表示行为决定部170的处理内容的图。行为决定部170输出作为行动决定模型的输出的目标轨道,或者输出无转向且将最大制动力(例如0.3[g]左右)输出的目标轨道及与作为行动决定模型的输出的目标轨道相比限制了转向控制的程度的目标轨道中的任一目标轨道。行为决定部170以如下方式切换输出的内容,即在由已知情景判定部175判定为输入数据表示已知情景的情况下,输出作为行动决定模型的输出的目标轨道,在由已知情景判定部175判定为输入数据不表示已知情景的情况下,输出无转向且将最大制动力输出的目标轨道。由此,能够抑制如下情况:在本车辆m遭遇了完全没有学习过的行驶场景时,行动决定模型输出预料不到的目标轨道,本车辆m发生不适当的行为。
[0077]
如图2所示,第三控制部190基于由第一控制部120生成的目标轨道(1)、以及由第二控制部160生成的目标轨道(2)中的任一方、或将它们综合的目标轨道,来控制行驶驱动力输出装置200、制动装置210及转向装置220,以使本车辆m按照由目标轨道规定的预定的时刻通过。另外,在对于驾驶操作件80而以比基准大的操作量进行了操作的情况下,第三控制部190进行使由第一控制部120及第二控制部160进行的自动驾驶中止而切换为手动驾驶的处理等。
[0078]
第三控制部190至少在规定的场景中,使由第二控制部160生成的目标轨道(2)比由第一控制部120生成的目标轨道(1)优先而控制行驶驱动力输出装置200、制动装置210及转向装置220。第二控制部160例如以在存在较高速地接近的移动物体目标、且需要躲避行动的情况下输出紧急行动标志的方式使行动决定模型学习,第三控制部190当被输入紧急行动标志时仅基于目标轨道(2)来控制行驶驱动力输出装置200、制动装置210及转向装置220,在未被输入紧急行动标志的情况下,仅基于目标轨道(1)来控制行驶驱动力输出装置200、制动装置210及转向装置220。也可以代替于此,第二控制部160例如使在存在较高速地接近的移动物体目标且需要进行躲避行动的情况下生成目标轨道(2)、在并非如此的情况下不生成目标轨道(2)的行动决定模型得到了学习,第三控制部190当被输入目标轨道(2)时仅基于目标轨道(2)来控制行驶驱动力输出装置200、制动装置210及转向装置220,当未被输入目标轨道(2)的情况下仅基于目标轨道(1)来控制行驶驱动力输出装置200、制动装置210及转向装置220。
[0079]
行驶驱动力输出装置200将用于车辆行驶的行驶驱动力(转矩)向驱动轮输出。行驶驱动力输出装置200例如具备内燃机、电动机及变速器等的组合、以及控制它们的ecu(electronic control unit)。ecu按照从第三控制部190输入的信息、或者从驾驶操作件80输入的信息来控制上述的结构。
[0080]
制动装置210例如具备制动钳、向制动钳传递液压的液压缸、使液压缸产生液压的电动马达、制动ecu。制动ecu按照从第三控制部190输入的信息、或者从驾驶操作件80输入的信息来控制电动马达,使得与制动操作相应的制动转矩向各车轮输出。制动装置210可以
具备将通过驾驶操作件80所包含的制动踏板的操作而产生的液压经由主液压缸向液压缸传递的机构作为备用。需要说明的是,制动装置210不限于上述说明的结构,也可以是按照从第二控制部160输入的信息来控制致动器,从而将主液压缸的液压向液压缸传递的电子控制式液压制动装置。
[0081]
转向装置220例如具备转向ecu和电动马达。电动马达例如使力作用于齿条

小齿轮机构来变更转向轮的朝向。转向ecu按照从第三控制部190输入的信息、或者从驾驶操作件80输入的信息来驱动电动马达,使转向轮的朝向变更。
[0082]
[总括]
[0083]
第一控制部120进行以通过风险小的部分的方式决定目标轨道、而且从多个目标轨道的候补选择目标轨道的处理,因此运算负荷高,凭借在申请时间点时现实能够搭载的处理器的性能,有时难以以紧急躲避所需的数十[ms]程度的控制周期进行行动更新。与此相对,第二控制部160使用能够高速地输出结果的行动决定模型(学习完毕的dnn)来生成目标轨道,因此能够以紧急躲避所需的数十[ms]程度的控制周期进行行动更新。因此,根据上述说明的实施方式,能够迅速地进行与场景相应的必要的控制。
[0084]
相反,在基于行动决定模型的控制中,基于从过去学习到的行驶场景得到的经验、即相对于移动物体目标所进行的行动中能够得到最为肯定性的报酬的行动,来前馈控制地决定行动。因此,在移动物体目标的行动模式未知、或者行驶场景本身未知的情况下,有可能发生预料不到的车辆行为。与此相对,在实施方式的第二控制部160中,在判定为输入数据不是表示已知情景的情况下,不进行转向且输出最大制动力,由此能够预防发生本车辆m因转向躲避而攀爬到缘石、人行道上这样的事态。
[0085]
另外,在实施方式中,输入数据以包含过去标签数据和将来标签数据的方式生成。由此,与基于瞬间的状态进行控制相比,能够以更长期的观点来决定行动。另外,即便最近、过去、将来中的任一方的标签数据产生有异常值,也能够通过其他部分进行抵消,能够实现鲁棒稳健性。
[0086]
[硬件结构]
[0087]
图9是表示实施方式的自动驾驶控制装置100的硬件结构的一例的图。如图所示,自动驾驶控制装置100成为了通信控制器100

1、cpu100

2、作为工作存储器而使用的ram(random access memory)100

3、保存引导程序等的rom(read only memory)100

4、闪存器、hdd(hard disk drive)等存储装置100

5、驱动装置100

6等通过内部总线或专用通信线而相互连接的结构。通信控制器100

1与自动驾驶控制装置100以外的构成要素进行通信。存储装置100

5中保存有cpu100

2执行的程序100

5a。该程序由dma(direct memory access)控制器(未图示)等向ram100

3展开,并由cpu100

2执行。由此,实现第一控制部120、第二控制部160、第三控制部190中的一部分或全部。
[0088]
在上述说明的实施方式中,以移动体控制装置搭载于移动体(车辆)为前提进行了说明。不限定于此,移动体控制装置也可以是能够与搭载于移动体的通信装置通过无线及/或有线进行通信的服务器装置,并通过通信将第一移动规划、第二移动规划向移动体的通信装置发送。在该情况下,在移动体上搭载有与第三控制部190相当的功能,并基于从通信装置取得的第一移动规划、第二移动规划,来具体地控制行驶驱动力输出装置200、制动装置210、转向装置220等装置。或者,也可以是,与第三控制部190相当的功能也安装于服务器
装置,服务器装置通过通信向移动体的通信装置发送对行驶驱动力输出装置200、制动装置210、转向装置220等装置赋予的控制指示。
[0089]
在上述说明的实施方式中,移动体控制装置适用于自动驾驶控制装置100,第一控制部120生成用于自动驾驶的目标轨道。也可以代替于此,移动体控制装置适用于进行至少一部分包含手动驾驶的要素的驾驶支援控制的驾驶支援控制装置,第一控制部进行以acc(adaptive cruise control)、lkas(lane keeping assist system)为代表的驾驶支援。
[0090]
上述说明的实施方式能够如以下这样表现。
[0091]
一种移动体控制装置,其构成为具备:
[0092]
存储有程序的存储装置;以及
[0093]
硬件处理器,
[0094]
所述硬件处理器通过执行存储于所述存储装置的程序而执行:
[0095]
第一处理,基于将移动体的周边的空间作为检测范围的检测器件的输出来识别所述移动体的周边状况,并基于所述识别的所述移动体的周边状况以第一周期生成所述移动体的第一移动规划;以及
[0096]
以比所述第一周期短的第二周期生成所述移动体的第二移动规划的第二处理,
[0097]
所述第二处理是以所述第二周期生成标签数据并基于所述标签数据来生成所述第二移动规划的处理,该标签数据是指,对于将所述移动体的周边的空间进行有限个数分割得到的分割要素,分别赋予了至少根据移动物体目标的有无而表示不同的值的标签信息得到的数据。
[0098]
上述说明的实施方式能够也如以下这样表现。
[0099]
一种移动体控制装置,其构成为具备:
[0100]
存储有程序的存储装置;以及
[0101]
硬件处理器,
[0102]
所述硬件处理器通过执行存储于所述存储装置的程序,基于将移动体的周边的空间作为检测范围的检测器件的输出来进行所述移动体的移动控制,
[0103]
所述移动体的移动控制中进行如下处理:
[0104]
对于以当输入输入数据时输出用于抑制与移动物体目标接触的移动规划的方式进行了学习的模型,输入基于所述检测器件的输出得到的输入数据,由此取得所述移动规划,
[0105]
判定向所述模型输入的输入数据是否为表示已知情景的输入数据,在判定为表示已知情景的输入数据的情况下,基于所述模型所输出的移动规划来进行所述移动体的移动控制,在判定为不是表示已知情景的输入数据的情况下,进行不使所述移动体的转向控制执行而专门输出制动力的移动控制,或者进行与判定为表示已知情景的输入数据的情况相比限制了所述转向控制的程度的移动控制。
[0106]
以上使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。
当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1