一种紧急制动控制系统及其控制方法

文档序号:10481222阅读:515来源:国知局
一种紧急制动控制系统及其控制方法
【专利摘要】本发明涉及一种紧急制动控制系统及其控制方法,包括第一神经网络模块和第二神经网络模块,所述第一神经网络模块为动作行为决策模块,其连接车物理系统并用于根据动态系统的状态量,为系统提供动作行为决策;所述第二神经网络模块为动作决策评价模块,其连接动作行为决策模块并用于根据动态系统提供的增强信号就动作行为决策模块所做的决策动作进行评价。本发明利用启发式动态规划算法解决智能车紧急制动问题,通过神经网络反馈调节,使得智能车自主学习速度与刹车距离的对应关系,进而使紧急制动具有更好的稳定性、可靠性和自适应性。
【专利说明】
一种紧急制动控制系统及其控制方法
技术领域
[0001]本发明涉及汽车主动安全,具体涉及一种基于启发式动态规划算法的智能车紧急制动控制系统设计方法。
【背景技术】
[0002]近一个多世纪来,汽车的出现取代了传统交通运输方式,使得人们的生活更为便捷。但近些年来,汽车安全性问题受到了越来越多的关注。据调查显示,2011年世界汽车保有量前六的国家交通事故死亡人数分别:美国,32310人,中国,62000人,日本,4612人,德国,4009人,意大利,3800人,俄罗斯,27900人。2012年中国交通事故共发生204196起,死亡59997人,受伤224327人,直接财产损失117489.6万元。
[0003]从以上数据可以看出,a.世界汽车保有量前六的国家一年交通事故死亡人数在10万人以上;b.我国交通事故死亡人数位居世界第一,达一年6万人左右;c.2012年我国交通事故多达20多万起,除交通事故死亡外,还有20多万车祸受伤人员,给人们人生安全带来很大的伤害;d.车祸给国家带来的经济损失一年多达10多亿元。
[0004]在交通事故中,追尾引发的交通事故占很大一部分。在遇到紧急情况时,一,人的反应需要时间,二,人在紧急情况下,通常情绪较为紧张,往往回过神来,汽车已经发生了碰撞。研发智能车辅驾功能,尤其是研发智能车紧急制动功能,危险情况下,智能车能代替人的行为,自动紧急制动,进而避免事故发生或减小事故损失程度。
[0005]传统的紧急制动采用监督学习的方法,S卩,人为设定智能车行驶速度与采取紧急刹车距离的对应关系,如,定义速度60km/h时,智能车安全刹车距离为50米,定义速度40km/h时,智能车安全刹车距离为30米,等。在实际行驶过程中,智能车根据智能车车速寻找人为定义的对应距离,进而实现紧急制动。这种方法的灵活性、机动性、可靠性及稳定性不强。

【发明内容】

[0006]本发明的目的在于提供一种紧急制动控制系统及其控制方法,解决智能车紧急制动可靠性与稳定性问题,利用启发式动态规划算法解决智能车紧急制动问题,使紧急制动具有更好的稳定性和可靠性。
[0007]首先随机初始化神经网络权值,然后进行1000次试验,每次试验执行100次测试。每次试验,随机初始化智能车车速,每次测试,随机选择一定距离执行自动刹车,根据刹车后的距离与标准安全距离比较,进而设计增强信号。系统根据增强信号进行神经网络反馈调节,进而通过不断地学习,自主学会速度与刹车距离的对应关系。具体技术方案如下:
[0008]—种紧急制动控制系统,包括第一神经网络模块和第二神经网络模块,所述第一神经网络模块为动作行为决策模块,其连接车物理系统并用于根据动态系统的状态量,为系统提供动作行为决策;所述第二神经网络模块为动作决策评价模块,其连接动作行为决策模块并用于根据动态系统提供的增强信号就动作行为决策模块所做的决策动作进行评价。
[0009]进一步地,所述动作行为决策模块通讯连接至车物理系统和动作决策评价模块,并可向车物理系统和动作决策评价模块发送信息,所述车物理系统通讯连接至动作行为决策模块和动作决策评价模块,并可向动作行为决策模块和动作决策评价模块发送信息。
[0010]进一步地,所述车物理系统为智能车物理系统,所述控制系统为基于启发式动态规划算法的智能车紧急制动控制系统。
[0011]进一步地,动作行为决策模块和动作决策评价模块均采用非线性多层感知机结构的正向输送网络,和/或每个网络里均含有一个隐藏层。
[0012 ]上述紧急制动控制系统的控制方法,包括如下步骤:
[0013](I)智能车状态量输入到控制系统;
[0014](2)动作行为决策模块和动作决策评价模块对输入量进行处理;
[0015](2-1)动作行为决策模块为控制系统提供控制策略;
[0016](2-2)动作决策评价模块对动作网络产生的控制策略进行实时评估;
[0017](3)动作行为决策模块和动作决策评价模块产生输出量;
[0018](4)系统对两个输出量进行反馈调节。
[0019]进一步地,步骤(2-2)中,动作决策评价模块通过输入的增强信号产生代价函数,对动作网络产生的控制策略进行实时评估。
[0020]进一步地,步骤(4)中,系统中的反馈调节模块对输出量进行反馈调节。
[0021]进一步地,步骤(4)具体包括如下步骤:
[0022](4-1)评价网络反馈调节是利用代价函数的值去近似折算回报无穷累加和;
[0023](4-2)动作网络里反馈调节是通过比较效用效用函数期望值和代价函数的大小,得到动作误差;
[0024](4-3)根据所述误差,利用梯度下降法则对评价网络和动作网络权值进行调节,进而使智能车动作决策不断趋于最优。
[0025]进一步地,步骤(I)之前还包括步骤:随机初始化神经网络权值;采用步骤(I )-
(4),进行多次试验,每次试验执行多次测试:每次试验时随机初始化智能车车速,每次测试,随机选择一定距离执行自动刹车,根据刹车后的距离与标准安全距离比较,进而设计增强信号;系统根据增强信号进行神经网络反馈调节,进而通过不断地学习,自主学会速度与刹车距离的对应关系。
[0026]进一步地,随机初始化神经网络权值包括:随机初始化动作网络、评价网络的神经网络权值,trai 1 = 1、step = I ; trai I = I表示第一次试验,系统一共进行1000次试验,step=1表示目前为第一次测试,每一次试验系统执行100次测试;随机初始智能车车速包括:随机初始化智能车车速,初始速度为V,智能车将以恒定的速度V从远处行驶过来;随机位置执行刹车包括:在行驶过程中,在一个随机的距离S处自动刹车;刹车后标准安全距离为3m;刹停后,智能车实际停车位置与标准安全距离的差值为Λχ,根据设定增强信号,设定方法为:距离为3m时,增强信号为r = 0,从3m到Om的过程中,增强信号从r = 0线性变换到r = -l,从3m到6m的过程中,增强信号从r = 0线性变换至Ijr = -1,当距离大于6m时,增强信号为r = -l;增强信号判断包括:如果r = 0时,表示智能车在标准安全距离,是,则执行神经网络权值更新,否,则,下一步;测试次数判断包括:如果测试次数Step>100,表示一次试验的所有测试完成,则,下一步,否,则执行神经网络反馈调节;神经网络权值更新包括:trail = trail+l,表示进入下一个试验,重置测试次数,step = 0,动作网络、评价网络的神经网络权值更新,一次成功的学习经历将被储存;判断试验是否全部完成包括:如果trail>1000,表示1000次试验全部完成,则,程序终止,进入装载入车,否,则重复随机初始智能车车速;神经网络反馈调节包括:神经网络反馈调节,step = step+Ι,重复随机位置执行刹车;装载入车包括:在智能车进行了 1000次不同行驶速度紧急制动试验后,智能车自主学会了速度与采取紧急制动距离的关系,将最终的神经网络权值存储,装载入车;智能车上装载有毫米波雷达,能判断出前方是否有车,并能判断出前方车辆与智能车两车的相对速度;如果前方有车,则根据相对速度,保持一定的行车车距;如果相对速度等于智能车车速,表示前车停止,系统采取自动紧急刹车的模式。
[0027]与目前现有技术相比,本发明利用启发式动态规划算法解决智能车紧急制动问题,通过神经网络反馈调节,使得智能车自主学习速度与刹车距离的对应关系,进而使紧急制动具有更好的稳定性、可靠性和自适应性。
【附图说明】
[0028]图1为启发式动态规划算法结构图
[0029]图2为智能车紧急制动控制系统逻辑程序设计流程图
[0030]图3为紧急制动图示
[0031 ]图4为智能车停车位置增强信号设定
【具体实施方式】
[0032]下面根据附图对本发明进行详细描述,其为本发明多种实施方式中的一种优选实施例。
[0033]在一个优选实施例中,可以采用如下方案:紧急制动控制决策策略设计是自动紧急制动的核心。传统的紧急制动采用监督学习的方法,即,人为设定智能车行驶速度与采取紧急刹车距离的对应关系,如,定义速度60km/h时,智能车安全刹车距离为50米,定义速度40km/h时,智能车安全刹车距离为30米,等。在实际行驶过程中,智能车根据智能车车速寻找人为定义的对应距离,进而实现紧急制动。这种方法的灵活性、机动性、可靠性及稳定性不强。相对于传统方法,本发明采用启发式动态规划算法解决紧急制动问题。启发式动态规划算法采用自适应评价设计的学习方式,其结构由两个神经网络模块构成(图1),一个动作行为决策模块根据动态系统的状态量,为系统提供动作行为决策,另一个动作决策评价模块根据动态系统提供的增强信号就刚刚的决策动作进行评价。其学习过程主要有如下两种方式:第一,系统根据环境中反馈的增强信号,对错误的行为策略进行认识和学习(被惩罚),并试着在以后的决策过程中避免这种错误再次发生;第二,根据反馈的增强信号,有效的决策策略将会以奖励的形式被系统记住,在以后决策过程中,相同的情况会被优先考虑。行驶过程中,系统为获得更多的奖励,将不断地调整决策动作,进而逐渐使智能车状态趋于最优。
[0034]具体来说,智能车状态量X(t)输入到启发式动态规划控制系统后,控制系统的两个神经网络将对输入量进行处理。其中动作网络的作用是为控制系统提供控制策略U(t),而评价网络的作用则是通过输入的增强信号r(t)产生代价函数J(t),对动作网络产生的控制策略进行实时评估。两个神经网络均采用非线性多层感知机结构的正向输送网络,每个网络里均含有一个隐藏层。两个网络产生输出量后,系统将对两个输出量进行反馈调节。其中,评价网络反馈调节策略是利用代价函数J(t)的值去近似折算回报无穷累加和R(t)。动作网络里反馈调节策略是通过比较效用效用函数期望值Uc(t)和代价函数J(t)的大小,从而得到动作误差。根据以上误差,利用梯度下降法则对两个神经网络权值进行调节,进而使智能车动作决策不断趋于最优。
[0035]具体的学习步骤如下:
[0036]Stepl:随机初始化神经网络权值
[OO37 ] 随机初始化动作网络、评价网络的神经网络权值,trail = l、Step = I。tra i I = I表示第一次试验,系统一共进行1000次试验,step= I表示目前为第一次测试,每一次试验系统执行100次测试。
[0038]Step2:随机初始智能车车速
[0039]随机初始化智能车车速,初始速度为V,智能车将以恒定的速度V从远处行驶过来。
[0040]Step3:随机位置执行刹车
[0041]在行驶过程中,在一个随机的距离S处自动刹车(图3)。刹车后标准安全距离为3m。刹停后,智能车实际停车位置与标准安全距离的差值为Λχ,根据设定增强信号(图4),设定方法为:距离为3m时,增强信号为r = 0,从3m到Om的过程中,增强信号从r = 0线性变换到r= -1,从3m到6m的过程中,增强信号从r = 0线性变换至Ijr = -1,当距离大于6m时,增强信号为r = -l ο
[0042]Step4:增强信号判断
[0043]如果r = 0时,表示智能车在标准安全距离,是,则执行Step6,否,则,下一步。
[0044]Step5:测试次数判断
[0045]如果测试次数stepMOO,表示一次试验的所有测试完成,则,下一步,否,则执行Step80
[0046]Step6:神经网络权值更新
[0047]trai I = trai 1+1,表示进入下一个试验,重置测试次数,step = O,动作网络、评价网络的神经网络权值更新,一次成功的学习经历将被储存。
[0048]Step7:判断试验是否全部完成
[0049]如果trai 1> 1000,表示1000次试验全部完成,则,程序终止,进入Step9,否,则重复Step20
[0050]Step8:神经网络反馈调节
[0051 ] 神经网络反馈调节,step = step+l,重复Step3。
[0052]Step9:装载入车
[0053]在智能车进行了1000次不同行驶速度紧急制动试验后,智能车自主学会了速度与采取紧急制动距离的关系,将最终的神经网络权值存储,装载入车。智能车上装载有毫米波雷达,能判断出前方是否有车,并能判断出前方车辆与智能车两车的相对速度。如果前方有车,则根据相对速度,保持一定的行车车距。如果相对速度等于智能车车速,表示前车停止,系统采取自动紧急刹车的模式。
[0054]本发明所要解决的技术问题是智能车紧急制动可靠性与稳定性问题,利用启发式动态规划算法解决智能车紧急制动问题,使紧急制动具有更好的稳定性和可靠性。系统首先在计算机上进行学习,学习后的系统将装入实车。计算机上的学习过程,程序首先随机初始化神经网络权值,然后进行1000次试验,每次试验执行100次测试。每次试验,随机初始化智能车车速,每次测试,随机选择一定距离执行自动刹车,根据刹车后的距离与标准安全距离比较,进而设计增强信号。系统根据增强信号进行神经网络反馈调节,进而通过不断地学习,自主学会速度与刹车距离的对应关系。
[0055]上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进直接应用于其它场合的,均在本发明的保护范围之内。
【主权项】
1.一种紧急制动控制系统,其特征在于,包括第一神经网络模块和第二神经网络模块,所述第一神经网络模块为动作行为决策模块,其连接车物理系统并用于根据动态系统的状态量,为系统提供动作行为决策;所述第二神经网络模块为动作决策评价模块,其连接动作行为决策模块并用于根据动态系统提供的增强信号就动作行为决策模块所做的决策动作进行评价。2.如权利要求1所述的紧急制动控制系统,其特征在于,所述动作行为决策模块通讯连接至车物理系统和动作决策评价模块,并可向车物理系统和动作决策评价模块发送信息,所述车物理系统通讯连接至动作行为决策模块和动作决策评价模块,并可向动作行为决策模块和动作决策评价模块发送信息。3.如权利要求1或2所述的紧急制动控制系统,其特征在于,所述车物理系统为智能车物理系统,所述控制系统为基于启发式动态规划算法的智能车紧急制动控制系统。4.如权利要求1-3所述的紧急制动控制系统,其特征在于,动作行为决策模块和动作决策评价模块均采用非线性多层感知机结构的正向输送网络,和/或每个网络里均含有一个隐藏层。5.如权利要求1-4所述紧急制动控制系统的控制方法,其特征在于,包括如下步骤: (1)智能车状态量输入到控制系统; (2)动作行为决策模块和动作决策评价模块对输入量进行处理; (2-1)动作行为决策模块为控制系统提供控制策略; (2-2)动作决策评价模块对动作网络产生的控制策略进行实时评估; (3)动作行为决策模块和动作决策评价模块产生输出量; (4)系统对两个输出量进行反馈调节。6.如权利要求5所述紧急制动控制系统的控制方法,其特征在于,步骤(2-2)中,动作决策评价模块通过输入的增强信号产生代价函数,对动作网络产生的控制策略进行实时评估。7.如权利要求5或6所述紧急制动控制系统的控制方法,其特征在于,步骤(4)中,系统中的反馈调节模块对输出量进行反馈调节。8.如权利要求5-7中任一项所述紧急制动控制系统的控制方法,其特征在于,步骤(4)具体包括如下步骤: (4-1)评价网络反馈调节是利用代价函数的值去近似折算回报无穷累加和; (4-2)动作网络里反馈调节是通过比较效用效用函数期望值和代价函数的大小,得到动作误差; (4-3)根据所述误差,利用梯度下降法则对评价网络和动作网络权值进行调节,进而使智能车动作决策不断趋于最优。9.如权利要求5-8中任一项所述紧急制动控制系统的控制方法,其特征在于,步骤(I)之前还包括步骤:随机初始化神经网络权值;采用步骤(1)-(4),进行多次试验,每次试验执行多次测试:每次试验时随机初始化智能车车速,每次测试,随机选择一定距离执行自动刹车,根据刹车后的距离与标准安全距离比较,进而设计增强信号;系统根据增强信号进行神经网络反馈调节,进而通过不断地学习,自主学会速度与刹车距离的对应关系。10.如权利要求9所述紧急制动控制系统的控制方法,其特征在于,随机初始化神经网络权值包括:随机初始化动作网络、评价网络的神经网络权值,trail = 1、step = I ; trail =I表示第一次试验,系统一共进行1000次试验,step = I表示目前为第一次测试,每一次试验系统执行100次测试;随机初始智能车车速包括:随机初始化智能车车速,初始速度为V,智能车将以恒定的速度V从远处行驶过来;随机位置执行刹车包括:在行驶过程中,在一个随机的距离S处自动刹车;刹车后标准安全距离为3m;刹停后,智能车实际停车位置与标准安全距离的差值为A X,根据设定增强信号,设定方法为:距离为3m时,增强信号为r = 0,从3m到Om的过程中,增强信号从r = 0线性变换到r = -l,从3m到6m的过程中,增强信号从r = 0线性变换到r = _l,当距离大于6m时,增强信号为r = -l;增强信号判断包括:如果r = 0时,表示智能车在标准安全距离,是,则执行神经网络权值更新,否,则,下一步;测试次数判断包括:如果测试次数step>100,表示一次试验的所有测试完成,则,下一步,否,则执行神经网络反馈调节;神经网络权值更新包括:trail = trail + l,表示进入下一个试验,重置测试次数,step = 0,动作网络、评价网络的神经网络权值更新,一次成功的学习经历将被储存;判断试验是否全部完成包括:如果trai 1> 1000,表示1000次试验全部完成,则,程序终止,进入装载入车,否,则重复随机初始智能车车速;神经网络反馈调节包括:神经网络反馈调节,step =step+Ι,重复随机位置执行刹车;装载入车包括:在智能车进行了 1000次不同行驶速度紧急制动试验后,智能车自主学会了速度与采取紧急制动距离的关系,将最终的神经网络权值存储,装载入车;智能车上装载有毫米波雷达,能判断出前方是否有车,并能判断出前方车辆与智能车两车的相对速度;如果前方有车,则根据相对速度,保持一定的行车车距;如果相对速度等于智能车车速,表示前车停止,系统采取自动紧急刹车的模式。
【文档编号】B60T7/12GK105835854SQ201610153522
【公开日】2016年8月10日
【申请日】2016年3月17日
【发明人】方啸, 高红博, 陈健
【申请人】奇瑞汽车股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1