一种基于生成式对抗网络的智能车驾驶决策方法与流程

文档序号:16535641发布日期:2019-01-05 11:16阅读:439来源:国知局
一种基于生成式对抗网络的智能车驾驶决策方法与流程

本发明涉及一种智能车驾驶决策方法,特别是基于驾驶图像输入及生成式对抗网络的决策方法。



背景技术:

随着社会的发展和科技的进步,汽车走进千家万户并导致交通事故的逐渐增多,因此,智能车辆的研究也日益重要。智能驾驶汽车技术的提出,在一定程度上降低了交通事故的发生并减轻了驾驶员的驾驶疲劳度,提升了驾驶员的操作方便性,代表着未来汽车技术的战略制高点。传统意义上,智能车通过输入的单幅驾驶图像,对驾驶环境进行车道线检测或者前方车辆跟踪检测。根据检测到的驾驶环境信息规划驾驶路径,使用控制器进行车辆的跟踪控制,输出包括转向、制动、驱动命令在内的汽车驾驶决策指令。而随着以深度学习(deeplearning)和机器学习(machinelearning)为代表的人工智能技术的发展,模拟驾驶员通过观察环境直接生成驾驶决策指令的“端到端”智能车驾驶决策方法日益得到研究者的重视。与传统的驾驶决策方法相比,“端到端”智能车驾驶决策方法能够适应于车道线不明确或者道路场景缺失、驾驶环境恶劣多变的复杂交通环境。

基于深度学习的智能驾驶汽车通过模拟人脑从外界环境中学习和进行决策,将车载摄像机检测到的驾驶图像直接映射为驾驶员的操作指令,具体实施方案一般可分为两类:基于离线训练的监督学习和基于模拟器的强化学习。其中,基于离线训练的监督学习通过大量标注好的驾驶数据,离线训练深度学习模型模拟人类的驾驶决策过程;基于模拟器的强化学习在驾驶模拟器中,通过不断地进行自我决策和试错提高强化学习的算法模型精确度。但是,二者相较来说,在真实域中的离线训练,需要的样本规模过大,而且提供的样本常含有与驾驶决策无关的关注点;在虚拟域中的强化学习则不能在实际的环境中进行测试,缺乏实用性。所以虽然端对端技术是智能驾驶汽车的发展趋势之一,但其可解释性、执行性和泛化性均有待提高。



技术实现要素:

为解决现有技术存在的上述问题,本发明提出一种能提高端对端智能驾驶技术的可解释性、执行性和泛化性的基于生成式对抗网络的智能车驾驶决策方法。

为了实现上述目的,本发明的技术方案如下:一种基于生成式对抗网络的智能车驾驶决策方法,包括以下步骤:

a:建立驾驶决策模型

a1:基于生成式对抗网络的图像处理

首先,通过车载摄像头采集真实驾驶场景的驾驶图像,并进行图像预处理,将图像输入生成式对抗网络。生成式对抗网络由生成器网络和判别器网络两部分组成,将采集的图像输入生成器网络,生成器网络根据车载摄像头采集并经过预处理之后的驾驶图像生成虚假图像;判别器网络则对生成的虚假图像进行判别。二者通过联合对抗训练,使生成器网络生成接近真实的路况;判别器网络判别输入的图像为采集的汽车驾驶图像还是生成器生成的虚假图像,输出图像为真实图像的概率。直至最后,判别器网络和生成器网络达到平衡,即所谓的“零和博弈”。最后,输出生成器网络产生的虚假图像。所述的联合对抗训练的过程是极大极小的博弈过程,归纳成如下公式:

其中,x是根据输入图像提取的特征数据;pg代表在输入特征数据x上学习的生成器的分布;pdata(x)是真实图像的数据分布;定义pz(z)为输入的噪声先验变量;g实际是g(z;θg),代表数据空间的映射,是由含有参数θg的多层感知机表示的可微函数。这里,e是指在总输入噪声或者训练图片作为样本中选取一个最小的批次,选取随机梯度更新的方式更新判别器;d为d(x;θd),是一个多层感知机,输出一个标量;d(x)表示x来自为真实图片的概率;g(z)是生成器网络通过输入的噪声生成的相应图片。最后,d和g的训练是关于值函数v(g,d)的极大、极小化地博弈问题。

为了学习生成器网络在输入驾驶图像上的特征分布,定义其先验变量pz(z),使用g代表数据空间的映射;再定义一个d来输出标量,训练d,使其最大化,输出的结果为输入d的驾驶图像属于采集的驾驶图像还是生成器网络生成的虚假图像的概率。同时,训练g来最小化log(1-d(g(z)))。换句话说,d和g的训练是关于值函数v(g,d)的极大化和极小化博弈问题。

对于生成式对抗网络来说,生成器网络和判别器网络是两个完全独立的网络模型,当交替化地训练g和d,只要g变化的足够慢,就保证d保持在最优解附近。选择最大化log来训练g,使g和d保持足够的稳定性,并且在训练初期,提供足够的训练梯度。

所述的生成器网络设计为卷积+残差块+反卷积结构,所述的判别器网络设计为卷积+全连接网络结构。

a2:预测器网络图像预测

将生成式对抗网络生成的接近真实的虚假图像和采集的真实驾驶图像输入预测器网络中进行道路驾驶的规划。所述的预测器网络由pilot-net网络和包含lstm隐式单元的双向lstm网络两部分组成。其中,pilot-net网络为卷积+全连接结构,以单帧虚假图像及对驾驶场景理解的结果为输入,全连接层输出智能车的转向决策;双向lstm网络针对连续帧驾驶场景数据,以pilot-net网络的卷积层输出和采集的连续帧真实驾驶图像为输入,输出智能车的驱动和制动决策序列。

对于驾驶图像的输入,使用实时、连续视频帧进行输入,每次使用的输入图像为当前时刻时间戳的前几帧视频图像。

b:驾驶决策控制

根据步骤a2,得到神经网络输出的智能车驱动、制动和转向决策序列三种智能车驾驶决策序列。根据驾驶序列规划,规划出最优的驾驶路径作为车辆的行驶轨迹。通过智能车的控制底层经由控制模块实现规划好的动作。

与现有的技术相比,本发明的效果和益处是:

1、本发明基于生成式对抗网络(generativeadversarialnetworks,简称gan)对驾驶图像处理,能够处理非理想道路状况下的车辆驾驶路径规划,提高了端对端神经网络的可执行性。

2、本发明通过生成式对抗网络处理,提取驾驶图像的最本质特征,将不同源的驾驶数据映射到统一的虚拟域中,实现强化学习到实车的应用,提高了网络的泛化性,适应不同样本的能力。

3、本发明对于驾驶图像的输入,每次使用的输入图像为当前时刻时间戳的前几帧视频图像。以此种方法得到的预测图像,可以更大程度上的得到真实的预测图像作为驾驶决策规划的判断。

4、总之,本发明基于驾驶图像输入和生成式对抗网络的图像处理方法,探索复杂真实环境的规范表征,提取驾驶图像的最本质特征,提高了端对端智能驾驶技术的可解释性。通过生成式对抗网络,与车载相机采集的驾驶环境认知相结合,可以生成逼近真实驾驶图像数据分布的虚假图像数据分布,将不同源的真实驾驶图像数据映射到统一的虚拟域中,作为预测车辆最优决策的依据,建立起强化学习到实车应用的桥梁。

附图说明

图1是本发明的规划处理流程图。

图2是gan生成器神经网络结构示意图。

图3是gan判别器神经网络结构示意图。

图4是预测器网络结构示意图。

具体实施方式

下面结合附图对本发明进行进一步地描述。如图1所示,一种基于生成式对抗网络的智能车驾驶决策方法,包括以下步骤:

a:建立驾驶决策模型

a1:基于生成式对抗网络的图像处理

首先,通过车载摄像头采集真实驾驶场景的驾驶图像,并进行图像预处理,将图像输入生成式对抗网络。生成式对抗网络由生成器网络和判别器网络两部分组成,将采集的图像输入生成器网络,生成器网络根据车载摄像头采集并经过预处理之后的驾驶图像生成虚假图像;判别器网络则对生成的虚假图像进行判别。二者通过联合对抗训练,使生成器网络生成接近真实的路况;判别器网络判别输入的图像为采集的汽车驾驶图像还是生成器生成的虚假图像,输出图像为真实图像的概率。直至最后,判别器网络和生成器网络达到平衡,即所谓的“零和博弈”。最后,输出生成器网络产生的虚假图像。所述的联合对抗训练的过程是极大极小的博弈过程,归纳成如下公式:

其中,x是根据输入图像提取的特征数据;pg代表在输入特征数据x上学习的生成器的分布;pdata(x)是真实图像的数据分布;定义pz(z)为输入的噪声先验变量;g实际是g(z;θg),代表数据空间的映射,是由含有参数θg的多层感知机表示的可微函数。这里,e是指在总输入噪声或者训练图片作为样本中选取一个最小的批次,选取随机梯度更新的方式更新判别器;d为d(x;θd),是一个多层感知机,输出一个标量;d(x)表示x来自为真实图片的概率;g(z)是生成器网络通过输入的噪声生成的相应图片。最后,d和g的训练是关于值函数v(g,d)的极大、极小化地博弈问题。

为了学习生成器网络在输入驾驶图像上的特征分布,定义其先验变量pz(z),使用g代表数据空间的映射;再定义一个d来输出标量,训练d,使其最大化,输出的结果为输入d的驾驶图像属于采集的驾驶图像还是生成器网络生成的虚假图像的概率。同时,训练g来最小化log(1-d(g(z)))。换句话说,d和g的训练是关于值函数v(g,d)的极大化和极小化博弈问题。

如图2-3所示:生成器网络设计为卷积+残差块+反卷积结构,判别器网络设计为卷积+全连接网络结构。生成器网络结构的卷积网络部分为四个卷积层,每一卷积层后紧跟归一化层和激活层,归一化识别高频特征并进行非线性激活平滑处理,输出特征图。反卷积结构采用和卷积相反的结构,将识别到的图像特征加入随机噪声,上采样生成逼近真实的虚假图像。在神经网络处理的过程中,引入残差块,处理网络深度增加引起的梯度爆炸等问题。而对于判别器网络,采用卷积+池化的结构,在网络结构最后添加全连接层,输出判断输入的图像为真实图像或者虚假图像的概率。

对于生成式对抗网络来说,生成器网络和判别器网络是两个完全独立的网络模型,当交替化地训练g和d,只要g变化的足够慢,就保证d保持在最优解附近。选择最大化log来训练g,使g和d保持足够的稳定性,并且在训练初期,提供足够的训练梯度。

a2:预测器网络图像预测

将生成式对抗网络生成的接近真实的虚假图像和采集的真实驾驶图像输入预测器网络中进行道路驾驶的规划。所述的预测器网络由pilot-net网络和包含lstm(longshort-termmemory,长短期记忆网络)隐式单元的双向lstm网络两部分组成。其中,pilot-net网络为卷积+全连接结构,以单帧虚假图像及对驾驶场景理解的结果为输入,全连接层输出智能车的转向决策;双向lstm网络针对连续帧驾驶场景数据,以pilot-net网络的卷积层输出和采集的连续帧真实驾驶图像为输入,输出智能车的驱动和制动决策序列。

如图4所示,pilot-net网络为卷积+全连接的结构,lstm网络为简单的双层网络。pilot-net网络以单帧伪虚拟图像及环境理解的结果为输入,首先经过一层归一化处理,用5×5大小的卷积核做归一化处理;再分别经过2层5×5大小的卷积核和2层3×3大小的卷积核进行卷积处理,生成特征图;将该特征图经过flatten处理后,再经过3层全连接层处理,输出智能车的驾驶转向决策控制策略。lstm网络在时间序列上处理信息,在每一个训练序列上向前和向后分别是两个lstm网络,两个lstm网络都链接一个输出层,这个结构提供了每一个节点过去和将来的上下文信息。针对连续帧环境数据,以pilot-net网络的卷积层输出和驾驶图像为输入,输出智能车的驱动和制动决策序列。

对于驾驶图像的输入,使用实时、连续视频帧的输入,每次使用的输入图像为当前时刻时间戳的前几帧视频图像。以此种方法得到的预测图像,可以更大程度上的得到真实的预测图像作为驾驶决策规划的判断。

b:驾驶决策控制

根据步骤a2,可以得到神经网络输出的智能车驱动、制动和转向决策序列三种智能车驾驶序列。根据驾驶序列规划,规划出最优的驾驶路径作为车辆的行驶轨迹。通过智能车的控制底层经由控制模块实现规划好的动作。

本发明不局限于本实施例,任何在本发明披露的技术范围内的等同构思或者改变,均列为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1