一种决策信息生成方法、装置、设备及存储介质与流程

文档序号：23307292发布日期：2020-12-15 11:37阅读：76来源：国知局

本发明实施例涉及车辆技术，尤其涉及一种决策信息生成方法、装置、设备及存储介质。

背景技术：

随着人工智能技术的发展，智能产品已经慢慢融入了我们生活的方方面面。自动驾驶成为了未来交通的发展方向，自动驾驶不仅具备加减速、转向等常规汽车功能，还集成了环境感知、行为决策、路径规划、车辆控制等系统功能。

决策规划问题是自动驾驶中非常关键的一步，决策是否合理直接决定了自动驾驶车辆智能等级。因此也是自动驾驶发展要面对的重要难题。决策系统目前主要是基于规则的行为决策，即将自动驾驶行为按照形式规则、交通法规、驾驶常识等建立行为规则库，按照不同场景划分车辆状态，并按照规则逻辑确定车辆行为的方法。

基于规则的行为决策是一种保守的行为决策系统，在多数情况下可以正常使用，但是并不能根据驾驶者的驾驶习惯等调整车辆的行为决策，由于状态切割划分条件导致车辆行为不连贯；行为规则库触发条件易重叠从而造成系统失效；而且基于规则的行为决策存在无法覆盖所有突发情况场景以及场景深度遍历不足导致系统决策正确率难以提升，对复杂工况处理及算法性能的提升存在瓶颈的缺点。

技术实现要素：

本发明实施例提供一种决策信息生成方法、装置、设备及存储介质，以解决目前智能车辆在自动驾驶过程中基于规则学习不能自调整、场景覆盖不完全等缺点，提高了自动驾驶车辆的行为决策准确性和行车安全性。

第一方面，本发明实施例提供了一种决策信息生成方法，包括：

获取当前时刻当前车辆的状态参数和环境信息；

对所述状态参数和环境信息进行数据处理，得到目标特征向量；

将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，其中，所述决策信息生成模型为双向lstm网络模型，所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。

进一步的，所述决策信息生成模型的训练方法，包括：

获取样本状态参数、样本环境信息和样本决策信息；

将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息；

根据所述样本决策信息和所述预测决策信息形成的目标函数训练所述待训练的双向lstm网络模型的模型结构和模型参数；

返回执行将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息的操作，直至得到决策信息生成模型。

进一步的，所述环境信息包括：全局导航生成的规划路径、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆的车速、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆与当前车辆的车距、当前车辆行驶路段的车道线情况、当前车辆周围的障碍物状态以及交通灯状态中的至少一种。

进一步的，所述双向lstm网络模型包括：前向lstm网络模型、后向lstm网络模型和前馈神经网络模型；

将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，包括：

将所述目标特征向量输入所述前向lstm网络模型，得到当前时刻和当前时刻之前预设时间的状态参数和环境信息对应的第一特征向量；

将所述目标特征向量输入所述后向lstm网络模型，得到当前时刻和当前时刻之后预设时间的状态参数和环境信息对应的第二特征向量；

将所述第一特征向量和所述第二特征向量输入所述前馈神经网络模型，得到与所述目标特征向量对应的决策信息。

进一步的，双向lstm网络模型包括：输入层、两个隐含层和输出层，所述隐含层的激活函数为矫正激活函数，输出层的激活函数为softmax函数。

进一步的，所述双向lstm网络模型包括：遗忘门、输入门、输出门和记忆单元；

所述遗忘门通过如下公式实现：

ft＝σ(wf·[ht-1,xt]+bf)；

其中，wf为遗忘门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为遗忘门的偏移向量，σ为sigmoid函数；

所述输入门通过如下公式实现：

it＝σ(wi·[ht-1,xt]+bi)；

其中，wi为输入门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为输入门的偏移向量，σ为sigmoid函数；

当前t时刻的候选值通过如下公式计算得到：

其中，wc为记忆单元的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bc为记忆单元的偏移向量；

当前t时刻的记忆单元的状态通过如下公式计算得到：

其中，ct-1为t-1时刻的记忆单元的状态；

输出门通过如下公式实现：

ot＝σ(wo·[ht-1,xt]+bo)；

其中，wo为输入门的权重，ht-1为t-1时刻的输出，xt为t时刻的输入，bo为输入门的偏移向量，σ为sigmoid函数；

所述决策信息生成模型的输出通过如下公式计算得到：

ht＝ot*tanh(ct)。

第二方面，本发明实施例还提供了一种决策信息生成装置，该装置包括：获取模块，用于获取当前时刻当前车辆的状态参数和环境信息；

处理模型，用于对所述状态参数和环境信息进行数据处理，得到目标特征向量；

生成模块，用于将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，其中，所述决策信息生成模型为双向lstm网络模型，所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。

进一步的，所述生成模块具体用于：

获取样本状态参数、样本环境信息和样本决策信息；

将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息；

根据所述样本决策信息和所述预测决策信息形成的目标函数训练所述待训练的双向lstm网络模型的模型结构和模型参数；

返回执行将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息的操作，直至得到决策信息生成模型。

进一步的，所述双向lstm网络模型包括：前向lstm网络模型、后向lstm网络模型和前馈神经网络模型；

所述生成模型具体用于：

将所述目标特征向量输入所述前向lstm网络模型，得到当前时刻和当前时刻之前预设时间的状态参数和环境信息对应的第一特征向量；

将所述目标特征向量输入所述后向lstm网络模型，得到当前时刻和当前时刻之后预设时间的状态参数和环境信息对应的第二特征向量；

将所述第一特征向量和所述第二特征向量输入所述前馈神经网络模型，得到与所述目标特征向量对应的决策信息。

进一步的，双向lstm网络模型包括：输入层、两个隐含层和输出层，所述隐含层的激活函数为矫正激活函数，输出层的激活函数为softmax函数。

进一步的，所述双向lstm网络模型包括：遗忘门、输入门、输出门和记忆单元；

所述遗忘门通过如下公式实现：

ft＝σ(wf·[ht-1,xt]+bf)；

其中，wf为遗忘门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为遗忘门的偏移向量，σ为sigmoid函数；

所述输入门通过如下公式实现：

it＝σ(wi·[ht-1,xt]+bi)；

其中，wi为输入门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为输入门的偏移向量，σ为sigmoid函数；

当前t时刻的候选值通过如下公式计算得到：

其中，wc为记忆单元的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bc为记忆单元的偏移向量；

当前t时刻的记忆单元的状态通过如下公式计算得到：

其中，ct-1为t-1时刻的记忆单元的状态；

输出门通过如下公式实现：

ot＝σ(wo·[ht-1,xt]+bo)；

其中，wo为输入门的权重，ht-1为t-1时刻的输出，xt为t时刻的输入，bo为输入门的偏移向量，σ为sigmoid函数；

所述决策信息生成模型的输出通过如下公式计算得到：

ht＝ot*tanh(ct)。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的决策信息生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的决策信息生成方法。

本发明实施例通过获取当前时刻当前车辆的状态参数和环境信息；对所述状态参数和环境信息进行数据处理，得到目标特征向量；将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，其中，所述决策信息生成模型为双向lstm网络模型，所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的，以解决目前智能车辆在自动驾驶过程中基于规则学习不能自调整、场景覆盖不完全等缺点，提高了自动驾驶车辆的行为决策准确性和行车安全性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一中的一种决策信息生成方法的流程图；

图1a是本发明实施例一中的决策信息生成流程图；

图1b是本发明实施例一中的决策信息生成模型图示；

图2是本发明实施例二中的一种决策信息生成装置的结构示意图；

图3是本发明实施例三中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例一

图1为本发明实施例一提供的一种决策信息生成方法的流程图，本实施例可适用于决策信息生成的情况，该方法可以由本发明实施例中的决策信息生成装置来执行，该装置可采用软件和/或硬件的方式实现，如图1所示，该方法具体包括如下步骤：

s110，获取当前时刻当前车辆的状态参数和环境信息。

其中，所述当前车辆的状态信息包括：当前车辆的位置、当前车辆的速度、当前车辆的加速度、当前车辆的方向盘转角、当前车辆施加于油门的压力、当前车辆施加于刹车的压力中的一种或者多种，还可以包括其他能够表征当前车辆状态的信息，本发明实施例对此不进行限制。

其中，所述当前车辆的状态信息还可以包括：当前车辆的轨迹数据。

其中，所述当前车辆的状态参数的获取方式可以为通过车载传感器采集得到，也可以通过can总线直接获取，本发明实施例对此不进行限制。

其中，所述环境信息可以包括全局导航生成的规划路径、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆的车速、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆与当前车辆的车距、当前车辆行驶路段的车道线情况、当前车辆周围的障碍物状态以及交通灯状态中的至少一种，本发明实施例对此不进行限制。

其中，所述环境信息的获取方式可以为通过车载摄像头、车载激光雷达以及其他车载设备采集得到。

具体的，获取当前时刻当前车辆的状态参数和环境信息，例如可以是，若当前时刻为t时刻，则获取时刻t时，当前车辆的状态参数和环境信息。

s120，对所述状态参数和环境信息进行数据处理，得到目标特征向量。

具体的，对当前时刻当前车辆的状态参数和环境信息进行数据处理，得到当前时刻当前车辆的状态参数和环境信息对应的目标特征向量。

s130，将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，其中，所述决策信息生成模型为双向lstm网络模型，所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。

其中，所述决策生成模型为经过训练得到的输入为目标特征向量，输出为决策信息的神经网络模型，所述决策生成模型可以为，长短时间记忆网络模型(longshort-termmemory，lstm)。

其中，所述决策信息生成模型为双向lstm网络模型，包括：前向lstm网络模型、后向lstm网络模型和前馈神经网络模型。

其中，所述样本状态参数和样本环境信息为同一历史时刻采集的同一车辆的信息，所述样本决策信息为与所述样本状态参数和样本环境信息对应的样本决策信息。

其中，所述样本参数、所述样本环境信息和所述样本决策信息的获取方式可以为获取当前车辆在行驶过程中的轨迹数据和一定范围内的环境数据。

具体的，获取车辆在行驶过程中的轨迹数据和一定范围内的环境数据：获取车辆的轨迹数据集为t＝{t1,t2,...,tt,...,tn}，相应的环境数据集为x＝{x1,x2,...,xt,...,xn}；其中，轨迹数据t为车辆的不同时刻的行为决策，包括变道、超车、巡航、急停；tt为车辆在第t个时间点的行为决策。环境数据x为不同环境信息的数据集合，包括全局导航得出的规划路径、前方最近车辆的车速及车距、行驶路段的车道线情况、车辆周围一定范围内的障碍物情况、前方交通灯情况。xt为车辆在第t个时间点的环境数据，每个时间点的环境数据都为五种环境数据的集合，进一步将数据处理为[0,1]范围内的特征向量。

可选的，所述决策信息生成模型的训练方法，包括：

获取样本状态参数、样本环境信息和样本决策信息；

将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息；

根据所述样本决策信息和所述预测决策信息形成的目标函数训练所述待训练的双向lstm网络模型的模型结构和模型参数；

返回执行将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息的操作，直至得到决策信息生成模型。

其中，所述样本状态参数、样本环境信息和样本决策信息为当前车辆在行驶过程中的当前车辆的状态参数、当前车辆周围一定范围内的环境信息，和，与当前车辆在行驶过程中的当前车辆的状态参数和当前车辆周围一定范围内的环境信息相对应的决策信息。

具体的，样本状态参数、样本环境信息和样本决策信息和获取的当前时刻当前车辆的状态参数和环境信息为同一车辆不同时刻的信息，能够为模型提供更加优质的样本，训练好的模型的输出也更符合当前车辆。

可选的，所述环境信息包括：全局导航生成的规划路径、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆的车速、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆与当前车辆的车距、当前车辆行驶路段的车道线情况、当前车辆周围的障碍物状态以及交通灯状态中的至少一种。

可选的，所述双向lstm网络模型包括：前向lstm网络模型、后向lstm网络模型和前馈神经网络模型；

将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，包括：

将所述目标特征向量输入所述前向lstm网络模型，得到当前时刻和当前时刻之前预设时间的状态参数和环境信息对应的第一特征向量；

将所述目标特征向量输入所述后向lstm网络模型，得到当前时刻和当前时刻之后预设时间的状态参数和环境信息对应的第二特征向量；

将所述第一特征向量和所述第二特征向量输入所述前馈神经网络模型，得到与所述目标特征向量对应的决策信息。

具体的，在t时刻，环境数据x为全局导航得出的规划路径、前方最近车辆的车速及车距、行驶路段的车道线情况、车辆周围一定范围内的障碍物情况、前方交通灯情况的集合，xt＝{at,bt,ct,dt,et}，其中at为t时刻全局导航得出的规划路径，bt为t时刻前方最近车辆的车速及车距，ct为t时刻行驶路段的车道线情况，dt为t时刻车辆周围一定范围内的障碍物情况，et为t时刻前方交通灯情况。其中每时刻的x均为长度相同的向量表示的环境情况。

对于双向lstm网络，在t时刻，前向lstm可以得到xt和xt之前的当前车辆的状态参数和环境信息x1,x2,…，xt，后向lstm可以得到t时刻和t时刻之后的当前车辆的状态参数和环境信息xt,xt+1,…，xτ,将两个隐层输出向量h^tf和hb^t组合可以得到双向lstm在t时刻的整个序列的信息。

对于前馈神经网络，在t时刻的输入是双向lstm在t时刻的正向输出h^tf和同时刻的反向输出hb^t组成的特征向量，采用relu(rectifiedlinearunit，矫正激活单元)作为隐含层的激活函数，softmax函数作为输出层的激活函数，训练算法采用可以基于时间自适应调整lstm和多层感知机参数的反向传播算法(backpropagationthroughtime，bptt)。

因为目前本系统的行为决策由变道、超车、巡航、急停四种，车辆行为决策预测可以理解为一个映射问题，即为车辆的环境状况由五种环境因素集合成的特征向量映射为四种行为决策的过程，每一种环境因素对应到行为决策种的一种，因此可以看作是输出为由变道、超车、巡航、急停四种情况组成的输出向量。

将输入输出数据进行十字交叉验证法训练深度学习模型，调整参数，在预测精度不再提高时停止训练。

具体的，如图1a所示，先获取当前时刻当前车辆的环境信息和状态参数，对所述状态参数和环境信息进行数据处理，得到与所述状态参数和环境信息对应的特征向量，将所述特征向量输入双向lstm网络模型，得到与所述特征向量对应的决策信息。

可选的，双向lstm网络模型包括：输入层、两个隐含层和输出层，所述隐含层的激活函数为矫正激活函数，输出层的激活函数为softmax函数。

可选的，所述双向lstm网络模型包括：遗忘门、输入门、输出门和记忆单元；

所述遗忘门通过如下公式实现：

ft＝σ(wf·[ht-1,xt]+bf)；

其中，wf为遗忘门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为遗忘门的偏移向量，σ为sigmoid函数；

所述输入门通过如下公式实现：

it＝σ(wi·[ht-1,xt]+bi)；

其中，wi为输入门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为输入门的偏移向量，σ为sigmoid函数；

当前t时刻的候选值通过如下公式计算得到：

其中，wc为记忆单元的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bc为记忆单元的偏移向量；

当前t时刻的记忆单元的状态通过如下公式计算得到：

其中，ct-1为t-1时刻的记忆单元的状态；

输出门通过如下公式实现：

ot＝σ(wo·[ht-1,xt]+bo)；

其中，wo为输入门的权重，ht-1为t-1时刻的输出，xt为t时刻的输入，bo为输入门的偏移向量，σ为sigmoid函数；

所述决策信息生成模型的输出通过如下公式计算得到：

ht＝ot*tanh(ct)。

现有技术中生成决策的方法一般是基于规则的行为决策，基于规则的行为决策方法存在以下缺点：1)由于状态切割划分条件导致车辆行为不连贯；2)行为规则库触发条件易重叠从而造成系统失效；3)有限状态机难以完全覆盖车辆可能遇到的所有工况，通常会忽略可能导致决策错误的环境细节；4)场景深度遍历不足导致系统决策正确率难以提升，对复杂工况处理及算法性能的提升存在瓶颈。为了解决以上问题，本发明实施例采用了双向lstm算法作为网络模型，lstm是一种特殊的rnn，能够学习长时依赖关系，其主要包含三个“门”，分别为遗忘门(forgetgate)、输入门(inputgate)和输出门(outputgate)，以及一个记忆单元cell，由于门是由一个sigmoid神经网络层和一个点乘操作组成。所以lstm可以删除或添加信息到单元状态。因为sigmoid函数的输出为[0,1]之间的实数向量，所以通过与之相乘可以控制信息的传送，当sigmoid函数输出为0时，任何向量与之相乘都会得到0向量，即为不能通过；输出为1时，任何向量与之相乘都为本身，这就相当于随意通过此门。lstm就是通过这三个门来控制信息输入输出。lstm首先要决定哪些信息可以通过cellstate，即为通过sigmoid来控制的forgetgate，如式1-1所示，将t-1时刻的输出ht-1结合当前t时刻的输入xt产生一个ft值，由于ft值为0到1范围内，所以其决定了是否让t-1时刻学到的信息ct-1通过或者部分通过。

ft＝σ(wf·[ht-1,xt]+bf)(1-1)

其中，wf为遗忘门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为遗忘门的偏移向量，σ为sigmoid函数。

lstm的第二步是更新信息，如公式1-2所示，将inputgate层通过sigmoid决定更新哪些值可以通过，同时tanh层生成新的候选值如公式1-3所示，作为当前层产生的候选值是根据t-1时刻的输出和当前t时刻的输入来计算的，并且可能会被添加到单元状态中。

it＝σ(wi·[ht-1,xt]+bi)(1-2)

其中，wi为输入门的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bf为输入门的偏移向量，σ为sigmoid函数。

其中，wc为记忆单元的权重，ht-1为t-1时刻记忆单元的输出，xt为t时刻的输入，bc为记忆单元的偏移向量。

将t-1时刻的单元状态ct-1按元素乘以遗忘门ft可以得到当前t时刻的单元状态ct，再加上用输入门it按元素乘以当前候选值得到的值即可产生当前t时刻的候选值，是由输出门和单元状态共同确定的,如公式1-4所示。

其中，ct-1为t-1时刻的记忆单元的状态。

模型的最终输出首先要通过sigmoid函数得到一个当前t时刻的初始输出ot，如公式1-5所示，然后使用tanh函数将当前的单元状态ct值缩放到-1到1之间，如公式1-6所示，最后将缩放后的当前时刻的单元状态与sigmoid函数得到的输出逐对相乘就得到了模型的最终输出，如公式1-6所示。

ot＝σ(wo·[ht-1,xt]+bo)(1-5)

其中，wo为输入门的权重，ht-1为t-1时刻的输出，xt为t时刻的输入，bo为输入门的偏移向量，σ为sigmoid函数。

ht＝ot*tanh(ct)(1-6)

lstm由于具有输入门和遗忘门，即可以对信息进行筛选避免当前无关紧要的内容进入记忆单元，又可以保存很久很久之前的信息，输出门控制了长期记忆对当前输出的影响，在智能驾驶过程中，车辆的一段时间内的每个时间点的驾驶轨迹都是有一定相关性的，因为在t时刻，其前一时刻和后一时刻的行车轨迹共同决定此时的车辆运动轨迹，因此本发明实施例使用双向lstm算法作为训练模型。

本发明采取的技术方案为：1)提取出当前车辆的不同场景下当前车辆的轨迹数据和环境数据集合；2)对轨迹数据进行特征值添加和标准化处理，提取t时刻的轨迹数据作为多类别的lstm分类，同时刻的环境信息作为t时刻的输入特征向量；3)通过lstm算法对当前车辆的不同场景下的驾驶行为决策进行训练；4)根据训练出的模型预测相应场景下当前车辆的决策信息；5)根据预测的决策信息调整车辆运动轨迹。

本发明实施例具有以下有益效果：本发明实施例可以根据驾驶员平时的驾驶习惯不断训练深度学习模型，调整参数使预测结果越来越接近驾驶员的行为决策习惯，在自动驾驶过程中可以避免基于规则的行为决策系统状态划分界限确定问题、场景覆盖不完全等问题。进一步保证了智能车辆的行驶安全，提升了驾驶员的使用体验。

在一个具体的例子中，获取车辆历史的状态参数和环境信息及对应的决策信息。环境吱吱为全局导航得出的规划路径、前方最近车辆的车速及车距、行驶路段的车道线情况、车辆周围一定范围内的障碍物情况、前方交通灯情况的集合。决策信息包括变道、超车、巡航和/或急停。将车辆的状态参数和环境信息作为输入，决策信息作为输出，使用双向lstm做有监督训练。训练完的决策信息生成模型用于后续车辆的决策信息预测，并进一步根据预测结果调整车辆行驶轨迹。行驶过程中将当前时刻当前车辆的状态参数和环境信息输入训练好的决策信息生成模型，得到基于当前时刻当前车辆的状态参数和环境信息的决策信息，根据模型输出结果调整车辆行驶轨迹。

在一个具体的例子中，如图1b所示，决策信息生成模型包括：双向lstm模型和前馈神经网络模型，双向lstm模型包括前向lstm模型和后向lstm模型。前馈神经网络模型包括输入层、隐含层1、隐含层2和输出层。

本发明实施例提供了一种基于神经网络模型的自动驾驶车辆行为决策生成方法，车辆的状态参数和车辆所处的环境信息作为模型输入，决策信息作为模型输出训练lstm算法模型，使得车辆可以根据驾驶员的行为决策调整行为决策模型，使决策更加接近驾驶员的选择。从而解决了目前智能车辆在自动驾驶过程中基于规则学习不能自调整、场景覆盖不完全等缺点，提高了自动驾驶车辆的行为决策准确性和行车安全性，是一种可以广泛使用的方法。

本实施例的技术方案，通过获取当前时刻当前车辆的状态参数和环境信息；对所述状态参数和环境信息进行数据处理，得到目标特征向量；将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，其中，所述决策信息生成模型为双向lstm网络模型，所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的，以解决目前智能车辆在自动驾驶过程中基于规则学习不能自调整、场景覆盖不完全等缺点，提高了自动驾驶车辆的行为决策准确性和行车安全性。

实施例二

图2为本发明实施例二提供的一种决策信息生成装置的结构示意图。本实施例可适用于决策信息生成的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供决策信息生成功能的设备中，如图2所示，所述决策信息生成装置具体包括：获取模块210、处理模型220和生成模块230。

其中，获取模块210，用于获取当前时刻当前车辆的状态参数和环境信息；

处理模型220，用于对所述状态参数和环境信息进行数据处理，得到目标特征向量；

生成模块230，用于将所述目标特征向量输入决策信息生成模型，得到与所述目标特征向量对应的决策信息，其中，所述决策信息生成模型为双向lstm网络模型，所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。

可选的，所述生成模块具体用于：

获取样本状态参数、样本环境信息和样本决策信息；

将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息；

根据所述样本决策信息和所述预测决策信息形成的目标函数训练所述待训练的双向lstm网络模型的模型结构和模型参数；

返回执行将所述样本状态参数和所述样本环境信息输入至待训练的双向lstm网络模型中，得到预测决策信息的操作，直至得到决策信息生成模型。

可选的，所述双向lstm网络模型包括：前向lstm网络模型、后向lstm网络模型和前馈神经网络模型；

所述生成模型具体用于：

将所述目标特征向量输入所述前向lstm网络模型，得到当前时刻和当前时刻之前预设时间的状态参数和环境信息对应的第一特征向量；

将所述目标特征向量输入所述后向lstm网络模型，得到当前时刻和当前时刻之后预设时间的状态参数和环境信息对应的第二特征向量；

将所述第一特征向量和所述第二特征向量输入所述前馈神经网络模型，得到与所述目标特征向量对应的决策信息。

可选的，双向lstm网络模型包括：输入层、两个隐含层和输出层，所述隐含层的激活函数为矫正激活函数，输出层的激活函数为softmax函数。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三中的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。另外，本实施例中的计算机设备12，显示器24不是作为独立个体存在，而是嵌入镜面中，在显示器24的显示面不予显示时，显示器24的显示面与镜面从视觉上融为一体。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的决策信息生成方法：

获取当前时刻当前车辆的状态参数和环境信息；

对所述状态参数和环境信息进行数据处理，得到目标特征向量；

实施例四

本发明实施例四提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的决策信息生成方法：

获取当前时刻当前车辆的状态参数和环境信息；

对所述状态参数和环境信息进行数据处理，得到目标特征向量；

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何柳;李宇寂;尚秉旭
技术所有人：中国第一汽车股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。