无人驾驶行为决策及模型训练的方法、装置及电子设备与流程

文档序号:16787732发布日期:2019-02-01 19:29阅读:252来源:国知局
无人驾驶行为决策及模型训练的方法、装置及电子设备与流程

本申请涉及无人驾驶技术领域,特别涉及一种无人驾驶行为决策及模型训练的方法、装置及电子设备。



背景技术:

随着无人驾驶技术以及人工智能技术的不断发展,人工智能技术已经深入地应用到无人驾驶技术领域。目前来说,通常采用有监督学习的方式进行无人驾驶行为决策的模型训练,但是,采用有监督学习的方式进行模型训练时,需要采集大量的样本数据,并对大量的样本数据进行标签的标注。而大量样本数据的采集以及对样本数据进行标签的标注所耗费的人力资源巨大,因此,模型训练的效率低下。而且,由于样本数据难以得到扩充,训练得到的模型在进行行为决策时的精确度较低。



技术实现要素:

为了解决上述技术问题之一,本申请提供一种无人驾驶行为决策及模型训练的方法、装置及电子设备。

根据本申请实施例的第一方面,提供一种无人驾驶决策模型的训练方法,包括:

获取样本数据,所述样本数据包括样本图像;

提取所述样本数据对应的样本特征向量;其中,采用流形降维的方式提取所述样本图像的特征向量;

基于所述样本特征向量,采用半监督学习的方式训练得到目标决策模型;所述目标决策模型用于决策分类。

可选的,所述基于所述样本特征向量,采用半监督学习的方式训练得到目标决策模型,包括:

迭代执行以下步骤:利用当前的生成器生成第一虚拟特征向量;

基于所述第一虚拟特征向量更新当前的生成器;

利用更新后的生成器生成第二虚拟特征向量;

基于所述样本特征向量及所述第二虚拟特征向量更新当前的决策模型;

当确定满足停止条件时,停止迭代,将经过迭代更新之后的决策模型作为目标决策模型。

可选的,所述基于所述第一虚拟特征向量更新当前的生成器,包括:

将所述第一虚拟特征向量输入当前的决策模型,得到第一输出内容;所述第一输出内容包括对所述第一虚拟特征向量的真伪属性进行判定的第一结果;

根据所述第一输出内容调整当前的生成器的参数,以更新当前的生成器。

可选的,所述根据所述第一输出内容调整当前的生成器的参数,包括:

根据所述第一输出内容确定第一指标,所述第一指标为所述第一结果是错误结果的数学期望值;

利用所述第一指标调整当前的生成器的参数。

可选的,所述基于所述样本特征向量及所述第二虚拟特征向量更新当前的决策模型,包括:

将所述样本特征向量及所述第二虚拟特征向量输入当前的决策模型,得到第二输出内容;所述第二输出内容包括对所述第二虚拟特征向量的真伪属性进行判定的第二结果、对所述样本特征向量的真伪属性进行判定的第三结果以及对所述样本特征向量进行决策分类的第四结果;

根据所述第二输出内容调整当前的决策模型的参数,以更新当前的决策模型。

可选的,所述根据所述第二输出内容调整当前的决策模型的参数,包括:

根据所述第二输出内容确定第二指标和第三指标,所述第二指标为所述第二结果是错误结果的数学期望值与所述第三结果为正确结果的数学期望值之和;所述第三指标为所述第四结果为正确结果的数学期望值;

利用所述第二指标和第三指标调整当前的决策模型的参数。

可选的,当确定损失函数收敛时,确定满足停止条件;

其中,所述损失函数为第一函数、第二函数和第三函数的加权和;

其中,所述第一函数为当前的决策模型对所述第二虚拟特征向量的真伪属性进行判定的结果是错误结果的数学期望函数;所述第二函数为所述当前的决策模型对所述样本特征向量的真伪属性进行判定的结果是正确结果的数学期望函数;所述第三函数为所述当前的决策模型对所述样本特征向量进行决策分类的结果是正确结果的数学期望函数。

根据本申请实施例的第二方面,提供一种使用上述第一方面中任一项所述的目标决策模型进行无人驾驶行为决策的方法,包括:

获取当前采集到的用于无人驾驶行为决策的目标数据,所述目标数据包括目标图像;

提取所述目标数据对应的目标特征向量;其中,采用流形降维的方式提取所述目标图像的特征向量;

将所述目标特征向量输入所述目标决策模型,得到目标决策结果。

根据本申请实施例的第三方面,提供一种无人驾驶决策模型的训练装置,包括:

获取模块,用于获取样本数据,所述样本数据包括样本图像;

提取模块,用于提取所述样本数据对应的样本特征向量;其中,采用流形降维的方式提取所述样本图像的特征向量;

训练模块,用于基于所述样本特征向量,采用半监督学习的方式训练得到目标决策模型;所述目标决策模型用于决策分类。

根据本申请实施例的第四方面,提供一种使用上述第三方面中所述的目标决策模型进行无人驾驶行为决策的装置,包括:

获取模块,用于获取当前采集到的用于无人驾驶行为决策的目标数据,所述目标数据包括目标图像;

提取模块,用于提取所述目标数据对应的目标特征向量;其中,采用流形降维的方式提取所述目标图像的特征向量;

决策模块,用于将所述目标特征向量输入所述目标决策模型,得到目标决策结果。

根据本申请实施例的第五方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面中任一项所述的方法。

根据本申请实施例的第六方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面或第二方面中任一项所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果:

本申请的实施例提供的无人驾驶决策模型的训练方法和装置,通过获取样本数据,该样本数据包括样本图像,提取上述样本数据对应的样本特征向量,其中,采用流形降维的方式提取样本图像的特征向量,并基于上述样本特征向量,采用半监督学习的方式训练得到目标决策模型,该目标决策模型用于决策分类。本实施例无需采集大量的样本数据,也无需对大量的样本数据进行标签的标注,因此,节省了人力资源,提高了模型训练的效率。同时,也使得训练得到的模型在进行行为决策时,所得的决策结果更加准确。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例示出的一种无人驾驶决策模型的训练方法的流程图;

图2是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练方法的流程图;

图3是本申请根据一示例性实施例示出的一种无人驾驶行为决策的方法的流程图;

图4是本申请根据一示例性实施例示出的一种无人驾驶决策模型的训练装置的框图;

图5是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练装置的框图;

图6是本申请根据一示例性实施例示出的一种无人驾驶行为决策的装置的框图;

图7是本申请根据一示例性实施例示出的一种电子设备的结构示意图;

图8是本申请根据一示例性实施例示出的另一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示,图1是根据一示例性实施例示出的一种无人驾驶决策模型的训练方法的流程图,该方法可以应用于终端设备中,也可以应用于服务器中。该方法包括以下步骤:

在步骤101中,获取样本数据,该样本数据包括样本图像。

在本实施例中,首先,可以获取用于无人驾驶行为决策的样本数据,该样本数据可以由安装于无人驾驶设备(如,无人车,或者无人操作机器人,或者无人机,或者无人船等等)上的各种数据采集装置采集得到。其中,安装于无人驾驶设备上的数据采集装置至少可以包括图像采集装置。因此,该样本数据至少包括由上述图像采集装置采集的样本图像。可选地,安装于无人驾驶设备上的数据采集装置还可以包括但不限于激光雷达,毫米波雷达,超声雷达,惯性测量单元等等。因此,该样本数据还可以包括但不限于可行驶区域的范围的数据,障碍物的位置数据以及无人驾驶设备的运动状态信息等等。

需要说明的是,样本数据可以被分为多组,每组样本数据由不同数据采集装置在相同时刻采集的数据构成。可以至少对部分组的样本数据进行标签标注,每组被标注的样本数据对应一个行为决策标签,每个行为决策标签可以对应于一个行为决策,例如,行为决策可以是向前行进,也可以是向后退,也可以是向左拐弯,也可以是向右拐弯,还可以是匀速行驶,还可以是停止,还可以是跟随目标物等等。可以理解,行为决策还可以是其它类型的决策,本申请对行为决策的具体类型方面不限定。

在步骤102中,提取上述样本数据对应的样本特征向量,其中,采用流形降维的方式提取样本图像的特征向量。

在本实施例中,可以基于上述样本数据的具体类型,采用相应合理的方式,提取上述样本数据对应的样本特征向量,得到多组样本特征向量。

其中,需要采用流形降维的方式提取样本图像的特征向量。具体来说,可以按照每帧样本图像(样本图像为连续采集的)之间的连续性构建流形,并进行流形降维,以获取矩阵形式的图像特征向量。可以理解,可以采用任意合理的流形降维的方式提取样本图像的特征向量。本领域中已知的以及将来可能出现的任何流形降维的方法都可以应用于本申请,本申请对此方面不限定。

在步骤103中,基于上述样本特征向量,采用半监督学习的方式训练得到目标决策模型。

在本实施例中,可以采用半监督学习的方式,基于上述样本特征向量,训练得到目标决策模型,目标决策模型可以用于决策分类。具体来说,在一种实现方式中,可以迭代执行以下步骤,直至确定满足停止条件:首先,利用当前的生成器生成第一虚拟特征向量,接着,基于该第一虚拟特征向量更新当前的生成器。然后,利用更新后的生成器生成第二虚拟特征向量,再基于上述样本特征向量及第二虚拟特征向量更新当前的决策模型。

在本实施例中,当确定满足停止条件时,停止迭代,并输出经过迭代更新之后的决策模型作为目标决策模型。其中,当确定损失函数收敛时,确定满足停止条件。损失函数可以为第一函数、第二函数和第三函数的加权和。例如,损失函数可以采用如下公式表示:

l=aef(z)+bet1(x)+cet2(x)

其中,l为损失函数,ef(z)为第一函数,ef(z)表示当前的决策模型对第二虚拟特征向量的真伪属性进行判定的结果是错误结果的数学期望函数。et1(x)为第二函数,et1(x)表示当前的决策模型对样本特征向量的真伪属性进行判定的结果是正确结果的数学期望函数。et2(x)为第三函数,et2(x)当前的决策模型对样本特征向量进行决策分类的结果是正确结果的数学期望函数。a、b、c分别为第一函数、第二函数和第三函数的权重系数,其中,a、b、c可以是根据经验设定的经验值,本申请对该权重系数的具体取值方面不限定。

需要说明的是,由于第二虚拟特征向量是由生成器生成的,因此,不是真实数据,所以第二虚拟特征向量的真伪属性为伪数据。如果当前的决策模型判定第二虚拟特征向量为真数据,则说明该判定结果是错误结果。如果当前的决策模型判定第二虚拟特征向量的伪数据,则说明该判定结果是正确结果。

需要说明的是,由于样本特征向量是基于采集的真实数据而得到的,因此,属于真实数据,所以样本特征向量的真伪属性为真数据。如果当前的决策模型判定样本特征向量为真数据,则说明该判定结果是正确结果。如果当前的决策模型判定样本特征向量的伪数据,则说明该判定结果是错误结果。

需要说明的是,由于部分被标注的样本特征向量均对应于行为决策标签,如果当前的决策模型对被标注的样本特征向量进行决策分类的结果与该样本特征向量所对应的决策标签相同,则说明该判定结果是正确结果。如果当前的决策模型对被标注的样本特征向量进行决策分类的结果与该样本特征向量所对应的决策标签不同,则说明该判定结果是错误结果。

在另一种实现方式中,还可以迭代执行以下步骤,直至确定满足停止条件:首先,利用当前的生成器生成虚拟特征向量,接着,基于该虚拟特征向量及上述样本特征向量同时更新当前的生成器以及当前的决策模型。其中,当确定损失函数收敛时,确定满足停止条件。该损失函数与上一种实现方式中的损失函数的原理类似,此处对此不再赘述。

本申请的上述实施例提供的无人驾驶决策模型的训练方法,通过获取用于样本数据,该样本数据包括样本图像,提取上述样本数据对应的样本特征向量,其中,采用流形降维的方式提取样本图像的特征向量,并基于上述样本特征向量,采用半监督学习的方式训练得到目标决策模型,该目标决策模型用于决策分类。本实施例无需采集大量的样本数据,也无需对大量的样本数据进行标签的标注,因此,节省了人力资源,提高了模型训练的效率。同时,也使得训练得到的模型在进行行为决策时,所得的决策结果更加准确。

需要说明的是,虽然现有技术中存在通过半监督学习训练模型的方法,但是,在无人驾驶行为决策方面,现有技术并没有相关的应用。因为,在无人驾驶行为决策方面,通常会将视觉图像数据作为模型的输入数据,而通过半监督学习的方式训练模型需要生成器生成模型的输入数据。由于生成器难以高效地生成大量现有技术中常用的视觉图像数据,因此,在现有技术中,将通过半监督学习训练模型的方式应用于无人驾驶领域具有一定的技术障碍。而本申请的技术方案通过采用流形降维的方式将视觉图像数据处理成矩阵形式的特征向量,使得生成器能够高效地生成视觉图像数据对应的矩阵形式的特征向量,因此,本申请通过克服了上述技术障碍,实现了将半监督学习训练模型的方式应用于无人驾驶行为决策,解决了本申请所要解决的技术问题。

如图2所示,图2根据一示例性实施例示出的另一种无人驾驶决策模型的训练方法的流程图,该实施例描述了训练得到目标决策模型的过程,该方法可以应用于终端设备中,也可以应用于服务器中,包括以下步骤:

在步骤201中,获取样本数据,该样本数据包括样本图像。

在步骤202中,提取上述样本数据对应的样本特征向量,其中,采用流形降维的方式提取样本图像的特征向量。

在步骤203中,利用当前的生成器生成第一虚拟特征向量。

在本实施例中,当前的生成器可以是正在训练的生成器,可以获取随机噪声信号,并将随机噪声信号输入至该生成器,使该生成器生成第一虚拟特征向量。需要说明的是,该生成器可以生成多组第一虚拟特征向量,每组第一虚拟特征向量与样本特征向量具有相同的维度。

在本实施例中,生成器可以是任意能够编码生成虚拟特征向量的编码器,本申请对生成器的具体类型方面不限定。

在步骤204中,基于该第一虚拟特征向量更新当前的生成器。

在本实施例中,可以基于该第一虚拟特征向量更新当前的生成器,使得更新后的生成器生成的第一虚拟特征向量与样本特征向量尽可能近似。具体来说,可以通过如下方式基于该第一虚拟特征向量更新当前的生成器:首先,可以将第一虚拟特征向量输入至当前的决策模型,得到第一输出内容。该第一输出内容可以包括当前的决策模型对第一虚拟特征向量的真伪属性进行判定的第一结果。其中,第一虚拟特征向量的真伪属性为伪数据,因此,若当前的决策模型判定第一虚拟特征向量为真数据,则说明该判定结果是错误结果。若当前的决策模型判定第一虚拟特征向量的伪数据,则说明该判定结果是正确结果。

然后,根据该第一输出内容调整当前的生成器的参数,以更新当前的生成器。具体地,可以根据第一输出内容确定第一指标,该第一指标为第一结果是错误结果的数学期望值,接着,可以利用第一指标调整当前的生成器的参数。例如,可以根据第一指标及损失函数,采用梯度下降法,确定生成器参数的调整方向(如,将参数调大,或者将参数调小),然后按照该调整方向生成器的调整参数。从而使得更新后的生成器生成的第一虚拟特征向量与样本特征向量尽可能近似。

在步骤205中,利用更新后的生成器生成第二虚拟特征向量。

在步骤206中,基于上述样本特征向量及上述第二虚拟特征向量更新当前的决策模型。

在本实施例中,可以利用更新后的生成器生成第二虚拟特征向量,并基于上述样本特征向量及第二虚拟特征向量更新当前的决策模型。具体来说,可以通过如下方式基于上述样本特征向量及第二虚拟特征向量更新当前的决策模型:将样本特征向量及第二虚拟特征向量输入当前的决策模型,得到第二输出内容。该第二输出结内容可以包括对第二虚拟特征向量的真伪属性进行判定的第二结果、对样本特征向量的真伪属性进行判定的第三结果以及对样本特征向量进行决策分类的第四结果。

其中,第二虚拟特征向量的真伪属性为伪数据,因此,若当前的决策模型判定第二虚拟特征向量为真数据,则说明该判定结果是错误结果。若当前的决策模型判定第二虚拟特征向量的伪数据,则说明该判定结果是正确结果。样本特征向量的真伪属性为真数据,因此,若当前的决策模型判定样本特征向量为真数据,则说明该判定结果是正确结果。若当前的决策模型判定第二虚拟特征向量的伪数据,则说明该判定结果是错误结果。并且,被标注的样本特征向量均对应于行为决策标签,如果当前的决策模型对被标注的样本特征向量进行决策分类的结果与该样本特征向量所对应的决策标签相同,则说明该判定结果是正确结果。如果当前的决策模型对被标注的样本特征向量进行决策分类的结果与该样本特征向量所对应的决策标签不同,则说明该判定结果是错误结果。

接着,可以根据第二输出内容调整当前的决策模型的参数,以更新当前的决策模型。具体地,可以根据第二输出内容确定第二指标和第三指标,其中,第二指标为第二结果是错误结果的数学期望值与第三结果为正确结果的数学期望值之和,第三指标为第四结果为正确结果的数学期望值。接着,可以利用第二指标和第三指标调整当前的决策模型的参数。例如,可以根据第二指标和第三指标及损失函数,采用梯度下降法,确定生成器参数的调整方向,然后按照该调整方向生成器的调整参数。

在本实施例中,决策模型可以是现有技术中常用的分类器,本申请对决策模型的具体类型方面不限定。

在步骤207中,判断是否满足停止条件。

在步骤208中,当确定满足停止条件时,停止迭代,并输出经过迭代更新之后的决策模型作为目标决策模型。当确定满足停止条件时,重新执行步骤203-207。

需要说明的是,对于与图1实施例中相同的步骤,在上述图2实施例中不再进行赘述,相关内容可参见图1实施例。

本申请的上述实施例提供的无人驾驶决策模型的训练方法,迭代执行以下步骤,直至满足停止条件:利用当前的生成器生成第一虚拟特征向量,基于该第一虚拟特征向量更新当前的生成器,利用更新后的生成器生成第二虚拟特征向量,并基于样本特征向量及第二虚拟特征向量更新当前的决策模型。当确定满足停止条件时,停止迭代,并输出经过迭代更新之后的决策模型作为目标决策模型。由于本实施例,在每个迭代周期中,先更新生成器,再利用更新后的生成器生成的虚拟特征向量以及样本特征向量更新决策模型,从而提高了模型的训练效率,也使得训练得到的模型在进行行为决策时,所得的决策结果更加准确。

如图3所示,图3根据一示例性实施例示出的一种无人驾驶行为决策的方法的流程图,该方法可以应用于无人驾驶设备中。本领域技术人员可以理解,该无人驾驶设备可以包括但不限于无人车、无人操作机器人、无人机、无人船等等。该方法包括以下步骤:

在步骤301中,获取当前采集到的用于无人驾驶行为决策的目标数据,该目标数据包括目标图像。

在本实施例中,首先,可以获取当前采集到的用于无人驾驶行为决策的目标数据,该目标数据可以由安装于无人驾驶设备上的各种数据采集装置采集得到。其中,安装于无人驾驶设备上的数据采集装置至少可以包括图像采集装置。因此,该目标数据至少包括由上述图像采集装置采集的目标图像。

可选地,安装于无人驾驶设备上的数据采集装置还可以包括但不限于激光雷达,毫米波雷达,超声雷达,惯性测量单元等等。因此,该目标数据还可以包括但不限于当前的可行驶区域的范围的数据,当前的障碍物的位置数据以及无人驾驶设备当前的运动状态信息等等。

在步骤302中,提取目标数据对应的目标特征向量,其中,采用流形降维的方式提取目标图像的特征向量。

在本实施例中,可以基于上述目标数据的具体类型,采用相应合理的方式,提取上述目标数据对应的样本特征向量。其中,需要采用流形降维的方式提取目标图像的特征向量。

具体来说,可以按照每帧目标图像之间的连续性构建流形,并进行流形降维,以获取矩阵形式的图像特征向量。可以理解,可以采用任意合理的流形降维的方式提取目标图像的特征向量。本领域中已知的以及将来可能出现的任何流形降维的方法都可以应用于本申请,本申请对此方面不限定。

在步骤303中,将目标特征向量输入目标决策模型,得到目标决策结果。

在本实施例中,目标决策模型为预先训练得到的模型,具体可以参照图1或图2实施例中描述的方式训练目标决策模型,在本实施例中不再进行赘述。可以将目标特征向量输入目标决策模型,得到目标决策结果。

在本实施例中,目标决策结果可以包括一个行为决策,例如,行为决策可以是向前行进,也可以是向后退,也可以是向左拐弯,也可以是向右拐弯,还可以是匀速行驶,还可以是停止,还可以是跟随目标物等等。可以理解,行为决策还可以是其它类型的决策,本申请对行为决策的具体类型方面不限定。

本申请的上述实施例提供的无人驾驶行为决策的方法,通过获取当前采集到的用于无人驾驶行为决策的目标数据,该目标数据包括目标图像,提取目标数据对应的目标特征向量,其中,采用流形降维的方式提取目标图像的特征向量,并将目标特征向量输入目标决策模型,得到目标决策结果。其中,该目标决策模型采用图1或图2实施例描述的方法训练得到,因此,所得到的决策结果更为准确。

应当注意,尽管在上述的实施例中,以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

与前述无人驾驶行为决策及模型训练方法实施例相对应,本申请还提供了无人驾驶行为决策及模型训练装置的实施例。

如图4所示,图4是本申请根据一示例性实施例示出的一种无人驾驶决策模型的训练装置框图,该装置可以包括:获取模块401,提取模块402和训练模块403。

其中,获取模块401,用于获取样本数据,该样本数据包括样本图像。

提取模块402,用于提取该样本数据对应的样本特征向量。其中,采用流形降维的方式提取该样本图像的特征向量。

训练模块403,用于基于该样本特征向量,采用半监督学习的方式训练得到目标决策模型,该目标决策模型用于决策分类。

如图5所示,图5是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练装置框图,该实施例在前述图4所示实施例的基础上,训练模块403可以包括:迭代子模块501和输出子模块502。

其中,迭代子模块501,用于迭代执行以下步骤:利用当前的生成器生成第一虚拟特征向量,基于该第一虚拟特征向量更新当前的生成器,利用更新后的生成器生成第二虚拟特征向量,基于该样本特征向量及该第二虚拟特征向量更新当前的决策模型。

输出子模块502,用于在确定满足停止条件时,停止迭代,将经过迭代更新之后的决策模型作为目标决策模型。

在一些可选实施方式中,迭代子模块501通过如下方式基于该第一虚拟特征向量更新当前的生成器:

将第一虚拟特征向量输入当前的决策模型,得到第一输出内容,并根据第一输出内容调整当前的生成器的参数,以更新当前的生成器。其中,该第一输出内容包括对第一虚拟特征向量的真伪属性进行判定的第一结果。

在另一些可选实施方式中,迭代子模块501通过如下方式根据该第一输出内容调整当前的生成器的参数:

根据第一输出内容确定第一指标,并利用该第一指标调整当前的生成器的参数。其中,该第一指标为该第一结果是错误结果的数学期望值。

在另一些可选实施方式中,迭代子模块501通过如下方式基于该样本特征向量及该第二虚拟特征向量更新当前的决策模型:

将该样本特征向量及第二虚拟特征向量输入当前的决策模型,得到第二输出内容,并根据第二输出内容调整当前的决策模型的参数,以更新当前的决策模型。其中,第二输出内容包括对第二虚拟特征向量的真伪属性进行判定的第二结果、对样本特征向量的真伪属性进行判定的第三结果以及对样本特征向量进行决策分类的第四结果。

在另一些可选实施方式中,迭代子模块501通过如下方式根据第二输出内容调整当前的决策模型的参数:

根据第二输出内容确定第二指标和第三指标,并利用第二指标和第三指标调整当前的决策模型的参数。该第二指标为第二结果是错误结果的数学期望值与第三结果为正确结果的数学期望值之和。该第三指标为第四结果为正确结果的数学期望值。

在另一些可选实施方式中,输出子模块502被配置用于,在确定损失函数收敛时,确定满足停止条件。

其中,损失函数为第一函数、第二函数和第三函数的加权和。

其中,第一函数为当前的决策模型对第二虚拟特征向量的真伪属性进行判定的结果是错误结果的数学期望函数。第二函数为当前的决策模型对样本特征向量的真伪属性进行判定的结果是正确结果的数学期望函数。第三函数为当前的决策模型对样本特征向量进行决策分类的结果是正确结果的数学期望函数。

应当理解,上述装置可以预先设置在终端设备或服务器中,也可以通过下载等方式而加载到终端设备或服务器中。上述装置中的相应模块可以与终端设备或服务器中的模块相互配合以实现无人驾驶决策模型的训练方案。

如图6所示,图6是本申请根据一示例性实施例示出的一种使用如图4或图5装置训练得到的目标决策模型进行无人驾驶行为决策的装置框图,该装置可以包括:获取模块601,提取模块602和决策模块603。

其中,获取模块601,用于获取当前采集到的用于无人驾驶行为决策的目标数据,该目标数据包括目标图像。

提取模块602,用于提取目标数据对应的目标特征向量,其中,采用流形降维的方式提取目标图像的特征向量。

决策模块603,用于将目标特征向量输入目标决策模型,得到目标决策结果。

应当理解,上述装置可以预先设置在无人驾驶设备中,也可以通过下载等方式而加载到无人驾驶设备中。上述装置中的相应模块可以与无人驾驶设备中的模块相互配合以实现无人驾驶行为决策的方案。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本申请实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1至图3任一实施例提供的无人驾驶决策的模型训练方法或无人驾驶行为决策的方法。

对应于上述的无人驾驶决策模型的训练方法,本申请实施例还提出了图7所示的根据本申请的一示例性实施例的电子设备的示意结构图。请参考图7,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成无人驾驶决策模型的训练装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

对应于上述的无人驾驶行为决策的方法,本申请实施例还提出了图8所示的根据本申请的一示例性实施例的电子设备的示意结构图。请参考图8,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成无人驾驶行为决策的装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1