一种多智能体多场景数据集训练的自动驾驶方法

文档序号：24655088发布日期：2021-04-13 20:52阅读：来源：国知局

技术特征：
1.一种多智能体多场景数据集训练的自动驾驶方法，其特征在于，所述方法包括以下步骤：s1：在一个终端控制范围内设置若干智能体；s2：利用智能体在现实场景中采集数据集；s3：对s2采集的数据集进行深度学习处理，得到现实场景和在现实场景下智能体采取的动作；s4：根据s3处理的结果，将现实场景和在现实场景下智能体采取的动作保存至终端；s5：智能体采集实时运行场景，并将实时运行场景转换为数据发送至终端；终端将实时运行场景与终端保存的现实场景进行对比，当达到预设相似度值后，终端选取最优处理措施指导智能体进行路径规划和避障。2.根据权利要求1所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，s3具体包括以下步骤：s3.1：初始化存放自动驾驶智能体所采集数据的容器，以及初始化该容器的大小；确定该容器可容纳的数据条数n；s3.2：初始化q函数，并根据智能体采集到的数据对q函数进行更新，得到最高评分状态下的q函数；s3.3：利用最高评分状态下的q函数对显示场景进行处理，并将处理后得出的动作；s3.4：将现实场景和s3.3得到的动作存储至终端。3.根据权利要求2所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，s3.2包括以下步骤：s3.2.1：设φ
t
为智能体采集到的第t个数据，r
t
为第t个分数；令t＝1；其中，r1为初始分数值，根据工程经验进行人为设置；s3.2.2：将φ
t
和r
t
输入q函数，得到一个q值；s3.2.3：按以下两种方式之一选择一个动作；(1)任意选择一个动作；(2)根据q值选择一个动作；s3.2.4：s3.4：智能体开始在仿真器中执行s3.3中所选择的操作；得到分数r
t+1
，并根据q函数的损失函数来更新θ；s3.2.5：判断t>n是否成立，若成立则结束操作，并输出评分最高状态下的θ，然后利用更新后的θ对q函数进行更新；若不成立，则将得到的r
t+1
、更新后的θ、φ
t+1
存储至容器，且令t＝t+1，并返回s3.2.2。4.根据权利要求3所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，s3.2.3中选择动作的方法具体为：构建动作函数；以任意选择一个动作的概率为ε，根据q值选择一个动作的概率为1
‑
ε，如果没有发生根据q值选择一个动作的情况，则选择当前动作函数值最大的动作。5.根据权利要求4所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，如果没有发生根据q值选择一个动作的情况，则根据贪婪策略选择当前选择动作函数值最大的动作。6.根据权利要求5所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，动作
函数为：a
t
＝argmaxq(s,a,θ)其中，q(s,a,θ)为q函数。7.根据权利要求6所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，q函数的损失函数为：δθ＝e[(r
t
+γmaxq(s',a',θ)
‑
q(s,a,θ)]其中，γ为衰减因子，γ∈(0,1)，q(s',a',θ)为q(s,a,θ)的倒数，e[
·
]表示求均值。8.根据权利要求7所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，及更新θ的公式为：θ＝θ+δθ。9.根据权利要求8所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，s5中终端通过融合a
‑
star算法(全局路径规划算法)和teb算法(局部路径规划算法)选取最优处理措施指导智能体进行路径规划和避障。10.根据权利要求9所述多智能体多场景数据集训练的自动驾驶方法，其特征在于，通过融合a
‑
star算法和teb算法选取最优处理措施指导智能体进行路径规划和避障的具体操作为：首先通过全局路径规划算法进行路线规划，在智能体行驶的过程中判断是否遇到动态路障，若没有遇到路障则按规划的路线进行行驶，若遇到路障，则通过局部路径规划算法进行避障，在避障过程中根据s3所处理得出的动作进行避障。

完整全部详细技术资料下载

当前第2页1 2 3