本技术涉及自动驾驶,具体而言,涉及一种自动驾驶行为模型生成方法及系统。
背景技术:
1、目前,随着自动驾驶技术的快速进步,人们对自动驾驶汽车的期望不仅仅局限于安全性和效率,还包括其能否模仿人类驾驶员的行为习惯,提供更加人性化的驾驶体验。因此,研究人员和工程师们开始探索如何使自动驾驶车辆更好地适应人类的驾驶习惯,这一领域的研究已成为自动驾驶技术发展中的一个热点话题。
2、一般地,基于模仿学习的自动驾驶习惯优化系统设计与实现,是一种致力于通过深入学习人类驾驶员的驾驶行为和习惯,以此来改善自动驾驶系统的适应性和舒适性的技术方案。这种方法的核心在于收集和分析大量的人类驾驶数据,包括驾驶员在不同交通环境下的操作方式、驾驶决策过程以及对特定交通情况的反应模式等。通过这些数据,自动驾驶系统能够借助机器学习和深度学习算法,逐渐学习并模仿人类驾驶员的行为和习惯。这不仅包括基础的驾驶操作,如加速、减速、转向等,还涉及更复杂的决策制定过程,例如如何在繁忙的交通环境中保持安全距离、如何根据道路条件调整行驶速度,以及如何预测和应对突发的交通情况等。此外,基于模仿学习的系统还能够根据个别驾驶员的习惯进行个性化的调整和优化,从而为不同的用户提供更加定制化的驾驶体验。例如,系统可以识别出用户偏好的驾驶风格,如平稳驾驶或是偏好快速驾驶,并据此调整自动驾驶车辆的行为模式,以更好地满足用户的个人偏好。
3、现有技术中,尽管在特定情境下表现良好,但常常缺乏对复杂环境变化的适应性和深层次因果关系的理解,特别是在预测和应对多智体交互动态时。此外,传统方法在学习和模仿人类驾驶行为方面往往只关注表面的模式匹配,忽略了背后的因果逻辑和情境变化。无法做出更合理、更安全的驾驶决策。
技术实现思路
1、本技术的目的在于提供一种自动驾驶行为模型生成方法、系统、电子设备及计算机可读存储介质,可以实现提高自动驾驶行为的合理性、降低自动驾驶行为的危险性的技术效果。
2、第一方面,本技术提供了一种自动驾驶行为模型生成方法,包括:
3、获取车辆驾驶数据;
4、将所述车辆驾驶数据输入至因果推理引擎,获得因果关系数据;
5、将所述车辆驾驶数据输入至多智体交互模型进行训练,获得多智体之间的动态交互数据;
6、基于所述因果关系数据和所述动态交互数据训练自适应行为合成组件,获得自动驾驶行为模型。
7、在上述实现过程中,该自动驾驶行为模型生成方法通过将车辆驾驶数据输入至因果推理引擎和多智体交互模型进行训练,再根据因果关系数据和动态交互数据训练自适应行为合成组件,获得自动驾驶行为模型;该自适应行为组件结合了因果推断引擎和多智体交互模型获得的分析数据,从而实现高度适应性和智能化的驾驶行为,通过因果模型信息增强的新颖奖励塑造机制,不仅能够模仿人类驾驶行为,还能够优化安全性、效率和舒适性;从而,该自动驾驶行为模型生成方法可以实现提高自动驾驶行为的合理性、降低自动驾驶行为的危险性的技术效果。
8、进一步地,所述获取车辆驾驶数据的步骤,包括:
9、获取待测试车辆的驾驶传感器数据,所述驾驶传感器数据包括gps接收器数据、速度传感器数据、加速度传感器数据、陀螺仪数据、摄像头数据、激光雷达数据、惯性测量单元数据中的一种或多种;
10、对所述驾驶传感器数据进行标准化处理,并通过特征哈希进行数据融合和/或通过深度学习模型进行特征提取,获得车辆驾驶数据。
11、在上述实现过程中,在数据收集阶段,通过在待测试车辆上安装的多种传感器收集驾驶传感器数据;由于在自动驾驶系统中,驾驶传感器数据往往来自不同源的异构数据,为了提供一个综合的视图,并帮助模型更好地学习驾驶行为,首先对数据进行标准化,按照不同源数据各自的均值和标准差将数据标准为正态分布,对于结构化数据使用特征哈希,对于非结构化数据则使用相应的深度学习模型进行特征提取,最终实现特征融合。
12、进一步地,所述车辆驾驶数据包括结构化数据和非结构化数据,所述因果推理引擎包括因果推断单元和深度学习单元,所述深度学习单元包括图神经网络、卷积神经网络和循环神经网络,所述将所述车辆驾驶数据输入至因果推理引擎,获得因果关系数据的步骤,包括:
13、将所述结构化数据输入至所述图神经网络,获得动态变化数据;
14、将所述非结构化数据输入至所述卷积神经网络和/或循环神经网络,获得空间特征信息和时间特征信息;
15、所述因果推断单元基于所述动态变化数据、所述空间特征信息和所述时间特征信息进行处理,获得因果关系数据。
16、在上述实现过程中,通过基于图神经网络的方法,能够处理结构化数据,并且具有捕捉复杂模式的能力;通过基于卷积神经网络和循环神经网络来处理非结构化数据,其中卷积神经网络用于提取空间特征,而循环神经网络用于处理时间依赖性,捕捉随时间变化的因果效应;从而,通过上述因果推断单元和深度学习单元紧密集成,形成一个统一的框架,既可以学习复杂的因果关系,也可以适应环境的动态变化,实现提供实时的、基于因果的决策支持,从而提高自动驾驶车辆的决策效率。
17、进一步地,所述多智体交互模型中包括多个可交互的智体,所述多智体交互模型的公式表示为:
18、;
19、其中,表示第层智体的特征向量,表示智体的邻居,和分别是可训练的权重和偏置,是非线性激活函数。
20、在上述实现过程中,该多智体交互模型允许模型学习复杂的交互模式,并预测一个智体行为的变化如何可能影响其他智体;通过这种机制,该自动驾驶行为模型生成方法的因果推断能力可以应用于解释和预测多智体系统中的动态交互,可以提高自动驾驶决策过程中对复杂交通环境的理解,使自动驾驶系统能够更加灵活和准确地适应多变的交通情况。
21、进一步地,所述自适应行为合成组件包括动态奖励函数,所述动态奖励函数的公式表示为:
22、;
23、其中,refficiency表示效率参数,rsafety表示安全性参数,rcomfort表示舒适性参数,rcausal表示因果一致性参数,ω1至ω4表示可调系数。
24、在上述实现过程中,该动态奖励函数的公式,能够根据实时数据和预测模型动态调整,使得该自动驾驶行为模型生成方法能够在不断变化的环境中保持高度的适应性和反应能力。
25、进一步地,所述基于所述因果关系数据和所述动态交互数据训练自适应行为合成组件,获得自动驾驶行为模型的步骤,包括:
26、通过强化学习、所述因果关系数据和所述动态交互数据训练自适应行为合成组件,获得行为策略数据,其中,所述策略数据包括策略网络,所述策略网络根据当前状态和可能的行为选择输出预期的奖励值;
27、基于所述行为策略数据获得自动驾驶行为模型。
28、在上述实现过程中,通过强化学习训练自适应行为合成组件,使其能够在多变的交通环境中做出最优决策;而且,通过策略网络,该策略网络根据当前状态和可能的行为选择输出预期的奖励值,通过试错和奖励反馈,策略网络逐步优化,学习如何在不同情境下做出最佳决策。
29、第二方面,本技术提供了一种自动驾驶行为模型生成系统,包括:
30、驾驶数据模块,用于获取车辆驾驶数据;
31、因果推理模块,用于将所述车辆驾驶数据输入至因果推理引擎,获得因果关系数据;
32、多智体交互模块,用于将所述车辆驾驶数据输入至多智体交互模型进行训练,获得多智体之间的动态交互数据;
33、自动驾驶行为模块,用于基于所述因果关系数据和所述动态交互数据训练自适应行为合成组件,获得自动驾驶行为模型。
34、进一步地,所述驾驶数据模块具体用于:
35、获取待测试车辆的驾驶传感器数据,所述驾驶传感器数据包括gps接收器数据、速度传感器数据、加速度传感器数据、陀螺仪数据、摄像头数据、激光雷达数据、惯性测量单元数据中的一种或多种;
36、对所述驾驶传感器数据进行标准化处理,并通过特征哈希进行数据融合和/或通过深度学习模型进行特征提取,获得车辆驾驶数据。
37、进一步地,所述车辆驾驶数据包括结构化数据和非结构化数据,所述因果推理引擎包括因果推断单元和深度学习单元,所述深度学习单元包括图神经网络、卷积神经网络和循环神经网络,所述因果推断模块具体用于:
38、将所述结构化数据输入至所述图神经网络,获得动态变化数据;
39、将所述非结构化数据输入至所述卷积神经网络和/或循环神经网络,获得空间特征信息和时间特征信息;
40、所述因果推断单元基于所述动态变化数据、所述空间特征信息和所述时间特征信息进行处理,获得因果关系数据。
41、进一步地,所述自动驾驶行为模块具体用于:
42、通过强化学习、所述因果关系数据和所述动态交互数据训练自适应行为合成组件,获得行为策略数据,其中,所述策略数据包括策略网络,所述策略网络根据当前状态和可能的行为选择输出预期的奖励值;
43、基于所述行为策略数据获得自动驾驶行为模型。
44、第三方面,本技术提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
45、第四方面,本技术提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
46、第五方面,本技术提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
47、本技术公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本技术公开的上述技术即可得知。
48、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。