列车自动驾驶方法、装置、电子设备及存储介质与流程

文档序号：36091275发布日期：2023-11-18 09:41阅读：56来源：国知局

本文件涉及轨道交通运行控制，尤其涉及一种列车自动驾驶方法、装置、电子设备及存储介质。

背景技术：

1、列车的自动驾驶算法优化对于确保城市地区交通系统的高效可靠发挥着至关重要的作用。随着公共交通需求的不断增长，通过优化列车系统的自动驾驶算法来提高地铁系统的性能变得越发重要。本专利技术侧重于改进列车在两个站点之间的自动驾驶控制。具体而言，我们致力于开发一种算法，根据预先计算得到的推荐速度，控制列车运行以尽可能准确地追踪这一推荐速度。该任务是一个多目标任务，旨在综合考虑速度追踪的准确性以及关键的运营指标，如安全性、能源效率、运行效率和乘客舒适度等。

2、在地铁系统中，两个站点之间的推荐速度通常通过离线计算得到，如图1所示。推荐速度作为列车自动驾驶算法的追踪目标。

3、列车自动驾驶是一项复杂的任务，可以有效地将其视为最优控制问题来解决。其主要目标是确定列车在车站之间的整个运行过程中的牵引力和制动力的最佳调节策略。通过精确调节牵引力和制动力，列车可以实现高效、安全的运行，并最大限度地提升自动驾驶性能。

4、在列车自动驾驶算法中，经典且最常用的算法是比例-积分-微分控制器(proportional-integral-derivative controller，pid控制器)。然而，传统pid控制器的参数调整依赖于人工经验和反复的现场调试，这增加了调试成本和难度，并且缺乏动态自适应的参数调整能力。

5、为了确保速度跟踪的精度，研究人员探索了不同的方法，一种常见的改进方法是将模糊逻辑与pid结合，构建基于模糊逻辑的pid控制器。然而，这种方法对于逻辑规则的制定有很强的依赖性，精心设计模糊规则是一项具有挑战性的任务。近年来，一些研究人员尝试使用神经网络代替模糊逻辑，将实际速度与推荐速度的偏差作为监督信号，通过监督学习对神经网络参数进行优化。然而，这种方法无法有效解决多目标任务的挑战。

6、实际上，以上方法主要专注于解决速度偏差的纠正，而无法很好地处理位置偏差的纠正。速度偏差纠正是指在列车的实际运行速度与推荐速度存在偏差时，通过上述算法尽可能地纠正速度偏差，使实际运行速度与推荐速度尽可能保持一致。如图2所示，在约20秒时，实际运行速度超过推荐速度，上述算法会进行速度偏差的纠正，约在35秒时，速度偏差几乎被完全纠正，实际运行速度与推荐速度基本一致。然而，从图2中可以看出，两者之间的位置偏差并没有得到纠正(曲线所围成的面积即为行驶的路程)，这会导致停车位置的不准确等问题。

7、现有技术中通过考虑位置信息来对位置偏差进行纠正，通过推荐速度可以计算推荐位置，如图3所示。通过综合考虑推荐速度和推荐位置，可以更好地完成列车自动驾驶任务。通过对位置偏差的纠正，能够提高列车自动驾驶的精确性和可靠性，确保列车能够准确停靠到目标位置。因此，在解决列车自动驾驶问题时，除了纠正速度偏差外，对位置偏差的纠正也是至关重要的，以确保列车能够准确地到达目标位置。

8、近年来，强化学习在控制领域引起了广泛的关注。强化学习是一种通过智能体与环境进行交互学习的方法，通过试错和累积奖励的方式优化控制策略。它具有对非线性和复杂系统进行建模和控制的能力，能够自适应地学习最优控制策略。然而，目前的强化学习方法直接在应用于列车自动驾驶中还存在一些问题。首先，强化学习方法通常需要大量的训练样本和计算资源，导致在实际应用中存在困难。其次，强化学习算法在稳定性等方面还存在一定的挑战，难以满足列车自动驾驶的多目标要求。

技术实现思路

1、本发明的目的在于提供一种列车自动驾驶方法、装置、电子设备及存储介质，旨在解决现有技术中的上述问题。

2、本发明提供一种列车自动驾驶方法，包括：

3、实时采集列车数据，将所述列车数据中的列车状态信息输入到预选训练好的强化学习网络中，通过所述强化学习网络输出最优的pid参数，并将所述pid参数发送到pid；

4、通过pid接收所述pid参数，基于所述pid参数进行内部运算，输出对所述列车进行控制的列车控制信息；

5、在对所述列车进行控制时，通过推荐速度修正模块对列车的推荐速度曲线进行实时修正。

6、本发明提供一种列车自动驾驶装置，包括：

7、强化学习网络模块，用于实时采集列车数据，将所述列车数据中的列车状态信息输入到预选训练好的强化学习网络中，通过所述强化学习网络输出最优的pid参数，并将所述pid参数发送到pid；

8、pid模块，用于通过pid接收所述pid参数，基于所述pid参数进行内部运算，输出对所述列车进行控制的列车控制信息；

9、修正模块，用于在对所述列车进行控制时，通过推荐速度修正模块对列车的推荐速度曲线进行实时修正。

10、本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述列车自动驾驶方法的步骤。

11、本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述列车自动驾驶方法的步骤。

12、采用本发明实施例的基于强化学习与pid控制器的混合策略的列车自动驾驶方法及装置，采用了先进的强化学习技术，通过训练智能体的控制策略，对pid参数进行控制，进而实现列车的自动驾驶；通过将强化学习算法的拟合能力与pid控制器的稳定性和可解释性相结合，能够在复杂和时变的工况下提供稳定性和可解释的控制信号，从而实现精确、高效的列车自动驾驶。

技术特征：

1.一种列车自动驾驶方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

3.根据权利要求1所述的方法，其特征在于，所述奖励函数具体包括：安全性奖励分量、追踪性能奖励分量、舒适度奖励分量、精确停车奖励分量以及能耗奖励分量。

4.根据权利要求1所述的方法，其特征在于，在对所述列车进行控制时，通过推荐速度修正模块对列车的推荐速度曲线进行修正具体包括：

5.一种列车自动驾驶装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述强化学习网络模块进一步用于：

7.根据权利要求5所述的装置，其特征在于，所述奖励函数具体包括：安全性奖励分量、追踪性能奖励分量、舒适度奖励分量、精确停车奖励分量以及能耗奖励分量。

8.根据权利要求5所述的装置，其特征在于，所述修正模块具体用于：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的列车自动驾驶方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至4中任一项所述的列车自动驾驶方法的步骤。

技术总结
本说明书实施例提供了一种列车自动驾驶方法、装置、电子设备及存储介质，其中，方法包括：实时采集列车数据，将所述列车数据中的列车状态信息输入到预选训练好的强化学习网络中，通过所述强化学习网络输出最优的PID参数，并将所述PID参数发送到PID；通过PID接收所述PID参数，基于所述PID参数进行内部运算，输出对所述列车进行控制的列车控制信息；在对所述列车进行控制时，通过推荐速度修正模块对列车的推荐速度曲线进行实时修正。采用本发明能够实现精确、高效的列车自动驾驶。

技术研发人员：程高云,王殿元,付哲,王伟
受保护的技术使用者：交控科技股份有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程高云王殿元付哲王伟
技术所有人：交控科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、杨老师：工程电磁场与磁技术，无线电能传输技术
2、高老师：1.电力电子及应用 2.嵌入式系统应用
如您是高校老师，可以点此联系我们加入专家库。