基于TD3算法的分布式牵引底盘的驱动方法及其控制器

文档序号：37455777发布日期：2024-03-28 18:39阅读：来源：国知局

技术特征：

1.一种基于td3算法的分布式牵引底盘的驱动方法，其特征在于，其包括如下步骤：

2.如权利要求1所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：步骤s1中，所述牵引底盘的纵向运动方程如下：

3.如权利要求2所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：在四轮独立驱动的分布是牵引底盘的设计参数中，额定牵引力为2600n；单个轮毂电机的额定功率为1.5kw，额定转矩为27n·m；电池包的额定容量为145ah。

4.如权利要求2所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：步骤s2中，所述前向仿真模型的创建过程如下：

5.如权利要求4所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：基于td3算法创建的所述扭矩预测网络中，演员网络用于根据输入的状态s生成一个对应的动作a，以使得动作a和状态s共同输入评论家网络后可以获得最高的q值；其中，演员网络的参数通过梯度反向传播方法训练更新；

6.如权利要求5所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：所述剪切双q学习指在训练的过程中选取两个目标演员网络和目标批评家网络中的最小值用于目标策略更新；所述延迟策略更新指将演员网络的更新频率设置为低于批评家网络；所述目标策略平滑处理指在网络输出中均加入服从截断正态分布的噪声。

7.如权利要求5所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：在所述扭矩预测网络中，损失函数为：

8.如权利要求5所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：所述扭矩预测网络中两个目标评论家网络的目标值y1和y2的表达式如下：

9.如权利要求7所述的基于td3算法的分布式牵引底盘的驱动方法，其特征在于：步骤s5中，所述奖励函数rt(st,at)的表达式如下：

10.一种控制器，其采用如权利要求1-9中任意一项所述的基于td3算法的分布式牵引底盘的驱动方法中训练出的扭矩预测网络，进而实现根据实时采集到的牵引底盘的状态向量st，生成用于表征各轮扭矩分配结果的动作指令at+1。

技术总结
本发明属于车辆设计领域，具体涉及一种基于TD3算法的分布式牵引底盘的驱动方法以及对应的控制器。本发明从强化学习理论出发，先设计牵引底盘的状态空间、动作空间、奖励函数的数学模型。再根据牵引底盘的实际作业工况，在Mujoco物理引擎中搭建底盘的物理模型，同时建立与实际作业工况相符的仿真环境，最后，本发明基于TD3算法结合有限元仿真和马尔可夫决策过程的方法训练出了一个可以根据牵引底盘实时的荷电状态、输出功率、行驶阻力和作业速度自动生成四轮扭矩的网络模型。并利用该网络模型对采用轮毂电机的分布式牵引底盘的运行状态进行动态调整。本发明解决了电动拖拉机控制器设计难度高，车辆稳定性和能耗间取得平衡的问题。

技术研发人员：苏力德,张永,宁广秀,李博基,王健,杨振理
受保护的技术使用者：内蒙古农业大学
技术研发日：
技术公布日：2024/3/27

完整全部详细技术资料下载

当前第2页1 2