1.一种基于td3算法的分布式牵引底盘的驱动方法,其特征在于,其包括如下步骤:
2.如权利要求1所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:步骤s1中,所述牵引底盘的纵向运动方程如下:
3.如权利要求2所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:在四轮独立驱动的分布是牵引底盘的设计参数中,额定牵引力为2600n;单个轮毂电机的额定功率为1.5kw,额定转矩为27n·m;电池包的额定容量为145ah。
4.如权利要求2所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:步骤s2中,所述前向仿真模型的创建过程如下:
5.如权利要求4所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:基于td3算法创建的所述扭矩预测网络中,演员网络用于根据输入的状态s生成一个对应的动作a,以使得动作a和状态s共同输入评论家网络后可以获得最高的q值;其中,演员网络的参数通过梯度反向传播方法训练更新;
6.如权利要求5所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:所述剪切双q学习指在训练的过程中选取两个目标演员网络和目标批评家网络中的最小值用于目标策略更新;所述延迟策略更新指将演员网络的更新频率设置为低于批评家网络;所述目标策略平滑处理指在网络输出中均加入服从截断正态分布的噪声。
7.如权利要求5所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:在所述扭矩预测网络中,损失函数为:
8.如权利要求5所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:所述扭矩预测网络中两个目标评论家网络的目标值y1和y2的表达式如下:
9.如权利要求7所述的基于td3算法的分布式牵引底盘的驱动方法,其特征在于:步骤s5中,所述奖励函数rt(st,at)的表达式如下:
10.一种控制器,其采用如权利要求1-9中任意一项所述的基于td3算法的分布式牵引底盘的驱动方法中训练出的扭矩预测网络,进而实现根据实时采集到的牵引底盘的状态向量st,生成用于表征各轮扭矩分配结果的动作指令at+1。