基于深度强化学习的桥门式起重机防摇控制方法及装置

文档序号:36938060发布日期:2024-02-02 22:06阅读:55来源:国知局
基于深度强化学习的桥门式起重机防摇控制方法及装置

本发明涉及起重运输,具体涉及一种基于深度强化学习的桥门式起重机防摇控制方法及装置。


背景技术:

1、桥门式起重机是起升装置布置在横架于车间、堆场上空的横梁上的起重运输设备,广泛应用于车间、港口、仓库等工业场所,根据作业场景可以分为工业桥门式起重机、轨道式桥门式起重机、铁路桥门式起重机、集装箱桥门式起重机等。桥门式起重机小车行走机构和吊具起升机构采用柔性钢丝绳进行连接,当大、小车行走机构采用变速驱动时,由于惯性力的作用以及外在的风力等一系列干扰因素,吊具将产生近似单摆运动,这种摆动将严重影响桥门式起重机吊具定位精度,增加货物的堆垛难度,这会降低桥门式起重机的装卸搬运效率;同时,过大的摆动还可能导致危险事故的发生。因此,为了改善这种情况,桥门式起重机需要配置防摇装置。目前常用的防摇方法主要包括人工防摇、机械防摇以及电子防摇。

2、近年来,深度强化学习逐渐引起关注,它是一种适用于处理复杂非线性系统的方法。深度强化学习可以根据环境和外部奖励来学习最优的控制策略,并且能够自适应地处理未知参数和动态影响。但深度强化学习在桥门式起重机防摇控制方面的研究尚不充分,如何将深度强化学习应用于桥式桥门式起重机吊具的防摇控制,成为亟需解决的问题。


技术实现思路

1、有鉴于此,有必要提供一种基于深度强化学习的桥门式起重机防摇控制方法及装置,用以解决目前现有技术中难以将深度强化学习应用于桥式桥门式起重机吊具的防摇控制的技术问题。

2、为了实现上述目的,本发明提供了一种基于深度强化学习的桥门式起重机防摇控制方法,包括:

3、构建桥门式起重机防摇控制虚拟平台,基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略;

4、基于所述初始策略和深度确定性策略梯度算法,确定所述桥门式起重机防摇控制虚拟平台的最终策略;

5、基于双q网络,将所述最终策略迁移至桥门式起重机防摇控制真实平台,确定所述桥门式起重机防摇控制真实平台的防摇控制策略。

6、进一步地,所述基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略,包括:

7、基于zv输入整形算法、所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和所述桥门式起重机防摇控制虚拟平台中系统的阻尼比,确定所述初始策略。

8、进一步地,所述基于zv输入整形算法、所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和所述桥门式起重机防摇控制虚拟平台中系统的阻尼比,确定所述初始策略,包括:

9、基于以下公式确定所述初始策略:

10、

11、其中,a1表示所述桥门式起重机防摇控制虚拟平台发起的第一脉冲的幅值,a2表示所述桥门式起重机防摇控制虚拟平台发起的第二脉冲的幅值,t1表示所述第一脉冲的触发时刻,t2表示所述第二脉冲的触发时刻,ωn表示所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率,ξ表示所述桥门式起重机防摇控制虚拟平台中系统的阻尼比,k为比例参数,所述第一脉冲和所述第二脉冲的持续时间相同,所述第一脉冲和所述第二脉冲用于驱动所述桥门式起重机防摇控制虚拟平台中的小车。

12、进一步地,所述基于所述初始策略和深度确定性策略梯度算法,确定所述桥门式起重机防摇控制虚拟平台的最终策略,包括:

13、基于所述初始策略,确定所述桥门式起重机防摇控制虚拟平台中系统在任一时刻的状态和加速度,以及所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的下一时刻的状态,并基于所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态和加速度,确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励;

14、基于所述桥门式起重机防摇控制虚拟平台中系统在任一时刻的状态、加速度和奖励,以及所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的下一时刻的状态,构建离线经验库;

15、将所述离线经验库作为经验回放池,基于深度确定性策略梯度算法,确定所述桥门式起重机防摇控制虚拟平台的最终策略。

16、进一步地,所述基于所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态和加速度,确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励,包括:

17、在所述桥门式起重机防摇控制虚拟平台中的小车处于运行过程中的情况下,基于以下公式确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励:

18、

19、在所述桥门式起重机防摇控制虚拟平台中的小车到达终点的情况下,基于以下公式确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励:

20、r(st,at)=10*(5-n)

21、其中,r(st,at)表示所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励,st表示所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态,at表示所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的加速度,n表示吊具摆动幅度小于预设幅度动周期数。

22、进一步地,所述基于双q网络,将所述最终策略迁移至桥门式起重机防摇控制真实平台,确定所述桥门式起重机防摇控制真实平台的防摇控制策略,包括:

23、将所述最终策略对应的价值函数网络作为双q网络的源网络,随机初始化双q网络的目标网络,对所述源网络进行更新;

24、基于更新后的所述源网络,更新所述最终策略对应的策略函数,将更新后的所述最终策略对应的策略函数作为所述桥门式起重机防摇控制真实平台的防摇控制策略。

25、进一步地,所述桥门式起重机防摇控制虚拟平台中系统的状态和所述桥门式起重机防摇控制真实平台中系统的状态包括:

26、小车的位置和速度,以及吊具的摆角和角速度。

27、本发明还提供了一种基于深度强化学习的桥门式起重机防摇控制装置,包括:

28、构建模块,用于构建桥门式起重机防摇控制虚拟平台,基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略;

29、第一确定模块,用于基于所述初始策略和深度确定性策略梯度算法,确定所述桥门式起重机防摇控制虚拟平台的最终策略;

30、第二确定模块,用于基于双q网络,将所述最终策略迁移至桥门式起重机防摇控制真实平台,确定所述桥门式起重机防摇控制真实平台的防摇控制策略。

31、本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如上所述的基于深度强化学习的桥门式起重机防摇控制方法。

32、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深度强化学习的桥门式起重机防摇控制方法。

33、与现有技术相比,本发明的有益效果包括:首先构建桥门式起重机防摇控制虚拟平台,并使用输入整形算法确定虚拟平台的初始策略,然后使用深度确定性策略梯度算法对虚拟平台的初始策略进行优化,得到虚拟平台的最终策略,最后使用双q网络将虚拟平台的最终策略迁移到桥门式起重机防摇控制真实平台,得到桥门式起重机防摇控制真实平台的防摇控制策略,实现了深度强化学习算法在桥门式起重机防摇控制上的应用,提高了桥门式起重机防摇控制的性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1