基于深度强化学习的采摘机器人的无碰撞路径规划方法

文档序号:37014870发布日期:2024-02-09 13:05阅读:15来源:国知局
基于深度强化学习的采摘机器人的无碰撞路径规划方法

本发明涉及机器人路径规划,具体而言,尤其涉及一种基于深度强化学习的采摘机器人的无碰撞路径规划方法。


背景技术:

1、在现代农业背景下,水果采摘过程存在劳动力短缺和成本上升的问题。水果的采摘任务因为劳动密集和复杂的树况而显得繁琐,通常需要投入大量人力。然而,随着农业产量的增加,劳动力紧缺和成本上升成为制约因素。为了克服这一问题,机器人技术被引入到农业领域,旨在实现农业的自动化和智能化。

2、水果的采摘过程涉及一些特殊性,其中考虑到其生长环境和果实分布的复杂性。果实通常生长在树冠茂密的果树上,这要求机器人在执行采摘任务时,必须能够准确感知树枝的位置、分布,同时还需要避免与树枝发生碰撞,以保护果实的完整性。在果园内,还存在其他树木、支架等多样的障碍物。这为机器人的路径规划带来了挑战,需要综合考虑障碍物的位置、大小、形状等信息,以确保机器人能够在规划出的路径上安全地穿越,避免与障碍物发生碰撞。此外,果实分布在不同高度的树枝上,因此在路径规划过程中,机器人还需要能够在垂直方向上做出合适的决策,选择无碰撞的路径,以保障果实的采摘质量。综合考虑这些特殊性,为了实现高效、精准的水果采摘,机器人在规划采摘路径时需要具备快速并能够建立无碰撞路径的能力。这意味着机器人必须在复杂的环境中迅速做出决策,选择一条能够避开障碍物、安全地穿越树冠,并且能够快速达到目标位置的路径,以确保高效完成采摘任务,最大程度地保护果实的品质和产量。

3、为了实现高效且精准的文冠果采摘,无碰撞路径规划成为关键目标。该目标旨在在机器人确定果树位置后,在机械手位形空间中生成一组路径点,以确保机器人在接近目标水果时不会与树枝发生碰撞。许多路径规划算法已被用于此,其中包括a*、人工势场(apf)和快速探索随机树(rrt)等。以往的研究中,已有一些尝试使用不同的方法进行路径规划。

4、例如,现有技术提出了一种基于层次图的快速双向a*算法(qh-a*),具有较高的实时性。qh-a*由离线预处理和在线搜索两部分组成。qh-a*离线预处理包括地图分解和层次地图构建。在地图分解步骤中,采用一种改进的四叉树分解方法,递归地将初始地图划分为不同的区域。然后提取每个区域的边界节点。在分层地图的构建过程中,定义了一种分层地图,并对分层地图进行了预计算。在在线搜索阶段,提出了一种针对分层地图的修正双向a*来完成路径规划任务。qh-a*要求的搜索区域比a*少70%~80%。但是部署在高自由度的机械臂下,计算量会非常大。在机器人无碰撞路径确定的研究中,人工势场法是解决低自由度路径规划难题的有效方法,它是通过障碍物的排斥力以及目标的吸引力的合力去进行规划路径。然而在机械臂的自由度下不止要考虑末端还需要考虑连杆的碰撞,会出现末端避障而连杆发生碰撞的情况。快速探索随机树算法是一种有效的机器人路径规划方法,尤其适用于高度自由度的机器人。通过采用改进的自适应加权粒子群算法(apso)求解机器人的运动学逆问题,得到无碰撞的拾取姿态;其次,针对bi-rrt算法在高维环境下存在的随机性、收敛速度慢等局限性,将目标重力概念和自适应系数调整方法引入bi-rrt算法,称为atbi-rrt算法。atbi-rrt算法的平均路径确定时间为4.24s。

5、最近的研究人员尝试使用深度强化学习(drl)来使灵巧的机械臂完成特定的任务。例如,通过残差强化学习方法去控制机械臂进行避障,但是,它的状态设计只是简单的12维,没有障碍物的信息。这也就意味此算法只能实现在固定的障碍物,只要障碍物是随机变化的,就有可能没法实现避障。现有技术还提出循环ddpg算法,循环ddpg规划一条无碰撞路径仅需29ms,成功率为90.90%。但是因为采用了循环网络,所以训练速度和规划路径速度是比较慢的。

6、在上述的研究中,传统算法有着许多局限性,例如a*和人工势场法在高自由度下的限制、虽然rrt算法可以实现在高自由度的情况下,但是在规划时间上比较慢。而近几年的强化学习的应用,可以解决机械臂的规划问题且规划速度比较快,如强化学习以及循环强化学习都可以完成无碰撞的路径规划,但是在状态的设计上关乎了能否能够随机避障,循环强化学习也存在着的训练速度和规划时间都比较慢的问题。

7、有鉴于此,本发明提供了一种基于深度强化学习的采摘机器人的无碰撞路径规划方法。


技术实现思路

1、根据上述提出的不足,而提供一种基于深度强化学习的采摘机器人的无碰撞路径规划方法。本发明主要通过提出一种深度确定性策略梯度(ddpg)结合异步优势-行动者-评论者(a3c)的训练框架,利用cpu多核的特点,同时运行一个主模型以及3个副模型,有着丰富且相关性不强的经验池,解决了训练速度慢、鲁棒性差的问题。接着,利用a3c的多个模型的特性,解决了ddpg存在高估计的问题。最后,对模型进行训练,最终可以快速高效的规划出一条无碰撞路径。

2、本发明采用的技术手段如下:

3、本发明提供了一种基于深度强化学习的采摘机器人的无碰撞路径规划方法,包括:

4、建立路径规划模型;

5、对所述路径规划模型进行训练,得到训练后的所述路径规划模型;

6、向训练后的所述路径规划模型输入状态,训练后的所述路径规划模型输出所述状态对应的动作,采摘机器人根据所述动作进行移动。

7、进一步地,所述对所述路径规划模型进行训练,得到训练后的所述路径规划模型,包括:

8、所述路径规划模型包括结构相同的主模型、第一副模型、第二副模型和第三副模型,所述主模型包括主模型critic网络、主模型actor网络、主模型目标critic网络和主模型目标actor网络;

9、对所述路径规划模型进行预设次数的训练,包括:每次训练时,对所述主模型critic网络和所述主模型actor网络的参数进行梯度更新,当训练次数为100i时,将所述主模型critic网络和所述主模型actor网络的参数同步给所述第一副模型、所述第二副模型和所述第三副模型,i为正整数且100i小于等于所述预设次数。

10、进一步地,所述对所述主模型critic网络和所述主模型actor网络的参数进行梯度更新,包括:

11、在第k次训练时,随机抽取预设批次的经验,将所述经验输入所述路径规划模型,所述经验包括当前状态、下一状态、所述当前状态的奖励;

12、所述主模型根据所述经验计算主模型当前状态预测值、主模型下一状态预测值;所述第一副模型根据所述经验计算第一副模型当前状态预测值、第一副模型下一状态预测值;所述第二副模型根据所述经验计算第二副模型当前状态预测值、第二副模型下一状态预测值;所述第三副模型根据所述经验计算第三副模型当前状态预测值、第三副模型下一状态预测值;

13、根据所述主模型下一状态预测值、所述第一副模型下一状态预测值、所述第二副模型下一状态预测值、所述第三副模型下一状态预测值、所述当前状态的奖励、所述主模型当前状态预测值、所述第一副模型当前状态预测值、所述第二副模型当前状态预测值和所述第三副模型当前状态预测值对所述主模型critic网络的参数进行梯度更新;

14、根据所述主模型当前状态预测值对所述主模型actor网络的参数进行梯度更新。

15、进一步地,所述主模型根据所述经验计算主模型当前状态预测值、主模型下一状态预测值,包括:

16、所述主模型actor网络根据所述当前状态计算所述当前状态的动作;

17、所述主模型critic网络根据所述当前状态和所述当前状态的动作计算所述主模型当前状态预测值;

18、所述主模型目标actor网络根据所述下一状态计算所述下一状态的动作;

19、所述主模型目标critic网络根据所述下一状态和所述下一状态的动作计算所述主模型下一状态预测值。

20、进一步地,所述根据所述主模型下一状态预测值、所述第一副模型下一状态预测值、所述第二副模型下一状态预测值、所述第三副模型下一状态预测值、所述当前状态的奖励、所述主模型当前状态预测值、所述第一副模型当前状态预测值、所述第二副模型当前状态预测值和所述第三副模型当前状态预测值对所述主模型critic网络的参数进行梯度更新,包括:

21、选取所述主模型下一状态预测值、所述第一副模型下一状态预测值、所述第二副模型下一状态预测值、所述第三副模型下一状态预测值的最小值,将所述最小值与所述当前状态的奖励相加得到所述当前状态真实值;

22、根据所述当前状态真实值、所述主模型当前状态预测值、所述第一副模型当前状态预测值、所述第二副模型当前状态预测值和所述第三副模型当前状态预测值对所述主模型critic网络的参数进行梯度更新。

23、进一步地,所述根据所述当前状态真实值、所述主模型当前状态预测值、所述第一副模型当前状态预测值、所述第二副模型当前状态预测值和所述第三副模型当前状态预测值对所述主模型critic网络的参数进行梯度更新,按照以下方式计算:

24、λq=(y-q)2+(y-c1_q)2+(y-c2_q)2+(y-c3_q)2

25、其中,λq为所述主模型critic网络的参数,y为所述当前状态真实值,q为所述主模型当前状态预测值、c1_q为所述第一副模型当前状态预测值,c2_q为所述第二副模型当前状态预测值,c3_q为所述第三副模型当前状态预测值。

26、进一步地,所述根据所述主模型当前状态预测值对所述主模型actor网络的参数进行梯度更新,按照以下方式计算:

27、

28、其中,actor_loss为所述主模型actor网络的参数,n为所述预设批次的大小,q为所述主模型当前状态预测值。

29、进一步地,所述对所述路径规划模型进行预设次数的训练,还包括:

30、当所述训练次数非100i时,根据所述第一副模型下一状态预测值和所述当前状态的奖励得到第一真实值;

31、根据所述第一副模型当前状态预测值与所述第一真实值构建第一损失函数,对所述第一副模型进行参数更新。

32、较现有技术相比,本发明具有以下优点:

33、1、本发明提供的基于深度强化学习的采摘机器人的无碰撞路径规划方法,状态包括机械臂各角度、机械臂末端位置+目标位置、加入了机械臂各轴的离障碍物最近的方向向量,总共32维,在有限的状态长度更加清楚的描述机械臂和障碍物的状态,可以实现不断变化的障碍物精确避障。

34、2、本发明提供的基于深度强化学习的采摘机器人的无碰撞路径规划方法,通过深度确定性策略梯度(ddpg)结合异步优势-行动者-评论者(a3c)的训练框架构建路径规划模型,利用cpu多核的特点,同时运行一个主模型以及3个副模型,3个副模型有自己独立的环境和独立的经验池运行,但是会将自己的经验共享给总经验池,这样主模型可以更快的训练,并且这样主模型得到的经验的具有多样性和不相关性,能够提高模型的鲁棒性。

35、3、本发明提供的基于深度强化学习的采摘机器人的无碰撞路径规划方法,通过路径规划模型可以解决过高估计的问题,主模型更新的时候可以选取主模型下一状态预测值、第一副模型下一状态预测值、第二副模型下一状态预测值、第三副模型下一状态预测值的最小值,可以在一定程度上减少过高估计的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1