训练数据生成方法、智能体训练方法、装置及电子设备与流程

文档序号:35035600发布日期:2023-08-05 20:52阅读:38来源:国知局
训练数据生成方法、智能体训练方法、装置及电子设备与流程

本技术涉及计算机,尤其涉及一种训练数据生成方法、智能体训练方法、机械臂控制方法、装置、电子设备以及计算机可读存储介质。


背景技术:

1、随着计算机技术的快速发展,工业生产的自动化及机械化已经得到了很大的进步,如何更加有效的利用机械臂等工业器械帮助人们完成大量繁琐的工作,是工业自动化领域的一项永恒研究课题。

2、当前,机械臂的自动化主要依赖于神经网络模型根据机械臂的作业场景状态信息输出机械臂的抓取方案。依赖深度学习的神经网络模型可以以作业场景的点云数据为输入,输出机械臂的抓取位姿,但由于深度学习方式的自身特点,使得该模型无法应对变化的作业场景。依赖强化学习的神经网络模型可以根据作业场景的变化实时输出完整的抓取策略,但由于强化学习方式的自身特点,使得该模型只能以作业场景的图像为输入,无法基于作业场景的点云数据得到更为精准的抓取策略。

3、因此,如何将作业场景的点云数据应用在强化学习模型中,结合点云数据和强化学习的优势,输出更加精准的抓取策略,成为一项亟待解决的技术问题。


技术实现思路

1、本技术提供了一种训练数据生成方法、智能体训练方法、机械臂控制方法、以及相关装置、电子设备、计算机可读存储介质,以解决现有技术存在的依赖强化学习的神经网络模型无法基于作业场景的点云数据得到更为精准的抓取策略的技术问题。

2、本技术实施例提供了一种训练数据生成方法,所述训练数据用于对待训练智能体进行强化学习训练,所述方法包括:

3、从交互环境中获取状态信息,所述交互环境为预先建立的仿真环境,所述交互环境中至少包括一个待抓取物体,以及所述待训练智能体控制的机械臂,所述状态信息为表征所述交互环境的点云数据;

4、将所述状态信息输入特征提取模型中,得到所述状态信息对应的点云特征向量;

5、将所述点云特征向量按照第一预设数据量拆分为多个向量段,以所述多个向量段作为所述训练数据,以使得所述待训练智能体能够分别依据每一个所述向量段进行强化学习训练。

6、本技术实施例还提供了一种智能体的训练方法,所述方法包括:

7、控制多个待训练智能体与多个交互环境发生交互,获取针对每一个所述待训练智能体的训练数据,所述交互环境为预先建立的仿真环境,所述交互环境中至少包括一个待抓取物体,以及所述待训练智能体控制的机械臂,所述训练数据为通过上述方法所生成的数据;

8、基于针对每一个所述待训练智能体的所述训练数据,对每一个所述待训练智能体进行迭代训练;

9、获取训练后的每一个所述待训练智能体的模型参数;

10、将每一个所述待训练智能体的所述模型参数输入第二智能体,获得更新模型参数,所述更新模型参数为所述第二智能体根据每一个所述待训练智能体的所述模型参数计算后得到的,所述第二智能体与所述待训练智能体为相同的智能体;

11、以所述更新模型参数更新每一个所述待训练智能体,并控制每一个更新后的所述待训练智能体与所述多个交互环境发生交互,获取针对每一个更新后的所述待训练智能体的训练数据;

12、基于针对每一个更新后的所述待训练智能体的所述训练数据,对每一个更新后的所述待训练智能体进行迭代训练,直至达到预设训练停止条件。

13、本技术实施例还提供了一种机械臂控制方法,所述方法包括:

14、从作业场景中获取作业场景状态信息,所述作业场景为机械臂的真实作业环境,所述作业场景状态信息为表征所述作业场景的点云数据;

15、将所述作业场景状态信息输入特征提取模型中,得到所述作业场景状态信息对应的点云特征向量;

16、将所述点云特征向量按照第三预设数据量拆分为多个向量段;

17、将所述多个向量段输入所述机械臂对应的智能体中,得到所述机械臂的动作策略,所述智能体是通过上述训练方法进行训练得到的;

18、基于所述动作策略,控制所述机械臂在所述作业场景中执行作业任务。

19、本技术实施例还提供了一种训练数据生成装置,所述训练数据用于对待训练智能体进行强化学习训练,所述装置包括:状态信息获取单元、特征向量提取单元、训练数据获取单元;

20、所述状态信息获取单元,用于从交互环境中获取状态信息,所述交互环境为预先建立的仿真环境,所述交互环境中至少包括一个待抓取物体,以及所述待训练智能体控制的机械臂,所述状态信息为表征所述交互环境的点云数据;

21、所述特征向量提取单元,用于将所述状态信息输入特征提取模型中,得到所述状态信息对应的点云特征向量;

22、所述训练数据获取单元,用于将所述点云特征向量按照第一预设数据量拆分为多个向量段,以所述多个向量段作为所述训练数据,以使得所述待训练智能体能够分别依据每一个所述向量段进行强化学习训练。

23、本技术实施例还提供了一种智能体的训练装置,所述装置包括:第一训练数据获取单元、第一智能体训练单元、模型参数获取单元、模型参数处理单元、智能体更新单元、第二训练数据获取单元、第二智能体训练单元;

24、所述第一训练数据获取单元,用于控制多个待训练智能体与多个交互环境发生交互,获取针对每一个所述待训练智能体的训练数据,所述交互环境为预先建立的仿真环境,所述交互环境中至少包括一个待抓取物体,以及所述待训练智能体控制的机械臂,所述训练数据为通过上述方法所生成的数据;

25、所述第一智能体训练单元,用于基于针对每一个所述待训练智能体的所述训练数据,对每一个所述待训练智能体进行迭代训练;

26、所述模型参数获取单元,用于获取训练后的每一个所述待训练智能体的模型参数;

27、所述模型参数处理单元,用于将每一个所述待训练智能体的所述模型参数输入第二智能体,获得更新模型参数,所述更新模型参数为所述第二智能体根据每一个所述待训练智能体的所述模型参数计算后得到的,所述第二智能体与所述待训练智能体为相同的智能体;

28、所述智能体更新单元,用于以所述更新模型参数更新每一个所述待训练智能体;

29、所述第二训练数据获取单元,用于控制每一个更新后的所述待训练智能体与所述多个交互环境发生交互,获取针对每一个更新后的所述待训练智能体的训练数据;

30、所述第二智能体训练单元,用于基于针对每一个更新后的所述待训练智能体的所述训练数据,对每一个更新后的所述待训练智能体进行迭代训练,直至达到预设训练停止条件。

31、本技术实施例还提供了一种机械臂控制装置,所述装置包括:状态信息获取单元、特征向量提取单元、特征向量拆分单元、动作策略获取单元、执行单元;

32、所述状态信息获取单元,用于从作业场景中获取作业场景状态信息,所述作业场景为机械臂的真实作业环境,所述作业场景状态信息为表征所述作业场景的点云数据;

33、所述特征向量提取单元,用于将所述作业场景状态信息输入特征提取模型中,得到所述作业场景状态信息对应的点云特征向量;

34、所述特征向量拆分单元,用于将所述点云特征向量按照第一预设数据量拆分为多个向量段;

35、所述动作策略获取单元,用于将所述多个向量段输入所述机械臂对应的智能体中,得到所述机械臂的动作策略,所述智能体是通过上述方法进行训练得到的;

36、所述执行单元,用于基于所述动作策略,控制所述机械臂在所述作业场景中执行作业任务。

37、本技术实施例还提供了一种电子设备,包括:存储器和处理器;

38、所述存储器,用于存储一条或多条计算机指令;

39、所述处理器,用于执行所述一条或多条计算机指令,以实现上述方法。

40、本技术实施例还提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,该指令被处理器执行以实现上述方法。

41、与现有技术相比,本技术提供的训练数据生成方法,包括:从交互环境中获取状态信息,所述交互环境为预先建立的仿真环境,所述交互环境中至少包括一个待抓取物体,以及所述待训练智能体控制的机械臂,所述状态信息为表征所述交互环境的点云数据;将所述状态信息输入特征提取模型中,得到所述状态信息对应的点云特征向量;将所述点云特征向量按照第一预设数据量拆分为多个向量段,以所述多个向量段作为所述训练数据,以使得所述待训练智能体能够分别依据每一个所述向量段进行强化学习训练。本技术提供的训练数据生成方法用于生成能够对智能体进行强化学习训练的训练数据。由于强化学习训练的自身特点,在学习训练过程中需要处理的数据量较大,而点云数据包含数据量也很大,因此,该方法首先通过将从交互环境中获取的以点云数据表征的环境状态信息输入特征提取模型中,得到对应的点云特征向量,完成点云数据量的一次压缩,其次通过将点云特征向量按照第一预设数据量拆分为多个向量段,将每一个向量段作为智能体强化学习训练的训练数据,完成点云数据量的二次压缩,使得智能体能够基于点云数据进行强化学习训练,最终训练完成的智能体能够基于作业场景的点云数据得到更为精准的抓取策略。本技术提供的训练数据生成方法通过对点云数据的多次处理,得到能够被智能体强化学习训练使用的训练数据,使得利用点云数据强化学习训练出的智能体能够基于作业场景的点云数据得到更为精准的抓取策略。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1