一种基于前馈虚拟控制力的插孔方法及其相关设备与流程

文档序号:35210603发布日期:2023-08-24 04:41阅读:53来源:国知局
一种基于前馈虚拟控制力的插孔方法及其相关设备与流程

本技术涉及机械臂控制,具体而言,涉及一种基于前馈虚拟控制力的插孔方法及其相关设备。


背景技术:

1、目前,具有力矩控制功能的机械臂常被用于执行轴孔装配任务,由机械臂末端夹持轴工件并通过主动柔顺控制方法将自身转换为非刚性系统来进行轴孔装配,具有较高的安全性。当前常用的方法是结合深度强化学习算法和末端主动柔顺控制算法来实现轴孔装配过程,但该方法采用位置控制对机械臂进行控制,导致其策略函数输入量(即观测空间)与策略函数输出量(即动作空间)的参数均较多,进而导致该方法在学习装配策略时需要尝试的次数过多,学习效率较低。


技术实现思路

1、本技术的目的在于提供一种基于前馈虚拟控制力的插孔方法及其相关设备,能够提高策略函数模型的训练效率。

2、第一方面,本技术提供了一种基于前馈虚拟控制力的插孔方法,包括步骤:

3、a1.基于sac算法构建价值函数模型和策略函数模型;所述策略函数模型的输出量为动作参数,所述动作参数仅包括在工具坐标系oxyz下的x轴方向和y轴方向的前馈虚拟控制力,所述策略函数模型的输入量为机械臂的状态信息,所述状态信息包括所述策略函数模型的上一个所述输出量,所述工具坐标系oxyz下的x轴方向和y轴方向为垂直于轴部件的轴线的平面上的两个轴向;

4、a2.基于被所述机械臂末端夹持的轴部件的位置构建工具坐标系oxyz,并基于孔部件的位置构建目标坐标系o2x2y2z2;所述工具坐标系oxyz的z轴正方向与所述目标坐标系o2x2y2z2的z2轴正方向相反;

5、a3.根据沿工具坐标系oxyz的z轴正方向的第一预设虚拟控制力,控制机械臂带动轴部件下端垂直朝向下压于所述孔部件上表面;

6、a4.基于所述策略函数模型和预设的奖励函数,获取经验数据集,以配合所述价值函数模型训练优化所述策略函数模型的模型参数;

7、a5.利用优化所述模型参数后的所述策略函数模型进行动作参数的输出,用以控制所述机械臂执行轴孔装配任务。

8、该插孔方法,在观测空间中加入对上一步动作的观测,明确了机械臂当前的运动状态;同时,采用两个轴向的前馈虚拟控制力作为策略函数模型的输出量,用作机械臂的控制信号(即动作空间中仅有两个代表前馈虚拟控制力的参数),前馈虚拟控制力是一种模仿人拖动操作的控制信号,可使机械臂末端的力传感器在没有实际受力的情况下,接收到虚拟的受力信号,从而使机械臂末端沿着受力信号的方向做柔性运动,采用前馈虚拟控制力作为控制信号的好处是无需考虑机械臂运动的速度和加速度,同时与位姿控制信号相比,将策略函数模型的输出从6个值减少到2个值,降低了训练难度,提高了学习效率。

9、优选地,步骤a2包括:

10、a201.基于右手螺旋定则,以所述轴部件的下端平面的中心点为原点o,沿所述轴部件的轴线朝下为z轴正方向,建立所述工具坐标系oxyz;

11、a202.基于右手螺旋定则,以所述孔部件上表面的孔圆心为原点o1,沿所述孔部件的孔轴线朝上为z1轴正方向,建立孔部件坐标系o1x1y1z1;

12、a203.调整所述机械臂末端位姿使所述工具坐标系oxyz的xy平面与所述孔部件坐标系o1x1y1z1的x1y1平面平行,且z轴正方向与z1轴正方向相反,并根据所述孔部件的孔径调整所述工具坐标系oxyz原点与所述孔部件坐标系o1x1y1z1原点的相对位置;

13、a204.根据所述孔部件的孔径,使所述孔部件坐标系o1x1y1z1在x1y1平面内随机平移,得到所述目标坐标系o2x2y2z2。

14、在实际轴孔装配任务中,系统无法获取孔部件的精确位置信息,获取到的孔部件位置信息是一个模糊的范围,因此在训练优化中通过随机误差建立目标坐标系来模拟实际装配任务中的位置信息误差,同时还可以提高训练所得模型的泛化能力。

15、优选地,所述根据所述孔部件的孔径调整所述工具坐标系oxyz原点与所述孔部件坐标系o1x1y1z1原点的相对位置的步骤包括:

16、获取所述孔部件的所述孔径;

17、根据所述孔径确定第一参考数值范围;

18、在所述第一参考数值范围内随机生成第一随机量;

19、调整所述工具坐标系oxyz的原点位置,使所述工具坐标系oxyz的原点与所述坐标系o1x1y1z1的z1轴的距离等于所述第一随机量。

20、通过随机调整工具坐标系oxyz原点与所述孔部件坐标系o1x1y1z1原点的相对位置,使轴部件与孔部件的初始接触位置随机变化,有利于进一步提高训练所得模型的泛化能力。

21、优选地,步骤a204包括:

22、获取所述孔部件的所述孔径;

23、根据所述孔径确定第二参考数值范围;

24、在所述第二参考数值范围内随机生成第二随机量和第三随机量;

25、使所述孔部件坐标系o1x1y1z1沿x1轴移动所述第二随机量,并使所述孔部件坐标系o1x1y1z1沿y1轴移动所述第三随机量,得到所述目标坐标系o2x2y2z2。

26、通过该方式使目标坐标系o2x2y2z2与孔部件坐标系o1x1y1z1之间产生范围受控的随机位置误差,从而可保证训练所得模型的泛化能力。

27、优选地,步骤a4包括:

28、a401.开启一个新的训练回合,并初始化本训练回合的训练步数为1;

29、a402.获取所述机械臂的状态信息,记为第一状态信息,把所述第一状态信息输入所述策略函数模型,得到所述策略函数模型输出的动作参数,记为第一动作参数;

30、a403.把所述第一动作参数施加到所述机械臂末端,获取所述机械臂末端执行动作后的状态信息,记为第二状态信息,并把所述第一状态信息和所述第二状态信息输入所述奖励函数,得到对应的奖励值;

31、a404.根据所述第二状态信息判断所述机械臂末端是否到达目标深度,若达到,则把完成参数赋值为真,若未达到,则在训练步数超过预设的最大步数时把完成参数赋值为真,在训练步数不超过预设的最大步数时把完成参数赋值为假;

32、a405.把所述第一状态信息、所述第一动作参数、所述第二状态信息、所述奖励值和所述完成参数作为一个经验样本,添加到所述经验数据集;

33、a406.若所述经验数据集的经验样本数量大于预设目标数,则从所述经验数据集中随机选取预设目标数的所述经验样本,用以对所述价值函数模型和所述策略函数模型的模型参数进行优化,并执行步骤a407;若所述经验数据集的经验样本数量不大于预设目标数,则直接执行步骤a407;

34、a407.若所述完成参数为真,则执行步骤a408;若所述完成参数为假,则令训练步数加1,并返回步骤a402;

35、a408.结束本训练回合,并统计本训练回合的总奖励值,执行步骤a409;

36、a409.若所述总奖励值收敛,则结束训练优化过程,否则,清零前馈虚拟控制力和撤除所述第一预设虚拟控制力并返回步骤a2。

37、优选地,所述状态信息还包括所述机械臂末端在所述目标坐标系o2x2y2z2下的坐标以及在工具坐标系oxyz下的力和扭矩;

38、步骤a404中,基于所述第二状态信息,根据所述机械臂末端在所述目标坐标系o2x2y2z2下的坐标判断所述机械臂末端是否到达目标深度。

39、优选地,所述价值函数模型包括插孔价值函数模型、动作价值函数模型和目标价值函数模型;

40、步骤a406中对所述价值函数模型和所述策略函数模型的模型参数进行优化,具体包括:

41、b1.根据选取的所述经验样本、所述动作价值函数模型和所述目标价值函数模型,获取所述动作价值函数模型的损失函数,记为第一损失函数;

42、b2.根据选取的所述经验样本、所述插孔价值函数模型、所述策略函数模型和所述动作价值函数模型,获取所述插孔价值函数模型的损失函数和所述策略函数模型的损失函数,分别记为第二损失函数和第三损失函数;

43、b3.基于梯度下降法,根据所述第一损失函数、所述第二损失函数和所述第三损失函数更新所述动作价值函数模型、所述插孔价值函数模型和所述策略函数模型的模型参数;

44、b4.根据所述插孔价值函数模型更新后的模型参数,更新所述目标价值函数模型的模型参数。

45、第二方面,本技术提供了一种基于前馈虚拟控制力的插孔装置,包括:

46、模型构建模块,用于基于sac算法构建价值函数模型和策略函数模型;所述策略函数模型的输出量为动作参数,所述动作参数仅包括在工具坐标系oxyz下的x轴方向和y轴方向的前馈虚拟控制力,所述策略函数模型的输入量为机械臂的状态信息,所述状态信息包括所述策略函数模型的上一个所述输出量,所述工具坐标系oxyz下的x轴方向和y轴方向为垂直于轴部件的轴线的平面上的两个轴向;

47、坐标系构建模块,用于基于被所述机械臂末端夹持的轴部件的位置构建工具坐标系oxyz,并基于孔部件的位置构建目标坐标系o2x2y2z2;所述工具坐标系oxyz的z轴正方向与所述目标坐标系o2x2y2z2的z2轴正方向相反;

48、预压模块,用于根据沿工具坐标系oxyz的z轴正方向的第一预设虚拟控制力,控制机械臂带动轴部件下端垂直朝向下压于所述孔部件上表面;

49、模型优化模块,用于基于所述策略函数模型和预设的奖励函数,获取经验数据集,以配合所述价值函数模型训练优化所述策略函数模型的模型参数;

50、控制模块,用于利用优化所述模型参数后的所述策略函数模型进行动作参数的输出,用以控制所述机械臂执行轴孔装配任务。

51、该插孔装置,在观测空间中加入对上一步动作的观测,明确了机械臂当前的运动状态;同时,采用两个轴向的前馈虚拟控制力作为策略函数模型的输出量,用作机械臂的控制信号(即动作空间中仅有两个代表前馈虚拟控制力的参数),前馈虚拟控制力是一种模仿人拖动操作的控制信号,可使机械臂末端的力传感器在没有实际受力的情况下,接收到虚拟的受力信号,从而使机械臂末端沿着受力信号的方向做柔性运动,采用前馈虚拟控制力作为控制信号的好处是无需考虑机械臂运动的速度和加速度,同时与位姿控制信号相比,将策略函数模型的输出从6个值减少到2个值,降低了训练难度,提高了学习效率。

52、第三方面,本技术提供了一种电子设备,包括处理器和存储器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时,运行如前文所述的基于前馈虚拟控制力的插孔方法中的步骤。

53、第四方面,本技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如前文所述的基于前馈虚拟控制力的插孔方法中的步骤。

54、有益效果:本技术提供的基于前馈虚拟控制力的插孔方法及其相关设备,在观测空间中加入对上一步动作的观测,明确了机械臂当前的运动状态;同时,采用两个轴向的前馈虚拟控制力作为策略函数模型的输出量,用作机械臂的控制信号,前馈虚拟控制力是一种模仿人拖动操作的控制信号,可使机械臂末端的力传感器在没有实际受力的情况下,接收到虚拟的受力信号,从而使机械臂末端沿着受力信号的方向做柔性运动,采用前馈虚拟控制力作为控制信号的好处是无需考虑机械臂运动的速度和加速度,同时与位姿控制信号相比,将策略函数模型的输出从6个值减少到2个值,降低了训练难度,提高了学习效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1