本发明涉及机器人操作技能学习与迁移,更具体的说是涉及一种基于多视角像素感知的跨构型操作技能学习与迁移方法及系统。
背景技术:
1、随着大规模个性化制造的发展,产品装配流程复杂度不断提高,深度强化学习(drl)为机器人智能装配提供了有效手段。然而,基于drl的控制策略在实际应用中面临两大核心挑战:其一,当装配策略需迁移至新构型(关节类型、尺寸、连接关系不同)机械臂时,因状态空间与动力学差异显著,预训练策略难以直接应用;其二,drl策略无法直接在真实物理环境训练,依赖仿真到现实(sim-to-real)迁移,而传统方法依赖精确的6d姿态估计与坐标转换,受限于手眼标定误差、环境光照变化及目标遮挡,导致迁移后定位精度下降、策略失效。
2、现有技术存在明显不足:1)基于端到端视觉drl(如vision+drl)的方法样本效率低,跨构型迁移成功率低(约11%),定位误差大(>12mm),难以满足精密装配要求;2)依赖传统位姿估计(如模板匹配+dbscan)的方法虽定位精度高(<1mm),但对标定参数敏感,环境扰动下成功率骤降(67%→34%),且跨构型需重新标定;3)视觉域随机化虽提升泛化性,但真实场景检测成功率仍不足(59%),且需额外数据集微调。因此,如何提供一种基于多视角像素感知的跨构型操作技能学习与迁移方法及系统是本领域技术人员亟需解决的问题。
技术实现思路
1、有鉴于此,本发明提供了一种基于多视角像素感知的跨构型操作技能学习与迁移方法及系统,通过多视角像素坐标直接表征空间状态、任务分解子策略及感知-控制模块分离式迁移机制,提升迁移效率与操作精度。
2、为了实现上述目的,本发明提供如下技术方案:
3、一种基于多视角像素感知的跨构型操作技能学习与迁移方法,包括以下步骤:
4、s1、构建多视角感知系统:部署两个正交相机与一个近景相机,分别获取机械臂末端执行器及操作目标的多视角图像;
5、s2、关键像素坐标提取:利用轻量化目标检测模型实时检测多视角图像中机械臂末端执行器的关键点及操作目标的关键点,直接输出关键点的归一化像素坐标,作为环境状态表示;
6、s3、装配任务策略分解:将装配操作技能分解为移动、吸取、装配三个原子性子策略;
7、s4、策略仿真训练:将s2提取的关键点归一化像素坐标以及机械臂末端执行器姿态作为状态输入,采用目标条件强化学习算法分别训练各子策略网络,输出机械臂末端执行器的位姿调整量;
8、s5、跨构型模块化迁移:将基于源构型训练的检测模型和子策略网络迁移至目标构型,基于关键点所属关系保持检测精度,基于公共状态空间进行少样本微调;
9、s6、策略协同执行:在目标任务场景下,按序调用微调后的移动、吸取、装配子策略,驱动目标构型的机械臂完成装配操作。
10、可选的,s2中的关键点的归一化像素坐标为:、、,分别表示主视角、侧视角、近景视角检测的目标像素坐标,环境状态表示为元组,表示机械臂末端执行器相对于目标的姿态。
11、可选的,s2中使用轻量化模型实时检测关键点像素坐标,操作目标拾取点,装配目标定位点,将三视角像素坐标直接拼接为状态向量:,其中,为主视角下关键点像素坐标,为侧视角下关键点像素坐标,为近距离视角下关键点像素坐标,为末端姿态角。
12、可选的,子策略任务具体为:
13、移动子策略任务:输入状态为末端点-目标点像素距离,输出动作为末端位姿调整量;吸取子策略任务:输入状态为末端-目标高度差,输出动作为真空吸盘启闭指令;装配子策略任务:输入状态为末端-装配点位姿偏差,输出动作为姿态微调。
14、可选的,s4中训练时的子策略奖励函数设计包含:
15、距离奖励:惩罚末端点与目标点的欧氏距离偏差;
16、接近奖励:当距离误差小于阈值时给予正向奖励;
17、安全空间约束奖励:惩罚末端超出预设安全工作空间的行为,其公式如下:
18、;
19、;
20、;
21、式中,和分别表示动作空间中每个维度的下限和上限边界,为超出安全空间约束的情况表征值,值越大表示超出安全空间的程度和维度数越多,为第 i个维度上末端执行器位置低于安全工作空间下限的指示函数,当末端在第 i个维度的位置小于下限边界时为1,否则为0,为第 i个维度上末端执行器位置高于安全工作空间上限的指示函数,当末端在第 i个维度的位置大于上限边界时为1,否则为0,为末端执行器在动作空间中的具体位置坐标。
22、可选的,s5中的少样本微调采用与源域相同的强化学习算法及超参数,迁移效率计算公式为:
23、;
24、式中,表示策略从零开始训练收敛所花费的轮次,表示迁移策略经过微调收敛所花费的轮次。
25、一种基于多视角像素感知的跨构型操作技能学习与迁移系统,执行上述的一种基于多视角像素感知的跨构型操作技能学习与迁移方法,包括:
26、多视角感知模块,与仿真训练模块和感知迁移模块连接,用于通过正交与近景相机采集图像,并运行检测模型输出关键点像素坐标;
27、策略分解模块,与仿真训练模块连接,用于将装配任务解析为移动、吸取、装配子任务序列;
28、仿真训练模块,与控制迁移模块连接,用于在虚拟环境中训练子策略网络;
29、感知迁移模块,与策略执行模块连接,用于将检测模型适配至目标构型机械臂;
30、控制迁移模块,用于对子策略网络进行少样本微调;
31、策略执行模块,用于调度微调后的子策略控制机械臂执行装配操作。
32、经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于多视角像素感知的跨构型操作技能学习与迁移方法及系统,具有以下有益效果:本发明通过设计一种基于多视角像素感知的跨构型操作技能学习与迁移方法(mpp-ts)及系统,解决装配策略跨构型迁移中的定位误差累积、环境适应性差及训练成本高的问题;通过多视角像素坐标直接表征空间状态、任务分解子策略及感知-控制模块分离式迁移机制,显著提升迁移效率与操作精度。
1.一种基于多视角像素感知的跨构型操作技能学习与迁移方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多视角像素感知的跨构型操作技能学习与迁移方法,其特征在于,s2中的关键点的归一化像素坐标为:、、,分别表示主视角、侧视角、近景视角检测的目标像素坐标,环境状态表示为元组,表示机械臂末端执行器相对于目标的姿态。
3.根据权利要求2所述的一种基于多视角像素感知的跨构型操作技能学习与迁移方法,其特征在于,s2中使用轻量化模型实时检测关键点像素坐标,操作目标拾取点,装配目标定位点,将三视角像素坐标直接拼接为状态向量:,其中,为主视角下关键点像素坐标,为侧视角下关键点像素坐标,为近距离视角下关键点像素坐标,为末端姿态角。
4.根据权利要求1所述的一种基于多视角像素感知的跨构型操作技能学习与迁移方法,其特征在于,子策略任务具体为:
5.根据权利要求1所述的一种基于多视角像素感知的跨构型操作技能学习与迁移方法,其特征在于,s4中训练时的子策略奖励函数设计包含:
6.根据权利要求1所述的一种基于多视角像素感知的跨构型操作技能学习与迁移方法,其特征在于,s5中的少样本微调采用与源域相同的强化学习算法及超参数,迁移效率计算公式为:
7.一种基于多视角像素感知的跨构型操作技能学习与迁移系统,其特征在于,执行权利要求1-6任一项所述的一种基于多视角像素感知的跨构型操作技能学习与迁移方法,包括: