一种基于成功经验衍生回放机制的多机械臂运动规划方法

文档序号：37158645发布日期：2024-02-26 17:24阅读：来源：国知局

技术特征：

1.一种基于成功经验衍生机制的多机械臂运动规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于成功经验衍生机制的多机械臂运动规划方法，其特征在于，步骤6中，策略更新使用的强化学习算法为确定性策略梯度ddpg或最大化熵值算法sac。

技术总结
本发明涉及机械臂运动规划领域，涉及一种基于成功经验衍生回放机制的多机械臂运动规划方法。针对深度强化学习方法在多机械臂系统中的训练效率较低，难以学到更复杂策略的问题，本发明提出了成功经验衍生机制，通过对一条成功经验进行改造，来模拟各机械臂在更紧密的队形中完成任务，从而衍生出较困难任务的成功经验，并将其用于经验回放和训练，改善机械臂的学习效果。包括以下步骤：搭建仿真环境；多机械臂运动规划问题建模；生成任务；环境交互；经验衍生；经验收集与策略更新。通过本发明，机械臂可以直接从较简单任务的成功经验中直接学习到更复杂任务的成功经验，更大程度上地探索碰撞边界，提高样本多样性和覆盖率，缩短学习时间。

技术研发人员：吴迪,赵凡忱,王欣
受保护的技术使用者：大连理工大学
技术研发日：
技术公布日：2024/2/25

完整全部详细技术资料下载

当前第2页1 2