一种基于模仿学习的深海精细遥操纵任务的实现方法

文档序号:25875076发布日期:2021-07-16 17:33阅读:197来源:国知局
一种基于模仿学习的深海精细遥操纵任务的实现方法

1.本发明涉及机器人控制和机器学习技术领域,是一种智能操纵方法,具体涉及一种基于模仿学习的深海精细遥操纵任务的实现方法。


背景技术:

2.随着海洋装备与技术的不断发展,人们对深海的探索进入了更为深刻的阶段。自主式水下航行器、深海电动机械臂、水下灵巧手等,人们希望利用这些工具在海底实现与陆上相仿的精细操纵,例如搭建、装配,以更好地探索海洋。受制于复杂恶劣的工作环境,目前遥操作仍是实现深海操纵的最主要手段——操作员在驾驶舱或岸上通过操纵主手来控制机械臂进行作业。然而,对于一些接触丰富的精细操纵任务,受到水流、光线等因素的影响,即使经验丰富的操作员也需要在反复尝试之后才有可能完成。此外,信号传输过程中存在的延时,也给操纵带来巨大的困难。
3.深海遥操纵是一项经验技术,操作员需要通过大量的实践模拟来累积经验。然而,深海机械臂及相关设备的制造维护成本很高,频繁的练习并不现实。在实际作业中,需要考虑出海的成本和失败的风险,为降低失败概率,新手鲜有机会参与其中。这些因素都导致培养一个经验丰富的深海操作员代价高昂。
4.本发明提出的基于模仿学习的深海精细操纵任务的实现方法,是一种端到端的方法,旨在降低深海精细遥操纵的技术门槛,省去高昂的人才培养成本。


技术实现要素:

5.本发明的目的在于提供一种基于模仿学习的深海精细操纵任务的实现方法,将虚拟操纵数据作为示教范例,应用不基于模型的强化学习算法,在仿真环境中训练出一个可迁移到实际场景的具有一定鲁棒性和泛化能力的操纵策略,从而降低深海精细遥操纵的技术难度,提升深海作业的智能化程度。
6.本发明提供的一种基于模仿学习的深海精细遥操纵任务的实现方法,其特征在于,包括以下步骤,步骤s1:搭建目标任务的mujoco仿真环境,包括机械臂等执行机构和操纵对象;步骤s2:操作员在步骤s1搭建的仿真环境中操纵机械臂来完成目标任务,由软件记录机械臂各关节的运动序列,为步骤s4的仿真训练提供示教范例;步骤s3:采用actor

critic框架构建网络,策略网络的观测输入包括机械臂本体运动、力反馈、视觉等信息,策略网络的输出为机械臂各个关节的关节位置指令;步骤s4:以步骤s2中的示教范例为模仿对象,应用不基于模型的强化学习算法对网络进行训练,使仿真环境中的机械臂能以99%以上的成功率完成目标任务。
7.步骤s5,将训练好的策略网络迁移到实际场景中,无需人工干预即可完成目标任务。
8.进一步的,所述步骤s1还包括在仿真环境中添加噪声参数,所述噪声参数添加到
机械臂各关节位置。
9.与现有技术相比,本发明的有益效果体现在以下几个方面:本发明首次将模仿学习或强化学习应用于深海精细操纵任务,是一种极端环境下面向丰富接触操纵任务的遥操作新手段,在很大程度上提升了类似作业的智能化程度,降低了临场操作难度。对于场景固定的目标任务,仿真环境的搭建和示教可以预先进行以减少工作量。
10.本发明采用端到端的方法,以神经网络为载体,在仿真环境中学习得到一个鲁棒性和泛化能力较强的策略。较好的鲁棒性和泛化能力使得利用该方法能够实现较为精细的接触丰富的操纵任务,并且能够容忍一些干扰和偏差,而传统的直接遥操作则完全依赖操作员的操纵水平,没有这一优势。
11.本发明提出的方法不需要主、从端进行实时通讯,将训练好的策略网络部署到从端之后,就能实现无人干预的操纵过程,避免了信号传输过程中的时延问题。与通常不基于模型的强化学习算法只关注目标任务的实现不同,本发明以仿真环境中的示教范例作为模仿对象来训练策略,在奖励函数中引入了模仿奖励项,使得探索的观测空间和动作空间集中于示教范例,降低了训练成本并提高了目标任务实现的成功率。
附图说明
12.图1是本发明基于模仿学习的深海精细遥操纵任务端到端实现方法与传统直接遥操纵方法的对比示意图;图2是本发明基于模仿学习的深海精细遥操纵任务端到端实现方法的流程图;图3是本发明中策略网络的输入输出示意图。
具体实施方式
13.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
14.在深海探测作业领域,传统的遥操作技术存在许多局限。一是遥操作在很大程度上依赖作业人员的经验技术和心理素质,成本高且可靠性差;二是对于接触丰富的精细操纵任务,受到水流、光线、通讯延时等因素的影响,操纵难度会非常大,目标任务往往难以实现。本发明提出的基于模仿学习的深海精细操纵任务的实现方法则克服了上述局限,提升了作业的智能化程度。
15.如图2所示,本发明提出的基于模仿学习的深海精细遥操纵任务的实现方法包括以下五个步骤:步骤s1,搭建目标任务的mujoco仿真环境,包括机械臂等执行机构和操纵对象,并在仿真环境中添加适当噪声用来模拟不稳定的水流对任务执行过程造成的影响。
16.所述步骤s1具体为:为了避免真实场景下训练的高昂代价,以真实场景为参照对象,搭建目标任务的mujoco仿真环境;由于建模存在误差,又考虑到不稳定水流的影响,需要在仿真环境中添加噪声以增强策略的鲁棒性;噪声的添加对象主要是机械臂各关节的关
节位置。
17.步骤s2,操作员在步骤s1搭建的仿真环境中操纵机械臂来完成目标任务,由软件记录机械臂各关节的运动序列,为步骤s4的仿真训练提供示教范例。
18.所述步骤s2具体为:如图1所示,操作员可以通过手机、操纵杆等设备,对仿真环境中的目标任务进行一个简易示教,不要求完成任务,只需要呈现合理的轨迹;这一步骤的目的旨在为后续训练过程提供模仿范例,提高训练效率。
19.步骤s3,采用actor

critic框架构建网络,策略网络的观测输入包括机械臂本体运动、力反馈、视觉等信息;策略网络的输出为机械臂各个关节的关节位置信息。
20.在实际场景中,这些信息来自于电机编码器、力/力矩传感器、摄像机等传感器,而在仿真环境中,这些信息来自于对应的虚拟传感器。
21.所述步骤s3具体为:actor

critic框架包含两个部分,actor部分为策略网络,critic部分为值函数网络。
22.如图3所示,所述视觉、力反馈、机械臂本体运动这三部分信息需要先通过前处理提取出有用特征,再作为策略网络的观测输入。
23.视觉信息主要是图像,通过卷积神经网络进行处理;力反馈信息是一系列时序信号,通过lstm网络对碰撞进行预测;机械臂本体运动信息由机械臂各关节的运动信息构成,通过全连接网络进行降维。策略网络的输出为机械臂各个关节的关节位置指令,使机械臂完成目标任务。
24.步骤s4,以步骤s2中的示教范例为模仿对象,应用不基于模型的强化学习算法对网络进行训练,使仿真环境中的机械臂能以99%以上的成功率完成目标任务。
25.所述步骤s4具体为:不基于模型的强化学习算法以奖励函数为依据,通过不断地探索未知情况和利用已知信息来实现目标操纵任务。其中,奖励函数为由模仿奖励和目标奖励两部分组成。强化学习算法一方面通过最大化目标奖励来实现目标任务,另一方面则通过最大化模仿奖励来尽可能地模仿示教范例,以避免不必要的探索。具体而言,模仿奖励其中,表示示教范例中机械臂在t时刻第j个关节的关节位置,表示仿真过程中机械臂在t时刻第j个关节的关节位置,该奖励使机械臂在每一时刻的关节位置与示教范例相近。目标奖励则要依据具体任务而定。训练成功或模型收敛的准则为仿真环境中的机械臂是否能以99%以上的成功率完成目标任务。
26.步骤s5,将训练好的策略网络迁移到实际场景中,无需人工干预即可完成目标任务。
27.所述步骤s5具体为:将训练好的策略网络迁移到执行端的处理器上。在实际场景中,图像、力反馈信息、机械臂本体运动信息经处理后作为策略网络的输入,网络输出机械臂各关节动作序列。目标任务的实际执行过程中,不再需要人为干预,如图1所示。
28.本发明的应用示例列举如下:实施例1:基于模仿学习的深海精细操纵任务的实现方法在深海探测活动中的应用
本发明可应用于深海探测活动中,例如样品采集、生物活体检测等等。目前,受到技术的局限,我们很难在深海中实现精细的操纵,这就导致一些探测活动难以进行,例如复杂样品的采集、海底生物的活体检测等等。使用本发明的技术可以使深海的执行机构能够自主地完成复杂的操纵任务,从而扩大了探测活动的深度和广度。
29.实施例2:基于模仿学习的深海精细操纵任务的实现方法在水下作业中的应用本发明可应用于水下作业中,例如管道铺设、海产品采捞、水下设备安装等等。受到环境的限制,长时间的水下作业需要依靠水下机器人。然而,对于诸如装配、精细化采捞这些接触丰富的精细操纵任务,需要灵巧的操纵手段,传统的机器人操纵技术在灵巧性和自主性这两个方面都存在很大的缺陷。本发明提出的端到端的操纵方法在执行阶段不需要人为干预,且具备一定的鲁棒性和泛化能力,使水下作业的自主性和灵巧性得以提升。同时,对于类似于管道铺设、水下设备安装等操纵场景相对单一水下作业,训练过程只需进行一次就可得到适用于该类场景的策略,具有较高的效率。
30.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
31.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1