机器人控制方法、装置、机器人及存储介质与流程

文档序号：19152829发布日期：2019-11-16 00:17阅读：来源：国知局

技术特征：

1.一种机器人控制方法，其特征在于，包括：

根据源任务，利用深度确定性策略梯度算法对第一控制模型进行训练，得到训练好的第一控制模型，所述训练好的第一控制模型用于执行所述源任务；

当接收到执行目标任务的指令时，建立所述第一控制模型与第二控制模型之间的侧向连接，以将所述第一控制模型的控制经验转移至所述第二控制模型；

基于所述目标任务，利用所述控制经验对所述第二控制模型进行训练，得到训练好的第二控制模型，所述训练好的第二控制模型用于执行所述目标任务。

2.根据权利要求1所述的机器人控制方法，其特征在于，所述利用所述控制经验对所述第二控制模型进行训练时，利用深度确定性策略梯度算法对第二控制模型进行训练，以及，保持所述第一控制模型的各层的参数不变。

3.根据权利要求2所述的机器人控制方法，其特征在于，所述深度确定性策略梯度算法包括行为策略网络和深度q网络；

所述建立所述第一控制模型与第二控制模型之间的侧向连接包括：

在所述源任务的深度q网络和所述目标任务的深度q网络之间，以及，所述源任务的行为策略网络和所述目标任务的行为策略网络之间分别建立侧向连接。

4.根据权利要求1或2所述的机器人控制方法，其特征在于，所述建立所述第一控制模型与第二控制模型之间的侧向连接之后，令第二控制模型第i层的输出为则：

其中，表示第二控制模型第i-1层的输出，wi^t表示第二控制模型第i层的权重，表示第一控制模型第i-1层的输出，u^i-1，i表示第一控制模型第i-1层与第二控制模型第i层之间的侧向连接。

5.根据权利要求1所述的机器人控制方法，其特征在于，所述得到训练好的第一控制模型之后，还包括：

将所述训练好的第一训练模型保存至本地模型库中，保持所述训练好的第一控制模型的参数不变。

6.根据权利要求1所述的机器人控制方法，其特征在于，所述将所述第一控制模型的控制经验转移至所述第二控制模型包括：

建立所述第一控制模型到所述第二控制模型的经验转移通路，以将所述第一控制模型的控制经验转移至所述第二控制模型。

7.一种机器人控制装置，其特征在于，包括：

第一训练模块，用于根据源任务，利用深度确定性策略梯度算法对第一控制模型进行训练，得到训练好的第一控制模型，所述训练好的第一控制模型用于执行所述源任务；

连接建立模块，用于当接收到执行目标任务的指令时，建立所述第一控制模型与第二控制模型之间的侧向连接，以将所述第一控制模型的控制经验转移至所述第二控制模型；

第二训练模块，用于基于所述目标任务，利用所述控制经验对所述第二控制模型进行训练，得到训练好的第二控制模型，所述训练好的第二控制模型用于执行所述目标任务。

8.根据权利要求7所述的机器人控制装置，其特征在于，所述建立所述第一控制模型与第二控制模型之间的侧向连接之后，令第二控制模型第i层的输出为则：

9.一种机器人，其特征在于，所述机器人执行目标任务时，实现权利要求1至6中的任一项所述的机器人控制方法中的各个步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至6中的任一项所述的机器人控制方法中的各个步骤。

技术总结
一种机器人控制方法，应用于机器人技术领域，包括：根据源任务，利用深度确定性策略梯度算法对第一控制模型进行训练，得到训练好的第一控制模型，该训练好的第一控制模型用于执行该源任务，当接收到执行目标任务的指令时，建立该第一控制模型与第二控制模型之间的侧向连接，以将该第一控制模型的控制经验转移至该第二控制模型，基于该目标任务，利用该控制经验对该第二控制模型进行训练，得到训练好的第二控制模型，该训练好的第二控制模型用于执行该目标任务。本发明还公开了一种机器人控制装置、机器人及存储介质，可以在源任务和目标任务间进行经验的转移，从而避免训练过程中的灾难性遗忘现象，加快对目标任务的学习。

技术研发人员：尚伟伟;隋洪建;李想;丛爽
受保护的技术使用者：中国科学技术大学
技术研发日：2019.08.20
技术公布日：2019.11.15

完整全部详细技术资料下载

当前第2页1 2