1.一种机器人控制方法,其特征在于,包括:
根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;
当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;
基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。
2.根据权利要求1所述的机器人控制方法,其特征在于,所述利用所述控制经验对所述第二控制模型进行训练时,利用深度确定性策略梯度算法对第二控制模型进行训练,以及,保持所述第一控制模型的各层的参数不变。
3.根据权利要求2所述的机器人控制方法,其特征在于,所述深度确定性策略梯度算法包括行为策略网络和深度q网络;
所述建立所述第一控制模型与第二控制模型之间的侧向连接包括:
在所述源任务的深度q网络和所述目标任务的深度q网络之间,以及,所述源任务的行为策略网络和所述目标任务的行为策略网络之间分别建立侧向连接。
4.根据权利要求1或2所述的机器人控制方法,其特征在于,所述建立所述第一控制模型与第二控制模型之间的侧向连接之后,令第二控制模型第i层的输出为
其中,
5.根据权利要求1所述的机器人控制方法,其特征在于,所述得到训练好的第一控制模型之后,还包括:
将所述训练好的第一训练模型保存至本地模型库中,保持所述训练好的第一控制模型的参数不变。
6.根据权利要求1所述的机器人控制方法,其特征在于,所述将所述第一控制模型的控制经验转移至所述第二控制模型包括:
建立所述第一控制模型到所述第二控制模型的经验转移通路,以将所述第一控制模型的控制经验转移至所述第二控制模型。
7.一种机器人控制装置,其特征在于,包括:
第一训练模块,用于根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;
连接建立模块,用于当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;
第二训练模块,用于基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。
8.根据权利要求7所述的机器人控制装置,其特征在于,所述建立所述第一控制模型与第二控制模型之间的侧向连接之后,令第二控制模型第i层的输出为
其中,
9.一种机器人,其特征在于,所述机器人执行目标任务时,实现权利要求1至6中的任一项所述的机器人控制方法中的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至6中的任一项所述的机器人控制方法中的各个步骤。