1.一种用于控制机械臂的控制与学习模块,其包括:
至少一个学习模块,所述至少一个学习模块包括至少一个神经网络,
其中所述至少一个神经网络被配置成在初始学习阶段期间接收基于当前状态的测量的状态测量结果以及基于观测数据的观测测量结果两者并且通过所述状态测量结果和所述观测测量结果进行训练,并且被配置成当所述机械臂处于正常操作时以及在所述初始学习阶段之后通过经更新的观测数据进行重新调谐,以在操作与辅助学习阶段期间提高性能。
2.根据权利要求1所述的控制与学习模块,其中所述状态测量结果是通过传感器获得并且表示实际当前状态。
3.根据权利要求1所述的控制与学习模块,其中所述至少一个神经网络被配置成产生与输出任务相关的输出和与所述输出相关联的方差,所述方差是与所述输出任务的可靠性相关的不确定性的量度,所述至少一个神经网络优选地表示为贝叶斯神经网络。
4.根据权利要求1所述的控制与学习模块,其中所述至少一个学习模块包括:
状态估计模块,所述状态估计模块被配置成仅基于所述观测测量结果而提供所估计的状态;以及
动态建模模块,所述动态建模模块被配置成产生动态模型和动态模型输出方差,所述动态模型输出方差表示所述动态模型的不确定性。
5.根据权利要求4所述的控制与学习模块,其中所述状态估计模块被配置成输出第一估计当前状态和与所述第一估计当前状态相关联的方差。
6.根据权利要求5所述的控制与学习模块,其中所述动态建模模块被配置成输出第二估计当前状态。
7.根据权利要求6所述的控制与学习模块,其中所述状态估计模块和所述动态建模模块各自被配置成接收与所述第一估计当前状态与所述第二估计当前状态之间的差异相关的输入,以在所述操作与辅助学习阶段期间提高性能。
8.根据权利要求4所述的控制与学习模块,其中所述所估计的状态包括环境中的障碍物和目标对象的所估计的位置。
9.根据权利要求4所述的控制与学习模块,所述控制与学习模块还包括控制策略模块,所述控制策略模块被配置成优选地仅在所述操作与辅助学习阶段期间基于来自所述状态估计模块的所述所估计的状态而产生控制策略命令和与所述控制策略命令相关联的控制策略方差。
10.根据权利要求9所述的控制与学习模块,所述控制与学习模块还包括最优控制模块,所述最优控制模块被配置成基于来自所述动态建模模块的所述动态模型以及所述状态测量结果和所述所估计的状态中的一者而产生最优控制命令,并且优选地在所述控制策略方差大于预定义的方差阈值时超驰所述控制策略命令。
11.根据权利要求10所述的控制与学习模块,所述控制与学习模块还包括可达性分析模块,所述可达性分析模块被配置成接收所述状态测量结果、来自所述动态建模模块的动态模型参数和所述相关联的输出方差,并且确定所述当前状态是否处于安全状态,并且优选地在所述可达性分析模块确定所述当前状态处于不安全状态时产生超驰所述最优控制命令的稳健控制命令。
12.根据权利要求9所述的控制与学习模块,其中所述状态估计模块、所述动态建模模块和所述控制策略模块各自包括在所述初始学习阶段以及所述操作与辅助学习阶段两者中接受训练的神经网络,并且各自优选地输出表示所述状态估计模块、所述动态建模模块和所述控制策略模块中的每一者的不确定性的方差。
13.根据权利要求4所述的控制与学习模块,其中所述动态建模模块包括初步动态模型和补充动态模型,所述初步动态模型是预先确定的,并且基于关于所述机械臂的系统动态的现有知识来提供状态预测。
14.根据权利要求13所述的控制与学习模块,其中所述补充动态模型被配置成产生校正参数以校正由所述初步动态模型提供的所述状态预测。
15.根据权利要求13所述的控制与学习模块,其中所述补充动态模型被配置成产生与所述校正参数相关联的所述动态模型方差。