1.一种由机器人的一个或多个处理器实施的方法,所述方法包括:
识别由机器人的相机捕捉的图像,所述图像捕捉要由所述机器人操纵的对象,并且所述图像包括多个通道,其中所述多个通道包括一个或多个颜色通道以及深度通道;
生成要由所述机器人操纵的对象的对象遮罩,其中生成所述对象遮罩包括:
使用对象检测网络来处理所述图像的通道中的一个或多个;
生成所述对象的三维(3d)点云,其中生成所述对象的3d点云包括:
使用点云预测网络来处理:
所述图像的至少一部分的所有通道,以及
所生成的所述对象的对象遮罩;以及
在控制所述机器人的一个或多个致动器中使用所生成的3d点云。
2.根据权利要求1所述的方法,其中,所述对象检测网络被训练用于处理图像,以生成所述图像中的对象的边界框和遮罩,并且还包括:
生成要由所述机器人操纵的对象的边界框,其中生成所述边界框包括:
使用所述对象检测网络来处理所述图像的通道中的一个或多个。
3.根据权利要求2所述的方法,其中,使用所述点云预测网络处理的所述图像的至少一部分是所述图像的基于所述边界框选择的裁剪。
4.根据权利要求3所述的方法,还包括基于所述图像的被包括在所述裁剪中的像素由所述边界框包围来选择所述图像的裁剪。
5.根据权利要求3所述的方法,其中,生成所述对象的3d点云还包括:
使用点云预测网络来处理:
一个或多个相机内参,所述一个或多个相机内参定义了所述相机的考虑所述图像的裁剪的一个或多个内在参数。
6.根据权利要求5所述的方法,其中,在使用所述点云预测网络来处理所述一个或多个相机内参中,所述一个或多个相机内参在所述图像的至少一部分的所有通道和所生成的所述对象的对象遮罩被应用作为初始输入的初始输入的下游被应用作为所述点云预测网络的侧输入。
7.根据权利要求6所述的方法,其中,所述图像的至少一部分的所有通道和所生成的所述对象的对象遮罩使用所述点云预测网络的初始编码器进行初始处理,并且其中,所述相机内参在所述初始编码器之后并在使用所述点云预测网络的初始解码器进行处理之前被应用作为侧输入。
8.根据任一前述权利要求所述的方法,其中,在控制所述机器人的一个或多个致动器中使用所生成的3d点云包括:
生成对所述对象的成功操纵的预测,生成对所述对象的成功操纵的预测包括:
通过使用评价网络处理所生成的所述对象的3d点云或所述3d点云的变换来生成对成功操纵的预测;以及
基于对成功操纵的预测来控制所述机器人的一个或多个致动器。
9.根据权利要求8所述的方法,其中,生成对成功操纵的预测包括:
识别所述机器人的末端效应器的候选末端效应器姿势;
通过将所述3d点云变换为相对于所述末端效应器姿势的末端效应器框架来生成所述3d点云的变换;以及
通过使用所述评价网络处理所述3d点云的变换来生成对成功操纵的预测。
10.根据权利要求9所述的方法,其中,基于对成功操纵的预测来控制所述机器人的一个或多个致动器包括:
基于对成功操纵的预测满足至少一个准则来选择所述候选末端效应器姿势;以及
响应于选择所述候选末端效应器姿势:
控制所述机器人的一个或多个致动器以使得所述末端效应器移动到所述候选末端效应器姿势。
11.根据权利要求10所述的方法,其中,所述操纵是抓取,并且其中,基于对成功操纵的预测来控制所述机器人的一个或多个致动器还包括:
在所述末端效应器处于所述候选末端效应器姿势之后,使得所述末端效应器尝试抓取所述对象。
12.根据权利要求10所述的方法,还包括:
识别所述末端效应器的附加的候选末端效应器姿势;
通过将所述3d点云变换为相对于所述附加末端效应器姿势的附加末端效应器框架来生成所述3d点云的附加变换;以及
通过使用所述评价网络处理所述3d点云的附加变换来生成对成功操纵的附加预测;
其中,在基于对成功操纵的预测来选择所述候选末端效应器姿势中利用的所述至少一个准则包括对成功操纵的预测比对成功操纵的附加预测更能指示成功。
13.根据任一前述权利要求所述的方法,其中,所述点云预测网络包括多个编码器-解码器模块、以及至少一个全连接层。
14.一种训练点云预测网络的方法,所述方法由一个或多个处理器实施,并且包括:
渲染模拟器的模拟环境的模拟图像,所述模拟图像捕捉所述模拟环境的至少一个模拟对象,并且所述模拟图像包括多个通道,其中所述多个通道包括一个或多个颜色通道以及深度通道;
生成所述模拟对象的对象遮罩;
基于所述模拟图像的对象遮罩和深度通道来生成所述对象的地面真值深度图像;
生成所述模拟对象的预测三维(3d)点云,其中生成所述模拟对象的预测3d点云包括:
使用点云预测网络来处理:
所述图像的至少一部分的所有通道,以及
所生成的所述模拟对象的对象遮罩;
生成所述预测3d点云的投影,所述投影是基于所述预测3d点云的所述模拟对象的预测深度图像;
至少部分基于以下各项的比较来生成损失:
所述预测3d点云的投影,以及
所述模拟对象的地面真值深度图像;以及
至少部分基于所生成的损失来更新所述点云预测网络的一个或多个权重。
15.根据权利要求14所述的方法,其中,生成所述3d点云的投影包括使用用于渲染所述模拟图像的模拟相机的内在参数来生成所述预测3d点云的投影。
16.根据权利要求14或15所述的方法,还包括:
确定所述模拟对象的边界框;
其中,使用所述点云预测网络处理的所述图像的至少一部分是所述图像的基于所述边界框选择的裁剪。
17.根据权利要求16所述的方法,还包括基于所述图像的被包括在所述裁剪中的像素由所述边界框包围来选择所述图像的裁剪。
18.根据权利要求14至17中任一项所述的方法,还包括:
捕捉真实环境的真实图像,所述真实图像捕捉至少一个真实对象,并且所述真实图像包括多个通道,其中所述多个通道包括一个或多个颜色通道以及深度通道;
生成所述真实对象的附加对象遮罩,其中生成所述附加对象遮罩包括:
使用对象检测网络来处理所述真实图像的通道中的一个或多个;
基于所述附加对象遮罩和所述真实图像的深度通道来生成所述真实对象的附加地面真值深度图像;
生成所述真实对象的附加的预测三维(3d)点云,其中生成所述真实对象的附加的预测3d点云包括:
使用点云预测网络来处理:
所述真实图像的至少一部分的所有通道,以及
所生成的所述真实对象的对象遮罩;
生成所述附加的预测3d点云的附加投影,所述附加投影是基于所述附加的预测3d点云的所述真实对象的附加的预测深度图像;
至少部分基于以下各项的比较来生成附加损失:
所述附加的预测3d点云的投影,以及
所述真实对象的附加地面真值深度图像;以及
至少部分基于所生成的经更新的损失来更新所述点云预测网络的一个或多个权重。
19.根据权利要求14至18中任一项所述的方法,还包括:
确定对所述点云预测网络的训练满足一个或多个标准;以及
响应于确定对所述点云预测网络的训练满足所述一个或多个标准:
利用使用经训练的点云预测网络预测的附加点云来训练评价网络。
20.一种系统,包括:
一个或多个致动器,可操作地耦合到机器人;
一个或多个处理器;以及
存储器,所述存储器包括计算机可读指令,所述计算机可读指令在由所述一个或多个处理器执行时使得所述系统执行根据权利要求1至13中任一项所述的方法。
21.一种计算机程序产品,包括计算机可读指令,所述计算机可读指令在由一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1-19中任一项所述的方法。