使用从2.5D视觉数据预测的域不变3D表示的机器人操纵的制作方法

文档序号：24302367发布日期：2021-03-17 00:54阅读：来源：国知局

技术特征：

1.一种由机器人的一个或多个处理器实施的方法，所述方法包括：

识别由机器人的相机捕捉的图像，所述图像捕捉要由所述机器人操纵的对象，并且所述图像包括多个通道，其中所述多个通道包括一个或多个颜色通道以及深度通道；

生成要由所述机器人操纵的对象的对象遮罩，其中生成所述对象遮罩包括：

使用对象检测网络来处理所述图像的通道中的一个或多个；

生成所述对象的三维(3d)点云，其中生成所述对象的3d点云包括：

使用点云预测网络来处理：

所述图像的至少一部分的所有通道，以及

所生成的所述对象的对象遮罩；以及

在控制所述机器人的一个或多个致动器中使用所生成的3d点云。

2.根据权利要求1所述的方法，其中，所述对象检测网络被训练用于处理图像，以生成所述图像中的对象的边界框和遮罩，并且还包括：

生成要由所述机器人操纵的对象的边界框，其中生成所述边界框包括：

使用所述对象检测网络来处理所述图像的通道中的一个或多个。

3.根据权利要求2所述的方法，其中，使用所述点云预测网络处理的所述图像的至少一部分是所述图像的基于所述边界框选择的裁剪。

4.根据权利要求3所述的方法，还包括基于所述图像的被包括在所述裁剪中的像素由所述边界框包围来选择所述图像的裁剪。

5.根据权利要求3所述的方法，其中，生成所述对象的3d点云还包括：

使用点云预测网络来处理：

一个或多个相机内参，所述一个或多个相机内参定义了所述相机的考虑所述图像的裁剪的一个或多个内在参数。

6.根据权利要求5所述的方法，其中，在使用所述点云预测网络来处理所述一个或多个相机内参中，所述一个或多个相机内参在所述图像的至少一部分的所有通道和所生成的所述对象的对象遮罩被应用作为初始输入的初始输入的下游被应用作为所述点云预测网络的侧输入。

7.根据权利要求6所述的方法，其中，所述图像的至少一部分的所有通道和所生成的所述对象的对象遮罩使用所述点云预测网络的初始编码器进行初始处理，并且其中，所述相机内参在所述初始编码器之后并在使用所述点云预测网络的初始解码器进行处理之前被应用作为侧输入。

8.根据任一前述权利要求所述的方法，其中，在控制所述机器人的一个或多个致动器中使用所生成的3d点云包括：

生成对所述对象的成功操纵的预测，生成对所述对象的成功操纵的预测包括：

通过使用评价网络处理所生成的所述对象的3d点云或所述3d点云的变换来生成对成功操纵的预测；以及

基于对成功操纵的预测来控制所述机器人的一个或多个致动器。

9.根据权利要求8所述的方法，其中，生成对成功操纵的预测包括：

识别所述机器人的末端效应器的候选末端效应器姿势；

通过将所述3d点云变换为相对于所述末端效应器姿势的末端效应器框架来生成所述3d点云的变换；以及

通过使用所述评价网络处理所述3d点云的变换来生成对成功操纵的预测。

10.根据权利要求9所述的方法，其中，基于对成功操纵的预测来控制所述机器人的一个或多个致动器包括：

基于对成功操纵的预测满足至少一个准则来选择所述候选末端效应器姿势；以及

响应于选择所述候选末端效应器姿势：

控制所述机器人的一个或多个致动器以使得所述末端效应器移动到所述候选末端效应器姿势。

11.根据权利要求10所述的方法，其中，所述操纵是抓取，并且其中，基于对成功操纵的预测来控制所述机器人的一个或多个致动器还包括：

在所述末端效应器处于所述候选末端效应器姿势之后，使得所述末端效应器尝试抓取所述对象。

12.根据权利要求10所述的方法，还包括：

识别所述末端效应器的附加的候选末端效应器姿势；

通过将所述3d点云变换为相对于所述附加末端效应器姿势的附加末端效应器框架来生成所述3d点云的附加变换；以及

通过使用所述评价网络处理所述3d点云的附加变换来生成对成功操纵的附加预测；

其中，在基于对成功操纵的预测来选择所述候选末端效应器姿势中利用的所述至少一个准则包括对成功操纵的预测比对成功操纵的附加预测更能指示成功。

13.根据任一前述权利要求所述的方法，其中，所述点云预测网络包括多个编码器-解码器模块、以及至少一个全连接层。

14.一种训练点云预测网络的方法，所述方法由一个或多个处理器实施，并且包括：

渲染模拟器的模拟环境的模拟图像，所述模拟图像捕捉所述模拟环境的至少一个模拟对象，并且所述模拟图像包括多个通道，其中所述多个通道包括一个或多个颜色通道以及深度通道；

生成所述模拟对象的对象遮罩；

基于所述模拟图像的对象遮罩和深度通道来生成所述对象的地面真值深度图像；

生成所述模拟对象的预测三维(3d)点云，其中生成所述模拟对象的预测3d点云包括：

使用点云预测网络来处理：

所述图像的至少一部分的所有通道，以及

所生成的所述模拟对象的对象遮罩；

生成所述预测3d点云的投影，所述投影是基于所述预测3d点云的所述模拟对象的预测深度图像；

至少部分基于以下各项的比较来生成损失：

所述预测3d点云的投影，以及

所述模拟对象的地面真值深度图像；以及

至少部分基于所生成的损失来更新所述点云预测网络的一个或多个权重。

15.根据权利要求14所述的方法，其中，生成所述3d点云的投影包括使用用于渲染所述模拟图像的模拟相机的内在参数来生成所述预测3d点云的投影。

16.根据权利要求14或15所述的方法，还包括：

确定所述模拟对象的边界框；

其中，使用所述点云预测网络处理的所述图像的至少一部分是所述图像的基于所述边界框选择的裁剪。

17.根据权利要求16所述的方法，还包括基于所述图像的被包括在所述裁剪中的像素由所述边界框包围来选择所述图像的裁剪。

18.根据权利要求14至17中任一项所述的方法，还包括：

捕捉真实环境的真实图像，所述真实图像捕捉至少一个真实对象，并且所述真实图像包括多个通道，其中所述多个通道包括一个或多个颜色通道以及深度通道；

生成所述真实对象的附加对象遮罩，其中生成所述附加对象遮罩包括：

使用对象检测网络来处理所述真实图像的通道中的一个或多个；

基于所述附加对象遮罩和所述真实图像的深度通道来生成所述真实对象的附加地面真值深度图像；

生成所述真实对象的附加的预测三维(3d)点云，其中生成所述真实对象的附加的预测3d点云包括：

使用点云预测网络来处理：

所述真实图像的至少一部分的所有通道，以及

所生成的所述真实对象的对象遮罩；

生成所述附加的预测3d点云的附加投影，所述附加投影是基于所述附加的预测3d点云的所述真实对象的附加的预测深度图像；

至少部分基于以下各项的比较来生成附加损失：

所述附加的预测3d点云的投影，以及

所述真实对象的附加地面真值深度图像；以及

至少部分基于所生成的经更新的损失来更新所述点云预测网络的一个或多个权重。

19.根据权利要求14至18中任一项所述的方法，还包括：

确定对所述点云预测网络的训练满足一个或多个标准；以及

响应于确定对所述点云预测网络的训练满足所述一个或多个标准：

利用使用经训练的点云预测网络预测的附加点云来训练评价网络。

20.一种系统，包括：

一个或多个致动器，可操作地耦合到机器人；

一个或多个处理器；以及

存储器，所述存储器包括计算机可读指令，所述计算机可读指令在由所述一个或多个处理器执行时使得所述系统执行根据权利要求1至13中任一项所述的方法。

21.一种计算机程序产品，包括计算机可读指令，所述计算机可读指令在由一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1-19中任一项所述的方法。

技术总结
实施方式涉及训练点云预测模型，其中该点云预测模型可以用于处理对象的单视图二维半(2.5D)观察，以生成对象的域不变三维(3D)表示。实施方式额外地或可替代地涉及利用域不变3D表示来训练使用要被操纵的模拟对象的域不变3D表示作为训练期间机器人操纵策略模型的输入的至少一部分的机器人操纵策略模型。实施方式额外地或可替代地涉及基于通过利用机器人操纵策略模型处理所生成的域不变3D表示而生成的输出来在控制机器人中利用经训练的机器人操纵策略模型。

技术研发人员：H.李;X.严;S.皮尔克;Y.白;S.M.坎萨里扎德;Y.龚;J.徐
受保护的技术使用者：谷歌有限责任公司
技术研发日：2020.02.28
技术公布日：2021.03.16

完整全部详细技术资料下载

当前第2页1 2