用于训练机器学习模型以生成描述符图像的装置和方法与流程

文档序号:34237966发布日期:2023-05-24 23:37阅读:42来源:国知局

本公开涉及用于训练机器学习模型以生成关于对象的图像的描述符图像的装置和方法。


背景技术:

0、现有技术

1、为了使机器人能够灵活地制造或加工对象而期望:机器人能够操纵对象,而不管该对象在机器人的工作空间中的放置方位(stellung)。因此,机器人应该能够识别对象的哪些部分处在哪些位置,从而使机器人可以例如在正确部位抓取到该对象,以便将该对象例如固到另一个对象上,或在当前位置焊接该对象。这意味着,机器人应该能够例如从由固定在机器人上的摄像机所记录的一个或多个图像中识别出对象的姿态(位置和取向),或确定用于拾取或加工的部位的位置。实现此目的的一种方案在于,针对对象的多个部分(即图像平面中表示的对象的像素)确定描述符,即,在预定义描述符空间中的点(向量),其中机器人被训练成,与对象的当前姿态无关地给对象的相同部分分派(zuweisen)相同的描述符,并且因此识别出图像中对象的拓扑,从而例如得知对象的哪个角在图像中处于哪里。在了解摄像机姿态的情况下,则又可以推断出该对象的姿态。拓扑的识别可以通过相应训练的机器学习模型来实现。

2、对此的一个例子是在 peter florence 等人的出版物“dense object nets:learning dense visual object descriptors by and for robotic manipulation”(以下简称为“参考文献1”)中描述的密集对象网络。密集对象网络以自监督的方式被训练,其中聚焦于零星的(vereinzelt)对象。

3、然而,在实践中,例如在任务是从装满对象的箱子中取出一个对象的情况下,多个对象经常共同出现。

4、因此,期望的是:用于训练机器学习模型、例如密集对象网络以生成描述符图像的方法,这些方法在这种与实践相关的场景中也能产生良好的结果。


技术实现思路

1、根据各种实施例,提供了一种用于训练机器学习模型以生成关于一个或多个对象的图像的描述符图像的方法,其中所述方法包括:形成图像对,其中每个图像对具有第一图像和第二图像,所述第一图像和第二图像从不同视角示出所述一个或多个对象;通过机器学习模型针对每个图像对生成关于第一图像的第一描述符图像以及关于第二图像的第二描述符图像,其中该第一描述符图像在所述一个或多个对象的在第一图像中示出的部位分派描述符, 其中该第二描述符图像在所述一个或多个对象的在第二图像中示出的部位分派描述符;针对每个图像对而采样描述符对,这些描述符对分别具有被分派给同一部位的来自第一描述符图像的第一描述符和来自第二描述符图像的第二描述符;以及适配机器学习模型以减少如下损失,其中对于每个所采样的描述符对,所述损失包含:根据第一描述符和第二描述符之间的距离度量的距离与根据第一描述符和出现在所采样的描述符对中的第二描述符图像的那些描述符之间的距离度量的所有距离之和的比例。

2、上述方法能够更好地训练产生描述符图像的机器学习模型,尤其是密集对象网络。特别是,利用上述经训练的机器学习模型可以更好地处理具有如下场景的图像,所述场景包含多个对象。而使用包含多个(相同)对象的图像又有助于训练数据的收集或数据效率,因为已经在一个图像中以不同的视角显示这些对象。此外,不需要对象掩码(objektmaske)。

3、该方法允许使用自监督学习来训练机器学习模型,即无需标记数据(加上标签)。借此,它可以针对新对象而自动训练所述机器学习模型,因此,例如在工业环境中,可以以简单的方式针对机器人加工新对象而使用该机器学习模型。

4、在下文中说明不同实施例。

5、如上所述地,实施例1是一种用于训练机器学习模型以生成关于一个或多个对象的图像的描述符图像的方法。

6、实施例1还包括:记录摄像机图像中的一个或多个对象,通过增强这些摄像机图像的至少一部分来获得附加图像,以及由这些摄像机图像和这些附加图像形成图像对,其中所述增强包括下列各项中的一项或多项:改变尺寸和裁剪、透视和仿射扭曲(affineverzerrung)、水平和垂直镜像、旋转、添加模糊(unschärfe)、添加颜色噪声和转换为灰度。

7、借助增强来补充训练图像可降低训练期间过度拟合的风险,并由于训练数据集的增大而提高训练的鲁棒性。

8、实施例2是根据实施例1所述的方法,其中针对改变尺寸和裁剪、透视和仿射扭曲、水平和垂直镜像、旋转、添加模糊、添加颜色噪声和转换为灰度中的每一项,由摄像机图像生成至少一个附加图像。

9、各种各样的(breites spektrum)增强实现了稳健的训练,特别是在用于训练的图像中显示出多个对象的情况下。

10、实施例3是根据实施例1至2中任一项所述的方法,包括:记录分别示出所述对象其中多个对象的摄像机图像;和至少部分地由这些摄像机图像形成图像对。

11、由此,特别是确保了:这些图像的大部分多个显示对象,并且因此包含对于训练而言感兴趣的信息。也可以避免需要生成对象掩码。

12、实施例4是根据实施例1至3中任一项所述的方法,其中,所述机器学习模型为神经网络。

13、换句话说,训练密集对象网络。使用这些可以实现用于生成描述符图像的良好结果。

14、实施例5是一种用于控制机器人以拾取或加工对象的方法,包括:根据实施例1至4中任一项所述地训练机器学习模型;记录摄像机图像,该摄像机图像示出在当前控制场景中的对象;将摄像机图像输送到机器学习模型用于生成描述符图像;从描述符图像中确定当前控制场景中用于拾取或加工对象的部位的位置;以及根据所确定的位置控制机器人。

15、实施例6是根据实施例6所述的方法,包括:标识参考图像中的参考部位(referenzstelle);通过将参考图像输送到机器学习模型而确定所标识的参考部位的描述符;通过在由摄像机图像生成的描述符图像中搜索(suchen)所确定的描述符而确定在当前控制场景中参考部位的位置;并且根据参考部位的所确定的位置而确定在当前控制场景中用于拾取或加工对象的部位的位置。

16、实施例7是一种控制设备,其被设立为执行根据实施例1至6中任一项所述的方法。

17、实施例8是具有指令的计算机程序,当由处理器执行这些指令时,这些指令使处理器执行根据实施例1至6中任一项所述的方法。

18、实施例9是一种存储指令的计算机可读介质,当由处理器执行这些指令时,这些指令使处理器执行根据实施例1至6中任一项所述的方法。



技术特征:

1.一种用于训练机器学习模型以生成关于一个或多个对象的图像的描述符图像的方法,所述方法包括:

2.根据权利要求1所述的方法,其中,针对改变尺寸和裁剪、透视和仿射扭曲、水平和垂直镜像、旋转、添加模糊、添加颜色噪声和转换为灰度中的每一项,由摄像机图像生成至少一个附加图像。

3.根据权利要求1至2中任一项所述的方法,所述方法包括:

4.根据权利要求1至3中任一项所述的方法,其中,所述机器学习模型为神经网络。

5.一种用于控制机器人以拾取或加工对象的方法,包括:

6.根据权利要求5所述的方法,所述方法包括:

7.一种控制设备,所述控制设备被设立为执行根据权利要求1至6中任一项所述的方法。

8.一种具有指令的计算机程序,当由处理器执行所述指令时,所述指令使所述处理器执行根据权利要求1至6中任一项所述的方法。

9.一种存储指令的计算机可读介质,当由处理器执行所述指令时,所述指令使所述处理器执行根据权利要求1至6中任一项所述的方法。


技术总结
训练机器学习模型生成关于对象的图像的描述符图像的方法,包括:形成图像对,每个都有从不同视角示出对象的第一和第二图像;通过机器学习模型为每个图像对生成关于第一图像的在第一图像中示出的对象的部位分派描述符的第一描述符图像和关于第二图像的在第二图像中示出的对象的部位分派描述符的第二描述符图像;针对每个图像对采样描述符对,其分别有分派给同一部位的第一描述符图像中的z第一描述符和第二描述符图像中的第二描述符;适配机器学习模型以减少损失,对于每个采样的描述符对,损失包含:根据第一和第二描述符间的距离度量的距离与根据第一描述符和出现在采样的描述符对中的第二描述符图像的描述符间的距离度量的所有距离之和的比例。

技术研发人员:D·阿德里安,A·G·库普奇科,M·斯皮斯
受保护的技术使用者:罗伯特·博世有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1