用于对象发现的具有球面自动编码器的系统和方法与流程

文档序号:37541480发布日期:2024-04-08 13:40阅读:10来源:国知局
用于对象发现的具有球面自动编码器的系统和方法与流程

本公开大体上涉及数字图像处理,并且更具体地涉及用于对象发现的与以对象为中心的表示相关联的机器学习系统。


背景技术:

1、目前,大多数关于对象发现的机器学习工作集中在基于时隙(slot)的方法上,这种方法分离了单独对象的潜在表示。然而,这些基于时隙的系统倾向于要求所涉及的架构具有迭代过程和复杂的训练方案以实现对象特征到时隙中的良好分离。此外,存在复杂的自动编码器,它使用复杂的值激活来学习以对象为中心的表示。然而,复杂的自动编码器在其所能表示的对象数量上受到限制。


技术实现思路

1、以下是下面详细描述的特定实施例的概述。呈现所描述的方面仅仅是为了向读者提供这些特定实施例的简要概述,并且对这些方面的描述并不旨在限制本公开的范围。实际上,本公开可以包括下面可能没有明确阐述的各种方面。

2、根据至少一个方面,一种计算机实现的方法涉及对象发现。该方法包括接收源图像。该方法包括通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据。该方法包括经由编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。该方法包括经由解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。该方法包括至少基于径向分量来生成重建图像。重建图像是源图像的重建。

3、根据至少一个方面,一种系统包括处理器和存储器。存储器与处理器进行数据通信。存储器具有计算机可读数据,所述计算机可读数据包括存储在其上的指令,所述指令当被处理器执行时,使处理器执行一种方法。该方法包括接收源图像。该方法包括通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据。该方法包括经由编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。该方法包括经由解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。该方法包括至少基于径向分量来生成重建图像。重建图像是源图像的重建。

4、根据至少一个方面,一种非暂时性计算机可读介质具有计算机可读数据,所述计算机可读数据包括存储在其上的指令,所述指令在被处理器执行时使处理器执行一种方法。该方法包括接收源图像。该方法包括通过将源图像的每个像素与预定相位值相关联来生成用于编码器的输入数据。该方法包括经由编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。该方法包括经由解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。该方法包括至少基于径向分量来生成重建图像。重建图像是源图像的重建。

5、本发明的这些和其他特征、方面和优点将在下面根据附图的详细描述中进行讨论,在所有附图中,相同的符号表示相似或相似的部分。



技术特征:

1.一种用于对象发现的计算机实现的方法,所述计算机实现的方法包括:

2.根据权利要求1所述的计算机实现的方法,还包括:

3.根据权利要求1所述的计算机实现的方法,其中:

4.根据权利要求1所述的计算机实现的方法,其中,通过将具有sigmoid激活函数的卷积层应用于所述径向分量来生成所述重建图像。

5.根据权利要求1所述的计算机实现的方法,还包括:

6.根据权利要求5所述的计算机实现的方法,其中,基于所述源图像和所述重建图像之间的均方误差来生成所述损失数据。

7.根据权利要求1所述的计算机实现的方法,还包括:

8.一种系统,包括:

9.根据权利要求8所述的系统,还包括:

10.根据权利要求8所述的系统,其中:

11.根据权利要求8所述的系统,其中,通过将具有sigmoid激活函数的卷积层应用于所述径向分量来生成所述重建图像。

12.根据权利要求8所述的系统,还包括:

13.根据权利要求12所述的系统,其中,基于所述源图像和所述重建图像之间的均方误差来生成所述损失数据。

14.根据权利要求8所述的系统,还包括:

15.一种具有计算机可读数据的非暂时性计算机可读介质,所述计算机可读数据包括存储在其上的指令,所述指令在由处理器执行时使所述处理器执行一种方法,所述方法包括:

16.根据权利要求15所述的非暂时性计算机可读介质,还包括:

17.根据权利要求15所述的非暂时性计算机可读介质,其中:

18.根据权利要求15所述的非暂时性计算机可读介质,其中,通过将具有sigmoid激活函数的卷积层应用于所述径向分量来生成所述重建图像。

19.根据权利要求15所述的非暂时性计算机可读介质,还包括:

20.根据权利要求15所述的非暂时性计算机可读介质,还包括:


技术总结
计算机实现的系统和方法涉及对象发现。该系统和方法包括接收源图像并通过将源图像的每个像素与预定相位值相关联来生成输入数据。编码器对输入数据进行编码,以生成球面坐标中的潜在表示数据。解码器解码潜在表示数据以生成源图像的球面重建数据。球面重建数据包括径向分量和多个相位分量。至少基于径向分量来生成重建图像。重建图像是源图像的重建。

技术研发人员:S·罗威,M·鲁道夫,M·维灵,F·C·孔德萨
受保护的技术使用者:罗伯特·博世有限公司
技术研发日:
技术公布日:2024/4/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1