用于待处理图像的方法和装置及相应的设备、介质

文档序号：37281347发布日期：2024-03-12 21:20阅读：16来源：国知局

本发明涉及计算机视觉领域，尤其涉及一种用于待处理图像的方法和装置以及相应的计算机设备、介质。

背景技术：

1、在日常生活中，人们在出行时通常依赖视觉感知周围的环境，并确定视野中的目标的位置、轮廓从而判断前进路线。随着人工智能技术的发展，计算机视觉领域也受到越来越多的关注。通过算法的设计和对神经网络的训练，使计算机具有类似于人类的视觉感知的目标识别能力，这样的技术可以应用于现代社会的各行各业，例如自动驾驶、机器人技术或增强现实(augmented reality，ar)等。

2、如今，由于点云的精度和密度的提高，使用激光雷达点云的3d检测算法已经具有了可观的性能。毫米波雷达技术的发展也使其常用于计算机视觉领域中。然而，与它们相比，摄像机更便宜、更节能并且安装起来更灵活。因此，在机器人和自动车辆中只设置摄像机更为实用，使用单个摄像机的3d目标检测在机器人技术和计算机视觉领域吸引了越来越多的关注。

3、在过去十年里，卷积神经网络(convolutional neural network，cnn)已经成为包括3d检测在内的各种计算机视觉任务的主流解决方案。由于标准cnn仅包含局部操作，其通常生成空间上与输入相似的特征图。然而，cnn的局部性也意味着每个输出像素只能访问其自身周围的信息。因此，尤其是对于密集的预测任务，通过对cnn的感受野缺陷加以改善能够显著地提高模型的表达能力。

4、近年来，视觉转换器(vision transformer，vit)在计算机视觉领域引起了极大的关注。视觉转换器在不使用卷积的情况下在几个基本的计算机视觉任务上实现了最先进的性能。自注意力机制允许在特征图中的所有像素上的频繁的信息交换并且能够消除cnn中的传导偏置。具有全局感受野的基于vit的网络有望解决单目3d目标检测中的歪曲感受野问题。然而，由于转换器模块固有地允许在每一层的全局信息通信，因此特征图和输入图像之间的空间对应度明显弱于基于cnn的网络。单目3d目标检测还需要足够的位置信息和局部纹理以用于准确的深度预测，这引发了对视觉转换器是否可以成为单目3d目标检测的良好主干网络解决方案的担忧。

技术实现思路

1、本发明的目的是提供一种用于待处理图像的解决方案，以解决或缓解上述现有技术的问题中的部分。

2、根据本发明的第一方面，提供了一种用于待处理图像的方法，所述待处理图像是由摄像机捕获的，所述方法包括几何感知位置嵌入(geometric-aware positionalembedding，gem)过程，所述几何感知位置嵌入过程包括：

3、为表示多个像素的、对应于所述待处理图像的图像表示所表示的每个像素构造一个深度值，其中，所述图像表示所表示的每个像素对应于所述待处理图像中的一个不同图像像素，对于所述图像表示所表示的每个像素，构造的其深度值z根据以下公式确定：

4、

5、其中fy是与所述图像表示相关联的所述摄像机的焦距、cy是所述摄像机镜头的物理中心线在所述待处理图像上的投影点在相关联的坐标系中沿所述坐标系的y轴的坐标、el是与所述图像表示相关联的所述摄像机与地平面之间的高度距离、v是所述像素对应的所述待处理图像中的图像像素在所述坐标系中沿所述坐标系的y轴的坐标，所述y轴对应于从所述摄像机的下方到上方的方向或相反的方向；

6、对于所述图像表示所表示的每个像素，将构造的其深度值z根据以下公式转换成其虚拟视差d：

7、

8、其中b是选用的基线；

9、对于所述图像表示所表示的每个像素，将其虚拟视差与该像素相关联，由此得到附加了虚拟视差的所述图像表示。

10、根据本发明的第二方面，提供了一种用于待处理图像的装置，所述待处理图像是由摄像机捕获的，所述装置包括处理器，所述处理器被配置为执行计算机指令以导致根据本发明的第一方面的方法被执行。

11、根据本发明的第三方面，提供了一种计算机设备，包括：存储器和处理器，所述存储器上存储有计算机指令，所述计算机指令在由所述处理器执行时导致根据本发明的第一方面的方法被执行。

12、根据本发明的第四方面，提供了一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质上存储有计算机指令，所述计算机指令在由处理器执行时导致根据本发明的第一方面的方法被执行。

13、根据本发明的方案，通过为代表待处理图像的图像表示(为方便起见，下文中亦称为“原始图像表示”)所表示的每个像素构造深度值并据此为其提供虚拟视差，获得附加了虚拟视差的所述图像表示(为方便起见，下文中亦称为“经处理的图像表示”)。相比于原始图像表示，经处理的图像表示附加了深度信息，因而可以有利于涉及这样的图像表示的各种应用，例如3d目标检测。例如，对于基于视觉转换器的3d目标检测，通过引入本发明的方案，可以缓解基于视觉转换器的3d目标检测原本因空间对应度方面的欠缺而导致的相关问题。因而，本发明可以有利地促进在没有卷积支持的情况下以例如层次化视觉转换器为基础进行3d目标检测的性能表现，在得益于其的同时避免与卷积神经网络的局部性相关的问题如感受野缺陷问题。

技术特征：

1.一种用于待处理图像的方法，所述待处理图像是由摄像机捕获的，所述方法包括几何感知位置嵌入过程，所述几何感知位置嵌入过程包括：

2.根据权利要求1所述的方法，其中，所述图像表示是所述待处理图像本身。

3.根据权利要求1所述的方法，还包括，在所述几何感知位置嵌入过程之前：

4.根据权利要求3所述的方法，其中，由所述视觉转换器处理所述待处理图像得到的输出获得所述图像表示包括：

5.根据权利要求3所述的方法，其中，所述输出为像素块的第一二维特征矩阵，由所述视觉转换器处理所述待处理图像得到的输出获得所述图像表示包括：

6.根据权利要求3所述的方法，其中，所述视觉转换器是层次化视觉转换器，尤其是swin transformer。

7.根据权利要求1所述的方法，其中，所述摄像机是单目相机。

8.根据权利要求1-7中任一项所述的方法，其中，所述图像表示指示感兴趣对象，所述方法还包括，在所述几何感知位置嵌入过程之后：

9.根据从属于权利要求5时的权利要求8所述的方法，其中，附加了虚拟视差的所述图像表示为像素块的第二一维特征矩阵，其中对附加了虚拟视差的所述图像表示进行处理以获得所述感兴趣对象的位置信息和尺寸信息包括：

10.根据权利要求9所述的方法，其中，利用解码器处理所述第二二维特征矩阵以获得所述感兴趣对象的位置信息和尺寸信息。

11.根据权利要求9所述的方法，其中，所述第二二维特征矩阵和所述第一二维特征矩阵具有相同的行大小和列大小。

12.一种用于待处理图像的装置，所述待处理图像是由摄像机捕获的，所述装置包括处理器，所述处理器被配置为执行计算机指令以导致根据权利要求1-11中任一项所述的方法被执行。

13.一种计算机设备，包括：存储器和处理器，所述存储器上存储有计算机指令，所述计算机指令在由所述处理器执行时导致根据权利要求1-11中任一项所述的方法被执行。

14.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质上存储有计算机指令，所述计算机指令在由处理器执行时导致根据权利要求1-11中任一项所述的方法被执行。

技术总结
本发明公开了用于待处理图像的方法和装置及相应的设备和介质。所述方法包括几何感知位置嵌入过程，所述几何感知位置嵌入过程包括深度值构造步骤：为对应于所述待处理图像的图像表示所表示的每个像素构造深度值；转换步骤：将为每个像素构造的所述深度值转换为虚拟视差；关联步骤：对于所述图像表示所表示的每个像素，将其虚拟视差与该像素相关联，由此得到附加了虚拟视差的所述图像表示。本发明的方法可以用于涉及这样的图像表示的各种可能应用的各个可能环节，有利于涉及这样的图像表示的各种应用，所述应用例如但不限于目标检测相关的各种应用，如3D目标检测。

技术研发人员：刘宇轩,陈映冰,焦健浩,于洋,孙宇翔,刘明
受保护的技术使用者：香港科技大学
技术研发日：
技术公布日：2024/3/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宇轩,陈映冰,焦健浩,于洋,孙宇翔,刘明
技术所有人：香港科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。