目标检测方法、装置、电子设备及存储介质与流程

文档序号：34216907发布日期：2023-05-18 00:58阅读：49来源：国知局

本公开涉及人工智能，具体涉及计算机视觉、图像处理、深度学习等计算领域，尤其涉及目标检测方法、装置、电子设备及存储介质。

背景技术：

1、目标检测是计算机视觉一项基础的任务，并且得到广泛的应用。大多数典型的目标检测器都是以cnn(convolutional neural networks，卷积神经网络)为基础的构架。近些年cnn为基础的目标检测器也取得了显著的进展。最近两年，研究人员提出了一种transformer为基础的端到端的目标检测器(detr，detection transformer)，它消除了手工设计的anchor部分，对比anchor为基础的检测器(比如faster rcnn)展现出可比对的效果。但是，现有的detr仍然存在目标检测不准确的弊端。

技术实现思路

1、针对现有技术中transformer结构的学习得到的特征与位置信息不对齐的技术问题，本公开提供了一种目标检测方法、装置、电子设备及存储介质。

2、根据本公开的第一方面，提供了一种目标检测方法，包括：

3、获取待检测图像对应的第一特征图；

4、将所述第一特征图输入目标检测模型的编码器，并通过所述编码器根据所述第一特征图的坐标信息进行位置编码得到对应的第一位置向量；

5、将所述第一特征图和对应的所述第一位置向量依次输入所述编码器的每一级编码模块进行编码处理得到第二特征图和第二位置向量；

6、根据所述第二特征图和所述第二位置向量进行解码处理得到所述待检测图像的检测结果。

7、根据本公开的第二方面，提供了一种目标检测装置，包括：

8、获取模块，被配置为获取待检测图像对应的第一特征图；

9、编码模块，被配置为将所述第一特征图输入目标检测模型的编码器，并通过所述编码器根据所述第一特征图的坐标信息进行位置编码得到对应的第一位置向量；

10、所述编码模块将所述第一特征图和对应的所述第一位置向量依次输入所述编码器的每一级编码模块进行编码处理得到第二特征图和第二位置向量；

11、解码模块，被配置为根据所述第二特征图和所述第二位置向量进行解码处理得到所述待检测图像的检测结果。

12、根据本公开的第三方面，提供了一种电子设备，包括：

13、至少一个处理器；以及

14、与所述至少一个处理器通信连接的存储器；其中，

15、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述技术方案中任一项所述的方法。

16、根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述技术方案中任一项所述的方法。

17、根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述技术方案中任一项所述的方法。

18、本公开提供了目标检测方法、装置、电子设备及存储介质，实现特征与位置信息对齐，提升目标检测的准确度。

19、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种目标检测方法，包括：

2.根据权利要求1所述的方法，其中，所述获取待检测图像对应的第一特征图包括：

3.根据权利要求2所述的方法，其中，所述通过所述卷积神经网络进行特征提取得到所述第一特征图包括：

4.根据权利要求1-3中任意一项所述的方法，其中，所述将所述第一特征图和对应的所述第一位置向量依次输入所述编码器的每一级编码模块进行编码处理得到第二特征图和第二位置向量包括：

5.根据权利要求4所述的方法，其中，所述对输入的所述第一特征图进行编码处理，并计算所述第一特征图经当前所述编码模块处理后产生的位置偏移包括：

6.根据权利要求4或5所述的方法，其中，所述计算所述第一特征图经当前所述编码模块处理后产生的位置偏移包括：

7.一种目标检测装置，包括：

8.根据权利要求7所述的装置，其中，所述获取模块包括：

9.根据权利要求8所述的装置，其中，所述卷积神经网络通过空洞卷积核或可变形卷积核进行特征提取得到所述第一特征图。

10.根据权利要求7-9中任意一项所述的装置，其中，所述编码模块包括：

11.根据权利要求9所述的装置，其中，所述计算单元通过全局注意力机制对输入的所述第一特征图进行编码处理，并计算所述第一特征图经当前所述编码模块处理后产生的所述位置偏移。

12.根据权利要求10或11所述的装置，其中，每个所述计算单元包括用于计算所述位置偏移的全连接层。

13.一种电子设备，包括：

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

技术总结
本公开涉及人工智能技术领域，具体涉及计算机视觉、图像处理、深度学习等计算领域，尤其涉及目标检测方法、装置、电子设备及存储介质。具体实现方案为：将第一特征图输入目标检测模型的编码器，并通过编码器根据第一特征图的坐标信息进行位置编码得到对应的第一位置向量；将第一特征图和对应的第一位置向量依次输入编码器的每一级编码模块进行编码处理得到第二特征图和第二位置向量；根据第二特征图和第二位置向量进行解码处理得到待检测图像的检测结果。从而实现特征信息和位置信息对齐，提升目标检测的准确度。

技术研发人员：陈子亮
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈子亮
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。