本公开涉及人工智能,具体涉及计算机视觉、图像处理、深度学习等计算领域,尤其涉及目标检测方法、装置、电子设备及存储介质。
背景技术:
1、目标检测是计算机视觉一项基础的任务,并且得到广泛的应用。大多数典型的目标检测器都是以cnn(convolutional neural networks,卷积神经网络)为基础的构架。近些年cnn为基础的目标检测器也取得了显著的进展。最近两年,研究人员提出了一种transformer为基础的端到端的目标检测器(detr,detection transformer),它消除了手工设计的anchor部分,对比anchor为基础的检测器(比如faster rcnn)展现出可比对的效果。但是,现有的detr仍然存在目标检测不准确的弊端。
技术实现思路
1、针对现有技术中transformer结构的学习得到的特征与位置信息不对齐的技术问题,本公开提供了一种目标检测方法、装置、电子设备及存储介质。
2、根据本公开的第一方面,提供了一种目标检测方法,包括:
3、获取待检测图像对应的第一特征图;
4、将所述第一特征图输入目标检测模型的编码器,并通过所述编码器根据所述第一特征图的坐标信息进行位置编码得到对应的第一位置向量;
5、将所述第一特征图和对应的所述第一位置向量依次输入所述编码器的每一级编码模块进行编码处理得到第二特征图和第二位置向量;
6、根据所述第二特征图和所述第二位置向量进行解码处理得到所述待检测图像的检测结果。
7、根据本公开的第二方面,提供了一种目标检测装置,包括:
8、获取模块,被配置为获取待检测图像对应的第一特征图;
9、编码模块,被配置为将所述第一特征图输入目标检测模型的编码器,并通过所述编码器根据所述第一特征图的坐标信息进行位置编码得到对应的第一位置向量;
10、所述编码模块将所述第一特征图和对应的所述第一位置向量依次输入所述编码器的每一级编码模块进行编码处理得到第二特征图和第二位置向量;
11、解码模块,被配置为根据所述第二特征图和所述第二位置向量进行解码处理得到所述待检测图像的检测结果。
12、根据本公开的第三方面,提供了一种电子设备,包括:
13、至少一个处理器;以及
14、与所述至少一个处理器通信连接的存储器;其中,
15、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述技术方案中任一项所述的方法。
16、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述技术方案中任一项所述的方法。
17、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述技术方案中任一项所述的方法。
18、本公开提供了目标检测方法、装置、电子设备及存储介质,实现特征与位置信息对齐,提升目标检测的准确度。
19、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种目标检测方法,包括:
2.根据权利要求1所述的方法,其中,所述获取待检测图像对应的第一特征图包括:
3.根据权利要求2所述的方法,其中,所述通过所述卷积神经网络进行特征提取得到所述第一特征图包括:
4.根据权利要求1-3中任意一项所述的方法,其中,所述将所述第一特征图和对应的所述第一位置向量依次输入所述编码器的每一级编码模块进行编码处理得到第二特征图和第二位置向量包括:
5.根据权利要求4所述的方法,其中,所述对输入的所述第一特征图进行编码处理,并计算所述第一特征图经当前所述编码模块处理后产生的位置偏移包括:
6.根据权利要求4或5所述的方法,其中,所述计算所述第一特征图经当前所述编码模块处理后产生的位置偏移包括:
7.一种目标检测装置,包括:
8.根据权利要求7所述的装置,其中,所述获取模块包括:
9.根据权利要求8所述的装置,其中,所述卷积神经网络通过空洞卷积核或可变形卷积核进行特征提取得到所述第一特征图。
10.根据权利要求7-9中任意一项所述的装置,其中,所述编码模块包括:
11.根据权利要求9所述的装置,其中,所述计算单元通过全局注意力机制对输入的所述第一特征图进行编码处理,并计算所述第一特征图经当前所述编码模块处理后产生的所述位置偏移。
12.根据权利要求10或11所述的装置,其中,每个所述计算单元包括用于计算所述位置偏移的全连接层。
13.一种电子设备,包括:
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。