本发明涉及车辆自动驾驶,尤其设置一种基于视觉图像和红外图像的多模态目标检测方法、装置、电子设备及存储介质。
背景技术:
1、红外目标检测作为自动驾驶等应用中的关键技术,一直以来备受关注。红外目标检测主要是对红外传感器检测得到的红外图像进行处理进而实现目标的识别。相关技术中,在进行红外目标检测时,基于深度学习的方法,通过神经网络的不断学习迭代去获取红外图像中的相关特征,从而完成对目标的识别。然而,由于红外传感器本身的特性,上述方法在红外目标检测上存在小目标纹理信息较少和边缘模糊等问题,导致出现识别的目标类型或目标位置等信息错误。
技术实现思路
1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明提供一种多模态目标检测方法、装置、电子设备及存储介质,基于红外图像和视觉图像来实现,能够提高红外目标检测的准确性,从而为自动驾驶场景中的安全行车提供保障。
2、第一方面,本发明实施例提供一种多模态目标检测方法,包括:
3、基于视觉图像及红外图像,获取所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图并对齐;
4、分别对所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图进行局部特征采样及交互聚合,得到所述视觉图像的聚合特征以及所述红外图像的聚合特征;
5、基于所述视觉图像的聚合特征以及所述红外图像的聚合特征进行特征融合,得到融合特征;
6、基于所述融合特征进行检测,得到检测目标的目标信息。
7、在一些实施例中,所述分别对所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图进行局部特征采样及交互聚合,得到所述视觉图像的聚合特征以及所述红外图像的聚合特征,包括:
8、利用基于局部注意力机制的transformer模型,分别对所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图进行局部特征采样,得到所述视觉图像的局部特征以及所述红外图像的局部特征;
9、分别对所述视觉图像的局部特征以及所述红外图像的局部特征进行交互聚合,得到所述视觉图像的聚合特征以及所述红外图像的聚合特征。
10、在一些实施例中,分别对所述视觉图像的局部特征以及所述红外图像的局部特征进行交互聚合,包括:
11、利用多头注意力机制,分别对所述视觉图像的局部特征以及所述红外图像的局部特征进行交互聚合。
12、在一些实施例中,所述基于视觉图像及红外图像,获取所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图并对齐,包括:
13、获取第一类采集设备采集的视觉图像及第二类采集设备采集的红外图像;
14、利用神经网络分别对所述视觉图像及红外图像进行特征提取,得到所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图;
15、将所述视觉图像的多尺度特征图与所述红外图像的多尺度特征图进行对齐。
16、在一些实施例中,所述将所述视觉图像的多尺度特征图与所述红外图像的多尺度特征图进行对齐,包括:
17、分别获取所述视觉图像的多尺度特征图的位置参考点,以及所述红外图像的多尺度特征图的位置参考点;
18、基于所述第一类采集设备和/或第二类采集设备的标定参数,将所述视觉图像的多尺度特征图的位置参考点与所述红外图像的多尺度特征图的位置参考点对齐。
19、在一些实施例中,所述的多模态目标检测方法,还包括:
20、同步所述第一类采集设备和第二类采集设备的时间戳。
21、在一些实施例中,基于所述视觉图像的聚合特征以及所述红外图像的聚合特征进行特征融合,得到融合特征,包括:
22、利用动态融合网格,将于所述视觉图像的聚合特征与所述红外图像的聚合特征进行拼接对齐,得到融合特征。
23、第二方面,本发明实施例提供一种多模态目标检测装置,包括:
24、获取单元,用于基于视觉图像及红外图像,获取所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图并对齐;
25、采样与聚合单元,用于分别对所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图进行局部特征采样及交互聚合,得到所述视觉图像的聚合特征以及所述红外图像的聚合特征;
26、融合单元,用于基于所述视觉图像的聚合特征以及所述红外图像的聚合特征进行特征融合,得到融合特征;
27、检测单元,用于基于所述融合特征进行检测,得到检测目标的目标信息。
28、第三方面,本发明实施例提供一种电子设备,所述电子设备包括:
29、一个或多个处理器;
30、存储器,用于存储一个或多个程序;
31、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前述任一项所述的方法。
32、第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如前述任一项所述的方法。
33、本实施例提供的多模态目标检测方法、装置、电子设备及存储介质,通过基于视觉图像及红外图像,获取所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图并对齐,分别对所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图进行局部特征采样及交互聚合,得到所述视觉图像的聚合特征以及所述红外图像的聚合特征,基于所述视觉图像的聚合特征以及所述红外图像的聚合特征进行特征融合,得到融合特征,基于所述融合特征进行检测,得到检测目标的目标信息,从而在红外检测的基础上融合视觉图像,通过对红外图像和视觉图像进行多模态特征融合,利用红外图像和视觉图像对目标不同的表达和描述,改善单一红外模态存在的漏检测及误检测等问题,提高红外目标检测的准确性,从而为自动驾驶场景中的安全行车提供保障。
34、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种多模态目标检测方法,其特征在于,包括:
2.根据权利要求1所述的多模态目标检测方法,其特征在于,所述分别对所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图进行局部特征采样及交互聚合,得到所述视觉图像的聚合特征以及所述红外图像的聚合特征,包括:
3.根据权利要求2所述的多模态目标检测方法,其特征在于,分别对所述视觉图像的局部特征以及所述红外图像的局部特征进行交互聚合,包括:
4.根据权利要求1所述的多模态目标检测方法,其特征在于,所述基于视觉图像及红外图像,获取所述视觉图像的多尺度特征图以及所述红外图像的多尺度特征图并对齐,包括:
5.根据权利要求4所述的多模态目标检测方法,其特征在于,所述将所述视觉图像的多尺度特征图与所述红外图像的多尺度特征图进行对齐,包括:
6.根据权利要求4所述的多模态目标检测方法,其特征在于,还包括:
7.根据权利要求1所述的多模态目标检测方法,其特征在于,基于所述视觉图像的聚合特征以及所述红外图像的聚合特征进行特征融合,得到融合特征,包括:
8.一种多模态目标检测装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。