多模态特征对齐融合的路侧目标检测方法、系统及装置

文档序号：35676643发布日期：2023-10-08 07:19阅读：44来源：国知局

所属的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。下面参考图7，其示出了用于实现本技术方法、系统、装置实施例的服务器的计算机系统的结构示意图。图7示出的服务器仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。如图7所示，计算机系统包括中央处理单元(cpu，central processing unit)701，其可以根据存储在只读存储器(rom，read only memory)702中的程序或者从存储部分708加载到随机访问存储器(ram，random access memory)703中的程序而执行各种适当的动作和处理。在ram 703中，还存储有系统操作所需的各种程序和数据。cpu 701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o，input/output)接口705也连接至总线704。以下部件连接至i/o接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(crt，cathode ray tube)、液晶显示器(lcd，liquid crystal display)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如lan(局域网，local areanetwork)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(cpu)701执行时，执行本技术的方法中限定的上述功能。需要说明的是，本技术上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者装置/装置所固有的要素。至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

背景技术：

1、目标检测是自动驾驶和智能交通的核心组成部分。目前在道路交通场景下的三维目标检测任务中通常采用图像、点云等数据作为输入，预测道路上关键元素的几何和语义信息。基于图像的检测图像纹理信息丰富，但缺乏空间信息的维度，无法精确地恢复空间信息的位置。而激光雷达具有探测距离远、不受光线影响并且能够准确获得目标距离信息等优点，能够弥补相机图像的缺点。基于激光雷达的检测提供丰富的三维结构信息，但是存在点云稀疏的问题。因此，自动驾驶目标检测主要利用多传感器融合，特别是激光雷达和摄像机的融合。

2、不同模态的特征具有不同的表示方式，如何对齐多个模态特征进行融合是关键。无论是哪种方法，多模态数据融合的重要前提是把不同传感器的数据标定到同一个坐标系里，具体来说不同传感器的数据之间对应关系要准确。对于现实场景的交通数据集而言，由于数据集校准和同步过程存在误差，相机和激光雷达数据在时间和空间上存在不同步是很常见的问题。同时，我们还要考虑在特征级融合的方法中，不同模态的原始数据经过特征提取后由标定参数确定的对应关系会出现新的误差。由于这些特征经常被增强和聚合，融合中的一个关键挑战是如何有效地对齐来自两种模态转换后的特征。通过原始数据的标定参数获得粗糙的对应关系存在偏差时，结合两种模态优势的难度就大大增加。

3、近年来，多模态三维目标检测是一个关注热点。目前流行的多模态三维目标检测方法根据融合时机可以分为数据级、特征级和决策级融合。其中数据级融合主要融合原始或预处理的传感器数据，充分利用数据的原始信息，对计算量要求比较低，但不够灵活。决策级融合结合不同数据模态网络结构的决策输出，具有很高的灵活性和模块化，但计算成本较高，会丢失很多中间特征。特征级融合在中间层融合特征，使得网络能够学习不同特征表示，难点在于融合时机的选择。

4、多模态融合的重要前提是把不同传感器的数据或特征对齐。现存的方法大部分需要庞大的算力支持多模态信息的全局交互，并且基于体素等方法提取点云特征会损失部分信息。另一方面，这些方法在公开数据集上进行研究，很难界定特征对齐的效果和对检测性能的影响。我们对于存在时空不同步问题的路侧数据集的实验验证能补充该领域的研究。

5、基于此，本发明提供了一种多模态特征对齐融合的路侧目标检测方法、系统及装置。

技术实现思路

1、为了解决现有技术中的上述问题，即现有技术的研究数据集存在时空不同步偏差，阻碍多模态特征融合的问题，本发明提供了一种多模态特征对齐融合的路侧目标检测方法、系统及装置。

2、本发明的一方面，提出了一种多模态特征对齐融合的路侧目标检测方法，该方法包括：

3、步骤s10，获取待进行三维目标检测图像及其对应的点云数据；提取所述输入图像的多尺度特征图；提取所述点云数据的多个点特征集合；

4、步骤s20，分别将多个点特征集合中的点特征映射在所述多尺度特征图上，得到对应的坐标；根据所述坐标获取区域值，在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征，作为第一融合图像特征；

5、步骤s30，将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合，并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接，得到第二融合图像特征，将所述第二融合图像特征与对应的所述点特征集合进行拼接，得到增强的点云特征；

6、步骤s40，对各多尺度特征图的图像特征进行反卷积处理，并将反卷积处理后的图像特征进行拼接，得到拼接图像特征，将所述拼接图像与所述增强的点云特征融合，得到多模态特征融合点云；将所述多模态特征融合点云通过检测头生成三维边界框和分类评分，作为三维目标检测结果进行输出；所述检测头基于卷积层构建。

7、在一些优选的实施方式中，所述第一融合图像特征，其获取方法为：

8、步骤s21、获取所述点特征集合中的点云特征fp在激光雷达坐标上的坐标点p，将所述p在所述多尺度特征上的映射作为关键点坐标pc，以所述pc为指针在所述多尺度特征图上进行搜索，得到对应的多尺度特征图的图像特征fi；

9、步骤s22、在所述pc周围增加区域值poffset，将所述区域值poffset与所述pc的和为指针进行搜索，得到第一融合图像特征f′i：

10、poffset＝rn×sigmoid(w1fp)；

11、p′c＝pc+poffset；

12、其中，所述rn是邻域范围参数，所述w1为可学习权重矩阵，p′c表示区域值poffset与pc的和。

13、在一些优选的实施方式中，所述增强的点云特征，其获取方法为：

14、步骤s31，将所述点特征集合中的点云特征fp、所述图像特征fi和所述f′i，通过多个可学习权重矩阵进行加权处理，得到注意力权重矩阵wattention、w′attention：

15、wattention＝sigmoid(w4tanh(w2fp+w3fi))；

16、w′attention＝sigmoid(w4tanh(w2fp+w3f′i))；

17、其中，w2、w3和w4为可学习权重矩阵；

18、步骤s32，根据所述wattention、所述w′attention、所述fi、所述f′i得到增强的点云特征f′p：

19、f′p＝c(c(wattentionfi∪w′attention f′i)，fp)；

20、其中，c代表特征拼接操作，∪代表取并集操作。

21、在一些优选的实施方式中，所述拼接图像特征fw，其获取方法为：

22、fw＝c(f1+∑deconv(fn))；

23、其中，f1为最大尺度的图像特征，fn为除f1以外的图像特征，deconv代表反卷积操作。

24、在一些优选的实施方式中，所述多模态特征对齐融合的路侧目标检测方法对应的模型，其在训练过程中的损失函数包括分类损失、回归损失和强制一致性损失；

25、其中，所述分类损失采用focal loss函数；通过smooth l1 loss函数优化回归参数，对x轴、y轴和z轴方向这三个参数增加回归损失。

26、在一些优选的实施方式中，提取所述点云数据的多个点特征集合的方法包括pointnet++方法。

27、本发明的另一方面，提出了一种多模态特征对齐融合的路侧目标检测系统，基于一种多模态特征对齐融合的路侧目标检测方法，该系统包括：

28、提取模块，其配置为获取待进行三维目标检测图像及其对应的点云数据；提取所述输入图像的多尺度特征图；提取所述点云数据的多个点特征集合；

29、第一融合模块，其配置为分别将多个点特征集合中的点特征映射在所述多尺度特征图上，得到对应的坐标；根据所述坐标获取区域值，在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征，作为第一融合图像特征；

30、第二融合模块，其配置为将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合，并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接，得到第二融合图像特征，将所述第二融合图像特征与对应的所述点特征集合进行拼接，得到增强的点云特征；

31、结果输出模块，其配置为对各多尺度特征图的图像特征进行反卷积处理，并将反卷积处理后的图像特征进行拼接，得到拼接图像特征，将所述拼接图像与所述增强的点云特征融合，得到多模态特征融合点云；将所述多模态特征融合点云通过检测头生成三维边界框和分类评分，作为三维目标检测结果进行输出；所述检测头基于卷积层构建。

32、本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现一种多模态特征对齐融合的路侧目标检测方法。

33、本发明的第四方面，提出了一种处理装置，包括处理器和存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现一种多模态特征对齐融合的路侧目标检测方法。

34、本发明的有益效果：

35、(1)本发明方法采用搜索对齐的方法，可以补偿不同模态数据存在时空不同步问题对多模态特征融合带来的偏差，具有较高的处理速度，并准确得到检测结果。

36、(2)本发明方法将输入图像通过卷积神经网络得到不同尺度的特征表示，在图像目标区域中寻找关键位置，并给予较高的权重与点云特征信息交互，有效地增强点云特征。

37、(3)本发明方法在特征融合时，引入特征全局信息更新权重，它将底层的计算资源集中在图像中更重要的部分上，更加充分保留了图像语义信息的有效性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王坤峰张书琴王亚东
技术所有人：北京化工大学
我是此专利的发明人

上一篇：基于时空注意力特征融合模型的异常心音检测方法
上一篇：一种林业植物移栽设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。