目标检测方法、装置、及计算机存储介质与流程

文档序号:26142578发布日期:2021-08-03 14:27阅读:71来源:国知局
目标检测方法、装置、及计算机存储介质与流程

本申请实施例涉及人工智能技术领域,特别涉及一种目标检测方法、装置及计算机存储介质。



背景技术:

目前,传统的图像识别等2d(2-dimension,二维)目标检测仅仅能检测到目标的具体类别以及目标在当前视野区域中的位置,这导致在智能交通等人工智能领域,2d目标检测已经无法提供感知周围环境所需的全部信息,进而使得3d目标检测越来越受到人们的关注。3d目标检测具体是指:不仅检测出目标的类别以及目标在当前视野区域中的位置,还可以检测出目标在三维空间中的长宽高以及旋转角等信息。目前,3d目标检测技术的难点在于如何提高检测出的目标的准确性,也即是,如何使得检测出的目标的相关信息和该目标在实际环境中的信息尽量一致。



技术实现要素:

本申请实施例提供了一种目标检测方法、装置、及计算机存储介质,可以提高3d目标检测中检测出的目标的准确性,进而为智能交通等技术提供有力的数据支持。所述技术方案如下:

一方面,提供了一种目标检测方法,所述方法包括:

基于针对检测区域采集的点云数据,确定所述检测区域的鸟瞰图中的特征,得到点云特征,所述鸟瞰图指示将所述点云数据所指示的三维环境投射到二维空间后的图像,所述点云数据包括激光雷达发射的激光光束投射到的所述检测区域中各个位置点的三维位置信息;

基于所述点云特征,预测点云语义热力图,所述点云语义热力图指示所述点云数据所指示的三维环境中疑似目标的分布情况;

基于所述点云特征和所述点云语义热力图,确定自适应融合特征;

基于所述自适应融合特征进行目标检测,以获取所述检测区域中的目标的信息。

在一种可能的实现方式中,所述方法还包括:

基于针对所述检测区域采集的相机图像,确定所述相机图像中的特征,得到图像特征;

基于所述图像特征,预测图像语义热力图,所述图像语义热力图指示所述相机图像中疑似目标的分布情况;

基于所述点云语义热力图和所述点云特征中的一者或两者、以及所述图像语义热力图和所述图像特征中的一者或两者,确定自适应融合特征;

基于所述自适应融合特征进行目标检测,以获取所述检测区域中的目标的信息。

在一种可能的实现方式中,所述基于所述点云语义热力图和所述点云特征中的一者或两者、以及所述图像语义热力图和所述图像特征中的一者或两者,确定自适应融合特征,包括:

将所述点云语义热力图、所述图像语义热力图中的各自的特征以及所述点云特征分别作为一个通道特征,得到三个通道特征,级联所述三个通道特征得到初始特征;

基于所述初始特征,获取全局上下文特征,所述全局上下文特征指示所述三个通道特征中不同通道特征之间的关联性;

将所述全局上下文特征和所述初始特征叠加,得到所述自适应融合特征。

在一种可能的实现方式中,所述基于所述初始特征,获取全局上下文特征,包括:

获取所述初始特征中每个通道特征的注意力权重,所述注意力权重指示每个通道特征在检测目标过程中的重要程度;

将所述初始特征中每个通道特征的注意力权重和相应通道特征相乘,得到所述全局上下文特征。

在一种可能的实现方式中,所述将所述全局上下文特征和所述初始特征叠加之前,所述方法还包括:

对所述全局上下文特征进行特征转换,以提取所述全局上下文特征中的深度特征,得到转换后的全局上下文特征;

所述将所述全局上下文特征和所述初始特征叠加,得到所述自适应融合特征,包括:

将转换后的全局上下文特征和所述初始特征叠加,得到所述自适应融合特征。

在一种可能的实现方式中,所述基于所述点云特征,预测点云语义热力图,包括:

基于所述点云特征,通过第一热力图预测模型确定所述点云语义热力图。

在一种可能的实现方式中,所述方法还包括:

获取多个样本鸟瞰图以及针对所述多个样本鸟瞰图中每个样本鸟瞰图的标记信息,每个样本鸟瞰图的标记信息指示相应样本鸟瞰图中的目标的位置信息;

获取所述多个样本鸟瞰图中每个样本鸟瞰图中的特征;

基于所述多个样本鸟瞰图中每个样本鸟瞰图中的特征、以及每个样本鸟瞰图的标记信息,对第一初始化模型进行训练,得到所述第一热力图预测模型。

在一种可能的实现方式中,所述基于所述图像特征,确定图像语义热力图,包括:

基于所述图像特征,通过第二热力预测模型确定所述图像语义热力图。

在一种可能的实现方式中,所述方法还包括:

获取多个样本相机图像以及针对所述多个样本相机图像中每个样本相机图像的标记信息,每个样本相机图像的标记信息指示相应样本相机图像中的目标的位置信息;

获取所述多个样本相机图像中每个样本相机图像中的特征;

基于所述多个样本相机图像中每个样本相机图像中的特征、以及每个样本相机图像的标记信息,对第二初始化模型进行训练,得到所述第二热力图预测模型。

另一方面,提供了一种目标检测装置,所述装置包括:

第一确定模块,用于基于针对检测区域采集的点云数据,确定所述检测区域的鸟瞰图中的特征,得到点云特征,所述鸟瞰图指示将所述点云数据所指示的三维环境投射到二维空间后的图像,所述点云数据包括激光雷达发射的激光光束投射到的所述检测区域中各个位置点的三维位置信息;

第一预测模块,用于基于所述点云特征,预测点云语义热力图,所述点云语义热力图指示所述点云数据所指示的三维环境中疑似目标的分布情况;

第二确定模块,用于基于所述点云特征和所述点云语义热力图,确定自适应融合特征;

检测模块,用于基于所述自适应融合特征进行目标检测,以获取所述检测区域中的目标的信息。

在一种可能的实现方式中,所述装置还包括:

第三确定模块,用于基于针对所述检测区域采集的相机图像,确定所述相机图像中的特征,得到图像特征;

第二预测模块,用于基于所述图像特征,预测图像语义热力图,所述图像语义热力图指示所述相机图像中疑似目标的分布情况;

第四确定模块,用于基于所述点云语义热力图和所述点云特征中的一者或两者、以及所述图像语义热力图和所述图像特征中的一者或两者,确定自适应融合特征;

所述检测模块,还用于基于所述自适应融合特征进行目标检测,以获取所述检测区域中的目标的信息。

在一种可能的实现方式中,所述第四确定模块用于:

将所述点云语义热力图、所述图像语义热力图中的各自的特征以及所述点云特征分别作为一个通道特征,得到三个通道特征,级联所述三个通道特征得到初始特征;

基于所述初始特征,获取全局上下文特征,所述全局上下文特征指示所述三个通道特征中不同通道特征之间的关联性;

将所述全局上下文特征和所述初始特征叠加,得到所述自适应融合特征。

在一种可能的实现方式中,所述第四确定模块用于:

获取所述初始特征中每个通道特征的注意力权重,所述注意力权重指示每个通道特征在检测目标过程中的重要程度;

将所述初始特征中每个通道特征的注意力权重和相应通道特征相乘,得到所述全局上下文特征。

在一种可能的实现方式中,所述第四确定模块用于:

对所述全局上下文特征进行特征转换,以提取所述全局上下文特征中的深度特征,得到转换后的全局上下文特征;

将转换后的全局上下文特征和所述初始特征叠加,得到所述自适应融合特征。

在一种可能的实现方式中,所述第一预测模块用于:

基于所述点云特征,通过第一热力图预测模型确定所述点云语义热力图。

在一种可能的实现方式中,所述装置还包括:

第一获取模块,用于获取多个样本鸟瞰图以及针对所述多个样本鸟瞰图中每个样本鸟瞰图的标记信息,每个样本鸟瞰图的标记信息指示相应样本鸟瞰图中的目标的位置信息;

所述第一获取模块,还用于获取所述多个样本鸟瞰图中每个样本鸟瞰图中的特征;

第一训练模块,用于基于所述多个样本鸟瞰图中每个样本鸟瞰图中的特征、以及每个样本鸟瞰图的标记信息,对第一初始化模型进行训练,得到所述第一热力图预测模型。

在一种可能的实现方式中,所述第二预测模块用于:

基于所述图像特征,通过第二热力预测模型确定所述图像语义热力图。

在一种可能的实现方式中,所述装置还包括:

第二获取模块,用于获取多个样本相机图像以及针对所述多个样本相机图像中每个样本相机图像的标记信息,每个样本相机图像的标记信息指示相应样本相机图像中的目标的位置信息;

所述第二获取模块,还用于获取所述多个样本相机图像中每个样本相机图像中的特征;

第二训练模块,用于基于所述多个样本相机图像中每个样本相机图像中的特征、以及每个样本相机图像的标记信息,对第二初始化模型进行训练,得到所述第二热力图预测模型。

另一方面,提供了一种目标检测装置,所述装置包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行上述目标检测方法中的任一步骤。

另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述目标检测方法中的任一步骤。

另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述目标检测方法中任一步骤。

本申请实施例提供的技术方案带来的有益效果至少包括:

在本申请实施例中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。然后基于点云语义热力图和点云特征进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,在本申请实施例中,先根据点云数据对待检测的目标进行一个模糊预测,得到待检测的目标的先验知识,然后基于预测的先验知识结合精确的点云特征,进一步检测目标。这样可以实现检测目标过程中先对目标进行模糊检测,进而进行精确检测,以此提高检测出的目标的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种目标检测系统的架构示意图;

图2是本申请实施例提供的另一种目标检测系统的架构示意图;

图3是本申请实施例提供的一种目标检测方法流程图;

图4是本申请实例提供的一种获取点云特征的示意图;

图5是本申请实施例提供的一种目标检测方法流程图;

图6是本申请实施例提供的一种第二卷积网络的结构示意图;

图7是本申请实施例提供的一种针对示例四的融合特征流程示意图;

图8是本申请实施例提供的一种目标检测装置的结构示意图;

图9是本申请实施例提供的一种终端的结构示意图;

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

应当理解的是,本文提及的“多个”是指两个或两个以上。在本申请的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。

在对本申请实施例进行详细解释说明之前,先对本申请实施例涉及的应用场景进行解释说明。

目前,在智能交通等人工智能技术领域,为了便于精确规划无人驾驶车辆的行驶路线,需要预先对无人驾驶车辆周围的环境进行感知。其中,感知无人驾驶车辆周围的环境具体是指:确定无人驾驶车辆周围的环境中各个障碍物的具体三维空间信息,比如无人驾驶车辆周围的建筑物、绿化带等障碍物的具体三维空间信息,从而基于各个障碍物的具体三维空间信息模拟出一个和实际环境相同的虚拟空间,以便于后续在该虚拟空间中规划该无人驾驶车辆的行驶路线。

显然,在上述智能交通领域中,为了提高无人驾驶车辆的行驶安全性,需要保证模拟出的虚拟空间尽可能的和实际环境相同。为了实现模拟出的虚拟空间尽可能的和实际环境相同,则需要对无人驾驶车辆周围环境的目标进行准确的3d检测。其中,本申请实施例涉及的目标是指进行3d目标检测时需要关注的对象,该需要关注的对象是随着业务需求发生变化的,本申请实施例并不限定目标具体是指什么。比如,在智能交通领域中,目标可以包括路上的行人、车辆以及周围的建筑物等等。

需要说明的是,上述智能交通领域仅仅是本申请实施例提供的目标检测方法的一种示例的应用场景,本申请实施例并不限定目标检测方法的具体应用场景。比如,还可以应用在游戏的虚拟场景的虚拟角色检测中等。

为了实现本申请实施例提供的目标检测方法,本申请实施例还提供了一种目标检测系统,为了后续便于说明,在此先对该目标检测系统进行解释说明。图1是本申请实施例提供的一种目标检测系统的架构示意图。如图1所示,该目标检测系统100包括:点云特征编码器101、图像特征编码器102、点云语义热力图预测模块103、图像语义热力图预测模块104、自适应特征融合模块105以及3d预测模块106。

其中,点云特征编码器101用于基于点云数据获取点云数据中的特征,也即是获取点云特征。点云语义热力图预测模块103用于基于点云特征预测得到点云语义热力图。图像特征编码器102用于基于相机图像获取相机图像中的特征,也即是相机图像特征。图像语义热力图预测模块104用于基于相机图像特征预测得到图像语义热力图。自适应特征融合模块105用于确定自适应融合特征。3d预测模块106用于基于自适应融合特征预测目标。

为了后续便于说明,在此先对语义热力图进行解释说明。语义热力图是指采用特殊颜色标注出图像中的关注对象。比如,在当前的地图类应用程序中,显示的地图中可以通过特殊颜色圈出人口集中的区域。示例地,地图中某个区域的颜色越深表示相应区域人口越集中,颜色越浅代表相应区域人口比较少。通过这种形式的语义热力图可以很直观的看到区域内的人群流量,以便于用户规划自己的行程。应用到本申请实施例中,语义热力图具体可以是指在图像中采用特殊颜色标注出疑似目标的分布情况。

此外,上述点云数据是指针对检测区域采集的点云数据,该点云数据可以通过激光雷达获取。相机图像是指针对该检测区域采集的相机图像,该相机图像可以通过摄像机获取。

需要说明的是,图1所示的目标检测系统100为一软件系统,该系统中包括的模块也均是软件模块。此处仅仅对各个软件模块的功能间作说明,关于各个软件模块的详细实现方式将在后续方法实施例中说明,在此就先不展开说明。

此外,图1所示的目标检测系统可以集中地部署的一个硬件设备上,比如终端或服务器上。可选地,图1所示的目标检测系统中各个软件模块也可以分布式部署在不同的硬件设备上,本申请实施例对此不做限定。

为了实现图1所示的目标检测系统的功能,本申请实施例还提供了另一种目标检测系统。图2是本申请实施例提供的另一种目标检测系统的架构示意图。如图2所示,该目标检测系统200包括激光雷达201、摄像机202以及目标检测设备203。

其中,激光雷达201和摄像机202分别和目标检测设备203连接以进行通信。激光雷达201用于采集点云数据,摄像机202用于采集相机图像,目标检测设备203用于基于点云数据和相机图像实现本申请实施例提供的目标检测方法。

需要说明的是,上述目标检测设备203可以为一终端、也可以为一服务器、或者可以为集成有多个服务器的服务器群,本申请实施例对此不做限定。

基于图1和图2所示的目标检测系统,下面对本申请实施例涉及的目标检测方法进行详细说明。该方法具体可以应用于图2所示的目标检测设备中。图3是本申请实施例提供的一种目标检测方法流程图。如图3所示,该方法包括如下几个步骤。

步骤301:基于针对检测区域采集的点云数据,目标检测设备确定检测区域的鸟瞰图中的特征,得到点云特征。其中,该鸟瞰图指示将点云数据所指示的三维环境投射到二维空间后的图像,该点云数据包括激光雷达发射的激光光束投射到的检测区域中各个位置点的三维位置信息。

具体地,步骤301可以通过图1中的软件模块点云特征编码器来实现。

在一种可能的实现方式中,为了使得获取的点云特征能够指示点云数据中的更多特征,点云特征编码器可以先基于点云数据确定检测区域的鸟瞰图,然后基于第一卷积网络提取该鸟瞰图中的特征,得到的特征即为点云特征。

需要说明的是,上述基于点云数据确定检测区域的鸟瞰图可以通过鸟瞰图的相关技术来实现,本申请实施例对此不做限定。示例地,对于获取的点云数据,可以先采用全连接网络学习该点云数据中的高维点特征,该高维点特征包括检测区域中每个位置点在垂直地面方向上所有的点云数据中的特征。然后将各个位置点上的高维点特征按体素大小vx、vy沿平行于地面方向的x、y轴分组,相当于对点检测区域进行了网格化,每个网格的大小为vx×vy。对于任一网格,基于分布在该网格内的各个位置点的高维点特征,采用最大池化运算将该网格内的各个位置点的高维点特征合并为一个位置点的高维点特征,该合并后的一个位置点的高维点特征即可作为检测区域在该网格处的高维点特征,该网格处的高维点特征还可以称为该网格处的支柱特征。然后将编码后的支柱特征散射回原始的支柱位置(原始的支柱位置也即是相应网格的位置),从而得到伪图像,该伪图像即为检测区域的鸟瞰图。

图4是本申请实例提供的一种获取点云特征的示意图。如图4所示,点云数据在经过上述处理后,便可得到图4中的鸟瞰图,鸟瞰图包括多个网格,每个网格对应一个支柱特征。

另外,目标检测设备在获取点云数据后,通常并不确定该点云数据是针对检测区域采集的点云数据,因此目标检测设备还可以先对获取的点云数据进行裁剪,以得到针对检测区域采集的点云数据。具体地,根据检测区域所对应的三维位置范围l、w、h(l为检测区域的长度、w为检测区域的宽度、h为检测区域的高度),从获取的点云数据中获取位于三维位置范围内的点云数据,即可实现对点云数据的裁剪。然后利用裁剪后的点云数据确定鸟瞰图。

上述检测区域所对应的三维位置范围l、w、h可以由用户基于业务需求指定,本申请实施例对此不做限定。

另外,上述第一卷积网络可以为深度2d卷积网络。这种场景下,基于第一卷积网络提取该鸟瞰图中的特征,得到点云特征的实现方式可以为:使用深度2d卷积网络对该鸟瞰图中的特征进行进一步提取。该深度2d卷积网络的结构如图4所示。对输入的鸟瞰图依次进行3个卷积,卷积步长均为2,得到三种不同尺度的特征,并对这三个尺度的特征进行反卷积,将其恢复到同一尺度,然后将三个特征图进行级联,得到级联特征,该级联特征即为需要的点云特征。

需要说明的是,图4中的深度2d卷积网络仅仅是本申请实施例提供的第一卷积网络的一种示例,本申请实施例并不限定第一卷积网络的具体结构,只需通过第一卷积网络能够提取鸟瞰图中的深度特征即可。

此外,卷积网络采用原始图像作为输入,可以有效的从大量样本中学习到相应地特征,避免了复杂的特征提取过程。由于卷积网络可以直接对二维图像进行处理,通过简单的非线性模型从原始图像中提取出更加抽象的特征,在整个过程中只需少量的人工参与。因此,在本申请实施例中,采用第一卷积网络提取鸟瞰图中的特征。可选地,本申请实施例也可以采用其他特征提取方式提取鸟瞰图中的特征,在此不再一一举例说明。

步骤302:基于点云特征,目标检测设备预测点云语义热力图,该点云语义热力图指示该点云数据所指示的三维环境中疑似目标的分布情况。

具体地,步骤302可以通过图1中的软件模块点云语义热力图预测模块来实现。

在一种可能的实现方式中,为了能够准确预测点云数据所指示的三维环境中疑似目标的分布情况,可以预先训练一个第一热力图预测模型,第一热力图预测模型用于基于点云数据识别待检测目标的大致分布情况。这种场景下,步骤302的实现过程具体为:基于步骤301得到的点云特征,通过第一热力图预测模型确定点云语义热力图。也即是,将步骤301得到的点云特征输入至第一热力图预测模型,第一热力图预测模型对该点云特征进行一系列处理之后,便可得到点云语义热力图。

需要说明的是,第一热力图预测模型是预先训练得到。在一种可能的实现方式中,训练第一热力图预测模型的过程可以为:获取多个样本鸟瞰图以及针对多个样本鸟瞰图中每个样本鸟瞰图的标记信息。其中,每个样本鸟瞰图的标记信息指示相应样本鸟瞰图中的目标的位置信息。获取多个样本鸟瞰图中每个样本鸟瞰图中的特征,基于多个样本鸟瞰图中每个样本鸟瞰图中的特征、以及每个样本鸟瞰图的标记信息,对第一初始化模型进行训练,得到第一热力图预测模型。

上述多个样本鸟瞰图以及样本鸟瞰图中的特征均可以通过前述步骤301中的点云特征的相关实现方式来确定,在此不再赘述。此外,每个样本鸟瞰图的标记信息是由用户预先人工标记的,该标记信息的主要功能在于:在第一初始化模型进行训练的过程中,不断调整第一初始化模型中的参数,以使训练后的第一热力图预测模型对样本鸟瞰图中的特征进行预测后得到预测目标分布情况和样本鸟瞰图对应的标记信息所指示的目标的位置信息尽量一致。

需要说明的是,上述训练第一热力图预测模型的过程仅仅是一种示例的训练过程,本申请实施例对如何训练得到第一热力图预测模型的过程并不限定。

另外,点云特征与要预测的点云语义热力图可能存在尺度不匹配的情况。这种场景下,在得到点云特征后,还可以使用反卷积网络将点云特征映射到和要预测的点云语义热力图同样的尺度。在得到同样尺度的点云特征后,再使用上述第一热力图预测模型预测点云语义热力图。

步骤303:基于该点云特征和该点云语义热力图,目标检测设备确定自适应融合特征。

具体地,上述步骤303可以通过图1中的自适应特征融合模块来实现。

在一种可能的实现方式中,为了实现将点云特征和该点云语义热力图进行有效融合,而不是简单地将两类特征直接叠加得到融合特征,步骤303的实现过程可以为:将点云特征和点云语义热力图中的特征分别作为一个通道特征,得到两个通道特征,级联这二个通道特征得到初始特征。基于该初始特征,获取全局上下文特征,该全局上下文特征指示这两个通道特征中不同通道特征之间的关联性。将该全局上下文特征和该初始特征叠加,便可得到自适应融合特征。

也即是,将考虑了各个通道之间的关联性的全局上下文特征和初始特征进行叠加,来作为自适应融合特征,从而使得自适应融合特征更够表征检测区域的更多的特征,以提高后续基于自适应融合特征进行3d目标检测的效率。

其中,基于该初始特征,获取全局上下文特征的实现过程可以为:获取该初始特征中每个通道特征的注意力权重,该注意力权重指示每个通道特征在检测目标过程中的重要程度;将该初始特征中每个通道特征的注意力权重和相应通道特征相乘,即可得到全局上下文特征。

其中,该初始特征中每个通道特征的注意力权重可以通过一个1×1的卷积网络和softmax函数(归一化函数)来确定。可选地,该初始特征中每个通道特征的注意力权重也可以通过其他方式来获取,本申请实施例对此不做限定。

在此对注意力权重进行解释说明。注意力权重可以简单地理解为一种占比值。比如,三人完成一项任务,第一人贡献40%,第二人贡献30%,第三人贡献30%。本例中的贡献百分比即可理解为注意力权重。相应的在本申请实施例中,例如,现有点云特征、图像语义热力图、点云语义热力图,这三者特征对于目标检测的贡献是不一样的,所以可以利用注意力权重来衡量以上三者的贡献程度。值得注意的是,本申请实施例中的注意力权重不是人工给定,而是设备本身根据实际数据进行自主学习得到(比如上述通过一个1×1的卷积网络和softmax函数来确定),故此,本申请实施例称此方法为自适应特征融合。

此外,为了使得融合后的自适应融合特征能够表征更多的信息,在将全局上下文特征和初始特征叠加之前,还可以先对全局上下文特征进行特征转换,以提取全局上下文特征中的深度特征,得到转换后的全局上下文特征;然后将转换后的全局上下文特征和初始特征叠加,得到自适应融合特征。

示例地,可以将全局上下文特征经过1x1卷积、层正规化、relu(线性整流函数,rectifiedlinearunit)非线性函数以及1x1卷积进行特征转换,从而提取全局上下文特征中的深度特征。前述第一次的1x1卷积用于降低特征通道数,从而加速模型推理时间。层正规化用于防止过拟合。relu是一种非线性函数,用于学习更好地拟合函数。第二次的1x1卷积用于将降低的特征通道数转换为原尺度,便于与原尺度特征结合。

此外,前述1x1卷积、层正规化、relu非线性函数的处理过程均可以参考相应技术,本申请实施例对此不做详细说明。

步骤304:目标检测设备基于该自适应融合特征进行目标检测,以获取该检测区域中的目标的信息。

在通过步骤303得到自适应融合特征后,便可基于该自适应融合特征进行目标检测,以获取该检测区域中的目标的信息,从而完成3d目标检测。

其中,检测区域中的目标的信息包括识别出目标所属的类别、目标所在的区域框,针对该区域框还可以标记区域框的中心点坐标、以及该区域框的长、宽、高等三维位置信息。

示例地,在智能交通领域,目标所属的类别可以为机动车、非机动车、行人等等。

此外,在步骤304中,可以通过1x1卷积来进行目标检测。也即是,将自适应融合特征输入至一个1x1卷积的卷积网络,通过该卷积网络实现目标检测。

在本申请实施例中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。然后基于点云语义热力图和点云特征进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,在本申请实施例中,先根据点云数据对待检测的目标进行一个模糊预测,得到待检测的目标的先验知识,然后基于预测的先验知识结合精确的点云特征,进一步检测目标。这样可以实现检测目标过程中先对目标进行模糊检测,进而进行精确检测,以此提高检测出的目标的准确性。

在图3所示的实施例中,是对点云特征和点云语义热力图进行融合得到自适应融合特征。可选地,在本申请实施例中,还可以结合除了点云数据以外的其他数据源譬如相机图像来确定自适应融合特征,以使自适应融合特征能够表征检测区域的更多信息,从而提高检测出的目标的准确性。基于此,本申请实施例还提供了另一种目标检测方法,该目标检测方法中同时参考了点云数据和相机图像来确定自适应融合特征。下面对该方法进行详细解释说明。

图5是本申请实施例提供的一种目标检测方法流程图。如图5所示,该方法包括如下几个步骤。

步骤501:基于针对检测区域采集的点云数据,目标检测设备确定检测区域的鸟瞰图中的特征,得到点云特征,鸟瞰图指示将点云数据所指示的三维环境投射到二维空间后的图像,点云数据包括激光雷达发射的激光光束投射到的检测区域中各个位置点的三维位置信息。

步骤502:基于点云特征,目标检测设备预测点云语义热力图,点云语义热力图指示点云数据所指示的三维环境中疑似目标的分布情况。

步骤501和步骤502已经在图3所示的实施例中详细说明,在此不再赘述。

步骤503:基于针对检测区域采集的相机图像,目标检测设备确定相机图像中的特征,得到图像特征。

具体地,步骤503可以通过图1中的软件模块图像特征编码器来实现。

在一种可能的实现方式中,为了获取相机图像中的深度特征,可以基于第二卷积网络来提取相机图像中的特征,得到图像特征。也即是,将相机图像输入至第二卷积网络,第二卷积网络的输出便是该相机图像的图像特征。

示例地,第二卷积网络可以为图6所示的图像网络hrnet(high-resoultionnet,高分辨率网络)。hrnet可以在整个提取图像特征的过程中保持高分辨率的表示,使得图像特征不会有损失,有利于预测实际空间中图像语义热力图。如图6所示,hrnet在第一阶段从一个高分辨率分支开始。在接下来的每个阶段,一个新的分支将被并行地添加到当前分支中,新分支的分辨率是当前分支中最低分辨率的1/2。由于网络有更多的阶段,它将有更多的并行分支,具有不同的分辨率,并且前一阶段的分辨率在后期都被保留。最后多个分支的特征被恢复到同样的尺度,并进行级联得到最后的图像特征。

需要说明的是,图6仅仅是第二卷积网络的一种示例的网络结构,本申请实施例对第二卷积网络的具体结构不做限定。

基于步骤301中的论述可知,卷积网络采用原始图像作为输入,可以有效的从大量样本中学习到相应地特征,避免了复杂的特征提取过程。由于卷积网络可以直接对二维图像进行处理,通过简单的非线性模型从原始图像中提取出更加抽象的特征,在整个过程中只需少量的人工参与。因此,在本申请实施例中,采用第二卷积网络提取鸟瞰图中的特征。需要说明的是,此处的第二卷积网络和步骤301中的第一卷积网络没有特殊含义,仅仅是用于区分两个不同的卷积网络而已。

可选地,在本申请实施例中,可以通过其他特征提取方式获取相机图像的图像特征,而不限于上述基于第二卷积网络来实现,本申请实施例对此同样做不做限定。

步骤504:基于图像特征,目标检测设备确定图像语义热力图,图像语义热力图指示相机图像中疑似目标的分布情况。

具体地,步骤504可以通过图1中的软件模块图像语义热力图预测模块来实现。

在一种可能的实现方式中,为了能够准确预测相机图像中疑似目标的分布情况,可以预先训练一个第二热力图预测模型,第二热力图预测模型用于基于相机图像识别待检测目标的大致分布情况。这种场景下,步骤504的实现过程具体为:基于步骤503中得到的图像特征,通过第二热力预测模型确定图像语义热力图。也即是,将步骤503得到的图像特征输入至第二热力图预测模型,第二热力图预测模型对该图像特征进行一系列处理之后,便可得到图像语义热力图。

需要说明的是,第二热力图预测模型是预先训练得到。在一种可能的实现方式中,训练第二热力图预测模型的过程可以为:获取多个样本相机图像以及针对多个样本相机图像中每个样本相机图像的标记信息,每个样本相机图像的标记信息指示相应样本相机图像中的目标的位置信息;获取多个样本相机图像中每个样本相机图像中的特征;基于多个样本相机图像中每个样本相机图像中的特征、以及每个样本相机图像的标记信息,对第二初始化模型进行训练,得到第二热力图预测模型。

上述样本相机图像中的特征均可以通过前述步骤503中的图像特征的相关实现方式来确定,在此不再赘述。此外,每个样本相机图像的标记信息是由用户预先人工标记的,该标记信息的主要功能在于:在第二初始化模型进行训练的过程中,不断调整第二初始化模型中的参数,以使训练后的第二热力图预测模型对样本相机图像中的特征进行预测后得到预测目标分布情况和样本相机图像对应的标记信息所指示的目标的位置信息尽量一致。

需要说明的是,上述训练第二热力图预测模型的过程仅仅是一种示例的训练过程,本申请实施例对如何训练得到第二热力图预测模型的过程并不限定。

另外,图像特征与要预测的图像语义热力图可能存在尺度不匹配的情况。这种场景下,在得到图像特征后,还可以使用反卷积网络将图像特征映射到和要预测的图像语义热力图同样的尺度。在得到同样尺度的图像特征后,再使用上述第二热力图预测模型预测图像语义热力图。

此外,由于点云特征通常比图像特征包括的信息更为丰富,因此基于点云特征预测得到的点云语义热力图中的目标的分布情况相对于基于图像特征预测得到的图像语义热力图中的目标的分布情况更为准确。也即是,通过图像语义热力图只能模糊预测目标的大概分布情况。因此,为了加快上述第二热力图预测模型的训练过程,可以在训练第二热力图预测模型时,对训练需要满足的条件设置的不那么严格。比如,在训练第一热力图预测模型时,需要预测值和真实值之间的误差在第一误差内,才会确定训练完成。但是在训练第二热力图预测模型时,只需要预测值和真实值之间的误差在大于第一误差的第二误差内,就可以确定训练完成。也即是,在训练第二热力图预测模型时,需要对预测的真值施加高斯模糊。

步骤505:基于点云语义热力图和点云特征中的一者或两者、以及图像语义热力图和图像特征中的一者或两者,目标检测设备确定自适应融合特征。

具体地,步骤505可以包括以下几种示例。

示例一:基于点云语义热力图和图像语义热力图,目标检测设备确定自适应融合特征。

在示例一中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。同时还根据针对检测区域采集的相机图像,预测一个图像语义热力图,该图像语义热力图也能够指示待检测的目标的大致分布情况。然后基于两个语义热力图进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例一中,先根据不同的数据源,对待检测的目标分别进行一个模糊预测,得到待检测的目标在不同数据源下的先验知识,然后基于不同数据源下的先验知识,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于不同数据源下针对待检测目标的先验知识,进一步检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而进行精确检测,同样可以提高检测出的目标的准确性。

示例一的具体实现方式可以参考图3实施例中的步骤303,区别在于示例一种是将点云语义热力图中的特征和图像语义热力图中的特征分别作为一个通道特征,得到两个通道特征,然后对这两个通道特征进行融合,得到自适应融合特征。因此,在此对示例一的具体实现方式不再详细说明。

示例二:基于点云语义热力图和图像特征,目标检测设备确定自适应融合特征。

在示例二中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。同时还根据针对检测区域采集的相机图像,确定相机图像的相机特征。然后基于点云语义热力图和图像特征进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例二中,先根据点云数据,对待检测的目标进行一个模糊预测,得到待检测的目标在点云数据下的先验知识,然后融合相机图像特征,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于点云数据下针对待检测目标的先验知识,进一步融合图像特征检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而进行精确检测,同样可以提高检测出的目标的准确性。

示例二的具体实现方式可以参考图3实施例中的步骤303,区别在于示例二种是将点云语义热力图中的特征和图像特征分别作为一个通道特征,得到两个通道特征,然后对这两个通道特征进行融合,得到自适应融合特征。因此,在此对示例二的具体实现方式不再详细说明。

示例三:基于图像语义热力图和点云特征,目标检测设备确定自适应融合特征。

在示例三中,根据针对检测区域采集的相机图像,预测一个图像语义热力图,该图像语义热力图能够指示待检测的目标的大致分布情况。同时还根据针对检测区域采集的点云数据,确定点云特征。然后基于图像语义热力图和点云特征进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例三中,先根据相机图像,对待检测的目标进行一个模糊预测,得到待检测的目标在相机图像下的先验知识,然后融合点云特征,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于相机图像下针对待检测目标的先验知识,进一步融合点云检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而进行精确检测,同样可以提高检测出的目标的准确性。

示例三的具体实现方式可以参考图3实施例中的步骤303,区别在于示例三种是将图像语义热力图中的特征和点云特征分别作为一个通道特征,得到两个通道特征,然后对这两个通道特征进行融合,得到自适应融合特征。因此,在此对示例三的具体实现方式不再详细说明。

示例四:基于点云语义热力图、图像语义热力图、以及点云特征,目标检测设备确定自适应融合特征。

在示例四中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。同时还根据针对检测区域采集的相机图像,预测一个图像语义热力图,该图像语义热力图也能够指示待检测的目标的大致分布情况。然后基于两个语义热力图和点云数据下的点云特征三者进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例四中,先根据不同的数据源,对待检测的目标分别进行一个模糊预测,得到待检测的目标在不同数据源下的先验知识,然后基于不同数据源下的先验知识融合点云特征,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于不同数据源下针对待检测目标的先验知识融合精细的点云数据,进一步检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而基于融合点云特征进行精确检测,同样可以提高检测出的目标的准确性。

示例四的具体实现方式可以参考图3实施例中的步骤303,区别在于示例四种是将点云语义热力图中的特征、图像语义热力图中的特征和点云特征分别作为一个通道特征,得到三个通道特征,然后对这三个通道特征进行融合,得到自适应融合特征。

示例五:基于点云语义热力图、图像语义热力图、以及图像特征,目标检测设备确定自适应融合特征。

在示例五中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。同时还根据针对检测区域采集的相机图像,预测一个图像语义热力图,该图像语义热力图也能够指示待检测的目标的大致分布情况。然后基于两个语义热力图和相机图像下的图像特征三者进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例四中,先根据不同的数据源,对待检测的目标分别进行一个模糊预测,得到待检测的目标在不同数据源下的先验知识,然后基于不同数据源下的先验知识融合图像特征,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于不同数据源下针对待检测目标的先验知识融合相机图像中的图像特征,进一步检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而基于融合图像特征进行精确检测,同样可以提高检测出的目标的准确性。

示例五的具体实现方式可以参考图3实施例中的步骤303,区别在于示例五种是将点云语义热力图中的特征、图像语义热力图中的特征和图像特征分别作为一个通道特征,得到三个通道特征,然后对这三个通道特征进行融合,得到自适应融合特征。

示例六:基于点云语义热力图、图像特征、以及点云特征,目标检测设备确定自适应融合特征。

在示例六中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。然后基于点云语义热力图和相机图像下的图像特征、以及点云特征三者进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例六中,先根据点云数据,对待检测的目标分别进行一个模糊预测,然后基于不同数据源下的图像特征和点云特征融合前述的模糊预测,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于点云数据下针对待检测目标的先验知识融合相机图像中的图像特征以及点云特征,进一步检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而基于融合图像特征和点云特征进行精确检测,同样可以提高检测出的目标的准确性。

示例六的具体实现方式可以参考图3实施例中的步骤303,区别在于示例六种是将点云语义热力图中的特征、图像特征、以及点云特征分别作为一个通道特征,得到三个通道特征,然后对这三个通道特征进行融合,得到自适应融合特征。

示例七:基于图像语义热力图、图像特征、以及点云特征,目标检测设备确定自适应融合特征。

在示例七中,根据针对检测区域采集的相机图像,预测一个图像语义热力图,该图像语义热力图能够指示待检测的目标的大致分布情况。然后基于图像语义热力图和相机图像下的图像特征、以及点云特征三者进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例七中,先根据相机图像,对待检测的目标分别进行一个模糊预测,然后基于不同数据源下的图像特征和点云特征融合前述的模糊预测,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于相机图像下针对待检测目标的先验知识融合相机图像中的图像特征以及点云特征,进一步检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而基于融合图像特征和点云特征进行精确检测,同样可以提高检测出的目标的准确性。

示例七的具体实现方式可以参考图3实施例中的步骤303,区别在于示例七种是将图像语义热力图中的特征、图像特征、以及点云特征分别作为一个通道特征,得到三个通道特征,然后对这三个通道特征进行融合,得到自适应融合特征。

示例八:基于点云语义热力图、图像语义热力图、以及图像特征和点云特征,目标检测设备确定自适应融合特征。

在示例八中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。同时还根据针对检测区域采集的相机图像,预测一个图像语义热力图,该图像语义热力图也能够指示待检测的目标的大致分布情况。然后基于两个语义热力图和点云数据下的点云特征以及相机图像的图像特征三者进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,示例八中,先根据不同的数据源,对待检测的目标分别进行一个模糊预测,得到待检测的目标在不同数据源下的先验知识,然后基于不同数据源下的先验知识融合点云特征和图像特征,进一步检测目标。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于不同数据源下针对待检测目标的先验知识融合精细的点云数据和普通的图像特征,进一步检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而基于融合点云特征和图像特征进行精确检测,同样可以提高检测出的目标的准确性。

示例八的具体实现方式可以参考图3实施例中的步骤303,区别在于示例八种是将点云语义热力图中的特征、图像语义热力图中的特征和点云特征以及图像特征分别作为一个通道特征,得到四个通道特征,然后对这四个通道特征进行融合,得到自适应融合特征。

需要说明的是,上述步骤505中基于点云语义热力图和点云特征中的一者或两者、以及图像语义热力图和图像特征中的一者或两者进行融合,除了包括以上八个示例外,可选地,还可以仅仅将图像特征和点云特征进行融合。但是这种场景下,没有先进行模糊预测再进行精细预测,导致后续检测目标不是很准确。

需要说明的是,在上述几个示例中,在示例四中,不仅同时考虑了不同数据源下模糊预测,同时还融合的精细的点云特征进一步进行精确预测,因此相对于图3所示的实施例以及前述的示例一至示例三以及其他的三通道融合,示例四后续预测的目标更为准确。此外,相对于四通道特征的融合,示例四中的三通道融合过程效率会高些,因此,在应用本申请实施例时,可以先考虑使用示例四确定自适应用融合特征。

图7是本申请实施例提供的一种针对示例四的融合特征流程示意图。如图7所示,获得3种特征(点云语义热力图、图像语义热力图、点云特征)后,需要将此3种特征进行有效地融合,才能使得算法的性能更加优良。此时,图1中的自适应特征融合模块的功能就是为了达到有效融合3中特征的目的。该自适应特征融合模块将3种特征视为不同的通道,为不同的通道赋予不同的权重,达到有效融合的目的。

具体步骤如下:

a)首先将3种特征进行级联,即将不同的特征作为不同的通道,组成初始特征;

b)全局注意力池:初始特征作为输入,采用一个1x1的卷积和softmax函数获得各个通道的注意力权重,然后将各个通道的注意力权重与初始特征中各个通道特征相乘得到全局上下文特征;

c)将全局上下文特征经过1x1卷积、层正规化、relu非线性函数以及1x1卷积进行特征转换,从而得到转换后的全局上下文特征;

d)将转换后的全局上下文特征与初始特征逐元素的相加得到自适应融合特征。注意此处的逐元素相加的含义为将两种特征对应通道的元素逐个进行相加。

上述接步骤可以具体通过如下公式实现:

其中,zi表示自适应融合特征,xi表示初始特征,表示全局上下文特征,表示转换后的全局上下文特征。

步骤506:目标检测设备基于自适应融合特征进行目标检测,以获取检测区域中的目标的信息。

上述步骤506的实现方式可以参考图3实施例中的步骤304,在此不再赘述。

在本申请实施例中,在图3所示的实施例的基础上,还考虑了其他数据源相机图像。由于检测目标所依据的数据源不仅包括点云数据,还包括相机图像,因此检测目标所依据的信息更为全面,进而能够使得检测出的目标更为准确。此外,基于不同数据源下中至少一个数据源下针对待检测目标的先验知识融合其他特征,进一步检测目标,这样可以实现检测目标过程中先对目标进行模糊检测,进而基于融合其他特征进行精确检测,同样可以提高检测出的目标的准确性。

上述所有可选技术方案,均可按照任意结合形成本申请的可选实施例,本申请实施例对此不再一一赘述。

综上所述,基于图3所示的实施例,本申请实施例实现了点云语义热力图与点云特征自适应融合的3d检测方法。基于图5所示的实施例,本申请实施例实现了点云语义图的精确预测与图像语义图的模糊预测,并利用全局上下文信息对不同数据源下的特征进行自适应融合,最后进行准确的3d目标预测。

也即是,本申请实施例设计了一种自适应特征融合模块,使得3d检测算法能够自学习各种不同源特征的重要性,为多传感器的协同感知提供有利的技术支持。此外,还设计了点云语义热力图与点云特征融合的技术,使得3d检测有效地获得空间语义信息。另外,设计了点云语义热力图预测模块与图像语义热力图预测模块,从不同源的数据获得语义特征,从而有效获得充分的语义信息。

图8是本申请实施例提供的一种目标检测装置的结构示意图。如图8所示,该装置800包括如下几个模块。

第一确定模块801,用于基于针对检测区域采集的点云数据,确定检测区域的鸟瞰图中的特征,得到点云特征,鸟瞰图指示将点云数据所指示的三维环境投射到二维空间后的图像,点云数据包括激光雷达发射的激光光束投射到的检测区域中各个位置点的三维位置信息;

第一预测模块802,用于基于点云特征,预测点云语义热力图,点云语义热力图指示点云数据所指示的三维环境中疑似目标的分布情况;

第二确定模块803,用于基于点云特征和点云语义热力图,确定自适应融合特征;

检测模块804,用于基于自适应融合特征进行目标检测,以获取检测区域中的目标的信息。

在一种可能的实现方式中,该装置还包括:

第三确定模块,用于基于针对检测区域采集的相机图像,确定相机图像中的特征,得到图像特征;

第二预测模块,用于基于图像特征,预测图像语义热力图,图像语义热力图指示相机图像中疑似目标的分布情况;

第四确定模块,用于基于点云语义热力图和点云特征中的一者或两者、以及图像语义热力图和图像特征中的一者或两者,确定自适应融合特征;

检测模块,还用于基于自适应融合特征进行目标检测,以获取检测区域中的目标的信息。

在一种可能的实现方式中,第四确定模块用于:

将点云语义热力图、图像语义热力图中的各自的特征以及点云特征分别作为一个通道特征,得到三个通道特征,级联三个通道特征得到初始特征;

基于初始特征,获取全局上下文特征,全局上下文特征指示三个通道特征中不同通道特征之间的关联性;

将全局上下文特征和初始特征叠加,得到自适应融合特征。

在一种可能的实现方式中,第四确定模块用于:

获取初始特征中每个通道特征的注意力权重,注意力权重指示每个通道特征在检测目标过程中的重要程度;

将初始特征中每个通道特征的注意力权重和相应通道特征相乘,得到全局上下文特征。

在一种可能的实现方式中,第四确定模块用于:

对全局上下文特征进行特征转换,以提取全局上下文特征中的深度特征,得到转换后的全局上下文特征;

将转换后的全局上下文特征和初始特征叠加,得到自适应融合特征。

在一种可能的实现方式中,第一预测模块用于:

基于点云特征,通过第一热力图预测模型确定点云语义热力图。

在一种可能的实现方式中,该装置还包括:

第一获取模块,用于获取多个样本鸟瞰图以及针对多个样本鸟瞰图中每个样本鸟瞰图的标记信息,每个样本鸟瞰图的标记信息指示相应样本鸟瞰图中的目标的位置信息;

第一获取模块,还用于获取多个样本鸟瞰图中每个样本鸟瞰图中的特征;

第一训练模块,用于基于多个样本鸟瞰图中每个样本鸟瞰图中的特征、以及每个样本鸟瞰图的标记信息,对第一初始化模型进行训练,得到第一热力图预测模型。

在一种可能的实现方式中,第二预测模块用于:

基于图像特征,通过第二热力预测模型确定图像语义热力图。

在一种可能的实现方式中,该装置还包括:

第二获取模块,用于获取多个样本相机图像以及针对多个样本相机图像中每个样本相机图像的标记信息,每个样本相机图像的标记信息指示相应样本相机图像中的目标的位置信息;

第二获取模块,还用于获取多个样本相机图像中每个样本相机图像中的特征;

第二训练模块,用于基于多个样本相机图像中每个样本相机图像中的特征、以及每个样本相机图像的标记信息,对第二初始化模型进行训练,得到第二热力图预测模型。

在本申请实施例中,根据针对检测区域采集的点云数据,预测一个点云语义热力图,该点云语义热力图能够指示待检测的目标的大致分布情况。然后基于点云语义热力图和点云特征进行特征融合,得到自适应融合特征,进而根据自适应融合特征检测目标。也即是,在本申请实施例中,先根据点云数据对待检测的目标进行一个模糊预测,得到待检测的目标的先验知识,然后基于预测的先验知识结合精确的点云特征,进一步检测目标。这样可以实现检测目标过程中先对目标进行模糊检测,进而进行精确检测,以此提高检测出的目标的准确性。

需要说明的是:上述实施例提供的目标检测装置在进行目标检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的目标检测装置与目标检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图9是本申请实施例提供的一种终端900的结构示意图。前述实施例中的目标检测设备均可以通过图9所示的实施例来实现。该终端900可以是:智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,终端900包括有:处理器901和存储器902。

处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的目标检测方法。

在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路904用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏905用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件908可以是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3d动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商logo时,指纹传感器914可以与物理按键或厂商logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。

接近传感器916,也称距离传感器,通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行上实施例提供的目标检测方法。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在终端上运行时,使得终端执行上述实施例提供的目标检测方法。

图10是本申请实施例提供的一种服务器的结构示意图。前述实施例中的目标检测设备均可以通过图10所示的实施例来实现。该服务器可以是后台服务器集群中的服务器。具体来讲:

服务器1000包括中央处理单元(cpu)1001、包括随机存取存储器(ram)1002和只读存储器(rom)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者cd-rom驱动器之类的计算机可读介质(未示出)。

不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom、eeprom、闪存或其他固态存储其技术,cd-rom、dvd或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例,服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由cpu执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的目标检测方法的指。

本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述实施例提供的目标检测方法。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在服务器上运行时,使得服务器执行上述实施例提供的目标检测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请实施例的较佳实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1