一种基于实例结构相关性的二维图像中三维目标检测方法

文档序号:32213642发布日期:2022-11-16 06:50阅读:46来源:国知局
一种基于实例结构相关性的二维图像中三维目标检测方法

1.本发明涉及三维目标检测技术领域,尤其涉及一种基于实例结构相关性的二维图像中三维目标检测方法。


背景技术:

2.对三维目标的成像过程会造成深度信息的丢失,点云即是将二维图像中的像素点,依据相机参数映射回三维空间中的点集。与二维目标检测不同,三维目标检测需要恢复物体的深度、尺寸、姿态等信息,因此结构信息的获取十分重要,而点云数据的定义基于三维空间,因此包含大量的结构信息,基于点云的三维目标检测通常可以取得较好的效果。然而点云数据计算量较大,因此该类算法通常复杂度高,同时点云数据中的噪声也会影响检测效果。
3.另一类三维目标检测方法不依赖点云数据,而是直接从二维彩色图像中检测三维目标。这类方法主要借助三维场景中的几何约束,通过基于几何约束的目标函数完成三维检测模型的训练。这类方法由于仅依赖二维图像,因此运算效率高,同时由于缺乏足够的结构信息,导致检测效果不足。为提升检测效果,一些改进的方法引入二维深度图像作为额外输入。与基于点云的方法不同,这类方法不需要直接处理点云数据,而是通过处理降维后的点云数据获取结构信息,因此复杂程度得到了一定的缓解。但此类算法效果严重依赖深度估计算法,且相比于基于二维彩色图像的检测算法,依然具有一定的复杂度。


技术实现要素:

4.本发明的实施例提供了一种基于实例结构相关性的二维图像中三维目标检测方法,以实现有效地检测出二维rgb图像中的三维物体。
5.为了实现上述目的,本发明采取了如下技术方案。
6.一种基于实例结构相关性的二维图像中三维目标检测方法,包括:
7.采集交通场景中的rgb图像集,利用rgb图像集构建训练集与测试集;
8.构建基于卷积神经网络的三维目标检测模型,所述三维目标检测模型包括rgb图像特征提取主干网络、实例结构相关性构建模块和多任务检测分支;
9.利用所述训练集与测试集对所述三维目标检测模型进行训练,通过随机梯度下降算法计算多任务损失函数,对三维目标检测模型中的参数进行更新,直至三维目标检测模型收敛,得到训练好的三维目标检测模型;
10.利用所述训练好的三维目标检测模型对待检测二维rgb图像中的三维物体进行检测。
11.优选地,所述的采集交通场景中的rgb图像集,利用rgb图像集构建训练集与测试集,包括:
12.采集交通场景中的rgb图像集,按照1:1的比例将rgb图像集分成训练集与测试集,对rgb图像中的交通场景中常见物体进行类别标记,对常见物体的位置、尺寸与转角进行标
注,对所有rgb图像进行归一化处理。
13.优选地,所述的构建基于卷积神经网络的三维目标检测模型,所述三维目标检测模型包括rgb图像特征提取主干网络、实例结构相关性构建模块和多任务检测分支,包括:
14.构建基于卷积神经网络的三维目标检测模型,所述三维目标检测模型包括rgb图像特征提取主干网络、实例结构相关性构建模块和多任务检测分支,所述特征提取主干网络包含4个卷积模块,用于提取多层级外观及结构特征,所述实例结构相关性构建模块以实例的结构特征做为输入,构建实例之间的相关性,所述多任务检测分支用于利用分类器对三维目标进行分类,并确定三维目标在二维及三维空间中的位置。
15.优选地,所述的利用所述训练集与测试集对所述三维目标检测模型进行训练,通过随机梯度下降算法计算多任务损失函数,对三维目标检测模型中的参数进行更新,直至三维目标检测模型收敛,得到训练好的三维目标检测模型,包括:
16.步骤s3-1:初始化所述三维目标检测模型的参数,具体包含特征提取主干网络以及分类器与回归器中所包含的卷积层、全连接层与归一化层中的参数;
17.步骤s3-2:设置训练参数,该训练参数包括学习率、冲量、批量大小与迭代次数,采用随机梯度下降算法对三维目标检测模型进行训练;
18.步骤s3-3:计算目标函数值,对于任一迭代批次,将全部图像输入至三维目标检测模型,并得到三维目标检测模型估计的类别、位置、尺寸与深度信息,通过与实际标注值的误差得到目标函数值,三维目标检测模型训练时共计算三种目标函数值:
[0019][0020][0021][0022]
其中公式(1)中的si与pi分别为第i个目标的类别标注与估计概率,公式(2)中的与公式(3)中的分别代表第i个目标的二维估计框与三维估计框,gt表示实际标注值,n表示目标总数;
[0023]
步骤s3-4:将多个目标函数值相加得到总目标函数值,并分别对三维目标检测模型中的所有参数求偏导数,通过随机梯度下降法对参数进行更新;
[0024]
步骤s3-5:重复进行步骤s3-3与步骤3-4,不断更新三维目标检测模型的参数,直至训练过程中的目标函数值不再下降,三维目标检测模型收敛,最后输出训练好的三维目标检测模型参数。
[0025]
优选地,所述的利用所述训练好的三维目标检测模型对待检测二维rgb图像中的三维物体进行检测,包括:
[0026]
将需要检测的二维rgb图像输入到训练好的三维目标检测模型中,通过主干特征提取网络提取所述二维rgb图像的结构特征图r,结构特征图r的维度为c
×h×
w,其中c、h与w分别为维度、高和宽,将特征图r表示为n个c维特征的集合:r=[r1,r2,...,rn]
t
,其中n=h
×
w;在所述结构特征图r中增加位置编码,该位置编码表示物体在二维图像中所处的位置信息;
[0027]
将增加了位置编码的结构特征图r输入到实例结构相关性构建模块,实例结构相关性构建模块根据结构特征图r中的区域与训练标注的区域之间的重合度选取训练实例区域,将训练实例区域中的特征进行平均池化操作,得到该实例的特征向量n=pool(r1,r2,

,ri),其中r1,r2,...,ri为位于该实例内部的特征向量;
[0028]
实例结构相关性构建模块通过多个自注意力分支得到不同维度的自注意力图,整合得到实例之间的结构相关性,在得到全局实例结构相关性后,通过矩阵相乘实现实例结构特征的更新:
[0029][0030]
其中wv为可训练参数矩阵,为归一化系数,j列举全部与实例i相关的实例,为实例i更新后的特征向量,
[0031]
采用残差网络结构将引入位置编码的多头实例结构相关性构建模块表示为:
[0032][0033][0034]
其中ni为实例i的结构特征,pi为其对应的位置编码,yi为经过相关性更新之后的输出特征,为单头自注意力机制,由可训练参数矩阵表示,δ为softmax函数,wy为可训练参数矩阵;
[0035]
多任务检测分支根据相关性更新之后的输出特征获取待检测二维rgb图像中的三维物体的类别和位置信息。
[0036]
由上述本发明的实施例提供的技术方案可以看出,本发明针对三维目标检测任务,提出一种实例结构相关性构建机制,主要用以加强检测目标之间的结构相关性,提升检测目标深度估计的准确性,进而提升三维目标检测的准确性。
[0037]
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0038]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]
图1为本发明实施例提供的一种基于实例结构相关性的二维图像中三维目标检测方法的处理流程图。
[0040]
图2为本发明实施例提供的一种三维目标检测模型的结构图。
[0041]
图3为本发明实施例提供的一种三维目标检测模型训练流程图。
[0042]
图4为本发明实施例提供的一种实例结构相关性结构图。
具体实施方式
[0043]
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0044]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0045]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0046]
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0047]
本发明主要针对三维目标检测任务,提出一种基于图模型的相关性构建方法,所涉及的技术背景主要包括基于点云的三维目标检测,基于二维图像的三维目标检测以及图学习方法。本发明还涉及图学习方法。图是由节点和边构成的一种数据结构,其中边表示节点之间的相关性,也是图学习方法的关键所在。
[0048]
本发明提出了一种基于实例结构相关性的二维图像中三维目标检测方法。该方法以单幅二维彩色图像作为唯一输入,通过卷积神经网络模型得到待检测物体的结构特征,然后通过多头自注意力机制构建待检测物体之间的结构相关性,该结构相关性可有助于提升全局范围内待检测物体的检测准确性。为进一步加强待检测物体之间的结构相关性,该方法还增加了位置编码模块,即通过物体在二维图像中所处的位置构建结构编码,进一步提升目标检测的精度。
[0049]
本发明实施例的基于实例结构相关性的二维图像中三维目标检测方法主要包含以下处理过程:
[0050]
(1)数据集构建:构建三维目标检测模型的训练集与测试集,具体包括采集训练与测试使用的rgb图像,对训练图像中物体的类别、位置、深度、尺寸等值进行标注,并对图像进行预处理。
[0051]
(2)三维目标检测模型构建:构建基于卷积神经网络的一阶段三维目标检测模型,具体包括rgb图像特征提取主干网络,实例结构相关性构建模块,以及多任务检测分支。
[0052]
(3)三维目标检测模型训练:通过计算多任务损失函数,以及随机梯度下降算法,对三维目标检测模型中的参数进行更新直至收敛。
[0053]
(4)对三维目标进行检测:通过提供的彩色图像或视频帧,对其中的三维物体进行检测。
[0054]
本发明实施例提供的一种基于实例结构相关性的二维图像中三维目标检测方法
的流程图如图1所示,其具体包括以下几个步骤:
[0055]
步骤s1:构建训练集与测试集。采集交通场景中的rgb图像集,并按照约1:1的比例将rgb图像集分成训练集与测试集,并对图像道路中的车辆,行人等交通场景中常见物体进行类别标记。除此之外,对物体的位置、尺寸与转角进行标注。最后,对所有rgb图像进行归一化处理。
[0056]
步骤s2:构建三维目标检测模型。本发明实施例提供的一种三维目标检测模型如图2所示。其主要包括特征提取主干网络、实例结构相关性构建模块和多任务检测分支。特征提取主干网络包含4个卷积模块,用于提取多层级外观及结构特征。实例结构相关性构建模块以实例的结构特征做为输入,构建实例之间的相关性,用以提高目标深度估计的准确性,进而提高检测准确性,这也是本发明实施例的关键模块。最后是多任务检测分支,用于利用分类器对三维目标进行分类,并确定三维目标在二维及三维空间中的位置。
[0057]
步骤s3:训练三维目标检测模型。在构建完成三维目标检测模型之后,可通过步骤s1得到的训练集对三维目标检测模型进行训练。三维目标检测模型的训练流程如图3所示,具体包含如下步骤:
[0058]
步骤s3-1:初始化模型参数,具体包含特征提取主干网络以及分类器与回归器中所包含的卷积层、全连接层与归一化层中的参数。
[0059]
步骤s3-2:设置训练参数。本发明中的三维目标检测模型采用随机梯度下降算法(stochastic gradient descnet)进行训练,在训练前需设置相关训练参数,包括学习率、冲量、批量大小与迭代次数。
[0060]
步骤s3-3:计算目标函数值。对于任一迭代批次,将全部图像输入至目标检测模型,并得到其估计的类别、位置、尺寸与深度信息,通过与实际标注值的误差得到目标函数值。三维目标检测模型训练时共计算三种目标函数值:
[0061][0062][0063][0064]
其中公式(1)中的si与pi分别为第i个目标的类别标注与估计概率,公式(2)中的与公式(3)中的分别代表第个目标的二维估计框与三维估计框,gt表示实际标注值,n表示目标总数。
[0065]
步骤s3-4:将多个目标函数值相加得到总目标函数值,并分别对三维目标检测模型中的所有参数求偏导数,然后通过随机梯度下降法对参数进行更新。
[0066]
步骤s3-5:重复进行步骤s3-3与步骤3-4,不断更新三维目标检测模型的参数,直至三维目标检测模型收敛,即训练过程中的目标函数值不再下降。最后输出训练好的三维目标检测模型参数。
[0067]
步骤s4:利用训练好的三维目标检测模型对二维rgb图像中的三维物体进行预测。
[0068]
在得到了训练好的三维目标检测模型的全部参数后,将需要检测的二维图像输入到训练好的三维目标检测模型中,三维目标检测模型检测二维图像中的物体。
[0069]
本发明实施例三维目标检测模型中的关键模块是实例结构相关性构建模块,它可通过深度特征构建实例之间的结构相关性,进而提升整体三维目标检测的准确性。下面进行详细介绍。
[0070]
本发明实施例中的实例结构相关性构建模块流程图如图4所示,其输入为实例的结构特征,通过多个自注意力分支得到不同维度的自注意力图,然后整合得到实例之间的结构相关性,最后通过结构相关性对实例结构特征进行更新,以得到更为准确的实例检测。
[0071]
假设二维rgb输入图像经过主干特征提取网络之后的结构特征图r的维度为c
×h×
w,其中c、h与w分别为维度、高和宽。将特征图r表示为n个c维特征的集合:r=[r1,r2,...,rn]
t
,其中n=h
×
w。由于本发明实施例需要构建实例之间的结构相关性,因此我们需要提取实例的结构信息。具体地,我们根据特征图中的区域与训练标注的区域之间的重合度决定训练实例,当某一区域与某一训练标注区域的重合度高于30%时,即确定特征图中的该区域为训练实例,将训练实例区域中的特征进行平均池化操作,即可得到该实例的特征向量n=pool(r1,r2,...,ri),其中r1,r2,...,ri为位于该实例内部的特征向量。
[0072]
在得到特征图r中全部实例的特征向量后,即可构建实例之间的结构相关性。受当前transformer模型的启发,本发明实施例采用多头自注意力机制构建结构相关性。对于其中每单个自注意力机制,其构建的结构相关性可表示为:
[0073]aij
=softmax(wkni·
wqnj),
ꢀꢀ
(4)
[0074]
其中ni与nj为实例结构特征向量,wk与wq为可训练参数矩阵,其可将结构向量映射到公共空间。a
ij
为实例ni与nj之间的结构相关性矩阵。对于任意输入图像,假设其包含的训练实例个数为n,我们可构建一个尺寸为n
×
n的结构相关性图,该相关性图标记了每一个训练实例均与其余实例存之间的结构相关性。
[0075]
在得到全局实例结构相关性后,我们可通过矩阵相乘实现结构特征的更新:
[0076][0077]
其中wv为可训练参数矩阵,为归一化系数,j列举全部与实例i相关的实例,为实例i更新后的特征向量。最后我们采用残差网络结构,将实例结构相关性模块表示为:
[0078][0079]
其中wy为可训练参数矩阵,则为残差项,yi为输出特征向量。在实际操作过程中,我们将上述公式中的wk、wq、wv、wy采用不含偏移项的卷积操作实现,卷积核尺寸为1
×
1,维度为256。
[0080]
至此,我们已构建完成基于单头自注意力机制的结构相关性构建模块,其可通过变换矩阵将输入的结构特征映射到单一公共空间,并构建结构相关性。由于transformer模型被多项任务证明是一种非常有效的注意力学习机制,因此本项目实施例中将单头自注意力机制扩展至多头,用于构建更优的结构相关性。具体地,我们将上述参数矩阵的wk、wq、wv平均拆分为8个部分,每部分均通过不含偏移项的1
×
1卷积操作实现,且维度为256/8=64。每部分作为单头自注意力机制,将输入结构特征向量映射至特定公共空间,并构建结构相关性。在得到每个单头自注意力机制生成的结构相关性矩阵之后,将其累加整合为一个结
构相关性,经过的wy的变换,即可得到公式(6)中的残差项。
[0081]
为进一步增强实例之间结构相关性,我们增加位置编码。位置编码对于transformer模型具有积极的作用,这主要是受限于transformer的模型结构,使其无法对实例所出的位置做出准确表示。本发明实施例虽然采用了能够获取位置信息的卷积神经网络,但由于本发明实施例的目的是获取实例的结构信息,因此位置编码的引入可以有效地提升结构信息的准确性。具体地,本发明实施例的位置编码通过一维可训练参数向量表示,其维度与训练实例个数一致,并初始化为全零向量。最后,引入位置编码的多头实例结构相关性构建模块可表示为:
[0082][0083][0084]
其中ni为实例i的结构特征,pi为其对应的位置编码,yi为经过相关性更新之后的输出特征,为单头自注意力机制,且由可训练参数矩阵表示,δ为softmax函数。可以看到,我们的结构相关性构建模块完全由可学习参数矩阵构成,而需要任何人为定义的结构关系或假设。
[0085]
三维目标检测模型中的多任务检测分支根据相关性更新之后的输出特征获取待检测二维rgb图像中的三维物体的类别和位置信息。
[0086]
综上所述,本发明实施例创新性地提取实例的深度结构模型,并将其作为输入,采用多头注意力机制构建实例之间的结构相关性。该结构相关性可对输入实例深度特征进行更新,更新后的实例特征能够获得更准确的三维目标估计结果。本发明实施例能够嵌入任何基于深度学习的三维目标检测模型中,同时有助于构建低复杂度的三维目标检测模型,使其可在不依赖深度数据的情况下得到满意的目标检测效果,对无人驾驶等应用领域具有良好的促进作用。
[0087]
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0088]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0089]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0090]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1