通过回归分析从2D边界框获取伪3D框的方法以及使用该方法的学习装置和测试装置与流程

文档序号:17363842发布日期:2019-04-09 22:17阅读:652来源:国知局
通过回归分析从2D边界框获取伪3D框的方法以及使用该方法的学习装置和测试装置与流程

本发明涉及一种通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置。更具体地,涉及一种用于从训练图像中的2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置,该方法包括以下步骤:(a)获取包括由2d边界框界定的对象的训练图像;(b)执行(i)通过参考与伪3d朝向的各个模式相对应的概率的信息对对象的伪3d朝向进行分类的过程和(ii)通过使用回归分析获取伪3d框的顶点的2d坐标的过程;(c)通过反向传播通过参考(i)所获取的伪3d框的顶点的2d坐标与对应于伪3d框的地面真值的2d坐标之间的差异以及(ii)分类的伪3d朝向与对应于伪3d朝向的地面真值之间的差异中的至少一者确定的损失信息来调节cnn的参数。



背景技术:

自动驾驶汽车是能够在没有人的输入的情况下感测其环境并且导航的车辆。自动驾驶汽车使用诸如雷达、激光、gps、测距和计算机视觉的各种技术来检测周围环境。

通过使用计算机视觉从二维(2d)单目图像估计三维(3d)信息是诸如自动驾驶和个人机器人的应用中的重要任务。通常,创建用于界定图像中的对象的2d框,然后从2d框构造3d模型。

为了找到用于界定对象的2d框,传统技术通常使用基于模板的方法。用于创建2d框的传统方法之一是滑动窗口(slidingwindows)法。该方法以不同的范围在整个图像上重复地滑动类似窗口的框,并检测类似窗口的框内的每个对象。也就是说,由于图像中的对象可以具有非常不同的尺寸或范围,因此将图像按比例缩小若干次并且再次在图像上滑动类似窗口的框以找到不同尺寸的对象。

其他传统方法中的一种是锚箱(anchorbox)法。在该方法中,各种锚箱集中在某个位置,并且通过使用回归分析确定各种锚箱中的具有最高概率(例如,与地面真值对象重叠的区域最大)的锚箱。

然后,从确定的锚箱构造3d边界框,但是,存在限制。第一,3d边界框可以具有六个表面,并且六个表面中的三个表面可能需要穷举搜索。第二,在使用单个模板来确定3d边界框的三个表面的情况下,精度可能较低,因为回归的边界条件可能随着对象的3d朝向改变而变化。第三,获取3d边界框的传统方法需要很多计算资源。例如,匹配长方体模板或体素(voxel)以找到3d边界框需要大量的计算时间。

因此,本发明提出了一种用于消除这种冗余计算并提高检测精度的新方法。



技术实现要素:

本发明的一个目的是解决所有上述问题。

本发明的另一个目的是通过使用伪3d框来简化用于限定3d对象的3d边界框。

本发明的又一个目的是通过使用伪3d框的顶点的2d坐标来减少计算时间和资源。

根据本发明的一个方面,提供了一种用于从训练图像中的2d边界框获取伪3d框的方法,包括以下步骤:(a)学习装置获取或支持另一装置获取包括由2d边界框界定的对象的训练图像;(b)学习装置执行或支持另一装置执行(i)通过参考与伪3d朝向的各个模式相对应的概率的信息对对象的伪3d朝向进行分类的过程和(ii)通过使用回归分析获取伪3d框的顶点的2d坐标的过程;(c)通过反向传播通过参考(i)所获取的伪3d框的顶点的2d坐标与对应于伪3d框的地面真值的2d坐标之间的差异以及(ii)分类的伪3d朝向与对应于伪3d朝向的地面真值之间的差异中的至少一者确定的损失信息,学习装置调节或支持另一装置调节其参数。

根据本发明的另一方面,提供了一种用于获取界定测试图像中的对象的伪3d框的方法,包括以下步骤:

(a)在以下条件下测试装置获取或支持另一装置获取测试图像,该测试图像包括由用于测试的2d边界框界定的用于测试的对象:(i)学习装置获取或支持另一装置获取训练图像,该训练图像包括由用于训练的2d边界框界定的用于训练的对象;(ii)学习装置执行或支持另一装置执行(ii-1)通过参考与伪3d朝向的各个模式相对应的概率的信息来对用于训练的对象的伪3d朝向进行分类的过程以及(ii-2)通过使用回归分析获取用于训练的伪3d框的顶点的2d坐标的过程;以及(iii)通过反向传播通过参考(iii-1)所获取的用于训练的伪3d框的顶点的2d坐标与对应于用于训练的伪3d框的地面真值的2d坐标之间的差异以及(iii-2)分类的用于训练的伪3d朝向与对应于用于训练的伪3d朝向的地面真值之间的差异中的至少一者确定的损失信息,学习装置调节或支持另一装置调节其参数;

(b)测试装置执行或支持另一装置执行(i)通过参考与伪3d朝向的各个模式相对应的概率的信息对用于测试的对象的伪3d朝向进行分类的过程和(ii)通过使用回归分析获取用于测试的伪3d框的顶点的2d坐标的过程。

根据本发明的又一方面,提供了一种用于从训练图像中的2d边界框获取伪3d框的学习装置,包括:通信部,用于获取或支持另一装置获取包括由2d边界框界定的对象的训练图像;以及处理器,用于执行或支持另一装置执行:(i)通过参考与伪3d朝向的各个模式相对应的概率的信息对对象的伪3d朝向进行分类的过程;(ii)通过使用回归分析获取伪3d框的顶点的2d坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的伪3d框的顶点的2d坐标与对应于伪3d框的地面真值的2d坐标之间的差异以及(iii-2)分类的伪3d朝向与对应于伪3d朝向的地面真值之间的差异中的至少一者确定的损失信息来调节其参数的过程。

根据本发明的又一方面,提供了一种用于获取界定测试图像中的对象的伪3d框的测试装置,包括:通信部,用于在以下条件下获取或支持另一装置获取包括由用于测试的2d边界框界定的用于测试的对象的测试图像:(i)学习装置获取或支持另一装置获取训练图像,该训练图像包括由用于训练的2d边界框界定的用于训练的对象;(ii)学习装置执行或支持另一装置执行(ii-1)通过参考与伪3d朝向的各个模式相对应的概率的信息对用于训练的对象的伪3d朝向进行分类的过程和(ii-2)通过使用回归分析获取用于训练的伪3d框的顶点的2d坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的用于训练的伪3d框的顶点的2d坐标与对应于用于训练的伪3d框的地面真值的2d坐标之间的差异以及(iii-2)分类的用于训练的伪3d朝向与对应于用于训练的伪3d朝向的地面真值之间的差异中的至少一者确定的损失信息,学习装置调节或支持另一装置调节其参数;以及处理器,用于执行或支持另一装置执行(i)通过参考与伪3d朝向的各个模式相对应的概率的信息对用于测试的对象的伪3d朝向进行分类的过程和(ii)通过使用回归分析获取用于测试的伪3d框的顶点的2d坐标的过程。

附图说明

通过下面结合附图对优选实施例的描述,本发明的上述和其它目的和特征将变得显而易见,其中:

图1是示出根据本发明的一个示例实施例的用于从训练图像中的2d边界框获取伪3d框的学习装置的配置的图;

图2是示意性地示出根据本发明的一个示例实施例的包括能够从训练图像获取伪3d框的卷积神经网络(cnn)的学习装置的配置的图;

图3是简要示出根据本发明的一个示例实施例的学习装置从训练图像中的2d边界框获取伪3d框的流程的图;

图4是简要示出根据本发明的一个示例实施例的从2d边界框获取伪3d框的顶点的坐标的方法的图;

图5是简要示出根据本发明的一个示例实施例的从2d边界框获取伪3d框的顶点的坐标的另一种方法的图;

图6是示出根据本发明另一示例实施例的用于从测试图像中的2d边界框获取伪3d框的测试装置的配置的图;

图7是示意性地示出根据本发明的一个示例实施例的用于估计与对象的伪3d朝向的模式(pattern)对应的概率的对象(例如,车辆)的伪3d朝向的模式的图。

具体实施方式

在以下详细描述中,参考了附图,附图通过图示的方式示出了可以实践本发明的具体实施例。充分详细地描述了这些实施例,以使本领域技术人员能够实践本发明。应该理解,本发明的各种实施例虽然不同,但不一定是相互排斥的。例如,在不脱离本发明的精神和范围的情况下,可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外,应该理解,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不应被视为具有限制意义,并且本发明的范围仅由所附权利要求限定,并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中,在几个视图中相同的附图标记表示相同或相似的功能。

图1是示出根据本发明的用于从包括至少一个对象的训练图像中的2d边界框获取伪3d框的学习装置100的配置的图。这里,伪3d框和2d边界框可以紧密地形成对象的边界。此外,学习装置100可以被划分为若干装置以执行其功能,然而,为了方便起见,本说明书将学习装置100描述为实施为单个装置。根据本发明的学习装置100可以包括卷积层、区域候选网络(regionproposalnetwork,rpn)和全连接(fc)层等的部分。

参考图1,用于从训练图像中的2d边界框获取伪3d框的学习装置100包括通信部110和处理器120。尽管图1示出了学习装置100外部的数据库130,但学习装置100也可以包括数据库130。

通信部110可以向外部装置发送数据和从外部装置接收数据或在内部组件之间发送数据和接收数据。具体地,通信部110可以获取训练图像。

图2示出了用于获取2d边界框和伪3d框的学习装置100中包括的cnn的配置。cnn中的第一部分201被配置为获取训练图像中的2d边界框,并且cnn中的第二部分202被配置为从2d边界框获取伪3d框。

第一部分201可以包括卷积层210、rpn220、池化层230和两个fc层240和245。这里,卷积层210可以从训练图像创建至少一个特征图。此外,fc层240和245可以分别执行对象分类和边框回归(boxregression)。

第二部分202可以包括池化层250和其他两个fc层260和265。这里,fc层260和265可以分别执行朝向分类和位移回归。

作为另一示例,fc层240和245可以实现为单个fc层,并且fc层260和265也可以实现为单个fc层。实线箭头可指示向下流动,虚线箭头可指示反向传播的向上流动。

参考图2,可以将训练图像输入到卷积层210中,然后可以将从其输出的特征图输入到rpn220中。然后,可以从rpn220中输出关于训练图像的感兴趣区域(roi)的信息。关于roi的信息可以被馈送到第一部分201中的池化层230和第二部分202中的池化层250。

首先,池化层230可以执行池化,其可以是最大池化,并且可以输出可被馈送到两个fc层240和245的池化特征图。fc层240可以输出关于对象分类的信息,例如关于对象是否是车辆的信息,fc层245可以输出关于2d边界框的边框回归的信息,例如关于2d边界框的顶点的坐标的信息。

其次,可以通过参考fc层240的结果来过滤要从rpn220馈送到池化层250的输入,然后将其馈送到池化层250。即,要从rpn220馈送到池化层250的输入可以是关于在roi的信息中选择的特定roi的信息。通过参考从fc层240得到的关于类(例如,车辆)的信息来选择关于特定roi的信息。

池化层250可以执行平均池化,并且其结果可以被馈送到两个fc层260和265。

同时,关于来自第一部分201中的fc层245的边框回归的信息可以被馈送到第二部分202中的fc层265。

因此,fc层260可以输出关于朝向分类的信息,例如,关于车辆面向哪个伪3d朝向的信息,其通过使用关于池化层250的输出的信息计算。此外,fc层265可以输出关于位移回归的信息,例如,关于伪3d框的顶点的2d坐标的信息,其通过使用关于池化层250的输出的信息和关于从fc层245获取的2d边界框的边框回归的信息计算。来自fc层260和265的这些结果可以用于构建伪3d框。

这里,视情况而定,第一部分201可以不包括在学习装置100中。也就是说,另一装置中的第一部分201可以从训练图像获取关于2d边界框的信息。然后,学习装置100可以从所述另一装置接收已经包括关于2d边界框的信息的训练图像(即,所谓的修正的训练图像)。

如果是这种情况,则第二部分202可以在池化层250之前包括卷积层(未示出),以获取要输入到池化层250的特征图。此外,输入到rpn220的特征图可以由池化层250使用,但这不是必要条件。

图3是示出根据本发明的一个示例实施例的学习装置100从训练图像中的2d边界框获取伪3d框的流程的流程图。

作为第一过程,在步骤s310,通信部110获取或支持另一装置获取修正的训练图像,即,包括由2d边界框界定的对象的训练图像。修正的训练图像可以包括具有背景以及对象的整个图像,或者包括被裁剪为仅具有在2d边界框内的对象的部分图像。

作为第二过程,处理器120应用或支持另一装置应用卷积运算于修正的训练图像从而获取特征图,然后应用或支持另一装置应用池化运算于特征图从而获取池化特征图。此后,如上所述,将池化特征图馈送到两个fc层260和265。作为参考,第二过程未在图3中示出。

作为第三过程,在步骤s320的步骤(a),通过参考与存储在数据库130中的伪3d朝向的各个模式相对应的估计概率的信息,处理器120指示fc层260执行对对象的伪3d朝向进行分类的过程。参考图7,这些模式可以表示对象(例如,车辆)的在(a)的情况下的后面、在(b)的情况下的右后面、在(c)的情况下的右面、在(d)的情况下的右前面、在(e)的情况下的前面、在(f)的情况下的左前面、在(g)的情况下的左面以及在(h)的情况下的左后面。例如,图4中的车辆可以被分类为具有对应于右前面的朝向(orientation)的模式。此外,在步骤s320的步骤(b),处理器120通过使用回归分析指示fc层265获取关于伪3d框的顶点的2d坐标的信息。这里,对伪3d朝向的所有模式执行回归分析。此外,可以在获取伪3d框的顶点的2d坐标之前执行对伪3d朝向的分类。

作为第四过程,在步骤s330,通过反向传播通过参考(i)所获取的伪3d框的顶点的2d坐标与对应于伪3d框的地面真值的2d坐标之间的差异以及(ii)分类的伪3d朝向与对应于伪3d朝向的地面真值之间的差异中的至少一者确定的损失信息,处理器120调节或支持另一装置调节cnn的参数。这里,对应于伪3d框的地面真值的2d坐标可以是假定紧密地形成对象的边界的3d框的顶点的2d坐标。此外,反向传播的信息可以包括表示各个(i)伪3d朝向的模式的每一个和其对应的通过使用回归分析计算的2d坐标与(ii)地面真值的伪3d朝向和2d坐标之间的差异的损失。

图4是简要示出根据本发明的一个示例实施例的一种获取坐标的方法的图。图4示出了带有虚线的2d边界框,其紧密地形成对象的边界;以及带有实线的伪3d框,其具有通过回归获取坐标的顶点。

参考图4,处理器120通过使用回归分析执行或支持另一装置执行根据2d边界框的顶点计算伪3d框的顶点的各个位移的过程。这里,可以反向传播关于伪3d框的顶点与对应于伪3d框的地面真值之间的差异的信息,以调节cnn的参数。

更具体地,处理器120确定或支持另一装置确定2d边界框的顶点v1及其对角顶点v2作为伪3d框的两个顶点p1和p8。然后,处理器120使用回归分析根据p1和p8计算或支持另一装置计算两个顶点p4和p5(它们不与2d边界框的虚线所示的线段接触)的位移。这里,位移可以平行于2d边界框的线段。坐标p4和p5可以分别从p1和p8的位移直接计算,其余顶点p2、p3、p6和p7的坐标可以从p4和p5的坐标推导出。

图5是简要示出根据本发明的一个示例实施例的获取坐标的另一种方法的图。图5示出了2d边界框的中心以及对应于伪3d框的第一表面的第一目标2d框和对应于与第一表面相反的第二表面的第二目标2d框的两个可能的中心。

参考图5,处理器120执行或支持另一装置执行根据2d边界框的中心计算第一矢量以确定第一矢量的终点作为第一目标2d框的中心以及根据2d边界框的中心计算第二矢量以确定第二矢量的终点作为第二目标2d框的中心的过程。两个目标2d框的这两个中心点通过回归分析获取。第一目标2d框具有作为顶点的p5、p6、p7和p8,第二目标2d框具有作为顶点的p1、p2、p3和p4。处理器120还执行或支持另一装置执行计算第一目标2d框的宽度与2d边界框的宽度、第二目标2d框的宽度与2d边界框的宽度、第一目标2d框的高度与2d边界框的高度、第二目标2d框的高度与2d边界框的高度的比率的过程。例如,获取(i)由p7至p8的双向箭头表示的第一目标2d框的宽度与(ii)由另一个较长的双向箭头表示的2d边界框的宽度的比率。这些比率也可以通过回归分析获得。处理器120还执行或支持另一装置执行通过参考位移和比率来计算p1、p2、p3、p4、p5、p6、p7和p8的坐标的过程。这里,p1是2d边界框的顶点,p8与p1对角,也是2d边界框的顶点。此外,p4和p5不与2d边界框的线段接触。也就是说,如果已知p1、p4、p5和p8的坐标,则从中推导出其余顶点的坐标是很容易的。这里,也可以反向传播关于伪3d框的顶点与对应于伪3d框的地面真值之间的差异的信息,以调节cnn的参数。

图6示出了用于从测试图像中的2d边界框获取伪3d框的测试装置。

参考图6,测试装置600可以包括通信部610、处理器620。测试装置600还可以包括数据库630,类似于数据库130的情况。

测试装置600可以被划分为若干装置以执行其功能,然而,为了方便起见,本说明书将测试装置600描述为实施为单个装置。

根据本发明的测试装置600可以包括卷积层、rpn和fc层等的部分。

这里,形容词短语“用于训练的”描述了用于说明学习装置100的概念,并且与用于说明测试装置600的“用于测试的”相对应。为方便起见,在上述说明中省略了形容词短语“用于训练的”。

详细地,通信部610可以在以下条件下获取或支持另一装置获取包括由用于测试的2d边界框界定的用于测试的对象的测试图像:(i)学习装置100获取或支持另一装置获取训练图像,该训练图像包括由用于训练的2d边界框界定的用于训练的对象;(ii)学习装置100执行或支持另一装置执行(ii-1)通过参考与伪3d朝向的各个模式相对应的概率的信息对用于训练的对象的伪3d朝向进行分类的过程和(ii-2)通过使用回归分析获取用于训练的伪3d框的顶点的2d坐标的过程;(iii)通过反向传播通过参考(iii-1)所获取的用于训练的伪3d框的顶点的2d坐标与对应于用于训练的伪3d框的地面真值的2d坐标之间的差异以及(iii-2)分类的用于训练的伪3d朝向与对应于用于训练的伪3d朝向的地面真值之间的差异确定的信息,学习装置100调节或支持另一装置调节其参数。

此外,处理器620可以执行或支持另一装置执行(i)通过参考与伪3d朝向的各个模式相对应的概率的信息对用于测试的对象的伪3d朝向进行分类的过程和(ii)通过使用回归分析获取用于测试的伪3d框的顶点的2d坐标的过程。这里,可以仅针对伪3d朝向的一个模式执行用于测试的伪3d框的顶点的2d坐标的回归分析。

其余的过程被省略,因为描述大致相同,除了通过反向传播调节参数,而这对于测试来说不是必要的。

根据本发明的一个方面,具有简化用于表示3d对象的3d模型的效果。

根据本发明的另一方面,通过最小化确定边界框的顶点的坐标所需的计算,具有减少计算时间和资源的消耗的效果。

根据本发明的另一个目的,具有如下效果:提供一种用于获取3d框的学习方法以最小化人为输入。

此外,如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者对于计算机软件领域的技术人员可用。计算机可读记录介质包括:诸如硬盘、软盘和磁带的磁介质;诸如cd-rom和dvd的光学介质;诸如光盘的磁光介质;诸如rom、ram的硬件装置;以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码,还包括可由通过计算机执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的动作,并且它们在相反的情况下可以做同样的工作。

如上所述,已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。虽然已经关于优选实施例示出和描述了本发明,但是,本领域技术人员将理解,在不脱离如在以下权利要求中限定的本发明的精神和范围的情况下,可以进行各种改变和修改。

因此,本发明的思想不应局限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1