物体姿态估计模型训练方法、系统、装置及介质与流程

文档序号:21733280发布日期:2020-08-05 01:28阅读:118来源:国知局
物体姿态估计模型训练方法、系统、装置及介质与流程

本申请涉及人工智能技术领域,尤其是一种物体姿态估计模型训练方法、系统、装置及介质。



背景技术:

姿态估计问题就是确定某一三维目标物体的空间方位指向问题。在空间中,物体具有六个自由度,即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度,要完全确定物体的位置,就需要得到这六个自由度,所以该技术一般也称为六自由度(6d)姿态估计。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。

近年来,随着人工智能技术的发展,基于人工神经网络进行姿态估计的方法取得了很大的进展。其中包括对输入图像直接进行6d姿态回归的,但是它主要依赖于模板匹配技术,对杂乱的环境和外观变化比较敏感;还有部分技术融合了输入图像的图像纹理特征和几何特征,进行了像素级的姿态估计,相对前述的方法在面对物体遮挡的情况下效果稍好。但是目前的姿态估计方式,模型中的人工神经网络复杂,训练时间较长,而且在物体遮挡严重的情况下想利用物体可视部分的像素级特征来推断物体整体的姿态比较困难,估计的效果欠佳。目前,现有技术中还缺少一种良好的姿态估计技术方案,以用于解决以上问题。



技术实现要素:

本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此,本申请实施例的一个目的在于提供一种物体姿态估计模型的训练方法,通过该方法训练的姿态估计模型的估计精度更高,且训练费时更短。

本申请实施例的另一个目的在于提供一种物体姿态估计模型的训练系统。

为了达到上述技术目的,本申请实施例所采取的技术方案包括:

第一方面,本申请实施例提供了一种物体姿态估计模型的训练方法,包括以下步骤:

获取含待估计物体的rgb图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;

根据所述rgb图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;

通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;

根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;

根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。

另外,根据本申请上述实施例的物体姿态估计模型的训练方法,还可以具有以下附加的技术特征:

进一步地,在本申请的一个实施例中,所述分割提取模块包括卷积神经网络;

所述通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值步骤,包括:

通过所述卷积神经网络对所述rgb图像进行分割,得到物体的掩膜;

根据所述掩膜和物体真实掩膜,确定第一损失值。

进一步地,在本申请的一个实施例中,所述分割提取模块还包括点云神经网络;

所述提取所述掩膜覆盖区域的像素级特征步骤,包括:

通过所述卷积神经网络提取所述rgb图像中所述掩膜覆盖区域的像素的颜色特征;

通过所述点云神经网络提取所述深度图像中与掩膜覆盖区域对应位置的像素的几何特征;

将对应位置的像素的所述颜色特征和所述几何特征进行融合处理,得到所述像素的像素级特征。

进一步地,在本申请的一个实施例中,所述稠密对应映射模块包括多层感知机;所述多层感知机用于将所述像素级特征映射到物体坐标系,得到所述像素级特征对应的三维坐标。

进一步地,在本申请的一个实施例中,所述基于映射后的像素级特征得到像素对特征步骤,包括:

将所述像素级特征分为两个子集,两个所述子集互斥;

从两个所述子集中选择像素级特征进行配对,并通过低秩双线性池化得到像素对特征。进一步地,在本申请的一个实施例中,所述姿态估计输出模块包括第一神经网络和级联的多个相同的第二神经网络;

所述通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果步骤,包括:

根据所述像素对特征,通过第一神经网络对所述物体进行姿态估计,得到初始姿态估计结果;

将所述掩膜覆盖区域的像素的颜色特征和所述初始姿态估计结果输入到级联的各个第二神经网络,得到姿态估计的各个改进结果;

根据所述初始姿态估计结果和各个所述改进结果,得到所述姿态估计结果。

进一步地,在本申请的一个实施例中,所述确定姿态估计过程中的第三损失值步骤,包括:

根据所述初始姿态估计结果和物体的真实姿态,确定第四损失值;

根据所述改进结果和物体的真实姿态,确定第五损失值;

以所述第四损失值和第五损失值之和作为姿态估计过程中的所述第三损失值。

第二方面,本申请实施例提出了一种物体姿态估计模型的训练系统,包括:

获取模块,用于获取含待估计物体的rgb图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;

分割模块,用于根据所述rgb图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;

映射模块,用于通过稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;

估计模块,用于将根据所述像素对特征,通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;

训练模块,用于根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。

第三方面,本申请实施例提供了一种物体姿态估计模型的训练装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的物体姿态估计模型的训练方法。

第四方面,本申请实施例还提供了一种介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现上述的物体姿态估计模型的训练方法。

本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:

本申请实施例采用端到端的方式,在分割提取模块、稠密对应映射模块和姿态估计输出模块分别提供了监督信号,以使模型在优化的过程中能更好地兼顾全局信息,加快训练的速度;还能够使得训练的姿态估计模型具有更强的判别能力,通过该模型对物体进行姿态估计时,在物体被严重遮挡的情况下也能够得到鲁棒的效果。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。

图1为根据本申请实施例提供的一种物体姿态估计模型的训练方法的流程示意图;

图2为根据本申请实施例提供的一种物体姿态估计模型的结构示意图;

图3为根据本申请实施例提供的一种物体姿态估计模型的训练系统的结构示意图;

图4为根据本申请实施例提供的一种物体姿态估计模型的训练装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

下面参照附图详细描述根据本申请实施例提出的物体姿态估计模型的训练方法和系统,首先将参照附图描述根据本申请实施例提出的物体姿态估计模型的训练方法。

参照图1,本申请实施例中提供的物体姿态估计模型的训练方法,主要包括以下步骤:

s1、获取含待估计物体的rgb图像和深度图像,输入所述姿态估计模型;

本申请实施例中,首先获取到含待估计物体的rgb图像和深度图像,具体地,可以从图像获取装置如摄像机中获取,也可以从计算机的图像数据库导入。其中,待估计物体指的是本次训练中需要进行姿态估计的物体,而获取到的图像中还包括其他的背景元素。rgb图像中的r、g、b即是代表红、绿、蓝三个通道的颜色,是一种常用的颜色编码方式;深度图像指的是包含与视点的场景对象表面距离有关的信息的图像或图像通道,其类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离,深度图像也可称为深度图(depthmap)。需要说明的是,本申请实施例中的上述rgb图像和深度图像是重叠配准的,也即两个图像中相同位置的像素点均是一一对应的关系。

s2、根据所述rgb图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;

参照图2,图中所示的是本申请实施例中提供的物体姿态估计模型的结构示意图,所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;其中,所述分割提取模块包括卷积神经网络和点云神经网络,所述卷积神经网络用于对所述rgb图像进行分割,得到物体的掩膜,并根据所述掩膜和物体真实掩膜,确定分割过程中的第一损失值。具体地,这一步骤如下:

通过卷积神经网络对输入的rgb图像进行编码得到每个像素的颜色特征,然后通过后续的卷积层处理将每个像素的颜色特征映射为其所属物体的类别标签。类别标签相同的像素共同构成该物体的掩膜。通过卷积神经网络输出的每个像素的类别标签和rgb图像中各个像素所属物体类别的真实标签可确定分割过程中的第一损失值,这里采用的损失函数种类按照现有常用的方式选取,例如可以采用交叉熵损失函数。

在得到物体掩膜后,本申请实施例通过卷积神经网络提取所述rgb图像中掩膜覆盖区域像素的颜色特征,并通过所述点云神经网络提取所述深度图像中掩膜覆盖区域像素的几何特征,并将掩膜覆盖区域对应位置的像素的颜色特征和几何特征进行融合处理,得到该像素的像素级特征。这里的对应位置的像素,指的是配准后两个图像中的同一位置的像素。需要说明的是,本步骤中,所述卷积神经网络可以采用常用的任一种神经网络架构;所述点云神经网络一般采用pointnet网络。

s3、通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;

本步骤中,为了能在姿态估计过程中植入物体的三维信息,令每个像素级特征通过多层感知机映射到它在物体坐标系下对应的三维坐标。这种从特征空间到三维空间的映射关系能够对像素级特征的学习起到正则化的作用,一般称之为稠密对应映射(dcm)。通过每个像素级特征在回归物体坐标系中对应点时所产生的误差,确定出映射过程中的第二损失值。

接着,通过上述的像素级特征得到像素对特征:将经过稠密对应映射处理、正则化后的像素级特征分成两个互斥子集,从这两个互斥子集中分别随机挑选像素级特征进行两两配对,并将配对后的像素级特征送入到低秩双线性池化层得到像素对特征。所述低秩双线性池化层的处理逻辑如下:

式中,a、b表示一对像素级特征;f(a,b)表示处理a、b得到的像素对特征;p、u、v表示用于双线性池化f(a,b)=atwb中系数矩阵w的低秩矩阵;σ表示非线性激活函数;表示哈达马乘积。

通过低秩双线性池化层处理后,得到的像素对特征相比于像素级特征能够整合更加丰富的几何信息,使得训练的姿态估计模型具有更强的判别能力,通过该模型对物体进行姿态估计时,在物体被严重遮挡的情况下也能够得到鲁棒的效果。

s4、根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;

本申请实施例中,所述姿态估计输出模块包括第一神经网络和级联的多个相同的第二神经网络;其中,第一神经网络用于对所述物体进行姿态估计,得到初始姿态估计结果;第二神经网络用于通过所述初始姿态估计结果和所述掩膜覆盖区域的像素的颜色特征,得到姿态估计的改进结果。以得到初始姿态估计结果的过程为例进行说明:第一神经网络进行姿态估计时,令每个像素对特征回归其所属物体的目标姿态(即真实姿态)及其估计姿态的置信度,估计姿态与目标姿态之间的误差越小的置信度越高,误差越大的置信度越低。在得到像素对特征的多个估计姿态及分别对应的置信度后,取置信度前10%的估计姿态作加权平均得到该物体的初始姿态估计结果。

通过将初始姿态估计结果和所有级联得到的姿态估计的改进结果相乘,就能够得到最终的姿态估计结果,最终的姿态结果相比于初始姿态估计结果具有更小的误差,估计效果更为优越。而且通过级联多个相同的第二神经网络,对初始姿态估计结果进行改进,相对于现有技术中采用一个第二神经网络循环迭代改进的方式效果更好,原因在于:物体姿态在高维空间中是连续的,初始姿态估计结果改进的任务可以视为从初始姿态估计结果出发并通过多次残差估计以到达目标姿态的过程。所以将多个相同的姿态估计改进网络(即第二神经网络)级联并采用联合训练的方式能够更好的引入这种“由粗糙到精确逐步改进”的先验信息以指导网络更好的学习。

本步骤中,所述第三损失值包括两个部分,第一部分为初始姿态估计结果和物体的真实姿态间的误差,记为第四损失值。第四损失值的确定方式为:通过每个像素对特征回归目标姿态时所产生的误差,确定出第四损失值。第二部分为各个第二神经网络在回归与目标姿态之间的相对变换时产生的误差之和,记为第五损失值。

s5、根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。

本步骤中,以第一损失值、第二损失值与第三损失值之和作为模型训练的目标函数,基于上述确定的损失值,通过梯度下降算法可从姿态估计模型的输出端反向传播回去,以指导各个模型中的神经网络进行参数更新,从整体上快速逼近最优解。相对于现有的通过最终输出姿态估计结果的误差情况来确定损失值,更新模型参数的方式,本申请实施例中的方法采用端到端的方式,在分割提取模块、稠密对应映射模块和姿态估计输出模块分别提供了监督信号,以使模型在优化的过程中能更好地兼顾全局信息,加快训练的速度。

其次,参照附图描述根据本申请实施例提出的物体姿态估计模型的训练系统。

图3是本申请一个实施例的物体姿态估计模型的训练系统结构示意图。

所述系统具体包括:

获取模块101,用于获取含待估计物体的rgb图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;

分割模块102,用于根据所述rgb图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;

映射模块103,用于通过稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;

估计模块104,用于将根据所述像素对特征,通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;

训练模块105,用于根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。

可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图4,本申请实施例提供了一种物体姿态估计模型的训练装置,包括:

至少一个处理器201;

至少一个存储器202,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器201执行时,使得所述至少一个处理器201实现所述的物体姿态估计模型的训练方法。

同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本申请实施例还提供了一种存储介质,其中存储有处理器201可执行的指令,所述处理器201可执行的指令在由处理器201执行时用于执行所述的物体姿态估计模型的训练方法。

同理,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的物体销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件物体的形式体现出来,该计算机软件物体存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明,但本申请并不限于所述实施例,熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1