实例分割模型的训练方法、实例分割方法、设备及介质与流程

文档序号:29086461发布日期:2022-03-02 01:31阅读:196来源:国知局
实例分割模型的训练方法、实例分割方法、设备及介质与流程

1.本技术涉及计算机领域,尤其涉及一种实例分割模型的训练方法、实例分割方法、设备及介质。


背景技术:

2.实例分割是计算机领域的一项基础视觉识别任务,该任务包括目标检测和语义分割,通过定位和识别图像中的不同目标,并为每个目标分配一个单独类别的像素级掩膜。其中以mask rcnn为代表的基于目标检测的自顶向下的二阶段实例分割方法具有较好的精度和可扩展性,该类方法一般利用检测器输出候选区域,再为每个候选区域预测出实例掩膜。
3.在预测实例掩膜过程中,采用感兴趣区域特征对齐(region of interest align,roi align)的方式在特征金字塔(feature pyramid network,fpn)网络上的特征图提取候选区域特征,并将不同尺寸的候选区域统一为固定尺寸m
×
m。但是基于固定尺寸的候选区域的特征提取方式在水平方向和竖直方向上进行相同间隔的采样策略,会导致难以提取到细长目标的有效候选区域特征;并且该类方法采用固定大小为k
×
2m
×
2m的小掩膜(tiny mask,tm)表示每个实例的拓扑结构,容易造成细长目标的几何特征失真。可见当前实例分割方法无法有效适用于细长目标的实例分割。


技术实现要素:

4.本技术提供了一种实例分割模型的训练方法、实例分割方法、设备及介质,旨在解决现有实例分割方法存在适用范围小的问题。
5.为了解决上述技术问题,第一方面,本技术实施例提供了一种实例分割模型的训练方法,包括:
6.获取图像样本的标注数据和目标特征图,标注数据包括包围框标注数据和掩膜标注数据,包围框标注数据包括包围框长宽比标注数据,目标特征图上对应有第一候选区域;
7.基于标注数据和目标特征图,对预设的细长目标实例分割模型中的包围框识别网络和掩膜识别网络进行迭代训练,直至细长目标实例分割模型达到预设收敛条件,停止训练,得到实例分割模型的最终训练结果;
8.其中每次对掩膜识别网络进行训练时,包括以下步骤:
9.基于包围框长宽比标注数据,确定目标特征图上的第一候选区域的动态长度和动态宽度;
10.利用掩膜识别网络,根据动态长度和动态宽度,对第一候选区域进行特征提取,得到第一候选区域的掩膜数据;
11.基于掩膜数据与掩膜标注数据之间的第一损失函数,更新掩膜识别网络的网络参数。
12.本实施例在掩膜识别网络进行训练引入动态感兴趣区域特征对齐(dynamic region of interest align,dra),dra按照包围框的长宽比将候选区域动态划分长度和宽
度,并根据动态长度和动态宽度,对第一候选区域进行特征提取,实现第一候选区域在水平方向和垂直方向上采样均匀一致,避免在第一候选区域的较长边出现欠采样的情况,同时基于动态长度和动态宽度提取得到的掩膜数据,具有等比例缩放的特点,能够更好的表示细长目标的拓扑结构,有效避免细长目标出现畸变、扭曲和失真等情况,使得细长目标的分割结果更加精确,提高实例分割模型的适用范围。
13.在一实施例中,基于包围框长宽比标注数据,确定目标特征图上的第一候选区域的动态长度和动态宽度,包括:
14.基于预设超参数和包围框长宽比标注数据,确定目标特征图上的第一候选区域的动态长度和动态宽度,预设超参数用于设定候选区域特征的总像素数。
15.在一实施例中,利用掩膜识别网络,根据动态长度和动态宽度,对第一候选区域进行特征提取,得到第一候选区域的掩膜数据,包括:
16.根据动态长度和动态宽度,对第一候选区域进行特征提取,得到第一候选区域特征;
17.利用预设的双层图卷积神经网络,根据第一候选区域特征,提取第一候选区域的图卷积特征,得到第一候选区域的掩膜数据。
18.进一步地,利用预设的双层图卷积神经网络,根据第一候选区域特征,提取第一候选区域的图卷积特征,得到第一候选区域的掩膜数据,包括:
19.对第一候选区域特征进行下采样,得到下采样后的第一候选区域特征;
20.利用双层图卷积神经网络,对下采样后的第一候选区域特征进行线性变换,得到相似性邻接矩阵;
21.基于相似性邻接矩阵,提取第一候选区域的图卷积特征,得到第一候选区域的掩膜数据。
22.在一实施例中,每次对包围框识别网络进行训练时,包括以下步骤:
23.利用包围框识别网络,提取目标特征图上的第一候选区域的包围框特征;
24.基于包围框特征,识别第一候选区域的包围框类别、包围框坐标和包围框长宽比,得到第一候选区域的包围框数据;
25.基于包围框数据与包围框标注数据之间的第二损失函数,更新包围框识别网络的网络参数。
26.可选地,第二损失函数为:
[0027][0028]
其中,l
cls
为fast rcnn网络的包围框回归损失函数,l
reg
为fast rcnn网络的包围框定位损失函数,lr为smooth l1损失函数,pi为包围框类别,为包围框标注数据中的包围框类别标注数据,ti为包围框坐标,为包围框标注数据中的包围框坐标标注数据,ri为包围框长宽比,为包围框长宽比标注数据,n
cls
为训练批次,n
reg
为候选区域数量,α和β为
平衡参数。
[0029]
在一实施例中,预设收敛条件为细长目标实例分割模型的迭代次数达到预设次数或训练的损失值小于预设值。
[0030]
在一实施例中,获取图像样本的标注数据和目标特征图,包括:
[0031]
获取图像样本和图像样本的标注数据;
[0032]
利用预设的骨干网络,提取图像样本的第一图像特征;
[0033]
利用预设的特征金字塔网络,根据第一图像特征,输出多个不同分辨率的目标特征图;
[0034]
利用预设的候选区域网络,预测目标特征图的第一候选区域。
[0035]
第二方面,本技术实施例提供了一种实例分割方法,包括:
[0036]
获取待分割图像的实例特征图,实例特征图上对应有第二候选区域;
[0037]
基于预设的实例分割模型,对实例特征图上的第二候选区域进行实例分割,得到第二候选区域的包围框实例数据和掩膜实例数据,实例分割模型基于上述第一方面的训练方法训练得到。
[0038]
在一实施例中,获取待分割图像的实例特征图,包括:
[0039]
获取待分割图像;
[0040]
利用预设的骨干网络,提取待分割图像的第二图像特征;
[0041]
利用预设的特征金字塔网络,根据第二图像特征,输出多个不同分辨率的实例特征图;
[0042]
利用预设的候选区域网络,预测实例特征图的第二候选区域。
[0043]
在一实施例中,基于预设的实例分割模型,对实例特征图上的第二候选区域进行实例分割,得到第二候选区域的包围框实例数据和掩膜实例数据,包括:
[0044]
利用实例分割模型的包围框识别网络,提取实例特征图上的第二候选区域的包围框特征;
[0045]
基于包围框特征,识别第二候选区域的包围框类别、包围框坐标和包围框长宽比,输出第二候选区域的包围框实例数据;
[0046]
基于包围框识别网络识别得到的包围框长宽比,确定第二候选区域的动态长度和动态宽度;
[0047]
利用实例分割模型的掩膜识别网络,根据动态长度和动态宽度,对第二候选区域进行特征提取,输出第二候选区域的掩膜实例数据。
[0048]
进一步地,利用实例分割模型的掩膜识别网络,根据动态长度和动态宽度,对第二候选区域进行特征提取,输出第二候选区域的掩膜实例数据,包括:
[0049]
根据动态长度和动态宽度,对第二候选区域进行特征提取,得到第二候选区域特征;
[0050]
利用预设的双层图卷积神经网络,根据第二候选区域特征,提取第二候选区域的图卷积特征,输出第二候选区域的掩膜实例数据。
[0051]
可选地,利用预设的双层图卷积神经网络,根据第二候选区域特征,提取第二候选区域的图卷积特征,输出第二候选区域的掩膜实例数据,包括:
[0052]
对第二候选区域特征进行下采样,得到下采样后的第二候选区域特征;
[0053]
利用双层图卷积神经网络,对下采样后的第二候选区域特征进行线性变换,得到相似性邻接矩阵;
[0054]
基于相似性邻接矩阵,提取第二候选区域的图卷积特征,得到第二候选区域的掩膜实例数据。
[0055]
第三方面,本技术实施例提供了一种实例分割模型的训练装置,包括:
[0056]
第一获取模块,用于获取图像样本的标注数据和目标特征图,标注数据包括包围框标注数据和掩膜标注数据,包围框标注数据包括包围框长宽比标注数据,目标特征图上对应有第一候选区域;
[0057]
训练模块,用于基于标注数据和目标特征图,对预设细长目标实例分割模型中的包围框识别网络和掩膜识别网络进行迭代训练,直至细长目标实例分割模型达到预设收敛条件,停止训练,得到实例分割模型的最终训练结果;
[0058]
其中训练模块,包括:
[0059]
确定子模块,用于基于包围框长宽比标注数据,确定目标特征图上的第一候选区域的动态长度和动态宽度;
[0060]
提取子模块,用于掩膜识别网络,根据动态长度和动态宽度,对第一候选区域进行特征提取,得到第一候选区域的掩膜数据;
[0061]
更新子模块,用于基于掩膜数据与掩膜标注数据之间的第一损失函数,更新掩膜识别网络的网络参数。
[0062]
第四方面,本技术实施例提供了一种实例分割装置,包括:
[0063]
第二获取模块,用于获取待分割图像的实例特征图,实例特征图上对应有第二候选区域;
[0064]
分割模块,用于基于预设的实例分割模型,对实例特征图上的第二候选区域进行实例分割,得到第二候选区域的包围框实例数据和掩膜实例数据,实例分割模型基于上述第一方面的训练方法训练得到。
[0065]
第五方面,本技术实施例提供了种计算机设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使计算机设备执行上述第一方面的训练方法,或者上述第二方面实例分割方法。
[0066]
第六方面,本技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面的训练方法,或者上述第二方面实例分割方法。
[0067]
需要说明的是,上述第二方面至第六方面的有益效果请参见第一方面或第二方面的相关描述,在此不再赘述。
附图说明
[0068]
图1为本技术实施例提供的实例分割模型的训练方法的流程示意图;
[0069]
图2为本技术实施例提供的掩膜识别网络的训练过程的流程示意图;
[0070]
图3为本技术实施例提供的图卷积神经网络的dra过程示意图;
[0071]
图4为本技术实施例提供的细长目标的实例分割示意图;
[0072]
图5为本技术实施例提供的实例分割方法的流程示意图;
[0073]
图6为本技术实施例提供的实例分割模型的训练装置的结构示意图;
[0074]
图7为本技术实施例提供的实例分割装置的结构示意图;
[0075]
图8为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
[0076]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0077]
如背景技术相关记载,在预测实例掩膜过程中,采用感兴趣区域特征对齐(region of interest align,roi align)的方式在特征金字塔(feature pyramid network,fpn)网络输出的特征图提取候选区域特征,并将不同尺寸的候选区域统一为固定尺寸m
×
m。但是基于固定尺寸的候选区域的特征提取方式在水平方向和竖直方向上进行相同间隔的采样策略,会导致难以提取到细长目标的有效候选区域特征;并且该类方法采用固定大小为k
×
2m
×
2m的小掩膜(tiny mask,tm)表示每个实例的拓扑结构,容易造成细长目标的几何特征失真。可见当前实例分割方法无法有效适用于细长目标的实例分割。
[0078]
为此,本技术实施例提供一种实例分割模型的训练方法、实例分割方法及装置,通过在掩膜识别网络引入动态感兴趣区域特征对齐(dynamic region of interest align,dra),dra按照包围框的长宽比将候选区域动态划分长度和宽度,并根据动态长度和动态宽度,对第一候选区域进行特征提取,实现第一候选区域在水平方向和垂直方向上采样均匀一致,避免在第一候选区域的较长边出现欠采样的情况,同时基于动态长度和动态宽度提取得到的掩膜数据,具有等比例缩放的特点,能够更好的表示细长目标的拓扑结构,有效避免细长目标出现畸变、扭曲和失真等情况,使得细长目标的分割结果更加精确,提高实例分割模型的适用范围。
[0079]
参照图1,图1示出了本技术实施例提供的一种实例分割模型的训练方法的实现流程图。本技术实施例中下述的实例分割模型的训练方法可应用于计算机设备,计算机设备包括但不限于智能手机、平板电脑、桌上型计算机、超级计算机、个人数字助理、物理服务器和云服务器等计算机设备。本技术实施例的实例分割模型的训练方法,包括步骤s101至s102,详述如下:
[0080]
步骤s101,获取图像样本的标注数据和目标特征图,所述标注数据包括包围框标注数据和掩膜标注数据,所述包围框标注数据包括包围框长宽比标注数据,所述目标特征图上对应有第一候选区域。
[0081]
在本步骤中,图像样本为存在目标实例(人或物)的图像样本,包围框标注数据为用于标注图像样本中目标实例的包围框所对应的标注数据,其包括但不限于包围框类别(如aabb和obb等)、包围框坐标(组成包围框的每个线段端点的坐标)和包围框长宽比(包围框的长度与宽度之间的比值)。掩膜标注数据为用于标注图像样本中目标实例的掩膜所对应的标注数据,其包括但不限于掩膜拓扑结构。目标特征图为不同于图像样本的分辨率的特征图,其用于在模型训练时预测目标实例的包围框和掩膜。第一候选区域为目标特征图上可能存在目标实例的区域,应理解,目标特征图上可能有多个目标实例,所以可以对应有
多个第一候选区域。
[0082]
可选地,目标特征图的提取过程,可以包括:利用预设的骨干网络,提取所述图像样本的第一图像特征;利用预设的特征金字塔网络,根据所述第一图像特征,输出多个不同分辨率的所述目标特征图;利用预设的候选区域网络,预测所述目标特征图的第一候选区域。
[0083]
在本实施例中,骨干网络可以为resnet,用于特征提取,其中resnet还可以是resnet-50、resnet-101、resnext-50或resnext-101。特征金字塔网络可以为feature pyramid network(fpn),用于根据图像特征将图像样本输出为多个不同分辨率的目标特征图。候选区域网络在fpn输出的目标特征图上预测出候选区域。
[0084]
需要说明的是,目标特征图的提取过程可以在实现训练方法的计算机设备上执行,也可以在其他计算机设备执行后,将提取后的目标特征图移植到本计算机设备。也就是说,执行目标特征图的提取过程的计算机设备可以与实现本训练方法的计算机设备相同,也可以不同。
[0085]
步骤s102,基于所述标注数据和目标特征图,对预设的细长目标实例分割模型中的包围框识别网络和掩膜识别网络进行迭代训练,直至所述细长目标实例分割模型达到预设收敛条件,停止训练,得到实例分割模型。
[0086]
在本步骤中,包围框识别网络(rcnn head)在候选区域网络输出的候选区域的基础上,对目标特征图进行包围框识别,掩膜识别网络(mask head)用于对目标特征图进行目标实例的掩膜识别。其中细长目标实例分割模型的损失函数为包围框识别网络的第二损失函数与掩膜识别网络的第一损失函数之和。
[0087]
可选地,预设收敛条件为所述细长目标实例分割模型的迭代次数达到预设次数。
[0088]
可选地,预设收敛条件为细长目标实例分割模型的损失函数小于预设值。本实施例以模型的训练损失值作为收敛条件的判定依据,以采用早停训练策略,即迭代次数没达到预设次数,但模型的训练损失值小于预设值则停止训练,能够有效避免模型过拟合,从而能够保证模型具有较好的泛化性能。
[0089]
在上述步骤s102中,每次对所述掩膜识别网络进行训练时,包括步骤s201至s203:
[0090]
步骤s201,基于所述包围框长宽比标注数据,确定所述目标特征图上的第一候选区域的动态长度和动态宽度。
[0091]
在本步骤中,包围框长宽比标注数据为候选区域分配的真实包围框标注数据中的长宽比标注数据。动态长度为不同第一候选区域对应的区域长度,动态宽度为不同第一候选区域对应的区域宽度,也就是说,对于不同第一候选区域的特征提取过程,不同过程所采用的长度与宽度不同。本实施例基于dra采用候选区域所对应的真实长宽比标注包围框长宽比标注数据,从而能够对不同形状候选区域的长宽比对相应形状的候选区域进行特征提取,而有效避免固定尺寸导致候选区域的特征失真的问题,提高候选区域特征提取的精确度。
[0092]
需要说明的是,本实施例采用包围框长宽比标注数据作为掩膜识别过程中候选区域特征大小的动态特征提取依据,而非采用包围框识别网络输出的包围框长宽比作为动态特征提取的依据,能够避免包围框识别网络在训练初期输出的包围框长宽比与实际长宽比差异较大,而导致掩膜识别过程的训练效果下降,可见,本实施例采用包围框长宽比标注数
据作为动态分割依据,能够提高掩膜识别网络的识别性能。
[0093]
步骤s202,利用所述掩膜识别网络,根据所述动态长度和所述动态宽度,对所述第一候选区域进行特征提取,得到所述第一候选区域的掩膜数据。
[0094]
在本步骤中,根据包围框长宽比标注数据,得到对应第一候选区域的动态长度和动态宽度,根据该动态长度和动态宽度,对第一候选区域使用dra,以提取得到第一候选区域特征,再通过对第一候选区域特征进行图卷积操作,输出第一候选区域的掩膜数据。从而实现特征提取过程在水平方向和垂直方向上的采样均匀一致,进而实现细长目标的掩膜识别。
[0095]
步骤s203,基于所述掩膜数据与所述掩膜标注数据之间的第一损失函数,更新所述掩膜识别网络的网络参数。
[0096]
在本步骤中,掩膜数据包括第一候选区域的掩膜表征向量,采用soft gdice计算与该第一候选区域匹配的掩膜标注数据产生的训练损失,得到第一损失函数mask loss(lm)。
[0097]
在一实施例中,在图1所示实施例的基础上,上述步骤s201具体包括:基于预设超参数和所述包围框长宽比标注数据,确定所述目标特征图上的第一候选区域的动态长度和动态宽度,所述预设超参数用于设定候选区域特征的总像素数。
[0098]
在本实施例中,按照候选区域对应的包围框长宽比标注数据r和预设超参数m,将候选区域特征动态地划分为宽为简称为b,长为简称为h,实现候选区域特征在水平方向和垂直方向上均匀一致采样。
[0099]
在一实施例中,在图1所示实施例的基础上,上述步骤s202具体包括:
[0100]
根据所述动态长度和所述动态宽度,对所述第一候选区域进行特征提取,得到第一候选区域特征;
[0101]
利用预设的双层图卷积神经网络,根据所述第一候选区域特征,提取所述第一候选区域的图卷积特征,得到所述第一候选区域的掩膜数据。
[0102]
在本实施例中,基于dra提取第一候选区域特征x∈rb×h×c,其中b表示该第一候选区域特征的动态宽度,h表示第一候选区域特征的动态长度,c表示第一候选区域特征的通道数,并将第一候选区域特征上的每个像素点作为gcn的一个节点(node),并采用双层gcn获取第一候选区特征像素之间的相互依赖关系。
[0103]
由于细长目标具有不同的长宽比,保持长宽比的dra会提取出形状各异的候选区域特征,出现模型不能并行训练的问题,导致整个训练时间过长。针对不同形状候选区域特征导致的难以并行训练的问题,本实施例采用两层的图卷积神经网络(graph convolutional networks,gcn),获取候选区域特征像素之间的相互依赖关系,能够实现并行训练。
[0104]
可选地,如图3示出的图卷积神经网络的dra过程流程示意图。参见图3,利用预设的双层图卷积神经网络,提取所述第一候选区域的图卷积特征的过程,包括:
[0105]
对所述第一候选区域特征进行下采样,得到下采样后的第一候选区域特征;
[0106]
利用所述双层图卷积神经网络,对所述下采样后的第一候选区域特征进行线性变换,得到相似性邻接矩阵;
[0107]
基于所述相似性邻接矩阵,提取所述第一候选区域的图卷积特征,得到所述第一候选区域的掩膜数据。
[0108]
在本实施例中,为了降低构建第一候选区域的相似度邻接矩阵的计算量,使用通道的下采样操作rc将输入的第一候选区域特征x∈rb×h×c映射为特征rs∈rb×h×
c/2
,rs=rc(x)。其中rc是一个1
×
1的卷积,用于将输入第一候选区特征x的通道数降为原来的一半。
[0109]
接着在特征vc上使用两个可学习的线性变换(ζ,φ),以构建第一候选区域特征之间的相似性邻接矩阵a∈r
bh
×
bh
,a=f(ξ(rs),φ(rs)
t
)。其中f是点积运算操作,t表示矩阵转置操作。
[0110]
为进一步获取不同形状候选区域特征之间的相互依赖关系,在第一候选区域特征x上使用一个可学习的线性变换η,再使用一个两层3
×
3卷积表示gcn的权重矩阵w∈r
bh
×
bh
×d,从而产生候选区域图卷积特征gp,g
p
=aη(x)w。最终输出2b
×
2h的二维矩阵用于表示掩膜数据。
[0111]
在一实施例中,在图1所示实施例的基础上,在上述步骤s102中,每次对所述包围框识别网络进行训练时,包括以下步骤:
[0112]
利用所述包围框识别网络,提取所述目标特征图上的第一候选区域的包围框特征;
[0113]
基于所述包围框特征,识别所述第一候选区域的包围框类别、包围框坐标和包围框长宽比,得到所述第一候选区域的包围框数据;
[0114]
基于所述包围框数据与所述包围框标注数据之间的第二损失函数,更新所述包围框识别网络的网络参数。
[0115]
在本实施例中,相对于传统的rcnn head,本实施例新增了包围框长宽比的识别,以用于在模型应用时,mask head能够利用rcnn head输出的包围框长宽比,对候选区域进行动态感兴趣特征对齐,从而实现模型应用时对细长目标的特征提取。
[0116]
可选地,所述第二损失函数为:
[0117][0118]
其中,l
cls
为fast rcnn网络的包围框回归损失函数,l
reg
为fast rcnn网络的包围框定位损失函数,lr为smooth l1损失函数,pi为所述包围框类别,为所述包围框标注数据中的包围框类别标注数据,ti为所述包围框坐标,为所述包围框标注数据中的包围框坐标标注数据,ri为所述包围框长宽比,为所述包围框长宽比标注数据,n
cls
为训练批次,n
reg
为候选区域数量,α和β为平衡参数。
[0119]
参照图4,图4示出了本技术实施例提供的一种实例分割方法的实现流程图。本技术实施例中下述的实例分割方法可应用于计算机设备,计算机设备包括但不限于智能手机、平板电脑、桌上型计算机、超级计算机、个人数字助理、物理服务器和云服务器等计算机设备。可以理解的是,实现实例分割方法的计算机设备可以与实现上述训练方法的计算机设备相同,也可以不同。本技术实施例的实例分割方法,包括步骤s401至s402,详述如下:
[0120]
步骤s401,获取待分割图像的实例特征图,所述实例特征图上对应有第二候选区域。
[0121]
在本步骤中,实例特征图可以在实现实例分割方法的计算机设备上对待分割图像提取得到,也可以在其他计算机设备提取后,将提取后的实例特征图移植到本计算机设备。实例特征图的提取过程的计算机设备可以与实现本实例分割方法的计算机设备相同,也可以不同。
[0122]
可选地,实例特征图的提取过程,包括:获取所述待分割图像;利用预设的骨干网络,提取所述待分割图像的第二图像特征;利用预设的特征金字塔网络,根据所述第二图像特征,输出多个不同分辨率的所述实例特征图;利用预设的候选区域网络,预测所述实例特征图的第二候选区域。
[0123]
可以理解的是,实例特征图的提取过程类似于上述目标特征图的提取过程,请参见上述步骤s101的相关描述,在此不再赘述。
[0124]
步骤s402,基于预设的实例分割模型,对所述实例特征图上的第二候选区域进行实例分割,得到所述第二候选区域的包围框实例数据和掩膜实例数据,所述实例分割模型基于上述图1至图2所示实施例的训练方法训练得到。
[0125]
在本步骤中,基于图1至图2所示实施例得到的实例分割模型进行实例分割,能够实现对细长目标的实例分割,提高实例分割方法的适用范围。
[0126]
在一实施例中,在图4所示实施例的基础上,上述步骤s402包括:
[0127]
利用所述实例分割模型的包围框识别网络,提取所述实例特征图上的第二候选区域的包围框特征;
[0128]
基于所述包围框特征,识别所述第二候选区域的包围框类别、包围框坐标和包围框长宽比,输出所述第二候选区域的包围框实例数据;
[0129]
基于所述包围框识别网络识别得到的包围框长宽比,确定所述第二候选区域的动态长度和动态宽度;
[0130]
利用所述实例分割模型的掩膜识别网络,根据所述动态长度和所述动态宽度,对所述第二候选区域进行特征提取,输出所述第二候选区域的掩膜实例数据。
[0131]
在本实施例中,如图5示出了细长目标的实例分割示意图,本实施例利用rcnn head通过roi align的方式提取包围框特征,并识别得到包围框类别(class)、包围框坐标(bbox)和包围框长宽比(ratio);利用mask head通过dynamic roi align的方式,输出大小为4bh
×
c的一维向量,并根据rcnn head输出的该包围框的包围框类别,将大小为4bh
×
c的一维向量变换大小为4bh
×
1的一维向量,再利用包围框长宽比,将大小为4bh
×
1的一维向量重塑为2b
×
2h的二维矩阵。最后,rcnn head输出待分割图像所有目标实例的包围框坐标、类别和长宽比,mask head针对每个目标实例的包围框输出2b
×
2h的二维矩阵以表示每个实例的掩膜实例数据。
[0132]
进一步地,所述利用所述实例分割模型的掩膜识别网络,根据所述动态长度和所述动态宽度,对所述第二候选区域进行特征提取,输出所述第二候选区域的掩膜实例数据,包括:
[0133]
根据所述动态长度和所述动态宽度,对所述第二候选区域进行特征提取,得到第二候选区域特征;
[0134]
利用预设的双层图卷积神经网络,根据所述第二候选区域特征,提取所述第二候选区域的图卷积特征,输出所述第二候选区域的掩膜实例数据。
[0135]
本实施例掩膜实例数据的识别过程类似于上述训练方法实施例中掩膜数据的识别过程,请参见前述,在此不再赘述。
[0136]
可选地,所述利用预设的双层图卷积神经网络,根据所述第二候选区域特征,提取所述第二候选区域的图卷积特征,输出所述第二候选区域的掩膜实例数据,包括:
[0137]
对所述第二候选区域特征进行下采样,得到下采样后的第二候选区域特征;
[0138]
利用所述双层图卷积神经网络,对所述下采样后的第二候选区域特征进行线性变换,得到相似性邻接矩阵;
[0139]
基于所述相似性邻接矩阵,提取所述第二候选区域的图卷积特征,得到所述第二候选区域的掩膜实例数据。
[0140]
本实施例提取图卷积特征的过程类似于上述述训练方法实施例中的图卷积特征提取过程,请参见前述,在此不再赘述。
[0141]
为了执行上述方法实施例对应的实例分割模型的训练方法,以实现相应的功能和技术效果,参见图6,图6示出了本技术实施例提供的一种实例分割模型的训练装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分,本技术实施例提供的训练装置,包括:
[0142]
第一获取模块601,用于获取图像样本的标注数据和目标特征图,所述标注数据包括包围框标注数据和掩膜标注数据,所述包围框标注数据包括包围框长宽比标注数据,所述目标特征图上对应有第一候选区域;
[0143]
训练模块602,用于基于所述标注数据和目标特征图,对预设的细长目标实例分割模型中的包围框识别网络和掩膜识别网络进行迭代训练,直至所述细长目标实例分割模型达到预设收敛条件,停止训练,得到实例分割模型;
[0144]
其中所述训练模块602,包括:
[0145]
第一确定子模块6021,用于基于所述包围框长宽比标注数据,确定所述目标特征图上的第一候选区域的动态长度和动态宽度;
[0146]
第一提取子模块6022,用于利用所述掩膜识别网络,根据所述动态长度和所述动态宽度,对所述第一候选区域进行特征提取,得到所述第一候选区域的掩膜数据;
[0147]
第一更新子模块6023,用于基于所述掩膜数据与所述掩膜标注数据之间的第一损失函数,更新所述掩膜识别网络的网络参数。
[0148]
在一实施例中,确定子模块6021,包括:
[0149]
确定单元,用于基于预设超参数和所述包围框长宽比标注数据,确定所述目标特征图上的第一候选区域的动态长度和动态宽度,所述预设超参数用于设定候选区域特征的总像素数。
[0150]
在一实施例中,提取子模块6022,包括:
[0151]
第一提取单元,用于根据所述动态长度和所述动态宽度,对所述第一候选区域进行特征提取,得到第一候选区域特征;
[0152]
第二提取单元,用于利用预设的双层图卷积神经网络,根据所述第一候选区域特征,提取所述第一候选区域的图卷积特征,得到所述第一候选区域的掩膜数据。
[0153]
进一步地,第二提取单元,包括:
[0154]
第一下采样子单元,用于对所述第一候选区域特征进行下采样,得到下采样后的第一候选区域特征;
[0155]
第一变换子单元,用于利用所述双层图卷积神经网络,对所述下采样后的第一候选区域特征进行线性变换,得到相似性邻接矩阵;
[0156]
第一提取子单元,用于基于所述相似性邻接矩阵,提取所述第一候选区域的图卷积特征,得到所述第一候选区域的掩膜数据。
[0157]
在一实施例中,训练模块602,还包括:
[0158]
第二提取子模块,用于利用所述包围框识别网络,提取所述目标特征图上的第一候选区域的包围框特征;
[0159]
第一识别子模块,用于基于所述包围框特征,识别所述第一候选区域的包围框类别、包围框坐标和包围框长宽比,得到所述第一候选区域的包围框数据;
[0160]
第二更新子模块,用于基于所述包围框数据与所述包围框标注数据之间的第二损失函数,更新所述包围框识别网络的网络参数。
[0161]
可选地,所述第二损失函数为:
[0162][0163]
其中,l
cls
为fast rcnn网络的包围框回归损失函数,l
reg
为fast rcnn网络的包围框定位损失函数,lr为smooth l1损失函数,pi为所述包围框类别,为所述包围框标注数据中的包围框类别标注数据,ti为所述包围框坐标,为所述包围框标注数据中的包围框坐标标注数据,ri为所述包围框长宽比,为所述包围框长宽比标注数据,n
cls
为训练批次,n
reg
为候选区域数量,α和β为平衡参数。
[0164]
在一实施例中,所述收敛条件为所述细长目标实例分割模型的迭代次数达到预设次数或训练损失值小于预设值。
[0165]
在一实施例中,第一获取模块601,包括:
[0166]
第一获取子模块,用于获取所述图像样本和所述图像样本的标注数据;
[0167]
第三提取子模块,用于利用预设的骨干网络,提取所述图像样本的第一图像特征;
[0168]
第一输出子模块,用于利用预设的特征金字塔网络,根据所述第一图像特征,输出多个不同分辨率的所述目标特征图;
[0169]
第一预测子模块,用于利用预设的候选区域网络,预测所述目标特征图的第一候选区域。
[0170]
上述的训练装置可实施上述方法实施例的训练方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本技术实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
[0171]
为了执行上述方法实施例对应的实例分割方法,以实现相应的功能和技术效果,参见图7,图7示出了本技术实施例提供的一种实例分割装置的结构框图。为了便于说明,仅
示出了与本实施例相关的部分,本技术实施例提供的实例分割装置,包括:
[0172]
第二获取模块701,用于获取待分割图像的实例特征图,所述实例特征图上对应有第二候选区域;
[0173]
分割模块702,用于基于预设的实例分割模型,对所述实例特征图上的第二候选区域进行实例分割,得到所述第二候选区域的包围框实例数据和掩膜实例数据,所述实例分割模型基于上述训练方法训练得到。
[0174]
在一实施例中,第二获取模块701,包括:
[0175]
第二获取子模块,用于获取所述待分割图像;
[0176]
第四提取子模块,用于利用预设的骨干网络,提取所述待分割图像的第二图像特征;
[0177]
第二输出子模块,用于利用预设的特征金字塔网络,根据所述第二图像特征,输出多个不同分辨率的所述实例特征图;
[0178]
第二预测子模块,用于利用预设的候选区域网络,预测所述实例特征图的第二候选区域。
[0179]
在一实施例中,分割模块702,包括:
[0180]
第五提取子模块,用于利用所述实例分割模型的包围框识别网络,提取所述实例特征图上的第二候选区域的包围框特征;
[0181]
第二识别子模块,用于基于所述包围框特征,识别所述第二候选区域的包围框类别、包围框坐标和包围框长宽比,输出所述第二候选区域的包围框实例数据;
[0182]
第二确定子模块,用于基于所述包围框识别网络识别得到的包围框长宽比,确定所述第二候选区域的动态长度和动态宽度;
[0183]
第六提取子模块,用于利用所述实例分割模型的掩膜识别网络,根据所述动态长度和所述动态宽度,对所述第二候选区域进行特征提取,输出所述第二候选区域的掩膜实例数据。
[0184]
进一步地,第六提取子模块,包括:
[0185]
第三提取单元,用于根据所述动态长度和所述动态宽度,对所述第二候选区域进行特征提取,得到第二候选区域特征;
[0186]
第四提取单元,用于利用预设的双层图卷积神经网络,根据所述第二候选区域特征,提取所述第二候选区域的图卷积特征,输出所述第二候选区域的掩膜实例数据。
[0187]
可选地,第四提取单元,包括:
[0188]
第二下采样子单元,用于对所述第二候选区域特征进行下采样,得到下采样后的第二候选区域特征;
[0189]
第二变换子单元,用于利用所述双层图卷积神经网络,对所述下采样后的第二候选区域特征进行线性变换,得到相似性邻接矩阵;
[0190]
第二提取子单元,用于基于所述相似性邻接矩阵,提取所述第二候选区域的图卷积特征,得到所述第二候选区域的掩膜实例数据。
[0191]
上述的实例分割装置可实施上述方法实施例的实例分割方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本技术实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
[0192]
图8为本技术一实施例提供的计算机设备的结构示意图。如图8所示,该实施例的计算机设备8包括:至少一个处理器80(图8中仅示出一个)处理器、存储器81以及存储在所述存储器81中并可在所述至少一个处理器80上运行的计算机程序82,所述处理器80执行所述计算机程序82时实现上述任意方法实施例中的步骤。
[0193]
所述计算机设备8可以是上位机、平板电脑、桌上型计算机等计算设备,该计算机设备可包括但不仅限于处理器80、存储器81。本领域技术人员可以理解,图8仅仅是计算机设备8的举例,并不构成对计算机设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
[0194]
所称处理器80可以是中央处理单元(central processing unit,cpu),该处理器80还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0195]
所述存储器81在一些实施例中可以是所述计算机设备8的内部存储单元,例如计算机设备8的硬盘或内存。所述存储器81在另一些实施例中也可以是所述计算机设备8的外部存储设备,例如所述计算机设备8上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器81还可以既包括所述计算机设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
[0196]
另外,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。
[0197]
本技术实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现上述各个方法实施例中的步骤。
[0198]
在本技术所提供的几个实施例中,可以理解的是,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
[0199]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0200]
以上所述的具体实施例,对本技术的目的、技术方案和有益效果进行了进一步的
详细说明,应当理解,以上所述仅为本技术的具体实施例而已,并不用于限定本技术的保护范围。特别指出,对于本领域技术人员来说,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1