图像分割模型的训练与蒸馏方法、电子设备、存储介质与流程

文档序号:32785008发布日期:2023-01-03 18:05阅读:30来源:国知局
图像分割模型的训练与蒸馏方法、电子设备、存储介质与流程

1.本发明涉及图像处理技术领域,更具体地涉及一种图像分割模型的训练方法、应用于图像分割模型的知识蒸馏方法、电子设备和存储介质。


背景技术:

2.近年来,图像分割一直是一个活跃的研究领域,例如该技术可以帮助修复医疗领域的漏洞,并帮助大众。在图像分割领域,通常使用图像分割模型对图像进行分割。图像分割模型通常使用训练样本图像,基于损失函数进行训练。
3.目前,训练图像分割模型存在以下问题:不仅模型收敛速度慢,训练费时;而且,在前后景样本数量不均衡的场景下,训练的模型效果比较差,漏检率高,无法得到一个性能较佳的模型。


技术实现要素:

4.考虑到上述问题而提出了本发明。本发明提供了一种图像分割模型的训练方法、应用于图像分割模型的知识蒸馏方法、电子设备和存储介质。
5.根据本发明一方面,提供了一种图像分割模型的训练方法。训练方法包括:获取训练样本图像;将训练样本图像输入至图像分割模型中,并基于第三预设损失函数对图像分割模型进行迭代训练;其中,第三预设损失函数包括:在目标类别下的真实样本像素集合和实际预测样本像素集合的多种交集一一对应的多种概率值,每种概率值与对应交集中的像素属于目标类别的真实值和预测值相关,并且每种概率值的预测值在第三预设损失函数中被配置为在第三预设衰减参数的作用下进行非线性衰减。
6.示例性地,真实样本像素集合包括真实正样本像素集合和真实负样本像素集合,实际预测样本像素集合包括实际预测正样本像素集合和实际预测负样本像素集合,多种交集包括第一交集、第二交集和第三交集,其中,第一交集为目标类别下真实正样本像素集合和实际预测正样本像素集合的交集;第二交集为目标类别下真实正样本像素集合和实际预测负样本像素集合的交集;第三交集为目标类别下真实负样本像素集合和实际预测正样本像素集合的交集。
7.示例性地,第二交集和第三交集对应的概率值具有对应的权重系数,第二交集所对应的概率值的权重系数大于第三交集所对应的概率值的权重系数。
8.示例性地,第三预设损失函数=1-预设损失系数,预设损失系数为交并比函数,多种概率值存在于交并比函数的分母中。
9.示例性地,第三预设损失函数为dice损失函数。
10.示例性地,第三预设损失函数仅与所有训练样本图像所包含的所有类别中用于作为目标类别的稀有类相关,或者,第三预设损失函数与所有训练样本图像所包含的用于作为目标类别的所有类别相关,其中,稀有类是指训练样本图像所包含的所有类别中标注数量或标注比例小于预设阈值的类别。
11.示例性地,dice损失函数的dice损失系数中的分子和分母均为在概率值的基础上加上平滑项系数,平滑项系数不等于0。
12.示例性地,预设损失系数的分母包括tp、αfn、βfp之和,α和β是权重系数;tp=tc*p
cn1
,tp表示在目标类别c下第一交集中所有像素的真实值tc和预测值pc的n1次方的乘积并求和;fn=(1-pc)
n2
*tc,fn表示在目标类别c下第二交集中所有像素的真实值tc和预测值(1-pc)的n2次方的乘积并求和;fp=p
cn3
*(1-tc),fp表示在目标类别c下第三交集中所有像素的真实值1-tc和预测值pc的n3次方的乘积并求和;n1、n2和n3分别为第三预设衰减参数,且分别大于1。
13.示例性地,n1=n2=n3。
14.示例性地,n1=n2=n3=2。
15.示例性地,若目标类别越稀有,则该目标类别下的第二交集所对应的概率值的权重系数越大。
16.示例性地,不同目标类别下的所第二交集和第三交集所对应的概率值的权重系数分别单独设置。
17.根据本发明的另一方面,还提供了一种应用于图像分割模型的知识蒸馏方法。该知识蒸馏方法包括:获取训练样本图像;将训练样本图像分别输入学生分割模型和教师分割模型中进行模型训练,在训练过程中基于蒸馏损失函数来计算损失;其中,蒸馏损失函数包括基于软目标计算的软损失函数和基于硬目标计算的硬损失函数,其中,硬损失函数采用上述的第三预设损失函数实现。
18.示例性地,软损失函数采用第一预设损失函数或第二预设损失函数实现,
19.其中,第一预设损失函数包括以下交叉熵之和:
20.第一类别所对应的交叉熵:基于第一类别在预设logits调整参数下得到的预测值而计算得到交叉熵值;
21.带有衰减倍数的第二类别所对应的交叉熵:衰减倍数在第一预设衰减参数下将(1-第二类别的预测值)非线性衰减;
22.其中,第二预设损失函数包括多个类别所对应的交叉熵之和;
23.每个类别的交叉熵带有预设衰减倍数,衰减倍数在第二预设衰减参数下将(1-该类别的预测值)非线性衰减;
24.每个类别在预设logits调整参数下得到该类别的预测值,根据预测值计算该类别的交叉熵。
25.示例性地,第一类别为稀有类,第二类别为非稀有类,稀有类是指训练样本图像所包含的所有类别中标注数量或标注比例小于预设阈值的类别。
26.示例性地,第一预设衰减参数为γ,衰减倍数为(1-第二类别的预测值)的γ次方,γ为非负数;或者,
27.第二预设衰减参数为γ,衰减倍数为(1-对应类别所对应的预测值)的γ次方,γ为非负数。
28.根据本发明的又一方面,还提供了一种电子设备,包括处理器和存储器,存储器中存储有计算机程序,处理器执行计算机程序以实现上述的图像分割模型的训练方法以及上述的知识蒸馏方法。
29.根据本发明的再一方面,还提供了一种存储介质,存储有计算机程序/指令,计算机程序/指令被处理器执行时实现上述的图像分割模型的训练方法以及上述的知识蒸馏方法。
30.根据本发明实施例的多图像分割模型的训练方法、应用于图像分割模型的知识蒸馏方法、电子设备和存储介质,通过预设衰减参数对预测值进行非线性衰减,这有助于加速模型的收敛速度,便于在较短时间内获得性能较好的图像分割模型,尤其在前后景样本数量不均衡的情形下,漏检率低。
附图说明
31.通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
32.图1示出根据本发明一个实施例的图像分割模型的训练方法的示意性流程图;
33.图2示出根据本发明一个实施例的图像分割模型的训练方法的示意性流程图;
34.图3示出根据本发明一个实施例的图像分割模型的训练方法的示意性流程图;
35.图4示出了根据本发明一个实施例的应用于图像分割模型的知识蒸馏方法的示意性流程图;
36.图5示出了根据本发明一个实施例的应用于图像分割模型的知识蒸馏模型的示意图;
37.图6示出了根据本发明一个实施例的利用混凝土裂纹数据集,基于图1所示的训练方法对图像分割模型进行训练的试跑结果的示意;以及
38.图7示出了根据本发明一个实施例的电子设备的示意性框图。
具体实施方式
39.为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
40.为了至少部分地解决上述问题,本发明实施例提供了一种图像分割模型的训练方法。图1示出了根据本发明一个实施例的图像分割模型的训练方法100的示意性流程图。如图1所示,该训练方法100可以包括以下步骤s110和s120。
41.步骤s110,获取训练样本图像。
42.示例性地,训练样本图像可以是包含任何目标物体的图像,目标物体可以是例如,车辆、人或人体的一部分(诸如人脸)、动物、建筑物等。训练样本图像可以是静态图像,也可以是动态视频中的任一视频帧。训练样本图像可以是图像采集装置(例如相机中的图像传感器)采集到的原始图像,也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。可以理解,对原始图像的预处理可以包括从图像采集装置采集到的原始
图像中提取包含目标物体的子图像进而获得训练样本图像的操作。
43.示例性地,训练样本图像在工业场景下,训练样本图像可以为包括缺陷的图像,缺陷称之为前景(目标),所述图像的除了前景的区域称为后景或背景。
44.需要说明的是,训练样本图像上标注有标注数据(或者称之为标签值、真实值、标签数据、真实数据等)。
45.步骤s120,将训练样本图像输入至图像分割模型中,并基于第三预设损失函数对图像分割模型进行迭代训练。其中,第三预设损失函数包括:在目标类别下的真实样本像素集合和实际预测样本像素集合的多种交集一一对应的多种概率值,每种概率值与对应交集中的像素属于目标类别的真实值和预测值相关,并且每种概率值的预测值在第三预设损失函数中被配置为在第三预设衰减参数的作用下进行非线性衰减。
46.示例性地,可以将上述步骤s110中获取的训练样本图像输入至图像分割模型中,基于第三预设损失函数对图像分割模型进行迭代训练,经过多次迭代训练后可以获得满足要求的图像分割模型。训练样本图像是用来训练图像分割模型的。本领域技术人员可以理解的是,在获取训练样本图像时,还可以获取该训练样本图像对应的标注数据。标注数据是预先标注好的、真实的图像分割结果。在对图像分割模型进行迭代训练时,可以将标注数据和图像分割模型针对训练样本图像的预测结果代入第三预设损失函数计算损失值,并基于损失值,利用反向传播和梯度下降算法优化图像分割模型中的参数(包括各网络层的权重和偏置等)。
47.第三预设损失函数可以包括:在目标类别下的真实样本像素集合和实际预测样本像素集合的多种交集一一对应的多种概率值,每种概率值与对应交集中的像素属于该目标类别的真实值和预测值相关,并且每种概率值的预测值在第三预设损失函数中被配置为在第三预设衰减参数的作用下进行非线性衰减。
48.根据本发明实施例的图像分割模型的训练方法,通过第三预设衰减参数对预测值进行非线性衰减,这有助于加速模型的收敛速度,便于在较短时间内获得性能较好的图像分割模型,尤其是在前后景样本数量不均衡的情形,加速对小目标分割任务的训练,而且训练出的模型漏检率低。所谓小目标可以理解为在图像中占比较小的前景,比如在一整张大图中,出现的小裂纹等。由于在真实的工业场景中,获取到的真实的训练样本数量较小,因此,前后景样本数量不均衡,故,采用本发明实施例中的图像分割模型的训练方法能够很好地落地在工业场景下。
49.示例性地,真实样本像素集合可以包括真实正样本像素集合和真实负样本像素集合,实际预测样本像素集合可以包括实际预测正样本像素集合和实际预测负样本像素集合,上述的多种交集可以包括第一交集、第二交集和第三交集,其中,第一交集为目标类别下真实正样本像素集合和实际预测正样本像素集合的交集;第二交集为目标类别下真实正样本像素集合和实际预测负样本像素集合的交集;第三交集为目标类别下真实负样本像素集合和实际预测正样本像素集合的交集。
50.第一交集可以用tp表示,第一交集可以表示真实的正样本经过图像分割模型后被正确地确定为正样本的像素。第二交集可以用fn表示,第二交集可以表示真实的正样本经过图像分割模型后被错误地确定为负样本的像素。第三交集可以用fp表示。第三交集可以表示真实的负样本经过图像分割模型后被错误地确定为正样本的像素。
51.示例性地,tp、fn和fp可以通过以下方式计算:
52.tp=tc*pc,即tp可以用目标类别c下第一交集中所有像素的真实值tc和预测值pc的乘积并求和来表示。
53.fn=(1-pc)*tc,即fn可以用目标类别c下第二交集中所有像素的真实值tc和预测值(1-pc)的乘积并求和来表示。
54.fp=pc*(1-tc),即fp可以用目标类别c下第三交集中所有像素的真实值(1-tc)和预测值pc的成乘积并求和来表示。
55.tc是指c类的真实值(也可称之为标签值,通常若该像素是c类,那么tc就是1,否则tc就是0),pc是指c类的预测值。可以理解,对于真实正样本来说,其真实值可以用tc表示,对于真实负样本来说,其真实值可以用(1-tc)表示,对于实际预测正样本来说,其预测值可以用pc表示,对于实际预测负样本来说,其预测值可以用(1-pc)表示。
56.本实施例通过同时采用以上三种交集,可以比较全面地考虑到正负样本的各种预测情况,有助于训练获得预测性能较好的图像分类模型。
57.示例性地,第二交集和第三交集对应的概率值具有对应的权重系数,第二交集所对应的概率值的权重系数大于第三交集所对应的概率值的权重系数。
58.在一个实施例中,第二交集对应的概率值可以具有对应的权重系数
ɑ
,第三交集对应的概率值可以具有对应的权重系数β,其中,第二交集对应的概率值的权重系数
ɑ
大于第三交集对应的概率值的权重系数β。同时,示例性地,
ɑ
+β=1。
59.在本实施例中,基于权重系数α和β,可以方便调整损失计算过程中对不同数据交集的关注度,进一步地有助于解决正负样本不均衡所带来的漏检问题。此外,为fn、fp分配不同的权重(
ɑ
大一点,β小一点),可以使得第三预设损失函数能够更注重于fn的训练,降低对fp的关注,这样可以达到提升小目标召回率的目的。
60.示例性地,第三预设损失函数=1-预设损失系数,预设损失系数为交并比函数,多种概率值存在于交并比函数的分母中。
61.在一个实施例中,上述预设损失系数是指所有样本的所有目标类别的损失系数之和,即:第三预设损失函数可以等于1-所有样本的所有目标类别的损失系数之和。
62.在另一个实施例中,上述预设损失系数是指所有样本的所有目标类别的损失系数之和基于所有样本的均值,即:第三预设损失函数还可以等于1-1/n(所有样本的所有目标类别的损失系数之和),其中n为单次迭代的样本的总数量。通过交并比函数,可以比较好地基于多种交集衡量图像分割模型的预测准确度,有助于提高图像分割模型的训练效果。
63.示例性地,第三预设损失函数可以为dice损失函数。
64.在一个实施例中,第三预设损失函数可以是dice损失函数。二分类的dice损失函数可以表示为tpl(p,t),如下:
[0065][0066]
其中,c表示目标类别,c=1表示前景区域(即正样本),c=0表示背景区域(即负样本);n代表每次迭代的样本的总数量,tc表示c类的真实值,pc表示c类的预测值,γ为平滑项系数;其中α和β表示权重系数,n表示第三预设衰减参数,并且α+β=1。γ的值可以根据需要人为设定。
[0067]
示例性地,第三预设损失函数仅与所有训练样本图像所包含的所有类别中用于作为目标类别的稀有类相关,或者,第三预设损失函数与所有训练样本图像所包含的用于作为目标类别的所有类别相关,其中,稀有类是指训练样本图像所包含的所有类别中标注数量或标注比例小于预设阈值的类别。
[0068]
在实施例中,稀有类可以表示训练样本图像所包含的所有类别中标注数量或标注比例少于预设阈值的类别。标注数量可以理解为带有标注的训练样本图像的数量。任一类别的标注比例为当前类别的标注数量占所有类别的标注数量的比例。预设阈值可以根据需要设定为任何合适的值,本发明不对此进行限制。例如,训练样本图像所包含的所有类别可以包括,人、树木、车辆。其中,属于人的类别的标注数量是100,属于树木的类别的标注数量是80,属于车辆的类别的标注数量是20,预设阈值是80或2/5。属于人的类别的标注数量占所有类别的标注数量的1/2,属于树木的类别的标注数量占所有类别的标注数量的2/5,属于车辆的类别的标注数量占所有类别的标注数量的1/10。由此,可以确定人和树木的标注数量或标注比例大于或等于预设阈值,车辆的标注数量或标注比例小于预设阈值,那么车辆属于稀有类。第三预设损失函数可以仅与所有训练样本图像所包含的所有类别中用于作为目标类别的稀有类相关,在二分类的图像分割场景下,稀有类为前景,非稀有类为背景。例如,可以在以上dice损失函数的计算公式中仅将稀有类所对应的真实值和预测值代入公式进行计算,而忽略其他类别的信息。当然,可选地,第三预设损失函数还可以与所有训练样本图像所包含的用于作为目标类别的所有类别相关。即,可以不区分稀有类和非稀有类,而是将所有类别的真实值和预测值都加入第三预设损失函数的计算中。针对多类别的图像分割而言,所有类别作为目标类别与仅稀有类作为目标类别相比,交并比(iou)比较好,模型训练效果比较好。而针对二分类的图像分割而言,仅稀有类作为目标类别与所有类别作为目标类别,这两种方式的训练效果差别不大,因此,通常采用仅稀有类作为目标类别,如上述公式(1)所示。
[0069]
在一个实施例中,dice损失函数的dice损失系数中的分子和分母均为在概率值的基础上加上平滑项系数,所述平滑项系数不等于0。
[0070]
平滑项系数可以用γ表示。由此,可以有效地避免dice损失函数的dice损失系数中的分母为0的情况。同时,加入γ项,方便用户根据需求以及dice损失函数的应用场景,对平滑项系数进行人为调节。
[0071]
示例性地,预设损失系数的分母包括tp、αfn、βfp之和,α和β是权重系数;tp=tc*p
cn1
,tp表示在目标类别c下第一交集中所有像素的真实值tc和预测值pc的n1次方的乘积并求和;fn=(1-pc)
n2
*tc,fn表示在目标类别c下第二交集中所有像素的真实值tc和预测值(1-pc)的n2次方的乘积并求和;fp=p
cn3
*(1-tc),fp表示在目标类别c下第三交集中所有像素的真实值1-tc和预测值pc的n3次方的乘积并求和;n1、n2和n3分别为第三预设衰减参数,且分别大于1。
[0072]
在以上dice损失函数的计算公式(1)中,示出tp、fn和fp所对应的第三预设衰减参数都是n,但是这仅是一种简略表示,这三种交集可以具有各自对应的第三预设衰减参数n1、n2和n3。也就是说,上述dice损失函数中的损失系数的分母也可以包括:tc*p
cn1
+α(1-pc)
n2
*tc+βp
cn3
*(1-tc)。其中,n1、n2、n3均大于1。
[0073]
基于前述的平滑项系数,进一步地,上述dice损失函数中的损失系数的分母可以
表示为:tc*p
cn1
+α(1-pc)
n2
*tc+βp
cn3
*(1-tc)+γ。
[0074]
第三预设衰减参数n1、n2和n3各自分开设置,方便根据需要独立调整tp、fn和fp的衰减速度,这种方案实现方式灵活,适用范围更广。
[0075]
示例性地,n1=n2=n3。
[0076]
优选地,n1、n2、n3相等,n的值可以影响图像分割模型的收敛速度以及图像分割模型的准确率,n的值越高模型加速收敛越明显,但是同时n过高会影响图像分割模型的准确率,因此,可以根据需要设置n1、n2、n3的值。n1=n2=n3的方案参数数量少,方便计算和参数调整。
[0077]
示例性地,n1=n2=n3=2。
[0078]
优选地,n1、n2、n3相等且等于2。如上所述,n的值越高图像分割模型加速收敛越明显但是会影响图像分割模型的准确率,因此,在n1=n2=n3=2的情况下,可以使得模型加速和结果准确率达到较优的平衡。
[0079]
示例性地,若目标类别越稀有,则该目标类别下的第二交集所对应的概率值的权重系数越大。
[0080]
优选地,目标类别越稀有,那么该目标类别下的第二交集所对应的概率值的权重系数α也就越大。通过调整第二交集所对应的概率值的权重系数,可以进一步地调节第二交集所对应的概率值在损失计算过程中的关注度,目标类别越稀有,权重系数越大,那么对其关注度也越高,使得图像分割模型的分割性能也就越好。
[0081]
示例性地,不同目标类别下的所第二交集和第三交集所对应的概率值的权重系数分别单独设置。
[0082]
在一个实施例中,不同目标类别下的所对应的第二交集的概率值
ɑ
和第三交集的概率值β可以分别单独设置。例如,第一目标类别下的第二交集所对应的概率值可以是
ɑ1,第三交集所对应的概率值可以是β1;第二目标类别下的第二交集所对应的概率值可以是
ɑ2,第三交集所对应的概率值可以是β2。
ɑ1和
ɑ2彼此独立,β1和β2彼此独立。这种单独设置权重系数的方案实现灵活,方便独立调整训练过程对各种类别的关注度。
[0083]
上文描述了针对二分类的一种示例性第三预设损失函数的表示公式,即公式(1)。此外,示例性地,针对二分类和多分类(类别数目大于2),还存在以下通用的第三预设损失函数表示公式:
[0084][0085]
其中,i表示第i类别为目标类别c,m表示目标类别的总数目,其余参数的含义与上述公式(1)的对应参数一致,不再赘述。
[0086]
根据本发明的第二方面,提供了一种图像分割模型的训练方法。图2示出了根据本发明一个实施例的图像分割模型的训练方法200的示意性流程图。如图2所示,该训练方法200可以包括以下步骤s210和s220。
[0087]
步骤s210,获取训练样本图像。
[0088]
示例性地,获取训练样本图像的方法与上述步骤s110类似,为了简洁,在此不再赘述。
[0089]
步骤s220,将训练样本图像输入至图像分割模型中,并基于第一预设损失函数对图像分割模型进行迭代训练;其中,第一预设损失函数包括以下交叉熵之和:第一类别所对应的交叉熵:基于第一类别在预设logits调整参数下得到的预测值而计算得到交叉熵值;带有衰减倍数的第二类别所对应的交叉熵:衰减倍数在第一预设衰减参数下将(1-第二类别的预测值)非线性衰减。
[0090]
示例性地,可以将上述步骤s210获取的训练样本图像输入至待训练的图像分割模型中,基于第一预设损失函数对图像分割模型迭代训练,经过多次迭代训练后可以获得满足要求的图像分割模型,上文描述了图像分割模型的迭代训练方式,此处不赘述。为了区分,可以将图像分割模型的训练方法100中涉及的预设损失函数称为第三预设损失函数,将图像分割模型的训练方法200中涉及的预设损失函数称为第一预设损失函数,将下述图像分割模型的训练方法300中涉及的预设损失函数称为第二预设损失函数。
[0091]
在一个实施例中,图像分割模型所采用的第一预设损失函数可以是非对称损失函数。非对称损失函数是指针对不同类别分别采用不同的损失计算方式。例如,第一预设损失函数可以包括第一类别和第二类别各自对应的交叉熵之和。第一类别和第二类别各自对应的交叉熵的计算方式不同,这可以参考下文描述理解。
[0092]
第一类别所对应的交叉熵可以包括基于第一类别在预设logits调整参数下得到的预测值而计算得到交叉熵值;第二类别所对应的交叉熵可以包括衰减倍数在第一预设衰减参数下将(1-第二类别的预测值)非线性衰减。
[0093]
示例性而非限制性地,第一类别所对应的交叉熵可以为基于第一类别所对应的真实值以及第一类别所对应的预测值的乘积计算获得的交叉熵值,通过调整预设logits调整参数的大小,相对现有技术中未设置预设logits调整参数来提高稀有类的预测值,可以完全保留样本较少的稀有类样本的损失,并且使得决策边界向非稀有类偏移,训练出来的模型具备更好的泛化能力,防止过拟合,因此,有助于解决样本不均衡带来的图像分割模型过拟合等问题。现有技术中未设置预设logits调整参数,即,第一类别所对应的预测值为基于第一类别的logits值计算获得的预测值,可以理解为pc,即常规技术中基于第一类别的logits值计算获得的预测值。而在实施例中,第一类别所对应的预测值是第一类别在预设logits调整参数下得到的预测值。在本实施例中,通过预设logits调整参数,可以使得第一类别的预测值相比现有技术中的预测值得到提高。
[0094]
示例性而非限制性地,第二类别所对应的交叉熵可以为基于衰减项、第二类别所对应的真实值以及第二类别所对应的预测值的乘积计算获得的交叉熵值,衰减项小于1。衰减项可以理解为衰减倍数。
[0095]
示例性地,第一类别可以是稀有类,第二类别可以是非稀有类。可选地,在将图像分割模型应用于二分类的场景下,稀有类可以是前景类,非稀有类可以是背景类。可选地,在将图像分割模型应用于多分类(类别数目大于2)的场景下,稀有类可以是多种类别中的一部分,非稀有类可以是多种类别中的另一部分。
[0096]
根据本发明实施例的图像分割模型的训练方法200,通过损失函数中的预设logtis调整参数,可以完全保留样本较少的稀有类样本的损失,并且使得决策边界向非稀有类偏移,训练出来的模型具备更好的泛化能力,防止过拟合,因此,有助于解决样本不均衡带来的图像分割模型过拟合等问题。通过损失函数中的第一预设衰减参数对第二类别进
行权重衰减,这样可以平衡第一类别和第二类别的损失,即可以平衡稀有类和非稀有类的损失,用于解决类别不均衡所带来的小目标损失不足,进而有助于降低漏检率和误检率。综上,基于这种方式训练获得的图像分割模型对于样本不均衡或小样本学习下的小目标的图像分割具备较强的普适性。
[0097]
在一个实施例中,多分类第一预设损失函数的公式可以如下:
[0098][0099]
其中,n表示每次迭代训练时训练样本图像的总数量;t
c=i
表示当前类别c为第一类别i时的真实值;表示当前类别c为第一类别i时基于预设logits调整参数m下获得的预测值;t
c≠i
表示当前类别c为任一第二类别时的真实值;p
c≠i
表示当前类别c为任一第二类别时的预测值;γ表示第一预设衰减参数。
[0100]
在另一个实施例中,二分类第一预设损失函数的公式可以如下:
[0101][0102]
其中,c表示当前类别,c=1表示前景区域(即第一类别),c=0表示背景区域(即第二类别);n表示每次迭代训练时训练样本图像的总数量;tc表示当前类别c为第一类别时的真实值;表示当前类别c为第一类别时基于预设logits调整参数m获得的预测值;(1-tc)表示当前类别c为第二类别时的真实值;表示当前类别c为第二类别时的预测值;γ表示第一预设衰减参数。
[0103]
需注意,在二分类中,仅包含前景类和背景类,第一类别可以是前景类和背景类中的一者,第二类别可以是另一者。在多分类中,包含多种类别,第一类别可以是多种类别中的部分类别,第二类别是另一部分类别。也就是说,在多分类中,可以有一种或多种类别属于第一类别,也可以有一种或多种类别属于第二类别。
[0104]
示例性地,第一类别为稀有类,第二类别为非稀有类,稀有类是指训练样本图像所包含的所有类别中标注数量或标注比例小于预设阈值的类别。训练样本图像所包含的所有类别就是指当前所要分类出的所有类别,这些类别通常是预设好的。
[0105]
稀有类和非稀有类的定义可以参考上文描述,此处不赘述。
[0106]
示例性地,第一预设衰减参数为γ;衰减倍数为(1-第二类别的预测值)的γ次方,γ为非负数。
[0107]
参见以上公式(3),衰减倍数可以表示为(1-p
c≠i
)
γ
。这种方案可以实现第二类别权重的较快速衰减,可以进一步帮助解决样本不均衡的问题。
[0108]
示例性地,γ的取值范围为[1,5]。
[0109]
优选地,γ取值范围可以是[1,5]。γ的取值与样本的不均衡度有关,其中,样本的不均衡度越高,则γ的取值可以越大。
[0110]
示例性地,基于每个第一类别的logits值与预设logits调整参数m之差获得该第一类别的预测值,m为非负数。
[0111]
可选地,第一类别的预测值可以是基于该类别对应的logits-m值所预测获得的预测值。本领域技术人员可以理解,logits为图像分割模型最后一层的输出值,该值经过最后的激活函数处理之后可以获得预测值。基于logits-m值所预测获得的预测值就是用logits-m值代替logits值输入激活函数中进行处理获得的结果。示例性地,当图像分割模型应用于二分类时,图像分割模型采用的激活函数可以是sigmoid函数,当图像分割模型应用于多分类时,图像分割模型采用的激活函数可以是softmax函数。
[0112]
通过预设logits调整参数m,可以使得损失函数能够尽量保留第一类别样本(例如稀有类)的损失,并且使得决策边界向第二类别(例如非稀有类)偏移,这样可以使得训练出来的图像分割模型具备更好的泛化能力,防止过拟合。
[0113]
示例性地,m的取值范围为[0.5,1.5]。
[0114]
优选地,m取值范围可以是[0.5,1.5],当前m的取值范围可以对应样本的不均衡度在3%~10%之间。其中,样本的不均衡度是3%表示属于第一类别(例如前景类)的样本的数量仅占所有样本的3%,其他比例类似。样本的不均衡度越高,m的取值可以越大。
[0115]
示例性而非限制性,上述m和γ可以依靠人工方式设置和调节,从而调整模型训练的效果。
[0116]
根据本发明的第三方面,还提供了一种图像分割模型的训练方法。图3示出了根据本发明一个实施例的多分类图像分割模型的训练方法300的示意性流程图。如图3所示,该训练方法300可以包括以下步骤s310和s320。
[0117]
步骤s310,获取训练样本图像。
[0118]
示例性地,获取训练样本图像的方法与上述步骤s110类似,为了简洁,在此不再赘述。
[0119]
步骤s320,将训练样本图像输入至图像分割模型中,并基于第二预设损失函数对图像分割模型进行迭代训练;其中,第二预设损失函数包括多个类别所对应的交叉熵之和;每个类别的交叉熵带有预设衰减倍数,衰减倍数在第二预设衰减参数下将(1-该类别的预测值)非线性衰减;每个类别在预设logits调整参数下得到该类别的预测值,根据预测值计算该类别的交叉熵。
[0120]
示例性地,可以将上述步骤s310获取的训练样本图像输入至图像分割模型中,基于第二预设损失函数对图像分割模型迭代训练,经过多次迭代训练后可以获得满足要求的图像分割模型。训练样本图像是用来训练图像分割模型的。本领域技术人员可以理解的是,在获取训练样本图像时,还可以获取对应的标注数据。标注数据是预先标注好的、真实的图像分割结果。在对图像分割模型进行迭代训练时,可以将标注数据和图像分割模型针对训练样本图像的预测结果代入第二预设损失函数计算损失值,并基于损失值,利用反向传播和梯度下降算法优化图像分割模型中的参数(包括各网络层的权重和偏置等)。
[0121]
在一个实施例中,图像分割模型所采用的第二预设损失函数可以是对称损失函数。对称损失函数是指针对不同类别采用相同的损失计算方式。例如,第二预设损失函数可以包括多个类别各自对应的交叉熵之和。多个类别各自对应的交叉熵的计算方式相同,这可以参考下文描述理解。上述计算方式相同是指不同类别对应的计算公式相同,但是不同类别的计算公式中的参数的大小,例如第二预设衰减参数和/或预设logits调整参数的大小,可以不同。
[0122]
每个类别所对应的交叉熵具有如下条件:带有预设衰减倍数,所述衰减倍数在第二预设衰减参数下将(1-该类别的预测值)非线性衰减;每个类别在预设logits调整参数下得到该类别的预测值并且可以根据预测值计算该类别的交叉熵。
[0123]
示例性而非限制性地,每个类别所对应的交叉熵可以为基于衰减项、该类别所对应的真实值以及该类别所对应的预测值的乘积计算获得的交叉熵值,通过调整预设logits调整参数的大小,相对现有技术中未设置预设logits调整参数来提高稀有类的预测值,可以完全保留样本较少的稀有类样本的损失,并且使得决策边界向非稀有类偏移,训练出来的模型具备更好的泛化能力,防止过拟合,因此,有助于解决样本不均衡带来的图像分割模型过拟合等问题。衰减项可以理解为衰减倍数。
[0124]
现有技术中未设置预设logits调整参数的预测值可以理解为pc,即常规技术中基于当前类别的logits值计算获得的预测值。而在本实施例中,任一类别所对应的预测值是该类别在预设logits调整参数下得到的预测值。在本实施例中,通过预设logits调整参数,可以使得当前类别的预测值相比现有技术中的预测值得到提高。
[0125]
根据本发明实施例的图像分割模型的训练方法300,通过损失函数中的预设logtis调整参数有助于解决样本不均衡带来的图像分割模型过拟合等问题,非常适用于细小目标的分割。通过损失函数中的第二预设衰减参数对各类别进行权重衰减,这样便于通过对第二预设衰减参数的设置平衡各类别的损失,调节样本的不均衡情况,有助于降低漏检率。基于这种方式训练获得的图像分割模型对于微小目标的图像分割具备较强的普适性。
[0126]
在另一个实施例中,第二预设损失函数的公式可以如下:
[0127][0128]
其中,n表示每次迭代训练时训练样本图像的总数量;tc表示当前类别c的真实值;表示当前类别c的基于预设logits调整参数m下获得的预测值;γ表示第二预设衰减参数;m表示多个类别的总数目;c=i表示第i类别为当前类别c。
[0129]
示例性地,第二预设衰减参数为γ;衰减倍数为(1-对应类别所对应的预测值)的γ次方,γ为非负数。
[0130]
参见以上公式(5),衰减倍数可以表示为(1-pc)
γ
。这种方案可以实现当前类别权重的较快速衰减,可以进一步帮助解决样本不均衡的问题。
[0131]
示例性地,γ的取值范围为[1,5]。
[0132]
优选地,γ取值范围可以是[1,5]。γ的取值与样本的不均衡度有关,其中,样本的不均衡度越高,则γ的取值可以越大。
[0133]
示例性地,基于每个类别的logits值与预设logits调整参数m之差获得该类别的预测值,m为非负数。
[0134]
关于基于任一类别对应的logits值所预测获得的预测值以及基于任一类别对应的logits-m值所预测获得的预测值的含义可以参考上文描述理解,此处不再赘述。
[0135]
通过预设logits调整参数m,可以使得分类更加缜密,使得训练出来的图像分割模型具备更好的泛化能力,防止过拟合。
[0136]
示例性地,m的取值范围为[0.5,1.5]。
[0137]
优选地,m取值范围可以是[0.5,1.5],当前m的取值范围可以对应样本的不均衡度在3%~10%之间。其中,样本的不均衡度为3%表示前景类的数量仅占3%,因此不均衡度越高,m的取值应该越大。
[0138]
如上所述,第一预设损失函数是非对称损失函数,第二预设损失函数是对称损失函数。对称损失函数更加适用于不均衡程度较轻的场景,非对称公式在不均衡程度较严重的场景上效果明显。
[0139]
根据本发明的第四方面,还提供了一种应用于图像分割模型的知识蒸馏方法。图4示出了根据本发明一个实施例的应用于图像分割模型的知识蒸馏方法400的示意性流程图,如图4所示,该知识蒸馏方法400可以包括以下步骤。
[0140]
步骤s410,获取训练样本图像。
[0141]
示例性地,获取训练样本图像的方法与上述步骤s110类似,为了简洁,在此不再赘述。
[0142]
步骤s420,将训练样本图像分别输入学生分割模型和教师分割模型中进行模型训练,在训练过程中基于蒸馏损失函数来计算损失。其中,蒸馏损失函数包括基于软目标计算的软损失函数和基于硬目标计算的硬损失函数,其中,硬损失函数采用图像分割模型的训练方法100中所述的第三预设损失函数实现。
[0143]
图5示出了根据本发明一个实施例的应用于图像分割模型的知识蒸馏模型的示意图。如图5所示,知识蒸馏模型可以包括学生分割模型、教师分割模型、真实值(ground truth)、软目标(soft target)、软损失函数、硬目标(hard target)、硬损失函数以及蒸馏损失函数。
[0144]
示例性地,可以将上述步骤s410中获取的训练样本图像分别输入学生分割模型和教师分割模型中进行蒸馏训练,并且基于蒸馏损失函数来计算模型损失。本领域技术人员可以理解蒸馏训练的原理和实现方式,本文不赘述。蒸馏损失函数可以包括基于软目标计算的软损失函数和基于硬目标计算的硬损失函数。
[0145]
蒸馏损失函数可以表示为l
distillation
,如下:
[0146][0147]
其中,s是指学生分割模型的logits输出,t是指教师分割模型的logits输出,t为模型蒸馏时的温度,g(ground truth)为真实值。
[0148]
示例性地,软损失函数可以表示为如下:
[0149][0150]
其中,表示学生分割模型的logits输出s与m之差在蒸馏温度t下的预测值;
[0151]
tc表示教师分割模型的logits输出t在蒸馏温度t下的预测值;
[0152]
pc表示学生分割模型的logits输出s在蒸馏温度t下的预测值。需注意,此软损失
函数公式中的γ为一种衰减参数,与硬损失函数中的平滑项系数γ不同。软损失函数公式中的衰减参数γ的取值范围可以为[1,5]。
[0153]
示例性地,硬损失函数可以表示为tpl(p,t),如下:
[0154][0155]
pc表示学生分割模型的logits输出s在蒸馏温度t=1下的预测值;tc表示真实值(ground truth),对应于上述g。
[0156]
可以看出,硬损失函数就是在图像分割模型的训练方法100中采用的第三预设损失函数。此外,还可以看出,软损失函数可以是在图像分割模型的训练方法200中采用的第一预设损失函数或在图像分割模型的训练方法300中采用的第二预设损失函数,当然,这仅是示例,软损失函数还可以采用任意其他合适形式的损失函数实现。
[0157]
在上述技术方案中,可以将复杂且大的图像分割模型作为教师分割模型,而学生分割模型则结构较为简单。利用教师分割模型来辅助学生分割模型进行蒸馏训练,教师分割模型的学习能力更强,可以将它学到的知识迁移给学习能力相对较弱的学生分割模型,以此来增强学生分割模型的泛化能力,进而可以实现两个不同域的数据集的集成和迁移。
[0158]
需注意,以上损失函数和损失函数tpl(p,t)不仅可以用在知识蒸馏的场景下,还可以应用在其他任意合适的图像分割模型的训练场景下。
[0159]
示例性地,软损失函数采用第一预设损失函数或第二预设损失函数实现,
[0160]
其中,第一预设损失函数包括以下交叉熵之和:
[0161]
第一类别所对应的交叉熵:基于第一类别在预设logits调整参数下得到的预测值而计算得到交叉熵值;
[0162]
带有衰减倍数的第二类别所对应的交叉熵:衰减倍数在第一预设衰减参数下将(1-第二类别的预测值)非线性衰减;
[0163]
其中,第二预设损失函数包括多个类别所对应的交叉熵之和;
[0164]
每个类别的交叉熵带有预设衰减倍数,衰减倍数在第二预设衰减参数下将(1-该类别的预测值)非线性衰减;
[0165]
每个类别在预设logits调整参数下得到该类别的预测值,根据预测值计算该类别的交叉熵。
[0166]
示例性地,第一类别为稀有类,第二类别为非稀有类,稀有类是指训练样本图像所包含的所有类别中标注数量或标注比例小于预设阈值的类别。
[0167]
示例性地,第一预设衰减参数为γ,衰减倍数为(1-第二类别的预测值)的γ次方,γ为非负数;或者,
[0168]
第二预设衰减参数为γ,衰减倍数为(1-对应类别所对应的预测值)的γ次方,γ为非负数。
[0169]
参考以上描述,软损失函数可以是在图像分割模型的训练方法200中采用的第一预设损失函数或图像分割模型的训练方法300中采用的第二预设损失函数。关于该预设损失函数的实施例可以参考上文关于图像分割模型的训练方法200或300的描述,此处不赘
述。
[0170]
图6示出了根据本发明一个实施例的利用混凝土裂纹(deepcrack)数据集,基于训练方法100对图像分割模型进行训练的试跑结果的示意图。在图6中,除示出基于训练方法100对图像分割模型进行训练的试跑结果(本技术方案)以外,还示出基于两种其他现有训练方法对图像分割模型进行训练的试跑结果(现有方案1和现有方案2)。如图6所示,纵轴表示训练iou(交并比),横轴表示训练轮次,可以看到本技术方案在10个训练轮次左右就收敛得到相对不错的结果,而在其他两种现有方案中,都要在20个训练轮次之后才可以收敛。
[0171]
根据本发明的第五方面,还提供了一种电子设备。图7示出了根据本发明一个实施例的电子设备700的示意性框图,如图7所示,该电子设备700可以包括处理器710和存储器720。其中,存储器720中存储有计算机程序,处理器710执行计算机程序以实现上述的图像分割模型的训练方法或者上述的应用于图像分割模型的知识蒸馏方法。
[0172]
根据本发明的第六方面,还提供了一种存储介质。存储有计算机程序/指令,计算机程序/指令被处理器执行时实现上述的图像分割模型的训练方法或者上述的应用于图像分割模型的知识蒸馏方法。存储介质例如可以包括平板电脑的存储部件、个人计算机的硬盘、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
[0173]
本领域普通技术人员通过阅读上文关于图像分割模型的训练方法100和应用于图像分割模型的知识蒸馏方法400的相关描述,可以理解上述电子设备和存储介质的具体实现方案,为了简洁,在此不再赘述。
[0174]
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
[0175]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0176]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0177]
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易
想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1