一种基于可分辨特征的半监督物体检测系统及其训练方法

文档序号:33472639发布日期:2023-03-15 09:00阅读:26来源:国知局
一种基于可分辨特征的半监督物体检测系统及其训练方法

1.本发明涉及机器视觉的中的目标检测领域,尤其涉及一种基于可分辨特征的半监督物体检测系统及其训练方法。


背景技术:

2.深度学习在近些年取得了巨大的成功。然而深度学习算法对数据量的需求是巨大的,尽管在实际应用中已经拥有了大量开源的可实现的深度学习算法且可以获得较高的准确率,但是这仍依赖于使用者根据特定场景建立自己的数据集,这会花费大量的金钱和人力成本。在目标检测领域,相较图像分类等简单视觉任务仅需标注图片中物体类别,在标注目标检测数据集过程中,除了对单个目标实例的分类还需对四个边界点位置标注,单个目标的标注时间在10s左右。特别是在自动驾驶等复杂场景,目标数量更多,标注难度也十分巨大。因此,考虑到获取未标记数据比获取有标签数据容易得多,探索使用少量标记数据和大量未标记数据训练目标检测器的半监督目标检测方法成为一个重要的研究问题。
3.虽然半监督学习方法已经被广泛应用在图像分类任务中,但半监督目标检测仍处于研究的初始阶段。限制其发展的难题主要是相比于图像分类,目标检测输入数据中可能包含多个目标实例,这就要求模型不仅需要对每个实例分类同时还要输出每个实例具体的位置。现有的主流半监督方法主要分为两类:基于伪标签的方法和基于一致性正则化的方法。基于伪标签的方法主要是使用有标签数据首先训练一分类器使其对无标签数据输出相应的伪标签。最后使用带伪标签的无标签数据训练模型。基于一致性正则化的方法主要思想是对于无标签图像,添加噪声之后模型预测也应该保持不变,所以该方法鼓励对无标签样本添加扰动或其他数据增强手段训练模型对添加扰动前后的模型预测结果不变。然而上述两种方法虽然验证了其有效性但仍有其局限:伪标签方法无法解决因伪标签预测错误导致的错误累计问题,而一致性正则化方法过分依赖有标签数据从无标签数据中获得的有效信息太少。如何最大化利用有标签数据并尽可能多的利用无标签数据成为半监督学习的主要挑战。
4.人类通过少量数据就可具有分辨物体的能力,其背后的主要原因是人类善于从图片中发现和总结可分辨的特征,在学习过少量样本后,很容易通过主要特征判别图片中实例的位置及类别。例如,通过一小块区域的豹纹纹理人类就有很大把握推断这个实例类别。而神经网络擅长的是对大量输入的偏置的归纳,而缺乏总结可辨识特征的能力,这可能是导致神经网络学习效率不高的主要原因。因此,使模型具有对可分辨特征归纳总结的能力可以使模型更好的从少量有标签数据中总结有用信息,也可使模型从无标签数据中抓取可分辨特征相关的有效信息,提高检测器检测准确率。


技术实现要素:

5.有鉴于此,本发明的目的在于提出一种基于可分辨特征的半监督物体检测系统及其训练方法,以解决现有技术中半监督学习过程中过分依赖有标签数据而对无标签数据利
用不足的问题。
6.基于上述目的,本发明提供了一种基于可分辨特征的半监督物体检测系统,所述系统包括:
7.输入图像特征提取模块:用于提取输入图像数据的特征,并将所述特征编码为高维特征;
8.可分辨特征敏感的区域建议模块:用于基于所述高维特征产生所述输入图像数据的可分辨特征热力图,并通过所述可分辨特征热力图辅助区域建议网络进行定位,生成目标框提案;
9.可分辨特征提取与存储模块:用于提取所述目标框提案中的可分辨特征,并对提取到所述可分辨特征进行对比聚类,形成各类可分辨特征集,再存储各类可分辨特征集的原型向量;
10.可分辨特征数据增强模块:用于遮盖对无标签的所述输入图像数据生成的目标框提案中的部分可分辨特征,迫使系统去不断探索该目标提案中新的可分辨特征;
11.物体识别与定位模块,用于通过所述可分辨特征及所述目标提案中的特征预测正确的物体类别与位置。
12.进一步的,在所述可分辨特征敏感的区域建议模块中,选择类别激活映射图作为可分辨特征的判别标准,设置类别激活映射图的阈值过滤高维特征,产生可分别特征热力图。
13.进一步的,在所述可分辨特征敏感的区域建议模块中,在所述区域建议网络生成目标框提案过程中,计算锚内类别激活映射图的均值作为一项加权损失函数项,使得区域建议网络生成的目标框提案内包含尽可能多的可分辨特征。
14.进一步的,在所述可分辨特征提取与存储模块中,通过引入一对比聚类损失使得相同类特征之间距离靠近,并使不同类特征远离,形成各类的可分辨特征集。
15.进一步的,定义类的可分辨特征集为提取出的各类别的可分辨特征的原型向量:p={p0,p1......pc};
16.其中,p为原型向量;c为类别的数量;
17.使用对比损失对可分辨特征向量进行聚类,用以增大类间差,采用的损失函数的公式为:
[0018][0019][0020]
其中,pi为类别i的原型向量,类别的原型向量为每个提取到的可分辨特征的特征向量的平均值;
[0021]
d为欧式距离函数;
[0022]
δ为相似和不相似类的距离参数;
[0023]
fc为输入的第c个可分辨特征;
[0024]
lu(fc)为所有类别的总损失函数;
[0025]
l(fc,pi)为第i类目标对应的分损失函数;
[0026]
d(fc,pi)为fc和pi的距离。
[0027]
进一步的,在所述可分辨特征数据增强模块中,采用所述高维特征的均值遮盖对无标签的所述输入图像数据生成的目标框提案中的部分可分辨特征。
[0028]
在这里,还介绍一种基于可分辨特征的半监督物体检测系统的训练方法,所述训练方法如下:
[0029]
步骤1:确定目标检测网络,并搭建如上所述的系统;
[0030]
步骤2:收集应用场景数据集,所述应用场景数据集包括有标签数据和无标签数据;
[0031]
步骤3:使用所述应用场景数据集对系统进行训练;
[0032]
步骤4:迭代前一步骤,直到训练的系统模型达到理想物体检测效果。
[0033]
进一步的,所述目标检测网络采用faster-rcnn的网络结构。
[0034]
进一步的,根据步骤1中所搭建的系统模型,输入图像数据在所述系统模型中的传播顺序为系统模型的搭建顺序,所述搭建顺序如下:
[0035]
步骤101:通过输入图像特征提取模块输出输入图像数据的高维特征;
[0036]
步骤102:将高维特征输入可分辨特征敏感的区域建议模块,得到可分辨特征热力图和目标框提案。
[0037]
步骤103:将目标框提案输入可分辨特征提取与存储模块中,得到目标框提案中的可分辨特征,并储存各类可分辨特征集的原型向量;
[0038]
步骤104:对于输入图像中的无标签数据,将其输入到可分辨特征数据增强模块中,不断得到新的可分辨特征;
[0039]
步骤105:将可分辨特征及所述目标提案中的特征全部输入物体识别与定位模块中,预测正确的物体类别与位置。
[0040]
进一步的,所述步骤3的训练方法如下阶段:
[0041]
阶段s1:利用有标签数据对系统进行训练,计算并存储各类别有标签数据中的可分辨特征的原型向量;为区别各阶段的系统,该阶段系统表示为系统1。
[0042]
阶段s2:输入无标签数据到系统1中对于每一个输入图像数据生成对应目标框提案、类别的伪标签以及可分辨特征热力图。
[0043]
阶段s3:复制系统1为系统2,使用可分辨特征数据增强模块根据上阶段输出的可分辨特征热力图对无标签数据进行随机遮盖的数据增强,随后使用伪标签和无标签数据训练系统2;在训练迭代之后使用系统2更新系统1。
[0044]
本发明的有益效果:采用本发明的一种基于可分辨特征的半监督物体检测系统及其训练方法,具有以下优点:
[0045]
1、本发明提出通过识别可分辨特征来强迫模型更高效学习的思路。将可分辨特征检测用于半监督目标检测中的方法,用以辅助模型从有标签数据中总结归纳知识要点并从无标签数据中发掘更丰富有效信息。
[0046]
2、本发明提出可分辨特征敏感的区域建议网络,解决半监督目标检测目标框定位不准确的问题,用于根据检测出的可分辨特征位置辅助区域建议网络生成目标框提案。在此基础上构建一可分辨特征检测器生成并保存各类别中的可分辨特征原型向量用以输出
更准确的目标框分类结果。
[0047]
3、本发明提出一随机遮挡可分辨特征的数据增强方法,解决相关方法中过分依赖有标签数据检测器质量而对无标签数据利用不足这一问题。对输入的无标签数据随机遮挡部分可分辨特征区域,进而鼓励模型从无标签数据中学习更多有效特征信息。
附图说明
[0048]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0049]
图1为本发明的基于可分辨特征的半监督物体检测系统的流程示意图;
[0050]
图2为本发明的基于可分辨特征的半监督物体检测系统的训练方法的流程图;
[0051]
图3为使用应用场景数据集对系统进行训练的流程示意图。
具体实施方式
[0052]
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
[0053]
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0054]
本发明的第一个方面,提出了一种基于可分辨特征的半监督物体检测系统,如图1所示,所述系统包括:
[0055]
输入图像特征提取模块:用于提取输入图像数据的特征,并将所述特征编码为高维特征;
[0056]
可分辨特征敏感的区域建议模块:用于基于所述高维特征产生所述输入图像数据的可分辨特征热力图,并通过所述可分辨特征热力图辅助区域建议网络进行定位,生成目标框提案;
[0057]
可分辨特征提取与存储模块:用于提取所述目标框提案中的可分辨特征,并对提取到所述可分辨特征进行对比聚类,形成各类可分辨特征集,再存储各类可分辨特征集的原型向量;
[0058]
可分辨特征数据增强模块:用于遮盖对无标签的所述输入图像数据生成的目标框提案中的部分可分辨特征,迫使系统去不断探索该目标提案中新的可分辨特征;
[0059]
物体识别与定位模块,用于通过所述可分辨特征及所述目标提案中的特征预测正确的物体类别与位置。
[0060]
在本实施例中,可分辨特征即图片上存在的影响系统对物体判断的主要特征,比如特殊纹理细节、特殊轮廓等。
[0061]
作为一种实施方式,在所述可分辨特征敏感的区域建议模块中,选择类别激活映射图作为可分辨特征的判别标准,设置类别激活映射图的阈值过滤高维特征,产生可分别特征热力图。
[0062]
在本实施例中,选择类别激活映射图(cam)作为可分辨特征判别标准,对于存在重要可分辨特征的区域该图对应位置输出值较大,反之对于无明显特征背景区域对应位置值较小。通过对cam设定阈值的方式可以过滤出存在可分辨特征的区域,以此来帮助区域建议网络生成更准确的目标框提案。
[0063]
作为一种实施方式,在所述可分辨特征敏感的区域建议模块中,在所述区域建议网络生成目标框提案过程中,计算锚内类别激活映射图的均值作为一项加权损失函数项,使得区域建议网络生成的目标框提案内包含尽可能多的可分辨特征。
[0064]
作为一种实施方式,在所述可分辨特征提取与存储模块中,通过引入一对比聚类损失使得相同类特征之间距离靠近,并使不同类特征远离,形成各类的可分辨特征集,用于后续数据增强与分类。具体细节如下:定义类的可分辨特征集为提取出的各类别的可分辨特征的原型向量:p={p0,p1......pc};
[0065]
其中,p为原型向量;c为类别的数量;
[0066]
使用对比损失对可分辨特征向量进行聚类,用以增大类间差,采用的损失函数的公式为:
[0067][0068][0069]
其中,pi为类别i的原型向量,类别的原型向量为每个提取到的可分辨特征的特征向量的平均值;
[0070]
d为欧式距离函数;
[0071]
δ为相似和不相似类的距离参数;
[0072]
fc为输入的第c个可分辨特征;
[0073]
lu(fc)为所有类别的总损失函数;
[0074]
l(fc,pi)为第i类目标对应的分损失函数;
[0075]
d(fc,pi)为fc和pi的距离。
[0076]
在这里,通过提取和存储可分辨特征的原型向量可以使得网络更充分利用有标签信息且将有标签信息用于后续对无标签数据的分类,使得分类结果更为准确。
[0077]
作为一种实施方式,在所述可分辨特征数据增强模块中,采用所述高维特征的均值遮盖对无标签的所述输入图像数据生成的目标框提案中的部分可分辨特征。
[0078]
具体地,本系统在使用训练好的模型生成未标注数据伪标签的过程中,同时对每一无标签图片生成一可分辨特征热力图用以可视化模型关注的可分辨特征密度大的区域。在使用无标签数据训练阶段,所述可分辨特征数据增强模块对可分辨特征使用整个数据集
均值进行随机遮盖,迫使模型关注其他具有区分度的区域的特征。
[0079]
本发明整体训练框架遵循半监督学习中广泛使用的师生机制,即首先使用有标签数据训练一教师模型,之后使用无标签数据和教师模型生成的伪标签对学生模型进行训练,一段时间之后使用学生模型对教师模型参数进行更新。在此基础上融入可分辨特征作为辅助训练,达到充分利用数据特征的目的。
[0080]
在这里,还介绍一种基于可分辨特征的半监督物体检测系统的训练方法,如图2所示,所述训练方法如下:
[0081]
步骤1:确定目标检测网络,并搭建如上所述的系统;
[0082]
步骤2:收集应用场景数据集,所述应用场景数据集包括有标签数据和无标签数据;
[0083]
步骤3:使用所述应用场景数据集对系统进行训练;
[0084]
步骤4:迭代前一步骤,直到训练的系统模型达到理想物体检测效果。
[0085]
作为一种实施方式,所述目标检测网络采用faster-rcnn的网络结构。
[0086]
作为一种实施方式,根据步骤1中所搭建的系统模型,输入图像数据在所述系统模型中的传播顺序为系统模型的搭建顺序,所述搭建顺序如下:
[0087]
步骤101:通过输入图像特征提取模块输出输入图像数据的高维特征;
[0088]
步骤102:将高维特征输入可分辨特征敏感的区域建议模块,得到可分辨特征热力图和目标框提案。
[0089]
步骤103:将目标框提案输入可分辨特征提取与存储模块中,得到目标框提案中的可分辨特征,并储存各类可分辨特征集的原型向量;
[0090]
步骤104:对于输入图像中的无标签数据,将其输入到可分辨特征数据增强模块中,不断得到新的可分辨特征;
[0091]
步骤105:将可分辨特征及所述目标提案中的特征全部输入物体识别与定位模块中,预测正确的物体类别与位置。
[0092]
作为一种实施方式,如图1、图3所示,所述步骤3的训练方法如下阶段:
[0093]
阶段s1:利用有标签数据对系统进行训练,计算并存储各类别有标签数据中的可分辨特征的原型向量;为区别各阶段的系统,该阶段系统表示为系统1。
[0094]
阶段s2:输入无标签数据到系统1中对于每一个输入图像数据生成对应目标框提案、类别的伪标签以及可分辨特征热力图。
[0095]
阶段s3:复制系统1为系统2,使用可分辨特征数据增强模块根据上阶段输出的可分辨特征热力图对无标签数据进行随机遮盖的数据增强,随后使用伪标签和无标签数据训练系统2;在训练迭代之后使用系统2更新系统1。
[0096]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0097]
本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1