目标检测训练方法、系统、电子设备及计算机可读存储介质与流程

文档序号:23720157发布日期:2021-01-24 07:39阅读:60来源:国知局
目标检测训练方法、系统、电子设备及计算机可读存储介质与流程

[0001]
本发明涉及深度学习技术领域,尤其涉及一种基于半监督学习的目标检测训练方法、系统、电子设备及计算机可读存储介质。


背景技术:

[0002]
深度学习是目前计算机视觉领域最常用最重要的技术手段,深度学习使用由手工标注的大量图像数据进行迭代训练以实现特定的图像任务,如图像分类/目标检测/语义分割/图像检索等任务。
[0003]
其中,目标检测任务是深度学习的一大重要分支,在此领域已经有非常多十分优秀的网络结构可以得到足以媲美人类的性能表现,如faster rcnn/yolo/ssd等。但训练一个优秀的目标检测器,需要大量的人工标注数据,且数据标注的复杂度较高,要逐图的对图像中感兴趣的目标进行标注,且其标注的数据量较大,通常都是上万的数据量,在实际的应用中需要消耗大量的人力成本。
[0004]
另一方面,得益于目前互联网技术的飞速发展和信息化社会的推进,在当前的互联网上有巨量的未标注数据资源,这些资源由于缺少标注信息无法被应用于网络训练,如果能够使用这些信息而无需标注则可以大大减少人力成本。为了能够使用这些数据,可以人工标注少量数据与大量的无标注数据进行结合使用,这种方法被称为半监督学习,即一半有标注一半没有标注。在图像分类领域,目前已经有较多的半监督方法使用未标注的数据进行学习,但是由于目标检测领域较为复杂目前还未有成熟的方法进行半监督学习。


技术实现要素:

[0005]
本发明针对上述在目标检测领域没有成熟的方法进行半监督学习的问题,提出一种基于半监督学习的目标检测训练方法、系统、电子设备及计算机可读存储介质。
[0006]
为了达到上述目的,本发明采用的技术方案为:
[0007]
第一方面,本申请实施例提供了一种基于半监督学习的目标检测训练方法,包括:
[0008]
特征提取步骤:通过backbone对图像进行特征提取,获得图像特征;
[0009]
一阶段噪声添加步骤:所述图像特征通过噪声方法获得噪声特征;
[0010]
rpn网络优化步骤:根据所述图像特征和所述噪声特征使用一致性正则化方法对rpn网络进行优化;
[0011]
proposal输出步骤:所述图像特征经过优化后的rpn网络输出proposals;
[0012]
二阶段噪声添加步骤:所述proposals通过噪声方法获得noise proposals;
[0013]
roi_heads网络优化步骤:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
[0014]
结果生成步骤:所述proposals通过roi_heads网络得到最终的全分类结果和位置结果。
[0015]
上述基于半监督学习的目标检测训练方法,其中,所述rpn网络优化步骤包括:
[0016]
一阶段输入步骤:将所述图像特征和所述噪声特征输入至rpn网络中;
[0017]
一阶段损失计算步骤:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
[0018]
上述基于半监督学习的目标检测训练方法,其中,所述第一分类一致性损失函数为mse距离函数;所述第一回归一致性损失函数为smooth l1损失函数。
[0019]
上述基于半监督学习的目标检测训练方法,其中,所述roi_heads网络优化步骤包括:
[0020]
二阶段输入步骤:将所述proposals和所述noise proposals输入至roi_heads网络中;
[0021]
二阶段损失计算步骤:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
[0022]
上述基于半监督学习的目标检测训练方法,其中,所述第二分类一致性损失函数为kl散度函数;所述第二回归一致性损失函数为smooth l1损失函数。
[0023]
第二方面,本申请实施例提供了一种基于半监督学习的目标检测训练系统,包括:
[0024]
特征提取模块:通过backbone对图像进行特征提取,获得图像特征;
[0025]
一阶段噪声添加模块:所述图像特征通过噪声方法获得噪声特征;
[0026]
rpn网络优化模块:根据所述图像特征和所述噪声特征使用一致性正则化方法对rpn网络进行优化;
[0027]
proposal输出模块:所述图像特征经过优化后的rpn网络输出proposals;
[0028]
二阶段噪声添加模块:所述proposals通过噪声方法获得noise proposals;
[0029]
roi_heads网络优化模块:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
[0030]
结果生成模块:所述proposals经过优化后的roi_heads网络得到最终的全分类结果和位置结果。
[0031]
上述基于半监督学习的目标检测训练系统,其中,所述rpn网络优化模块包括:
[0032]
一阶段输入单元:将所述图像特征和所述噪声特征输入至rpn网络中;
[0033]
一阶段损失计算单元:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
[0034]
上述基于半监督学习的目标检测训练系统,其中,所述roi_heads网络优化模块包括:
[0035]
二阶段输入单元:将所述proposals和所述noise proposals输入至roi_heads网络中;
[0036]
二阶段损失计算单元:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
[0037]
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的目标检测训练方法。
[0038]
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的目标检测训练方法。
[0039]
与现有技术相比,本发明的优点和积极效果在于:
[0040]
1.在图像分类领域,目前已经有较多的半监督方法使用未标注的数据进行学习,但是由于目标检测领域较为复杂目前还未有成熟的方法进行半监督学习。一致化正则方法由于使用了标注数据和未标注数据的混合训练,因此可以使得网络结构较为平滑的学习未标注数据的信息。本方法基于图像分类领域中一致性正则化的技术路线,设计适用于目标检测的训练框架,使得在目标检测的领域也可以使用未标注的数据进行网络的训练,提高了网络结构的精度,做到更高的检测性能。
[0041]
2.本技术方法使用了faster rcnn网络结构作为最基本的训练框架,faster rcnn是目标检测领域中性能表现非常高且稳定的网络结构,是一种二阶段的网络结构,首先对于要预测的图像,进行候选区域的提取,然后对于提取到的候选区域进行二阶段的预测,预测其类别和其位置的准确坐标信息。但此种方法无法适用于没有标注的数据,因此本发明设计的一种适合于目标检测任务的一致性正则方法可以解决无标注数据的训练问题。
附图说明
[0042]
图1为本发明基于半监督学习的目标检测训练方法的步骤示意图;
[0043]
图2为图1所揭示的步骤s3的rpn网络优化流程图;
[0044]
图3为图1所揭示的步骤s6的roi_heads网络优化流程图;
[0045]
图4为faster rcnn网络结构的框架图;
[0046]
图5为本发明基于半监督学习的目标检测训练系统的框架图;
[0047]
图6为本发明基于半监督学习的目标检测训练系统的逻辑结构示意图;
[0048]
图7为根据本申请实施例的计算机设备的结构示意图。
[0049]
其中,附图标记为:
[0050]
11、特征提取模块;12、一阶段噪声添加模块;13、rpn网络优化模块;131、一阶段输入单元;132、一阶段损失计算单元;14、proposal输出模块;15、二阶段噪声添加模块;16、roi_heads网络优化模块;161、二阶段输入单元;162、二阶段损失计算单元;17、结果生成模块;81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
[0051]
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0052]
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0053]
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以
包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0054]
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0055]
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
[0056]
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
[0057]
本发明基于图像分类领域中一致性正则化的技术路线,设计了一种适用于目标检测的训练系统,使得在目标检测的领域也可以使用未标注的数据进行网络的训练。
[0058]
实施例一:
[0059]
参照图1至图5所示,本实例揭示了一种基于半监督学习的目标检测训练方法(以下简称“方法”)的具体实施方式。
[0060]
本技术方法使用了faster rcnn网络结构作为最基本的训练框架,faster rcnn是目标检测领域中性能表现非常高且稳定的网络结构,如图4所示,这种方法是一种二阶段的网络结构,首先对于要预测的图像,进行候选区域的提取,即找到网络中可能存在感兴趣的目标的区域,然后对于提取到的候选区域进行二阶段的预测,预测其类别和其位置的准确坐标信息。在只有监督数据时,网络结构使用两次计算的策略以获得更加精确的结果,在一阶段的rpn网络中使用前背景的类别分类和位置回归得到初步的结果,在二阶段中使用全类别的分类和位置回归得到最后的结果。但此种方法无法适用于没有标注的数据,因此本发明设计了一种如图5所示的适合于目标检测任务的一致性正则方法来解决无标注数据的训练问题。
[0061]
具体而言,如图1所示,本实施例所揭示的方法主要包括以下步骤:
[0062]
步骤s1:通过backbone对图像进行特征提取,获得图像特征。
[0063]
然后执行步骤s2:所述图像特征通过噪声方法获得噪声特征。
[0064]
具体而言,无论此图像特征是有标注的还是没有标注的数据,此图像特征都会使
用一些噪声方法生成一些带有噪声的特征。
[0065]
然后参照图2,执行步骤s3:根据所述图像特征和所述噪声特征使用一致性正则化方法对rpn网络进行优化。
[0066]
具体而言,一致性正则化方法的基本假设是指一张图像在添加微小扰动和噪声后其网络的输出结果应该是一致的,网络的预测不应该受到微小扰动的影响。一致性正则化的基本技术路线是网络同时训练有标注的数据和无标注的数据,对于有标注的数据和未标注的数据都计算其输出的结果和其加入噪声后输出的结果的一致性正则损失。对于有标注的数据还要计算其与真实的标注信息的损失。一致化正则由于使用了标注数据和未标注数据的混合训练,因此可以使得网络结构较为平滑的学习未标注数据的信息。
[0067]
其中,步骤s3具体包括以下内容:
[0068]
s31:将所述图像特征和所述噪声特征输入至rpn网络中;
[0069]
s32:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
[0070]
具体而言,在分类一致性损失方面,所述第一分类一致性损失函数为mse距离函数,其中,mse是用来度量两个向量的相似度的损失函数,因此,此函数可以表示为:
[0071][0072]
式中,k表示加过噪声的k个噪声特征,c表示图像特征的分类结果,表示噪声特征的分类结果。
[0073]
在回归一致性损失方面,所述第一回归一致性损失函数为smooth l1损失函数。在训练策略方面,由于回归问题的训练较为困难,为了防止噪声的添加带来训练的不稳定,对loss结果进行排序只选取最小的五个loss进行梯度更新,因此,此函数可以表示为:
[0074][0075]
式中,r表示图像特征的坐标,表示噪声特征的坐标。
[0076]
另一方面,如果输入的图像是标注图像,那么其分类和回归结果依然会跟标注计算损失,即保留了如图4所示的原faster rcnn对于监督学习的设计部分,损失函数使用二分类交叉熵损失和smooth l1损失。
[0077]
然后执行步骤s4:所述图像特征经过优化后的rpn网络输出proposals。
[0078]
具体而言,一阶段的噪声特征并不会继续流入二阶段,即只有图像特征经过优化后的rpn后生成proposal,proposal意为候选区域特征,意思为,在图像中可能存在目标的区域,这个区域映射到特征图上的区域就是proposal,是算法的一个估计值,输出的proposal数目可能会达到几百个。
[0079]
然后执行步骤s5:所述proposals通过噪声方法获得noise proposals。
[0080]
具体而言,经过一阶段rpn输出的proposal加入噪声,生成noise proposal,即噪声候选区域特征。
[0081]
然后参照图3,执行步骤s6:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化。
[0082]
其中,步骤s6具体包括以下内容:
[0083]
s61:将所述proposals和所述noise proposals输入至roi_heads网络中;
[0084]
s62:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
[0085]
具体而言,在分类一致性损失方面,与第一阶段不同,为了使得整体的网络结构可以有更多的梯度变化,在第二阶段的分类一致性部分,使用kl散度函数为所述第二分类一致性损失函数,此函数可以表示为:
[0086][0087]
式中,k表示加过噪声的k个noise proposal,c表示proposals的分类结果,表示noise proposals的分类结果。
[0088]
在回归一致性损失部分,由于已经经过了一阶段的位置回归,理想情况下位置已经较为准确了,因此在此部分应该避免太大的loss波动,因此所述第二回归一致性损失函数同样使用了smooth l1损失函数,但是只选取最小的loss进行梯度更新,此函数为:
[0089][0090]
另一方面,在二阶段针对有标注的数据,依然会经过如图4所示的传统的faster rcnn的相关损失函数。
[0091]
实施例二:
[0092]
结合实施例一所揭示的一种基于半监督学习的目标检测训练方法,本实施例揭示了一种基于半监督学习的目标检测训练系统(以下简称“系统”)的具体实施示例。
[0093]
参照图6所示,所述系统包括:
[0094]
特征提取模块11:通过backbone对图像进行特征提取,获得图像特征;
[0095]
一阶段噪声添加模块12:所述图像特征通过噪声方法获得噪声特征;
[0096]
rpn网络优化模块13:根据所述图像特征和所述噪声特征使用一致性正则化方法对rpn网络进行优化;
[0097]
proposal输出模块14:所述图像特征经过优化后的rpn网络输出proposals;
[0098]
二阶段噪声添加模块15:所述proposals通过噪声方法获得noise proposals;
[0099]
roi_heads网络优化模块16:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
[0100]
结果生成模块17:所述proposals经过优化后的roi_heads网络得到最终的全分类结果和位置结果。
[0101]
具体而言,所述rpn网络优化模块13包括:
[0102]
一阶段输入单元131:将所述图像特征和所述噪声特征输入至rpn网络中;
[0103]
一阶段损失计算单元132:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
[0104]
具体而言,所述roi_heads网络优化模块16包括:
[0105]
二阶段输入单元161:将所述proposals和所述noise proposals输入至roi_heads
网络中;
[0106]
二阶段损失计算单元162:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
[0107]
本实施例所揭示的一种基于半监督学习的目标检测训练系统与实施例一所揭示的一种基于半监督学习的目标检测训练方法中其余相同部分的技术方案,请参实施例一所述,在此不再赘述。
[0108]
实施例三:
[0109]
结合图7所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
[0110]
具体地,上述处理器81可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,简称为asic),或者可以被配置成实施本申请实施例的一个或多个集成电路。
[0111]
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(hard disk drive,简称为hdd)、软盘驱动器、固态驱动器(solid state drive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(non-volatile)存储器。在特定实施例中,存储器82包括只读存储器(read-only memory,简称为rom)和随机存取存储器(random access memory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmable read-only memory,简称为prom)、可擦除prom(erasable programmable read-only memory,简称为eprom)、电可擦除prom(electrically erasable programmable read-only memory,简称为eeprom)、电可改写rom(electrically alterable read-only memory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(static random-access memory,简称为sram)或动态随机存取存储器(dynamic random access memory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic random access memory,简称为edodram)、同步动态随机存取内存(synchronous dynamic random-access memory,简称sdram)等。
[0112]
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
[0113]
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种目标检测训练方法。
[0114]
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图7所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
[0115]
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
[0116]
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制,总线80可包括图形加速接口(accelerated graphics port,简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,简称为eisa)总线、前端总线(front side bus,简称为fsb)、超传输(hyper transport,简称为ht)互连、工业标准架构(industry standard architecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count,简称为lpc)总线、存储器总线、微信道架构(micro channel architecture,简称为mca)总线、外围组件互连(peripheral component interconnect,简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment,简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
[0117]
另外,结合上述实施例中的目标检测训练方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种目标检测训练方法。
[0118]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0119]
综上所述,基于本发明的有益效果在于,本技术方法使用了faster rcnn网络结构作为最基本的训练框架,faster rcnn是目标检测领域中性能表现非常高且稳定的网络结构,但此种方法无法适用于没有标注的数据,因此本发明设计的一种适合于目标检测任务的一致性正则方法可以解决无标注数据的训练问题。本方法基于图像分类领域中一致性正则化的技术路线,设计适用于目标检测的训练框架,使得在目标检测的领域也可以使用未标注的数据进行网络的训练,提高了网络结构的精度,做到更高的检测性能。
[0120]
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1