一种检测模型的训练方法、装置、电子设备及存储介质与流程

文档序号:31501226发布日期:2022-09-14 08:56阅读:92来源:国知局
一种检测模型的训练方法、装置、电子设备及存储介质与流程

1.本技术涉及图像处理技术领域,尤其涉及一种检测模型的训练方法、装置、电子设备及存储介质。


背景技术:

2.目标检测已被广泛研究,用于定位图像中的目标并将目标分类为许多不同类别中的一种。随着深度学习的日益成功,深度学习模型已经成为目标检测领域的研究热点。
3.在现有的技术中,基于区域提名的方法占据上风,但是这类方法过程一般都比较复杂,即先对原始图像进行提取候选框操作,再把候选框缩放为固定大小并进行特征提取,最后得到检测结果。虽然这种方法得到的结果精度很高,但是速度慢,实时效果差。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种检测模型的训练方法、装置、电子设备及存储介质。
5.根据本技术实施例的一个方面,提供了一种检测模型的训练方法,包括:
6.获取对目标厂房进行监控得到的监控视频,并从所述监控视频中提取多个目标视频帧图像,其中,所述目标视频帧图像中包括至少一个目标对象;
7.将获取的标签信息携带于所述目标视频帧图像,得到样本图像,其中,所述标签信息用于标注所述目标对象在所述视频帧图像中的实际位置信息;
8.利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息;
9.确定所述预测位置信息与实际位置信息之间的匹配度,在所述匹配度落入预设范围的情况下,将所述深度学习网络模型确定为检测模型。
10.进一步的,所述从所述监控视频中提取多个目标视频帧图像,包括:
11.提取所述监控视频所包括的视频帧图像;
12.检测所述视频帧图像的完整程度;
13.将所述完整程度满足预设完整程度的视频帧图像确定为所述目标帧图像。
14.进一步的,所述方法还包括:
15.将所述目标帧图像按照第一预设比例生成训练集合,以及按照第二预设比例生成测试集合,其中,所述第一预设比例大于所述第二预设比例。
16.进一步的,所述深度学习网络模型包括:顺次连接的主干网络层、瓶颈层以及预测层,所述预测层包括:解耦头以及检测器,所述解耦头包括:分类头、目标头以及位置头。
17.进一步的,所述利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成
目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息,包括:
18.将所述样本图像输入所述深度学习网络模型,通过所述主干网络层从所述样本图像中提取初始图像特征,并将所述初始图像特征传递至所述瓶颈层;
19.通过所述瓶颈层对所述初始图像特征进行上采样处理,得到高层图像特征,并融合所述高层图像特征,得到目标特征图,将所述目标特征图传递至所述预测层;
20.通过所述预测层基于所述目标特征图进行预测,得到包围所述目标对象的预测框,并利用所述预测框的坐标确定所述预测位置信息。
21.进一步的,所述通过所述预测层基于所述目标特征图进行预测,得到包围所述目标对象的预测框,并利用所述预测框的坐标确定所述预测位置信息,包括:
22.通过所述预测层的分类头确定所述目标特征图中预测框的类别,以及类别对应的类别分数,通过所述预测层中的目标头从所述目标特征图中获取与实际目标框相匹配的预测框作为前景特征,以及通过所述预测层中的位置头从所述目标特征图中得到所述预测框的初始坐标;
23.通过所述检测器对所述预测框对应的类别及类别分数、前景特征以及所述预测框的初始坐标进行融合拼接,得到所述预测位置信息。
24.进一步的,所述方法还包括:
25.在所述匹配度落入预设范围的情况下,利用所述测试集合中的目标视频帧图像对所述深度学习网络模型进行测试,得到测试结果;
26.在所述测试结果满足预设测试结果的情况下,将所述深度学习网络模型确定为检测模型。
27.根据本技术实施例的另一方面,还提供了一种检测模型的训练装置,包括:
28.获取模块,用于获取对目标厂房进行监控得到的监控视频,并从所述监控视频中提取多个目标视频帧图像,其中,所述目标视频帧图像中包括至少一个目标对象;
29.标注模块,用于将获取的标签信息携带于所述目标视频帧图像,得到样本图像,其中,所述标签信息用于标注所述目标对象在所述视频帧图像中的实际位置信息;
30.处理模块,用于利用所述样本图像训练无锚框的深度学习网络模型,以使所述深度学习网络模型中的主干网络层从所述样本图像中提取图像特征,基于所述图像特征生成目标特征图,将所述目标特征图传递至预测层,通过所述预测层基于所述目标特征图进行预测,得到所述目标对象的预测位置信息;
31.确定模块,用于确定所述预测位置信息与实际位置信息之间的匹配度,在所述匹配度落入预设范围的情况下,将所述深度学习网络模型确定为检测模型。
32.根据本技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
33.根据本技术实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
34.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行
时,使得计算机执行上述方法中的步骤。
35.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术在预测层中加入解耦头能够提高深度学习网络模型的检测速度和精度。同时在训练过程中没有锚框,所以不需要计算预测框和目标框之间的交并比来获得样本图像。因此可以直接利用携带标注信息的样本图像训练模型,提高了模型的训练效率。
附图说明
36.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
37.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
38.图1为本技术实施例提供的一种检测模型的训练方法的流程图;
39.图2为本技术实施例提供的一种深度学习网络模型的示意图;
40.图3为本技术实施例提供的一种检测模型的训练装置的框图;
41.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
42.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
44.本技术实施例提供了一种检测模型的训练方法、装置、电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
45.根据本技术实施例的一方面,提供了一种检测模型的训练方法的方法实施例。图1为本技术实施例提供的一种检测模型的训练方法的流程图,如图1所示,该方法包括:
46.步骤s11,获取对目标厂房进行监控得到的监控视频,并从监控视频中提取多个目标视频帧图像,其中,目标视频帧图像中包括至少一个目标对象。
47.本技术实施例提供的方法应用于能够进行视频/图像处理的智能设备,智能设备可以是电脑、手机等等。其中,获取对目标厂房进行监控得到的监控视频的实现过程可以
是:智能设备首先向设置于目标厂房内的监控设备发送控制指令,以使监控设备对目标厂房的环境进行录制得到监控视频,同时监控设备实时将监控视频传输至智能设备。
48.在本技术实施例中,智能设备在得到监控视频后,会从监控视频中提取多个目标视频帧图像,具体的,从监控视频中提取多个目标视频帧图像,包括以下步骤a1-a3:
49.步骤a1,提取监控视频所包括的视频帧图像。
50.步骤a2,检测视频帧图像的完整程度。
51.步骤a3,将完整程度满足预设完整程度的视频帧图像确定为目标帧图像。
52.在本技术实施例中,智能设备首先提取监控视频中的每一个视频帧图像,然后对每一个视频帧图像进行预处理(例如:亮度增强处理),得到处理后的视频帧图像。然后对处理后的视频帧图像的完整程度进行检测,将完整程度满足预设完整程度的视频帧图像确定为目标帧图像。其中,图像的完整程度检测可以是提取图像特征,利用图像特征确定处理后的视频帧图像是否存在遮挡的情况,如果存在遮挡的情况,则将确定该图像的完整程度不满足预设完整程度。
53.在本技术实施例中,目标视频帧图像中包括的目标对象可以是目标工厂内的工作人员。
54.步骤s12,将获取的标签信息携带于目标视频帧图像,得到样本图像,其中,标签信息用于标注目标对象在视频帧图像中的实际位置信息。
55.在本技术实施例中,方法还包括:将目标帧图像按照第一预设比例生成训练集合,以及按照第二预设比例生成测试集合,其中,第一预设比例大于第二预设比例。
56.作为一个示例,存在1000张目标帧图像,第一预设比例为为80%,第二预设比例为20%。按照第一预设比例生成训练集合,训练集合中包括800张目标帧图像。按照第二预设比例生成测试集合,测试集合中包括200张目标帧图像。
57.在本技术实施例中,将获取的标签信息携带于目标视频帧图像,得到样本图像,包括以下步骤b1-b2:
58.步骤b1,获取标签信息,标签信息用于标注目标对象在视频帧图像中的实际位置信息。
59.步骤b2,将标签信息携带于训练集合中的目标视频帧图像,得到样本图像。
60.在本技术实施例中,标签信息用于标注目标对象在视频帧图像中的实际位置信息,实际位置信息可以是目标对象对应真实边界框的位置信息。具体的,可以是检测是否触发有编辑操作,如有触发编辑操作,则基于编辑操作获取输入信息,从输入信息中获取目标对象的特征信息,目标对象对应真实边界框的实际位置信息,以及特征信息与真实边界框的对应关系,基于目标对象的特征信息、真实边界框的实际位置信息以及对应关系得到标签信息。
61.在本技术实施例中,在得到标签信息后,将标签信息携带在训练集合中的目标视频帧图像,基于此将携带标签信息的目标视频帧图像确定为样本图像。
62.步骤s13,利用样本图像训练无锚框的深度学习网络模型,以使深度学习网络模型中的主干网络层从样本图像中提取图像特征,基于图像特征生成目标特征图,将目标特征图传递至预测层,通过预测层基于目标特征图进行预测,得到目标对象的预测位置信息。
63.在本技术实施例中,深度学习网络模型的结构,如图2所示,深度学习网络模型包
括:输入层、主干网络、瓶颈层以及预测层。其中,输入端采用数据增强方法mixup和mosaic,能够提高模型的整体性能。骨干网络可以采用预训练的darknet53,主要提取图像特征。瓶颈层(neck):将高层的图像特征,通过上采样的方式进行传递融合,得到待进行预测的特征图。预测层:基于特征图中的图像特征进行预测,并进行分类。
64.在本技术实施例中,利用样本图像训练无锚框的深度学习网络模型,以使深度学习网络模型中的主干网络层学习目标对象特征与目标对象之间关系,并从样本图像中提取图像特征,基于图像特征生成特征图,将特征图传递至预测层,通过预测层中的解耦头基于特征图输出目标对象的预测位置信息,包括:
65.步骤c1,将样本图像输入深度学习网络模型,通过主干网络层从样本图像中提取初始图像特征,并将初始图像特征传递至瓶颈层;
66.步骤c2,通过瓶颈层对初始图像特征进行上采样处理,得到高层图像特征,并融合高层图像特征,得到目标特征图,将目标特征图传递至预测层;
67.步骤c3,通过预测层基于目标特征图进行预测,得到包围目标对象的预测框,并利用预测框的坐标确定预测位置信息。
68.在本技术实施例中,通过预测层基于目标特征图进行预测,得到包围目标对象的预测框,并利用预测框的坐标确定预测位置信息,包括:
69.通过预测层的分类头确定目标特征图中预测框的类别,以及类别对应的类别分数,通过预测层中的目标头从目标特征图中获取与实际目标框相匹配的预测框作为前景特征,以及通过预测层中的位置头从目标特征图中得到预测框的初始坐标;通过检测器对预测框对应的类别及类别分数、前景特征以及预测框的初始坐标进行融合拼接,得到预测位置信息。
70.具体的,如图2所示,主干网络包括第一处理子网络、卷积子网络以及第二处理子网络,第一处理子网络为cbl结构,cbl层由conv+bn+leaky relu组成。卷积子网络(res net)包括多个卷积层。第二处理子网络包括cbl结构以及spp结构,spp结构包括多个池化层maxpool和concat。瓶颈层包括:多个分支,第一分支用于获取骨干网络输出的图像特征,将图像特征分别传递至瓶颈层的第二分支以及预测层。瓶颈层除第一分支以外的其他分支从瓶颈层以及该分支的上一分支获取图像特征,然后对图像特征进行上采样,得到高层图像特征,并融合成特征图。瓶颈层除第一分支以外的其他分支均包括输入cbl结构和concat。
71.在本技术实施例中,预测层包括:解耦头以及检测器,解耦头包括:分类头、目标头以及位置头。由于分类和定位所关注的内容不同,因此采用不同的分支进行运算,解耦头会先通过1
×
1的卷积把前面的特征图的通道变为256,然后再经过2个3
×
3的卷积层,接着再经过1
×
1的卷积层,分别到分类头、目标头和位置头,得到三个输出,经过张量拼接融合到一起,得到最终的特征信息。
72.分类头:主要对目标框的类别,预测分数。yolox使用fcos中的中心采样方法,将目标中心3
×
3的区域内的像素点都作为目标,最后,经过三个解耦头的输出,将生成8400个预测框。直接对8400个预测框做精确的标签分配,计算量较大,分配标签过程分为2步:(1)粗筛选;(2)simota精确分配标签。
73.目标头:主要判断目标框是前景还是背景。利用预测框和实际目标框的关系,利用simota挑选出一部分适合的正样本边界框作为前景。
74.位置头:主要对目标框的坐标信息(x,y,w,h)进行预测。利用位置回归,对预测框以及实际目标框进行比对。
75.需要说明的是,本技术实施例采用mosaic、mixup和解耦头,增强了目标检测器的检测效率,能以更快的速度和精度来进行检测。
76.步骤s14,确定预测位置信息与实际位置信息之间的匹配度,在匹配度落入预设范围的情况下,将深度学习网络模型确定为检测模型。
77.在本技术实施例中,首先获取目标对象在样本图像中的实际位置信息,实际位置信息可以是目标对象在样本图像中包围框的坐标信息。然后计算预测位置信息与实际位置信息之间的匹配度,匹配度可是坐标信息之间的匹配度(例如坐标信息是否重合)。在匹配度落入预设范围的情况下,将深度学习网络模型确定为检测模型。
78.另外,为了保证深度学习模型的学习效果,本技术实施例提供了利用测试集进行测试的方法,还包括以下步骤c1-c2:
79.步骤c1,在匹配度落入预设范围的情况下,利用测试集合中的目标视频帧图像对深度学习网络模型进行测试,得到测试结果。
80.步骤c2,在测试结果满足预设测试结果的情况下,将深度学习网络模型确定为检测模型。
81.在本技术实施例中,在匹配度落入预设范围的情况下,利用测试集合中的目标视频帧图像对深度学习网络模型进行测试,由于测试集合中的目标视频帧图像没有标签信息,利用无标签信息的目标视频帧图像测试深度学习网络模型,能够更准确的确定深度学习网络模型的训练效果。
82.本技术在预测层中加入解耦头能够提高深度学习网络模型的检测速度和精度。同时在训练过程中没有锚框,所以不需要计算锚框和边界框之间的交并比来获得样本图像。因此可以直接利用携带标注信息的样本图像训练模型,提高了模型的训练效率。
83.图3为本技术实施例提供的一种检测模型的训练装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,该装置包括:
84.获取模块31,用于获取对目标厂房进行监控得到的监控视频,并从监控视频中提取多个目标视频帧图像,其中,目标视频帧图像中包括至少一个目标对象;
85.标注模块32,用于将获取的标签信息携带于目标视频帧图像,得到样本图像,其中,标签信息用于标注目标对象在视频帧图像中的目标对象特征,以及目标对象特征属于目标对象的标签;
86.处理模块33,用于利用样本图像训练无锚框的深度学习网络模型,以使深度学习网络模型中的主干网络层学习目标对象特征与目标对象之间关系,并从样本图像中提取图像特征,基于图像特征生成特征图,将特征图传递至预测层,通过预测层中的解耦头基于特征图输出目标对象的预测位置信息;
87.确定模块34,用于确定预测位置信息与实际位置信息之间的匹配度,在匹配度落入预设范围的情况下,将深度学习网络模型确定为检测模型。
88.在本技术实施例中,获取模块31,用于提取监控视频所包括的视频帧图像;检测视频帧图像的完整程度;将完整程度满足预设完整程度的视频帧图像确定为目标帧图像。
89.在本技术实施例中,装置还包括:生成模块,用于将目标帧图像按照第一预设比例
生成训练集合,以及按照第二预设比例生成测试集合,其中,第一预设比例大于第二预设比例。
90.在本技术实施例中,标注模块32,用于获取标签信息;将标签信息携带于训练集合中的目标视频帧图像,得到样本图像。
91.在本技术实施例中,深度学习网络模型包括:顺次连接的主干网络层、瓶颈层以及预测层,预测层包括:解耦头以及检测器,解耦头包括:分类头、目标头以及位置头。
92.在本技术实施例中,处理模块33,用于将样本图像输入深度学习网络模型,通过主干网络层从样本图像中提取初始图像特征,并将初始图像特征传递至瓶颈层;通过瓶颈层对初始图像特征进行上采样处理,得到高层图像特征,并融合高层图像特征,得到目标特征图,将目标特征图传递至预测层;通过预测层基于目标特征图进行预测,得到包围目标对象的目标框,并将目标框的位置信息确定为预测位置信息。
93.在本技术实施例中,处理模块33,用于通过所述预测层的分类头确定所述目标特征图中预测框的类别,以及类别对应的类别分数,通过所述预测层中的目标头从所述目标特征图中获取与实际目标框相匹配的预测框作为前景特征,以及通过所述预测层中的位置头从所述目标特征图中得到所述预测框的初始坐标;通过所述检测器对所述预测框对应的类别及类别分数、前景特征以及所述预测框的初始坐标进行融合拼接,得到所述预测位置信息。
94.在本技术实施例中,检测模型的训练装置还包括:测试模块,用于在匹配度落入预设范围的情况下,利用测试集合中的目标视频帧图像对深度学习网络模型进行测试,得到测试结果;在测试结果满足预设测试结果的情况下,将深度学习网络模型确定为检测模型。
95.本技术实施例还提供一种电子设备,如图4所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
96.存储器1503,用于存放计算机程序;
97.处理器1501,用于执行存储器1503上所存放的计算机程序时,实现上述实施例的步骤。
98.上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
99.通信接口用于上述终端与其他设备之间的通信。
100.存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
101.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
102.在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的检测模型的训练方法。
103.在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的检测模型的训练方法。
104.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk)等。
105.以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。
106.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1