一种基于半监督和特征融合的小目标检测方法与流程

文档序号:33324849发布日期:2023-03-03 22:36阅读:71来源:国知局
一种基于半监督和特征融合的小目标检测方法与流程

1.本发明涉及图像处理领域,特别是涉及一种基于半监督目标检测人脸图像检索方法。


背景技术:

2.大规模的数据集和算力资源可以使得深度神经学习网络在各种任务上表现出优异的性能。然而有监督学习的深度学习网络的模型训练需要大量的标注样本,这些样本的标注成本是很高昂的。作为有监督学习的替代方案,半监督学习的方法在最近几年越来越受到关注,但是这些都是偏向于图像分类任务的半监督学习,在目标检测领域半监督的应用还是较少,在人脸检测领域半监督的应用的探索更是稀少。


技术实现要素:

3.本发明是为了解决现有技术存在的不足,提出一种基于半监督和特征融合的小目标检测方法,以期能获取更丰富的人脸图像的特征信息,从而能提高在大场景下提高小目标人脸的检测精度和速度。
4.本发明为达到上述发明目的,采用如下技术方案:
5.本发明一种基于半监督和特征融合的小目标检测方法的特点是按照以下步骤进行:
6.步骤1:构建人脸图像数据集并进行预处理;
7.步骤1.1:获取带标签的真实人脸图像数据集并进行尺寸归一化和预处理后,得到维度为m
×m×
c的预处理后的人脸图像数据集记为x={x1,x2,

,xi,

,xn},其中,xi表示第i张人脸图像,令人脸图像数据集x的标签集合为t={t1,t2,

,ti,

tn},其中,ti表示第i张人脸图像xi对应的标签,i=1,2,

,n,n为带标签的人脸图像数据集中的图像总数;m表示图像处理后的长和宽,c表示通道数;
8.步骤1.2:获取无标签的人脸图像数据集并进行尺寸归一化和预处理后,得到维度为m
×m×
c的预处理后的人脸图像数据集记为y={y1,y2,

,yj,

ym},其中,yj表示无标签的第j张人脸图像,j=1,2,

,m,m为无标签的人脸图像数据集中的图像总数;
9.步骤2:构建半监督学习下的目标检测网络,包括:主干网络、特征金字塔fpn、ssh模块、head模块、预测模块;
10.步骤2.1:构建主干网络并进行三阶段特征提取;
11.所述主干网络中包含三阶段的可分离卷积conv_dw模块;每个可分离卷积conv_dw模块中的卷积层的卷积核尺寸为a
×
a,步长为k;
12.将带标签的第i张人脸图像xi及其对应的标签ti进行编码后,得到维度为m
×m×
c的输入特征si,si经过第一阶段的可分离卷积conv_dw模块的处理后得到维度大小为(m/p)
×
(m/p)
×
(c
×
p)的第一阶段的网络特征s
i_p
,s
i_p
再经过第二阶段的可分离卷积conv_dw模块的处理后得到维度大小为(m/q)
×
(m/q)
×
(c
×
q)的第二阶段的网络特征s
i_q
,最后si
_q

过第三阶段的可分离卷积conv_dw模块的处理后得到维度大小为(m/r)
×
(m/r)
×
(c
×
r)的第三阶段的网络特则s
i_r
,其中,p表示第一阶段的特征压缩比例,q表示第二阶段的特征压缩比例,r表示第三阶段的特征压缩比例;
13.步骤2.2:构建特征金字塔fpn并进行图像特征提取;
14.所述特征金字塔fpn利用维度为b
×
b的卷积对和的通道数进行调整后,再对调整后的三个特征分别进行上采样操作,相应得到第一上采样特征第二上采样特征和第三上采样特征将和融合后得到第一融合特征s
i_qr
,将和融合后得到第二融合特征s
i_pq

15.步骤2.3:通过ssh模块加强特征提取;
16.所述ssh模块将特征s
i_pq
、s
i_qr
和进行拼接操作后得到拼接特征s
i_pqr

17.所述ssh模块利用三个卷积核尺寸分别为d
×
d、e
×
e和f
×
f的并行卷积对所述拼接特征s
i_pqr
进行处理,相应得到第一阶段加强特征s
i_pout
、第二阶段加强特征s
i_qout
和第三阶段加强特征s
i_rout

18.步骤2.4:构建head模块并对分类、预测框和关键点的特征进行提取;
19.所述head模块将s
i_pout
、s
i_qout
和s
i_rout
组合成预测特征s
i_new
,再将s
i_new
分别进行三种维度的张量重构操作,从而形成通道数为u的人脸类别特征s
i_class
,通道数为v的人脸框特征s
i_box
和通道数为w的人脸关键点特征s
i_lands

20.步骤2.5:建立损失函数;
21.利用式(1)构建目标检测网络对第i张人脸图像xi的总损失函数li;
22.li=w
i_class
×
l
i_class
+w
i_box
×
l
i_box
+w
i_lands
×
l
i_lands
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
23.式(1)中,l
i_class
表示第i张人脸图像xi的人脸类别的平均绝对和均方误差损失,l
i_box
表示第i张人脸图像xi的人脸框的平均绝对和均方误差损失,l
i_lands
表示第i张人脸图像xi的人脸关键点的平均绝对和均方误差损失,w
i_class
表示第i张人脸图像xi的人脸类别损失权重,w
i_box
表示第i张人脸图像xi的人脸框损失权重,w
i_lands
表示第i张人脸图像xi的人脸关键点的损失权重;
24.步骤2.6:预测模块的修正与解码;
25.所述预测模块将s
i_class
,s
i_box
和s
i_lands
拼接后得到通道数为(u+v+w)的最终预测特征s
i_out
,再对s
i_out
进行解码后得到第i张人脸图像xi中包含人脸框和人脸关键点的预测结果;
26.通过非极大抑制去除预测结果中重合度较高的预测框,从而得到第i张人脸图像xi的最终预测结果fi;令最终预测结果fi中任意一个人脸框的位置记为(xi,yi,wi,hi),其中,(xi,yi)是人脸框的中心点坐标,wi,hi对应人脸框的宽和高;令预测结果fi中的人脸关键点集合为{(x
ih
,y
ih
)|h=1,2,

,h},其中,x
ie
,y
ie
分别代表人脸的第h个关键点,h表示关键点的数量;
27.步骤3:基于人脸图像数据集x,利用梯度下降法对所述目标检测网络进行训练,并计算的总损失函数li以更新网络参数,直到总损失函数li收敛为止,从而得到训练后的目标检测网络并作为教师模型g;
28.步骤4:构建半监督学习数据集的伪标签;
29.将无标签的人脸图像数据集y输入所述教师模型g中进行处理,得到y的伪标签fy={fy1,fy2…
fyj…
fym};其中,fyj表示无标签图像数据yj对应的预测标签;
30.将带标签的人脸图像数据集x和带伪标签的人脸图像数据集y混合后作为新的人脸图像数据集xy={xy1,xy2…
xyg…
xy
m+n
},其中,xyg表示第g张新的人脸图像,令新的人脸图像数据集xy对应新的标签集合tf={tf1,tf2…
tfg…
tf
m+n
},tfg表示第g张新的人脸图像xyg的标签;g=1,2,3

m+n,m+n为新的人脸数据图像集xy的图像总数;
31.步骤5:构建新型半监督检测网络并训练,所述新型半监督检测网络由所述教师模型g中的主干网络的、ssh模块、预测模块以及新金字塔模块re_bifpn组成;
32.步骤5.1:基于主干网络的三阶段特征提取;
33.将第g张新的人脸图像xyg及其对应的标签tfg输入所述教师模型g的主干网络中进行处理后,得到新的第一阶段网络特征s
g_p
,新的第二阶段网络特征s
g_p
,新的第三阶段网络特征s
g_r

34.步骤5.2:构建新金字塔模块re_bifpn并进行图像特征提取;
35.步骤5.2.1、所述新金字塔模块re_bifpn利用维度为b
×
b的卷积对s
g_p
、s
g_p
和s
g_r
的通道数分别进行调整后,得到调整后的特征和并分别进行两两融合后,得到三个融合特征
36.步骤5.2.2、将三个融合特征再分别进行两两融融合后,得到融合,得到三个阶段融合特征
37.步骤5.3:通过ssh模块进行加强特征提取;
38.所述教师模型g中的ssh模块将三个阶段融合特征和进行拼接操作后得到拼接特征s
g_pqr

39.所述ssh模块利用三个卷积核尺寸分别为d
×
d、e
×
e和f
×
f的并行卷积对拼接特征s
g_pqr
进行处理,相应得到新第一阶段加强特征s
g_pout
、新第二阶段加强特征s
g_qout
和新第三阶段加强特征s
g_rout

40.步骤5.4:基于head模块将分类、预测框和关键点的特征进行提取;
41.所述head模块将s
g_pout
、s
g_qout
和s
g_rout
组合成新的预测特征s
g_new
,再将s
g_new
分别进行三种维度的张量重构操作,得到新的人脸类别特征s
g_class
,新的人脸框特征s
g_box
和新的人脸关键点特征s
g_lands

42.步骤5.5:利用式(2)建立新型半监督检测网络的总损失函数l
new

43.l
new=
αli+βlgꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
44.式(2)中,lg表示新型半监督检测网络对第g张新的人脸图像xyg的损失函数,α表示带标签图像监督损失的权重,β表示带伪标签图像监督损失的权重;
45.步骤5.6:预测模块的修正与解码;
46.所述教师模型g中的预测模块将s
g_class
,s
g_box
和s
g_lands
拼接得到新的最终预测特征s
g_out
,再对s
g_out
进行解码后得到第g张新的人脸图像xyg中包含人脸框和人脸关键点的预测结果;
47.步骤6:基于人脸图像数据集xy,利用梯度下降法对所述新型半监督检测网络进行训练,并计算的总损失函数l
new
以更新网络参数,直到总损失函数l
new
收敛为止,从而得到训练后的目标检测网络并作为新型检测模型g
new

48.本发明所述的一种基于半监督和特征融合的小目标检测方法的特点也在于,
49.所述步骤5.2.1中的两两融合过程包括:
50.将特征进行可分离深度卷积conv后,得到第三阶段的第一层特征
51.利用双层特征融合公式对特征和特征进行融合,并得到第二阶段的第一层特征
52.利用双层特征融合公式对特征和特征进行融合,并得到第一阶段的第一层特征
53.利用双层特征融合公式对特征和特征进行融合,并得到第一阶段的第二层特征
54.利用双层特征融合公式对特征和特征进行融合,并得到第一阶段的第三层特征
55.利用双层特征融合公式对特征和特征进行融合,并得到第二阶段的第一层特征
56.利用三层特征融合公式对特征特征和特征进行融合,并得到第二阶段的第二层特征
57.利用双层特征融合公式对特征和特征进行融合,并得到第二阶段的第三层特征
58.利用三层特征融合公式对特征特征和特征进行融合,并得到第三阶段的第二层特征
59.利用双层特征融合公式对特征和特征进行融合,并得到第三阶段的第三层特征
60.所述步骤5.2.2中的两两融合过程是将作为调整后的特征和并按照步骤5.2.1的融合方式进行处理后得到三个阶段融合特征
61.所述双层特征融合公式为:
62.63.式(3)中,s
one
,s
two
是两个输入特征,w
one
,w
two
是s
one
,s
two
相对应的学习参数,resize表示下采样操作;ε是偏差超参数。
64.所述三层特征融合公式为:
[0065][0066]
式(4)中,s
one
,s
two
,s
three
是三个输入特征,w
one
,w
two
,w
three
是s
one
,s
two
,s
three
相对应的学习参数,resize表示下采样操作;ε是偏差超参数。
[0067]
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述小目标检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
[0068]
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行任一所述小目标检测方法的步骤。
[0069]
与现有技术相比,本发明的有益效果在于:
[0070]
1.本发明在目标检测框架中不仅仅是局限于网络框架的修改,而是将目标主要放在数据的处理之上,利用更多的无标签数据,在目前最优的检测算法之中进行检测,从而得到了更优的检测精度。
[0071]
2.本发明提取人脸不同位置的特征信息,将不同维度深度的特征进行融合,提取了更丰富准确的图像特征,根据特征判断图像是否存在隐藏信息并且将隐藏信息进行重组,从而提取了更有效的特征,提升了人脸识别的精度。
[0072]
3.本发明提出一种新的fpn特征融合结构re_bifpn,将多维网络特征进行融合,充分提取其中的隐藏信息,在人脸目标检测中取得了更加优秀的结果。
[0073]
5.在本发明作中,通过利用半监督学习的方式,拓展目标检测的可用数据集,扩充大量的无标签数据集,充分利用可用图像资源,存在不同大小的人脸检测目标效果更优。
附图说明
[0074]
图1是本发明中的小目标检测方法的整体流程图;
[0075]
图2是本发明中基于半监督目标检测的新型特征融合方法的结构图。
具体实施方式
[0076]
本实施例中,一种基于半监督和特征融合的小目标检测方法,主要是半监督网络的大数据在期基础之上,利用深度多维特征提取方法,将更丰富精确的特征进行融合。神经网络通过训练可以提取到目标图像详细的特征信息,然后以此进行目标图像检索,大大提高了大场景下小目标人脸检测的准确率。如图1所示,该小目标人脸检测方法是按照以下步骤进行:
[0077]
步骤1:构建人脸图像数据集并进行预处理;
[0078]
步骤1.1:获取带标签的真实人脸图像数据集并进行尺寸归一化和预处理后,得到维度为m
×m×
c的预处理后的人脸图像数据集记为x={x1,x2,

,xi,

,xn},其中,xi表示第i张人脸图像,令人脸图像数据集x的标签集合为t={t1,t2,

,ti,

tn},其中,ti表示第i张人脸图像xi对应的标签,i=1,2,

,n,n为带标签的人脸图像数据集中的图像总数;m表示
图像处理后的长和宽,c表示通道数;
[0079]
步骤1.2:获取无标签的人脸图像数据集并进行尺寸归一化和预处理后,得到维度为m
×m×
c的预处理后的人脸图像数据集记为y={y1,y2,

,yj,

ym},其中,yj表示无标签的第j张人脸图像,j=1,2,

,m,m为无标签的人脸图像数据集中的图像总数;
[0080]
本发明数据集使用的是公开人脸数据widerface作为标签数据,从coco数据集中挑选出人脸相关图像作为无标签数据来进行半监督实验。两份人脸数据集包含日常生活工作各方面的数据,更具有普适型,训练出的模型算法更具有鲁棒性。
[0081]
本发明中以采用的widerface数据集为例是人脸检测的一个benchmark数据集,包含32203图像,以及393,703个标注人脸,其中,158,989个标注人脸位于训练集,39,,496个位于验证集。每一个子集都包含3个级别的检测难度:easy,medium,hard。这些人脸在尺度,姿态,光照、表情、遮挡方面都有很大的变化范围。
[0082]
训练集和测试集主要基于公开数据集widerface数据集和半监督补充数据集coco组成,其中半监督数据集coco只是作用于训练集,测试集则全部由widerface组成。widerface中包含61种情景下的人脸,且有相对应的标签坐标数据,coco种的人脸作为半监督数据不具备相对应的标签数据。
[0083]
训练集widerface和半监督数据集的158,989个标注人脸和coco中的部分人脸14320张构成mixdata混合数据作为训练集。
[0084]
在训练集中加入了coco数据集中的部分人脸图片共计14320张,不带有标注的标签。各种生活场景下的人脸图片均有包含,数据方面具有很强的鲁棒性。
[0085]
测试集widerface中每一个子集都包含3个级别的检测难度:easy,medium,hard。
[0086]
半监督在少量样本标签的引导下,能够充分利用大量无标签样本提高学习性能,避免了数据资源的浪费,同时解决了有标签样本较少时监督学习方法泛化能力不强和缺少样本标签引导时无监督学习方法不准确的问题。主要目标是利用隐藏在大量无标签样本中的数据分布信息来提升仅使用少量有标签样本时的学习性能。
[0087]
步骤2:构建半监督学习下的目标检测网络,包括:主干网络、特征金字塔fpn、ssh模块、head模块、预测模块;
[0088]
步骤2.1:构建主干网络并进行三阶段特征提取;
[0089]
主干网络中包含三阶段的可分离卷积conv_dw模块;每个可分离卷积conv_dw模块中的卷积层的卷积核维度为a
×
a,步长为k;
[0090]
将带标签的第i张人脸图像xi及其对应的标签ti进行编码后,得到维度为m
×m×
c的输入特征si,si经过第一阶段的可分离卷积conv_dw模块的处理后得到维度大小为(m/p)
×
(m/p)
×
(c
×
p)的第一阶段的网络特征s
i_p
,s
i_p
再经过第二阶段的可分离卷积conv_dw模块的处理后得到维度大小为(m/q)
×
(m/q)
×
(c
×
q)的第二阶段的网络特征s
i_q
,最后si
_q
经过第三阶段的可分离卷积conv_dw模块的处理后得到维度大小为(m/r)
×
(m/r)
×
(c
×
r)的第三阶段的网络特则s
i_r
,其中,p表示网络第一阶段的特征压缩比例,q表示网络第二阶段的特征压缩比例,r表示网络第三阶段的特征压缩比例;
[0091]
提出的方法适用于目前主流的主干网络,并且在各种网络上进行了实验验证分析方法有效。
[0092]
步骤2.2:构建特征金字塔fpn并进行图像特征提取;
[0093]
所述特征金字塔fpn利用维度为b
×
b的卷积对和的通道数进行调整后,再对调整后的三个特征分别进行上采样操作,相应得到第一上采样特征第二上采样特征和第三上采样特征将和融合后得到第一融合特征s
i_qr
,将和融合后得到第二融合特征s
i_pq

[0094]
步骤2.3:通过ssh模块加强特征提取;
[0095]
所述ssh模块将特征s
i_pq
、s
i_qr
和进行拼接操作后得到拼接特征s
i_pqr

[0096]
所述ssh模块利用三个卷积核尺寸分别为d
×
d、e
×
e和f
×
f的并行卷积对所述拼接特征s
i_pqr
进行处理,相应得到第一阶段加强特征s
i_puut
、第二阶段加强特征s
i_qout
和第三阶段加强特征s
i_rout

[0097]
ssh从三个不同的feature map上检测人脸,三个模块分别用来检测小,中,大的脸。借鉴fpn每个检测模块各自包含一个卷积二值分类器和为了检测人脸和定位人脸的回归器。
[0098]
上下文模块中是采用两个不同大小的卷积核,用这种方式对上下文进行建模增加了对应层的感受野,与相应层的检测成正比,并因此与每个检测模块的目标尺度成比例,同时也增加了每个检测模块中的目标尺度。为了减少模型参数量,使用深度可分离卷积的方法,采用了3x3的卷积核代替5x5和7x7。
[0099]
步骤2.4:构建head模块并对分类、预测框和关键点的特征进行提取;
[0100]
所述head模块将s
i_pout
、s
i_qout
和s
i_rout
组合成预测特征s
i_new
,再将s
i_new
分别进行三种维度的张量重构操作,从而形成通道数为u的人脸类别特征s
i_class
,通道数为v的人脸框特征s
i_box
和通道数为w的人脸关键点特征s
i_lands

[0101]
步骤2.5:建立损失函数;
[0102]
利用式(1)构建目标检测网络对第i张人脸图像xi的总损失函数li;
[0103]
li=w
i_class
×
l
i_class
+w
i_box
×
l
i_box
+w
i_lands
×
l
i_lands
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0104]
式(1)中,l
i_class
表示第i张人脸图像xi的人脸类别的平均绝对和均方误差损失,l
i_box
表示第i张人脸图像xi的人脸框的平均绝对和均方误差损失,l
i_lands
表示第i张人脸图像xi的人脸关键点的平均绝对和均方误差损失,w
i_class
表示第i张人脸图像xi的人脸类别损失权重,w
i_box
表示第i张人脸图像xi的人脸框损失权重,w
i_lands
表示第i张人脸图像xi的人脸关键点的损失权重;
[0105]
l
i_class
,l
i_box
和l
i_lands
分别是由人脸类别特征s
i_class
,人脸框特征s
i_box
和人脸关键点特征s
i_lands
根据平均绝对和均方误差损失计算得来。平均绝对和均方误差损失是平均绝对误差损失和均方误差损失结合得到。
[0106]
步骤2.6:预测模块的修正与解码;
[0107]
所述预测模块将s
i_class
,s
i_box
和s
i_lands
拼接后得到通道数为(u+v+w)的最终预测特征s
i_out
,再对s
i_out
进行解码后得到第i张人脸图像xi中包含人脸框和人脸关键点的预测结果;
[0108]
通过非极大抑制去除预测结果中重合度较高的预测框,从而得到第i张人脸图像xi的最终预测结果fi;令最终预测结果fi中任意一个人脸框的位置记为(xi,yi,wi,hi),其
中,(xi,yi)是人脸框的中心点坐标,wi,hi对应人脸框的宽和高;令预测结果fi中的人脸关键点集合为{(x
ih
,y
ih
)|h=1,2,

,h},其中,x
ie
,y
ie
分别代表人脸的第h个关键点,h表示关键点的数量;最后通过nms非极大抑制去除重复检测值得出最终结果,与在图像分类任务中创建的伪标签相比,对象检测创建伪标签更为复杂,因为图像通常包含多个检测的目标对象,其中的目标对象的注释由位置和类别组成。并且在widerface数据集中的人脸数据的注释有类别,检测框和五个关键位置点。在给定未标记的图像,通过教师模型检测对象预测出数千个候选框。然后执行非极大值抑制(nms)来消除冗余的检测框。通过nms删除了大部分冗余框,但仍然存在一些非前景检测框,因此只有前景分数高于阈值的候选框被保留为伪框。
[0109]
步骤3:基于人脸图像数据集x,利用梯度下降法对所述目标检测网络进行训练,并计算的总损失函数li以更新网络参数,直到总损失函数li收敛为止,从而得到训练后的目标检测网络并作为教师模型g;
[0110]
步骤4:构建半监督学习数据集的伪标签;
[0111]
将无标签的人脸图像数据集y输入所述教师模型g中进行处理,得到y的伪标签fy={fy1,fy2…
fyj…
fym};其中,fyj表示无标签图像数据yj对应的预测标签;
[0112]
将带标签的人脸图像数据集x和带伪标签的人脸图像数据集y混合后作为新的人脸图像数据集xy={xy1,xy2…
xyg…
xy
m+n
},其中,xyg表示第g张新的人脸图像,令新的人脸图像数据集xy对应新的标签集合tf={tf1,tf2…
tfg…
tf
m+n
},tfg表示第g张新的人脸图像xyg的标签;g=1,2,3

m+n,m+n为新的人脸数据图像集xy的图像总数;
[0113]
添加伪标签的经典方法1.首先将带标注的数据集拆分为训练集和测试集。然后,对标记的训练数据训练一个检测算法。2.使用经过训练的分类器来预测所有未标记数据实例的类标签。在这些预测的类标签中,正确率最高的被认为是“伪标签”。3.将“伪标记”数据与正确标记的训练数据连接起来。在组合的“伪标记”和正确标记训练数据上重新训练检测器。4.使用经过训练的分类器来预测已标记的测试数据实例的类标签。使用你选择的度量来评估检测器性能。5.重复1到4,直到2中的预测类标签不再满足特定的概率阈值,或者直到没有更多未标记的数据保留。
[0114]
在算法训练过程中,直接使用所有的无标签样本不仅会影响算法的性能,还会显著降低算法的计算效率。常用的半监督学习算法具有较高的时间复杂度,只能处理小规模数据,且可扩展性较差。因此,在有效利用无标签样本的前提下,如何高效使用大量的无标签样本,从而提升算法的性能和扩展性,是使用半监督学习技术处理大规模数据时需要解决的问题。
[0115]
步骤5:构建新型半监督检测网络并训练,新型半监督检测网络由教师模型g中的主干网络的、ssh模块、预测模块以及新金字塔模块re_bifpn组成;
[0116]
步骤5.1:基于主干网络的三阶段特征提取;
[0117]
将第g张新的人脸图像xyg及其对应的标签tfg输入教师模型g的主干网络中进行处理后,得到新的第一阶段网络特征s
g_p
,新的第二阶段网络特征s
g_p
,新的第三阶段网络特征s
g_r

[0118]
步骤5.2:构建新金字塔模块re_bifpn并进行图像特征提取;
[0119]
步骤5.2.1、新金字塔模块re_bifpn利用维度为b
×
b的卷积对s
g_p
、s
g_p
和s
g_r
的通道数分别进行调整后,得到调整后的特征和并分别进行两两融合后,得到三
个融合特征如图2所示,图中虚线表示的是迭代步骤;
[0120]
新型特征金字塔模块re_bifpn利用维度为b
×
b的卷积对s
g_p
、s
g_p
和s
g_r
的通道数进行调整后,得到特征和并将三个特征用如下方法进行融合。和在图2中就代表着特征c
(k-2)
、c
(k-1)
和ck。
[0121]
将特征进行可分离深度卷积conv后得到三阶段第一层特征图2中c
ktd1
代表特征利用双层特征融合公式对特征和特征进行融合,并得到第二阶段的第一层特征图2中c
(k-1)td1
代表特征
[0122]
利用双层特征融合公式对特征和特征进行融合,并得第到一阶段的第一层特征图2中c
(k-2)td1
代表特征利用双层特征融合公式对特征和特征进行融合,并得到第一阶段的第二层特征图2中c
(k-2)td2
代表特征利用双层特征融合公式对特征和特征进行融合,并得到第一阶段的第三层特征
[0123]
利用双层特征融合公式对特征和特征进行融合,并得到第二阶段的第一层特征图2中c
(k-1)td1
代表特征利用三层特征融合公式对特征特征和特征进行融合,并得到第二阶段的第二层特征图2中c
(k-1)td2
代表特征利用双层特征融合公式对特征和特征进行融合,并得到第二阶段的第三层特征
[0124]
利用三层特征融合公式对特征特征和特征进行融合,并得到第三阶段的第二层特征图2中c
ktd2
代表特征利用双层特征融合公式对特征和特征进行融合,并得到第三阶段的第三层特征
[0125]
将特征作为特征融合第二层的输入,进行迭代融合后得到最终三个阶段融合特征图2中c
(k-2)out
,c
(k-1)out
和c
kout
分别代表着特征
[0126]
步骤5.2.2、将三个融合特征再分别进行两两融融合后,得到融合,得到三个阶段融合特征
[0127]
目标检测在处理多尺度变化问题是的不足,很多网络都使用了利用单个高层特征,但是这样做有一个明显的缺陷,即小物体本身具有的像素信息较少,在下采样的过程中极易被丢失,为了处理这种物体大小差异十分明显的检测问题,利用图像金字塔的方式进行多尺度变化增强后有好的效果,但是会带来极大的计算量。所以fpn特征金字塔的网络结
构,能在增加极小的计算量的情况下,处理好物体检测中的多尺度变化问题。
[0128]
不同特征层对应着不同尺度大小的anchor,每个特征层相对于原始图片具有不同的尺度信息,因此原始特征中的尺度信息分离,让每个特征层只处理单一的尺度信息。。
[0129]
如图2所示所选用三种不同尺度的特征进行交叉融合最后迭代两次从而得到最终想要的结果。提出的新版re_bifpn结构是实现了特征的重复双向跨尺度连接,以及带权重的特征融合机制和特征迭代循环机制。
[0130]
步骤5.3:通过ssh模块进行加强特征提取;
[0131]
所述教师模型g中的ssh模块将三个阶段融合特征和进行拼接操作后得到拼接特征s
g_pqr

[0132]
所述ssh模块利用三个卷积核尺寸分别为d
×
d、e
×
e和f
×
f的并行卷积对拼接特征s
g_pqr
进行处理,相应得到新第一阶段加强特征s
g_pout
、新第二阶段加强特征s
g_qout
和新第三阶段加强特征s
g_rout

[0133]
步骤5.4:基于head模块将分类、预测框和关键点的特征进行提取;
[0134]
所述head模块将s
g_pout
、s
g_qout
和s
g_rout
组合成新的预测特征s
g_new
,再将s
g_new
分别进行三种维度的张量重构操作,得到新的人脸类别特征s
g_class
,新的人脸框特征s
g_box
和新的人脸关键点特征s
g_lands

[0135]
步骤5.5:利用式(2)建立新型半监督检测网络的总损失函数l
new

[0136]
l
new
=αli+βlgꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0137]
式(2)中,lg表示新型半监督检测网络对第g张新的人脸图像xyg的损失函数,α表示带标签图像监督损失的权重,β表示带伪标签图像监督损失的权重;
[0138]
步骤5.6:预测模块的修正与解码;
[0139]
所述教师模型g中的预测模块将s
g_class
,s
g_box
和s
g_lands
拼接得到新的最终预测特征s
g_out
,再对s
g_out
进行解码后得到第g张新的人脸图像xyg中包含人脸框和人脸关键点的预测结果;
[0140]
步骤6:基于人脸图像数据集xy,利用梯度下降法对所述新型半监督检测网络进行训练,并计算的总损失函数l
new
以更新网络参数,直到总损失函数l
new
收敛为止,从而得到训练后的目标检测网络并作为新型检测模型g
new

[0141]
经过新型的半监督训练之后得到最终的人脸检测模型,得到更优的结果检测的f
new
={f1,f2…fi
…fn+m
}标签效果精度也更加贴合真实标。
[0142]
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述小目标检测方法的程序,该处理器被配置为用于该所述存储器中存储的程序。
[0143]
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述小目标检测方法的步骤。
[0144]
本发明在不同的主干网络上进行了一些消融实验如下表1所示,带标签数据集使用widerface数据集,不带标签数据集使用coco中的人脸数据,以ap为评价指标。
[0145]
表1:不同特征融合层下的半监督精度结果
[0146][0147]
从表1中可以看出本发明方法,在各网络下的检测精度效果都有更好的结果。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1