一种基于注意力导向机制的人脸检测方法、系统、存储介质及终端与流程

文档序号:24619437发布日期:2021-04-09 20:23阅读:125来源:国知局
一种基于注意力导向机制的人脸检测方法、系统、存储介质及终端与流程

本发明涉及计算机的深度学习技术领域,特别涉及一种基于注意力导向机制的人脸检测方法、系统、存储介质及终端。



背景技术:

基于深度学习的人脸检测任务中,对于小目标、小人脸的检测难度很大,面临许多技术挑战,这是因为图片分辨率比较低,图片模糊,背景噪音多。

现有的小脸检测方法主要包括传统的图像金字塔和多尺度滑动窗口检测小脸;数据扩增方法,增加小脸样本数量和种类来提升小脸检测性能;基于特征融合的方法,将高层、低层的多尺度特征融合来提升检测性能;基于锚采样和匹配策略的方法;利用上下文信息的方法等。

由于视觉任务中上下文信息对性能提升至关重要,所以许多检测算法都设计了提取上下文信息的层间融合结构,例如densenet具有密集跨层连接实现特征复用,fpn融合高层和底层的特征信息,deeplabv3具有aspp结构来增大感受野。

dsfd作为一种双分支人脸检测算法,结合fpn和rfb思想,提出了一种特征增强模块(fem),不仅使用不同层级间的特征信息,同时使用空洞卷积获取更大感受野的特征,从而获得了更多的辨识度高且鲁棒性强的特征。但是fem模块只是将fpn融合后的特征图分组处理后进行拼接用于增大感受野,没有将细粒度和粗粒度的上下文特征有效融合,从而降低了识别精度。



技术实现要素:

本申请实施例提供了一种基于注意力导向机制的人脸检测方法、系统、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。

第一方面,本申请实施例提供了一种基于注意力导向机制的人脸检测方法,方法包括:

获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;

采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图;

基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图;

根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图;

基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图;

将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。

可选的,基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图,包括:

上下文提取模块将第一分支原始特征图进行通道分组,生成三组特征图序列;

上下文提取模块将三组特征图序列进行特征处理,生成三组特征处理后的特征图序列;

上下文提取模块将三组空洞卷积后的特征图序列中各特征图通过1*1卷积参数再次特征融合后生成三组再次卷积的特征图序列;

上下文提取模块将三组再次卷积的特征图序列进行拼接处理,生成拼接后的特征图。

可选的,上下文提取模块将三组特征图序列进行特征处理,生成三组特征处理后的特征图序列,包括:

上下文提取模块针对三组特征通道中的第一组采用不同空洞卷积层提取人脸的多尺度特性信息,生成第一精细化后的特征图序列;其中,空洞卷积参数为3*3,空洞卷积的卷记率为3;

上下文提取模块针对三组特征通道中的第二组采用1*1卷积增加有效特征权重的数量,生成第二精细化后的特征图序列;

上下文提取模块针对三组特征通道中的第三组进行全局特征提取,生成全局的特征图序列;

上下文提取模块将第一精细化后的特征图序列、第二精细化后的特征图序列以及全局的特征图序列进行通道拼接,生成拼接后的特征图序列;

上下文提取模块采用1*1卷积参数将三组空洞卷积后的特征图序列进行特征融合,生成三组特征处理后的特征图序列。

可选的,上下文提取模块针对三组特征通道中的第三组进行全局特征提取,生成全局的特征图序列,包括:

上下文提取模块针对三组特征通道中的第三组采用全局平均池化(gap)处理,生成池化后的特征图序列;

上下文提取模块将池化后的特征图序列采用1*1卷积参数改变通道维数,生成改变后的特征图序列;

上下文提取模块将改变后的特征图序列上采样到预设阈值的空间维度,生成全局的特征图序列。

可选的,根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图,包括:

注意力引导模块提取拼接后的特征图中任意两个位置之间的语义关系;

注意力引导模块收集拼接后的特征图中任意两个位置之间的空间信息;

注意力引导模块将语义关系和空间信息进行合并后,生成采集后的特征图。

可选的,按照以下步骤生成预先训练的人脸检测模型,包括:

采用经过扩展的卷积神经网络vgg16创建骨干网络;

将卷积块和注意力引导特征增强模块添加至创建的骨干网络中,生成人脸检测模型;其中,注意力引导特征增强模块由注意力引导模块(am)和上下文提取模块(cem)组成;

加载第一分支的检测层序列,并将人脸检测模型的骨干网络中的6个层作为第一分支的检测层序列,生成替换后的人脸检测模型;

采集带有人脸图像的训练样本,并将带有人脸图像的训练样本输入替换后的人脸检测模型中进行训练,输出人脸检测模型的渐进锚损失值;

当人脸检测模型的渐进锚损失值达到预设最小值时,生成训练后的人脸检测模型。

可选的,当人脸检测模型的渐进锚损失值达到预设最小值时,生成训练后的人脸检测模型,包括:

当人脸检测模型的渐进锚损失值未达到预设最小值时,继续执行采集带有人脸图像的训练样本的步骤;或者

当采集带有人脸图像的训练样本训练次数未到达预设次数时,继续执行采集带有人脸图像的训练样本的步骤。

第二方面,本申请实施例提供了一种基于注意力导向机制的人脸检测系统,该系统包括:

图像获取模块,用于获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;

第一分支原始特征图生成模块,用于采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图;

第一特征图生成模块,用于基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图;

第二特征图生成模块,用于根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图;

增强特征图生成模块,用于基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图;

人脸图像输出模块,用于将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。

第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。

第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果:

在本申请实施例中,基于注意力导向机制的人脸检测系统首先获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;再采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图,然后基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图,再根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图,再基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图,最后将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。因此,采用本申请实施例,由于本申请通过注意力引导模块和上下文提取模块进行增强后,使得人脸检测模型更加关注人脸特征,从而使得人脸检测性能有较大提升,进一步提升了人脸检测精度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种基于注意力导向机制的人脸检测方法的流程示意图;

图2是本申请实施例提供的一种人脸检测网络中的上下文提取模块的网络结构示意图;

图3是本申请实施例提供的一种注意力引导特征增强模块中的注意力引导模块结构图;

图4是本申请实施例提供的一种人脸检测网络结构的结构图;

图5是本申请实施例提供的另一种基于注意力导向机制的人脸检测方法的流程示意图;

图6是本申请实施例提供的一种基于注意力导向机制的人脸检测系统的系统结构示意图;

图7是本申请实施例提供的一种终端示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。

在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

到目前为止,现有的小脸检测方法主要包括传统的图像金字塔和多尺度滑动窗口检测小脸;数据扩增方法,增加小脸样本数量和种类来提升小脸检测性能;基于特征融合的方法,将高层、低层的多尺度特征融合来提升检测性能;基于锚采样和匹配策略的方法;利用上下文信息的方法等。由于视觉任务中上下文信息对性能提升至关重要,所以许多检测算法都设计了提取上下文信息的层间融合结构,例如densenet具有密集跨层连接实现特征复用,fpn融合高层和底层的特征信息,deeplabv3具有aspp结构来增大感受野。

dsfd作为一种双分支人脸检测算法,结合fpn和rfb思想,提出了一种特征增强模块(fem),不仅使用不同层级间的特征信息,同时使用空洞卷积获取更大感受野的特征,从而获得了更多的辨识度高且鲁棒性强的特征。但是fem模块只是将fpn融合后的特征图分组处理后进行拼接用于增大感受野,没有将细粒度和粗粒度的上下文特征有效融合,从而降低了识别精度。为此,本申请提供了一种基于注意力导向机制的人脸检测方法、系统、存储介质及终端,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,由于本申请通过注意力引导模块和上下文提取模块进行增强后,使得人脸检测模型更加关注人脸特征,从而使得人脸检测性能有较大提升,进一步提升了人脸检测精度,下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图5,对本申请实施例提供的基于注意力导向机制的人脸检测方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的基于注意力导向机制的人脸检测系统上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。

请参见图1,为本申请实施例提供了一种基于注意力导向机制的人脸检测方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:

s101,获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;

其中,目标图像为待检测的图像,该图像中包括一个或多个人脸,该人脸图像可以是实时获取的人脸图像,也可以是计算机中保存的人脸图像。既可以是线上的也可以是线下的。

通常,预先训练的人脸检测模型是具有小人脸检测功能的数学模型,该人脸检测模型在进行训练时,首先采用经过扩展的卷积神经网络vgg16创建骨干网络,然后将卷积块和注意力引导特征增强模块添加至创建的骨干网络中,生成人脸检测模型;其中,注意力引导特征增强模块由注意力引导模块(am)和上下文提取模块(cem)组成,再加载第一分支的检测层序列,并将人脸检测模型的骨干网络中的6个层作为第一分支的检测层序列,生成替换后的人脸检测模型,再采集带有人脸图像的训练样本,并将带有人脸图像的训练样本输入替换后的人脸检测模型中进行训练,输出人脸检测模型的渐进锚损失值,最后当人脸检测模型的渐进锚损失值达到预设最小值时,生成训练后的人脸检测模型。

进一步地,当人脸检测模型的渐进锚损失值未达到预设最小值时,继续执行采集带有人脸图像的训练样本的步骤;或者当采集带有人脸图像的训练样本训练次数未到达预设次数时,继续执行采集带有人脸图像的训练样本的步骤。

具体的,上下文提取模块(cem)可以利用来自各种大小的感受野的丰富上下文信息;注意力引导模块(am)可增强显着上下文依存关系。

在一种可能的实现方式中,在针对目标图像中的人脸进行检测时,首先通过摄像头采集带有人脸的目标图像,然后将带有人脸的目标图像输入预先训练的人脸检测模型中进行处理。

s102,采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图;

通常,人脸检测模型中带有卷积块,首先通过卷积块将会针对目标图像进行卷积操作,使得生成目标图像的一系列特征图(futuremap),然后从生成的一系列特征图中选择6个层的特征图作为第一分支的原始特征图。

s103,基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图;

在本申请实施例中,在对第一分支原始特征图中每个特征图进行通道拼接时,上下文提取模块首先将第一分支原始特征图进行通道分组,生成三组特征图序列,然后将三组特征图序列进行特征处理,生成三组特征处理后的特征图序列,再将三组空洞卷积后的特征图序列中各特征图通过1*1卷积参数再次特征融合后生成三组再次卷积的特征图序列,最后将三组再次卷积的特征图序列进行拼接处理,生成拼接后的特征图。

进一步地,上下文提取模块将三组特征图序列进行特征处理,生成三组特征处理后的特征图序列时,上下文提取模块首先针对三组特征通道中的第一组采用不同空洞卷积层提取人脸的多尺度特性信息,生成第一精细化后的特征图序列;其中,空洞卷积参数为3*3,空洞卷积的卷记率为3;再针对三组特征通道中的第二组采用1*1卷积增加有效特征权重的数量,生成第二精细化后的特征图序列,然后针对三组特征通道中的第三组进行全局特征提取,生成全局的特征图序列,再将第一精细化后的特征图序列、第二精细化后的特征图序列以及全局的特征图序列进行通道拼接,生成拼接后的特征图序列,最后采用1*1卷积参数将三组空洞卷积后的特征图序列进行特征融合,生成三组特征处理后的特征图序列。

在对三组特征通道中的第一组采用不同空洞卷积层提取人脸的多尺度特性信息时,将第一组重新划分为3组,可表示为对重新划分的3组中第一组采用一个空洞卷积进行处理,对第二组进行两个空洞卷积进行处理,对第三组进行三个空洞卷积进行处理,最后将三组空洞卷积处理后的进行通道拼接,生成第一精细化后的特征图序列。

进一步地,上下文提取模块针对三组特征通道中的第三组进行全局特征提取,生成全局的特征图序列时,上下文提取模块首先针对三组特征通道中的第三组采用全局平均池化(gap)处理,生成池化后的特征图序列,然后将池化后的特征图序列采用1*1卷积参数改变通道维数,生成改变后的特征图序列,最后将改变后的特征图序列上采样到预设阈值的空间维度,生成全局的特征图序列。

s104,根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图;

在一种可能的实现方式中,注意力引导模块首先提取拼接后的特征图中任意两个位置之间的语义关系,然后收集拼接后的特征图中任意两个位置之间的空间信息,最后将语义关系和空间信息进行合并后,生成采集后的特征图。

例如图2所示,图2是本申请实施例提供的一种人脸检测网络中的上下文提取模块的网络结构示意图,首先将目标图像经过基于注意力导向机制的人脸检测中的卷积块进行卷积操作,生成多个层的特征图fd,然后通过上下文提取模块进行通道分组,将fd分为三组进行空洞卷积处理,处理完成后进行通道拼接最后输出第一特征图,再采用1*1卷积参数改变通道维数,生成改变后的特征图序列,最后将改变后的特征图序列上采样到预设阈值的空间维度,生成全局的特征图序列。最后进行通道拼接,再进行1*1卷积参数处理,最后得到特征图fc。

s105,基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图;

其中,采集后的特征图为将fc进行全局平均池化(gap)处理后的特征图。

在一种可能的实现方式中,在得到采集后的特征图时,通过注意力引导模块将采集后的特征图和第二分支增强特征图进行逐元素相乘再相加,最后生成第二分支的增强特征图。

例如图3所示,图3是本申请实施例提供的一种注意力引导特征增强模块中的注意力引导模块结构图,fc为上下文提取模块处理后生成的特征图,fd为第一分支原始特征图,在得到fc和fd后,对fc和fd分别进行全局平均池化(gap)处理,然后分别逐元素相乘处理后,最后逐元素相加处理生成最终的第二分支增强特征图fa。

s106,将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。

例如图4所示,图4是本申请提供的一种人脸检测网络结构的结构图,首先通过扩展vgg16作为dsfd的基底骨干网络,即将vgg16的全连接层替换成其他辅助的卷积层。本申请选择的卷积层分别是以下:

conv3_3,conv4_3,conv5_3,conv_fc7,conv6_2,conv7_2作为第一分支的检测器层,以生成6个原始的特征图,其对应命名为of1,of2,of3,of4,of5,of6,然后本申请提出的注意力引导特征增强模块将6个原始的特征图转换成6个注意力导向机制的特征图,其对应命名为ef1,ef2,ef3,ef4,ef5,ef6,它们与对应的6个原始的特征图有相同的尺寸大小,通过将他们输入到人脸检测模型的骨干网络ssd类型的头部,以此构建第二分支的检测层。在使用注意力导向机制模块对感受野增强和新的锚设计策略后,原则上就没必要让(stride,锚,感受野)这三个size满足等比例间隔原则。因此,dsfd更灵活也更鲁棒。同时,原始的第一分支的检测器层和构建第二分支的检测层有2个不同的损失值。分别被命名为第一分支渐进式锚损失(firstshotprogressiveanchorloss,fsl)和第二分支渐进式锚loss(secondshotprogressiveanchorloss,ssl)。

在本申请实施例中,基于注意力导向机制的人脸检测系统首先获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;再采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图,然后基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图,再根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图,再基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图,最后将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。因此,采用本申请实施例,由于本申请通过注意力引导模块和上下文提取模块进行增强后,使得人脸检测模型更加关注人脸特征,从而使得人脸检测性能有较大提升,进一步提升了人脸检测精度。

请参见图4,为本申请实施例提供的另一种基于注意力导向机制的人脸检测方法的流程示意图。该基于注意力导向机制的人脸检测方法可以包括以下步骤:

s201,获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;

s202,采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图;

s203,上下文提取模块将第一分支原始特征图进行通道分组,生成三组特征图序列;

s204,上下文提取模块针对三组特征通道中的第一组采用不同空洞卷积层提取人脸的多尺度特性信息,生成第一精细化后的特征图序列;其中,空洞卷积参数为3*3,空洞卷积的卷记率为3;

s205,上下文提取模块针对三组特征通道中的第二组采用1*1卷积增加有效特征权重的数量,生成第二精细化后的特征图序列;

s206,上下文提取模块针对三组特征通道中的第三组进行全局特征提取,生成全局的特征图序列;

s207,上下文提取模块将第一精细化后的特征图序列、第二精细化后的特征图序列以及全局的特征图序列进行通道拼接,生成拼接后的特征图序列;

s208,上下文提取模块采用1*1卷积参数将三组空洞卷积后的特征图序列进行特征融合,生成三组空洞卷积后的特征图序列;

s209,上下文提取模块将三组空洞卷积后的特征图序列中各特征图通过1*1卷积参数再次特征融合后生成三组再次卷积的特征图序列;

s210,上下文提取模块将三组再次卷积的特征图序列进行拼接处理,生成拼接后的特征图;

s211,注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图;

s212,注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图;

s213,注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图。

进一步地,基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图,将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。

在本申请实施例中,基于注意力导向机制的人脸检测系统首先获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;再采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图,然后基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图,再根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图,再基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图,最后将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。因此,采用本申请实施例,由于本申请通过注意力引导模块和上下文提取模块进行增强后,使得人脸检测模型更加关注人脸特征,从而使得人脸检测性能有较大提升,进一步提升了人脸检测精度。

下述为本发明系统实施例,可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节,请参照本发明方法实施例。

请参见图6,其示出了本发明一个示例性实施例提供的基于注意力导向机制的人脸检测系统的结构示意图。该基于注意力导向机制的人脸检测系统可以通过软件、硬件或者两者的结合实现成为智能机器人的全部或一部分。该系统1包括图像获取模块10、第一分支原始特征图生成模块20、第一特征图生成模块30、第二特征图生成模块40、增强特征图生成模块50、人脸图像输出模块60。

图像获取模块10,用于获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;

第一分支原始特征图生成模块20,用于采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图;

第一特征图生成模块30,用于基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图;

第二特征图生成模块40,用于根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图;

增强特征图生成模块50,用于基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图;

人脸图像输出模块60,用于将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。

需要说明的是,上述实施例提供的基于注意力导向机制的人脸检测系统在执行基于注意力导向机制的人脸检测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于注意力导向机制的人脸检测系统与基于注意力导向机制的人脸检测方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请实施例中,基于注意力导向机制的人脸检测系统首先获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;再采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图,然后基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图,再根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图,再基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图,最后将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。因此,采用本申请实施例,由于本申请通过注意力引导模块和上下文提取模块进行增强后,使得人脸检测模型更加关注人脸特征,从而使得人脸检测性能有较大提升,进一步提升了人脸检测精度。

本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的基于注意力导向机制的人脸检测方法。

本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的基于注意力导向机制的人脸检测方法。

请参见图7,为本申请实施例提供了一种终端的结构示意图。如图7所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。

其中,通信总线1002用于实现这些组件之间的连接通信。

其中,用户接口1003可以包括显示屏(display)、摄像头(camera),可选用户接口1003还可以包括标准的有线接口、无线接口。

其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。

其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个终端1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行终端1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(centralprocessingunit,cpu)、图像处理器(graphicsprocessingunit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。

其中,存储器1005可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitorycomputer-readablestoragemedium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储系统。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于注意力导向机制的人脸检测应用程序。

在图7所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的基于注意力导向机制的人脸检测应用程序,并具体执行以下操作:

获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;

采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图;

基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图;

根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图;

基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图;

将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。

在一个实施例中,处理器1001在执行基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图时,具体执行以下操作:

上下文提取模块将第一分支原始特征图进行通道分组,生成三组特征图序列;

上下文提取模块将三组特征图序列进行特征处理,生成三组特征处理后的特征图序列;

上下文提取模块将三组空洞卷积后的特征图序列中各特征图通过1*1卷积参数再次特征融合后生成三组再次卷积的特征图序列;

上下文提取模块将三组再次卷积的特征图序列进行拼接处理,生成拼接后的特征图。

在一个实施例中,处理器1001在执行上下文提取模块将三组特征图序列进行特征处理,生成三组特征处理后的特征图序列时,具体执行以下操作:

上下文提取模块针对三组特征通道中的第一组采用不同空洞卷积层提取人脸的多尺度特性信息,生成第一精细化后的特征图序列;其中,空洞卷积参数为3*3,空洞卷积的卷记率为3;

上下文提取模块针对三组特征通道中的第二组采用1*1卷积增加有效特征权重的数量,生成第二精细化后的特征图序列;

上下文提取模块针对三组特征通道中的第三组进行全局特征提取,生成全局的特征图序列;

上下文提取模块将第一精细化后的特征图序列、第二精细化后的特征图序列以及全局的特征图序列进行通道拼接,生成拼接后的特征图序列;

上下文提取模块采用1*1卷积参数将三组空洞卷积后的特征图序列进行特征融合,生成三组特征处理后的特征图序列。

在一个实施例中,处理器1001在执行上下文提取模块针对三组特征通道中的第三组进行全局特征提取,生成全局的特征图序列时,具体执行以下操作:

上下文提取模块针对三组特征通道中的第三组采用全局平均池化(gap)处理,生成池化后的特征图序列;

上下文提取模块将池化后的特征图序列采用1*1卷积参数改变通道维数,生成改变后的特征图序列;

上下文提取模块将改变后的特征图序列上采样到预设阈值的空间维度,生成全局的特征图序列。

在一个实施例中,处理器1001在执行根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图时,具体执行以下操作:

注意力引导模块提取拼接后的特征图中任意两个位置之间的语义关系;

注意力引导模块收集拼接后的特征图中任意两个位置之间的空间信息;

注意力引导模块将语义关系和空间信息进行合并后,生成采集后的特征图。

在本申请实施例中,基于注意力导向机制的人脸检测系统首先获取待检测的目标图像,并将待检测的目标图像输入预先训练的人脸检测模型中;其中,人脸检测模型中包括卷积块和注意力引导特征增强模块;注意力引导特征增强模块包括注意力引导模块和上下文提取模块;再采用卷积块中扩展的vgg16对待检测的目标图像进行特征提取操作生成特征图序列,并从特征图序列中选取6个层作为第一分支原始特征图,然后基于上下文提取模块对第一分支原始特征图中每个特征图进行通道拼接,生成拼接后的特征图,再根据注意力引导模块采集拼接后的特征图对应的语义关系和空间信息,生成采集后的特征图,再基于第一分支原始特征图与采集后的特征图生成第二分支增强特征图,最后将第二分支增强特征图输入到人脸检测模型的ssd目标检测算法头部后,得到检测出的人脸图像。因此,采用本申请实施例,由于本申请通过注意力引导模块和上下文提取模块进行增强后,使得人脸检测模型更加关注人脸特征,从而使得人脸检测性能有较大提升,进一步提升了人脸检测精度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1