一种基于联合注意力的多分支级联的人脸检测方法及装置

文档序号：35857606发布日期：2023-10-26 05:26阅读：26来源：国知局

本发明涉及计算机视觉，尤其涉及一种基于联合注意力的多分支级联的人脸检测方法及装置。

背景技术：

1、人脸检测作为目标检测的一个独立的分支，指的是通过计算机自动检测输入的图像和视频是否含有人脸以及对人脸位置进行定位的任务，在计算机视觉领域拥有着很高的研究价值。

2、公告号为cn114998969a的中国专利公开了一种用于人脸检测的方法和装置，该方法对于待处理的多个特征图，通过空间金字塔网络和路径增强网络，得到经过处理的多个特征图，基于经过处理的多个特征图，通过基于层级衰减的预测网络，得到相应的人脸预测结果。通过在现有的人脸检测方案的框架中结合融合空间金字塔结构的路径增强网络和基于层级衰减的预测网络层来对多个特征图进行处理，提高了人脸检测方案的检测精度和鲁棒性，但是上述方案无法优化对图像相应网络对人脸的注意力程度，更无法分化浅层分支和深层分支对不同规模人脸的检测能力，因此，提供一种基于联合注意力的多分支级联的人脸检测方法及装置，来提升人脸检测的精度，是非常有必要的。

技术实现思路

1、有鉴于此，本发明提出了一种基于联合注意力的多分支级联的人脸检测方法及装置，通过在多分支级联网络中结合注意力模块和分类与回归网络，使多分支级联网络中每个通道输出的特征均能与待测图像中的人脸区域关联并剔除无关区域，进而提升人脸检测的精度。

2、本发明提供了一种基于联合注意力的多分支级联的人脸检测方法，所述方法包括：

3、提取待测图像的初始特征，其中，所述待测图像为原始图像经预处理获得；

4、将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息；

5、将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息；

6、将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息；

7、将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，其中，所述分类与回归网络包括分类子网络、回归子网络以及平衡子网络；

8、基于所述预测信息和所述损失函数，构建人脸检测模型。

9、在以上技术方案的基础上，优选的，所述将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息之前，还包括：

10、基于多个特征提取模块和与所述特征提取模块对应的残差模块，构建所述多分支级联网络，其中，所述多个所述特征提取模块均包括第一卷积块、第二卷积块以及第三卷积块。

11、在以上技术方案的基础上，优选的，所述构建所述多分支级联网络，具体包括：

12、将所述第一卷积块之前的特征向量与所述第三卷积块之后的特征向量进行求和运算，以获取残差模块；

13、在多个所述特征提取模块中对应设置预设数量的残差模块，以构建所述多分支级联网络。

14、更进一步优选的，所述将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息，具体包括：

15、将所述分支特征信息输入所述注意力模块并对所述分支特征信息进行标准偏差运算，以获取第一通道描述符，其中，所述第一通道描述符与所述分支特征信息的通道一一对应表达；

16、基于sigmod函数对所述第一通道描述符进行归一化，以获取第二通道描述符和所述第二通道描述符对应的权重；

17、基于所述第二通道描述符对应的权重与所述第二通道描述符对应的通道进行加权运算，以获取通道特征信息，其中，所述第二通道描述符对应的通道与所述第一通道描述符对应的通道一致。

18、更进一步优选的，所述标准偏差运算具体为：

19、

20、其中，表示输出的第c个所述第一通道描述符，表示在所述待测图像第i行、第j列、第c通道上的像素值，h表示所述待测图像的高度，w表示所述待测图像的宽度。

21、更进一步优选的，所述将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息，具体包括：

22、将多个所述通道特征信息输入所述特征金字塔网络，以使多个所述通道特征信息由上至下依次相加，形成与所述特征金字塔网络深度对应的过渡特征信息；

23、基于二维卷积函数和leakyrelu激活函数对所述过渡特征信息进行运算，以获取所述融合特征信息。

24、更进一步优选的，将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，具体包括：

25、将所述融合特征信息分别输入所述分类子网络、所述回归子网络以及所述平衡子网络，以获取所述预测信息，其中，所述预测信息包括所述分类子网络输出的分类概率信息、所述回归子网络输出的检测框信息以及所述平衡子网络输出的预测概率信息；

26、根据所述分类概率信息、所述检测框信息以及所述预测概率信息构建损失函数，其中，所述损失函数包括分类损失函数、回归损失函数以及平衡损失函。

27、更进一步优选的，所述根据所述分类概率信息、所述检测框信息以及所述预测概率信息构建损失函数，具体包括：

28、构建所述分类损失函数，

29、

30、构建所述回归损失函数，

31、

32、构建所述平衡损失函数，

33、

34、所述损失函数为，

35、

36、其中，表示正样本的样本集合，表示负样本的样本集合，表示对应样本的样本总数，表示所述原始图像中预测出现的人脸概率，表示所述原始图像中是否包括人脸的标签值，fl表示focal loss损失函数，表示预测框和检测框中心点间距离的惩罚项，b表示预测框的中心点，表示检测框的中心点，表示检测框与预测框的中心点之间距离的平方，c表示包围检测框和预测框所需最小矩形的对角线长度，iou表示检测框与预测框的交并比，bce表示binary cross-entropy loss损失函数，表示diou的损失函数，表示第i个检测框检测到的检测框与预测框的交并比，，表示所述回归子网络网络中含有的预测样本与检测样本之间的交并比。

37、在本技术的第二方面提供了一种基于联合注意力的多分支级联的人脸检测装置，所述人脸检测装置包括初始特征提取模块、分支特征获取模块、通道特征获取模块、融合特征获取模块、分类与回归模块以及检测模型构建模块，其中，

38、所述初始特征提取模块用于提取待测图像的初始特征，其中，所述待测图像为原始图像经预处理获得；

39、所述分支特征获取模块用于将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息；

40、所述通道特征获取模块用于将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息；

41、所述融合特征获取模块用于将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息；

42、所述分类与回归模块用于将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，其中，所述分类与回归网络包括分类子网络、回归子网络以及平衡子网络；

43、所述检测模型构建模块用于基于所述预测信息和所述损失函数，构建人脸检测模型。

44、在本技术的第三方面提供了一种电子设备，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令。

45、本发明提供的一种基于联合注意力的多分支级联的人脸检测方法及装置相对于现有技术具有以下有益效果：

46、（1）通过在多分支级联网络中结合注意力模块和分类与回归网络，使多分支级联网络中每个通道输出的特征均能与待测图像中的人脸区域关联并剔除无关区域，进而提升人脸检测的精度，同时在分类与回归网络中引入平衡子网络，将分开进行的分类与回归任务进行了联合，提升了模型定位的精度，进而提升了人脸检测模型的检测性能，在没有加大模型复杂度的同时提升了模型检测精度，拥有良好的泛化性以适应不同场景的人脸检测任务；

47、（2）通过设置多分支级联的网络架构融合了图像不同深度的语义信息，基于不同深度的图像上的anchor用来检测不同大小的目标，通过多分支级联网络架构在不加大计算单元消耗的同时提升了网络性能，同时多分支级联的网络的每一个分支通过了注意力模块，自动学习分支特征信息中关于人脸区域的相关信息，极大提升了人脸检测模型的性能与准确性；

48、（3）设置特征金字塔网络将注意力模块输出具有不同深度的通道特征信息进行信息融合，信息融合对浅层分支检测较大人脸的能力和深度分支检测较小人脸的能力进行结合，使得模型拥有同时检测不同大小规模人脸的能力，使得模型可以适应不同的使用场景，提升模型的泛化能力。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘李漫张国梁韩逸飞田金山潘宁胡怀飞
技术所有人：中南民族大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。