一种行人属性识别方法、装置、电子设备及存储介质与流程

文档序号:36422017发布日期:2023-12-20 13:44阅读:33来源:国知局
一种行人属性识别方法与流程

本技术涉及计算机视觉,尤其涉及一种行人属性识别方法、装置、电子设备及存储介质。


背景技术:

1、行人属性识别是从给定的包含行人的输入图像中,利用计算机视觉算法自动识别出行人的属性信息,如性别、是否带眼镜、年龄、头发长短、是否背包、着装风格、上下身颜色等,对行人目标识别与行人图像检索有着重要的意义,广泛应用于公共安全、智慧城市、智慧交通、安防、工业等领域。

2、相关技术下,随着深度学习技术的发展,越来越多的神经网络结构提出,并用于处理行人属性识别任务。目前用于处理行人属性识别任务的神经网络模型多是以经典卷积神经网络结构作为骨干模型,采用全局平均池化(global average poolilng,gap)或avgpooling等网络结构构建的。实际使用中发现,在采用上述模型处理行人属性识别任务时,模型表现出的判别力欠佳,导致模型的属性识别准确率不稳定。


技术实现思路

1、本技术实施例提供一种行人属性识别方法、装置、电子设备及存储介质,用以提高属性识别模型的判别力,提高属性识别的准确率。

2、本技术实施例提供的具体技术方案如下:

3、第一方面,本技术实施例提供一种行人属性识别方法,包括:

4、对输入的包含目标对象的图像进行预处理,得到待识别图像;

5、将所述待识别图像输入属性识别模型,并基于所述属性识别模型,得到所述目标对象具有各参考属性的预测概率,其中,所述属性识别模型是基于卷积神经网络、目标注意力模块和分类器构建的,所述目标注意力模块是在双线性注意力神经网络结构中增加至少一个全局最大池化层后得到的;

6、基于所述各参考属性的预测概率,得到所述目标对象的属性识别结果。

7、由于本技术实施例中的属性识别模型包括目标注意力模块,因此,相比于相关技术下的gap或avgpooling等网络结构,通过双线性注意力机制可以捕获图像中的二阶统计信息,从而可以使得属性识别模型获取到图像中局部近邻关系。

8、加之,该目标注意力模块是在双线性注意力神经网络结构中增加至少一个全局最大池化层后得到的,而全局最大池化处理可以获取到每个通道特征图中的最大值,可以使得属性识别模型捕获到图像中的最相关元素,从而使得目标注意力模块可以获取到更为精细的特征,进而使得属性识别模型具有更优的判别力,在执行属性识别任务时,可以实现在稳定属性识别模型的属性识别准确率的前提下,提高了属性识别准确率。

9、在一种可能的实现方式中,所述基于所述属性识别模型,得到所述目标对象具有各参考属性的预测概率,包括:

10、基于所述属性识别模型,对所述待识别图像依次经过多个映射模块进行映射处理、经过第一特征提取模块进行特征提取处理,以及经过所述分类器进行全局平均池化处理、全连接处理和归一化处理,得到所述目标对象具有各参考属性的预测概率,其中,所述多个映射模块中的任一映射模块是基于所述卷积神经网络和所述目标注意力模块构建的,所述第一特征提取模块是基于所述卷积神经网络构建的。

11、上述方法,由于映射模块包括目标注意力模块,因此,可以使得属性识别模型获取更为精细的特征,从而使得属性识别模型的判别力更优,提高属性识别准确率。

12、在一种可能的实现方式中,所述任一映射模块包括第二特征提取模块和所述目标注意力模块,所述第二特征提取模块是基于所述卷积神经网络构建的;

13、对所述待识别图像经过所述任一映射模块进行映射处理,包括:

14、利用所述第二特征提取模块,对目标图进行第一映射处理,得到目标特征图;

15、利用所述目标注意力模块,对所述目标特征图进行第二映射处理,得到所述任一映射模块输出的中间特征图;

16、其中,若所述任一映射模块是所述属性识别模型中的首个映射模块,则所述目标图为所述待识别图像,若所述任一映射模块不是首个映射模块,则所述目标图为与所述任一映射模块相邻的前一个映射模块输出的中间特征图。

17、上述方法,通过目标注意力模块对输入的目标特征图进行第二映射处理的目的是对该目标特征图进行注意力调整,以获取更为精细的特征,从而使得属性识别模型的判别力更优,提高属性识别准确率。

18、在一种可能的实现方式中,所述利用所述目标注意力模块,对所述目标特征图进行第二映射处理,得到所述任一映射模块输出的中间特征图,包括:

19、利用所述目标注意力模块,执行如下步骤:

20、对所述目标特征图进行降维处理和转换处理,得到第一特征图;

21、对所述第一特征图进行全局最大池化处理和卷积处理,得到第一中间注意力特征图,以及,对所述第一特征图进行卷积处理,得到第二特征图;

22、将所述第一中间注意力特征图和所述第二特征图进行融合,得到第二中间注意力特征图,并基于所述目标特征图和所述第二中间注意力特征图,得到目标注意力特征图;

23、对所述目标特征图和所述目标注意力特征图进行残差处理,得到所述任一映射模块输出的中间特征图。

24、上述方法,通过全局最大池化处理、将第一中间注意力特征图和第二特征图进行融合,以及基于目标特征图和第二中间注意力特征图,得到目标注意力特征图,可以更好地对输入的目标特征图进行注意力调整;进一步地,在目标注意力模块中增加残差连接结构,可以充分利用获取到的细节信息,使得属性识别模型具有更优的判别力,从而提高模型的属性识别准确率。

25、在一种可能的实现方式中,所述经过第一特征提取模块进行特征提取处理,包括:

26、利用所述第一特征提取模块,对经过所述属性识别模型中最后一个映射模块映射处理后的中间特征图进行特征提取处理。

27、在一种可能的实现方式中,每个映射模块中的第一特征提取模块包括的卷积神经网络结构的数量,与所述第二特征提取模块包括的卷积神经网络结构的数量均相同;或

28、所述属性识别模型中的第一特征提取模块和所述第二特征提取模块包括的卷积神经网络结构的数量采用堆叠方式部署,其中,首个第一特征提取模块包括的卷积神经网络结构的数量最多,所述第二特征提取模块包括的卷积神经网络结构的数量最少。

29、上述方法,可以采用不同方式部署特征提取模块包括的卷积神经网络结构的数量,提高了模型的适用性,其中,在采用堆叠方式部署时,还可以使得属性识别模型保留属性识别所需要的细节信息,从而提高属性识别模型的判别力,进而提高属性识别准确率。

30、在一种可能的实现方式中,所述对输入的包含目标对象的图像进行预处理,得到待识别图像,包括:

31、利用双线性插值方式,将输入的包含目标对象的图像的图像尺寸缩放到预设尺寸,得到所述待识别图像。

32、第二方面,本技术实施例提供一种行人属性识别装置,包括:

33、预处理模块,用于对输入的包含目标对象的图像进行预处理,得到待识别图像;

34、属性预测模块,用于将所述待识别图像输入属性识别模型,并基于所述属性识别模型,得到所述目标对象具有各参考属性的预测概率,其中,所述属性识别模型是基于卷积神经网络、目标注意力模块和分类器构建的,所述目标注意力模块是在双线性注意力神经网络结构中增加至少一个全局最大池化层后得到的;

35、识别结果输出模块,用于基于所述各参考属性的预测概率,得到所述目标对象的属性识别结果。

36、在一种可能的实现方式中,所述属性预测模块具体用于:

37、基于所述属性识别模型,对所述待识别图像依次经过多个映射模块进行映射处理、经过第一特征提取模块进行特征提取处理,以及经过所述分类器进行全局平均池化处理、全连接处理和归一化处理,得到所述目标对象具有各参考属性的预测概率,其中,所述多个映射模块中的任一映射模块是基于所述卷积神经网络和所述目标注意力模块构建的,所述第一特征提取模块是基于所述卷积神经网络构建的。

38、在一种可能的实现方式中,所述任一映射模块包括第二特征提取模块和所述目标注意力模块,所述第二特征提取模块是基于所述卷积神经网络构建的;所述属性预测模块具体用于:

39、利用所述第二特征提取模块,对目标图进行第一映射处理,得到目标特征图;

40、利用所述目标注意力模块,对所述目标特征图进行第二映射处理,得到所述任一映射模块输出的中间特征图;

41、其中,若所述任一映射模块是所述属性识别模型中的首个映射模块,则所述目标图为所述待识别图像,若所述任一映射模块不是首个映射模块,则所述目标图为与所述任一映射模块相邻的前一个映射模块输出的中间特征图。

42、在一种可能的实现方式中,所述属性预测模块具体用于:

43、利用所述目标注意力模块,执行如下步骤:

44、对所述目标特征图进行降维处理和转换处理,得到第一特征图;

45、对所述第一特征图进行全局最大池化处理和卷积处理,得到第一中间注意力特征图,以及,对所述第一特征图进行卷积处理,得到第二特征图;

46、将所述第一中间注意力特征图和所述第二特征图进行融合,得到第二中间注意力特征图,并基于所述目标特征图和所述第二中间注意力特征图,得到目标注意力特征图;

47、对所述目标特征图和所述目标注意力特征图进行残差处理,得到所述任一映射模块输出的中间特征图。

48、在一种可能的实现方式中,所述属性预测模块具体用于:

49、利用所述第一特征提取模块,对经过所述属性识别模型中最后一个映射模块映射处理后的中间特征图进行特征提取处理。

50、在一种可能的实现方式中,每个映射模块中的第一特征提取模块包括的卷积神经网络结构的数量,与所述第二特征提取模块包括的卷积神经网络结构的数量均相同;或

51、所述属性识别模型中的第一特征提取模块和所述第二特征提取模块包括的卷积神经网络结构的数量采用堆叠方式部署,其中,首个第一特征提取模块包括的卷积神经网络结构的数量最多,所述第二特征提取模块包括的卷积神经网络结构的数量最少。

52、在一种可能的实现方式中,所述预处理模块具体用于:

53、利用双线性插值方式,将输入的包含目标对象的图像的图像尺寸缩放到预设尺寸,得到所述待识别图像。

54、第三方面,本技术实施例提供一种电子设备,包括:

55、存储器,用于存储计算机程序或指令;

56、处理器,用于执行所述存储器中的计算机程序或指令,使得如上述第一方面中任一项的方法被执行。

57、第四方面,本技术实施例提供一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述第一方面中任一项所述的方法。

58、另外,第二方面至第四方面中任一一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1