一种基于特征融合和自注意力机制的多标签图像分类方法

文档序号:35828334发布日期:2023-10-25 00:11阅读:36来源:国知局

本发明属于图像识别领域,具体涉及基于图像全局特征与局部特征融合并引入自注意力机制的一种多标签图像分类方法。


背景技术:

1、信息时代,图像已经成为一种传达信息的媒介以及载体,并在各个领域中广泛应用。实现信息时代海量数字图像的快速、准确分类,是当下图像应用领域的主要研究内容。虽然卷积神经网络(cnn)在单标签图像分类任务中表现出良好的性能,但是真实世界中的大部分图像均包含不止一个场景或者物体,一幅图像便可以被标注多个标签,这些标签可以对应于一幅图像中不同的物体、场景、动作和属性。

2、如要对图像中这些丰富的语义信息进行提取,就需要使用图像的多标签生成技术,尽可能精确的识别出图像中的所有类别,而传统分类往往是硬分类,即一个数据仅被分到一个类中,具有排他性,在图像标注中体现为一幅图像只标注一个标签,具有一定的局限性。此外,对于一个典型的多标签图像,不同类别的物体位于不同的位置,具有不同的比例和姿势,物体之间的遮挡、重叠、光照等原因均会导致多标签图像的识别分类难度较高。多标签图像分类是一个更为普遍和实际的问题,对图像中丰富的语义信息和它们的依赖关系进行建模,高效准确完成多标签图像的分类识别,成为重点研究方向(参见“冀中,李慧慧,何宇清.基于深度示例差异化的零样本多标签图像分类[j].计算机科学与探索,2019,13(1):9.”),在如图像检索、人像分组、医学图像识别、场景理解等多个领域都有广泛应用。

3、cnn在单标签图像分类上的成功为解决多标签图像分类问题提供了一些启示。得益于cnn中卷积操作的平移不变性,即无论目标出现在图像中的哪个位置,它都会检测到同样的这些特征,输出同样的响应,在图像中出现多个目标时也是如此。所以,可以简单地把cnn模型中全连接层输出的向量通过sigmoid函数让每一维度的值转为0~1之间的概率值,从而计算出样本属于各个类别的概率。这里模型输出的每一类别的概率分布之间是独立的,即把多标签问题分解成多个独立的二分类问题。但是,这种方法忽略了标签之间的语义相关性,即当图像被标注有某标签时,该图像同时具有另一个标签内容的概率很大。比如天空和云通常一起出现,而水和汽车几乎从不共同出现。此外,在深层卷积神经网络中,虽然多次的卷积和池化操作通过共享权重、降采样的方式降低了模型参数量,同时神经元的感受野也在不断扩大,模型深层的特征图将更多地反映图像的全局特征,这在图像中通常只有单个目标的单标签图像分类任务中是有利的,然而,在多标签图像分类任务中,图像中存在大小、位置、形状各异的小目标,这些小目标所蕴含的局部特征往往在模型深层较大的感受野下被忽略或稀释。所以,如果直接对整张图片提取全局特征,则难以避免在提取特征的过程中会损失掉小目标的视觉特征,从而影响多标签分类精度。

4、肖琳等(参见“肖琳,陈博理,黄鑫,等.基于标签语义注意力的多标签文本分类[j].软件学报,2020,31(4):11.”)提出基于标签语义注意力的多标签文本分类的方法,依赖于文档的文本和对应的标签,使用双向长短时记忆获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,另外标签在语义空间里往往是相互关联的。张永等(参见“张永,刘浩科,张洁.基于类属特征和实例相关性的多标签分类算法[j].模式识别与人工智能,2020,33(5):10.”)提出基于类属特征和实例相关性的多标签分类算法,不仅考虑标签相关性还考虑实例特征的相关性,通过构建相似性图,学习实例特征空间的相似性。牟甲鹏等(参见“牟甲鹏、蔡剑、余孟池、徐建.基于标签相关性的类属属性多标签分类算法[j].计算机应用研究,2020,37(9):4.”)提出一种基于标签相关性的类属属性多标签分类算法,该算法使用标签距离度量标签之间的相关性,通过在类属属性空间附加相关标签的方式完成标签相关性的引入,以达到提升分类性能的目的。chen等人(参见“chenz m,wei x s,wang p,et al.multi-label image recognition with graphconvolutional networks[c]//proceedings of the ieee/cvf conference on computervision and pattern recognition.2019:5177-5186.”)提出利用图卷积网络(gcn)显式建模类别标签之间的相关性,基于gcn的映射函数学习相互依赖的目标分类器,可以将生成的分类器应用于任意cnn模型学习到的图像特征,具有很高的扩展性和灵活性。lanchantin等人(参见“lanchantin j,wang t,ordonez v,et al.general multi-label imageclassification with transformers[c]//proceedings of the ieee/cvf conferenceon computer vision and pattern recognition.2021:16478-16488.”)提出利用transformer模型,并使用label mask training训练策略,训练时随机遮蔽部分真实标签,让模型预测被遮蔽的标签,从而发掘图像特征与标签之间以及标签集合内部复杂的依赖关系。

5、针对一般方法在提取图像全局特征的过程中会损失图像中部分小目标的视觉特征的问题,以及考虑到多标签分类问题中标签之间存在依赖关系的情况,有必要设计一种高效的多标签图像分类模型,以有效地对图像中小目标所拥有的局部特征以及多个标签之间的依赖关系进行建模。


技术实现思路

1、为了克服上述现有技术的不足,本发明提出了一种基于特征融合和自注意力机制的多标签图像分类方法,该方法将深度卷积神经网络提取到的图像的全局特征与图像局部特征在网络中间层的隐含表示相结合,并引入自注意力机制对多个标签之间的依赖关系建模,得到更高的多标签分类准确率。

2、为了达到上述目的,本发明采用如下技术方案:

3、步骤1:初始化resnet50模型结构和参数,在resnet50第三个卷积块输出的特征图上实施1*1卷积操作,以提取图像局部特征。此时1*1卷积核的通道数应与当前多标签分类任务的总类别数相一致。

4、步骤2:上述原resnet50模型输出的特征图继续经过后续卷积块,经过平均池化(average pooling),得到图像的全局特征矩阵。

5、步骤3:为了发掘标签之间的依赖关系,将上述特征向量通过自注意力机制进行融合,具体包含以下步骤:

6、(1)将上述步骤1所得图像局部特征矩阵在通道维度的每一维分别展平为一维向量;将上述步骤2所得图像全局特征矩阵展平为一维向量;将这些向量按行拼接为一个矩阵e,其中局部特征向量应经线性变换,使其维度与全局特征向量维度相一致;

7、(2)初始化权值矩阵wq、wk、wv;

8、(3)将(1)所述特征矩阵e分别与(2)所述权值向量wq、wk、wv相乘,最终得到query矩阵、key矩阵和value矩阵,矩阵的每一行向量都与前述一维全局特征向量或局部特征向量相关联。

9、(4)计算注意力分数。将query矩阵与key矩阵的转置相乘,求得注意力分数矩阵score,并除以数值(dk为key矩阵的列数),之后使用softmax函数对该矩阵中的每一行进行归一化处理。此时,score矩阵中每个元素的数值代表了特征矩阵e中特征向量两两之间的注意力分数;

10、(5)将注意力分数矩阵score与value矩阵相乘,如此,value矩阵中每一行向量皆依据注意力分数与其他行向量加权求和而得。

11、步骤4:将value矩阵输入一个全连接神经网络进行计算,最后经过sigmoid激活函数,最终为每幅图像生成一个维度等于类别数的向量,向量每一维的数值代表了该幅图像属于对应类别的概率。

12、本发明的有益效果具体表述如下:

13、(1)本发明通过同时将图像的全局特征及局部特征纳入考虑,从一定程度上解决了传统图像特征提取网络对小目标特征信息的丢失问题;

14、(2)本发明通过通道数等于总类别数的1*1大小的卷积核进行卷积运算,对每一类别独立计算特征图,相比共用特征图的一般方法,提升了分类精度;

15、(3)本发明使用自注意力机制建模多个标签之间的依赖关系,利用多标签分类问题中标签的语义相关性显著提升模型的分类性能;

16、(4)本发明具有较好的抗干扰能力和强鲁棒性,能够满足实际多标签图像分类应用需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1