基于可分离卷积块和空间缩减注意力机制的图像分类方法

文档序号：36815887发布日期：2024-01-26 16:21阅读：13来源：国知局

本发明属于图像分类领域，涉及基于可分离卷积块和空间缩减注意力机制的图像分类方法。

背景技术：

1、图像分类作为计算机视觉领域中的一个关键问题，旨在让计算机能够自动地将输入的图像准确地归类，从而实现对图像内容的理解与分析。传统的图像分类方法通常依赖于手动设计的特征提取算法，如边缘检测、颜色直方图等。然而，这些方法对于复杂多变的图像内容效果有限。近年来，深度学习技术的崛起改变了这一格局，特别是卷积神经网络(cnn)的广泛应用，使得计算机能够自动学习图像中的高级特征表示。这种深度学习方法已经在图像分类领域取得了巨大成功，不仅在自然图像分类上表现出色，还在医学影像分析、自动驾驶、安防监控等领域得到了广泛应用。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种基于可分离卷积块和空间缩减注意力机制的图像分类方法。通过对块嵌入方法和注意力机制的改进，使得模型在能够减少运算量的同时，还能保持有较高的图像分类性能，这在一定程度上缓解了图像分类所带来的巨大计算量，从而使图像分类任务更加容易处理。

2、为达到上述目的，本发明提供如下技术方案：

3、基于可分离卷积块和空间缩减注意力机制的图像分类方法，该方法包括以下步骤：

4、s1：获得图像分类原始数据集，并将其划分为训练样本集与测试样本集；

5、s2：预处理上述图像分类训练样本集，构建训练数据集；

6、s3：搭建基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的图像分类网络模型，包括特征提取模块和空间缩减注意力机制模块，通过交叉深度可分离卷积块嵌入提取特征以及空间缩减注意力机制提取图像信息；

7、s4：利用上述训练数据集对所描述的交叉深度可分离卷积块嵌入对图像进行分块并通过空间缩减注意力机制进行训练，获得相应图像分类模型；

8、s5：利用s4所获得的图像分类模型对测试样本集中的各类图像进行推理预测，得到最后的分类结果。

9、可选的，所述s3中，搭建基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的图像分类网络模型具体为：

10、s311：对于输入的图像，利用交叉深度可分离卷积操作将图像分为固定大小的patch，操作减少每次卷积操作的计算量；

11、s312：空间缩减注意力机制计算：图像在经过交叉深度可分离卷积块嵌入操作之后，接着进行空间缩减操作、归一化操作，之后对一系列操作后的数据进行位置信息嵌入，便于图像序列的查找；进行空间缩减注意力机制计算；对于输入信息：

12、sra(q,k,v)＝concat(head0,...headni)wo

13、对于输入信息的维度为ci的数据，将其分为ni个头部，每一个头部的维度为wo为空间缩减投影参数，将输入数据映射到一个新的特征空间中；

14、

15、当多头注意力机制的head划分完成之后，对于第j个头headj，在计算时与传统的多头注意力机制不同之处在于对于序列q以及键k的空间缩减变换，sr(q)以及sr(k)是分别对序列q和键k进行空间尺度下采样操作；以及分别是q、k、v的投影矩阵；attention(·)则是注意力机制的计算，将和相乘的结果进行归一化操作，结果再与vwjv对应位置相乘并求和，最终得到headj；

16、空间尺度下采样操作sr(·)：

17、sr(x)＝norm(reshape(x,ri)ws)

18、ri为空间下采样倍率，x是进行下采样数据的输入，计算过程中会对x进行下采样，因此计算时会大幅缩减计算量，从而加快计算速度；reshape(·)操作是将x的大小进行重塑，方便后续进行计算；ws是一个空间缩减投影操作，主要目的是将输入序列进行降维；norm(·)是指layer normalization，即层归一化，具体来说，对于输入的一个样本，layernormalization计算特征维度上的均值和标准差，然后将所有特征都进行归一化，使得它们的均值为0，标准差为1；这样做的好处是可以使得网络对于每个样本的输入保持一致的分布特性，减少样本间的耦合，有助于提升模型的泛化性能；即是sr(·)的详细计算过程。

19、可选的，所述s3中，网络模型的具体构建流程为：

20、s321：交叉深度可分离卷积提取特征：将输入的图像通过交叉深度可分离卷积操作由不同的通道分别进行分块；

21、s322：位置信息嵌入：首先将s321所得的图像块经过linear()操作改变图像维度，在经过norm()操作对图像块进行归一化，将前面的结果输入cpe模块进行位置信息嵌入，便于后续的序列信息的查找；

22、s324：空间缩减注意力机制操作：对于嵌入位置信息的图像块，先将其进行备份，再次经过norm()归一化操作，之后进入sra()空间缩减注意力机制模块，计算之后的结果再与备份数据进行残差操作以保留细节信息，得到相应的特征图；

23、s324：前向传播过程：将s323的输出先进行备份，再通过一次norm()操作，之后放入前向传播模块，输出的结果与备份数据进行残差求和，最终输出结果；至此完成网络的一个阶段。

24、可选的，所述网络模型包括large、medium、small和tiny四种模型。

25、本发明的有益效果在于：本发明有效地改善了模型计算量巨大以及图像边界信息丢失等问题，减少了模型的计算量以及提升了模型分类性能。

26、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

技术特征：

1.基于可分离卷积块和空间缩减注意力机制的图像分类方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述基于可分离卷积块和空间缩减注意力机制的图像分类方法，其特征在于：所述s3中，搭建基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的图像分类网络模型具体为：

3.根据权利要求2所述基于可分离卷积块和空间缩减注意力机制的图像分类方法，其特征在于：所述s3中，网络模型的具体构建流程为：

4.根据权利要求2所述的一种基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的图像分类方法，其特征在于：所述网络模型包括large、medium、small和tiny四种模型。

技术总结
本发明涉及一种基于可分离卷积块和空间缩减注意力机制的图像分类方法，属于图像分类领域。将交叉深度可分离卷积和经过改进的空间缩减注意力机制加入到PVT模型中，减少模型训练时间，并且在减少注意力计算时计算量的同时基本不损失特征图的原始信息。搭建基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的网络模型，包括块嵌入模块，线性投影模块，位置信息嵌入模块以及空间缩减注意力机制模块；进行图像分类，以提升在图像分类时的计算速率以及保留原始边界信息。从而达到整体的提升效果。本发明有效地改善了模型计算量巨大以及图像边界信息丢失等问题，减少了模型的计算量以及提升了模型分类性能。

技术研发人员：袁正午,陈强,张凡,邵文,柯瑛琦
受保护的技术使用者：重庆邮电大学
技术研发日：
技术公布日：2024/1/25

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁正午,陈强,张凡,邵文,柯瑛琦
技术所有人：重庆邮电大学
我是此专利的发明人

上一篇：烟气低温吸附系统的制作方法
上一篇：采用西瓜YOLOv8的西瓜成熟度检测方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。