一种基于随机多尺度分块的图像分类方法、装置及介质与流程

文档序号:36001921发布日期:2023-11-16 14:48阅读:35来源:国知局
一种基于随机多尺度分块的图像分类方法、装置及介质与流程

本发明涉及图像处理和人工智能,特别涉及一种基于随机多尺度分块的图像分类方法、装置及介质。


背景技术:

1、transformer是一种基于自注意力机制的神经网络模型,最初被提出用于自然语言处理任务,如机器翻译和文本生成。然而,随后发现 transformer 也适用于其他领域,包括图像处理,它的注意力机制能够捕捉到图像中的上下文信息,有助于解决图像分类等问题。

2、vit-transformer架构是一种基于transformer模型的图像分类方法,它将图像作为输入,并利用自注意力机制在图像特征提取和分类任务中取得了显著的成果。其中,图像分块编码技术在vit-transformer架构中扮演了重要的角色。图像分块编码技术在传统的transformer模型中,输入是文本序列。而在vit-transformer架构中,为了处理图像数据,需要将图像分块编码为序列形式。这一过程主要包括将输入图像分成多个块,通常,这些块按照规则的网格划分;提取每个图像块的特征表示并转化为嵌入向量;为了保留图像中的位置信息,需要为每个图像块添加位置编码,这些位置编码可以是固定的、可学习的或通过其他方式生成。基于vit-transformer架构的图像分块编码技术通过将图像分块并序列化,利用transformer模型的全局上下文理解能力和高效的并行计算特性,在图像分类任务中取得了卓越的表现。该技术的应用为图像处理领域带来了新的机遇,值得进一步深入研究和探索。

3、固定大小图像分块在transformer模型中存在一些缺点。在固定图像块大小的情况下,较大的物体或细节可能被拆分成多个图像块进行处理,导致某些关键信息丢失。在实际图像中,物体的尺寸和比例可能会有很大的变化。固定大小不能很好地适应这种变化,可能导致对不同尺寸物体的表示不准确。使用随机多尺度图像分块可以更好地适应不同尺寸的物体和图像。这样可以保留更多的细节信息,并减少信息损失,还能引入更多的多样性,从而让模型见识到不同尺度的物体和图像。这有助于提高模型对不同尺度物体的泛化能力。使用随机多尺度图像分块可以增加数据的多样性,有助于减轻过拟合问题,模型可以更好地学习到数据的统计特性。


技术实现思路

1、鉴于现有技术的不足,本发明的目的在于提供一种基于随机多尺度分块的图像分类方法、装置及介质,用于增强模型的适应性和泛化能力,以更好地提高图像分类任务的性能。

2、本发明的目的是通过以下技术方案来实现的:一种基于随机多尺度分块的图像分类方法,包括以下步骤:

3、(1)设置随机种子并生成随机数,根据生成的随机数对图像进行可变大小的切割,得到不同大小的图像块,并记录其在图像中的位置坐标以及图像块的大小信息;

4、(2)根据图像块在图像中的位置坐标以及图像块的大小信息,获取图像块在图像中的位置编码以及对每个图像块大小进行编码;从图像中提取不同大小的图像块并进行像素编码;将相同大小图像块的编码向量分别组合成序列,得到不同大小的编码序列;

5、(3)将不同大小的序列添加图像块大小编码后分别输入第一transformer编码器模块,将输出的不同大小的特征编码通过插值操作调整到相同的特征维度,通过拼接并排序将它们组合成一个序列,再添加位置编码并进行层归一化后,再用第二transformer编码器模块进行处理获得全局特征;

6、(4)全局特征进行层归一化之后进行线性变换,得到最终的图像预测类别。

7、进一步地,所述步骤(1)包括以下子步骤:

8、(1.1)获取图像,其中图像的大小为n × n,设定最小图像块的宽度n和高度n,计算按滑动窗口 n × n进行切割切出图像块的总数量;用一个宽高均为n/n的二维张量seq_2d来表示切割顺序;用一个与seq_2d形状相同且元素值全为0的张量seq_2d_flag,用于表示图像块是否已经被选择,元素值为1表示已经被选择,为0表示还未被选择;

9、(1.2)获取张量seq_2d_flag中所有非0元素的索引,设置随机种子并生成随机数,根据生成的随机数选择一个索引作为当前图像块的左上角位置,图像块大小为2 n × 2 n,4 n × 4 n,…, an × an中的一个,其中 a不大于64,计算图像块右下角的位置,判断右下角的位置是否超出图像区域,并且判断从左上角到右下角形成的图像块是否全部未被选择,也就是seq_2d_flag中相应位置的值是否全部为0;若右下角的位置未超出图像区域并且图像块全部未被选择,则更新seq_2d_flag相应位置的值为1,并将图像块的位置和大小信息记录下来;否则重新执行步骤(1.2);

10、(1.3)重复步骤(1.2),直至从图像中切有p种不同大小的图像块,每种图像块数量分别为n1、n2、……n p,p种图像块的数量与大小的乘积之和等于图像大小。

11、进一步地,重复步骤(1.2)和步骤(1.3),获得m种随机分块方式。

12、进一步地,所述从图像中提取不同大小的图像块并进行像素编码具体为:

13、根据步骤(1)中得到不同大小的图像块及其位置坐标和大小信息,从图像中逐个提取图像块,将图像块的所有像素展平成一维向量;将每个图像块对应的向量通过线性变换映射到指定维度大小的向量,对每个图像块进行编码表示;将相同大小图像块的编码向量分别组合成序列,得到不同大小的图像块编码序列。

14、进一步地,所述获取图像块在图像中的位置编码具体为:

15、根据每个图像块的位置坐标,计算图像块在图像中对应的行列坐标信息,调整位置嵌入的范围并使用 sin和 cos函数生成嵌入部分,再将它们拼接在一起,得到图像块的位置编码。

16、进一步地,所述对每个图像块大小进行编码具体为:

17、根据每个图像块的大小信息,调整图像块大小嵌入的范围并使用 sin和 cos函数生成嵌入部分,再将它们拼接在一起,得到图像块大小编码。

18、进一步地,所述将图像块的所有像素展平成一维向量具体为:所述图像有rgb三个通道, an × an的图像块展平得到维度为1×3( an)2的向量;

19、所述将每个图像块对应的向量通过线性变换映射到指定维度大小的向量具体为:将维度为1 × 3( an)2的向量映射到256× a。

20、一种基于随机多尺度分块的图像分类装置,包括:

21、随机多尺度分块模块,用于设置随机种子并生成随机数,根据生成的随机数对图像进行可变大小的切割,得到不同大小的图像块,并记录其在图像中的位置坐标以及图像块的大小信息;

22、编码模块,用于根据图像块在图像中的位置坐标以及图像块的大小信息,获取图像块在图像中的位置编码以及对每个图像块大小进行编码;从图像中提取不同大小的图像块并进行像素编码;将相同大小图像块的编码向量分别组合成序列,得到不同大小的编码序列;

23、transformer编码器模块,用于将不同大小的序列添加图像块大小编码后分别输入第一transformer编码器模块,将输出的不同大小的特征编码通过插值操作调整到相同的特征维度,通过拼接并排序将它们组合成一个序列,再添加位置编码并进行层归一化后,再用第二transformer编码器模块进行处理获得全局特征;

24、全连接层模块,用于将全局特征进行层归一化之后进行线性变换,得到最终的图像预测类别。

25、一种基于随机多尺度分块的图像分类装置,包括一个或多个处理器,用于实现上述的一种基于随机多尺度分块的图像分类方法。

26、一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的一种基于随机多尺度分块的图像分类方法。

27、本发明的有益效果是:本发明采用不同尺度的图像块进行编码和处理,通过使用多尺度的图像块,可以捕捉到不同层次的特征信息,从而更好地理解图像的内容和结构。此外通过引入随机数,使得每次切割图像都会得到不同位置的图像块,可以增加数据的多样性和随机性。这种随机多尺度分块的transformer模型图像分类方法,在处理不同尺寸和复杂度的图像时具有优势,并且可以提高分类的准确性和泛化能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1