一种关于室内场景的图像识别与分类方法及装置

文档序号:36383872发布日期:2023-12-14 19:37阅读:27来源:国知局
一种关于室内场景的图像识别与分类方法及装置

本发明属于多室内场景图像识别与分类领域,具体涉及一种关于室内场景的图像识别与分类方法及装置。


背景技术:

1、室内场景识别是高层次计算机视觉中一个具有挑战性的问题。大多数适用于室外场景的场景识别模型和传统图像分类模型都对于室内领域表现不佳。主要困难在于,室内场景具有丰富的多样性和复杂性。很多室内场景环境复杂,规模巨大,并存在很多无纹理空间区域和视觉歧义区域。

2、有一些室内场景(例如走廊)可以通过全局空间属性很好地表征,而另一些其他的场景(例如书店)一般是通过它们所包含的局部对象来进行表征。所以解决室内场景识别问题,常常需要一个可以高效利用局部和全局判别信息的模型。

3、另外现有的深度学习模型通常需要大量计算资源和内存空间,这在一定程度上限制了它们在移动设备和嵌入式系统上的应用。例如,发明名称为“一种矿石矿物图像自动识别与分类方法”的专利(专利号:cn201811048650.8),可辅助地质行业从业者对矿石显微照片进行识别分类,提高地质工作者的工作效率。然而该方法仅仅基于卷积神经网络(cnn),分类效果有限且处理照片速度缓慢。

4、自从transformer在自然语言处理领域取得突破性进展以来,它就被广泛应用于计算机视觉领域,并展示出强大的性能。相较于传统的卷积神经网络,transformer具有更强的全局处理能力,可捕捉图像中的长距离依赖关系。然而在处理和交互图像中的局部特征方面,transformer的表现并不理想。因此,构建一个既能处理局部计算又能实现全局通信的高性能网络结构成为了一个待解决的问题。


技术实现思路

1、针对上述现有技术的不足,本发明提供一种关于室内场景的图像识别与分类方法及装置。

2、本发明的目的是通过以下技术方案实现的:

3、根据本说明书的第一方面,提供一种关于室内场景的图像识别与分类方法,包括以下步骤:

4、步骤s1,先将室内场景图片数据集中的室内场景图片裁剪成大小统一的裁剪图片,然后将裁剪图片经过mix up、随机缩放裁剪和随机水平翻转而得到数据增强图片,再使用stem图像特征预提取模块对数据增强图片进行预处理而得到特征图,最后基于特征图而构建特征图数据集;

5、步骤s2,将所述特征图数据集中的特征图依次经过mobilenet作为网络结构中的深度可分离卷积操作、动态的relu激活函数,提取到局部特征;

6、步骤s3,将所述特征图数据集中的特征图中一些可学习的标记输入到基于注意力的特征编码融合转换器中,以进行全局特征处理,得到全新全局特征,其中,所述特征编码融合转换器是由laff特征融合模块和transformer以及前馈神经网络层进行串联堆叠而得到,它可以高效地捕捉图像中的长距离依赖关系,继而对于全局特征进行融合与编码;

7、步骤s4,先将所述特征图输入从mobile一侧至所述特征编码融合转换器的注意力桥梁,以传输到所述特征编码融合转换器这一侧的分支上,再将其与所述全新全局特征进行第一次融合,得到第一次混合特征;

8、步骤s5,先使用mixattention对所述全新全局特征和所述第一次混合特征做注意力混合而后再进行双线性插值,得到第二次混合特征;

9、步骤s6,先将所述第二次混合特征输入从所述特征编码融合转换器至mobile的注意力桥梁,以传输到mobilenet这一侧的分支上,再将所述第二次混合特征与所述局部特征进行融合,得到第三次混合特征;

10、步骤s7,将所述第三次混合特征输入wave_mlp中,得到增强了非线性表达能力的次终级特征;

11、步骤s8,将所述次终级特征和所述第二次混合特征进行拼接,得到终级特征;

12、步骤s9,使用由两个线性层构成的分类器对所述终级特征进行分类。

13、进一步地,所述步骤s4具体包括以下内容:

14、从mobile至所述特征编码融合转换器的注意力桥梁的注意力运算是在mobilenet的瓶颈处进行的,那里的通道维度很低,计算方便;

15、具体来说,即是从特征图x到全局特征z的轻量级交叉注意力桥梁,计算如下:

16、

17、为了节省计算量,在特征图x上去除了标准注意力中的键wk和值wv的投影矩阵,仅保留wo投影矩阵;

18、其中,特征图x和全局特征z被分成h个头,也即是:

19、

20、是第i个头的查询投影矩阵,wo用于组合多个头在一起,attn(q,k,v)是查询q、键k和值v的标准注意力函数。

21、进一步地,所述步骤s5具体包括以下内容:

22、mixattention的计算过程如下:

23、

24、其中,wo、wi是线性层的权重矩阵,d是隐藏层大小,inttensor代表输入张量,objecttensor代表的是目标张量,mixedtensor是混合之后得到的结果张量,整个混合的过程会计算两遍,第一遍的时候目标张量是第一次混合特征,输入张量是全新全局特征;第二遍的时候目标张量是全新全局特征,输入张量则变为了第一次混合特征,然后把得到的两个结果沿最后一个维度拼接,再使用双线性插值调整拼接后的张量尺寸,使其与输入张量尺寸一致,将得到的结果命名为第二次混合特征,这个第二次混合特征,它是一个与输入张量形状相同且具有更丰富特征信息的混合张量子。

25、进一步地,所述步骤s6具体包括以下内容:

26、表示从所述特征编码融合转换器至mobile的注意力桥梁,具体计算公式如下:

27、

28、此处输入的x表示局部特征,z表示第二次混合特征;同样的它们也都被分成h个头,和分别是特征编码融合转换器这一侧分支的键和值的投影矩阵。查询的投影矩阵已从mobilenet侧移除了。

29、进一步地,所述步骤s8具体包括以下内容:

30、首先对张量的第二次混合特征进行切片和重塑,取第二次混合特征的第一个维度的所有元素,第二个维度的第一个元素,第三个维度的所有元素,得到一个新的张量,然后将这个张量重塑为b行,列数自动计算的形状,其中b是次终级特征的第一个维度的大小,也就是批量大小,之后对次终级特征和重塑后的第二次混合特征沿着最后一个维度将它们连接起来,得到一个新的张量,也即是终级特征。

31、根据本说明书的第二方面,提供一种关于室内场景的图像识别与分类装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现所述的关于室内场景的图像识别与分类方法。

32、本发明的有益效果是:本发明设计的mobilewp-mixlaft模型通过一个轻量级的交叉注意力桥梁结构并行连接了两个分支,也即是mobilewp分支和mixlaft分支。mobilewp分支由mobilenet和wave_mlp组成,其中wave_mlp的架构比较简单,没有引入额外的参数或计算量,使得模型仍然保持了轻量化的优势。而mixlaft分支则由特征编码融合转换器(laft)和mixattention模块构成,拥有强大的全局编码和融合能力。得益于这种并联结构,本发明巧妙地将cnn和视觉转换器(vit)的优势相结合,充分利用了cnn在局部特征提取方面的速度优势以及vit在全局信息处理方面的强大能力。这使得mobilewp-mixlaft模型在保证高效性能的同时,能够有效应对室内场景的高复杂性。它可以在低flops(每秒浮点运算次数)下有效地识别与分类不同的室内场景,大大节省了计算开销,有助于在移动端设备和嵌入式系统上进行部署应用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1