基于注意力机制及多尺寸信息提取的双图像识别分类方法

文档序号：29856959发布日期：2022-04-30 09:38阅读：110来源：国知局

1.本发明涉及图像分类和人工智能技术领域，尤其涉及基于注意力机制及多尺寸信息提取的双图像识别分类方法。

背景技术：

2.在相机拍摄物体表面的图像过程中，不同的拍摄角度、不同波长的光源和位置所成的像是不同的。受到拍摄角度、光源的影响，单独一种情况下拍摄的图像不能完全反映物体的真实状况。如果两种物体在相同的角度或光源下拍摄的图像是相似的，但是在不同角度或光源下拍摄的图像是不同的。神经网络将相似的图像作为输入很容易将不同的物体的类别预测为同一类。
3.由于深度学习的快速发展，基于卷积神经网络的图像分类方法得到广泛的应用。图像分类通常只输入图像的某个角度或者某个光源下拍摄的图像。单一角度或光源下拍摄的物体图像可能会相似，导致模型对物体识别准确率低。因此，为了更好的反映物体表面的特征信息，考虑多种情况下拍摄的物体图像是一个很好的解决方案。

技术实现要素：

4.为了解决上述技术问题，本发明的目的是提供基于注意力机制及多尺寸信息提取的双图像识别分类方法，以解决现有的图像分类方法由于只输入物体表面的一幅图像，忽略了物体其他情况下的特征导致了特征不全面，图像分类准确率低的问题。
5.为了实现上述技术目的，本发明提供了基于注意力机制及多尺寸信息提取的双图像识别分类方法，包括以下步骤：
6.采集待分类物体的同一位置处具有不同表征的两幅图像；
7.构建多尺寸特征提取网络，多尺寸特征提取网络用于提取两幅图像的图像特征，其中，
8.多尺寸特征提取网络包括：
9.双图像空间注意力模块，用于将两幅图像的特征从空间的角度进行融合，得到空间融合特征信息；
10.双图像通道注意力模块，将两幅图像的特征从通道的角度进行融合，得到通道融合特征信息；
11.特征融合交互模块，用于将空间融合特征信息和通道融合特征信息进行特征融合，并提取两幅图像的图像特征。
12.优选地，在采集两幅图像的过程中，保持待分类物体的位置不变，基于不同情况，获取待分类物体的两幅图像，其中，不同情况包括角度不同和/或光源不同。
13.优选地，在构建多尺寸特征提取网络的过程中，多尺寸特征提取网络为并行网络，通过两个结构相同的多尺寸分支网络同时提取两幅图像的特征。
14.优选地，在构建多尺寸特征提取网络的过程中，多尺寸分支网络由多个多尺寸并
行卷积模块组成，其中，多尺寸并行卷积模块用于对输入的特征使用点卷积进行升维，并按照通道维度对特征进行切分得到四个子特征；将四个子特征分别被输入到不同尺寸的深度可分离卷积进行特征提取，得到不同尺寸的特征，并按照通道维度进行拼接后，使用点卷积对拼接后的特征进行降维，输入到下一个多尺寸并行卷积模块。
15.优选地，在提取两幅图像的特征的过程中，提取的具体方法如下：
[0016][0017][0018][0019][0020][0021]
y＝f1×1(concat(y1，y2，y3，y4))+x
[0022]
其中，x表示输入的特征；split表示按通道维度进行切分操作；xi表示切分得到的第i块特征；f
1x1
表示卷积核尺寸为1的点卷积；表示间隔尺寸为1，卷积核尺寸为1的深度可分离卷积；bn表示归一化操作；prelu表示非线性激活函数；yi表示经过不同尺寸的卷积得到的子特征；concat表示按通道维度进行特征信息拼接；y表示输出的两幅图像的特征。
[0023]
优选地，在获取空间融合特征信息的过程中，将两幅图像的特征进行点卷积降维，通过外积得到空间注意力掩膜，其中，空间注意力掩膜用于反映不同情况下的物体特征图中任意两个像素点之间的相关性；
[0024]
将空间注意力掩膜分别与初始的两幅图像的特征，进行外积得到融合后的特征；
[0025]
将融合后的特征与两幅图像的特征相加，得到融合特征，将融合特征输入到双图像通道注意力模块。
[0026]
优选地，在获取空间融合特征信息的过程中，获取空间融合特征信息的具体方法如下：
[0027]
x
s_mask
＝softmax(|f1×1(x
a1
)|2×
|f1×1(x
a2
)|
2t
)
[0028]
x
a1_sa
＝x
s_mask
×
f1×1(x
a1
)+x
a1
[0029]
x
a2_sa
＝x
s_mask
×
f1×1(x
a2
)+x
a2
[0030]
其中，x
a1
和x
a2
分别表示情况为a1和a2的两幅图像的特征；t表示按特征的长和宽进行转置操作；||2表示l2正则化；softmax为激活函数；x
s_mask
表示空间注意力掩膜；x
a1_sa
和x
a2_sa
分别表示与空间注意力掩膜融合得到的空间融合特征信息。
[0031]
优选地，在得到通道融合特征信息的过程中，将融合特征经过全局平均池化将特征压缩到通道维度，通过通道维度特征拼接成融合通道特征；
[0032]
将融合通道特征经过两层卷积块进行特征融合得到通道注意力掩膜，通道注意力掩膜用于调整不同通道间的权重；
[0033]
将通道注意力掩膜进行切分后，重新分配给两幅图像的特征进行融合，获取通道
融合特征信息。
[0034]
优选地，在获取通道融合特征信息的过程中，获取通道融合特征信息的具体方法如下：
[0035]
x
c_a
＝concat(gap(x
a1
)，gap(x
a2
))
[0036]
x
c_mask
＝f1×1(f1×1(x
c_a
))
[0037]
x
c_mask_a1
，x
c_mask_a2
＝split(x
c_mask
)
[0038]
x
a1_ca
＝sigmoid(f1×1(x
c_mask_a1
))
·
x
a1
[0039]
x
a2_ca
＝sigmoid(f1×1(x
c_mask_a2
))
·
x
a2
[0040]
其中，x
a1
和x
a2
分别表示情况为a1和a2的两幅图像的特征；x
c_a
表示融合后的特征信息；x
c_mask
表示经过特征融合得到的通道注意力掩膜；x
c_mask_a1
和x
c_mask_a2
分别表示角度为a1和a2的通道注意力掩膜；x
a1_ca
和x
a2_ca
表示融合了不同角度特征的通道融合特征信息。
[0041]
优选地，在提取两幅图像的图像特征的过程中，将通道融合特征信息和通道融合特征信息按照通道维度进行特征拼接；
[0042]
将特征拼接得到的特征通过两层全连接层进行分类输出得到图像特征。
[0043]
本发明还公开了用于实现双图像识别分类方法的双图像识别分类系统，包括：
[0044]
数据采集模块，用于采集待分类物体的同一位置处具有不同表征的两幅图像；
[0045]
数据分析模块，用于通过构建多尺寸特征提取网络，提取两幅图像的图像特征，其中，
[0046]
多尺寸特征提取网络包括：
[0047]
双图像空间注意力模块，用于将两幅图像的特征从空间的角度进行融合，得到空间融合特征信息；
[0048]
双图像通道注意力模块，将两幅图像的特征从通道的角度进行融合，得到通道融合特征信息；
[0049]
特征融合交互模块，用于将空间融合特征信息和通道融合特征信息进行特征融合，并提取两幅图像的图像特征。
[0050]
本发明公开了以下技术效果：
[0051]
本发明的上述技术方案中相机可以在不同的情况下分别拍摄同一位置物体的表面图像；利用并行多尺寸特征提取网络同时提取两个不同情况的特征信息；利用多尺寸分支网络提取不同尺度的物体特征，大尺度的卷积核适合提取图像中物体尺寸比较大的图像，小尺度的卷积核适合提取图像中物体尺寸比较小的图像；利用双图像空间注意力模块将两个不同情况的特征从空间的维度进行融合；利用双图像通道注意力模块将两个不同情况的特征从通道的维度进行融合；利用两个不同情况之间的特征相互融合可以增强特征的表示能力，提高模型的分类准确率。
附图说明
[0052]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0053]
图1是本发明实施例提供的基于注意力机制及多尺寸信息提取的双图像识别分类方法的执行流程示意图；
[0054]
图2是本发明实施例提供的基于注意力机制及多尺寸信息提取的双图像识别分类方法所采用的网络模型的结构示意图；
[0055]
图3是本发明实施例提供的加工件表面粗糙度多角度图像采集装置示意图；
[0056]
图4是本发明实施例提供的不同角度拍摄的样片表面图像；
[0057]
图5是本发明实施例提供的不同光源拍摄的样片表面图像。
具体实施方式
[0058]
下为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0059]
如图1-5所示，本发明提供了
[0060]
实施例1：一方面，本发明提供了一种基于注意力机制及多尺寸信息提取的双图像识别分类方法，包括：
[0061]
获取待分类物体的两幅图像；其中，所述两幅图像为同一位置下不同情况下所拍摄的图像；
[0062]
并行的多尺寸特征提取网络融合不同尺寸的信息来提取两幅图像的特征；
[0063]
利用双图像空间注意力模块将所述两幅图像的特征从空间的角度进行融合，得到空间融合特征信息；
[0064]
利用双图像通道注意力模块将所述两幅图像的特征从通道的角度进行融合，得到通道融合特征信息；
[0065]
所述多种方法提取的特征融合交互，形成的融合信息输入到分类网络，得到所述待分类物体的类别。
[0066]
进一步地，所述获取待分类物体的两幅图像，包括：
[0067]
保持待分类物体的位置不发生变化，相机分别从两种不同的情况下来获取待分类物体两幅图像。
[0068]
进一步地，所述并行的多尺寸特征提取网络融合不同尺寸的信息来提取两幅图像的特征，包括：
[0069]
两幅相同物体不同情况的图像同时输入到并行的多尺寸特征提取网络来提取不同情况下的两幅图像的特征。并行的多尺寸特征提取网络有两个结构相同的多尺寸分支网络来同时提取两个相同大小的图片的特征，得到两个不同情况下的图像特征。
[0070]
进一步地，所述多尺寸分支网络，包括：
[0071]
多尺寸分支网络由多个多尺寸并行卷积模块组成。多尺寸并行卷积模块对输入的特征使用点卷积进行升维，并按照通道维度对特征进行切分得到四个子特征。四个子特征
分别被输入到不同空洞速率的深度可分离卷积进行特征提取得到不同尺寸的特征。不同尺寸的特征按照通道维度进行拼接，并使用点卷积对特征进行降维输入到下一个多尺寸并行卷积模块。具体的方法如下：
[0072][0073][0074][0075][0076][0077]
y＝f1×1(concat(y1，y2，y3，y4))+x
[0078]
其中，x表示输入的特征；split表示按通道维度进行切分操作；xi表示切分得到的第i块特征；f
1x1
表示卷积核尺寸为1的点卷积；表示间隔尺寸为1，卷积核尺寸为1的深度可分离卷积；bn表示归一化操作；prelu表示非线性激活函数；yi表示经过不同尺寸的卷积得到的子特征；concat表示按通道维度进行特征信息拼接；y表示输出的特征。
[0079]
进一步地，利用双图像空间注意力模块将所述两幅图像的特征从空间的角度进行融合，得到空间融合特征信息，包括：
[0080]
两个不同情况下的物体图像特征经过点卷积降维之后进行外积得到空间注意力掩膜。空间注意力掩膜可以反映不同情况下的物体特征图中任意两个像素点之间的相关性。空间注意力掩膜分别与初始的不同情况的特征进行外积得到融合后的两个不同情况的特征。融合后的特征与初始的特征相加被输入到双图像通道注意力模块。具体的方法如下：
[0081]
x
s_mask
＝softmax(|f1×1(x
a1
)|2×
|f1×1(x
a2
)|
2t
)
[0082]
x
a1_sa
＝x
s_mask
×
f1×1(x
a1
)+x
a1
[0083]
x
a2_sa
＝x
s_mask
×
f1×1(x
a2
)+x
a2
[0084]
其中，x
a1
和x
a2
分别表示情况为a1和a2的两幅图像的特征；t表示按特征的长和宽进行转置操作；||2表示l2正则化；softmax为激活函数；x
s_mask
表示空间注意力掩膜；x
a1_sa
和x
a2_sa
分别表示与空间注意力掩膜融合得到的空间融合特征信息。
[0085]
进一步地，利用双图像通道注意力模块将所述两幅图像的特征从通道的角度进行融合，得到通道融合特征信息，包括：
[0086]
两个不同情况的物体图像特征首先经过全局平均池化将特征压缩到通道维度；不同情况的通道维度特征拼接成融合通道特征；融合通道特征经过两层卷积块进行特征融合得到通道注意力掩膜，通道注意力掩膜可以调整不同通道间的权重；通道注意力掩膜经过切分重新分配给不同情况下的特征进行融合。具体的方法如下：
[0087]
x
c_a
＝concat(gap(x
a1
)，gap(x
a2
))
[0088]
x
c_mask
＝f1×1(f1×1(x
c_a
))
[0089]
x
c_mask_a1
，x
c_mask
_
a2
＝split(x
c_mask
)
[0090]
x
a1_ca
＝sigmoid(f1×1(x
c_mask_a1
))
·
x
a1
[0091]
x
a2_ca
＝sigmoid(f1×1(x
c_mask_a2
))
·
x
a2
[0092]
其中，x
a1
和x
a2
分别表示情况为a1和a2的两幅图像的特征；x
c_a
表示融合后的特征信息；x
c_mask
表示经过特征融合得到的通道注意力掩膜；x
c_mask_a1
和x
c_mask_a2
分别表示角度为a1和a2的通道注意力掩膜；x
a1_ca
和x
a2_ca
表示融合了不同角度特征的特征信息。
[0093]
进一步地，所述多种方法提取的特征融合交互，形成的融合信息输入到分类网络，得到所述待分类物体的类别，包括：
[0094]
经过多尺寸特征提取网络、双图像空间注意力模块和双图像通道注意力模块融合得到不同情况的特征按照通道维度进行特征拼接。拼接得到的特征被输入到两层全连接层进行分类输出得到最后的图像的类别
[0095]
实施例2：如图1所示，本发明实施例提供了一种基于注意力机制及多尺寸信息提取的双图像识别分类方法，该方法包括：
[0096]
s1，获取待分类物体的两幅图像；其中，所述两幅图像为同一位置不同情况下所拍摄的图像；
[0097]
需要说明的是，由于不同情况下相机拍摄相同的物体表面各不相同，所以不同的图像所表现的特征有所不同。因此，本实例为了解决单幅图像表征物体特征不明显的问题，使用两幅不同情况下相同的物体的图片来预测物体的类别。不同情况下的图片特征可以相互补充，提高分类模型的识别准确率。
[0098]
s2，并行的多尺寸特征提取网络融合不同尺寸的信息来提取两幅图像的特征；
[0099]
需要说明的是，本实施例是利用两个相同结构的多尺寸特征提取网络来提取不同情况的相同物体的特征。具体地，不同情况的图像同时输入到两个多尺寸特征提取网络。多尺寸特征提取网络由五个多尺寸模块组成。不同大小的物体所需要的感受野不同，物体的尺寸越大，需要的感受野越大。为了适应不同情况的物体尺寸，多尺寸模块被用来提取丰富的特征。
[0100]
s3，利用双图像空间注意力模块将所述两幅图像的特征从空间的角度进行融合，得到空间融合特征信息；
[0101]
具体地，在本实施例中，得到空间融合特征信息的方式为：将提取到的两个尺寸相同的不同情况的图像特征同时输入到双图像空间注意力模块。双图像空间注意力模块通过计算两个特征图的余弦相似度注意力掩膜，可以得出两个特征图中任意两个相似点之间的相关性。空间注意力掩膜以矩阵外积的形式与初始的两个特征图进行融合得到空间融合信息。
[0102]
s4，利用双图像通道注意力模块将所述两幅图像的特征从通道的角度进行融合，得到通道融合特征信息；
[0103]
具体地，在本实施例中，得到通道融合特征信息地方式为：将提取到的两个尺寸相同的不同角度的图像特征同时输入到双图像通道注意力模块。双图像通道注意力模块使用全局平均池化提取通道维度的特征，并沿通道维度进行特征拼接。全连接层计算不同通道之间的相关性，进行特征权重调整得到通道注意力掩膜。通道注意力掩膜再分别与不同情况的特征进行融合得到通道融合特征信息。
[0104]
s5，所述多种方法提取的特征融合交互，形成的融合信息输入到分类网络，得到所述待分类物体的类别；
[0105]
具体地，在本实施例中，经过多尺寸特征提取网络、双图像空间注意力模块和双图像通道注意力模块融合得到不同情况的特征按照通道维度进行特征拼接。拼接得到的特征被输入到两层全连接层进行分类输出得到最后的图像的类别。
[0106]
进一步地，本实施例的基于注意力机制的多角度工件表面粗糙度预测方法所采用的网络模型的网络结构如图2所示。
[0107]
实施例一
[0108]
在本实施例中，使用不同目的砂纸打磨抛光类型的粗糙度样品来验证基于注意力机制及多尺寸信息提取的双图像识别分类模型的效果。设置不同的拍摄角度对砂纸打磨抛光的样品表面的粗糙度图像进行采集。数据集按照不同的砂纸类型将粗糙度分为四个等级。表1显示了不同的粗糙度等级所对应的粗糙度范围和每个角度的图像数量。粗糙度类别为320-60s中的320表示砂纸的目数，60s表示打磨60秒。每个角度拍摄的图片数量都为160，拍摄的角度为0度、15度、30度和45度。使用交叉熵损失函数和adam优化器来迭代更新模型的参数，迭代20次训练，每个批次的大小为32，学习速率为0.001。训练集、验证集和测试集之间的比例为8：1：1。
[0109]
表1
[0110][0111][0112]
具体的实施步骤为：
[0113]
(1)获取不同角度的样品表面粗糙度图像。图像采集装置如图3所示，相同结构的相机调整不同的角度来拍摄不同角度的样品表面粗糙度图像。将粗糙度图像随机的划分为训练集、验证集和测试集。数据集总共包括2560张图片，每个粗糙度类型中的每个角度的图片数量为160。图片被处理成224x224像素大小，处理后的图片如图4所示，图4中从左到右的角度依次为0
°
、15
°
、30
°
、45
°
。
[0114]
(2)使用两个相同的多尺度特征提取网络来分别提取两个不同尺度的特征。
[0115]
(3)两个不同尺度的特征分别被输入到双图像空间注意力模块和双图像通道注意力模块从空间和通道的维度对两个不同角度之间的特征进行相互融合。
[0116]
(4)将融合后的特征输入到分类网络，输出每个粗糙度图像的预测结果。当模型训练的损失趋向于收敛时，得到训练好的粗糙度分类模型。
[0117]
(5)将测试集中的图像输入到训练好的分类模型中，得到输入图像的粗糙度等级。
[0118]
进一步地，将本实施例的基于注意力机制及多尺寸信息提取的双图像识别分类方
法记为ams-net。为了证明本实施例提出的方法在提升粗糙度分类准确率上的有效性，对单图像粗糙度图像训练模型(msp-net)、双图像粗糙度图像训练模型(ams-net)进行了实验对比，评估了每个角度对粗糙度分类的平均分类准确率。
[0119]
表2
[0120][0121]
如表2所示，不同角度的样品表面粗糙度的图像预测准确率不同，0度的准确率最高，达到了91.55％。0度是垂直拍摄的粗糙度图像，有较丰富的特征信息。15度的粗糙度图像的1000目识别准确率最低。30度的粗糙度图像的320目识别准确率最低，而1000和1200目的识别准确率最高。45度粗糙度图像在800、1000和1200目识别准确率相当。通过对比可以发现不同角度拍摄的粗糙度图像在预测不同目的样品准确率不同，不同角度得到的特征相互补充。
[0122]
为了比较多角度特征融合与单角度特征之间的效果，本实施例选择单角度准确率最高的0度和其他的角度作为对比实验。从表2中可以看出，虽然0和15度的粗糙度特征提升了320和800目的准确率，但是导致了其他1000目类别的准确率降低。而0和30度的粗糙度特征，显著提升了30度的320目和800目的识别准确率。0和45度的粗糙度特征提升了320和800目的粗糙度特征，其他的粗糙度类别也达到较高的准确率。准确率最高的角度组合是0度和45度。
[0123]
综上，本实施例的方法同时将两个不同角度的粗糙度图像输入到网络模型中来预测粗糙度类别。不同角度拍摄的样品表面的粗糙度，所包含的粗糙度特征不相同。多角度特征之间的相互融合，可以更好的提升单角度特征的准确率。
[0124]
实施例二
[0125]
在本实施例中，使用不同光源下拍摄的粗糙度样品图像来验证基于注意力机制及多尺寸信息提取的双图像识别分类模型的效果。设置白光和红激光两种光源的相机来拍摄样品表面的图像。保持相机垂直于待测样品，切换白光和红激光两种不同的光源分别拍摄待测样品表面的粗糙度图像。按照不同的加工类型将粗糙度数据集分为六个类别。表3显示了不同的加工类型所对应的粗糙度范围和每个加工类型的图像数量。训练参数与实施例一
相同。
[0126]
表3
[0127][0128][0129]
表4
[0130][0131]
如表4所示，不同光源的样品表面粗糙度的图像预测准确率不同，白光和红激光结合的预测准确率达到97.43％，比单独使用白光检测的粗糙度预测准确率提高4.6％。通过对比可以发现两种光源的图像分类识别准确率要比单独使用一种光源的准确率要高，不同光源的特征可以相互补充，增强粗糙度分类模型的识别准确率。
[0132]
综上，本实施例的方法同时将两个不同光源的粗糙度图像输入到网络模型中来预测粗糙度类别。不同光源拍摄的样品表面的粗糙度，所包含的粗糙度特征不相同。多光源特征之间的相互融合，可以更好的提升单光源特征的准确率。
[0133]
还需要说明的是，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终
端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0134]
最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张桃红郭徐徐范素丽
技术所有人：北京科技大学
我是此专利的发明人

上一篇：一种可自动运输钢卷的运卷小车及其运卷方法与流程
上一篇：一种超细纤维/短纤转杯复合纱

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。