一种基于可解释性显著图的弱监督学习方法与流程

文档序号:33180474发布日期:2023-02-04 04:51阅读:26来源:国知局
一种基于可解释性显著图的弱监督学习方法与流程

1.本发明属于图像处理技术领域,特别涉及一种基于可解释性显著图(cam,class activation mapping)的弱监督学习方法。


背景技术:

2.随着计算机视觉技术的快速发展,细粒度视觉分类(fgvc,flow-edge guided video completion)已成为一个重要的研究方向,并在视觉任务中具有广泛应用。相比于普通的视觉分类任务中(如分辨鸟类和汽车)的目标对象通常具有较大差异,细粒度视觉分类任务(如分辨不同种类的鸟或者不同品牌的汽车)通常需要算法模型具备识别相似目标对象之间微弱差异的能力,从而在农业、医学、工业制造等不同领域的很多视觉场景应用中具有巨大价值和广阔前景。
3.为了分辨大体特征相似仅存在微弱差异的不同目标,细粒度视觉分类通常需要先识别图像中具有语义的部分,然后对最具分类效力的语义区域进行特征挖掘,从而发现不同类别之间的细微差别。
4.目前用于细粒度视觉分类任务的最先进、分类性能最好的方法通常采用卷积神经网络模型和注意力机制模块相结合的方式,通过关注最具分类效力的模型通道和空间区域,来显著提升卷积神经网络模型的分类性能。
5.然而,由于现有图像数据缺少对于具有语义的部分区域的标注,导致对注意力机制模块的引导能力较差,使得现有方法对具有分类效力的语义区域的检测完全依赖于网络模型的学习能力,从而影响了注意力机制模块对卷积神经网络模型分类性能提升的稳定性。


技术实现要素:

6.针对人工获取图像中具有语义的部分区域的标注工作量巨大的问题,本专利申请提出一种用于细粒度视觉分类的基于可解释性显著图的弱监督学习方法,以实现对注意力机制模块的监督引导,从而稳定提升卷积神经网络模型的分类性能。
7.本发明解决其技术问题所采用的技术方案是:一种基于可解释性显著图的弱监督学习方法,包括如下步骤
8.s1,通过卷积神经网络模型提取输入图像数据的深度特征:通过特征提取器f(
·
)提取输入图像x的图像深度特征a=f(x)∈rc×h×w,其中c代表卷积神经网络模型通道数,h和w代表所提取深度特征的空间尺寸;将提取到的深度特征a作为分类器g(
·
)的输入,可以得到卷积神经网络模型对输入图像x属于不同类别的分类置信分数输出y=g(f(x))=g(a)∈rk,其中k代表类别总数,卷积神经网络模型对输入图像x属于第k类别的分类置信分数输出表示为yk;
9.s2,利用图像深度特征生成的掩模图像对原输入图像重加权:对于特征提取器f(
·
)所提取到的深度特征a,用ai∈rh×w表示第i个通道的特征图,采用双线性插值方法对特
征图ai进行上采样获得与原输入图像x空间尺寸一致的特征图bi;对特征图bi采取重整化操作,将取值范围限定在[0,1]区间后即获得基于第i个通道的特征图生成的掩模图像其中掩模图像si与输入图像x的空间尺寸相同,通过hadamard内积得到加权后的图像
[0010]
s3,设计损失函数通过可解释性显著图实现对注意力机制的弱监督:计算生成可解释性显著图,获得通道权重和空间权重:将图像再次作为卷积神经网络模型输入,可获得一组新的关于不同类别的置信分数卷积神经网络模型对图像属于第k类别的分类置信分数表示为将置信分数相比输入图像x的置信分数yk产生的变化标记为对于深度特征a的所有通道i∈{1,2,

,c}计算其分类贡献,得到向量β∈rc进行重整归一化,得到可解释性显著图的特征通道权重得到用于生成可解释性显著图的通道权重;利用获得的通道权重对每个通道的特征图加权即可得到可解释性显著图的权重用于对图像中具有分类效力的语义部分进行自主视觉定位,对可解释性显著图的权重δ重整和归一化操作得到基于可解释性显著图的特征空间权重进而得到
[0011]
s4,将特征提取器得到的深度特征a作为输入,经过关于各通道的全域平均后,连接到数量域通道数c相同的全连接层构成的小型神经网络,网络输出经过softmax函数后得到通道注意力机制模块产生的通道权重α=f
ca
(a)∈rc,利用该通道权重α对深度特征a进行加权,得到更新后深度特征a
′i=α
iai
,i=1,2,

,c;再将更新后深度特征a

作为输入,连接到卷积层的小型神经网络,网络输出经过softmax函数后得到空间注意力机制模块产生的通道权重γ=f
sa
(a

)∈rh×w,利用该空间权重γ对深度特征a进行加权,得到再次更新后深度特征该加权后的深度特征a
″i作为分类器g(
·
)的输入用于计算分类置信度,实现卷积神经网络模型与通道注意力机制模块的结合;
[0012]
s5,将通道注意力机制模块产生的通道权重α和可解释性显著图的特征通道权重视作两个一维的概率分布,采用对称化的kullback-leibler(kl)散度度量两个概率分布的差异,并作为卷积神经网络模型训练时在损失函数中添加的正则项离散化的概率分布的散度写作计算空间注意力机制模块产生的通道权重γ和可解释性显著图的特征空间权重的散度,作为添加在卷积神经网络模型训练时在损失函数中的另一正则项其中ls包含的kl散度计算的是两个二维离散化概率分布的差
异最终将卷积神经网络模型训练的损失函数更新为l
tot
=l
cls
+lc+ls,其中l
cls
为卷积神经网络模型输出分类置信分数与输入图像x类别标签比较的分类损失;通过可解释性显著图实现对注意力机制模块的弱监督,从而实现其对卷积神经网络模型分类性能的提升。
[0013]
进一步,所述的步骤s4中连接到以relu作为激活函数的两层神经元网络,最终得到通道注意力机制模块产生的通道权重α。
[0014]
进一步,所述的步骤s4中连接到一个尺寸为3
×
3卷积核通道数为1的网络,最终得到空间注意力机制模块产生的通道权重γ。
[0015]
本发明的有益效果是:
[0016]
本发明基于可解释性方法产生可解释性显著图可用于自主视觉定位图像中具有分类效力的语义区域,该过程中获得的通道权重和空间权重可用于引导监督注意力机制模块关注深度特征中最具分类效力的通道特征图和空间区域,通过在训练损失函数中添加基于显著图权重和注意力模块权重设计的损失正则项lc和ls实现弱监督学习过程。
[0017]
经过本发明专利弱监督学习方法训练后的卷积神经网络模型,其注意力机制将具备自主识别图像中具有分类效力的语义部分,在应用中不再需要显著图的辅助。
附图说明
[0018]
图1是本发明生成可视化显著图的流程图;
[0019]
图2是本发明弱监督学习方法的流程图。
具体实施方式
[0020]
下面将结合附图的具体实施例对本发明作进一步详细说明。以下实施例仅用于解释本发明,并不构成对本发明的限定。
[0021]
研究证明卷积神经网络模型可有效提取图像数据的深度特征;而注意力机制模块包含通道注意力模块和空间注意力模块可用于引导分类模型,关注卷积神经网络模型所提取到的特征中最具分类效能的特征通道和空间区域。两者相结合可有效提升卷积神经网络模型的细粒度视觉分类性能。
[0022]
然而在卷积神经网络模型训练中,由于大多数图像数据缺乏对于图像数据中具有语义的部分区域的标注,在训练过程中缺乏语义区域标注对注意力机制的监督导致对注意力模块的学习过程引导能力较差,使得现有方法通过结合注意力机制引导模型关注图像中具有分类效力的语义区域的效果全依赖于卷积神经网络模型的学习能力。
[0023]
卷积神经网络模型训练过程中的随机性可能会导致模型中的注意力模块关注如背景等与分类目标无关的语义区域,使得注意力机制对模型分类能力没有作用甚至导致负面效果,从而影响了注意力机制对模型分类性能提升的稳定性。而人工标注图像语义区域的方式需要耗费大量人力资源,且对语义区域的标注边界也受到人为主观因素的影响与标注工具边界形状多样性的限制。
[0024]
利用基于可解释性方法产生可解释性显著图的自主视觉定位方法可在避免人工标注对人力成本的巨量需求的同时以合理的计算资源实现对注意力机制模块的监督引导,
从而稳定提升模型细粒度视觉分类性能,其大体思路如图1所示。
[0025]
如图2所示,本发明公开的一种基于可解释性显著图的弱监督学习方法,包括如下步骤。
[0026]
s1,通过卷积神经网络模型提取输入图像数据的深度特征。
[0027]
对于一个基于卷积神经网络模型的分类器g(
·
),本步骤大致可以分为两部分:1,用于提取输入图像深度特征a的网络特征提取器f(
·
);2,将提取到的深度特征a作为输入的网络分类器g(
·
),用于输出类别置信度。
[0028]
通过特征提取器f(
·
)提取输入图像x的图像深度特征:
[0029]
a=f(x)∈rc×h×w,
[0030]
其中c代表卷积神经网络模型通道数,h和w代表所提取深度特征的空间尺寸。
[0031]
将提取到的深度特征a作为分类网络g(
·
)的输入,可以得到卷积神经网络模型对输入图像x属于不同类别的分类置信分数输出:
[0032]
y=g(f(x))=g(a)∈rk,
[0033]
其中k代表类别总数,这里卷积神经网络模型对输入图像x属于第k类别的分类置信分数输出表示为yk。
[0034]
s2,利用图像深度特征生成的掩模图像对原输入图像重加权得到加权后的图像
[0035]
对于特征提取器f(
·
)所提取到的深度特征a,用ai∈rh×w表示第i个通道的特征图,采用在二维矩阵的两个维度方向上分别进行一次线性插值的双线性插值方法对ai进行上采样获得与原输入图像x空间尺寸一致的特征图bi;对特征图bi采取重整化操作,将取值范围限定在[0,1]区间,即可获得基于第i个通道的特征图生成的掩模图像:
[0036][0037]
其中掩模图像si与输入图像x的空间尺寸相同,因此可通过hadamard内积(维度相同的向量、矩阵、张量对应元素相乘后求和,这里用表示)得到加权后的图像图像可视作关于卷积神经网络模型所提取的深度特征ai对原输入图像x的语义增强处理。
[0038]
s3,计算生成可解释性显著图,获得通道权重和空间权重。
[0039]
将语义增强处理后的图像再次作为卷积神经网络模型输入,可获得一组新的关于不同类别的置信分数:
[0040][0041]
卷积神经网络模型对图像属于第k类别的分类置信分数表示为模型对于语义增强处理后的图像关于所属类别k(通过类别标签可知)的置信分数相比原输入图像x的置信分数yk产生的变化:
[0042][0043]
其反映了特征提取器f(
·
)所提取到的深度特征a的第i个通道的特征图ai对模型将图像归于类别k的贡献。
[0044]
对于深度特征a的所有通道i∈{1,2,

,c}计算其分类贡献,得到向量β∈rc,并进行重整归一化,得到可解释性显著图的特征通道权重:
[0045][0046][0047]
即可得到用于生成可解释性显著图的通道权重;利用获得的通道权重对每个通道的特征图加权即可得到如图1所示的可解释性显著图权重:
[0048][0049]
其可用于对图像中具有分类效力的语义部分进行自主视觉定位。可解释性显著图是可解释性显著图的可视化表达。
[0050]
对可解释性显著图的权重δ重整和归一化操作得到基于可解释性显著图的特征空间权重:
[0051][0052][0053]
基于可解释性方法产生可解释性显著图的自主视觉定位方法获得的通道权重和空间权重可用于后续步骤中监督、引导通道和空间注意力模块。
[0054]
s4,构建通道-空间注意力模块对特征图重加权:用于实现注意力机制的通道注意力机制模块和空间注意力机制模块由两个轻量级神经网络组成。
[0055]
1,通道注意力机制模块。将特征提取器f(
·
)得到的深度特征a作为输入,经过关于各通道的全域平均,即各通道高维特征所有元素求平均值后,连接到以relu作为激活函数的两层神经元数量域通道数c相同的全连接层构成的小型神经网络,网络输出经过softmax函数后得到通道注意力机制模块产生的通道权重α=f
ca
(a)∈rc,利用该通道权重α对原深度特征a进行加权,得到更新后深度特征:
[0056]a′i=α
iai
,i=1,2,

,c。
[0057]
2,空间道间注意力机制模块。将更新后深度特征a

作为输入,连接一个尺寸为3
×
3、卷积核通道数为1的卷积层的小型神经网络,网络输出经过softmax函数后得到空间注意力机制模块产生的通道权重:
[0058]
γ=f
sa
(a

)∈rh×w,
[0059]
利用该空间权重γ对原深度特征a进行加权,得到再次更新后得到深度特征:
[0060][0061]
该加权后的深度特征a
″i作为分类器g(
·
)的输入用于计算分类置信度,实现卷积神经网络模型与通道注意力机制模块的结合。
[0062]
s5,设计损失函数通过可解释性显著图实现对注意力机制模块的弱监督,从而实现其对卷积神经网络模型分类性能的提升。
[0063]
在缺乏对于原始图像中具有语义部分区域的标注的情况下,利用基于可解释性方法产生可解释性显著图,对图像中具有分类效力的语义区域进行自主视觉定位,该方法所产生的可解释性显著图的特征通道权重和可解释性显著图的特征空间权重可监督引导通道注意力机制模块和空间注意力机制模块关注深度特征a中最具分类效力的通道特征图和空间区域。
[0064]
考虑到通道注意力机制模块产生的通道权重α和可解释性显著图的特征通道权重均为尺寸为rc且经过归一化后的一维向量,可视作两个一维的概率分布,这里采用对称化的kullback-leibler(kl)散度用于度量两个概率分布的差异,并作为卷积神经网络模型训练时在损失函数中添加的正则项:
[0065][0066]
其中,离散化的概率分布的散度的具体形式可写作:
[0067][0068]
类似的,我们可以计算空间注意力机制模块产生的通道权重γ和可解释性显著图的特征空间权重的散度,作为添加在卷积神经网络模型训练时在损失函数中的另一正则项:
[0069][0070]
其中ls包含的kl散度计算的是两个二维离散化概率分布的差异:
[0071][0072]
最终将卷积神经网络模型训练的损失函数更新为:
[0073]
l
tot
=l
cls
+lc+ls,
[0074]
其中l
cls
为卷积神经网络模型输出分类置信分数与输入图像x类别标签比较的分类损失。
[0075]
以上所述仅是用以说明的技术方案而非对其限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的实施例,所述领域的技术人员应当理解,未脱离本发明精神和范围的任何修改或者等同替换,均涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1