零样本图像分类方法、系统、电子设备及存储介质

文档序号:26748490发布日期:2021-09-25 01:39阅读:64来源:国知局
零样本图像分类方法、系统、电子设备及存储介质

1.本公开涉及图像分类技术领域,尤其涉及一种零样本图像分类方法、系统、电子设备及存储介质。


背景技术:

2.零样本学习是小样本学习的一种,这些概念的提出是受到人类学习的启发,人类只需要通过少量例子的学习就可以掌握一个新的概念,甚至没有例子也能学习一个新的概念。婴儿可以通过看书本上的苹果,在下次见到真正的苹果就很容易认出来这就是苹果。学生也可以根据老师的描述学习一些新的概念或者事务,例如通过学习斑马就是长着黑白条纹的马这样的描述后,学生在见到斑马后很容易识别出来。
3.零样本识别模型基于直接语义进行预测,根据利用中间信息的方式不同,这些方法可以分类为直接属性预测(dap)和非直接属性预测(iap)。直接属性预测,就是把图像映射到属性空间,然后通过属性完成对未知类别的预测。间接属性预测,首先把图像映射到已知的类别空间,然后映射到属性空间,最后通过属性完成对未知数据的类别预测。使用dap和iap方法建立的模型具有很强的可解释性,但这两种方法将属性置于一个过于重要的位置,属性的误标注会对这类方法的性能产生较大的负面影响。


技术实现要素:

4.有鉴于此,本公开的目的在于提出一种零样本图像分类方法、系统、电子设备及存储介质。
5.基于上述目的,本公开提供了一种零样本图像分类方法,通过预先训练好的零样本分类模型执行,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,该方法包括:
6.通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;
7.通过所述基准神经网络层提取输入图像的全局特征;
8.通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码;
9.对于所述多个特征掩码中的每个特征掩码,确定该特征掩码的各个元素值中的最大值作为该特征掩码的最大掩码值,以得到分别与所述多个特征掩码对应的多个最大掩码值;
10.基于所述多个最大掩码值中的最大值和预设的自适应因子,计算自适应阈值;
11.基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征;
12.对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,以得到分别与所述多个未见类别对应的多个相容性得分;
13.确定所述多个相容性得分中的最大值作为最高相容性得分,并输出与所述最高相容性得分对应的所述未见类别作为对所述输入图像的类别预测结果。
14.从上面所述可以看出,本公开提供的零样本图像分类方法,通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;通过所述基准神经网络层提取输入图像的全局特征;通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码;对于所述多个特征掩码中的每个特征掩码,确定该特征掩码的各个元素值中的最大值作为该特征掩码的最大掩码值,以得到分别与所述多个特征掩码对应的多个最大掩码值;基于所述多个最大掩码值中的最大值和预设的自适应因子,计算自适应阈值;基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征;对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,以得到分别与所述多个未见类别对应的多个相容性得分;确定所述多个相容性得分中的最大值作为最高相容性得分,并输出与所述最高相容性得分对应的所述未见类别作为对所述输入图像的类别预测结果。从而通过阈值自适应的注意力机制,抑制冗余特征的同时提高了特征的鲁棒性,进一步提高了分类的准确度。
附图说明
15.为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1为本公开实施例的一种零样本图像分类方法的流程示意图;
17.图2为本公开实施例的一种零样本分类模型的框架结构示意图;
18.图3为本公开实施例的一种零样本图像分类系统的结构示意图;
19.图4为本公开实施例的一种具体的电子设备硬件结构示意。
具体实施方式
20.为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
21.需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
22.如背景技术部分所述,在零样本分类问题的情景设定中,测试集中出现的数据类别在训练集不存在,也就是说测试数据的类别集合和训练数据的类别集合不相交。为实现
针对零样本目标数据集的分类,需要在两个不相交的类别集合上架起一座桥梁,这个桥梁就是属性或者语义嵌入空间。
23.在语义嵌入空间中,本公开为每一个类别学习一个语义嵌入或者属性嵌入。我们知道老虎长得和猫很像,而老虎长得和狮子没有那么像,那么在语义空间中,老虎和猫的距离就会比狮子近。然后通过判定图像的语义嵌入与各类别语义嵌入的距离,就可以对其类别进行判定。本公开中嵌入之间的距离是用这两个高维向量之间的相容性来进行度量的。
24.在零样本分类领域,尤其是细粒度的零样本分类中,一些共同属性表示的外观区别往往非常大,例如虽然马和小鸟都具有尾巴,但是马和小鸟的尾巴视觉差异非常大。利用局部特征进行预测,可以在训练过程中,让网络学会理解一些部位的本质,允许共同概念学习不同的局部特征。常见的局部特征提取方法有基于特征聚类的方法,基于聚类的方法,一般通过对不同通道的特征图进行聚类,聚类的中心认为就是图像局部特征,这种方法不利于网络梯度的后向传播,无法实现网络的端到端训练。本公开采用的基于注意力的方法是一种可学习的方法,注意力权重可以在网络训练的过程中,通过原始的监督数据训练得到,无须额外添加任何标注数据。基于注意力的方法容易嵌入到神经网络中进行端到端的训练。
25.同类目标在不同图像中往往呈现出不同的视角和不同的部位,为能够尽可能多的针对不同的视角提取特征,需要尽可能多的设置局部区域提取器数量。但是具体到输入的图像,通常只能包含某一个或者某几个局部区域的某个视角,而其他局部区域往往由于遮挡或者视角的原因不会出现,提取其他视角的注意力权重很小,但是大量很小的权重提取的特征合起来也会对模型分类结果产生影响,如果强行提取其特征,往往会事倍功半,甚至产生反作用。为此,本公开采用一种自适应阈值的方法来消除这些不重要区域的影响。
26.在本公开的一个应用场景中,可以通过一个终端设备实现本公开的图像分类方法,该终端设备包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、个人数字助理(personal digital assistant,pda)或其它能够实现上述功能的电子设备等。
27.同样的,在另外一个应用场景中,本公开的图像分类方法的部分或全部可以作为另一个图像处理方法或其他领域内的处理方法的一部分配合使用。例如,可以先通过本公开的图像分类方法对图像进行分类,然后得到的分类结果作为下一个处理步骤的输入样本。
28.参考图1,为本公开实施例的一种零样本图像分类方法的流程示意图,该方法通过预先训练好的零样本分类模型执行,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,该方法包括以下步骤:
29.s101,通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量。
30.本步骤中,多个未见类别的属性向量包含待分类输入图像的类别属性,可以根据图像分类的应用场景确定获取的多个未见类别的属性向量,每一种未见类别的属性向量中有多个属性元素,基于零样本分类模型的第一神经网络层将这些属性元素映射到图像特征空间,就可以得到所述多个未见类别的语义嵌入向量。如应用场景是对各种马的分类,那么获取的未见类别的属性向量就是各种马类的属性向量,其中,每一种马都有多个属性元素,
如毛发颜色、身高、体重等,将这些属性元素映射到图像特征空间就可以得到每一种马的语义嵌入向量。可选的,该属性向量也可以替换为词向量。
31.需要说明的是,将类别的属性向量投影到属性空间,更容易发生中心度问题(hubness problem)。所谓的中心度问题是指,在高维属性空间中,部分测试类别很容成为其他数据的k近邻,但是这些类别之间并不存在相关性。如果将语义空间作为嵌入空间,需要把特征从高维空间映射到语义空间,这样会使空间发生萎缩,点与点之间更加稠密,从而加重了中心度问题。而本公开使用图像特征空间作为嵌入空间,该图像特征空间是在进行所述零样本分类模型训练时,通过将已知类别的图像样本输入所述零样本分类模型中获得,该图像特征空间属于高维空间,然后将类别的属性向量映射到所述图像特征空间获得所述语义嵌入向量。这样避免了加重中心度的问题,同时由于该图像特征空间是在零样本分类模型训练时得到的,参与到后续相容性得分的计算时更容易找到各个类别元素的相关性。
32.s102,通过所述基准神经网络层提取输入图像的全局特征。
33.本步骤中,通过零样本分类模型的基准神经网络层提取输入图像的全局特征。
34.s103,通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码。
35.本步骤中,在得到全局特征后,进一步通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,得到多个特征掩码,每个特征掩码用于提取输入图像的一个局部区域。
36.s104,对于所述多个特征掩码中的每个特征掩码,确定该特征掩码的各个元素值中的最大值作为该特征掩码的最大掩码值,以得到分别与所述多个特征掩码对应的多个最大掩码值。
37.本步骤中,每个特征掩码有多个元素值,每个元素值表示与其对应的位置的特征权重,该元素值越大代表对应的权重越大,从每个特征掩码的所有元素值中先挑选出最大值作为该特征掩码的最大掩码值。从而每个特征掩码都对应有一个最大掩码值。
38.s105,基于所述多个最大掩码值中的最大值和预设的自适应因子,计算自适应阈值。
39.本步骤中,从各个特征掩码对应的最大掩码值中,选出最大值,并根据该最大值与预设的自适应因子,计算自适应阈值,该预设的自适应因子可以根据需要进行设置,可选的,将该最大值与该预设的自适应因子相乘得到自适应阈值。
40.s106,基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征。
41.本步骤中,根据自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征。该自适应阈值用来判断哪些局部特征为无效特征可以被消除或减弱,从而保证最终获取得局部特征能更好的反应待分类图像的特点,抑制冗余特征的同时提高了特征的鲁棒性。
42.为了消除无效特征对图像分类的影响,在一些实施例中,基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征,具体包括:
43.通过下列操作对所述多个特征掩码进行自适应阈值处理:对于所述多个特征掩码
中的每个特征掩码,响应于确定该特征掩码的最大掩码值小于所述自适应阈值,将该特征掩码的每个元素值重置为零;
44.以经过自适应阈值处理后的所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
45.具体的,在通过自适应阈值选出不重要的特征对应的特征掩码后,将这些特征掩码的每个元素值重置为零,即这些重置为零的特征掩码对应的权重变成了0,这样可消除这些不重要的特征对图像分类的影响。
46.进一步的,考虑到将一些不重要的特征直接消除得到的加权全局特征缺少平滑性,而且与输入图像的真实特征不符,因此,在一些实施例中,基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征,具体包括:
47.通过下列操作对所述多个特征掩码进行自适应阈值处理:对于所述多个特征掩码中的每个特征掩码,响应于确定该特征掩码的最大掩码值小于所述自适应阈值,将该特征掩码的每个元素值进行平方处理;
48.以经过自适应阈值处理后的所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
49.具体的,在通过自适应阈值选出不重要的特征对应的特征掩码后,将这些特征掩码的每个元素值进行平方处理,由于,每个元素值表示提取特征的权重,即都小于1,所以平方处理相当于对该权重进行削弱处理,同时,平方也相当于对同一特征按照原权重进行了两次加权,而不是随意的进行削弱。
50.经一步的,在一些实施例中,采用与上述相同的操作,在通过自适应阈值选出不重要的特征对应的特征掩码后,将该特征掩码的每个元素值与自衰减权值相乘,所述自衰减权值为预设权值因子与所述多个特征掩码的数量的比值,该预设权值因子可以根据需要进行设置,该自衰减权值用来对,挑选出的不重要的特征对应的特征掩码的元素值进行削弱,而所述多个特征掩码的数量的多少表示输入图像被关注了多少个局部区域,当关注的局部区域较多时,可以适量的增加不重要特征被削弱的程度,从而突出那些重要特征的特点,同时在关注的局部区域较少时尽量的保留住所有特征能更好的表示出真实的输入图像的特点。可选的,也可以通过其他手段对不重要的特征进行削弱,如将对应的特征掩码的每个元素值除以2或其他整数,这些都属于本公开的保护范围。
51.s107,对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,以得到分别与所述多个未见类别对应的多个相容性得分。
52.本步骤中,在得到所述加权全局特征和各个未见类别的语义嵌入向量后,通过所述第二神经网络层计算所述加权全局特征与每个未见类别的语义嵌入向量的相容性得分,从而得到与所述多个未见类别对应的多个相容性得分。
53.在一些实施例中,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,具体包括:
54.通过所述第二神经网络层,将所述语义嵌入向量的类别元素映射为相容性类别元素,所述相容性类别元素的数量与所述加权全局特征的特征元素的数量相同;
55.将所有所述相容性类别元素与所述特征元素作为一个元素整体,基于所述预设相
容性函数,计算该元素整体的线性组合,以得到所述加权全局特征与该未见类别的语义嵌入向量的相容性得分。
56.具体的,通过所述第二神经网络层,根据所述加权全局特征的特征元素的数量确定所述相容性类别元素的数量,即二者相同,然后将语义嵌入向量的类别元素映射为相容性类别元素,这样保证加权全局特征的特征元素的数量与映射后的语义嵌入向量的类别元素的数量相同,然后将所有所述相容性类别元素与所述特征元素作为一个元素整体,基于所述预设相容性函数,计算该元素整体的线性组合,以得到所述加权全局特征与该未见类别的语义嵌入向量的相容性得分。
57.可选的,计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,通过下列公式实现:
58.f(x,y;w)=w1x1+w2y1+w3x2+w4y2+

+w
m
x
n
+w
m+1
y
n

59.其中,f(x,y;w)表示预设相容性函数,x表示加权全局特征,x1、x2、

x
n
表示加权全局特征的特征元素,y表示语义嵌入向量,y1、y2、

y
n
表示语义嵌入向量的相容性类别元素。w表示预设相容性函数的参数,w1、w2、

w
m+1
表示与各个元素对应的预设相容性函数的参数。可选的,可以通过训练来获得预设相容性函数,并对各个预设相容性函数的参数进行修订。
60.可选的,可以通过如下公式替换上述公式:
61.f(x,y;w)=w1(x1+y1)+w2(x2+y2)+

+w
n
(x
n
+y
n
);
62.其中,各个字母的含义与上述相同字母的含义一致,在此不再赘述。
63.s108,确定所述多个相容性得分中的最大值作为最高相容性得分,并输出与所述最高相容性得分对应的所述未见类别作为对所述输入图像的类别预测结果。
64.本步骤中,在得到分别与所述多个未见类别对应的多个相容性得分后,从中所述多个相容性得分中选出最大值作为最高相容性得分,并输出与所述最高相容性得分对应的所述未见类别作为对所述输入图像的类别预测结果。该相容性得分表示输入图像的加权全局特征与各个未见类别的语义嵌入向量的距离。
65.在神经网络模型训练过程中,图像通过神经网络模型计算后会输出一个维数与类别数相同的向量z,用来表示对各类预测打分,例如z
i
表示该图像属于类别i的预测打分。预测打分通常用softmax归一化得到该图像的预测概率,用q表示,q满足概率分布的基本条件,但是在分类问题中,类别标签是一个整数,为了利用标签和模型输出的预测概率计算模型损失,需要构建图像类别的真实概率分布。现有技术中通过以下公式构建类别的真实概率分布:
[0066][0067]
其中,y表示图像的真实类别标签。这种方法的采用了孤立的视角来看待每个类别的分类,忽略了类别之间的相关关系,它只关注最大化标记类别,却把所有其他类别都一视同仁,增大了模型过拟合的风险。因此,本公开采用平滑标签来构建图像类别标签的真实概率分布,可选的,具体通过以下公式构建类别的真实概率分布:
[0068][0069]
其中,ε是一个很小的常量,n为类别的种类。在通过平滑标签来构建图像类别标签
的真实概率分布后,本公开采用最小化交叉熵损失来更新所述零样本学习分类模型的参数,以使预测概率分布接近于所述真实概率分布。
[0070]
在一些实施例中,为了进一步提高分类的准确性,可以在通过所述基准神经网络层提取输入图像的全局特征之前,对所述待分类图像进行数据增广,所述数据增广包括图像尺度归一化、图像随机裁剪、图像数值归一化、图像翻转、图像缩放、图像旋转、图像倾斜中的一种或多种。可选的,在对待处理图像进行数据增广后,将多个增广后的图像分别采用本公开的方法进行分类,然后综合所有分类结果确定待分类图像的类别。
[0071]
参考图2,为本公开实施例的一种零样本分类模型的框架结构示意图,其中,矩形框表示数据变换,圆角矩形框表示输入图像和中间数据,该分类模型有上下两条数据流转分支,在下面的分支中,输入图像经过数据增广和变换处理后,输入到零样本分类模型的基准神经网络层中进行特征提取,在得到基准神经网络层输出的全局特征后,在全局特征上进行了局部注意力的学习,并通过学习到的注意力权重对全局特征进行加权处理。在进行注意力权重学习时,通过自适应阈值来对权重进行了调节。局部注意力学习的目的是发现图像中具有判别性的局部区域,因此,注意力学习的过程可以看做是从全局特征中挑选具有判别区域的局部目标的过程,通过注意力加权的特征可以看做是图像全部的局部特征。在上面的分支中,输入未见类别的属性向量或者类别词嵌入向量,通过一组线性变换后映射到图像的图像特征空间,即输入全连接层,得到类别的语义嵌入向量。最后通过计算图像的加权全局特征与语义嵌入向量的相容性得分,完成图像类别的估计。
[0072]
本公开提供的零样本图像分类方法,通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;通过所述基准神经网络层提取输入图像的全局特征;通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码;对于所述多个特征掩码中的每个特征掩码,确定该特征掩码的各个元素值中的最大值作为该特征掩码的最大掩码值,以得到分别与所述多个特征掩码对应的多个最大掩码值;基于所述多个最大掩码值中的最大值和预设的自适应因子,计算自适应阈值;基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征;对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,以得到分别与所述多个未见类别对应的多个相容性得分;确定所述多个相容性得分中的最大值作为最高相容性得分,并输出与所述最高相容性得分对应的所述未见类别作为对所述输入图像的类别预测结果。从而通过阈值自适应的注意力机制,抑制冗余特征的同时提高了特征的鲁棒性,同时,本公开还采用平滑类别标签的方式构造真实样本的概率分布,在传递损失的过程中,允许模型学习和利用不同类别之间的相互关系,提高了模型的识别精度。
[0073]
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0074]
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定
memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0091]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0092]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0093]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0094]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0095]
上述实施例的电子设备用于实现前述任一实施例中相应的零样本图像分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0096]
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的零样本图像分类方法。
[0097]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0098]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的零样本图像分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0099]
需要说明的是,本公开的实施例还可以以下方式进一步描述:
[0100]
一种零样本图像分类方法,通过预先训练好的零样本分类模型执行,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,所述方法包括:
[0101]
通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;
[0102]
通过所述基准神经网络层提取输入图像的全局特征;
[0103]
通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码;
[0104]
对于所述多个特征掩码中的每个特征掩码,确定该特征掩码的各个元素值中的最大值作为该特征掩码的最大掩码值,以得到分别与所述多个特征掩码对应的多个最大掩码值;
[0105]
基于所述多个最大掩码值中的最大值和预设的自适应因子,计算自适应阈值;
[0106]
基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征;
[0107]
对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,以得到分别与所述多个未见类别对应的多个相容性得分;
[0108]
确定所述多个相容性得分中的最大值作为最高相容性得分,并输出与所述最高相容性得分对应的所述未见类别作为对所述输入图像的类别预测结果。
[0109]
可选的,基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征,具体包括:
[0110]
通过下列操作对所述多个特征掩码进行自适应阈值处理:对于所述多个特征掩码中的每个特征掩码,响应于确定该特征掩码的最大掩码值小于所述自适应阈值,将该特征掩码的每个元素值重置为零;
[0111]
以经过自适应阈值处理后的所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
[0112]
可选的,基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征,具体包括:
[0113]
通过下列操作对所述多个特征掩码进行自适应阈值处理:对于所述多个特征掩码中的每个特征掩码,响应于确定该特征掩码的最大掩码值小于所述自适应阈值,将该特征掩码的每个元素值进行平方处理;
[0114]
以经过自适应阈值处理后的所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
[0115]
可选的,基于所述自适应阈值与所述多个特征掩码得到所述输入图像的加权全局特征,具体包括:
[0116]
通过下列操作对所述多个特征掩码进行自适应阈值处理:对于所述多个特征掩码中的每个特征掩码,响应于确定该特征掩码的最大掩码值小于所述自适应阈值,将该特征掩码的每个元素值与自衰减权值相乘,所述自衰减权值为预设权值因子与所述多个特征掩码的数量的比值;
[0117]
以经过自适应阈值处理后的所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
[0118]
可选的,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,具体包括:
[0119]
通过所述第二神经网络层,将所述语义嵌入向量的类别元素映射为相容性类别元素,所述相容性类别元素的数量与所述加权全局特征的特征元素的数量相同;
[0120]
将所有所述相容性类别元素与所述特征元素作为一个元素整体,基于所述预设相容性函数,计算该元素整体的线性组合,以得到所述加权全局特征与该未见类别的语义嵌入向量的相容性得分。
[0121]
可选的,在进行所述零样本分类模型训练时,基于平滑标签来构建图像类别标签的真实概率分布,并采用最小化交叉熵损失来更新所述零样本分类模型的参数,以使预测概率分布接近于所述真实概率分布。
[0122]
可选的,在通过所述基准神经网络层提取输入图像的全局特征之前,所述方法还包括:
[0123]
对所述待分类图像进行数据增广,所述数据增广包括图像尺度归一化、图像随机裁剪、图像数值归一化、图像翻转、图像缩放、图像旋转、图像倾斜中的一种或多种。
[0124]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0125]
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0126]
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0127]
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1