一种基于深度特征映射的集成迁移学习方法和系统与流程

文档序号:31184120发布日期:2022-08-19 18:51阅读:92来源:国知局
一种基于深度特征映射的集成迁移学习方法和系统与流程

1.本发明涉及人工智能领域,尤其涉及迁移学习下的零样本学习领域。


背景技术:

2.传统目标识别任务通常要求测试类别在训练阶段有大量训练数据,并且这些方法将系统限制在一个封闭的类别集合中。然而在实际应用中,训练数据集中没有适用于测试集的样本,出现这种情况主要是由于两个原因,首先,现实世界中的样本通常遵循长尾分布,即大部分事物的数量是很少的,因此很难保证所有类别的存在,特别是那些稀有类别;其次,类别集合在不断增长,不可能使数据集保持最新状态。零样本学习(zero shot learning,zsl)技术的出现,则在一定程度上解决了标签缺失问题,其目的是对未见类的样本进行分类。
3.零样本学习作为一种特殊的迁移学习,已经在目标识别任务中得到普及应用。zsl的目标是将在已见类上训练的分类器应用到这些未见类上,因此zsl面临的关键挑战是如何对不同类别之间的相关性进行建模,以及如何将知识从已见类迁移到未见类。随着深度学习的不断发展,深度卷积神经网络(deep convolutional neural network,dcnn)成为了各种领域中的先进技术,深度特征也被广泛应用到zsl问题中。目前大部分的零样本学习方法的图像特征提取,都选择使用预训练后的深度卷积神经网络来处理,利用成熟的深度卷积神经网络技术,不仅深层次的特征提取工作效率得到了大幅提高,零样本学习模型的识别准确度也得到了显著提升。
4.近年来,关于zsl的问题引起了人们的广泛关注。特别地,基于映射的方法越来越受到关注,此类方法旨在学习一个映射函数,将图像样本从视觉空间映射到语义空间。然而,这些方法通常存在投影域偏移(domain shift)问题。zsl模型学习了对可见类数据的映射函数,然后利用映射函数将不可见类的样本从视觉空间投影到语义空间,理想的无偏映射函数应迫使可见类和不可见类的投影围绕它们的语义特征,但是,训练集类别和测试集类别在zsl任务中是不相交的,因此,对于训练集来说学习的映射函数是无偏的,但当它应用于测试集时,可能会从语义特征中产生某种派生,因此,投影域偏移问题是零样本学习的主要挑战。
5.因此,需要能够改进现有技术中的缺陷的方法。


技术实现要素:

6.提供本发明内容来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
7.现有零样本学习方法由于只有可见类的样本来参与训练,往往只有可见类关联较强的属性,使得模型在测试阶段不能很好地区分未见类的样本,带来域偏移问题。对此,本发明提出了一种基于深度特征映射的集成迁移学习方法,首先利用dcnn将样本视觉特征映
射到属性空间,同时建立属性空间与标签空间之间的联系,然后为平衡可见类和未见类之间属性关系,针对性地设计了一个属性平衡的正则化约束,为了进一步捕捉语义多变的信息特征,集成了多个结构不同、信息互补的深度模型来区分样本。
8.具体而言,在本发明的一个实施例中,提供了一种基于深度特征映射的集成迁移学习方法,所述方法包括:
9.(1)对训练图像进行预处理;
10.(2)使用经预处理的训练图像来预训练深度卷积神经网络dcnn;
11.(3)使用经预训练的dcnn来提取所述经预处理的训练图像的视觉特征并将所提取的视觉特征映射到语义空间;
12.(4)在所述经预训练的dcnn中建立所述语义空间到标签空间的映射;
13.(5)在所述经预训练的dcnn中增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练以得到基于所述经预训练的dcnn的分类器;
14.(6)对一个或多个其他dcnn重复步骤(2)-(5)以生成基于所述一个或多个其他dcnn的分类器;以及
15.(7)集成基于所述经预训练的dcnn以及所述一个或多个其他dcnn的分类器以得到最终分类器。
16.在本发明的一个实施例中,所述训练图像是rgb三通道彩色图像,并且所述预处理包括对所述训练图像进行对比度归一化以得到新的训练图像集。
17.在本发明的一个实施例中,所述dcnn是alexnet模型,并且所述其他dcnn是vgg16模型或googlenet模型。
18.在本发明的一个实施例中,所述预训练包括采用softmax函数和交叉熵损失函数来对所述dcnn进行训练,并且所述预训练进一步包括由imagenet上的预训练模型来进行初始化,输入训练集,通过微调技术再次训练所述dcnn并优化参数。
19.在本发明的一个实施例中,提取所述经预处理的训练图像的视觉特征包括去掉所述经预训练的dcnn的最后一个全连接层并输出高级图像特征。
20.在本发明的该实施例中,将所述视觉特征映射到所述语义空间包括:
21.在所述经预训练的dcnn中增加一个无偏置完全连接层;
22.将所述视觉特征作为所述无偏置完全连接层的输入并将属性特征作为输出以映射到属性语义空间;以及
23.通过随机初始化方法来训练出所述无偏置完全连接层的对应权重参数。
24.在本发明的该实施例中,建立所述语义空间到所述标签空间的映射包括:
25.在所述无偏置完全连接层后增加类别语义迁移层;
26.将所述类别语义迁移层的权重设为全体类别的属性矩阵;以及
27.将所述属性矩阵与所述经预处理的训练图像在各属性上的得分向量相乘以建立与所述标签空间的联系。
28.在本发明的一个实施例中,在所述经预训练的dcnn中增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练包括:
29.为所述经预处理的训练图像计算总损失函数;
30.反向计算梯度;以及
31.进行一步更新操作。
32.在本发明的一个实施例中,所述dcnn和所述其他dcnn在可见类上同时被执行步骤(2)-(5)以得到多个分类器,并且集成基于所述经预训练的dcnn以及所述一个或多个其他dcnn的分类器包括通过相加求均值来集成所述多个分类器以得出最终分类概率。
33.在本发明的另一个实施例中,提供了一种基于深度特征映射的集成迁移学习系统,所述系统包括:
34.图像预处理模块,其被配置成对训练图像进行预处理;
35.基于不同的深度卷积神经网络dcnn的多个图像分类模块,其被配置成对经预处理的训练图像进行特征提取以得到各自的分类器,所述多个图像分类模块各自包括:
36.dcnn预训练组件,其被配置成使用所述经预处理的训练图像来预训练dcnn;
37.视觉特征提取组件,其被配置成使用经预训练的dcnn来提取所述经预处理的训练图像的视觉特征;以及
38.语义学习组件,其被配置成:
39.将所提取的视觉特征映射到语义空间;
40.建立所述语义空间到标签空间的映射;以及
41.增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练;以及
42.分类集成模块,其被配置成集成来自所述多个图像分类模块的分类器以得到最终分类器。
43.在本发明的又一个实施例中,提供了一种存储计算机可执行指令的计算机可读介质,这些指令包括:
44.(1)用于对训练图像进行预处理的指令;
45.(2)用于使用经预处理的训练图像来预训练深度卷积神经网络dcnn的指令;
46.(3)用于使用经预训练的dcnn来提取所述经预处理的训练图像的视觉特征并将所提取的视觉特征映射到语义空间的指令;
47.(4)用于在所述经预训练的dcnn中建立所述语义空间到标签空间的映射的指令;
48.(5)用于在所述经预训练的dcnn中增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练以得到基于所述经预训练的dcnn的分类器的指令;
49.(6)用于对一个或多个其他dcnn重复步骤(2)-(5)以生成基于所述一个或多个其他dcnn的分类器的指令;以及
50.(7)用于集成基于所述经预训练的dcnn以及所述一个或多个其他dcnn的分类器以得到最终分类器的指令。
51.在结合附图研读了下文对本发明的具体示例性实施例的描述之后,本发明的其他方面、特征和实施例对于本领域普通技术人员将是明显的。尽管本发明的特征在以下可能是针对某些实施例和附图来讨论的,但本发明的全部实施例可包括本文所讨论的有利特征中的一个或多个。换言之,尽管可能讨论了一个或多个实施例具有某些有利特征,但也可以根据本文讨论的本发明的各种实施例使用此类特征中的一个或多个特征。以类似方式,尽管示例性实施例在下文可能是作为设备、系统或方法实施例进行讨论的,但是应当领会,此类示例性实施例可以在各种设备、系统、和方法中实现。
附图说明
52.为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中阐示。然而应该注意,附图仅阐示了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。
53.图1是根据本公开的一个实施例的基于深度特征映射的集成迁移学习系统的系统架构的示意图。
54.图2示出了根据本公开的一个实施例的语义学习组件的示意性框图。
55.图3示出了根据本公开的一个实施例的单一模型训练框架的示意图。
56.图4示出了根据本公开的一个实施例的基于深度特征映射的集成迁移学习方法的流程图。
具体实施方式
57.以下将参考形成本发明一部分并示出各具体示例性实施例的附图更详尽地描述各个实施例。然而,各实施例可以以许多不同的形式来实现,并且不应将其解释为限制此处所阐述的各实施例;相反地,提供这些实施例以使得本公开变得透彻和完整,并且将这些实施例的范围完全传达给本领域普通技术人员。各实施例可按照方法、系统或设备来实施。因此,这些实施例可采用硬件实现形式、全软件实现形式或者结合软件和硬件方面的实现形式。因此,以下具体实施方式并非是局限性的。
58.各流程图中的步骤可通过硬件(例如,处理器、引擎、存储器、电路)、软件(例如,操作系统、应用、驱动器、机器/处理器可执行指令)或其组合来执行。如本领域普通技术人员将理解的,各实施例中所涉及的方法可以包括比示出的更多或更少的步骤。
59.针对现有技术中的缺陷,本发明使用一种基于深度特征映射的集成网络模型来解决零样本学习问题。该集成网络模型利用多个深度卷积神经网络(dcnn)学习不同的分类函数,不同模型提取的特征增强了分类器的多样性,促进了信息向无标签类别的传递。在每个dcnn中,将视觉特征映射到语义空间,并建立语义空间与标签空间的联系、然后针对性地设计了一个属性平衡的正则化约束,用来平衡可见类与未见类关联的属性。
60.具体而言,在本发明中构建多个(作为示例而非限制,在本公开中可以是三个,但也可以是任何其他合适的数量)基于dcnn的零样本任务分类模型。首先对图像数据集进行预处理,分别输入到三个dcnn模型中进行特征提取,得到三个对应的分类概率向量。然后将这些分类概率向量进行集成,通过相加求均值的方法得出最终概率,进行类别预测。
61.在本发明的实施例中,可选取alexnet、vgg16以及googlenet三种模型。如本领域技术人员可以理解的,这仅仅作为示例而非限制,在其他实施例中也可以选取其他合适的模型。在本发明的实施例中,展示了将这三个dcnn模型进行集成用于零样本学习的框架。在进行集成之前,每个模型单独进行训练。首先进行预训练,随后经预训练的网络模型被用作通用图像特征的特征提取器,这被称为单一模型训练框架。将三种模型在可见类上同时进行相同的训练流程,得到三个分类器,然后通过特征级联的方式,将来自三个dcnn提取的特征连接起来以形成最终的集成分类器,以用于对未见类进行预测。
62.下文中将通过框图、数据流图以及方法流程图对本公开的各方面进行详细描述。
63.图1是根据本公开的一个实施例的基于深度特征映射的集成迁移学习系统的系统架构的示意图。
64.如图1所示,根据本公开的一个实施例的基于深度特征映射的集成迁移学习系统包括图像预处理模块102、三个基于dcnn的图像分类模块(各自包括dcnn预训练组件104、视觉特征提取组件106和语义学习组件108)、以及分类集成模块110。
65.图像预处理模块102被配置成对训练图像进行预处理。具体而言,给定一个图像训练集i={i
(1)


,i(i),

,i
(c)
},由n1个大小为iw×
ih的样本组成,每个训练样本为rgb三通道彩色图像。由于图像在特征提取的过程中容易受光照等变化因素的影响,因此在训练之前需要对图像做一些预处理。
66.为此,利用以下公式(1)对所有图像进行对比度归一化,得到新的图像训练集x={x1,

,xi,

,xc}。
[0067][0068]
其中,mean(i(i))是该图像训练集的均值,ε为归一化参数,它可以避免出现分母为0的情况。图像大小调整为224
×
224。
[0069]
在预训练模型时,随机打乱顺序,将样本(即,经预处理的训练图像)输入深度卷积神经网络dcnn。
[0070]
在完成训练图像的预处理后,经预处理的训练图像被传递至各个图像分类模块。首先通过各个图像分类模块中的dcnn预训练组件104来基于经预处理的训练图像对相应的dcnn进行预训练。
[0071]
具体而言,各个dcnn采用常见的softmax函数和交叉熵损失进行训练,其形式如下面公式(2)和(3)所示。其中zi表示样本属于类别i的得分,ai表示其属于类别i的概率,yi为one-hot编码的类别向量,k表示类别数目。
[0072][0073][0074]
在本发明的一个实施例中,举例而言,将网络alexnet初始化为imagenet上训练好的参数(由imagenet上的预训练模型初始化),在此基础上,输入训练集,通过微调技术再次训练网络,优化参数,得到微调后的alexnet。其他两个dcnn也可以采用相同或相似的手段来初始化和预训练。
[0075]
在完成预训练后,dcnn预训练组件104将经预训练的dcnn传递至视觉特征提取组件106。
[0076]
视觉特征提取组件106被配置成使用经预训练的dcnn来提取所述经预处理的训练图像的视觉特征。具体而言,视觉特征提取组件106去掉预训练模型的最后一个全连接层,即分类器层,如下所示将利用公式(4)输出高级图像特征。如本领域技术人员可以理解的,
在卷积神经网络中层析越深的卷积检测到的特征越高级。在分类过程中,第一层的kernel可以检测到物体的边、角,的二层的kernel可以检测到原型、正方形,
……
,最后一层可以检测到整个物体的形状。此阶段对应于图3中的“cnn”模块;
[0077]
θ(x)=g(x;w)
ꢀꢀꢀꢀꢀ
(4)
[0078]
其中w是需要学习的参数,g表示深度卷积神经网络的最后一个全连接层之前的子结构。
[0079]
随后,所得到的视觉特征被传递给语义学习组件108,其被配置成将所提取的视觉特征映射到语义空间,建立所述语义空间到标签空间的映射,以及增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练,以得到基于相应的dcnn的分类器(即,三个零样本训练模型)以供生成相应的分类概率向量。语义学习组件108的细节将参照图2和3更详细地描述。
[0080]
语义学习组件108基于视觉特征来生成相应的分类概率向量,这些分量该率向量随后被传递给分类集成模块110。
[0081]
分类集成模块110被配置成集成来自这三个图像分类模块的分类器以得到最终分类器。具体而言,在本发明的实施例中,在三个图像分类模块完成模型组合和训练后,分别得到三个零样本训练模型,每个模型最终都可以得到图像在每个类别上的概率。随后通过以下公式(5)集成三个网络模型得出的结果,通过相加求均值的方法得出最终概率,进行类别预测(尤其针对未见类)。
[0082][0083]
在测试阶段,通过语义空间和标签空间之间的关系,实现从可见样本标签的后验分布来推知未见样本标签的概率分布,测试流程如下:
[0084]
输入:测试样本集合t={x1,x2,

,x
t
},集成分类器f;
[0085]
步骤1:计算得到训练样本的特征与标签空间之间的关系;
[0086]
步骤2:通过分类函数进行类别预测;
[0087]
输出:测试样本集合中各样本的预测类别标签。
[0088]
图2示出了根据本公开的一个实施例的语义学习组件108的示意性框图。如图2所示,语义学习组件108包括语义空间映射子组件202、标签空间映射子组件204、以及反向传播训练子组件206。
[0089]
语义学习组件108在接收到来自视觉特征提取组件106的训练图像视觉特征后,首先通过语义空间映射子组件202来将所提取的视觉特征映射到语义空间。具体而言,得到视觉特征θ(x)之后,需进一步在网络中嵌入语义特征,从而建立视觉特征与语义特征之间的联系。在神经网络中,全连接层的核心操作就是矩阵向量乘积,它的本质就是由一个特征空间线性变换到另一个特征空间,通常出现在网络的最后几层。因此,可以利用全连接层的特征映射作用,在原模型中增加一层完全连接层,将视觉特征作为该层的输入,属性特征作为该层的输出,通过训练学习对应的参数。改变dcnn网络结构的具体方式如下:在倒数第二层增加一层新的完全连接层,将模型提取的视觉特征θ(x)映射到a维的属性空间,目的是将从视觉特征提取组件106得到的图像视觉特征映射到“属性”语义空间。这一层的输入为视觉
特征,输出为属性特征,两者都是已知的特征向量。还需要训练出该层对应的权重(采用随机初始化的方法)。此阶段对应于图3中的“无偏置全连接fc层”模块。假设包含m个样本的训练集{(x1,y1),(x2,y2),

,(xm,ym)},则如下式(6)所示,输入视觉特征θ(x)被映射为:
[0090]
x
t
=f(w
t
θ(x)+b)
ꢀꢀꢀ
(6)
[0091]
其中t指转置,即把m
×
n矩阵a的行换成同序数的列得到一个n
×
m矩阵。
[0092]
训练收敛后,这一层输出的a维向量可以看作是样本在每个属性上的得分。x
t
是图像在各属性上的得分向量。使用sigmoid作为激活函数f(
·
),将得分控制在0-1之间,其中w是可学习的映射矩阵,b为偏置向量,这里将b设为0。在zsl任务中,w由可见类数据{xs,ys}训练得到,然后在未见类数据{xu}上进行测试。
[0093]
随后,通过标签空间映射子组件204来在各个dcnn中建立语义空间到标签空间的映射。具体而言,dcnn应用于识别任务中,网络的最后一层为分类器层。而现有模型中嵌入了语义特征,此时需要建立语义空间与标签空间之间的联系。如果直接在语义特征的基础上训练分类器,带来了更多的参数量以及更长的训练时间。
[0094]
因此,考虑利用已知数值形成一个变换,通过该变换将语义特征转换为分类概率向量。在神经网络中,全连接层的一个重要作用是把隐藏空间变换到标签空间。为建立语义空间与标签空间之间的联系,为建立属性特征与标签之间的关系,在全连接fc层后增加类别语义迁移层,这一层可以看作是一个固定权重的无偏置全连接层,其权重设定为由可见类和未见类构成的全体类别的属性矩阵a。通过将属性矩阵a与x
t
(图像在各属性上的得分向量)相乘,巧妙的得到样本在各类别上的得分,由此建立了语义空间与标签空间之间的联系,避免了将属性空间映射到标签空间学习参数的过程。计算方式如下式(7)所不:
[0095]
y*=softmax(a
t
x
t
)
ꢀꢀꢀꢀꢀ
(7)
[0096]
图3所示的模型训练框架中也示出了如何建立语义空间与标签空间之间的联系。
[0097]
在完成语义空间与标签空间之间的映射后,通过反向传播训练子组件206来在各个分类器模型中增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练。具体而言,该子组件206是模型的损失函数部分。目前很多模型在目标函数的选择上都过于复杂,给映射空间限制了过多的约束,带来了较高的算法复杂度。因此在本发明中设计了简单可行的优化目标来缓解此类问题。
[0098]
由于类别语义迁移层相当于一个带softmax的全连接层,整个网络依旧属于卷积神经网络,而零样本学习属于分类任务,因此采用交叉熵损失函数,如下式(8)所示:
[0099]
q(y
*
,y
true
)=-y
true
·
log(y
*
)
ꢀꢀꢀꢀ
(8)
[0100]
其中y
true
是指样本的真实标签,y*是指样本的预测标签。
[0101]
由于只有可见类样本参与模型的训练,因此与可见类关联较强的属性就会有较多的正样本,随着训练进行,他们的关联性会不断加强,造成可见类关联较强的属性的连接权重被强化,而未见类侧重的属性连接权重被削弱,使得模型在测试阶段不能很好地区分未见类样本,为平衡可见类和未见类关联的属性,需要对这些关联的权重做一定的约束,即增加属性平衡的正则化约束。为经预处理的训练图像计算总损失函数l,按下式(9)将总损失函数l设定为:
[0102]
[0103]
其中w为全连接fc层的权重,λ是属性平衡正则化因子,as为可见类别属性矩阵,was的f范数用来约束可见类对应的权重,从而平衡可见类和未见类关联的属性。正则化项也用f范数来约束训练,该正则是为了缓解神经网络在训练学习过程中某些神经元不被激活停滞的问题,同时引入权重衰减因子β,提高模型的泛化能力。
[0104]
此外,反向传播训练子组件206反向计算梯度并进行一步更新操作。该一步更新操作是卷积神经网络独有的计算方式,有专门的计算公式,是由程序直接执行的,由于这是本领域内公知的,因此在此不再赘述。本发明不限于任何特定的一步更新计算公式,而是可使用任何合适的计算公式来执行一步更新操作。
[0105]
由此,得到基于相应dcnn的分类器以供分类集成模块110进行集成操作。
[0106]
图4示出了根据本公开的一个实施例的基于深度特征映射的集成迁移学习方法400的流程图。
[0107]
方法开始于步骤402,在402,对训练图像进行预处理。在本发明的一个实施例中,训练图像是rgb三通道彩色图像,并且所述预处理包括对所述训练图像进行对比度归一化以得到新的训练图像集。
[0108]
在步骤404,使用经预处理的训练图像来预训练深度卷积神经网络dcnn。在本发明的一个实施例中,所述dcnn是alexnet模型,并且所述其他dcnn是vgg16模型或googlenet模型。在本发明的一个实施例中,所述预训练包括采用softmax函数和交叉熵损失函数来对所述dcnn进行训练,并且所述预训练进一步包括由imagenet上的预训练模型来进行初始化,输入训练集,通过微调技术再次训练所述dcnn并优化参数。
[0109]
在步骤406,使用经预训练的dcnn来提取所述经预处理的训练图像的视觉特征并将所提取的视觉特征映射到语义空间。在本发明的一个实施例中,提取所述经预处理的训练图像的视觉特征包括去掉所述经预训练的dcnn的最后一个全连接层并输出高级图像特征。在本发明的该实施例中,将所述视觉特征映射到所述语义空间包括:在所述经预训练的dcnn中增加一个无偏置完全连接层;将所述视觉特征作为所述无偏置完全连接层的输入并将属性特征作为输出以映射到属性语义空间;以及通过随机初始化方法来训练出所述无偏置完全连接层的对应权重参数。
[0110]
在步骤408,在所述经预训练的dcnn中建立所述语义空间到标签空间的映射。在本发明的该实施例中,建立所述语义空间到所述标签空间的映射包括:在所述无偏置完全连接层后增加类别语义迁移层;将所述类别语义迁移层的权重设为全体类别的属性矩阵;以及将所述属性矩阵与所述经预处理的训练图像在各属性上的得分向量相乘以建立与所述标签空间的联系。
[0111]
在步骤410,在所述经预训练的dcnn中增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练以得到基于所述经预训练的dcnn的分类器。在本发明的一个实施例中,在所述经预训练的dcnn中增加属性平衡的正则化约束并对所述经预训练的dcnn进行反向传播训练包括:为所述经预处理的训练图像计算总损失函数;反向计算梯度;以及进行一步更新操作。
[0112]
在步骤412,对一个或多个其他dcnn重复步骤402-410以生成基于所述一个或多个
其他dcnn的分类器。在本发明的一个实施例中,所述dcnn和所述其他dcnn在可见类上同时被执行步骤402-410以得到多个分类器。
[0113]
在步骤414,集成基于所述经预训练的dcnn以及所述一个或多个其他dcnn的分类器以得到最终分类器。在本发明的一个实施例中,集成基于所述经预训练的dcnn以及所述一个或多个其他dcnn的分类器包括通过相加求均值来集成所述多个分类器以得出最终分类概率。
[0114]
本发明的实施例中的测试方法和实现环境
[0115]
随着零样本学习的发展,需要一个统一的评价指标以及标准的数据集划分方式应用于零样本任务中。xian等人分析并比较了众多研究人员提出的零样本学习方法,在此基础上通过统一评估协议和用于零样本任务的公开可用数据集的数据划分来定义新基准,从而使得各种零样本方法之间具有可比性。因此,本发明采用基于这种划分方式的标准数据集,包括awa、cub和sun三种,它们具有不同粒度、以及不同属性,都属于中型数据集。总样本数处于10000到50000之间,属于中型数据集。关于数据粒度,细化程度越高,粒度越小,细化程度越低,粒度越大。
[0116]
本发明的实验环境为windows10专业版,处理器2.5ghz intel i7 cpu,内存8gb,在pytorch框架下完成。对于输入图片,将其大小调整为224
×
224,并将其输入到alexnet、vgg16和googlenet三个模型,使用三个模型的最后一个池化层获取的向量作为图像的视觉特征,特征向量维数分别为4096、4096、1024,并且这三个模型都由imagenet上的预训练模型初始化。网络层权重的设置如下:训练阶段,对于全连接fc层,采用随机初始化的方法,对于语义迁移层,将权重设置为属性矩阵a;测试阶段,将语义迁移层的权重设为未见类别属性矩阵at。模型的训练过程主要分为以下两个阶段:
[0117]
(1)前10个epoch:冻结预训练模型的卷积层参数,采用adam优化法训练完全连接层;
[0118]
(2)全局训练:采用随机梯度下降法进行优化,将学习率设为0.001,每经过10个epoch下降一次,下降因子为0.1,mini-batch大小为32,这是一个重复训练的过程。为了防止过拟合并提高模型泛化能力,将属性平衡正则化因子λ设为0.1,权值衰减因子β设为0.005,且采取提前终止(early stopping)策略。
[0119]
本发明提出的集成模型在三个数据集上分别取得了75.47%、66.61%和58.1%的zsl准确率,这证明了使用深度卷积神经网络获取的特征更优于手工提取的特征,同时也说明通过集成学习可以将dcnn提取的特征很好地融合来得到最终的分类概率值。在准确率方面,本发明提出的算法在三个数据集上都能达到一个很高的zsl准确率,具有较好的识别能力。
[0120]
综上,本发明针对零样本学习的域偏移问题,提出了一种基于深度特征映射的集成网络用于零样本学习,通过将不同深度模型训练的分类器集成在一起,得到的深度集成网络可以通过属性与标签间的关系保持信息知识从可见类到不可见类的迁移。还利用深度卷积神经网络建立视觉特征与属性、属性与标签空间之间的联系,使用重新定义的损失函数逐步完善网络参数,训练过程可以缓解域偏差问题并避免过度拟合可见类别。
[0121]
以上参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的
次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的次序来执行。
[0122]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1