基于弱监督学习的细粒度图像识别方法、装置及可读介质

文档序号：30089962发布日期：2022-05-18 08:30阅读：103来源：国知局

1.本发明涉及深度学习与计算机视觉领域，具体涉及一种基于弱监督学习的细粒度图像识别方法、装置及可读介质。

背景技术：

2.细粒度图像的分类目的在于区分具有细微视觉差异的从属类别，比传统粗粒度图像分类更加具有挑战性。一方面是图像之间的特征差异较小，因此导致判别性的特征更加细微。另一方面是训练数据集有限且图像中存在很多不确定的因素，如光照差异、背景干扰等。细粒度图像分类的关键是获取最显著性的局部差异特征。依据神经网络在训练过程中对训练数据中的监督信息需求的不同，基于细粒度图像分类的研究算法主要分为两大类，一类是基于弱监督的算法，另一类是基于强监督的算法。基于强监督的细粒度分类算法主要做法是除了给出图像的类别标签外，还需以来更多的人工标注信息(如物体标注框和部位标注点等)进行分类的方法。弱监督学习的目标是仅仅依靠类别标签实现细粒度分类任务。目前实现细粒度图像分类大多采用强监督方式，即除类别标签外，还需额外精细标注工作的数据集，消耗大量人力物力，导致严重制约了算法在实际场景中的应用。因此如何设计不需要额外人工标注的弱监督细粒度图像识别算法具有较高的研究意义。
3.在过去，准确的细分类问题需要对应领域专家的专业知识进行判别，导致成本显著增加。例如在农业病虫害识别领域，不同病斑之间的特征十分相近，且不同程度的病害叶片特征差异更是难以区分，非专业人员，肉眼难以辨别；通过深度学习模型，采用弱监督学习的方法，通过聚焦局部关键区域的细微特征的检测，提升分类的准确率；在工业领域，如对一些精密元器件的缺陷检测，常常需要借助显微镜及专业人员进行鉴别，采用弱监督学习方法，实现在无复杂的标注数据集下完成细微缺陷的检测。

技术实现要素：

4.针对上述提到的技术问题。本技术的实施例的目的在于提出了一种基于弱监督学习的细粒度图像识别方法、装置及可读介质，来解决以上背景技术部分提到的技术问题。
5.第一方面，本技术的实施例提供了一种基于弱监督学习的细粒度图像识别方法，包括以下步骤：
6.构建基于注意力机制的vgg_resception模型并经过两步迁移学习训练，得到经训练的基于注意力机制的vgg_resception模型，基于注意力机制的vgg_resception模型包括预训练的vgg16模型、resception部分和注意力机制部分，resception部分包括第四批归一化层、多个resception模块、第三卷积层和第三批归一化层，resception模块包括基于残差连接的第一卷积层、第一批归一化层、inception-a单元、第二卷积层和第二批归一化层，注意力机制部分包括注意力机制模块、全局平均池化层、全连接层和softmax层，两步迁移学习训练过程中包括在源域和过渡域之间的迁移学习以及过渡域与目标域之间的迁移学习，其中过渡域为粗粒度图像数据集；
7.获取植物叶片病害程度细粒度图像，并输入经训练的基于注意力机制的vgg_resception模型，输出分类结果。
8.在一些实施例中，植物叶片病害程度细粒度图像经过预训练的vgg16模型和resception部分的多次特征提取与特征融合，得到特征融合数据；并将特征融合数据输入到注意力机制部分提取细粒度特征并进行分类。
9.在一些实施例中，注意力机制模块为senet网络，senet网络中引入类残差结构，包括依次连接的全局平均池化、两个全连接层和sigmoid层，将特征融合数据输入到senet网络中，获取特征图各通道件的全局特征，并激励全局特征，通过得到不同通道的权值，学习到各通道之间的关系，最后乘以原始特征映射得到细粒度特征。
10.在一些实施例中，resception部分包括第一resception模块、第二resception模块和第三resception模块，第一批归一化层的输出结果输入第一resception模块，将第一批归一化层的输出结果结合第一resception模块的输出进行特征融合后，得到第一特征融合数据，将第一特征融合数据输入第二resception模块，将第一特征融合数据与第二resception模块的输出进行特征融合后，得到第二特征融合数据，将第二特征融合数据输入第三resception模块，将第二特征融合数据与第三resception模块的输出进行特征融合后，得到第三特征融合数据，第三特征融合数据经过第二卷积层和第二批归一化层后得到第四特征融合数据，将第一批归一化层的输出结果与第四特征融合数据进行特征融合，得到第五特征融合数据。
11.在一些实施例中，inception-a单元包括多个卷积核大小为1*1的卷积层、卷积核大小为3*3的卷积层和一个均值池化核大小为1*1的均值池化层构成的瓶颈结构网络。
12.在一些实施例中，两步迁移学习训练过程中在源域和过渡域之间的迁移学习具体包括：
13.采用源域对vgg16模型进行预训练实现卷积层参数迁移，得到预训练的vgg16模型；
14.将预训练的vgg16模型的权重和参数固定，以预训练的vgg16模型作为特征提取器，通过过渡域实现基于注意力机制的vgg_resception模型的网络参数的初始化，得到初始化后的基于注意力机制的vgg_resception模型。
15.在一些实施例中，两步迁移学习训练过程中在过渡域与目标域之间的迁移学习具体包括：
16.基于过渡域与目标域对初始化后的基于注意力机制的vgg_resception模型进行微调，实现过渡域与目标域之间的特征迁移，得到经训练的基于注意力机制的vgg_resception模型。
17.第二方面，本技术的实施例提供了一种基于弱监督学习的细粒度图像识别方法，包括：
18.模型构建训练模块，被配置为构建基于注意力机制的vgg_resception模型并经过两步迁移学习训练，得到经训练的基于注意力机制的vgg_resception模型，基于注意力机制的vgg_resception模型包括预训练的vgg16模型、resception部分和注意力机制部分，resception部分包括第四批归一化层、多个resception模块、第三卷积层和第三批归一化层，resception模块包括基于残差连接的第一卷积层、第一批归一化层、inception-a单元、
第二卷积层和第二批归一化层，注意力机制部分包括注意力机制模块、全局平均池化层、全连接层和softmax层，两步迁移学习训练过程中包括在源域和过渡域之间的迁移学习以及过渡域与目标域之间的迁移学习，其中过渡域为粗粒度图像数据集；
19.结果输出模块，被配置为获取植物叶片病害程度细粒度图像，并输入经训练的基于注意力机制的vgg_resception模型，输出分类结果。
20.第三方面，本技术的实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
21.第四方面，本技术的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
22.相比于现有技术，本发明具有以下有益效果：
23.(1)本发明仅仅通过粗粒度标签，便可实现细粒度图像的分类。
24.(2)本发明与传统的迁移学习方式相比在识别准确率和模型运行的稳定性上都有很大的提升，准确率也得到很大的提高。
25.(3)本发明通过两步迁移学习训练方法，降低模型在训练过程中过拟合以及“负迁移”的问题，并且基于senet网络注意力机制的可视化区域定位更加准确。
附图说明
26.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1是本技术的一个实施例可以应用于其中的示例性装置架构图；
28.图2为本发明的实施例的基于弱监督学习的细粒度图像识别方法的流程示意图；
29.图3为本发明的实施例的基于弱监督学习的细粒度图像识别方法的基于注意力机制的vgg_resception模型的示意图；
30.图4为本发明的实施例的基于弱监督学习的细粒度图像识别方法的vgg16模型的预训练过程示意图；
31.图5为本发明的实施例的基于弱监督学习的细粒度图像识别方法的inception-a模块示意图；
32.图6为本发明的实施例的基于弱监督学习的细粒度图像识别方法的瓶颈结构示意图；
33.图7为本发明的实施例的基于弱监督学习的细粒度图像识别方法的resception模块示意图；
34.图8为本发明的实施例的基于弱监督学习的细粒度图像识别方法的加入融合特征的senet网络结构图；
35.图9为本发明的实施例的基于弱监督学习的细粒度图像识别方法的两步迁移学习训练的示意图；
36.图10为本发明的实施例的基于弱监督学习的细粒度图像识别装置的示意图；
37.图11是适于用来实现本技术实施例的电子设备的计算机装置的结构示意图。
具体实施方式
38.为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
39.图1示出了可以应用本技术实施例的基于弱监督学习的细粒度图像识别方法或基于弱监督学习的细粒度图像识别装置的示例性装置架构100。
40.如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
41.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。
42.终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
43.服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。
44.需要说明的是，本技术实施例所提供的基于弱监督学习的细粒度图像识别方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，基于弱监督学习的细粒度图像识别装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。
45.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。
46.图2示出了本技术的实施例提供的一种基于弱监督学习的细粒度图像识别方法，包括以下步骤：
47.s1，构建基于注意力机制的vgg_resception模型并经过两步迁移学习训练，得到经训练的基于注意力机制的vgg_resception模型，基于注意力机制的vgg_resception模型包括预训练的vgg16模型、resception部分和注意力机制部分，resception部分包括第四批归一化层、多个resception模块、第三卷积层和第三批归一化层，resception模块包括基于残差连接的第一卷积层、第一批归一化层、inception-a单元、第二卷积层和第二批归一化层，注意力机制部分包括注意力机制模块、全局平均池化层、全连接层和softmax层，两步迁移学习训练过程中包括在源域和过渡域之间的迁移学习以及过渡域与目标域之间的迁移学习，其中过渡域为粗粒度图像数据集。
48.在具体的实施例中，为了能够在网络模型中抓取图片中有价值的信息，本发明提出了一种基于注意力机制的vgg_resception模型，该模型由三部分组成。第一部分是预训练的vgg16模型，作为基础的特征提取器。第二部分是resception部分，借鉴残差网络(resnet)和inception模组的优秀结构特点，提取高维特征，得到多尺度特征融合数据。第三部分是注意力机制部分，这里采用典型的通道级别注意力机制senet。通过这三部分构建出具有较强的抓取细粒度特征能力的网络结构。
49.具体地，下面将具体搭建基于注意力机制的vgg_resception模型的过程，其具体的模型结构如图3所示。首先，采用动态微调方法得到的预训练的vgg16模型。预训练的vgg16模型的动态微调过程如图4所示，首先冻结vgg16模型的卷积层，对全连接层网络结构进行调整，并对参数进行微调，微调前期待模型平稳不再下降时，放开高层卷积层参数，对高层卷积层和全连接层进行微调。在预训练过程中，卷积神经网络具有正向传播和反向调参的过程。当在整个神经网络的训练过程中网络结构的代价函数处于极小值时，随机初始化的网络参数调整完毕，得到预训练好的神经网络模型。在具体针对vgg16网络模型预训练的过程中，假设源域中包含有m个训练样本，单个输入样本为(x(i),y(i))，其中x(i)表示n维输入向量，y(i)表示样本的标签；用l表示vgg-16的第l层，那么该层的输入特征向量表示为x
(l-1)
，该层的输出特征向量表示为x
(l)
，以及该层所对应的权值w
(l)
和偏置值b
(l)
。则vgg16卷积网络进行前向传播可表示为：
50.x
(l)
＝f(w
(l)
x
(l-1)
+b
(l)
)；
51.该函数f()代表激活函数，在vgg16中使用的激活函数是relu函数。
52.网络模型的整体代价函数表示为：
[0053][0054]
其中，h
w,b
(x
(l)
)表示网络进行前向传播时的输出值，n
l
为网络的总层数，s
l
表示第l层神经网络的节点个数。
[0055]
批量梯度下降法用于调整参数以找到整体代价函数的最小值，更新后的参数表达式如下所示：
[0056][0057][0058]
α代表学习率，经过多次迭代和不断更新，当代价函数值最小时，对源域的预训练过程便完成。在本技术中，采用imagenet数据集作为源域，该数据集丰富，经过不断地迭代训练，其参数可以较好地提取图片的各种特征。因此，本技术将其预训练的模型参数迁移至目标域，实现模型的迁移。
[0059]
在预训练的vgg16模型后添加第四批归一化层，而后连接3个resception模块，其因具备resnet的残差结构和inception的并行结构，将能够更加细致地提取植物叶片病斑的特征，经过多次特征提取与特征融合后，将提取的特征输入senet网络结构。在本技术的实施例中，为了使senet网络能够与本发明提出的基于注意力机制的vgg_resception模型的整体结构相协调，本技术的实施例中输入senet的部分不再是利用预训练的inception结
构，转而利用将特征融合数据作为senet的数据输入。senet能够根据重要度去提高对网络有用的特征同时抑制用处较小的特征，实现对融合特征的重定向。而后，在senet后面添加全局平均池化。全局平均池化与全连接层一样，有着提取全局信息的作用，同时参数量和计算量大大降低，并且有着较好的可解释性，为后面添加类激活图有着巨大的帮助。
[0060]
在具体的实施例中，resception部分包含3个resception模块，下面对resception模块中的基本组件进行介绍。inception-v4是典型的多尺度卷积核神经网络，其由大量的多尺度卷积核模块构成，经过大量的网络参数调整，inception-v4是公认表现较好的googlenet卷积神经网络。因此，本技术借鉴其中的inception-a模块作为resception模块的多尺度卷积核构成。如图5所示，inception-a单元包括多个卷积核大小为1*1的卷积层、卷积核大小为3*3的卷积层和一个均值池化核大小为1*1的均值池化层构成的瓶颈结构网络，其主要包含1*1和3*3两种卷积核类型，其中，1*1卷积核用以构建瓶颈结构，用以降低计算成本。
[0061]
针对以上的残差结构和inception-a的结构特点，设计出了resception模块，通过多个resception模块串联，并通过resnet残差跳跃结构实现多个模块组的连接。首先介绍resception模块，该模块首先借鉴了googlenet提出的瓶颈结构。瓶颈结构的初衷是为了降低卷积层的计算量，即在计算比较大的卷积层之前，先用1
×
1的卷积来压缩卷积层输入特征图的通道数目，以减小计算量；在大卷积层完成计算之后，根据实际需要，会再利用1
×
1的卷积层将输出特征图的通道数复原，如下给出了瓶颈结构的示意图，如图6所示，其中c＞b。
[0062]
图7所展示的是resception模块的结构示意图。如图所示，首先，使用1*1的卷积层，主要目的是将预训练的vgg16模型的最后一层卷积层输出的特征图大小为512，为了使其输入的特征图的数量符合inception-a输入特征图的数量，因此将输入数据首先经过1*1的第一卷积层，并将其卷积核的数量设置为384个，这样能尽量避免对inception-a内部超参的修改。经过一层第一卷积层后，在其后添加了第一批归一化层，这是由于对于复杂机器学习系统，在训练过程中很容易造成内部协变量偏移现象。批归一化不仅能避免发生内部协变量偏移现象，而且神经网络在训练过程变得更加稳定，对初始值不那么敏感，并且可以采用较大的学习率来加速收敛。而后，连接的则是inception-a模块，由于inception结构具有不同尺寸的卷积核尺寸，能够在感知不同大小的叶片病斑上具有较好的效果。其后，再添加一层1*1的第二卷积层，为了能够恢复输入前特征图的数量，因此该层完成了特征图数量的恢复，将卷积核的数量设置为512，从而实现了模型主干的瓶颈结构。进一步地，受残差结构的启发，为避免在构造整体模型过程的“模型退化”以及模型过拟合的问题，在整个模型结构中加入了残差连接结构。以上操作便完成了一个resception模块的构造。
[0063]
在具体的实施例中，resception部分包括第一resception模块、第二resception模块和第三resception模块，第一批归一化层的输出结果输入第一resception模块，将第一批归一化层的输出结果结合第一resception模块的输出进行特征融合后，得到第一特征融合数据，将第一特征融合数据输入第二resception模块，将第一特征融合数据与第二resception模块的输出进行特征融合后，得到第二特征融合数据，将第二特征融合数据输入第三resception模块，将第二特征融合数据与第三resception模块的输出进行特征融合后，得到第三特征融合数据，第三特征融合数据经过第二卷积层和第二批归一化层后得到
第四特征融合数据，将第一批归一化层的输出结果与第四特征融合数据进行特征融合，得到第五特征融合数据。
[0064]
注意力机制的计算可以分为两步：第一步是在所有输入信息中计算注意力权重，第二步则是依据注意力权重对所有输入的特征信息加权，以选取输入的关键信息。首先设定注意力输入的特征信息表示为x，与当前任务相关的查询向量表示为q，则选择第i个输入特征信息的概率表示为i，score(x,q)表示注意力打分函数，计算过程如下式所示：
[0065][0066]
通过当前的任务和网络等因素做出选，实现对特征信息的筛选，该过程进而可以表示如下：
[0067][0068]
在具体的实施例中，注意力机制模块为senet网络，senet网络中引入类残差结构，包括依次连接的全局平均池化、两个全连接层和sigmoid层，将特征融合数据输入到senet网络中，获取特征图各通道件的全局特征，并激励全局特征，通过得到不同通道的权值，学习到各通道之间的关系，最后乘以原始特征映射得到细粒度特征。
[0069]
具体地，senet网络可以在通道级别上改善网络的性能。senet网络是一种典型的基于通道注意力机制模型，它从特征通道之间的关系出发，根据不同通道之间的重要程度来改善神经网络的特征提取能力。senet网络的主要的工作机制是对卷积层的各个特征图完成压缩操作，将特征图的长、宽和通道数[h，w，c]压缩为大小为[1，1，c]的特征，从而获取该特征图所有通道的全局特征，然后激励全局特征(excitation)，通过得到不同通道的权值，学习到各通道之间的关系，最后乘以原始特征映射得到最终的特征。
[0070]
由于细粒度图像存在非常相似的特征，因此希望通过注意力机制获取更加细致的图片特征，进而采用senet网络作为神经网络的注意力机制模块，将预训练网络vgg16所提取的特征输入senet网络，获取特征图各通道间的全局特征，进而提高细粒度的识别准确率。为得到适用于本神经网络结构，对senet模型进行改造，将原始的inception模块替换成预训练网络所提取的特征向量作为神经网络的特征输入。新构建的senet网络的结构图如图8所示。senet网络引入类残差结构，通过引入全局平均池化，起到提取特征的全局信息并降低神经网络的参数量和计算量的作用，而后加入两个全连接层(fc)，用于限制模型复杂度、辅助增加模型的泛化能力。
[0071]
本实验案例以柑橘黄龙病细粒度图像分类为例。整体数据集包括柑橘健康、柑橘黄龙病一般、柑橘黄龙病严重三类。整体数据集的特征差异较小，属于细粒度图像分类的范畴，并且其特征与imagenet数据集上的空间特征差异分布较大，虽然迁移学习能够避免深度学习因大量参数训练而导致的过拟合问题，但是迁移学习是将源域中训练好的参数迁移到目标域的过程，若源域数据与目标域数据分布差异过大，在训练过程中会造成负迁移问题。此外，基于注意力机制的vgg_resception模型整体的网络结构十分复杂，含有大量未训练参数，直接应用可能会造成模型在训练过程中的过拟合问题。
[0072]
为了避免在迁移学习中可能过拟合现象和负迁移问题，采用两步迁移学习方法。
两步迁移学习方法，顾名思义，涉及到两步迁移学习操作，并且引入了“过渡域”的概念。
[0073]
过渡域来自于plantvillage植物叶片病斑数据集，该数据集包含多种植物叶片病斑图片，不过这些图片都是粗粒度图片，即仅仅提供了每类作物病害的大类，并没有具体到某种病害的程度的分类。但是这些作物的叶片及病害特征表现形式与本技术研究的某一种特定的植物叶片病害细粒度图片特征相似，将其作为过渡域进行训练，能降低模型在实际训练过程中“负迁移”的风险。此外，由于该数据集数量丰富，能够对随机初始化的模型参数在训练过程中降低过拟合的风险。
[0074]
为训练方便，在构建过渡域的过程中，将相关病斑合成一个大类，即将每一类作物的叶片看成是一个大类，而对某类作物的叶片病斑图片进行合并产生一种大类类别；plantvliiage数据集中含有多种作物类别，本技术的实施例对其中含有病斑种类较多、数量较多的作为种类进行选取，最终选择了其中8种作物构成数据集，包括苹果、樱桃、玉米、葡萄、桃子、辣椒、马铃薯、番茄，每一类农作物随机选择其中的600张作为训练集，其中的200张作为验证集并选择200张作为测试集。
[0075]
在具体的实施例中，两步迁移学习训练过程中在源域和过渡域之间的迁移学习以及过渡域与目标域之间的迁移学习具体包括：
[0076]
采用源域对vgg16模型进行预训练实现卷积层参数迁移，得到预训练的vgg16模型；
[0077]
将预训练的vgg16模型的权重和参数固定，以预训练的vgg16模型作为特征提取器，通过过渡域实现基于注意力机制的vgg_resception模型的网络参数的初始化，得到初始化后的基于注意力机制的vgg_resception模型；
[0078]
基于过渡域与目标域对初始化后的基于注意力机制的vgg_resception模型进行微调，实现过渡域与目标域之间的特征迁移，得到经训练的基于注意力机制的vgg_resception模型。
[0079]
具体地，第一步是在源域与过渡域之间进行迁移学习，虽然源域(imagenet数据集)由现实中的图片所组成，将源域(imagenet数据集)上完成预训练的vgg16模型的卷积层参数固定，考虑到预训练的vgg16模型已经在imagenet数据集中学习到很多图像低层次特征，所以在迁移学习训练前期只放开基于注意力机制的vgg_resception模型的resception部分和注意力机制部分，当模型损失平稳不再下降时，为了模型能学到高级语义特征，放开预训练的vgg16模型的block5_1以后的所有层以及基于注意力机制的vgg_resception模型的resception部分和注意力机制部分的参数，固定训练600轮，让模型形成多层次的特征提取器。为提高模型的可解释性，采用类激活图(class activation mapping，cam)的方法，定位出模型所识别的橘子叶片病斑的显著性区域。
[0080]
第二步是在过渡域与目标域之间进行迁移学习，将基于注意力机制的vgg_resception模型的resception部分和注意力机制部分的参数放开，固定训练200轮，让模型特征提取部分能够学习到目标数据集的数据特征。具体的两步迁移示意图如图9所示。
[0081]
s2，获取植物叶片病害程度细粒度图像，并输入经训练的基于注意力机制的vgg_resception模型，输出分类结果。
[0082]
在具体的实施例中，植物叶片病害程度细粒度图像经过预训练的vgg16模型和resception部分的多次特征提取与特征融合，得到特征融合数据；并将特征融合数据输入
到注意力机制部分提取细粒度特征并进行分类。
[0083]
进一步参考图10，作为对上述各图所示方法的实现，本技术提供了一种基于弱监督学习的细粒度图像识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0084]
本技术实施例提供了一种基于弱监督学习的细粒度图像识别方法，包括：
[0085]
模型构建训练模块1，被配置为构建基于注意力机制的vgg_resception模型并经过两步迁移学习训练，得到经训练的基于注意力机制的vgg_resception模型，所述基于注意力机制的vgg_resception模型包括预训练的vgg16模型、resception部分和注意力机制部分，所述resception部分包括第四批归一化层、多个resception模块、第三卷积层和第三批归一化层，所述resception模块包括基于残差连接的第一卷积层、第一批归一化层、inception-a单元、第二卷积层和第二批归一化层，所述注意力机制部分包括注意力机制模块、全局平均池化层、全连接层和softmax层，所述两步迁移学习训练过程中包括在源域和过渡域之间的迁移学习以及过渡域与目标域之间的迁移学习，其中所述过渡域为粗粒度图像数据集；
[0086]
结果输出模块2，被配置为获取植物叶片病害程度细粒度图像，并输入所述经训练的基于注意力机制的vgg_resception模型，输出分类结果。
[0087]
下面参考图11，其示出了适于用来实现本技术实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置1100的结构示意图。图11示出的电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0088]
如图11所示，计算机装置1100包括中央处理单元(cpu)1101和图形处理器(gpu)1102，其可以根据存储在只读存储器(rom)1103中的程序或者从存储部分1109加载到随机访问存储器(ram)1104中的程序而执行各种适当的动作和处理。在ram 1104中，还存储有装置1100操作所需的各种程序和数据。cpu 1101、gpu1102、rom 1103以及ram 1104通过总线1105彼此相连。输入/输出(i/o)接口1106也连接至总线1105。
[0089]
以下部件连接至i/o接口1106：包括键盘、鼠标等的输入部分1107；包括诸如、液晶显示器(lcd)等以及扬声器等的输出部分1108；包括硬盘等的存储部分1109；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1110。通信部分1110经由诸如因特网的网络执行通信处理。驱动器1111也可以根据需要连接至i/o接口1106。可拆卸介质1112，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1111上，以便于从其上读出的计算机程序根据需要被安装入存储部分1109。
[0090]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1110从网络上被下载和安装，和/或从可拆卸介质1112被安装。在该计算机程序被中央处理单元(cpu)1101和图形处理器(gpu)1102执行时，执行本技术的方法中限定的上述功能。
[0091]
需要说明的是，本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读
介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0092]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0093]
附图中的流程图和框图，图示了按照本技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0094]
描述于本技术实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
[0095]
作为另一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：构建基于注意力机制的vgg_resception模型并经过两步迁移学习训练，得到经训练的基于注意力机制的vgg_resception模型，基于注意力机制的vgg_resception模型包括预训练的vgg16模型、resception部分和注意力机制部分，resception部分包括第四批归一化层、多个resception模块、第三卷积层和第三批归一化层，resception模块包括基于残差连接的第一卷积层、第一批归一化层、inception-a单元、第二卷积层和第二批归一化层，注意力机制部分包括注意力机制模块、全局平均池化层、全连
接层和softmax层，两步迁移学习训练过程中包括在源域和过渡域之间的迁移学习以及过渡域与目标域之间的迁移学习，其中过渡域为粗粒度图像数据集；获取植物叶片病害程度细粒度图像，并输入经训练的基于注意力机制的vgg_resception模型，输出分类结果。
[0096]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余洪山赖明明赵科
技术所有人：泉州湖南大学工业设计与机器智能创新研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。