基于半监督学习训练中草药病虫害识别模型的方法与系统与流程

文档序号:24415050发布日期:2021-03-26 20:56阅读:224来源:国知局
基于半监督学习训练中草药病虫害识别模型的方法与系统与流程

1.本发明实施例涉及人工智能技术领域,尤其涉及一种基于半监督学习训练中草药病虫害识别模型的方法与系统。


背景技术:

2.目前,深度学习是大数据时代的算法利器,成为近几年的研究热点。和传统的人工智能算法相比,深度学习技术有着两方面的优势。一是深度学习技术可随着数据规模的增加不断提升其性能,而传统人工智能算法(包括基于规则的专家系统)难以利用海量数据持续提升其性能。二是深度学习技术可以从数据中直接提取特征,削减了对每一个问题设计特征提取器的工作,而传统人工智能算法需要人工提取特征,例如传统的医学专家系统就需要基于数据进行专家规则的提取。深度学习技术所具有的优势在某些领域已经取得不错的进展,例如,基于深度卷积网络的图像分类技术已超过人眼的准确率,基于深度神经网络的语音识别技术已达到95%的准确率,基于深度神经网络的机器翻译技术已接近人类的平均翻译水平。
3.在中草药病虫害图像数据标注方面,中草药病虫害图像数据标注工作耗时、人力成本投入量大、成本高;中草药病虫害图像数据标注需要经验丰富的中草药专家才能标注,标注难度大;少量标注数据无法满足识别精度要求。
4.由于以上问题,深度学习技术目前在中草药病虫害图像数据标注方面缺少成熟有效的系统,多源不规整的中草药病虫害图像数据标注也未获得有效利用。


技术实现要素:

5.有鉴于此,本发明实施例的目的是提供一种基于半监督学习训练中草药病虫害识别模型的方法与系统,提高中草药病虫害识别模型的训练的精确度,应用时得到更为准确的识别结果。
6.为实现上述目的,本发明实施例提供了一种基于半监督学习训练中草药病虫害识别模型的方法,包括:
7.获取标注图像数据集,所述标注图像数据集包括多个样本图像,其中,每个样本图像中具有与所述样本图像对应的样本病理类型标签;
8.基于所述标注图像数据集中的样本图像训练resnet50深度学习模型,得到第一标注模型;
9.获取未标注图像数据集,将所述未标注图像集中包含的多个未标注图像输入至所述第一标注模型中,得到各个未标注图像对应的病理类型以及所述病理类型对应的概率值;
10.将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集,基于所述新训练数据集训练所述第一标注模型对应的finetune模型,以得到中草药病虫害识别模型;
11.获取待标注的中草药图像,将所述待标注的中草药图像输入至所述中草药病虫害识别模型中,以得到所述中草药图像的目标病理类型以及所述目标病理类型对应的目标概率值。
12.进一步地,所述将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集,基于所述新训练数据集训练所述第一标注模型对应的finetune模型,以得到中草药病虫害识别模型包括:
13.将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集;
14.基于所述新训练数据集训练所述第一标注模型对应的finetune模型,其中,在训练所述finetune模型的过程中,将所述标注图像数据集的损失权重值设置为第一权重值,根据所述概率值将所述未标注图像的损失权重值设置为第二权重值,以得到中草药病虫害识别模型。
15.进一步地,所述基于所述标注图像数据集中的样本图像训练resnet50深度学习模型,得到第一标注模型包括:
16.将所述标注图像数据集划分为训练数据集、验证数据集以及测试数据集;
17.以所述训练数据集中的样本图像作为所述resnet50深度学习模型输入,所述训练数据集中的样本图像与其对应的病理类型的概率值作为所述resnet50深度学习模型的输出,训练所述resnet50深度学习模型,得到第二标注模型;
18.将所述验证数据集中的样本图像输入至所述第二标注模型中进行校验,并根据校验结果修正所述第二标注模型,得到第一标注模型。
19.进一步地,所述以所述训练数据集中的样本图像作为所述resnet50深度学习模型输入,所述训练数据集中的样本图像与其对应的病理类型的概率值作为所述resnet50深度学习模型的输出,训练所述resnet50深度学习模型包括:
20.将所述训练数据集中的样本图像输入至所述resnet50深度学习模型中;
21.通过所述resnet50深度学习模型对所述样本图像进行图像分割处理,得到若干个互不相交的待检测区域图像;
22.提取每个所述待检测区域图像的图像轮廓特征,根据提取的所述图像轮廓特征计算出所述样本图像与病理类型的概率值;
23.将所述病理类型中概率值最大的作为输出病理类型,并根据所述输出病理类型与所述样本图像对应的样本病理类型之间的差异值调整所述resnet50深度学习模型。
24.进一步地,所述以所述训练数据集中的样本图像作为所述resnet50深度学习模型输入,所述训练数据集中的样本图像与其对应的病理类型的概率值作为所述resnet50深度学习模型的输出,训练所述resnet50深度学习模型,得到第二标注模型包括:
25.以所述训练数据集中的样本图像作为所述resnet50深度学习模型输入,训练所述resnet50深度学习模型输出所述样本图像与所述样本图像对应的病理类型的概率值;
26.根据输出的概率值与训练数据集中的样本图像对应的概率值的差值调整所述resnet50深度学习模型的参数,继续训练所述resnet50深度学习模型,直到所述resnet50深度学习模型收敛为止,将收敛时的resnet50深度学习模型作为所述第二标注模型。
27.进一步地,所述以所述训练数据集中的样本图像作为所述resnet50深度学习模型
输入,所述训练数据集中的样本图像与其对应的病理类型的概率值作为所述resnet50深度学习模型的输出,训练所述resnet50深度学习模型,得到第二标注模型之后,包括:
28.将所述测试数据集输入至训练好的所述第二标注模型中,以判断所述第二标注模型是否输出所述测试数据集的测试病理类型以及测试病历类型对应的测试概率值;
29.若输出所述测试数据集的测试病理类型以及测试病历类型对应的测试概率值,则表示所述第二标注模型训练成功。
30.进一步地,所述方法还包括:
31.将所述中草药病虫害识别模型上传至区块链中。
32.为实现上述目的,本发明实施例提供了一种基于半监督学习训练中草药病虫害识别模型的系统,包括:
33.第一获取模块,用于获取标注图像数据集,所述标注图像数据集包括多个样本图像,其中,每个样本图像中具有与所述样本图像对应的样本病理类型标签;
34.第一训练模块,用于基于所述标注图像数据集中的样本图像训练resnet50深度学习模型,得到第一标注模型;
35.第二获取模块,用于获取未标注图像数据集,将所述未标注图像集中包含的多个未标注图像输入至所述第一标注模型中,得到各个未标注图像对应的病理类型以及所述病理类型对应的概率值;
36.第二训练模块,用于将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集,基于所述新训练数据集训练所述第一标注模型对应的finetune模型,以得到中草药病虫害识别模型;
37.识别模块,用于获取待标注的中草药图像,将所述待标注的中草药图像输入至所述中草药病虫害识别模型中,以得到所述中草药图像的目标病理类型以及所述目标病理类型对应的目标概率值。
38.为实现上述目的,本发明实施例提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于半监督学习训练中草药病虫害识别模型的方法的步骤。
39.为实现上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于半监督学习训练中草药病虫害识别模型的方法的步骤。
40.本发明实施例提供的基于半监督学习训练中草药病虫害识别模型的方法与系统,通过标注图像数据集训练resnet50深度学习模型,得到第一标注模型,训练时分为训练数据、测试数据与验证数据进行训练,再通过未标注图像数据集进一步地进行测试,将测试结果用来重新调整第一标注模型,进而得到第二标注模型,最后再将标注图像数据集与未标注图像数据集组合成新训练数据集,重新训练第二标注模型,得到中草药病虫害识别模型,以提高中草药病虫害识别模型的训练的精确度,应用时得到更为准确的识别结果。
附图说明
41.图1为本发明基于半监督学习训练中草药病虫害识别模型的方法实施例一的流程图。
42.图2为本发明基于半监督学习训练中草药病虫害识别模型的系统实施例二的程序模块示意图。
43.图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
44.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.实施例一
46.参阅图1,示出了本发明实施例一之基于半监督学习训练中草药病虫害识别模型的方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
47.步骤s100,获取标注图像数据集,所述标注图像数据集包括多个样本图像,其中,每个样本图像中具有与所述样本图像对应的样本病理类型标签。
48.具体地,标注图像数据集为标注的中草药病虫害图像数据,样本图像为中草药病虫害图像,样本病理类型为病虫害类型,包括病害型与生理性型,生理性型包括自然灾害型、缺素型、气候因素型、植物中毒型以及害虫型,病害型包括细菌型、真菌型与病毒菌型,害虫型包括地下害虫型、地上害虫型、螨类害虫型以及软体害虫型。样本病理类型具体可用病害型与害虫型。图像标注时通过人工进行标注,首先将样本图像进行去噪等预处理,将预处理后的样本图像标注到对应的病虫害类型上。
49.步骤s120,基于所述标注图像数据集中的样本图像训练resnet50深度学习模型,得到第一标注模型。
50.具体地,resnet50深度学习模型为残差网络为50的深度学习模型,残差网络resnet50的深度学习模型权重文件,可作为预训练模型,提升学习效率。
51.示例性地,所述步骤s120进一步包括:
52.步骤s121,将所述标注图像数据集划分为训练数据集、验证数据集以及测试数据集。
53.具体地,将标注的中草药病虫害图像数据按8:1:1,分成训练数据集、验证数据集以及测试数据集,验证数据集为没有进行标注的中草药图像数据,对标注模型进行验证,基于标注模型输出最大概率值对应的病理类型,再对结果通过人工进行验证。测试数据集为部分进行标注的中草药图像数据,测试的过程与验证的过程相似。
54.步骤s122,以所述训练数据集中的样本图像作为所述resnet50深度学习模型输入,所述训练数据集中的样本图像与其对应的病理类型的概率值作为所述resnet50深度学习模型的输出,训练所述resnet50深度学习模型,得到第二标注模型。
55.具体地,根据训练数据集训练resnet50深度学习模型,将样本图像导入到该深度
学习模型中进行预测运算,得到对应的病理类型和病理类型的概率值。通过resnet50深度学习的softmax函数计算样本图像的概率值;选择最大的概率值对应的样本病理类型确定为对应的样本图像的样本病理类型,并输出对应的样本概率值。训练完成的resnet50深度学习模型,以使resnet50深度学习模型可以根据输入的样本图像,输出对应的样本病理类型以及该样本类型的概率值,得到第二标注模型。
56.步骤s123,将所述验证数据集中的样本图像输入至所述标注模型中进行校验,并根据校验结果修正所述第二标注模型,得到第一标注模型。
57.具体地,将验证数据集输入到标注模型中,看输出的标注有病理类型的样本图像与未标注病理类型的样本图像中正确率,修改第二标注模型的loss权重值,直到输出测试数据对应的病理类型概率值达到98%以上,且输出病理类型的正确率同样达到98%。
58.示例性地,所述步骤s122进一步包括:
59.步骤s122a,将所述训练数据集中的样本图像输入至所述resnet50深度学习模型中。
60.具体地,将单张样本图像输入至resnet50深度学习模型,通过resnet50深度学习模型进行识别。
61.步骤s122b,通过所述resnet50深度学习模型对所述样本图像进行图像分割处理,得到若干个互不相交的待检测区域图像。
62.具体地,当基于训练数据进行标注模型训练时,对样本图像进行图像分割处理,得到若干个互不相交的待检测区域图像。由于在样本图像中一般会包含一个或多个中草药的影像,因此通过图像分割处理,可以将单个中草药的影像限定在一个待检测区域图像中(部分待检测区域图像中可能还没有中草药的影像),以便后续对单个中草药是的病虫害类型进行有效识别。进行图像分割处理的方式可以但不限于为基于阈值的图像分割方式、基于区域生长法的图像分割方式、基于变形模型的图像分割方式、基于图论的图像分割方式、基于聚类的图像分割方式或基于分类的图像分割方式等,前述图像分割处理方式均为现有技术,于此不在赘述。
63.步骤s122c,提取每个所述待检测区域图像的图像轮廓特征,根据提取的所述图像轮廓特征计算出所述样本图像与病理类型的概率值。
64.针对每个待检测区域图像,先提取图像轮廓特征,然后若根据提取的图像轮廓特征识别出对应的中草药,可以通过由若干关键特征点的坐标依次串联形成一个形状向量来表示,如此在对待检测区域图像进行处理后,可以提取到对应的图像轮廓特征。且为了实现能够根据提取的图像轮廓特征识别出对应的中草药的目的,需要准备多种不同中草药的标准图像轮廓特征,以便进行比较识别,即还包括有如下步骤:获取多种不同中草药的标准图像,然后针对每种中草药的标准图像,分别提取出对应的标准图像轮廓特征。
65.步骤s122d,将所述病理类型中概率值最大的作为输出病理类型,并根据所述输出病理类型与所述样本图像对应的样本病理类型之间的差异值调整所述resnet50深度学习模型。
66.具体地,通过resnet50深度学习的softmax函数计算待检测区域图像与样本病理类型的概率值;选择最大的概率值对应的样本病理类型确定为对应的样本图像的输出病理类型,并输出对应的概率值。通过概率值可以调整softmax函数,通过输出病理类型与样本
病理类型之间的差异值可以调整resnet50深度学习的loss特征损失的权重值。
67.示例性地,所述步骤s122进一步包括:
68.以所述训练数据集中的样本图像作为所述resnet50深度学习模型输入,训练所述resnet50深度学习模型输出所述样本图像与所述样本图像对应的病理类型的概率值;
69.根据输出的概率值与训练数据集中的样本图像对应的概率值的差值调整所述resnet50深度学习模型的参数,继续训练所述resnet50深度学习模型,直到所述resnet50深度学习模型收敛为止,将收敛时的resnet50深度学习模型作为所述第二标注模型。
70.具体地,将训练的resnet50深度学习模型的输出的概率值向样本图像对应的概率值靠近,样本图像对应的概率值设置为1,但训练时达不到该精确,可以设置为95%以上,将输出的概率值达到95%以上,且输出的概率值对应的样本病理类型无误,则表示resnet50深度学习模型训练收敛,将收敛时的resnet50深度学习模型作为所述第二标注模型。
71.示例性地,所述步骤s122之后,还包括:
72.将所述测试数据集输入至训练好的所述第二标注模型中,以判断所述第二标注模型是否输出所述测试数据集的测试病理类型以及测试病历类型对应的测试概率值;
73.若输出所述测试数据集的测试病理类型以及测试病历类型对应的测试概率值,则表示所述第二标注模型训练成功。
74.具体地,将测试数据输入训练后得到的第二标注模型中,看输出的结果是否为测试病理类型以及测试病历类型对应的测试概率值,并且判断输出结果达到正确的输出结果占总输出结果的结果正确率,若没有,则重复上述通过训练数据集训练第二标注模型的步骤,直至达到结果正确率,得到第二标注模型。
75.步骤s140,获取未标注图像数据集,将所述未标注图像集中包含的多个未标注图像输入至所述第一标注模型中,得到各个未标注图像对应的病理类型以及所述病理类型对应的概率值。
76.具体地,获取大量的未标注图像数据集,通过第一标注模型对未标注图像数据集进行识别,以得到未标注图像的病理类型以及该病理类型对应的概率值。第一标注模型可以通过输入的未标注图像输出其概率值最大的病理类型作为未标注图像的病理类型,同时输出概率值。
77.选择最大的概率值对应的样本病理类型确定为未标注图像的病理类型,并输出对应的概率值。
78.示例性地,softmax函数如下:softmax(x)
i
=exp(x
i
)/∑
j
exp(x
j
),其中,x表示样本病理类型。
79.输出的分类向量为(0.20,0.48,0.66,0.95,0.80,

),则表示:
80.样本病理类型为a时,概率为0.20;
81.样本病理类型为b时,概率为0.48;
82.样本病理类型为c时,概率为0.66;
83.样本病理类型为d时,概率为0.95;
84.样本病理类型为e时,概率为0.80;
85.以此类推,不穷举。
86.计算机设备选择概率最高的概率值确定为该未标注图像的概率值,即未标注图像
的概率值为4,对应的样本病理类型为d。a、b、c、d、e等为样本病理类型,包括为细菌型、真菌型与病毒菌型的病害型;为地下害虫型、地上害虫型、螨类害虫型以及软体害虫型的病虫型。
87.步骤s160,将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集,基于所述新训练数据集训练所述第一标注模型对应的finetune模型,以得到中草药病虫害识别模型。
88.具体地,未标注图像输出病理类型可能不够准确,标注图像数据集的病理类型是标准的,将两者的损失权重值进行修改,以微调第一标注模型的损失权重,再训练得到中草药病虫害识别模型,以提高中草药病虫害识别模型输出的准确度。
89.示例性地,所述步骤s160进一步包括:
90.将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集。
91.具体地,调整与训练第一标注模型,其中,标注图像数据集在loss损失中的第一权重值修改为1.0,未标注图像数据集在loss损失中的第二权重值为概率值,以此训练第一标注模型,得到中草药病虫害识别模型。finetune模型包括:新数据(未标注图像数据集)和基础数据(标注图像数据)要有相关性;第一标注模型的参数可以先固定,新加层的学习率要适当调大;逐渐放开第一标注模型的参数一起训练,但是要控制准确率率。重复训练第一标注模型,直到获取模型的最优解,可以理解为模型的输出的概率值在95%以上。基于新训练数据集训练第一标注模型主要训练步骤为:基于未标注数据提高中草药病虫害识别模型的精度;未标注数据的loss的权重值依据基础模型输出的类型概率值;采用finetune的方式迭代重复训练模型。
92.基于所述新训练数据集训练所述第一标注模型对应的finetune模型,其中,在训练所述finetune模型的过程中,将所述标注图像数据集的损失权重值设置为第一权重值,根据所述概率值将所述未标注图像的损失权重值设置为第二权重值,以得到中草药病虫害识别模型。
93.具体地,调节第一标注模型的训练过程中的loss损失函数的权重值,将标注图像数据集在loss中的第一权重值修改为1.0,未标注图像数据集在loss中的第二权重值为上述步骤中输出的概率值。将标注图像数据所述未标注图像数据集合并成新训练数据集,再finetune(微调)第一标注模型,即微调第一标注模型,将第一标注模型的模型数据保留,调整模型训练过程中的loss的权重值,得到中草药病虫害识别模型。
94.步骤s180,获取待标注的中草药图像,将所述待标注的中草药图像输入至所述中草药病虫害识别模型中,以得到所述中草药图像的目标病理类型以及所述目标病理类型对应的目标概率值。
95.具体地,将待标注的中草药图像输入至中草药病虫害识别模型,以通过中草药病虫害识别模型输出中草药图像的目标病理类型以及所述目标病理类型对应的目标概率值。
96.示例性地,所述方法还包括:
97.将所述中草药病虫害识别模型上传至区块链中。
98.具体地,将中草药病虫害识别模型上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该中草药病虫害识别模型,以便查证中草药病虫
害识别模型是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
99.实施例二
100.请继续参阅图2,示出了本发明基于半监督学习训练中草药病虫害识别模型的系统实施例二的程序模块示意图。在本实施例中,基于半监督学习训练中草药病虫害识别模型的系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于半监督学习训练中草药病虫害识别模型的方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于半监督学习训练中草药病虫害识别模型的系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
101.第一获取模块200,用于获取标注图像数据集,所述标注图像数据集包括多个样本图像,其中,每个样本图像中具有与所述样本图像对应的样本病理类型标签。
102.具体地,标注图像数据集为标注的中草药病虫害图像数据,样本图像为中草药病虫害图像,样本病理类型为病虫害类型,包括病害型与生理性型,生理性型包括自然灾害型、缺素型、气候因素型、植物中毒型以及害虫型,病害型包括细菌型、真菌型与病毒菌型,害虫型包括地下害虫型、地上害虫型、螨类害虫型以及软体害虫型。样本病理类型具体可用病害型与害虫型。图像标注时通过人工进行标注,首先将样本图像进行去噪等预处理,将预处理后的样本图像标注到对应的病虫害类型上。
103.第一训练模块202,用于基于所述标注图像数据集中的样本图像训练resnet50深度学习模型,得到第一标注模型。
104.具体地,resnet50深度学习模型为残差网络为50的深度学习模型,残差网络resnet50的深度学习模型权重文件,可作为预训练模型,提升学习效率。
105.示例性地,所述第一训练模块202具体用于:
106.将所述标注图像数据集划分为训练数据集、验证数据集以及测试数据集。
107.具体地,将标注的中草药病虫害图像数据按8:1:1,分成训练数据集、验证数据集以及测试数据集,验证数据集为没有进行标注的中草药图像数据,对标注模型进行验证,基于标注模型输出最大概率值对应的病理类型,再对结果通过人工进行验证。测试数据集为部分进行标注的中草药图像数据,测试的过程与验证的过程相似。
108.以所述训练数据集中的样本图像作为所述resnet50深度学习模型输入,所述训练数据集中的样本图像与其对应的病理类型的概率值作为所述resnet50深度学习模型的输出,训练所述resnet50深度学习模型,得到第二标注模型。
109.具体地,根据训练数据集训练resnet50深度学习模型,将样本图像导入到该深度学习模型中进行预测运算,得到对应的病理类型和病理类型的概率值。通过resnet50深度学习的softmax函数计算样本图像像的概率值;选择最大的概率值对应的样本病理类型确定为对应的样本图像的样本病理类型,并输出对应的样本概率值。训练完成的resnet50深
度学习模型,以使resnet50深度学习模型可以根据输入的样本图像,输出对应的样本病理类型以及该样本类型的概率值,得到第二标注模型。通过验证数据验证
110.将所述验证数据集中的样本图像输入至所述标注模型中进行校验,并根据校验结果修正所述第二标注模型,得到第一标注模型。
111.具体地,将验证数据集输入到标注模型中,看输出的标注有病理类型的样本图像与未标注病理类型的样本图像中正确率,修改第二标注模型的loss权重值,直到输出测试数据对应的病理类型概率值达到98%以上,且输出病理类型的正确率同样达到98%。再将测试数据输入第一次修正后的第二标注模型,看输出的结果是否达到正确的输出结果占总输出结果的结果正确率,若没有,则重复上述通过训练数据集和验证数据集训练和修改第二标注模型的步骤,直至达到结果正确率,得到第一标注模型。
112.第二获取模块204,用于获取未标注图像数据集,将所述未标注图像集中包含的多个未标注图像输入至所述第一标注模型中,得到各个未标注图像对应的病理类型以及所述病理类型对应的概率值。
113.具体地,获取大量的未标注图像数据集,通过第一标注模型对未标注图像数据集进行识别,以得到未标注图像的病理类型以及该病理类型对应的概率值。第一标注模型可以通过输入的未标注图像输出其概率值最大的病理类型作为未标注图像的病理类型,同时输出概率值。
114.选择最大的概率值对应的样本病理类型确定为未标注图像的病理类型,并输出对应的概率值。
115.示例性地,softmax函数如下:softmax(x)
i
=exp(x
i
)/∑
j
exp(x
j
),其中,x表示样本病理类型。
116.输出的分类向量为(0.20,0.48,0.66,0.95,0.80,

),则表示:
117.样本病理类型为a时,概率为0.20;
118.样本病理类型为b时,概率为0.48;
119.样本病理类型为c时,概率为0.66;
120.样本病理类型为d时,概率为0.95;
121.样本病理类型为e时,概率为0.80;
122.以此类推,不穷举。
123.计算机设备选择概率最高的概率值确定为该未标注图像的概率值,即未标注图像的概率值为4,对应的样本病理类型为d。a、b、c、d、e等为样本病理类型,包括为细菌型、真菌型与病毒菌型的病害型;为地下害虫型、地上害虫型、螨类害虫型以及软体害虫型的病虫型。
124.第二训练模块206,用于将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集,基于所述新训练数据集训练所述第一标注模型对应的finetune模型,以得到中草药病虫害识别模型。
125.具体地,未标注图像输出病理类型可能不够准确,标注图像数据集的病理类型是标准的,将两者的损失权重值进行修改,以微调第一标注模型的损失权重,再训练得到中草药病虫害识别模型,以提高中草药病虫害识别模型输出的准确度。
126.示例性地,所述第二训练模块206具体用于:
127.将所述标注图像数据集与所述各个未标注图像对应的病理类型以及所述病理类型对应的概率值组合成新训练数据集。
128.具体地,调整与训练第一标注模型,其中,标注图像数据集在loss损失中的第一权重值修改为1.0,未标注图像数据集在loss损失中的第二权重值为概率值,以此训练第一标注模型,得到中草药病虫害识别模型。finetune模型包括:新数据(未标注图像数据集)和基础数据(标注图像数据)要有相关性;第一标注模型的参数可以先固定,新加层的学习率要适当调大;逐渐放开第一标注模型的参数一起训练,但是要控制准确率率。重复训练第一标注模型,直到获取模型的最优解,可以理解为模型的输出的概率值在95%以上。基于新训练数据集训练第一标注模型主要训练步骤为:基于未标注数据提高中草药病虫害识别模型的精度;未标注数据的loss的权重值依据基础模型输出的类型概率值;采用finetune的方式迭代重复训练模型。
129.基于所述新训练数据集训练所述第一标注模型对应的finetune模型,其中,在训练所述finetune模型的过程中,将所述标注图像数据集的损失权重值设置为第一权重值,根据所述概率值将所述未标注图像的损失权重值设置为第二权重值,以得到中草药病虫害识别模型。
130.具体地,调节第一标注模型的训练过程中的loss损失函数的权重值,将标注图像数据集在loss中的第一权重值修改为1.0,未标注图像数据集在loss中的第二权重值为上述步骤中输出的概率值。将标注图像数据所述未标注图像数据集合并成新训练数据集,再finetune(微调)第一标注模型,即微调第一标注模型,将第一标注模型的模型数据保留,调整模型训练过程中的loss的权重值,得到中草药病虫害识别模型。
131.识别模块208,用于获取待标注的中草药图像,将所述待标注的中草药图像输入至所述中草药病虫害识别模型中,以得到所述中草药图像的目标病理类型以及所述目标病理类型对应的目标概率值。
132.具体地,将待标注的中草药图像输入至中草药病虫害识别模型,以通过中草药病虫害识别模型输出中草药图像的目标病理类型以及所述目标病理类型对应的目标概率值。
133.实施例三
134.参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于半监督学习训练中草药病虫害识别模型的系统20。其中:
135.本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡
(flash card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的基于半监督学习训练中草药病虫害识别模型的系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
136.处理器22在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于半监督学习训练中草药病虫害识别模型的系统20,以实现实施例一的基于半监督学习训练中草药病虫害识别模型的方法。
137.所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(global system of mobile communication,gsm)、宽带码分多址(wideband code division multiple access,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi

fi等无线或有线网络。需要指出的是,图3仅示出了具有部件20

23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
138.在本实施例中,存储于存储器21中的所述基于半监督学习训练中草药病虫害识别模型的系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
139.例如,图2示出了所述实现基于半监督学习训练中草药病虫害识别模型的系统20实施例二的程序模块示意图,该实施例中,所述基于半监督学习训练中草药病虫害识别模型的系统20可以被划分为第一获取模块200、第一训练模块202、第二获取模块204、第二训练模块206以及识别模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于半监督学习训练中草药病虫害识别模型的系统20在所述计算机设备2中的执行过程。所述程序模块200

208的具体功能在实施例二中已有详细描述,在此不再赘述。
140.实施例四
141.本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于计算机程序,被处理器执行时实现实施例一的基于半监督学习训练中草药病虫害识别模型的方法。
142.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
143.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
144.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发
明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1