一种解决农作物病虫害样本不均衡问题的图像识别方法与流程

文档序号:30584108发布日期:2022-06-29 15:20阅读:221来源:国知局
一种解决农作物病虫害样本不均衡问题的图像识别方法与流程

1.本发明涉及病虫害识别领域,具体涉及一种解决农作物病虫害样本不均衡 问题的图像识别方法。


背景技术:

2.农作物病虫害是世界范围内主要农业灾害之一,若病虫害发现与防治不及 时,可能会对农业生产造成重大损失,威胁国家粮食安全和农产品质量安全。 农作物病虫害具有种类多、影响大、并时常暴发成灾的特点,这些特点对农作 物病虫害监测带来巨大挑战。
3.随着计算机视觉与人工智能的快速发展,基于图像的病虫害识别技术以低 成本、高效率的特点已应用于各种农作物的病虫害监测中。目前基于图像的病 虫害识别方法普遍使用深度学习算法进行模型训练与推理,深度学习需要依赖 海量数据才能实现识别效果最大化,但农作物病虫害图像数据具有样本不均衡 的特点,常见的病虫害类别数据量非常多,不常见的病虫害类别数据量较少, 因此病虫害数据呈长尾分布,长尾分布的头部数据非常多,中部逐渐减少,尾 部数据极少甚至无样本,且农作物病虫害类别较多,尾部拉得很长。
4.样本不均衡问题对农作物病虫害模型效果影响很大,模型容易对数据较多的 头部类别过拟合,对数据较少的尾部类别欠拟合。解决样本不均衡问题的通用 方法有很多,例如重采样算法对头部类别进行欠采样,对尾部类别进行过采样, 以保证训练样本的均衡性,但这会导致模型对头部类别欠拟合,对尾部类别过 拟合;重加权算法对头部类别赋予低权重,对尾部类别赋予高权重,但效果提 升有限;基于多阶段训练的农作物病害长尾图像识别方法,通过对已标注数据 进行多阶段增强训练的方式调整样本分布,未充分利用海量的无标注数据,尾 部类别数据丰富性不足。


技术实现要素:

5.本发明针对背景技术存在的不足,提供一种解决农作物病虫害样本不均衡 问题的图像识别方法,具体技术方案如下:
6.一种解决农作物病虫害样本不均衡问题的图像识别方法,包括以下步骤:
7.步骤s1,制作有标注数据集:收集农作物病虫害图片数据,用矩形框标注出病 虫害的位置,构成有标注数据集;按一定比例将有标注数据集划分为训练集、 验证集与测试集;
8.步骤s2,模型训练:构建目标检测模型,并采用构建的目标检测模型对步骤s1 的数据集中的训练集进行训练,每一轮训练结束输出一个中间目标检测模型;
9.步骤s3,模型验证:将步骤s1中的验证集图像输入到步骤s2中训练的中间模 型进行模型验证,选出识别准确率最高的中间目标检测模型作为当前最佳目标 检测模型;
10.步骤s4,制作无标注数据集:收集海量农作物病虫害图片数据,作为无标注数 据集;
11.步骤s5,图像增强:对步骤s4中的无标注数据集的每张原始图片进行数据增强 得到增强后的n张图片,并与对应的原始图片合并得到n+1张组合图片作为一 组待处理数据;
12.步骤s6,无标注数据模型推理:将步骤s5中的每组待处理数据分别输入至步骤 s3中的当前最佳目标检测模型进行推理,得到n+1个识别结果,对每个识别结 果分别进行后处理,并将每个后处理过的识别结果进行叠加,通过非极大值抑 制算法对叠加后的结果进行筛选,最终得到无标注数据的识别结果;
13.步骤s7,样本选择:根据样本选择策略对步骤s6中的无标注数据识别结果进行 判断,决定是否保留该识别结果,若保留则从步骤s4中的无标注数据集中选择 该识别结果对应的原始图片作为新样本;
14.步骤s8,新数据生成:对步骤s7中的新样本按步骤s1的有标注数据集的矩形 框标注方式生成非人工标注的伪标签,并将伪标签和步骤s4的无标注数据集中 对应的原始图片作为新数据,对所有新数据按一定比例放入步骤s1的有标注数 据集中的训练集、验证集与测试集中,同时移除步骤s4的无标注数据集中对应 的原始图片;
15.步骤s9,步骤s1中有标注数据集中加入步骤s8新生成的数据后,继续按步骤 s1-s8的流程进行迭代学习,若步骤s3中最佳目标检测模型的准确率不再提升, 则结束迭代学习,得到最终的目标检测模型;
16.步骤s10,有标注数据模型推理:将步骤s1中有标注数据集的测试集输入至步 骤s9得到的最终的目标检测模型进行模型推理,得到测试集经迭代学习优化后 的识别结果。
17.优选地,所述步骤s1中按0.8:0.1:0.1的比例将有标注数据集划分为训 练集、验证集与测试集。
18.优选地,所述步骤s2中的目标检测模型为采用yolov5目标检测算法的 yolov5l6网络结构模型。
19.优选地,所述步骤s5中的数据增强包括4种方式:随机水平翻转、随机垂 直翻转、随机旋转、随机增加亮度,则n=4。
20.优选地,所述步骤s7中的样本选择策略包括以下步骤:
21.步骤s71,头尾部划分:对步骤s1中的有标注数据集的训练集进行样本数量统 计,有标注数据集中共有c个病虫害类别,计算每个病虫害类别c的标注数量nc, c∈{1,2,

,c},标注数量总数为n
total
,平均标注数量nm,则:
[0022][0023][0024]
将标注数量大于nm的类别划分为头部类别,否则将标注数量小于等于nm划分为 尾部类别;统计头部类别标注总数nh,尾部类别标注总数n
t
,则:
[0025]
nh+n
t
=n
total

[0026]
步骤s72,头尾部判断:对步骤s6中的无标注数据的识别结果中每一个矩形框 对应的类别进行头尾部分类,分别得到头部和尾部的数量,若头部的数量大于 尾部的数量,则该样本属于头部样本,否则属于尾部样本;
[0027]
步骤s73,新样本候选:对于判断为头部的样本,计算该样本识别结果中头部类 别
的可信度均值,若头部类别的可信度均值大于头部可信度阈值th,则将该样 本加入头部新样本候选队列qh中;对于判断为尾部的样本,计算尾部类别的可 信度均值,若尾部类别的可信度均值大于尾部可信度阈值t
t
,则将该样本加入尾 部新样本候选队列q
t
中;
[0028]
步骤s74,新样本选择:对于头部新样本候选队列qh,按可信度进行降序排序, 得到排序后的头部新样本候选队列qh',从排序后的头部新样本候选队列qh'中选 择头部占比为ph的样本作为头部新样本;对于尾部新样本候选队列q
t
,按可信 度进行降序排序,得到排序后的尾部新样本候选队列q
t
',从排序后的尾部新样 本候选队列q
t
'中选择尾部占比为p
t
的样本作为尾部新样本;头部新样本和尾部 新样本组合为当前新样本。
[0029]
优选地,所述头部可信度阈值th的取值范围为0.9≤th<1。
[0030]
优选地,所述尾部可信度阈值t
t
的取值范围为0.9≤t
t
<1。
[0031]
优选地,所述头部占比ph的计算方式为
[0032]
优选地,所述尾部占比p
t
的计算方式为
[0033]
本发明的有益效果为:本发明提供一种解决农作物病虫害样本不均衡问题 的图像识别方法,利用当前有标注数据集进行模型训练,经过模型验证选出当 前最佳模型,对无标注数据集的图片进行若干次图像增强,得到增强后的图像 进行推理并通过非极大值抑制算法对叠加后的结果进行筛选得到无标注图像的 识别结果,将识别结果输入至样本选择策略中,根据样本选择策略判断是否保 留该结果,若保留则生成伪标签,并移动到当前有标注数据集中,继续对新的 有标注数据集进行训练,按此流程进行迭代学习,直到准确率不再提升为止。 本发明充分利用海量无标注的农作物病虫害数据进行半监督学习,针对样本不 均衡问题设计样本选择策略,不断调整数据分布,降低长尾分布影响,通过迭 代学习提升尾部类别召回率和精确率的同时不影响头部类别识别效果,仅采用 单模型进行推理且不引入额外的网络层,对推理速度无影响。
附图说明
[0034]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
[0035]
图1为本发明的流程示意图。
具体实施方式
[0036]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部 的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037]
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包 含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除 一个或多个其它特征、
整体、步骤、操作、元素、组件和/或其集合的存在或添 加。
[0038]
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例 的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用 的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及
ꢀ“
该”意在包括复数形式。
[0039]
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且 包括这些组合。
[0040]
如图1所示,本发明的具体实施方式提供了一种解决农作物病虫害样本不 均衡问题的图像识别方法,包括以下步骤:
[0041]
步骤s1,制作有标注数据集:收集农作物病虫害图片数据,用矩形框标注出病 虫害的位置,构成有标注数据集;按0.8:0.1:0.1的比例将有标注数据集划 分为训练集、验证集与测试集;
[0042]
步骤s2,模型训练:构建目标检测模型,并采用构建的目标检测模型对步 骤s1的数据集中的训练集进行训练,每一轮训练结束输出一个中间目标检测模 型;目标检测模型为采用yolov5目标检测算法的yolov5l6网络结构模型。
[0043]
步骤s3,模型验证:将步骤s1中的验证集图像输入到步骤s2中训练的中间模 型进行模型验证,选出识别准确率最高的中间目标检测模型作为当前最佳目标 检测模型;
[0044]
步骤s4,制作无标注数据集:收集海量农作物病虫害图片数据,作为无标注数 据集;
[0045]
步骤s5,图像增强:对步骤s4中的无标注数据集的每张原始图片进行数据增强 得到增强后的n张图片,并与对应的原始图片合并得到n+1张组合图片作为一 组待处理数据;数据增强包括4种方式:随机水平翻转、随机垂直翻转、随机 旋转、随机增加亮度,则n=4。
[0046]
步骤s6,无标注数据模型推理:将步骤s5中的每组待处理数据分别输入至步骤 s3中的当前最佳目标检测模型进行推理,得到n+1个识别结果,对每个识别结 果分别进行后处理,后处理包括将随机水平翻转的图片结果按水平翻转参数进 行恢复,将随机垂直翻转的图片结果按垂直翻转参数进行恢复,将随机旋转的 图片结果按旋转参数进行恢复,并将每个后处理过的识别结果进行叠加,通过 非极大值抑制算法对叠加后的结果进行筛选,最终得到无标注数据的识别结果;
[0047]
步骤s7,样本选择:根据样本选择策略对步骤s6中的无标注数据识别结果 进行判断,决定是否保留该识别结果,若保留则从步骤s4中的无标注数据集中 选择该识别结果对应的原始图片作为新样本。样本选择策略包括以下步骤:
[0048]
步骤s71,头尾部划分:对步骤s1中的有标注数据集的训练集进行样本数 量统计,有标注数据集中共有c个病虫害类别,计算每个病虫害类别c的标注数 量nc,c∈{1,2,

,c},标注数量总数为n
total
,平均标注数量nm,则:
[0049][0050][0051]
将标注数量大于nm的类别划分为头部类别,否则将标注数量小于等于nm划分为 尾部类别;统计头部类别标注总数nh,尾部类别标注总数n
t
,则:
[0052]
nh+n
t
=n
total

[0053]
假设有标注数据集的训练集共有100个病虫害类别,c=100,第1个类别 为溃疡病,溃疡病的标注数量为20000,n1=20000,第2个类别为黄龙病,黄龙 病的标注数量为20,n2=20,统计所有类别的标注数量总数n
total
,得到: [0054]
平均标注数量
[0055]
步骤s72,头尾部判断:对步骤s6中的无标注数据的识别结果中每一个矩 形框对应的类别进行头尾部分类,分别得到头部和尾部的数量,若头部的数量 大于尾部的数量,则该样本属于头部样本,否则属于尾部样本。
[0056]
对100个病虫害类别进行头尾部判断,溃疡病标注数量20000大于平均标 注数量1000,属于头部类别,黄龙病标注数量20小于平均标注数量1000,属 于尾部类别。统计头部类别标注总数nh,假设20个类别为头部类别,80个类 别为尾部类别,对20个头部类别统计标注总数nh,得到nh=95000,对20个尾 部类别统计标注总数n
t
,得到n
t
=5000,nh+n
t
=95000+5000=100000=n
total
, 100000为所有类别的标注数量总数n
total

[0057]
假设无标注数据集共有200000张图片样本,依次对每个样本进行头尾部判 断,第1个样本的识别结果中包含2个检测框,其中2个为溃疡病,根据步骤 s71中的头尾部类别划分,头部数量为2,尾部数量为0,头部数量大于尾部数 量,则判断第1个样本为头部样本;第2个样本的识别结果中包含3个检测框, 其中1个为溃疡病,2个为黄龙病,根据步骤s71中的头尾部类别划分,头部数 量为1,尾部数量为2,头部数量小于尾部数量,则判断第2个样本为尾部样本。
[0058]
步骤s73,新样本候选:对于判断为头部的样本,对该样本识别结果中头部 类别标签的可信度进行求和,除以该样本识别结果中头部类别标签总数,得到 头部类别的可信度均值,若头部类别的可信度均值大于头部可信度阈值th,则 将该样本加入头部新样本候选队列qh中;对于判断为尾部的样本,对该样本识 别结果中尾部类别标签的可信度进行求和,除以该样本识别结果中尾部类别标 签总数,得到尾部类别的可信度均值,若尾部类别的可信度均值大于尾部可信 度阈值t
t
,则将该样本加入尾部新样本候选队列q
t
中;头部可信度阈值th的取值 范围为0.9≤th<1;尾部可信度阈值t
t
的取值范围为0.9≤t
t
<1。
[0059]
对于步骤s72中判断为头部的样本,如第1个样本,2个溃疡病可信度分别 为0.95和0.91,则平均可信度为设定头部可信度阈值th=0.90, 而0.93>0.90,将第1个样本加入到头部新样本候选队列中,qh={1},继续对其 他头部样本进行判断;对于s72中判断为尾部的样本,如第2个样本,溃疡病 可信度为0.92,2个黄龙病可信度分别为0.91和0.98,则平均可信度为 设定尾部可信度阈值t
t
=0.92,而0.937>0.92,将第2个样 本加入到尾部新样本候选队列中,q
t
={2},继续对其他尾部样本进行判断。
[0060]
步骤s74,新样本选择:对于头部新样本候选队列qh,按可信度进行降序排 序,得到排序后的头部新样本候选队列qh',从排序后的头部新样本候选队列qh' 中选择头部占比为ph的样本作为头部新样本;对于尾部新样本候选队列q
t
,按 可信度进行降序排序,得到排
序后的尾部新样本候选队列q
t
',从排序后的尾部 新样本候选队列q
t
'中选择尾部占比为p
t
的样本作为尾部新样本;头部新样本和 尾部新样本组合为当前新样本。头部占比ph的计算方式为尾部占比p
t
的计算方式为
[0061]
对于头部新样本候选队列qh={1,3,4,

},其平均可信度为{0.93,0.90,0.92,

}, 按可信度对qh进行降序排序,得到qh'={1,4,3,

},从qh'中选择头部占比为 的样本作为头部新样本;对于尾部新样本候选队列 q
t
={2,5,6,

},其平均可信度为{0.937,0.92,0.93,

},按可信度对q
t
进行降序排序, 得到q
t
'={2,6,5,

},从q
t
'中选择尾部占比为的样本 作为尾部新样本。头部新样本和尾部新样本组合为当前新样本,尾部新数据数 量占比远大于头部,提升尾部类别数据的丰富性,同时保证头部类别数量也在 缓慢增加。
[0062]
步骤s8,新数据生成:对步骤s7中的新样本按步骤s1的有标注数据集的矩形 框标注方式生成非人工标注的伪标签,并将伪标签和步骤s4的无标注数据集中 对应的原始图片作为新数据,对所有新数据按一定比例放入步骤s1的有标注数 据集中的训练集、验证集与测试集中,同时移除步骤s4的无标注数据集中对应 的原始图片;
[0063]
步骤s9,步骤s1中有标注数据集中加入步骤s8新生成的数据后,继续按步骤 s1-s8的流程进行迭代学习,若步骤s3中最佳目标检测模型的准确率不再提升, 则结束迭代学习,得到最终的目标检测模型;
[0064]
步骤s10,有标注数据模型推理:将步骤s1中有标注数据集的测试集输入至步 骤s9得到的最终的目标检测模型进行模型推理,得到测试集经迭代学习优化后 的识别结果。
[0065]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地 说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示 例的组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定 应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来 实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0066]
在本技术所提供的实施例中,应该理解到,单元的划分,仅仅为一种逻辑 功能划分,实际实现时可以有另外的划分方式,例如多个单元可结合为一个单 元,一个单元可拆分为多个单元,或一些特征可以忽略等。
[0067]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明 的权利要求和说明书的范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1