数据集清洗方法、装置、电子设备和计算机可读介质与流程

文档序号:30581902发布日期:2022-06-29 12:43阅读:来源:国知局

技术特征:
1.一种数据集清洗方法,包括:获取训练图像样本初始集和验证图像样本集,其中,所述训练图像样本初始集中的训练图像样本包括训练图像和分类标签,所述验证图像样本集中的验证图像样本包括验证图像和分类标签;基于所述训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集;将所述初始图像分类模型确定为参照图像分类模型,以及将所述初始分类准确度的值确定为参照分类准确度的值,以及将所述训练图像样本初始集确定为训练图像样本参照集;利用训练图像样本集,执行以下训练步骤:利用训练图像样本集对原始图像分类模型进行训练,得到图像分类模型;确定图像分类模型对所述验证图像样本集的分类准确度;响应于确定分类准确度小于等于参照分类准确度,将参照图像分类模型确定为目标图像分类模型,以及将训练图像样本参照集确定为目标训练图像样本集。2.根据权利要求1所述的方法,其中,所述方法还包括:响应于确定分类准确度大于参照分类准确度,将训练图像样本集作为训练图像样本参照集,利用图像分类模型对训练图像样本集进行清洗,将清洗后的训练图像样本集作为训练图像样本集,将图像分类模型作为参照图像分类模型,以及将参照分类准确度的值更新为分类准确度的值,继续执行所述训练步骤。3.根据权利要求2所述的方法,其中,所述利用图像分类模型对训练图像样本集进行清洗,包括:对训练图像样本集中的每个训练图像样本执行以下清洗步骤:将所述训练图像样本中的训练图像输入所述图像分类模型,得到分类信息组,其中,所述分类信息组中的分类信息包括分类标签和分类概率,所述分类信息组中各个分类信息包括的分类概率之和为1;从所述分类信息组中选择满足预设条件的分类信息作为目标分类信息,其中,所述预设条件是分类信息包括的分类概率是所述分类信息组包括的分类概率中最大的分类概率;响应于确定所述目标分类信息包括的分类标签与所述训练图像样本包括的分类标签相同,将所述训练图像样本作为清洗训练图像样本加入清洗训练图像样本集。4.根据权利要求3所述的方法,其中,所述利用图像分类模型对训练图像样本集进行清洗,还包括:确定清洗训练图像样本集为清洗后的训练图像样本集。5.根据权利要求1所述的方法,其中,所述利用所述训练图像样本初始集确定初始图像分类模型、初始分类准确度、训练图像样本集,包括:利用所述训练图像样本初始集对原始图像分类模型进行训练,得到初始图像分类模型;确定所述初始图像分类模型对所述验证图像样本集的分类准确度,得到初始分类准确度;利用所述初始图像分类模型对所述训练图像样本初始集进行清洗,得到训练图像样本
集。6.一种数据集清洗装置,包括:获取单元,被配置成获取训练图像样本初始集和验证图像样本集,其中,所述训练图像样本初始集中的训练图像样本包括训练图像和分类标签,所述验证图像样本集中的验证图像样本包括验证图像和分类标签;确定单元,被配置成基于所述训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集;转换单元,被配置成将所述初始图像分类模型确定为参照图像分类模型,以及将所述初始分类准确度的值确定为参照分类准确度的值,以及将所述训练图像样本初始集确定为训练图像样本参照集;训练单元,被配置成利用训练图像样本集,执行以下训练步骤:利用训练图像样本集对原始图像分类模型进行训练,得到图像分类模型;确定图像分类模型对所述验证图像样本集的分类准确度;响应于确定分类准确度小于等于参照分类准确度,将参照图像分类模型确定为目标图像分类模型,以及将训练图像样本参照集确定为目标训练图像样本集。7.一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。8.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。

技术总结
本公开的实施例公开了数据集清洗方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取训练图像样本初始集和验证图像样本集;利用训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集;将初始图像分类模型确定为参照图像分类模型,以及将初始分类准确度的值确定为参照分类准确度的值,以及将训练图像样本初始集确定为训练图像样本参照集;利用训练图像样本集进行迭代训练,以及确定目标图像分类模型和目标训练图像样本集。该实施方式可以自动清洗原始图像分类数据集中的脏数据,提高清洗效率和数据集的质量,从而提升图像分类模型的准确度。从而提升图像分类模型的准确度。从而提升图像分类模型的准确度。


技术研发人员:邓泽露 徐克勤 刘鹏飞
受保护的技术使用者:多点(深圳)数字科技有限公司
技术研发日:2022.03.09
技术公布日:2022/6/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1