消除不适当标注样本影响的方法、分类方法、设备及介质与流程

文档序号:35918651发布日期:2023-11-03 22:41阅读:28来源:国知局
消除不适当标注样本影响的方法、分类方法、设备及介质与流程

本发明涉及机器学习,尤其涉及一种消除不适当标注样本影响的方法、分类方法、设备及介质。


背景技术:

1、随着人工智能技术的发展,模型越来越大,对数据包括标注好的数据的需求也越来越多。而由于各种主客观原因,人们在标注数据时,不一定都标注正确,错误的标注数据可能给模型带来负面影响。因此,人们对识别错误标注样本这一问题进行了研究,相关的资料有中国专利cn202010327799.0,中国专利cn202210417059.5,中国专利cn201910133229.5,中国专利cn202110152413.1,buyu li、yu liu和xiaogang wang等2019年发表在aaai的《gradient harmonized single-stage detector》,curtis g.northcutt、lu jiang和isaac l.chuang于2021年发表在journal of artificial intelligenceresearch的《confident learning:estimating uncertainty in dataset labels》等。

2、但是,这些方法要么是基于特定模型的,如中国专利cn202010327799.0中的深度卷积网络;要么计算复杂,如中国专利cn 202110152413.1中的迭代;要么步骤繁多,如文献《confident learning:estimating uncertainty in dataset labels》。同时,这些相关专利文献都是把标注数据简单的分为正确标注数据与错误标注数据两类,而通过数据本身要准确判断某个标注是否正确是很难的,换句话说,大部分的标注,都能根据统计学理论判断它们是正确的或者是错误的,而剩下的那部分,则难以判断它们到底是正确标注还是错误标注,这种标注我们称为不确定标注。为了识别出错误标注和不确定标注这两种不适当标注,并消除它们对分类模型效果的影响,本发明提出一种消除不适当标注样本影响的方法。


技术实现思路

1、本发明提供了一种消除不适当标注样本影响的方法、分类方法、设备及介质,以解决上述现有技术中的技术问题。

2、本发明采用的技术方案是:

3、第一方面,本发明提供一种消除不适当标注样本影响的方法,包括:

4、通过预测模型得到所有样本的预测类别,所述样本具有标注类别;

5、根据所述预测类别与标注类别的异同,将所有样本判别为正确标注集ir、不确定标注集iw和错误标注集ie;

6、计算损失函数时,对所述正确标注集、不确定标注集和错误标注集分别给予不同的权重,以消除不确定标注集和错误标注集中样本的影响;所述错误标注集中样本的权重不超过不确定标注集中样本的权重,不确定标注集中样本的权重不超过正确标注集中样本的权重。

7、进一步的,所述通过预测模型得到所有样本的预测类别的方法包括:

8、通过预测模型对所有样本使用交叉验证法得到每个样本i的类别预测概率,预测概率值最大的类别即为该样本的预测类别。

9、进一步的,所述通过预测模型对所有样本使用交叉验证法得到每个样本i的类别预测概率,预测概率值最大的类别即为该样本的预测类别的方法包括:

10、将全部数据随机划分成s个大小相等或相近的互斥样本子集,并依次遍历这s个子集,每次把当前子集作为验证集,剩余所有的样本子集作为训练集,预测模型预测验证集各个样本属于每个类别的概率pn(i),其中n代表类别编号;样本i的预测类别是预测概率值pn(i)最大时对应的类别。

11、进一步的,所述根据所述预测类别与标注类别的异同,将所有样本判别为正确标注集ir、不确定标注集iw和错误标注集ie的方法包括:

12、计算每个标注类别上该标注类别样本的平均预测概率其中in表示第n类样本的集合,|in|表示第n类样本集合的样本数量;

13、若样本i的预测类别与标注类别相同,则该样本i属于正确标注集ir;

14、若样本i的预测类别与标注类别不同,则该样本i属于不适当标注集iw;

15、对于iw中的任一样本iw,如果pm(iw)≥cm,则iw属于错误标注集ie,其中m是iw的预测类别;如果pm(iw)<cm,则iw属于不确定标注集iu;

16、根据上述结果将所有样本划分到正确标注集ir、不确定标注集iu或错误标注集ie中。

17、进一步的,所述正确标注集的权重取1,0<不确定标注的权重≤1,错误标注集的权重取0。

18、进一步的,0.6≤不确定标注的权重≤0.9。

19、第二方面,本发明还提供一种分类方法,包括:

20、获取带有标注类别的样本后,通过第一方面所述的消除不适当标注样本影响的方法对样本进行处理;

21、将处理后的样本作为训练集对分类模型进行训练;

22、使用训练后的分类模型对亟待分类的样本进行分类。

23、第三方面,本发明还提供一种消除不适当标注样本影响的装置,包括:

24、预测模块,用于得到所有样本的预测类别,所述样本具有标注类别;

25、判别模块,用于根据所述预测类别与标注类别的异同,将所有样本判别为正确标注集ir、不确定标注集iw和错误标注集ie;

26、加权模块,用于在计算损失函数时,对所述正确标注集、不确定标注集和错误标注集分别给予不同的权重,且错误标注集中样本的权重不超过不确定标注集中样本的权重,不确定标注集中样本的权重不超过正确标注集中样本的权重。

27、第四方面,本发明还提供一种电子设备,所述电子设备包括:

28、一个或多个处理器;

29、存储装置,用于存储一个或多个程序,

30、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的消除不适当标注样本影响的方法或者实现如第二方面所述的分类方法。

31、第五方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的消除不适当标注样本影响的方法或者实现如第二方面所述的分类方法。

32、本发明的有益效果是:本发明第一次给出了可行的不确定标注样本的识别与处理方法;同时本发明不需要对标注噪声做任何先验假设,从而从根本上避免了不切实际假设带来的偏差;此外本发明与模型无关,可以使用任何分类模型。本发明在公开数据集上进行了对比实验,说明了本发明的分类准确率高。



技术特征:

1.一种消除不适当标注样本影响的方法,其特征在于,包括:

2.根据权利要求1所述的消除不适当标注样本影响的方法,其特征在于,所述通过预测模型得到所有样本的预测类别的方法包括:

3.根据权利要求2所述的消除不适当标注样本影响的方法,其特征在于,所述通过预测模型对所有样本使用交叉验证法得到每个样本i的类别预测概率,预测概率值最大的类别即为该样本的预测类别的方法包括:

4.根据权利要求3所述的消除不适当标注样本影响的方法,其特征在于,所述根据所述预测类别与标注类别的异同,将所有样本判别为正确标注集ir、不确定标注集iw和错误标注集ie的方法包括:

5.根据权利要求1-4中任意一项所述的消除不适当标注样本影响的方法,其特征在于,所述正确标注集的权重取1,0<不确定标注的权重≤1,错误标注集的权重取0。

6.根据权利要求5所述的消除不适当标注样本影响的方法,其特征在于,0.6≤不确定标注的权重≤0.9。

7.一种分类方法,其特征在于,包括:

8.一种消除不适当标注样本影响的装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的消除不适当标注样本影响的方法或者实现如权利要求7所述的分类方法。


技术总结
本发明公开了一种消除不适当标注样本影响的方法、分类方法、设备及介质,消除不适当标注样本影响的方法包括:通过预测模型得到所有样本的预测类别,样本具有标注类别;根据预测类别与标注类别的异同,将所有样本判别为正确标注集、不确定标注集和错误标注集;计算损失函数时,对正确标注集、不确定标注集和错误标注集分别给予不同的权重,以消除不确定标注集和错误标注集中样本的影响;错误标注集中样本的权重不超过不确定标注集中样本的权重,不确定标注集中样本的权重不超过正确标注集中样本的权重。本发明不需要对标注噪声做任何先验假设,从而从根本上避免了不切实际假设带来的偏差。经过本发明处理后的样本,分类准确率明显提高。

技术研发人员:胡亮,展华益,王镜宇,陶原野,郑敏娥,刘孟红
受保护的技术使用者:四川启睿克科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1