训练样本处理方法、数据分类方法、装置以及电子设备与流程

文档序号：36179688发布日期：2023-11-29 15:33阅读：70来源：国知局

本技术涉及人工智能、云技术以及智慧交通，具体而言，本技术涉及一种训练样本处理方法、数据分类方法、装置以及电子设备。

背景技术：

1、随着人工智能技术研究和进步，人工智能技术已经在多个领域展开研究和应用。机器学习是人工智能的核心，是使计算机具有智能的根本途径，通过机器学习可以训练得到满足应用需求的神经网络模型。对于神经网络模型的训练，监督学习是目前研究较为广泛的一种机器学习方式。

2、监督学习也称为监督训练，是利用标注有标签的训练样本学习得到一个满足性能要求的神经网络模型。监督学习需要大量带有标签的训练样本，标签的标注往往是人为给出的。虽然目前的标注方式在一定程度上能够满足应用需求，但由于是由人工标注，标注标准的一致性较难保证，另外，在标注过程中很有可能会遇到之前未曾预料的数据样本，在标注时较难分辨，而由于标注人员往往缺乏专业性，很难保证所标注的这些样本的标签的准确性，不利于后续的模型训练。因此，如何提升训练样本的质量是机器学习中需要解决的重要问题之一。

技术实现思路

1、本技术实施例的目的旨在提供一种能够有效提升训练样本质量的训练样本处理方法，以及基于该训练样本处理方法的数据分类方法、装置以及电子设备。为了实现上述目的，本技术实施例提供的技术方案如下：

2、一方面，本技术实施例提供了一种训练样本处理方法，该方法包括：

3、获取待训练的初始神经网络模型和所述初始神经网络模型对应的初始训练数据集，其中，所述初始训练数据集包括n个样本子集，n≥2，每个所述样本子集包括带有标注标签的多个训练样本；

4、基于每个所述样本子集对所述初始神经网络模型分别进行训练，得到n个第一神经网络模型；

5、对于每个所述样本子集，采用该样本子集对应的n-1个第一神经网络模型分别对该样本子集中的每个训练样本进行识别，得到每个训练样本的n-1个第一预测标签，每个所述样本子集对应的n-1个第一神经网络模型，是指所述n个第一神经网络模型中除该样本子集对应的第一神经网络模型之外的n-1个模型；

6、对于每个所述训练样本，若该训练样本的n-1个第一预测标签中与该训练样本的标注标签相同的标签的第一数量不小于第一设定数量，则将该训练样本确定为第一目标样本；

7、基于确定出的各第一目标样本，构建所述初始神经网络模型对应的目标训练数据集。

8、另一方面，本技术实施例提供了一种数据分类方法，该方法包括：

9、获取待分类数据；将所述待分类数据输入到目标分类模型中，得到所述待分类数据的类别识别结果；

10、其中，所述目标分类模型是采用带有标注标签的目标训练数据集对初始分类模型进行训练得到的，所述目标训练样本集是采用本技术实施例提供的训练样本处理方法，对所述初始分类模型的初始训练数据集进行处理得到的，所述目标训练数据集中的每个训练样本的标注标签表征了所述训练样本的真实类别。

11、另一方面，本技术实施例提供了一种训练样本处理装置，该装置包括：

12、初始训练集获取模块，用于获取待训练的初始神经网络模型和所述初始神经网络模型对应的初始训练数据集，其中，所述初始训练数据集包括n个样本子集，n≥2，每个所述样本子集包括带有标注标签的多个训练样本；

13、样本处理模块，用于基于所述初始训练数据集执行以下处理：

14、基于每个所述样本子集对所述初始神经网络模型分别进行训练，得到n个第一神经网络模型；

15、对于每个所述样本子集，采用该样本子集对应的n-1个第一神经网络模型对该样本子集中的每个训练样本进行识别，得到每个训练样本的n-1个第一预测标签，每个所述样本子集对应的n-1个第一神经网络模型，是指所述n个第一神经网络模型中除该样本子集对应的第一神经网络模型之外的n-1个模型；

16、对于每个所述训练样本，若该训练样本的n-1个第一预测标签中与该训练样本的标注标签相同的标签的第一数量不小于第一设定数量，则将该训练样本确定为第一目标样本；

17、目标训练集获取模块，用于基于确定出的各第一目标样本，构建所述初始神经网络模型对应的目标训练数据集。

18、可选的，样本处理模块还用于：将确定出的所有第一目标样本作为第一目标样本集，基于所述第一目标样本集对所述初始神经网络模型进行训练，得到第二神经网络模型；将所述初始训练数据集中除第一目标样本之外的训练样本作为待定样本，基于所述第二神经网络模型对每个所述待定样本进行识别，得到每个所述待定样本的第二预测标签；基于每个所述待定样本的第二预测标签，确定各所述待定样本中的第二目标样本；

19、相应的，目标训练集获取模块可以用于：基于确定出的各第一目标样本和各第二目标样本，构建所述目标训练数据集。

20、可选的，样本处理模块可以用于：对于所述n个样本子集中的每个样本子集，将该样本子集中所有各待定样本作为一个第一待定子集；将n个第一待定子集分为m个第二待定子集，其中，n≥m≥2，每个第二待定子集包括至少一个第一待定子集，每个所述第一待定子集只属于一个第二待定子集；将所述第一目标样本集与m个第二待定子集分别进行合并，得到m个第一混合样本集，基于每个所述第一混合样本集对所述初始神经网络模型分别进行训练，得到m个第二神经网络模型；

21、对于每个所述待定样本，采用该待定样本对应的m-1个第二神经网络模型分别对该待定样本进行识别，得到该待定样本的m-1个第二预测标签，该待定样本对应的m-1个第二神经网络模型，是指所述m个第二神经网络模型中除第一模型之外的m-1个模型，所述第一模型是该待定样本所属的第一混合样本集对应的第二神经网络模型；

22、基于每个所述待定样本的m-1个第二预测标签，确定各所述待定样本中的第二目标样本。

23、可选的，样本处理模块在确定各所述待定样本中的第二目标样本时，可以用于：对于每个所述待定样本，若该待定样本的m-1个第二预测标签中与该待定样本的标注标签相同的标签的第二数量不小于第二设定数量，则将该待定样本确定为第二目标样本。

24、可选的，样本处理模块还用于：对于每个所述第一待定子集，将该待定子集中除第二目标样本之外的各待定样本作为罕见样本，重新获取每个所述罕见样本的新的标注标签，并将带有新的标注标签的罕见样本作为第三目标样本；

25、相应的，目标训练集获取模块可以用于：基于所述各第一目标样本、各第二目标样本和各第三目标样本，构建所述目标训练数据集。

26、可选的，样本处理模块在重新获取每个所述罕见样本的新的标注标签时可以用于：

27、将确定出的所有第一目标样本和所有第二目标样本合并，得到第二目标样本集；对于每个所述第一待定子集，将该待定子集中的所有罕见样本作为一个第一罕见样本集；将n个第一罕见样本集分为k个第二罕见样本集，其中，n≥k≥2，每个所述第二罕见样本集包括至少一个第一罕见样本集，每个所述第一罕见样本集只属于一个第二罕见样本集；将所述第二目标样本集与每个所述第二罕见样本集分别进行合并，得到k个第二混合样本集；基于每个所述第二混合样本集对所述初始神经网络模型分别进行训练，得到k个第三神经网络模型；对于每个所述第二罕见样本集，采用除该第二罕见样本集对应的第三神经网络模型之外的k-1个第三神经网络模型，分别对该第二罕见样本集中的每个罕见样本进行识别，得到每个罕见样本的k-1个第三预测标签；对于每个所述罕见样本，将该罕见样本的n-1个第三预测标签中占比最高的预测标签，确定为该罕见样本的新的标注标签。

28、可选的，样本处理模块在基于每个所述待定样本的m-1个第二预测标签，确定各所述待定样本中的第二目标样本时，可以用于：

29、对于每个所述待定样本，将该待定样本的m-1个第二预测标签中占比最高的预测标签，确定为该待定样本的新的标注标签；将带有新的标注标签的各所述待定样本分别作为第二目标样本。

30、可选的，样本处理模块还可以用于：

31、将所述n个样本子集中的至少一个样本子集作为参考数据集，对于每个所述参考数据集，基于所述n个样本子集，构建该参考数据集对应的第一训练集、第二训练集、第三训练集和测试集，其中，所述第一训练集包括该参考数据集中的至少部分训练样本、以及除该参考数据集之外的n-1个样本子集中的至少部分训练样本，所述第二训练集是除该参考数据集之外的n-1个样本子集中的至少部分训练样本，所述第三训练集和所述测试集中的训练样本是该参考数据集中的至少部分训练样本，所述测试集中的训练样本和所述第三训练集中的训练样本不同；

32、对于每个所述参考数据集，基于该参考数据集对应的3个训练集分别对所述初始神经网络模型进行训练，得到3个第四神经网络模型，并基于所述测试集和模型评估指标，对每个所述第四神经网络模型进行性能评估，得到每个所述第四神经网络模型的指标值，基于3个第四神经网络模型对应的3个指标值，确定对应于该参考数据集的所述初始训练数据集的数据质量；

33、若各所述参考数据集对应的数据质量满足预设的数据质量条件，将所述初始训练数据集作为所述目标训练数据集；

34、样本处理模块可以用于：在各所述参考数据集对应的数据质量不满足预设的数据质量条件，则基于每个所述样本子集对所述初始神经网络模型分别进行训练。

35、可选的，所述初始神经网络模型为初始分类模型，每个所述训练样本的标注标签为标注的所述训练样本的真实类别；对应每个样本子集，样本处理模块在采用该样本子集n-1个第一神经网络模型分别对该子集中的每个训练样本进行识别，得到每个训练样本的n-1个第一预测标签时，可以用于：采用该样本子集对应的n-1个第一神经网络模型分别对该样本子集中的每个训练样本进行分类识别，得到每个训练样本的n-1个第一预测标签，其中，所述第一预测标签为预测出的所述训练样本的类别。

36、另一方面，本技术实施例还提供了一种数据分类装置，该装置包括：

37、数据获取模块，用于获取待分类数据；

38、数据处理模块，用于将所述待分类数据输入到目标分类模型中，得到所述待分类数据的类别识别结果；

39、其中，所述目标分类模型是采用带有标注标签的目标训练数据集对初始分类模型进行训练得到的，所述目标训练样本集是采用本技术任一可选实施例中提供的训练样本处理方法，对所述初始分类模型的初始训练数据集进行处理得到的，所述目标训练数据集中的每个训练样本的标注标签表征了所述训练样本的真实类别。

40、再一方面，本技术实施例还提供了一种电子设备，该电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过执行所述计算机程序以实现本技术实施例提供的训练样本处理方法，或者实现本技术实施例提供的数据分类方法。

41、本技术实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本技术实施例提供的训练样本处理方法，或者实现本技术实施例提供的数据分类方法。

42、本技术实施例还提供了一种计算机程序产品，该计算机产品包括计算机程序，所述计算机程序被处理器执行时实现本技术实施例提供的训练样本处理方法，或者实现本技术实施例提供的数据分类方法。

43、本技术实施例提供的技术方案带来的有益效果如下：

44、本技术实施例提供的训练样本处理方法，可以基于初始训练数据集中的训练样本自身，可以自动化、高效快速的筛选出初始训练数据集中高质量的目标样本(即第一目标样本)，从而可以基于筛选出的这些高质量的目标样本构建高质量的目标训练数据集，为训练得到高性能的神经网络模型提供了基础，由于该过程实现可以无需依靠人力完成，因此，在提高了是样本校验效率的同时，还可以大大减少人力资源，可以更好的满足实际应用需求。

45、该训练样本处理方法在实现时，对于初始训练数据集中的每个样本子集，可以采用初始训练数据集中其他多个样本子集训练得到的第一神经网络模型，对该样本子集中的每个训练样本进行预测识别，得到第一预测标签，由于每个训练样本都具有标注标签，如果训练样本的标注标签是正确的、各样本子集中训练样本的标注一致性是比较高的，那么通过其他样本子集训练出的模型所预测出训练样本的第一预测标签中应是与该训练样本的标注标签是一致的，因此，可以基于样本的第一预测标签和真实标签筛选出的第一目标样本的标注质量是由保证的，可以作为目标训练数据集中的样本。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋乐怡
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。