样本标注方法、介质以及电子设备与流程

文档序号:36655478发布日期:2024-01-06 23:42阅读:24来源:国知局
样本标注方法、介质以及电子设备与流程

本公开涉及计算机,具体地,涉及一种样本标注方法、介质以及电子设备。


背景技术:

1、机器学习模型通常需要使用大量的训练样本数据对其进行训练,从而获得准确的机器学习模型。在相关技术中,为了生产用于机器学习模型训练的样本数据集,需要花费大量的时间以及人力对样本进行标注。因此,如何降低人工标注的成本是机器学习领域亟需解决的技术问题。


技术实现思路

1、提供该
技术实现要素:
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、第一方面,本公开提供一种样本标注方法,包括:

3、获取目标数据集,其中所述目标数据集包括多个未标注的初始样本;

4、将所述目标数据集中的未标注的初始样本分批次输入预测模型,获得每一所述未标注的初始样本对应的预标注结果;

5、根据所述预标注结果,结合主动学习算法或判别模型,在所述未标注的初始样本中,选取一个批次的目标初始样本,其中所述一个批次包括目标数量个目标初始样本;

6、根据所述目标初始样本对应的预标注结果,对所述目标初始样本进行标注,获得标注后的目标初始样本;

7、基于所述标注后的目标初始样本,对所述预测模型进行重新训练,获得训练后的预测模型,并返回执行将所述目标数据集中的未标注的初始样本分批次输入预测模型,获得每一所述未标注的初始样本对应的预标注结果的步骤,直至所述预测模型的指标满足预设条件,获得训练完成的预测模型,其中所述训练完成的预测模型用于对所述目标数据集中剩余的未标注的初始样本进行标注。

8、第二方面,本公开提供一种样本标注方法,所述方法包括:

9、标注平台获取目标数据集,其中所述目标数据集包括多个未标注的初始样本;

10、所述标注平台向机器学习平台发送所述目标数据集中的未标注的初始样本;

11、所述机器学习平台接收所述标注平台发送的所述未标注的初始样本,并将所述未标注的初始样本分批次输入部署在所述机器学习平台上的预测模型,获得每一所述未标注的初始样本对应的预标注结果;

12、所述机器学习平台根据所述预标注结果,结合主动学习算法或判别模型,在所述未标注的初始样本中,选取一个批次的目标初始样本,其中所述一个批次包括目标数量个目标初始样本;

13、所述机器学习平台将所述目标初始样本以及所述目标初始样本对应的所述预标注结果发送至标注平台;

14、所述标注平台根据所述目标初始样本对应的预标注结果,对所述目标初始样本进行标注,获得标注后的目标初始样本;

15、所述标注平台向所述机器学习平台发送所述标注后的目标初始样本;

16、所述机器学习平台基于所述标注后的目标初始样本,对所述预测模型进行重新训练,获得训练后的预测模型;

17、返回执行所述标注平台向机器学习平台发送所述目标数据集中的未标注的初始样本的步骤,直至所述预测模型的指标满足预设条件,获得训练完成的预测模型,其中所述训练完成的预测模型用于对所述目标数据集中剩余的未标注的初始样本进行标注。

18、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述的方法的步骤。

19、第四方面,本公开提供一种电子设备,包括:

20、存储装置,其上存储有计算机程序;

21、处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述的方法的步骤。

22、基于上述技术方案,通过获取目标数据集,其中目标数据集包括多个未标注的初始样本,将目标数据集中的未标注的初始样本分批次输入预测模型,获得每一未标注的初始样本对应的预标注结果,根据预标注结果,结合主动学习算法或判别模型,在未标注的初始样本中,选取一个批次的目标初始样本,并对目标初始样本进行标注,获得标注后的目标初始样本,基于标注后的目标初始样本,对预测模型进行重新训练,获得训练后的预测模型,并返回执行将目标数据集中的未标注的初始样本分批次输入预测模型,获得每一初始样本对应的预标注结果的步骤,直至预测模型的指标满足预设条件,可以在边标边训的框架下,结合主动学习算法或判别模型对未标注的初始样本进行标注,随着预测模型输出的预标注结果越来越准确,对未标注的初始样本的标注速度也会越快,从而降低对样本进行标注的成本。

23、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。



技术特征:

1.一种样本标注方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述初始样本包括文本样本,所述预测模型包括命名实体识别模型,所述预标注结果包括所述命名实体识别模型输出的转移概率矩阵,所述转移概率矩阵包括所述文本样本中的词元对应的文本标签以及该文本标签对应的转移概率值;

3.根据权利要求2所述的方法,其特征在于,所述根据所述转移概率矩阵,结合主动学习算法,在未标注的初始样本中,选取一个批次的目标初始样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述目标初始样本对应的预标注结果,对所述目标初始样本进行标注,获得标注后的目标初始样本,包括:

5.根据权利要求4所述的方法,其特征在于,所述通过标注平台展示所述目标初始样本以及所述目标初始样本对应的预标注结果,包括:

6.根据权利要求1所述的方法,其特征在于,所述训练完成的预测模型还用于对与所述初始样本同类别的数据进行分类。

7.一种样本标注方法,其特征在于,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述初始样本包括文本样本,所述预测模型包括命名实体识别模型,所述预标注结果包括所述命名实体识别模型输出的转移概率矩阵,所述转移概率矩阵包括所述文本样本中的词元对应的文本标签以及该文本标签对应的转移概率值;

9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-6中任一项所述的方法的步骤。

10.一种电子设备,其特征在于,包括:


技术总结
本公开涉及一种样本标注方法、介质以及电子设备,涉及计算机技术领域,该方法通过将未标注的初始样本分批次输入预测模型,获得每一未标注的初始样本对应的预标注结果,根据预标注结果,结合主动学习算法或判别模型,在未标注的初始样本中,选取一个批次的目标初始样本,并对目标初始样本进行标注,获得标注后的目标初始样本,基于标注后的目标初始样本,对预测模型进行重新训练,获得训练后的预测模型,并重复执行上述步骤,直至预测模型的指标满足预设条件,可以通过边标边训的方式以及主动学习算法对样本进行标注,随着预测模型输出的预标注结果越来越准确,对未标注的初始样本的标注速度越快,从而降低对样本进行标注的样本。

技术研发人员:许瑾
受保护的技术使用者:抖音视界有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1