文本数据标签优化方法、装置、设备及存储介质与流程

文档序号:37759651发布日期:2024-04-25 10:46阅读:5来源:国知局
文本数据标签优化方法、装置、设备及存储介质与流程

本发明涉及自然语言处理,尤其涉及一种文本数据标签优化方法、装置、设备及存储介质。


背景技术:

1、在机器学习领域中,数据标签错误是常见的问题之一。它会对训练模型的准确性产生重大影响,因为模型的预测取决于数据的正确性。即使是在大规模数据集中,也难免存在标签错误的情况,错误的标签会引导模型学习到错误的模式,这可能导致模型训练出现偏差,从而会学习到错误的决策边界,还有可能致使模型出现过拟合现象,导致模型在测试集上的准确率大大降低。因此,准确地识别和纠正标签错误数据是提高模型准确性的重要一环。

2、为了解决这个问题,一些常见的方法包括手动检测,半自动检测和自动检测。手动检测方法需要人工审核数据集,从而发现其中的标签错误数据,并将它们手动更正。这种方法虽然效果最好,但是非常费时费力,且在大数据上还会因为人工检测基准难以统一而出现事倍功半的问题;半自动检测方法则是将人工审核和机器学习结合起来。例如,一种常见的半自动方法是利用聚类技术自动将数据分组,并由人类审核确定哪些标签错误。这种方法可以更快地发现标签错误,但是仍然需要大量的人力,多人之间评价基准难以统一的问题也同样存在;自动检测方法则是使用深度学习技术来识别错误标签。例如,可以使用预训练语言模型的方法,自动检测标签错误。这种方法虽然可以节省人力,但数据本身的质量决定了模型的上限,仅仅是利用了大模型较好的鲁棒性和带噪学习能力,进而识别出部分带有错误标签的数据,并且在数据分布不均衡的情况下还是会出现偏差或者过拟合的情况,同时对硬件配置和资金方面的要求也很高。


技术实现思路

1、发明目的:提出一种文本数据标签优化方法,并进一步提出一种用于实现上述文本数据标签优化方法的系统,以解决现有技术存在的上述问题。

2、第一方面,提出一种文本数据标签优化方法,步骤如下:

3、s1、对预先设置的若干文本数据标签分布进行数据聚类,生成用于评测标签优化效果的评测集;

4、s2、采集含有错误信息的文本数据标签作为带噪数据,若干带噪数据形成带噪数据集,对所述带噪数据集进行建模推理,获得样本的真实标签和推理标签;

5、s3、计算步骤s2中所述带噪数据的推理标签与真实标签之间的共现分布;

6、s4、计算步骤s1中所述评测集的推理标签与真实标签之间的共现分布;

7、s5、根据所述带噪数据和所述评测集的共现分布,确定标签优化比例;

8、s6、根据步骤s5确定的所述标签优化比例对所述带噪数据进行标签更正,得到标签更正数据;

9、s7、将标签更正数据作为训练集训练新模型;

10、s8、通过所述评测集判断所述新模型的指标是否达标,若达标则跳转步骤s9,否则跳转步骤s1;

11、s9、输出所述标签更正数据。

12、在第一方面进一步的实施例中,步骤s1进一步包括:

13、s101、对预先设置的若干文本数据标签分布进行数据聚类,使得类簇个数与原标签个数相一致;

14、s102、将数据聚类后的文本数据标签分布与原文本数据标签分布的数据取交集;

15、s103、在保证wasserstein距离大于预定值的情况下,对每个交集内的数据抽取预定数量的样本x;

16、s104、根据所述样本x,利用cot方法编制相应的用于llm输入的prompt;

17、s105、通过sft和/或fsl方式激发llm在该领域的能力,引导llm生成所述样本x的真实标签yt;

18、s106、通过聚类模型在所述样本x的基础上获取相似度达到阈值标准的数据,一并作为评测集dt。

19、在第一方面进一步的实施例中,步骤s2进一步包括:

20、s201、将带噪数据集分为k份,对每一份带噪数据进行建模训练,在每个模型下获得每个样本i推理为标签j的条件概率p(yj|xi),选所述条件概率中的最大值为推理标签;

21、s202、计算每个标签j下的平均概率pj作为真实标签阈值;

22、s203、取样本i的第一高的条件概率p(yj|xi),若大于pj,则标签j为样本i的真实标签yt;若小于pj,则取样本i的第二高的条件概率p(yj|xi)。

23、在第一方面进一步的实施例中,步骤s3进一步包括:

24、s301、将真实标签和推理标签组成计数矩阵c,cmn即为真实标签为m且推理标签为n的样本数量;

25、s302、对矩阵c做归一化处理,获得共现分布q。

26、在第一方面进一步的实施例中,步骤s4进一步包括:

27、s401、根据步骤s201中的模型获得评测集dt的推理标签;

28、s402、根据s301和s302的步骤计算评测集dt的真实标签yt和其推理标签的共现分布qd。

29、在第一方面进一步的实施例中,步骤s5进一步包括:将共现分布q和共现分布qd非对角的同位置的数值取差值,得到标签优化比例l。

30、在第一方面进一步的实施例中,步骤s6进一步包括:

31、根据所述标签优化比例l,将共现分布q中每个位置对应的数据d做优化,若差值等于0,则不用优化;

32、若差值大于0,则数据d中有占比为l的数据不应该为s203中获得真实标签yt,则共现分布q中对应位置的值q-l的数据的真实标签应修改为对应qd的标签;

33、若差值小于0,则数据d中缺少占比为l,则从差值大于0情况下剔除的数据里选择l的数据,将其真实标签修改为对应qd的标签。

34、在第一方面进一步的实施例中,步骤s5进一步包括:

35、s801、在评测集上测试新业务模型的各项性能指标;

36、s802、若连续n轮相较前一模型提升低于预期指标或提升为负,则选取近n轮指标最高的模型所用的数据作为标签更正数据,直接执行步骤s9;

37、s803、若提升达到预期指标,则将此次训练数据作为标签更正数据,直接执行s9;

38、s804、若低于预期指标,则跳转执行s106,将相似度阈值按0.01的步长调高,后续s201中将k值按1的步长调高。

39、作为本发明的第二个方面,提出一种文本数据标签优化装置,该文本数据标签优化装置包括:

40、聚类单元,用于对预先设置的若干文本数据标签分布进行数据聚类,生成用于评测标签优化效果的评测集;

41、建模推理单元,用于采集含有错误信息的文本数据标签作为带噪数据,若干带噪数据形成带噪数据集,对所述带噪数据集进行建模推理,获得样本的真实标签和推理标签;

42、第一计算单元,用于计算所述带噪数据的推理标签与真实标签之间的共现分布;

43、第二计算单元,用于计算所述评测集的推理标签与真实标签之间的共现分布;

44、第三计算单元,用于根据所述带噪数据和所述评测集的共现分布,确定标签优化比例;

45、标签更正单元,用于根据所述标签优化比例对所述带噪数据进行标签更正,得到标签更正数据;

46、训练单元,用于将所述标签更正数据作为训练集训练新模型;

47、判断单元,用于通过所述评测集判断所述新模型的指标是否达标,若达标则反馈至输出单元,否则反馈至所述聚类单元;

48、输出单元,用于输出所述标签更正数据。

49、作为本发明的第三个方面,提出一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如第一方面所述的文本数据标签优化方法。

50、作为本发明的第四个方面,提出一种计算机可读存储介质,存储介质中存储有至少一个可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如第一方面所述的文本数据标签优化方法。

51、有益效果:相比于现有技术,本发明提出的文本数据标签优化方法,可以对样本数据进行合理压缩和扩增,可以有效降低对大语言模型的使用频率,并配合精心编制的prompt,激发出大语言模型强大的语义理解和生成能力,进而编制出高可信的评测集。再在此基础上计算出带噪数据的预测标签和真实标签之间的共现分布,随着数据规模的扩大和交叉验证的推算,计算出来的共现分布可以充分反映真实世界中的噪声标签和真实标签的分布,从而对错误标签的筛选具备高准确率,大幅减少检测错误情况的出现。

52、此外,本发明是一种文本数据标签自适应优化的方法,通过聚类算法和wasserstein距离挑选出准确率较高的候选评测集;通过较低频率的大语言模型调用,可以在较少的成本上,融合学习大模型的较强文本理解能力,确保评测集的准确;通过联合概率分布和条件概率的计算,在候选错误标签的选择上具有较高的可解释性和置信度。相比人工检测错误标签,本方法自动高效,人工成本极低;相比自动检测,本方法采用多层聚类方案,可以高性价比的应用大语言模型的能力,从而大幅降低对算力、硬件和资金的依赖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1