基于动态新兴标记的偏标签学习方法、装置、设备及介质

文档序号:37925560发布日期:2024-05-11 00:04阅读:5来源:国知局
基于动态新兴标记的偏标签学习方法、装置、设备及介质

本发明涉及数据处理领域,具体涉及基于动态新兴标记的偏标签学习方法、装置、设备及介质。


背景技术:

1、偏标记学习(pll),也称为模糊标签学习或超集学习,其处理的问题是每个训练样例与一组候选标签相关联,其中只有一个与真值标签相对应。例如,在图1中,老虎有四个候选标签{孟加拉虎、华南虎、印度虎、苏门答腊虎},然而,老虎的具体标签是未知的,pll的任务就是为老虎匹配正确的标签。与普通的监督学习问题相比,pll减少了为每个实例手动标记真实标签的成本,这已经成功地应用于现实世界的领域,如文本分类、生态信息学和多媒体内容分析。

2、虽然当前市面上的pll学习已经取得了巨大进展,但是大多数现有工作中会明确假设在学习过程中需要一次性提供所有标签,因此,它们只能处理静态标签设置,这通常与现实应用程序运行的环境不太一致。而实际上,随着数据的不断到达,标签的数量会不断增加,甚至可以出现以前从未出现过的新标签。例如,在事件检测问题中,可以用一组标签对事件进行注释,但只有一个标签是正确的。此外,还迫切需要及时有效地调查早期发现系统排除在外的新出现的事件。

3、有鉴于此,提出本申请。


技术实现思路

1、本发明提供了一种基于动态新兴标记的偏标签学习方法、装置、设备及介质,能至少部分的改善上述问题。

2、为实现上述目的,本发明采用以下技术方案:

3、一种基于动态新兴标记的偏标签学习方法,其包括:

4、获取待处理的偏标签数据集,并采用预设的聚类技术对所述偏标签数据集的粒度进行细化处理,生成簇集合;

5、对所述簇集合进行计算处理,计算所述簇集合中每个样本数据在其所属簇内的最近邻,并结合每个样本数据的最近邻,根据最近邻样本标记一致性原则计算标记置信度矩阵;

6、根据特征诱导对所述标记置信度矩阵进行迭代更新处理,直至所述标记置信度矩阵收敛,或者迭代达到预设最大迭代次数,并选择所述标记置信度矩阵中标签置信度最大的标签作为每个样本数据的真值标签,完成标签消歧;

7、获取所述特征诱导产生的所述标记置信度矩阵中每个标记的类属特征训练集,根据所述类属特征训练集集成分类器模型,并构建损失函数计算每个标记下各集成分类器的权重;

8、根据训练好的估计模型和分类器的权重对数据流样本进行新兴标记的检测处理,同时对已知的标记进行粗略的估计,当判断到新兴标记样本达到预设的缓冲池最大容量时,对所述估计模型进行更新,直至当前的到达样本为偏标记数据中的最后一个到达样本时,得到最终分类结果,并进行输出。

9、本发明实施例还提供了一种基于动态新兴标记的偏标签学习装置,其包括:

10、簇集合生成单元,用于获取待处理的偏标签数据集,并采用预设的聚类技术对所述偏标签数据集的粒度进行细化处理,生成簇集合;

11、标记置信度矩阵生成单元,用于对所述簇集合进行计算处理,计算所述簇集合中每个样本数据在其所属簇内的最近邻,并结合每个样本数据的最近邻,根据最近邻样本标记一致性原则计算标记置信度矩阵;

12、标签消歧单元,用于根据特征诱导对所述标记置信度矩阵进行迭代更新处理,直至所述标记置信度矩阵收敛,或者迭代达到预设最大迭代次数,并选择所述标记置信度矩阵中标签置信度最大的标签作为每个样本数据的真值标签,完成标签消歧;

13、权重计算单元,用于获取所述特征诱导产生的所述标记置信度矩阵中每个标记的类属特征训练集,根据所述类属特征训练集集成分类器模型,并构建损失函数计算每个标记下各集成分类器的权重;

14、最终分类结果生成单元,用于根据训练好的估计模型和分类器的权重对数据流样本进行新兴标记的检测处理,同时对已知的标记进行粗略的估计,当判断到新兴标记样本达到预设的缓冲池最大容量时,对所述估计模型进行更新,直至当前的到达样本为偏标记数据中的最后一个到达样本时,得到最终分类结果,并进行输出。

15、本发明实施例还提供了一种基于动态新兴标记的偏标签学习设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的基于动态新兴标记的偏标签学习方法。

16、本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的基于动态新兴标记的偏标签学习方法。

17、综上所述,所述基于动态新兴标记的偏标签学习方法首先通过基于概率估计的候选标签置信度和基于特征诱导的候选标签置信度更新两阶段交替过程,利用训练实例的近邻信息来迭代构建标签置信度矩阵,进而完成偏标记消歧;然后通过迭代过程产生的类属特征构建分类模型,集成多个类属特征空间对待测样本进行分类,检测待测样本是否具有新兴标记;最后构建模型更新策略使得模型可以适应新兴标记数据。所述基于动态新兴标记的偏标签学习方法将集成思想与邻域知识应用于基于动态新兴标记的偏标签学习算法,为动态新兴标记的偏标记环境提供了一个高性能的分类算法。



技术特征:

1.一种基于动态新兴标记的偏标签学习方法,其特征在于,包括:

2.根据权利要求1所述的基于动态新兴标记的偏标签学习方法,其特征在于,采用预设的聚类技术对所述偏标签数据集的粒度进行细化处理,生成簇集合,具体为:

3.根据权利要求2所述的基于动态新兴标记的偏标签学习方法,其特征在于,对所述簇集合进行计算处理,计算所述簇集合中每个样本数据在其所属簇内的最近邻,并结合每个样本数据的最近邻,根据最近邻样本标记一致性原则计算标记置信度矩阵,具体为:

4.根据权利要求3所述的基于动态新兴标记的偏标签学习方法,其特征在于,基于特征诱导对所述标记置信度矩阵进行迭代更新处理,直至所述标记置信度矩阵收敛,或者迭代达到预设最大迭代次数,并选择所述标记置信度矩阵中标签置信度最大的标签作为每个样本数据的真值标签,完成标签消歧,具体为:

5.根据权利要求4所述的基于动态新兴标记的偏标签学习方法,其特征在于,获取所述特征诱导产生的所述标记置信度矩阵中每个标记的类属特征训练集,根据所述类属特征训练集集成分类器模型,并构建损失函数计算每个标记下各集成分类器的权重,具体为:

6.根据权利要求5所述的基于动态新兴标记的偏标签学习方法,其特征在于,所述估计模型的公式为:

7.一种基于动态新兴标记的偏标签学习装置,其特征在于,包括:

8.一种基于动态新兴标记的偏标签学习设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至6任意一项所述的基于动态新兴标记的偏标签学习方法。

9.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至6任意一项所述的基于动态新兴标记的偏标签学习方法。


技术总结
本发明提供了基于动态新兴标记的偏标签学习方法、装置、设备及介质,涉及数据处理领域,该方法中首先通过基于概率估计的候选标签置信度和基于特征诱导的候选标签置信度更新两阶段交替过程,利用训练实例的近邻信息来迭代构建标签置信度矩阵,进而完成偏标记消歧;然后通过迭代过程产生的类属特征构建分类模型,集成多个类属特征空间对待测样本进行分类,检测待测样本是否具有新兴标记;最后构建模型更新策略使得模型可以适应新兴标记数据。本发明将集成思想与邻域知识应用于基于动态新兴标记的偏标签学习算法,为动态新兴标记的偏标记环境提供了一个高性能的分类算法。

技术研发人员:刘景华,魏威,林耀进,张洪博
受保护的技术使用者:华侨大学
技术研发日:
技术公布日:2024/5/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1