基于数据不确定性和多样性的主动学习方法、设备和存储介质

文档序号：35404308发布日期：2023-09-09 19:06阅读：57来源：国知局

本发明涉及图像处理，尤其涉及基于一种基于数据不确定性和多样性的主动学习方法、设备和存储介质。

背景技术：

1、在飞速发展的大数据时代，各种各样的图像数据也随之日益增多，例如医疗图像、无人驾驶、异常检测、基于互联网大数据的相关技术领域都有着数据标注成本高、标注难度大的问题。因此，主动学习应运而生，主动学习是一种通过主动选择最有价值的样本进行标注的机器学习或人工智能方法。目前，主动学习可以分为三种类型：基于流的查询、查询获取和查询合成方法。

2、其中，查询获取要是通过不同的采样策略来选择高信息含量的样本数据，其目的是使用尽可能少的、高质量的样本标注，使模型达到尽可能好的性能。也就是说，主动学习方法能够提高样本及标注的增益，在有限标注预算的前提下，最大化模型的性能，是一种从样本的角度，提高数据效率的方案。

3、查询获取中，主要有三种方法：基于数据的不确定性、基于数据的多样性以及他们的组合，来选择信息含量较高的样本数据去构建一个分类模型。现有技术中，基于不确定性的方法采集的样本特征会比较相似，导致采样冗余问题，不能选取信息含量更高的样本数据，并且在该方法中不能很好的衡量样本不确定性程度；而基于多样性的方法主要关注于样本的特征多样性，忽视位于模型决策边界附近的样本，导致需要人工注释大量的样本才能找到模型最佳的决策边界，因此现有技术存在不能很好的衡量样本不确定性程度、不能选取信息含量更高的样本数据、需要付出大量的人工注释成本、模型的性能有待提高的问题。

技术实现思路

1、本发明主要解决的技术问题是提供一种基于数据不确定性和多样性的主动学习方法、设备和存储介质，解决不能很好的衡量样本不确定性程度、不能选取信息含量更高的样本数据、需要付出大量的人工注释成本、模型的性能有待提高的问题。

2、为解决上述技术问题，本发明采用的一个技术方案是提供一种基于数据不确定性和多样性的主动学习方法，包括步骤：

3、第一步，在第一未标记数据集中，随机选取部分样本进行人工注释，形成第一标记数据rl，并把第一标记数据rl从第一未标记数据集中提取出来，放入第一标记数据集并更新去除第一标记数据rl的未标记数据集为第二未标记数据集

4、第二步，利用第一标记数据集中的第一标记数据rl，进行标注分类模型训练，形成初始标注分类模型wb。

5、第三步，利用初始标注分类模型wb，计算第二未标记数据集中每个未标记数据对应的不确定性程度c。

6、第四步，先从第二未标记数据集中选取b-b个第一选择样本，并且对应的不确定性程度c等于或大于预设标准值，再从第二未标记数据集中另外选取b个第二选择样本，并且对应的多样性指标达到预设要求，由第一选择样本和第二选择样本组合成为b个高信息量样本qu，其中b为预设的高信息量样本qu的数量。

7、第五步，对b个高信息量样本qu进行人工注释，形成第二标记数据ql；

8、第六步，将第二标记数据ql从第二未标记数据集中提取出来，并加入到第一标记数据集中，作为下一轮迭代训练开始时的第一标记数据集；第二未标记数据集被提取第二标记数据ql后，作为下一轮迭代训练开始时的第一未标记数据集。

9、第七步，开始下一轮迭代训练，重复上述步骤，直至达到预期的分类性能或迭代次数后，停止迭代，形成最终标注分类模型we。

10、优选的，利用初始标注分类模型wb，计算第二未标记数据集中每个未标记数据对应的不确定性程度c包括：

11、根据初始标注分类模型wb推测出未标记数据的概率估计向量p；使用概率估计向量p，根据不确定性程度计算方法计算未标记数据的不确定性程度c。

12、优选的，概率估计向量p表示为：

13、p(yi＝j|xi；w)

14、其中，xi代表第i个未标记数据，yi代表第i个经初始标注分类模型wb预测后的伪标签数据，j代表未标记数据xi属于第j类，w代表预测网络卷积神经网络的参数。

15、优选的，不确定性程度计算方法为：

16、

17、其中，c代表不确定性程度；p1(yi＝j|xi；w)代表样本数据xi经所述初始标注分类模型wb预测后的伪标签数据yi，属于第j类的最大概率估计向量值；p2(yi＝j|xi；w)代表样本数据xi经所述初始标注分类模型wb预测后的伪标签数据yi，属于第j类的第二大概率估计向量值。

18、优选的，先从第二未标记数据集中选取b-b个第一选择样本，并且对应的不确定性程度c等于或大于预设标准值的方法，包括：对未标记数据集的不确定性程度c值进行升序或者降序排列，预设标准值为倒数第b-b个或者正数第b-b个未标记数据的c值，对应依次选取后b-b个或者前b-b个样本。

19、优选的，多样性指标达到预设要求为：将所有标记的样本和率先基于不确定性选择的b-b样本视为中心点，以一定的半径向外画圆，使其对其他未标记数据集中的未标记样本点的覆盖半径最小化，选择出b个具有多样性的未标记样本。

20、优选的，训练标注分类模型的神经网络包括resnet18、imagenet或resnet50。

21、本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令，处理器执行指令时实现前述的主动学习方法。

22、本发明还提供一种计算机存储介质，计算机存储介质存储有计算机可执行指令，计算机可执行指令被执行时实现前述的主动学习方法。

23、本发明的有益效果是：上述的基于数据不确定性和多样性的主动学习方法，通过样本的多样性来缓解不确定性带来的冗余问题，以此选出信息含量更高的样本数据，获得更好的采样效果，最终得到一个分类性能较好的标注分类模型，该模型降低了人工标注成本，实现不错的分类效果。在该主动学习方法过程中，还提出了一种计算样本不确定性程度的方法，使样本的不确定性程度能够有一个更好的衡量标准。

技术特征：

1.一种基于数据不确定性和多样性的主动学习方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于数据不确定性和多样性的主动学习方法，其特征在于，

3.根据权利要求2所述的基于数据不确定性和多样性的主动学习方法，其特征在于，所述概率估计向量p表示为：

4.根据权利要求3所述的基于数据不确定性和多样性的主动学习方法，其特征在于，所述不确定性程度计算方法为：

5.根据权利要求4所述的基于数据不确定性和多样性的主动学习方法，其特征在于，所述先从所述第二未标记数据集中选取b-b个第一选择样本，并且对应的所述不确定性程度c等于或大于预设标准值的方法，包括：对所述未标记数据集的不确定性程度c值进行升序或者降序排列，所述预设标准值为倒数第b-b个或者正数第b-b个所述未标记数据的c值，对应依次选取后b-b个或者前b-b个样本。

6.根据权利要求5所述的基于数据不确定性和多样性的主动学习方法，其特征在于，所述多样性指标达到预设要求为：将所有标记的样本和率先基于不确定性选择的b-b样本视为中心点，以一定的半径向外画圆，使其对其他所述未标记数据集中的未标记样本点的覆盖半径最小化，选择出b个具有多样性的所述未标记样本。

7.根据权利要求1所述的基于数据不确定性和多样性的主动学习方法，其特征在于，所述训练标注分类模型的神经网络包括resnet18、imagenet或resnet50。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令，其特征在于，所述处理器执行所述指令时实现权利要求1至7任一项所述的主动学习方法。

9.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，其特征在于，所述计算机可执行指令被执行时实现权利要求1至7任一项所述的主动学习方法。

技术总结
本发明公开了一种基于数据不确定性和多样性的主动学习方法；该方法包括首先需要随机选取部分样本，进行人工注释，形成已标记数据；然后用已标记数据进行模型训练；接着，用训练过的初始标注分类模型，估计未标记数据的不确定性；随后，根据未标记样本的不确定性程度，选择出多个不确定性程度高的样本，基于之前已标记样本和根据不确定性程度选择出的样本，再选择出多个具有多样性的数据样本，组合成具有高信息量的混合样本，将其进行人工标注；然后，本发明把标记后的数据合并到标记的数据集，并且从未标记数据集中将其删除，然后迭代，分类模型会用越来越多的已标记数据进行训练，经过多次的迭代，标注分类模型性能也会逐渐随之提高。

技术研发人员：陈丽,温瑞华,徐明亮,姜晓恒,酒明远,李书攀,卢洋
受保护的技术使用者：郑州大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈丽温瑞华徐明亮姜晓恒酒明远李书攀卢洋
技术所有人：郑州大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。