工业数据集构建方法、装置及电子设备与流程

文档序号:37428490发布日期:2024-03-25 19:18阅读:7来源:国知局
工业数据集构建方法、装置及电子设备与流程

本申请属于图像处理,尤其涉及一种工业数据集构建方法、装置及电子设备。


背景技术:

1、自监督模型是一种机器学习技术,它使用未标记的数据进行预训练,然后在有标签的数据上进行微调以解决特定任务。在工业场景中,标记数据的过程会极大地浪费人力资源,近年来,自监督模型在工业场景中应用广泛。

2、目前,工业场景中通常直接将某一个公开的工业数据集或者混合多个公开的工业数据集的合集作为自监督模型的预训练数据集,预训练数据集的数据质量较差,基于目前的预训练数据集对自监督模型进行自监督预训练,会极大地限制自监督模型的性能。


技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种工业数据集构建方法、装置及电子设备,可以提高工业数据集质量,保证数据多样性和丰富度,有助于提高自监督预训练效果。

2、第一方面,本申请提供了一种工业数据集构建方法,该方法包括:

3、获取第一工业样本图像集,所述第一工业样本图像集中包括多个工业样本图像;

4、基于所述多个工业样本图像的图像特征,进行聚类,得到多个工业样本图像簇;

5、基于所述工业样本图像簇中工业样本图像的图像特征相似度,删除每个所述工业样本图像簇中的相似样本图像,得到第二工业样本图像集,所述第二工业样本图像集的图像数目小于所述第一工业样本图像池的图像数目;

6、基于所述第二工业样本图像集中工业样本图像的图像特征复杂度,删除所述第二工业样本图像集中的第一目标比例的工业样本图像,得到第三工业样本图像集,所述第三工业样本图像集对工业模型进行自监督预训练;被删除的所述工业样本图像的图像特征复杂度小于未被删除的所述工业样本图像的图像特征复杂度。

7、根据本申请的工业数据集构建方法,通过对由多个公开数据集组合的工业样本图像集进行聚类,得到多个工业样本图像簇,删除每个工业样本图像簇中重复的工业样本图像,并删除图像特征复杂度低的工业样本图像,可以保证得到的第三工业样本图像集中的工业样本图像具有多样性且信息量丰富,第三工业样本图像集对工业模型进行自监督预训练,可以提高工业模型的性能。

8、根据本申请的一个实施例,所述工业样本图像的图像特征复杂度包括像素分布复杂度、图像重构复杂度和分割结果复杂度。

9、根据本申请的一个实施例,所述像素分布复杂度通过如下步骤确定:

10、基于所述工业样本图像中各个像素对应的像素值,计算所述工业样本图像的像素值方差;

11、基于所述像素值方差,确定所述像素分布复杂度。

12、根据本申请的一个实施例,所述图像重构复杂度通过如下步骤确定:

13、对所述工业样本图像进行第二目标比例的随机掩码;

14、基于所述工业样本图像中未被掩码的区域对所述工业样本图像进行重构,得到重构的所述工业样本图像;

15、基于重构的所述工业样本图像与原始的所述工业样本图像的差异度信息,确定所述图像重构复杂度。

16、根据本申请的一个实施例,所述分割结果复杂度通过如下步骤确定:

17、通过图像分割模型对所述工业样本图像进行分割,得到多个图像分割区域;

18、基于所述图像分割区域的数目,确定所述分割结果复杂度。

19、根据本申请的一个实施例,所述基于所述工业样本图像簇中工业样本图像的图像特征相似度,删除每个所述工业样本图像簇中的相似样本图像,得到第二工业样本图像集,包括:

20、确定每个所述工业样本图像簇的锚点样本图像;

21、将每个所述工业样本图像簇中与所述锚点样本图像的图像特征相似度大于特征相似度阈值的工业样本图像删除,得到所述第二工业样本图像集。

22、根据本申请的一个实施例,所述多个工业样本图像的图像特征通过如下步骤获取:

23、通过对比学习预训练模型对所述工业样本图像进行特征提取,得到所述工业样本图像的图像特征。

24、根据本申请的一个实施例,所述基于所述多个工业样本图像的图像特征,进行聚类,得到多个工业样本图像簇,包括:

25、遍历各个所述工业样本图像,通过对比学习预训练模型对每个所述工业样本图像进行特征提取,得到所述多个工业样本图像的图像特征;

26、基于所述多个工业样本图像的图像特征,通过kmeans聚类算法进行聚类,得到k个所述工业样本图像簇,k大于1的正整数。

27、第二方面,本申请提供了一种工业数据集构建装置,该装置包括:

28、获取模块,用于获取第一工业样本图像集,所述第一工业样本图像集中包括多个工业样本图像;

29、第一处理模块,用于基于所述多个工业样本图像的图像特征,进行聚类,得到多个工业样本图像簇;

30、第二处理模块,用于基于所述工业样本图像簇中工业样本图像的图像特征相似度,删除每个所述工业样本图像簇中的相似样本图像,得到第二工业样本图像集,所述第二工业样本图像集的图像数目小于所述第一工业样本图像池的图像数目;

31、第三处理模块,用于基于所述第二工业样本图像集中工业样本图像的图像特征复杂度,删除所述第二工业样本图像集中的第一目标比例的工业样本图像,得到第三工业样本图像集,所述第三工业样本图像集对工业模型进行自监督预训练;被删除的所述工业样本图像的图像特征复杂度小于未被删除的所述工业样本图像的图像特征复杂度。

32、根据本申请的工业数据集构建装置,通过对由多个公开数据集组合的工业样本图像集进行聚类,得到多个工业样本图像簇,删除每个工业样本图像簇中重复的工业样本图像,并删除图像特征复杂度低的工业样本图像,可以保证得到的第三工业样本图像集中的工业样本图像具有多样性且信息量丰富,第三工业样本图像集对工业模型进行自监督预训练,可以提高工业模型的性能。

33、第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的工业数据集构建方法。

34、第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的工业数据集构建方法。

35、第五方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的工业数据集构建方法。

36、本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。



技术特征:

1.一种工业数据集构建方法,其特征在于,包括:

2.根据权利要求1所述的工业数据集构建方法,其特征在于,所述工业样本图像的图像特征复杂度包括像素分布复杂度、图像重构复杂度和分割结果复杂度。

3.根据权利要求2所述的工业数据集构建方法,其特征在于,所述像素分布复杂度通过如下步骤确定:

4.根据权利要求2所述的工业数据集构建方法,其特征在于,所述图像重构复杂度通过如下步骤确定:

5.根据权利要求2所述的工业数据集构建方法,其特征在于,所述分割结果复杂度通过如下步骤确定:

6.根据权利要求1所述的工业数据集构建方法,其特征在于,所述基于所述工业样本图像簇中工业样本图像的图像特征相似度,删除每个所述工业样本图像簇中的相似样本图像,得到第二工业样本图像集,包括:

7.根据权利要求1-6任一项所述的工业数据集构建方法,其特征在于,所述多个工业样本图像的图像特征通过如下步骤获取:

8.根据权利要求7所述的工业数据集构建方法,其特征在于,所述基于所述多个工业样本图像的图像特征,进行聚类,得到多个工业样本图像簇,包括:

9.一种工业数据集构建装置,其特征在于,包括:

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一项所述工业数据集构建方法。


技术总结
本申请公开了一种工业数据集构建方法、装置及电子设备,属于图像处理技术领域。该方法包括:获取第一工业样本图像集,第一工业样本图像集中包括多个工业样本图像;基于多个工业样本图像的图像特征,进行聚类,得到多个工业样本图像簇;基于工业样本图像簇中工业样本图像的图像特征相似度,删除每个工业样本图像簇中的相似样本图像,得到第二工业样本图像集;基于第二工业样本图像集中工业样本图像的图像特征复杂度,删除第二工业样本图像集中的第一目标比例的工业样本图像,得到第三工业样本图像集,第三工业样本图像集对工业模型进行自监督预训练;被删除的工业样本图像的图像特征复杂度小于未被删除的工业样本图像的图像特征复杂度。

技术研发人员:杨腾,高鹏程,唐永亮
受保护的技术使用者:凌云光技术股份有限公司
技术研发日:
技术公布日:2024/3/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1