用于图像分类的方法和装置与流程

文档序号:30758275发布日期:2022-07-13 19:39阅读:172来源:国知局
用于图像分类的方法和装置与流程

1.本公开涉及图像处理技术,更具体地,涉及一种用于图像分类的方法和装置。


背景技术:

2.本节介绍了可以有助于更好地理解本公开的方面。因此,本节的陈述应以此方式阅读,且不应被理解为承认哪些在现有技术中或哪些不在现有技术中。
3.随着工业的自动化的发展,图像处理技术被广泛用于辅助产品的自动化操作。例如,可以通过生产线自动获取产品的图像,然后根据处理图像的结果确定产品的当前的状态(诸如处于第一状态,或处于第二状态等)。可以根据产品的当前的状态对产品进行下一操作。
4.通常,生产线的操作者或使用者需要对在生产线中的用于图像处理的装置进行预训练。即,操作者或使用者需要为产品的每个状态提供不同的标准规则(诸如一个标准图像或一组标准参数)。然后,在生产过程期间,将获得的真实产品的图像与这样的标准规则进行比较,从而确定真实产品的当前的状态。
5.常规地,大量图像不得不由人捕获并被标记为不同的状态。然后,对于产品的每个状态,可以由人或机器根据标记为不同状态的图像来总结出不同的标准规则。


技术实现要素:

6.提供该发明内容以以简化的形式介绍概念的选择,这些概念将在下面的详细描述中进一步描述。该发明内容并非旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
7.如上所述,图像分类的一种可能的解决方案是为产品的每个状态提供具有不同标准规则的模型。然而,正确分类一些很少显示的异常状态将是很难的,因为几乎不可能获得所需数量的样本图像来为这样的异常状态生成标准规则。此外,生成这样的标准规则的这样的过程效率不高,因为获取和标记样本图像非常耗时且耗费人力资源。
8.根据本公开的各个实施例,提供了一种用于图像分类的方法和装置的改进的解决方案,其可以克服如上所述的一个或多个问题。
9.根据本公开的第一方面,提供了一种用于图像分类的方法。该方法可以包括:接收待分类的图像;将图像输入到第一生成对抗网络gan的鉴别器;以及输出指示为真的结果和预定分类的索引,或者指示为假的结果。
10.在本公开的一个实施例中,该方法可以还包括:根据指示为真的结果和预定分类的索引,确定图像属于预定分类。
11.在本公开的一个实施例中,该方法可以还包括:根据指示为假的结果,确定所述图像对应异常状态。
12.在本公开的一个实施例中,第一gan是辅助分类器生成对抗网络acgan。
13.在本公开的一个实施例中,该方法可以还包括:使用具有分类信息的多个样本图
像对第一gan进行预训练。
14.在本公开的一个实施例中,使用具有分类信息的多个样本图像对第一gan进行预训练可以包括多个时期,其中每个时期包括:用具有分类信息的多个样本图像和具有分类信息的多个噪声图像来训练第一gan的鉴别器,同时冻结第一gan的生成器;以及使用随机噪声和随机分类信息训练第一gan的生成器,同时冻结第一gan的鉴别器,其中第一gan的生成器生成多个噪声图像和多个噪声图像的分类信息;其中第一gan的鉴别器和生成器被迭代地训练;以及其中,第一gan的鉴别器的迭代次数大于第一gan的生成器的迭代次数。
15.在本公开的一个实施例中,该方法可以还包括:通过使用第二gan生成多个样本图像的分类信息。
16.在本公开的实施例中,第二gan可以是双向生成对抗网络bigan。
17.在本公开的一个实施例中,通过使用第二gan生成所述多个样本图像的分类信息包括:采集所述没有分类信息的多个样本图像;通过第二gan的编码器为多个样本图像中的每一者生成隐空间向量;基于多个样本图像中的每一者的隐空间向量,将多个样本图像聚类为至少一个聚类;并且分别为至少一个聚类中的每一者分配分类。
18.在本公开的实施例中,基于多个样本图像中的每一者的隐空间向量,通过使用高斯混合模型gmm将多个样本图像聚类为至少一个聚类。
19.根据本公开的第二方面,提供了一种用于图像分类的装置,包括:处理器和存储器,所述存储器包含可由所述处理器执行的指令,借此所述用于图像分类的装置经操作以:接收待分类的图像;将图像输入到第一生成对抗网络gan的鉴别器;以及输出指示为真的结果和预定分类的索引,或指示为假的结果。
20.在本公开的一个实施例中,该装置还可以经操作以:根据指示为真的结果和预定分类的索引,确定该图像属于预定分类。
21.在本公开的一个实施例中,所述装置还可以经操作以:根据所述指示为假的结果,确定所述图像对应于异常状态。
22.在本公开的一个实施例中,第一gan是辅助分类器生成对抗网络acgan。
23.在本公开的一个实施例中,装置可以进一步经操作以:使用具有分类信息的多个样本图像预训练第一gan。
24.在本公开的一个实施例中,所述用于图像分类的装置可以经操作以使用具有分类信息的多个样本图像来以多个时期对第一gan进行预训练,其中每个时期可以包括:利用具有分类信息的多个样本图像和具有分类信息的多个噪声图像来训练第一gan的鉴别器,同时冻结第一gan的生成器;以及用随机噪声和随机分类信息训练第一gan的生成器,同时冻结第一gan的鉴别器,其中第一gan的生成器生成多个噪声图像和多个噪声图像的分类信息;其中第一gan的鉴别器和生成器被迭代地训练;以及其中,第一gan的鉴别器的迭代次数大于第一gan的生成器的迭代次数。
25.在本公开的一个实施例中,装置可以进一步经操作以:通过使用第二gan生成多个样本图像的分类信息。
26.在本公开的一个实施例中,第二gan是双向生成对抗网络bigan。
27.在本公开的一个实施例中,所述用于图像分类的装置可以经操作以:采集没有分类信息的多个样本图像;通过第二gan的编码器为多个样本图像中的每一者生成隐空间向
量;基于多个样本图像中的每一者的隐空间向量,将多个样本图像聚类为至少一个聚类;并分别为至少一个聚类中的每一者分配分类。
28.在本公开的实施例中,可以基于多个样本图像中的每一者的隐空间向量,通过使用高斯混合模型gmm将多个样本图像聚类为至少一个聚类。
29.根据本公开的第三方面,提供了一种计算机可读介质,其具有存储在其上的指令,当所述指令在至少一个处理器上被执行时,致使该至少一个处理器执行上述方法中的任一者。
30.根据本公开的各个实施例,可以实现一个或多个优点,例如,还可以确定不属于任何预定分类的图像(诸如与异常状态对应的一个图像),而不需要生成针对这样的未分类的图像的标准规则。
附图说明
31.当结合附图阅读实施例的以下详细描述时,将最好地理解本公开本身、优选的使用方式和进一步的目的,其中:
32.图1示出了根据本公开的实施例的用于图像分类的方法的流程图;
33.图2示出了根据本公开的实施例的如图1所示的方法的附加步骤的示例性流程图;
34.图3示出了根据本公开的实施例的针对第一生成对抗网络gan的示例性框图;
35.图4示出了根据本公开的实施例的如图1所示的方法的其他附加步骤的示例性流程图;
36.图5示出了根据本公开的实施例的如图1所示的方法的其他附加步骤的示例性流程图;
37.图6示出了根据本公开的实施例的在用于生产/产品线的应用中的训练阶段和检测阶段的流程图;
38.图7示出了根据本公开的实施例的bigan的示例性框架;
39.图8示出了根据本公开的实施例的训练bigan模型的示例性流程图;
40.图9示出了根据本公开的实施例的自动标记过程的示例性流程图;
41.图10示出了插塞式接头的多个样本图像;
42.图11示出了在图10中的多个样本图像的聚类结果;
43.图12示出了多个样本图像的分类;
44.图13示出了根据本公开的实施例的训练acgan模型的示例性流程图;
45.图14示出了对于插塞式接头的多个标记为真的样本图像;
46.图15示出了对于插塞式接头的多个标记为假的样本图像;
47.图16示出了分配有类的随机向量;
48.图17示出了根据本公开的实施例的检测过程的示例性流程图;
49.图18示出了根据本公开的实施例的由bigan和gmm标记的插塞式接头样本;
50.图19示出了根据本公开的实施例的acgan的异常检测结果;
51.图20示出了根据本公开的实施例的acgan对正常样本的分类结果;
52.图21示出了根据本公开的实施例的使用实例2的检测过程的示例性流程图;
53.图22示出了根据本公开的实施例的用于图像分类的装置2200的示例性框图;
54.图23示出了根据本公开的实施例的用于图像分类的装置2200的另一个示例性框图;以及
55.图24示出了根据本公开的实施例的计算机可读介质2400的示例性框图。
具体实施方式
56.下面参考附图对本发明的实施例进行详细描述。应当理解的是,讨论这些实施例仅仅是为了使本领域的技术人员能够更好地理解并实施本发明,而不是对本发明的范围进行任何限制。贯穿本说明书对特征、优点或类似用语的引用并不意味着可以通过本公开实现的所有特征和优点都在或应该在本公开的任何单个实施例中。更准确地说,涉及该些特征和优点的用语被理解为表示关于一个实施例所描述的特定特征、优点或特性被包括在本公开的至少一个实施例中。此外,本公开的所描述的特征、优点和特性可以以任何合适的方式组合在一个或多个实施例中。相关领域的技术人员将认识到,可以在没有特定实施例中的一个或多个特定特征或优点的情况下实施本公开。在其他情况下,可以在某些实施例中认识到附加的特征和优点,这些特征和优点可以不存在于本公开的所有实施例中。
57.如本文所使用的,术语“第一”、“第二”等指代不同的元件。单数形式“一个”和“一种”也旨在包括复数形式,除非上下文另有明确说明。如本文所用,术语“包括”、“包括着”、“具有”、“具有着”、“包含”和/或“包含着”具体说明了所述特征、元素和/或部件等的存在,但不排除一个或多个其他特征、元素、部件和/或它们的组合的存在或增加。术语“基于”应理解为“至少部分基于”。术语“一个实施例”和“实施例”应理解为“至少一个实施例”。术语“另一实施例”应理解为“至少一个其他实施例”。其他定义,明确的和隐含的,可以包括在下文中。
58.在下文中,将参照附图描述本公开的各种实施例。
59.仅作为具体示例而非限制,插塞式接头的图像可以在下文讨论。插塞式接头是在无线电产品中(诸如在第5代(5g)无线电系统中)连接收发器(trx)板和滤波器的连接器。在5g生产线中,机器人用于将插塞式接头安装在产品中。插塞式接头被放置在托盘中,机器人将插塞式接头抓住对着照相机。识别过程将被触发以检测头部侧或尾部侧并将反馈信号发送给机器人以采取适当的行动。在现实中,可能发生异常情况。例如,插塞式接头可能没有放在托盘中的正确位置,因此在照相机获得的图像/照片中根本没有插塞式接头。插塞式接头可能不是处于正确的形式/状态,因此图像根本没有显示正常的插塞式接头。用于检测的照片可能是被噪声污染的,并且模糊的。在这些异常情况下,插塞式接头会被丢弃,从而机器人会取一个新的以继续。
60.在上述过程中,系统不仅需要对插塞式接头头部(即第一类/状态)和尾部(即第二类/状态)类别进行分类,还需要在图像异常(诸如无对象、错位、噪音污染、模糊等)时进行异常检测。
61.可以有一些可行的技术来解决这2个任务(异常检测和分类)。
62.解决方案1:可以为这2个任务分别创建2个模型。一个用于异常检测,而另一个用于分类。
63.解决方案2:可以使用1个无监督学习模型进行异常检测和分类。即,更具体地说,根据分类器输出的激活函数来确定类别。
64.如果尾部类的概率超过阈值(例如0.6),则将其视为尾部类。如果它低于阈值(例如0.4),则将其视为头部类。如果它低于前一个阈值(例如0.6)但高于另一后一个阈值(例如0.4),则认为它是异常样本。
65.解决方案3:1个监督学习模型用于检测插塞式接头头部、插塞式接头尾部或异常。即,采集每种类型的大量样本来训练模型,然后用这个模型对头部、尾部、异常进行分类。
66.但是,在解决方案1中,分别使用异常检测和分类模型将减慢识别过程。在解决方案2中,一些异常样本的分类概率(甚至与正常样本相差很大)仍然很高,甚至高于99%,所以该方法的准确度很差。在解决方案3中,当使用监督学习模型进行图像分类时,需要人工标记训练数据。做这样的数据标记需要相当大的精力并且是耗时的。当使用监督学习模型进行异常检测时,需要采集大量异常作为训练数据集,但在现实世界中,很难采集到如此多的异常,因为这是罕见的事件。此外,无论应用哪个解决方案,都应标记头部或尾部。有很多标记工作。
67.图1示出了根据本公开的实施例的用于图像分类的方法的示例性流程图。
68.如图1所示,方法100可以包括:s101,接收待分类的图像;s102,将图像输入到第一生成对抗网络gan的鉴别器;以及s103,输出指示为真的结果和预定分类的索引,或指示为假的结果。
69.根据图1所示的方法,可以实现一个或多个优点,例如,第一gan的鉴别器可以在一个网络/模型中输出指示为真或为假的结果,而不是分别地实现2个或更多个任务/模型。检测时间将减少,无需采集比正常样本更难获得的异常样本。效率也可以提高。
70.还应注意,根据本公开的实施例,在任何生产线中除插塞式接头之外的任何工业产品的图像都是可以应用的。
71.图2图示了根据本公开的实施例的如图1所示的方法的附加步骤的示例性流程图。
72.如图2所示,方法100还可以包括:s104,根据指示为真的结果和预定分类的索引,确定该图像属于预定分类。
73.此外,方法100还可以包括:s105,根据指示为假的结果,确定所述图像对应异常状态。
74.根据图2所示的方法,图像的分类和/或图像是否异常将根据第一gan的鉴别器的输出直接而清楚地确定。
75.图3示出了根据本公开的实施例的第一生成对抗网络gan的示例性框图。
76.如图3所示,第一gan可以是辅助分类器生成对抗网络acgan。
77.acgan可以至少包括:生成器g 21,和鉴别器d 22。生成器21的输入可以包括图像的类别信息c(类)201和噪声z(噪声)202。鉴别器22的输入可以包括:与真实状态有关的真数据x

(数据)203,和由生成器21生成的假数据x

204。鉴别器22的输出205可以包括指示为真的结果和预定分类的索引,或者指示为假的结果。
78.图4示出了根据本公开的实施例的如图1中所示的方法的其他附加步骤的示例性流程图。
79.如图4所示,方法100还可以包括:s106,使用具有分类信息的多个样本图像对第一gan进行预训练。
80.具体地,在本公开的一个实施例中,s106,使用具有分类信息的多个样本图像对第
一gan进行预训练可以包括多个时期s107,其中每个时期s107包括:s108,使用具有分类信息的多个样本图像和具有分类信息的多个噪声图像训练第一gan的鉴别器,同时冻结第一gan的生成器;以及s109,使用随机噪声和随机分类信息训练第一gan的生成器,同时冻结第一gan的鉴别器。第一gan的生成器生成多个噪声图像和多个噪声图像的分类信息。迭代地训练第一gan的鉴别器和生成器。此外,第一gan的鉴别器的迭代次数大于第一gan的生成器的迭代次数。
81.也就是说,s108和s109被迭代了几个时期(epoch)。因此,鉴别器(判别模型)和生成器(生成模型)交替训练。
82.根据本公开的实施例,训练鉴别器的迭代次数可以大于生成器的迭代次数,以使鉴别器(将用于对图像进行分类)更健壮。例如,训练鉴别器和生成器的迭代次数之比可以是10:1。
83.第一gan的生成器可以直接生成噪声图像,或者将随机噪声添加到现有的真实图像以获得噪声图像。随机噪声可以包括包含多个维度(参数)的随机噪声向量,以改变现有的真实图像的真实特征。例如,随机噪声向量可以包括100个维度。此外,操作者/使用者也可以直接将一些异常图像配置为噪声图像的一部分。
84.通过这样的配置,第一gan的鉴别器和生成器可以自动进行预训练。可以提高效率。
85.图5示出了根据本公开的实施例的如图1中所示的方法的其他附加步骤的示例性流程图。
86.如图5所示,方法100还可以包括:s110,通过使用第二gan生成所述多个样本图像的分类信息。
87.在本公开的一个实施例中,通过使用第二gan生成所述多个样本图像的分类信息可以包括:s111,采集没有分类信息的多个样本图像;s112,通过第二gan的编码器为多个样本图像中的每一者生成隐空间向量;s113,基于所述多个样本图像中的每一者的隐空间向量,将所述多个样本图像聚类为至少一个聚类;s114,分别为至少一个聚类中的每一者分配分类。
88.在本公开的实施例中,第二gan可以是双向生成对抗网络bigan。此外,在本公开的实施例中,基于多个样本图像中的每一者的隐空间向量,通过使用高斯混合模型gmm将多个样本图像聚类为至少一个聚类。也就是说,可以使用bigan+gmm的组合。
89.注意,也可以使用任何其他类型的gan,只要它可以为多个样本图像中的每一者产生隐空间向量即可。此外,也可以使用任何其他类型的模型,只要它可以基于隐空间向量对多个样本图像进行聚类即可。
90.根据本公开的实施例,无需对样本图像进行大量人工标记。并且不需要为样本的不同分类做手工制作的特征。
91.可以再次以插塞式接头的图像为例来进一步说明本公开的实施例。
92.图6示出了根据本公开的实施例的在用于生产/产品线的应用程序中的训练阶段和检测阶段的流程图。
93.在训练阶段s601,bigan和acgan都被训练。
94.在s603中,可以通过安装在产品线上的照相机61采集样本(样本图像)作为训练数
据。
95.在s604中,构建并训练bigan模型以编码图像。
96.在s605中,建立gmm模型以对图像进行分类以进行自动标记。使用此方法,无需标记为头部或尾部。
97.在s606中,构建并训练acgan以检测插塞式接头头部、尾部或异常。
98.在s607中,将训练好的模型存储为文件,以便在检测阶段加载和执行。
99.在检测阶段s602的s608中,应用acgan的判别模型,即由照相机21拍摄的每个图像63将被acgan的鉴别器检测。
100.在s609中,如果图像63是真实图像的概率(从acgan输出)低于阈值,则认为它是异常样本并且应该在s610中被丢弃。
101.对于正常样本,如果图像63为头部类的概率大于尾部类,则将其分类为头部类,否则在s611中将其分类为尾部类。成为头部或尾部的分类将被输出到在产品线中的致动器62(诸如机器人手臂)。
102.图7示出了根据本公开的实施例的bigan的示例性框架。
103.整体模型如图7所示。除了来自标准gan框架的生成器g,bigan还包括一个编码器e,它将数据x映射到隐表示z。bigan鉴别器d不仅在数据空间(x与g(z))中进行判别,而且在数据空间和隐空间(元组(x,e(x))与(g(z),z)中共同地进行判别,其中隐分量是编码器输出e(x)或生成器输入z。p(y)表示元组来自(x,e(x))的可能性。
104.本公开的关键在于利用编码器e(x)来获得图像的隐空间。
105.首先,目标函数可以描述如下:
106.其中
107.作为非限制性示例,可以使用在2016年的arxiv预印本arxiv:1605.09782的作者为j.donahue、p.kr
¨
ahenb
¨
uhl和t.darrell的“对抗性特征学习”中的函数。
108.在上述函数中,d、e、g分别代表鉴别器、编码器、生成器。x~px表示来自真实数据的分布。表示logd(x,e(x))的期望值。表示元组来自(x,e(x))的可能性的对数。表示log(1-d(g(z),z))的期望值。表示元组来自(g(z),z)的可能性的对数。
109.图8示出了根据本公开的实施例的训练bigan模型的示例性流程图。
110.训练生成和编码器模型以最小化v,同时训练判别模型以最大化v。训练过程可描述如下:
111.步骤s801:采集样本。无需手动标记
112.步骤s802-s803:冻结生成和编码器模型,只训练判别模型。
113.判别模型的输入由两部分组成:来自真实数据集的插塞式接头图像(“真”类)及其代码(从编码器中获取);以及由生成模型生成的插塞式接头图像(“假”类)和对应的随机噪声向量。输出是,其为真还是为假。训练判别模型以最大化目标函数v。
114.步骤s804-s807:冻结判别模型,只训练生成和编码器模型。
115.在s804中:生成一批分布均匀的噪声向量(例如2个维度)。
116.在s805中:训练生成模型以最小化v。
117.在s806中:对来自真实的数据集的图像进行编码。
118.在s807中:训练编码器模型以最小化v。
119.步骤s802-s803和步骤s804-s807被迭代几个时期。这意味着判别模型和生成、编码器模型交替训练。
120.图9示出了根据本公开的实施例的自动标记过程的示例性流程图。
121.在s901中:检索来自照相机的大量插塞式接头图像。
122.在s902中:使用bigan的编码器得到每个图像的隐空间向量。
123.在s903中:通过编码器值使用gmm进行聚类。
124.在s904中:为每个聚类分配类。
125.在s905中:将置信度高于阈值的样本发送给acgan。
126.图10示出了插塞式接头的多个样本图像。图11示出了图10中多个样本图像的聚类结果。图12示出了多个样本图像的分类。
127.如图10所示,这些样本图像是在没有任何规则模式的情况下获得的。如图11所示,对于这些样本图像,获得了两个聚类1101、1102。如图12所示,上排显示第一类(诸如头部)的样本图像,下排显示第二类(诸如尾部)的样本图像。
128.图13示出了根据本公开的实施例的训练acgan模型的示例性流程图。
129.整体模型如图13所示。对于生成器,输入是来自隐空间的随机点和类标签,而输出是生成的图像。对于鉴别器,输入是图像,而输出是“真”的可能性和图像属于每个已知类的概率。
130.第一,目标函数描述如下。目标函数有两部分:正确源的似然的对数ls和正确类的似然的对数lc。
131.ls=e[log p(s=真|x

)]+e[log p(s=假|x

)]
[0132]
lc=e[log p(c=c|x

)]+e[log p(c=c|x

)]
[0133]
例如但不限于,可以利用2016年的arxiv:1610.09585的作者为a.odena、c.olah和j.shlens的“使用辅助分类器gan进行条件图像合成”中的函数。
[0134]
在上述函数中,e[]表示在[]中描述的函数的期望。log p(s=真|x

)表示图像来自真实图像的可能性的对数。log p(s=假|x

)表示图像来自生成器的可能性的对数。log p(c=c|x

)表示类信息来自真实图像的可能性的对数。log p(c=c|x

)表示类信息来自生成图像的可能性的对数。
[0135]
生成模型被训练以最大化lc-ls,而判别模型被训练以最大化lc+ls。训练过程描述如下:
[0136]
步骤s1301:采集样本并(通过bigan和gmm)自动标记为头部类或尾部类。无需采集
异常样本。
[0137]
步骤s1302-s1303:冻结生成模型,只训练判别模型。
[0138]
判别模型的输入由两部分组成:来自真实数据集的插塞式接头图像(“真”类);以及生成模型生成的插塞式接头图像(“假”类)。输出是它对应的标签和真或假信息。训练判别模型以最大化目标函数lc+ls。
[0139]
步骤s1304-s1305:冻结判别模型,只训练生成模型。
[0140]
在步骤s1034中:生成一批分布均匀的噪声向量(例如100维度)。为这些向量随机分配头部或尾部的类。
[0141]
在步骤s1035中:训练生成模型以最大化目标函数lc-ls。
[0142]
步骤s1302-s1303和步骤s1304-s1305被迭代几个时期。这意味着判别模型和生成模型是交替训练的。特别地,为了使鉴别器更健壮,训练鉴别器的迭代次数被配置为大于生成器。
[0143]
图14示出了插塞式接头的多个标记为真的样本图像。图15示出了插塞式接头的多个标记为假的样本图像。图16示出了分配有类的随机向量。
[0144]
如图14所示,上排显示标记为插塞式接头的头部的真实样本图像,下排显示标记为插塞式接头的尾部的真实样本图像。如图15所示,上排显示标记为插塞式接头的头部的假/噪声图像,下排显示标记为插塞式接头的尾部的假/噪声图像。可以通过向现有真实样本添加噪声来生成假/噪声图像。如图16所示,上面的向量被分配了头部的类,而下面的向量被分配了尾部的类。向量可以具有100的维度。
[0145]
图17示出了根据本公开的实施例的检测过程的示例性流程图。
[0146]
在图17中显示了三个典型样本(头部、尾部、异常)。如图17所示,当在s1701中出现插塞式接头图像时,在s1702中使用判别模型检测该图像。输出有两部分:真实图像的概率,以及每个类别(头部和尾部)的概率。如果在s1703中真实图像的概率低于阈值,则在s1704中该插塞式接头应视为异常并被丢弃。否则在s1705中根据这2个类别的概率将其分类为头部或尾部。
[0147]
下面将进一步显示上述一些步骤的图像结果/输出的更多示例。
[0148]
图18示出了根据本公开的实施例的由bigan和gmm标记的插塞式接头样本。
[0149]
采集插塞式接头样本并使用bigan编码器和gmm来实现聚类。每个聚类都被标记为头部或尾部。如图18所示,置信度高于阈值的样本将被发送到acgan以进行训练。
[0150]
上面两排样本被归类为头部。下面两排样本被归类为尾部。
[0151]
图19示出了根据本公开的实施例的acgan的异常检测结果。
[0152]
在完成acgan训练后,照相机拍摄的图像被输入到acgan。如图19所示,利用判别模型实现异常检测,从而从所有捕获的样本(上组)中选择异常样本(下组)。其他样品被认为是正常的。
[0153]
图20示出了根据本公开的实施例的acgan对正常样本的分类结果。
[0154]
如图20所示,对于正常样本,它们被分类为头部或尾部。上排是头部类,下排是尾部类。
[0155]
这样同时实现分类和异常检测具有广泛的用途。可以进一步引用两个使用实例,如下所示:
[0156]
使用实例1:光学字符识别(ocr)。每个字符都应该通过模式识别算法识别。有时,会遇到不在数据集中的字符。在该情况下,算法应该反馈给机器学习工程师来标记这个特定的字符。
[0157]
使用实例2:腻子(putty)识别。腻子在发热组件中用作散热件。在该情况下,腻子形状需要分为诸如方形、圆形、条形等不同类别。偶尔会因设备故障而产生异常形状。这意味着不仅需要对特定形状进行分类,还需要在异常样本发生时发出警报。
[0158]
图21示出了根据本公开的实施例的使用实例2的检测过程的示例性流程图。
[0159]
如图21所示,在s1704中选择异常的腻子形状,在s1705中进一步对正常的腻子形状分类。
[0160]
根据本公开的实施例,使用acgan来实现在网络内的异常检测和分类可以减少处理时间并且不需要采集异常样本。
[0161]
图22示出了根据本公开的实施例的用于图像分类的装置2200的示例性框图。
[0162]
如图22所示,装置2200可以包括:处理器2201和存储器2202,所述存储器包含可由所述处理器执行的指令,借此所述用于图像分类的装置经操作以:接收待分类的图像;将图像输入到第一生成对抗网络gan的鉴别器;输出指示为真的结果和预定分类的索引,或指示为假的结果。
[0163]
在本公开的一个实施例中,该装置还可以经操作以:根据指示为真的结果和预定分类的索引,确定该图像属于预定分类。
[0164]
在本发明的一个实施例中,所述装置还可以经操作以:根据指示为假的结果,确定所述图像对应于异常状态。
[0165]
在本公开的一个实施例中,第一gan是辅助分类器生成对抗网络acgan。
[0166]
在本公开的一个实施例中,装置可以进一步经操作以:使用具有分类信息的多个样本图像预训练第一gan。
[0167]
在本公开的一个实施例中,用于图像分类的所述装置可以经操作于以使用具有分类信息的多个样本图像来以多个时期对第一gan进行预训练,其中每个时期可以包括:利用具有分类信息的多个样本图像和具有分类信息的多个噪声图像来训练第一gan的鉴别器,同时冻结第一gan的生成器;以及用随机噪声和随机分类信息训练第一gan的生成器,同时冻结第一gan的鉴别器,其中第一gan的生成器生成多个噪声图像和多个噪声图像的分类信息;其中第一gan的鉴别器和生成器被迭代地训练;并且其中,第一gan的鉴别器的迭代次数大于第一gan的生成器的迭代次数。
[0168]
在本公开的一个实施例中,装置可以进一步经操作以:通过使用第二gan生成多个样本图像的分类信息。
[0169]
在本公开的一个实施例中,第二gan是双向生成对抗网络bigan。
[0170]
在本公开的一个实施例中,所述用于图像分类的装置可经操作以:采集没有分类信息的多个样本图像;通过第二gan的编码器为多个样本图像中的每一者生成隐空间向量;基于多个样本图像中的每一者的隐空间向量,将多个样本图像聚类为至少一个聚类;并分别为至少一个聚类中的每一者分配分类。
[0171]
在本公开的实施例中,可以基于多个样本图像中的每一者的隐空间向量,通过使用高斯混合模型gmm将多个样本图像聚类为至少一个聚类。
[0172]
处理器2201可以是任何种类的处理部件,诸如一个或多个微处理器或微控制器,以及其他数字硬件,其可以包括数字信号处理器(dsp)、专用数字逻辑等。存储器2202可以是任何种类的存储部件,诸如只读存储器(rom)、随机存取存储器、高速缓冲存储器、闪存设备、光存储设备等。
[0173]
图23示出了根据本公开的实施例的用于图像分类的装置2200的另一个示例性框图。
[0174]
如图23所示,装置2200可以包括:接收单元2310,配置为接收待分类的图像;输入单元2320,配置为将图像输入到第一生成对抗网络gan的鉴别器;以及输出单元2330,配置为输出指示为真的结果和预定分类的索引,或者指示为假的结果。
[0175]
术语单元在电子、电气设备和/或电子设备领域可以具有常规含义,并且可以包括,例如,用于执行相应任务、程序、计算、输出和/或显示功能等的电气和/或电子电路、设备、模块、处理器、存储器、逻辑固态和/或分立器件、计算机程序或指令,如本文所描述的那些。
[0176]
通过这些单元,用于图像分类的装置可以不需要固定的处理器或存储器,可以从在通信系统中的至少一个网络节点/设备/实体/装置中配置任何计算资源和存储资源。可以进一步引入虚拟化技术和网络计算技术,以提高资源的使用效率和灵活性。
[0177]
图24示出了根据本公开的实施例的计算机可读介质2400的示例性框图。
[0178]
如图24所示,计算机可读介质2400可以具有存储在其上的指令(即软件、程序等),当指令在至少一个处理器上被执行时,致使该至少一个处理器执行上述方法中的任一者。
[0179]
计算机可读存储介质2400可以被配置为包括存储器,诸如ram、rom、可编程只读存储器(prom)、可擦可编程只读存储器(eprom)、电可擦可编程只读存储器(eeprom)、磁盘、光盘、软盘、硬盘、可拆卸盒式磁带或闪存驱动器等。
[0180]
根据本公开的各种实施例,可以实现一个或多个优点,例如,还可以确定不属于任何预定分类的图像(诸如与异常状态对应的一个图像),而不需要生成针对这样的未分类的图像的标准规则。
[0181]
通常,各种示例性实施例可以在硬件或专用芯片、电路、软件、逻辑或其任何组合中实现。例如,一些方面可以在硬件中实现,而其他方面可以在可由控制器、微处理器或其他计算设备执行的固件或软件中实现,但是本公开不限于此。尽管可以将本公开的示例性实施例的各个部分以框图、流程图或使用一些其他视图示出和描述,但是很好理解的是,本文描述的这些块、装置、系统、技术或方法可以在作为非限制性示例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或它们的某种组合中实现。
[0182]
因此,应当理解,本公开的示例性实施例的至少一些方面可以在诸如集成电路芯片和模块的各种部件中实施。因此应当理解,本公开的示例性实施例可以在被实施为集成电路的装置中实现,其中集成电路可以包括用于实施数据处理器、数字信号处理器、基带电路和射频电路中的至少一个或多个的电路(以及可能的固件),其可配置为根据本公开的示例性实施例操作。
[0183]
应当理解,本公开的示例性实施例的至少一些方面可以实施在由一个或多个计算机或其他设备执行的计算机可执行/可读指令中,诸如在一个或多个程序模块中。通常,程序模块包括例程、程序、对象、组件、数据结构等,它们在由在计算机或其他设备中的处理器
执行时,执行特定任务或实现特定抽象数据类型。计算机可执行指令可以存储在诸如硬盘、光盘、可移动存储介质、固态存储器、随机存取存储器(ram)等的计算机可读介质上。如本领域技术人员将理解的,在各个实施例中,程序模块的功能可以根据需要组合或分布。另外,功能可以全部或部分地实施在固件或硬件等效物(诸如集成电路、现场可编程门阵列(fpga)等)中。
[0184]
本公开包括在本文中明确公开的任何新颖的特征或特征的组合,或者其任何概括。当结合附图阅读时,鉴于前述描述,对本公开的前述示例性实施例的各种修改和改写对于相关领域的技术人员来说是显而易见的。然而,任何和所有修改仍将落入本公开的非限制性和示例性实施例的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1