图像分类方法和图像分类模型的训练方法、装置与流程

文档序号:31052779发布日期:2022-08-06 08:29阅读:108来源:国知局
图像分类方法和图像分类模型的训练方法、装置与流程

1.本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术领域,尤其涉及一种基于图像分类模型的图像分类方法和图像分类模型的训练方法、装置、电子设备和存储介质。


背景技术:

2.随着计算机技术和网络技术的发展,深度学习技术在众多领域得到了广泛应用。例如,可以采用深度学习技术提取图像特征,并根据图像特征预测图像的类别。在实际场景中,例如预测的图像的类别可以为图像中对象的年龄类别等,从而为人机交互等应用场景提供潜在价值。


技术实现要素:

3.本公开旨在提供一种提高分类精度的基于图像分类模型的图像分类方法和图像分类模型的训练方法、装置、电子设备和存储介质。
4.根据本公开的一个方面,提供了一种基于图像分类模型的图像分类方法,其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络;图像分类方法包括:将待分类图像切分为多个图像块,得到图像块序列;采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列;第一特征图序列包括分别针对多个图像块的多个特征图;采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图;采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图;以及将全局特征图和第一局部特征图输入预测网络,得到待分类图像的分类信息。
5.根据本公开的一个方面,提供了一种图像分类模型的训练方法,其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络;训练方法包括:将样本图像切分为多个图像块,得到图像块序列;采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列;第一特征图序列包括分别针对多个图像块的多个特征图;采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图;采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图;根据全局特征图确定第一分类信息,并根据第一局部特征图确定第二分类信息;以及根据第一分类信息与第二分类信息之间的第一差异,对图像分类模型进行训练。
6.根据本公开的一个方面,提供了一种基于图像分类模型的图像分类装置,其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络;该图像分类装置包括:图像切分模块,用于将待分类图像切分为多个图像块,得到图像块序列;自注意力编码模块,用于采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列;第一特征图序列包括分别针对多个图像块的多个特征图;全局编码模块,用于采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图;局部编码模块,用于采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图;以及分类
模块,用于将全局特征图和第一局部特征图输入预测网络,得到待分类图像的分类信息。
7.根据本公开的一个方面,提供了一种图像分类模型的训练装置,其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络;该训练装置包括:图像切分模块,用于将样本图像切分为多个图像块,得到图像块序列;自注意力编码模块,用于采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列;第一特征图序列包括分别针对多个图像块的多个特征图;全局编码模块,用于采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图;局部编码模块,用于采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图;分类模块,用于根据全局特征图确定第一分类信息,并根据第一局部特征图确定第二分类信息;以及模型训练模块,用于根据第一分类信息与第二分类信息之间的第一差异,对图像分类模型进行训练。
8.根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的基于图像分类模型的图像分类方法和/或图像分类模型的训练方法。
9.根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的基于图像分类模型的图像分类方法和/或图像分类模型的训练方法。
10.根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现本公开提供的基于图像分类模型的图像分类方法和/或图像分类模型的训练方法。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1是根据本公开实施例的基于图像分类模型的图像分类方法和图像分类模型的训练方法、装置的应用场景示意图;
14.图2是根据本公开实施例的基于图像分类模型的图像分类方法的流程示意图;
15.图3是根据本公开实施例的图像分类模型的结构示意图;
16.图4是根据本公开另一实施例的图像分类模型的结构示意图;
17.图5是根据本公开实施例的图像分类模型的训练方法的流程示意图;
18.图6是根据本公开实施例的图像分类模型的训练方法的原理示意图;
19.图7是根据本公开另一实施例的图像分类模型的训练方法的原理示意图;
20.图8是根据本公开实施例的基于图像分类模型的图像分类装置的结构框图;
21.图9是根据本公开实施例的图像分类模型的训练装置的结构框图;以及
22.图10是用来实施本公开实施例的基于图像分类模型的图像分类方法和/或图像分类模型的训练方法的电子设备的框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
24.本公开提供了一种基于图像分类模型的图像分类方法,其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络。该方法包括图像切分阶段、自注意力编码阶段、全局编码阶段、局部编码阶段和分类阶段。在图像切分阶段中,将待分类图像切分为多个图像块,得到图像块序列。在自注意力编码阶段中,采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列;第一特征图序列包括分别针对多个图像块的多个特征图。在全局编码网络中,采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图。在局部编码阶段中,采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图。在分类阶段中,将全局特征图和第一局部特征图输入预测网络,得到待分类图像的分类信息。
25.以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
26.图1是根据本公开实施例的基于图像分类模型的图像分类方法和图像分类模型的训练方法、装置的应用场景示意图。
27.如图1所示,该实施例的应用场景100可以包括电子设备110,该电子设备110可以为具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
28.该电子设备110例如可以对输入的图像120进行处理,以得到图像120的分类信息。例如,在人脸年龄识别(facial age estimation)的应用中,图像120为包括人脸的图像,分类信息可以包括图像中人脸属于多个年龄段中每个年龄段的概率,根据该分类信息,可以得到图像中人脸的年龄类别130。其中,多个年龄段例如可以包括0~100共计101个年龄段,每个年龄段的区间大小为1。
29.根据本公开的实施例,例如在公共设施管控、用户画像与产品推荐和信息安全管理等场景中都存在人脸年龄识别的应用。例如,在公共设施管控场景中,可以通过确定公共场所人群聚集情况及年龄分布情况,来对该公共场所内各区域的人群流动进行合理调整。例如可以针对年龄较高或年龄较低的人群给予更多关注,提供更多服务性提示和帮助。例如,在用户画像与产品推荐场景中,可以通过确定年龄类别,来为目标受众提供合适的推送内容和广告等,以为用户提供个性化服务。例如,在信息安全管理场景中,可以通过确定年龄类别,来为目标受众施予提醒并执行超出规定时间自动下线等措施,通过该方式,可以减少目标受众沉迷网络等情况的发生。
30.在一实施例中,电子设备110可以采用图像分类模型140来对图像120进行处理,从而得到图像120的分类信息。其中,图像分类模型140例如可以包括卷积神经网络和分类器构成的模型,其中,卷积神经网络用于提取图像特征以作为判断类别的依据,该图像特征经由分类器处理,可以得到分类信息。或者,该图像分类模型140可以基于标签分布的方法构建,例如可以为深度标签分布(deep label distributional learning,dldl)-v2模型。或者,该图像分类模型可以基于自适应方差分布学习的方法等构建。或者,该图像分类模型还
可以基于视觉transformer(vision transformer,vit)网络构建得到,本公开对此不做限定。
31.在一实施例中,如图1所示,该应用场景中还可以包括服务器150,电子设备110可以通过网络与服务器150通信连接。网络可以为有线或无线通信链路。例如,电子设备110可以通过网络向服务器150发送模型获取请求,服务器150可以响应于该模型获取请求,向电子设备110发送训练好的图像分类模型140。
32.在一实施例中,电子设备110还可以将图像120发送给服务器150,则服务器150可以采用训练好的图像分类模型140对图像120进行处理,从而得到分类信息。
33.需要说明的是,本公开提供的基于图像分类模型的图像分类方法可以由电子设备110执行,也可以由服务器150执行。相应地,本公开提供的基于图像分类模型的图像分类装置可以设置在电子设备110中,也可以设置在服务器150中。本公开提供的图像分类模型的训练方法可以由服务器150执行。相应地,本公开提供的图像分类模型的训练装置可以设置在服务器150中。
34.应该理解,图1中的电子设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的电子设备110和服务器150。
35.以下将结合图2~图4对本公开提供的基于图像分类模型的图像分类方法进行详细描述。
36.图2是根据本公开实施例的基于图像分类模型的图像分类方法的流程示意图。
37.如图2所示,该实施例的基于图像分类模型的图像分类方法200可以包括操作s210~操作s250。其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络。其中,自注意力编码器可以为transformer网络中的编码器。
38.在操作s210,将待分类图像切分为多个图像块,得到图像块序列。
39.根据本公开的实施例,可以将待分类图像切分为多个图像块,随后将切分后得到多个图像块展平,从而得到图像块序列。例如,设定待分类图像的尺寸为c
×h×
w,其中,c为通道数,h、w分别为待分类图像的高度和宽度,每个图像块的大小为2
×
2,则总计可以得到h/2*w/2个图像块。将该h/2*w/2个图像块沿高度方向展平至同一高度,即可得到图像块序列。
40.在操作s220,采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列。
41.根据本公开的实施例,第一特征图序列包括分别针对多个图像块的多个特征图。自注意力编码器可以包括多层编码器,该实施例可以将图像块序列的嵌入表示输入该多层编码器,由多层编码器中的最后一层编码器输出第一特征图序列。每层编码器可以为transformer结构中编码部分的一个块(block)。其中,自注意力编码器包括的编码器层数可以根据实际需求进行设定,例如,若图像分类模型基于vit网络构建,则编码器层数可以为6、8、9等大于1且小于等于12的任意值,本公开对此不做限定。
42.其中,图像块序列中每个图像块的嵌入表示可以作为一个token。需要说明的是,该实施例在对待分类图像进行处理时,无需向自注意力编码器输入可学习的类别token,仅输入根据多个图像块得到的多个token即可。可以理解的是,每个图像块的嵌入表示中例如还可以添加有该每个图像块的位置信息,该位置信息可以通过正弦编码方法或余弦编码方
法得到,也可以通过学习的方法得到,本公开对此不做限定。
43.可以理解的是,transformer结构中编码部分的一个block可以包括依次连接的自注意力(self-attention)层、第一残差与归一化(add&normalize)层、前馈层(feed-forward networks)和第二残差与归一化层。
44.在操作s230,采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图。
45.根据本公开的实施例,全局编码网络可以由vit网络的编码部分中除自注意力编码器外的其他结构构成。例如,若vit网络的编码部分总计包括依次连接的12个block,自注意力编码器包括12个block中的前9个block,则全局编码网络可以包括排在前9个block之后的3个block。这是由于自注意力机制的transformer网络具有全局建模能力,可以捕捉到长远期关系。如此,可以将排在前9个block之后的3个block输出的特征图序列中的特征图进行重排,从而得到全局特征图。其中,在重排特征图时,可以以特征图对应的图像块在待分类图像中的位置为依据。
46.在操作s240,采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图。
47.根据本公开的实施例,该第一局部编码网络例如可以仅关注第一特征图序列中的部分特征图,并对该部分特征图进行编码,从而达到仅关注待分类图像的局部信息的目的,提取得到第一局部特征图。或者,该第一局部编码网络可以采用卷积神经网络等具有固定且有限的感受野的网络结构,来对第一特征图序列中的每个特征图进行处理,并对处理后得到的多个特征图重排后得到第一局部特征图。其中,在重排特征图时,可以以处理后的特征图对应的图像块在待分类图像中的位置为依据。
48.在操作s250,将全局特征图和第一局部特征图输入预测网络,得到待分类图像的分类信息。
49.根据本公开的实施例,预测网络可以包括融合层和softmax分类器。融合层用于融合全局特征图和第一局部特征图,得到融合后的特征图。该融合后的特征图经由softmax分类器处理后,softmax分类器可以输出分类信息。该分类信息可以包括待分类图像针对多个预定类别的概率分布信息(具体可以为概率向量),概率分布信息中包括待分类图像属于每个预定类别的预测概率值。
50.根据本公开的实施例,预测网络还可以包括在融合层与softmx分类器之间设置的全连接层,融合后的特征图经由全连接层处理后,可以投射至类别空间。全连接层输出的特征输入softmax分类器,由分类器输出分类信息。
51.其中,融合层可以通过将第一局部特征图和全局特征图相加的方式来实现两个特征图的融合。也可以采用计算两个特征图的加权和的方式来实现两个特征图的融合,加权时采用的权重是图像分类模型的训练过程中学习得到的,本公开对此不做限定。
52.相较于设置类别token,将类别token对应的输出信息作为分类信息的技术方案,本公开实施例由于在基于自注意力机制的图像分类模型中,根据提取的特征图来预测分类信息,因此可以充分利用特征图中的信息,利于提高分类精度。再者,通过设置全局编码网络提取全局特征。并设置局部编码分支提取局部特征,最终综合考虑全局特征和局部特征来预测分类信息,可以进一步地充分利用特征图中丰富的局部细节信息,利于进一步地提
高分类精度。
53.可以理解的是,在年龄预测应用中,待分类图像可以为具有人脸的图像,多个预定类别包括前述的多个年龄段。如此,由于分类信息往往受人脸中面部皮肤纹理、光亮程度和皱纹纹理等方面的影响,若仅关注于全局信息,会忽略面部的关键细节;而若仅关注局部信息,则会丢失整体的结构信息。本公开实施例通过综合考虑全局特征和局部特征来预测年龄,可以有效提高预测精度。
54.图3是根据本公开实施例的图像分类模型的结构示意图。
55.根据本公开的实施例,前述的全局编码网络例如可以包括有第一编码子网络和第一转化子网络。其中,第一编码子网络用于基于第一特征图序列提取特征,第一转化子网络用于将提取得到的特征序列转化为全局特征图。这是由于编码子网络的输入数据为特征图序列时,输出的数据也为特征图序列。为了便于与第一局部特征图进行融合,并根据融合结果来预测分类信息,需要将特征图序列转化为一个整体的特征图。在一实施例中,第一转化子网络例如还可以用于对特征图序列中的特征图的尺寸进行调整,以使得最终得到的全局特征图与第一局部特征图的尺寸相等,便于实现两个特征图的融合。
56.示例性地,第一编码子网络可以包括前文描述的排在前9个block之后的3个block。则基于第一特征图序列,采用第一编码子网络处理后得到的数据可以为第二特征图序列。该实施例具体可以将第一特征图序列输入第一编码子网络,由第一编码子网络输出第二特征图序列。第二编码子网络可以用于将第二特征图序列转化为特征图矩阵,该特征图矩阵可以作为全局特征图。可以理解的是,将第二特征图序列转化为特征图矩阵的流程可以与前文描述的将切分待分类图像得到的多个图像块展开为图像块序列的流程相反。例如,第二特征图序列包括针对多个图像块的多个特征图。该实施例可以将针对图像块的特征图放置在该图像块在待分类图像中的位置处,如此,多个特征图可以构成一个整体的全局特征图。
57.如图3所示,在实施例300中,自注意力编码器310采用transformer网络中编码部分的9个block构成。图像块序列301经由该自注意力编码器310处理后,可以得到第一特征图序列302。全局编码网络320除了第一编码子网络322和第一转化子网络323外,还可以包括第一融合子网络321。该第一融合子网络321用于第一特征图序列302中的特征图进行全局融合,从而得到第三特征图序列303。该第三特征图序列303经由第一编码子网络322处理后,可以得到第二特征图序列,该第二特征图序列经由第一转化子网络323转化后,可以得到全局特征图304。通过该第一融合子网络321的设置,可以实现各图像块的特征图之间的信息融合,在一定程度上考虑了各图像块之间的相关性,利于提高得到的全局特征图的表达能力和最终的分类精度。
58.示例性地,第一编码子网络322可以采用前文描述的排在前9个block之后的3个block。
59.示例性地,第一融合子网络321例如可以将第一特征图序列302中的特征图随机分为若干组,每组特征图中包括至少两个特征图。随后,对每组特征图中的至少两个特征图计算加权和,得到一个加权后特征图,该一个加权后特征图可以作为第三特征图序列303中的一个特征图。通过该方式,可以使得第二特征图序列中的每个特征图是融合了至少两个图像块的特征图而得到的,可以在一定程度上反映待分类图像的全局特征。
60.示例性地,第一融合子网络321可以采用类似重组像素图的反操作的方式,来得到第三特征图序列。通过该方式,可以实现对第一特征图序列中特征图的全局范围内的充分融合,利于提高得到的全局特征的表达能力,提高分类精度。
61.例如,第一融合子网络321可以包括第一转化层、第一降采样层和第二转化层。其中,采用第一转化层例如可以将第一特征图序列302转化为第一特征图矩阵321_1。具体地,该第一转化层用于根据第一特征图序列302中各特征图所针对的图像块在待分类图像中的位置,对第一特征图序列中的各特征图进行排列,从而形成第一特征图矩阵321_1。例如,若第一图像块的个数为6*6个,得到的第一特征图序列302中包括36个特征图,该36个特征图可以构成6
×
6的第一特征图矩阵321_1。第一降采样层用于对第一特征图矩阵321_1中的特征图间隔采样,得到多个融合子矩阵。采样的间隔值例如可以为2、3等大于1的任意整数。以间隔值为2,第一特征图矩阵321_1的尺寸为6
×
6为例,在一次采样中,可以采样得到第一特征图矩阵321_1中基数行的第一个特征图、第三个特征图和第五个特征图,采用得到的特征图可以构成一个融合子矩阵。类似地,还可以采样得到第一特征图矩阵321_1中基数行的第二个特征图、第四个特征图和第六个特征图,从而得到一个融合子矩阵。类似地,通过多次采样,可以得到不重复的四个融合子矩阵321_2。第二转化层用于将多个融合子矩阵转化为多个融合特征图,从而得到由多个融合特征图构成的第三特征图序列。具体地,第二转化层例如可以先将四个融合子矩阵321_2沿垂直于宽度和高度的方向排列。从而得到尺寸为3
×3×
4的张量321_3。随后,将该张量321_3中高度方向和宽度方向位置相同的四个特征图拼接,得到一个拼接后特征图,总计可以得到3*3=9个拼接后特征图321_4。该实施例可以将该9个拼接后特征图直接构成第三特征图序列303。或者,可以将该9个拼接后特征图321_4依次输入一个全连接层,以调整每个拼接后特征图的通道维度,将全连接层输出的9个特征图构成第三特征图序列303。例如,全连接层输出的9个特征图的通道维度的大小可以与第一特征图序列中特征图的通道维度的大小相等,本公开对此不做限定。
62.可以理解的是,上述第一图像块的个数为6*6个仅作为示例以利于理解本公开,例如,该第一图像块的个数还可以为14*14等,且宽度方向切分得到的图像块个数与高度方向切分得到的图像块个数也可以不同,本公开对此不做限定。再者,上述采样的间隔值也仅作为示例以利于理解本公开,本公开对此不做限定。该实施例通过设置第一降采样层,可以实现采用较少的特征图替代原始的特征图进行后续计算的目的,并因此可以减少图像分类模型的计算量和显存占用量,在保证图像分类精度的同时,可以在一定程度上提高分类效率。
63.在一实施例中,类似于全局编码网络,如图3所示,实施例300中的第一局部编码网络330可以包括第二融合子网络331、第二编码子网络332和第二转化子网络333。其中,第二编码子网络332与第一编码子网络322类似,均可以采用前文描述的排在前9个block之后的3个block。
64.其中,第二融合子网络331与第一融合子网络321的区别在于,该第二融合子网络331仅对第一特征图序列302中的部分特征图进行融合,以实现对待分类图像中局部区域的关注,从而提取得到第一局部特征图。
65.具体地,该实施例中可以采用第二融合子网络331融合第一特征图序列302中第一部分的特征图,从而得到第四特征图序列305。例如,设定第一图像块的个数还可以为14*14,第一部分的大小可以为12*12、10*10等任意的大小。该第一部分的特征图可以包括第一
特征图序列302中连续的多个特征图,也可以包括不连续的多个特征图,本公开对此不做限定。在融合第一部分的特征图时,可以采用池化操作来实现融合。其中,池化操作可以包括平均池化操作、自适应平均池化操作、最大池化操作等,本公开对此不做限定。通过该池化操作,可以在关注待分类图像的局部特征的同时,达到采用较少的特征图替代原始的特征图进行后续计算的目的,并因此可以减少图像分类模型的计算量和显存占用量,在保证图像分类精度的同时,可以在一定程度上提高分类效率。在得到第四特征图序列305后,即可将第四特征图序列305输入第二编码子网络332,由第二编码子网络332输出第五特征图序列。最后,采用第二转化子网络333将该第五特征图序列转化为特征图矩阵,即可得到第一局部特征图306。其中,第二转化子网络333与前述的第一转化子网络323的结构和作用类似,在此不再赘述。
66.在一实施例中,选取的第一部分的特征图可以为对应待分类图像中中心区域的图像块的特征图,以此提高最终得到的局部特征图所表达内容的丰富性。这是由于图像的中心区域往往包含更丰富的信息。具体地,该实施例中,第二融合子网络可以包括第三转化层、第一池化层和第四转化层。其中,第三转化层与前述的第一转化层类似,均用于将第一特征图序列转化为第一特征图矩阵,在此不再赘述。第一池化层可以用于截取第一特征图矩阵中第一预定区域的特征图,并对截取得到的特征图进行池化操作,从而得到第六特征图矩阵。第一预定区域可以以第一特征图矩阵的中心点为中心。第四转化层用于将第六特征图矩阵转化为第四特征图序列305。该第四转化层执行的操作与第三转化层执行的操作相反,例如,设定第六特征图矩阵的尺寸为3
×
3,则将该矩阵展开后可以得到3*3总计9个特征图,该9个特征图即可构成第四特征图序列305。需要说明的是,该第四特征图序列305中特征图的个数与第三特征图序列303中特征图的个数应相等,以使得第一局部特征图与全局特征图具有相同的尺寸。
67.根据本公开的实施例,在得到全局特征图304和第一局部特征图306之后,可以将全局特征图304和第一局部特征图306输入预测网络340,由预测网络340输出分类信息307。
68.图4是根据本公开另一实施例的图像分类模型的结构示意图。
69.在一实施例中,如图4所示,图像分类模型除了自注意力编码器410、全局编码网络420、第一局部编码网络430和预测网络440外,还可以包括第二局部编码网络450。该第二局部编码网络450与第一局部编码网络430的作用类似,均用于提取局部特征图,区别在于,该两个局部编码网络提取的局部特征图可以具有不同大小的感受野。
70.具体地,该实施例可以采用第二局部编码网络450提取第一特征图序列402的第二局部特征,得到第二局部特征图409。最终,可以将第二局部特征图409、全局特征图404和第一局部特征图406均输入预测网络440,经由预测网络440处理后得到待分类图像的分类信息407。如此,分类信息可以是综合考虑全局特征和两个不同感受野的局部特征而得到的,因此,分类信息的精度可以在一定程度上得到提高,即,图像分类模型的分类精度得到提高。例如,第二局部特征图相较于第一局部特征图,可以关注更小尺寸的局部信息,即第二局部特征的尺寸小于前述第一局部特征的尺寸,第二局部特征图的感受野大于第一局部特征图的感受野。
71.在一实施例中,与第一局部编码网络430类似,该第二局部编码网络450可以包括第三融合子网络451、第三编码子网络452和第三转化子网络453。其中,第三编码子网络452
与第二编码子网络432类似,第三转化子网络453与第二转化子网络433类似。具体地,可以采用第三融合子网络451融合第一特征图序列中第二部分的特征图,得到第七特征图序列408。该第三融合子网络451与第二融合子网络431执行的操作类似,区别在于,第三融合子网络451融合的第二部分的特征图的数量小于第二融合子网络431融合的第一部分的特征图的数量。其中,第七特征图序列408中特征图的个数、第四特征图序列405中特征图的个数和第三特征图序列403中特征图的个数可以均相等。将第七特征图序列408输入第三编码子网络452,可以由第三编码子网络452输出第六特征图序列。最后,采用第三转化子网络将第六特征图序列转化为特征图矩阵,可以得到第二局部特征图409。
72.在一实施例中,第三融合子网络可以包括第五转化层、第二池化层和第六转化层。其中,第五转化层与前述的第三转化层相同,第六转化层与前述的第四转化层类似。第二池化层与前述第一池化层的区别在于,截取的特征图所在的预定区域的尺寸不同。例如,该实施例可以采用第五转化层将第一特征图序列402转化为第一特征图矩阵。采用第二池化层对截取的第一特征图矩阵中第二预定区域的特征图进行池化操作,可以得到第八特征图矩阵。其中,若第一预定区域的尺寸为12
×
12,该实施例中第二预定区域的尺寸例如可以为8
×
8,且该第二预定区域也可以以第一特征图矩阵的中心点为中心。采用第六转化层将第八特征图矩阵转化为第七特征图序列。
73.为了便于实现本公开提供的基于图像分类模型的图像分类方法,本公开还提供了一种图像分类模型的训练方法,以下将结合图5~图7对该训练方法进行详细描述。
74.图5是根据本公开实施例的图像分类模型的训练方法的流程示意图。
75.如图5所示,该实施例的训练方法500可以包括操作s510~操作s560。其中,图像分类模型可以为图像分类模型的图像分类方法200所采用的图像分类模型。例如,该图像分类模型至少包括自注意力编码器、全局编码网络、第一局部编码网络。
76.在操作s510,将样本图像切分为多个图像块,得到图像块序列。
77.在操作s520,采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列。其中,第一特征图序列包括分别针对所述多个图像块的多个特征图。
78.在操作s530,采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图。
79.在操作s540,采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图。
80.该操作s510~操作s540分别与前文描述的操作s210~操作s240类似,在此不再赘述。
81.在操作s550,根据全局特征图确定第一分类信息,并根据第一局部特征图确定第二分类信息。
82.根据本公开的实施例,可以采用全连接层和softmax分类器构成的预测模型分别对全局特征图和第一局部特征图进行处理,从而分别得到第一分类信息和第二分类信息。该第一分类信息与第二分类信息与前文描述的待分类图像的分类信息类似,在此不再赘述。
83.在操作s560,根据第一分类信息与第二分类信息之间的第一差异,对图像分类模型进行训练。
84.根据本公开的实施例,第一差异可以采用第一分类信息与第二分类信息之间的欧氏距离、曼哈顿距离、余弦距离等来表示,也可以采用第一分类信息与第二分类信息之间的相对熵(即kullback-leibler散度,kl散度)来表示,本公开对此不做限定。该实施例可以采用反向传播算法,通过最小化第一差异来训练图像分类模型。
85.该实施例实质上采用了模仿学习的方式来训练图像分类模型,可以使得图像分类模型中全局网络和第一局部网络输出的特征趋于一致。拉近全局特征与第一局部特征之间的距离。通过该方式,可以实现图像分类模型的无监督训练,利于提高模型的鲁棒性。
86.图6是根据本公开实施例的图像分类模型的训练方法的原理示意图。
87.根据本公开的实施例,与前文描述的实施例400类似,在该实施例600中,图像分类模型除了自注意力编码器、全局编码网络、第一局部编码网络外,还可以包括第二局部编码网络。
88.相应地,在该实施例600中,在采用前述操作s530得到全局特征图604,采用前述操作s540得到第一局部特征图606的同时,还可以采用第二局部编码网络提取第一特征图序列的第二局部特征,从而得到第二局部特征图609。该第二局部特征图609的获得原理与前述实施例400得到第二局部特征图409的原理类似,在此不再赘述。
89.在全局特征图604、第一局部特征图606和第二局部特征图609后,该实施例可以将该三个特征图分别输入包括全连接层和softmax分类器的预测模型660,分别得到第一分类信息671、第二分类信息672和第三分类信息673。在得到三个分类信息后,可以根据三个分类信息两两之间的差异,来对图像分类模型进行训练。例如,可以将第一分类信息671与第二分类信息672之间的kl散度,作为第一差异681。将第一分类信息671与第三分类信息673之间的kl散度,作为第二差异682。将第二分类信息672与第三分类信息673之间的kl散度,作为第三差异683。
90.示例性地,第一分类信息671与第二分类信息672之间的kl散度例如可以包括第一分类信息671相对于第二分类信息672的kl散度,以及第二分类信息672相对于第一分类信息671的kl散度。例如,设定第一分类信息为p1,第二分类信息为p2,则第一差异d
1 681可以采用以下公式(1)计算得到:
91.d1=d
kl
(p1||p2)+d
kl
(p2||p1)。
ꢀꢀꢀ
公式(1)
92.设定样本图像总计包括n个图像,则针对n个图像中的每个图像,可以得到一个第一分类信息、第二分类信息和一个第三分类信息。设定多个预定类别的个数为m个,则第一分类信息p1中包括第i个样本xi针对m个预定类别中第m个预定类别的概率p
1m
(xi),第二分类信息p2中包括第i个样本xi针对m个预定类别中第m个预定类别的概率,则公式(1)中的d
kl
(p2||p1)例如可以采用以下公式(2)计算得到:
[0093][0094]
类似地,设定第三分类信息为p3,则第二差异682可以由d
kl
(p1||p3)和d
kl
(p3||p1)相加得到。第三差异683可以由d
kl
(p2||p3)和d
kl
(p3||p2)相加得到。
[0095]
通过该实施例的方法,可以拉近全局编码网络、第一局部编码网络和第二局部编码网络两两之间的距离,使得该三个网络进行两两组合地相互学习,使得三个网络的精度
同步提高。
[0096]
图7是根据本公开另一实施例的图像分类模型的训练方法的原理示意图。
[0097]
根据本公开的实施例,还可以将前述得到的第一分类信息和第二分类信息与样本图像的真值类别信息进行比较,通过训练图像分类模型,使得第一分类信息和第二分类信息更为靠近真值类别信息。如此,可以实现对图像分类模型的有监督的训练,利于提高图像分类模型的精度。相应地,样本图像应包括真值类别信息。该真值类别信息可以包括样本图像的真值类别,该真值类别属于前文描述的多个预定类别。
[0098]
在一实施例中,在图像分类模型还包括第二局部编码网络时,该实施例还可以将前述的第三分类信息与样本图像的真值类别信息进行比较,并通过训练图像分类模型,使得第三分类信息更为靠近真值类别信息。
[0099]
例如,该实施例可以针对第一分类信息、第二分类信息和第三分类信息中的任一分类信息,先确定该任一分类信息与真值类别信息之间的第四差异。随后,根据针对三个分类信息得到的三个第四差异,来对图像分类模型进行训练。其中,第四差异可以采用交叉熵等来计算。或者,该实施例可以先确定任一分类信息中针对真值类别的概率值,根据该概率值与1之间的差值,来确定第四差异。
[0100]
在一实施例中,如图7所示,该实施例700在确定任一分类信息701与真值类别信息702之间的第四差异时,可以先根据真值类别信息702指示的真值类别,确定样本图像针对多个预定类别的预定分布信息703。其中,预定分布信息例如可以满足正态分布。例如,设定预定分布信息为pt,该预定分布信息中包括样本图像针对m个预定类别中每个类别的概率值。例如,每个预定类别可以具有对应的数值取值,设定第i个类别对应的数值取值为ki,预定分布信息中样本图像针对第i个类别的概率值pi(ki)可以采用以下公式(3)计算得到:
[0101][0102]
其中,μ为样本图像的真值类别对应的数值取值。σ的取值为1。可以理解的是,在多个预定类别为多个年龄段时,每个预定类别对应的数值取值可以为年龄值,ki的取值包括取值区间[0,100]中整数。
[0103]
如此,针对每个预定类别,可以得到一个概率值,多个概率值即可构成预定分布信息703。
[0104]
在得到预定分布信息703之后,该实施例可以根据预定分布信息703与任一分类信息701之间的分布差异704,来确定第四差异。例如,第四差异705可以为预定分布信息703与任一分类信息701之间的分布差异704。该分布差异704与前文描述的第一差异、第二差异、第三差异类似,例如可以采用预定分布信息703与任一分类信息701之间的kl散度来表示分布差异704,本公开对此不做限定。
[0105]
该实施例通过根据分布差异来表示预测的分类信息与真值类别信息之间的差异,可以提高确定的差异准确性,利于提高图像分类模型的精度。
[0106]
在一实施例中,针对任一分类信息701,还可以结合多个预定类别对应的数值取值,来确定样本图像的加权取值。采用真值类别对应的数值取值与该加权取值之间的差异,来表示任一分类信息701与真值类别信息702之间的第四差异。
[0107]
具体地,该实施例可以任一分类信息701所包括的样本图像针对多个预定类别的概率分布信息中,针对某个预定类别的概率值作为该某个预定类别对应的数值取值的权重,对多个预定类别的数值取值706计算加权和,从而得到加权取值707。随后确定该加权取值707与真值类别对应的数值取值708之间的取值差异709,并根据该取值差异709确定第四差异705。其中,加权取值707与数值取值708之间的取值差异709可以采用两个数值之间的欧式距离或曼哈顿距离等来表示,本公开对此不做限定。
[0108]
可以理解的是,加权取值707实质上为采用深度期望方法得到的预测数值取值。通过该实施例的方法确定第四差异705,并根据该第四差异705来训练图像分类模型,可以进一步提高图像分类模型的精度,减少图像分类模型的训练阶段和预测阶段的不一致性。
[0109]
在一实施例中,在确定第四差异705时,可以既考虑分布差异704,又考虑取值差异709,例如,可以将该两个差异的取值的加权和,作为第四差异705的取值。
[0110]
可以理解的是,针对第一分类信息、第二分类信息和第三分类信息中的每个分类信息,均可以得到一个第四差异。该实施例可以将得到的三个第四差异的和,作为图像分类模型的预测损失,并根据该预测损失来训练图像分类模型。
[0111]
在一实施例中,图像分类模型除了前述的自注意力编码器、全局编码网络和第一局部编码网络外,还可以包括预测网络,该预测网络的输入包括前述根据样本图像得到的全局特征图和第一局部特征图。该预测网络可以将全局特征图和第一局部特征图融合后进行预测,得到第四分类信息。该实施例还可以根据第四分类信息与真值类别信息之间的第五差异来对图像分类模型进行训练。该第五差异与前文描述的第四差异的获得方式类似,在此不再赘述。通过该方式,可以在一定程度上提高预测网络的精度,利于提高图像分类模型预测得到的类别的精度。
[0112]
可以理解的是,在图像分类模型还包括第二局部编码网络时,预测网络的输入除了包括全局特征图和第一局部特征图外,还可以包括第二局部特征图。则第四分类信息是融合全局特征图和、第一局部特征图和第二局部特征图后预测得到的。
[0113]
在一实施例中,在对图像分类模型进行训练时,可以综合考虑前述的第一差异、第二差异、第三差异、三个第四差异和第五差异,并将该些差异的取值的加权和作为图像分类模型的损失值。通过调整图像分类模型中的网络参数来最小化该损失值,从而实现对图像分类模型的训练。
[0114]
通过将本公开实施例训练得到的图像分类模型应用于人脸年龄识别、人脸表情识别等任务上,任务的完成效果均有显著提升。如此,本公开实施例训练得到的图像分类模型,可以更好地支撑前文描述的公共设施管控、产品推荐和信息安全管理等场景中各个业务的发展。
[0115]
基于本公开提供的基于图像分类模型的图像分类方法,本公开还提供了一种基于图像分类模型的图像分类装置。以下将结合图8对该装置进行详细描述。
[0116]
图8是根据本公开实施例的基于图像分类模型的图像分类装置的结构框图。
[0117]
如图8所示,该实施例的基于图像分类模型的图像分类装置800可以包括图像切分模块810、自注意力编码模块820、全局编码模块830、第一局部编码模块840和分类模块850。其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络。
[0118]
图像切分模块810用于将待分类图像切分为多个图像块,得到图像块序列。在一实
施例中,图像切分模块810可以用于执行前文描述的操作s210,在此不再赘述。
[0119]
自注意力编码模块820用于采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列。其中,第一特征图序列包括分别针对多个图像块的多个特征图。在一实施例中,自注意力编码模块820可以用于执行前文描述的操作s220,在此不再赘述。
[0120]
全局编码模块830用于采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图。在一实施例中,全局编码模块830可以用于执行前文描述的操作s230,在此不再赘述。
[0121]
第一局部编码模块840用于采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图。在一实施例中,第一局部编码模块840可以用于执行前文描述的操作s240,在此不再赘述。
[0122]
分类模块850用于将全局特征图和第一局部特征图输入预测网络,得到待分类图像的分类信息。在一实施例中,分类模块850可以用于执行前文描述的操作s250,在此不再赘述。
[0123]
根据本公开的实施例,全局编码网络包括第一编码子网络和第一转化子网络。上述全局编码模块830可以包括第一编码子模块和第一转化子模块。第一编码子模块用于基于第一特征图序列,采用第一编码子网络得到第二特征图序列。第一转化子模块用于采用第一转化子网络将第二特征图序列转化为特征图矩阵,得到全局特征图。
[0124]
根据本公开的实施例,全局编码网络还包括第一融合子网络。上述第一编码子模块可以包括全局融合单元和第一编码单元。全局融合单元用于采用第一融合子网络对第一特征图序列中的特征图进行全局融合,得到第三特征图序列。第一编码单元用于将第三特征图序列输入第一编码子网络,得到第二特征图序列。
[0125]
根据本公开的实施例,第一融合子网络包括第一转化层、第一降采样层和第二转化层。上述全局融合单元包括第一转化子单元、采样子单元和第二转化子单元。第一转化子单元用于采用第一转化层将第一特征图序列转化为第一特征图矩阵。采样子单元用于采用第一降采样层对第一特征图矩阵中的特征图间隔采样,得到多个融合子矩阵。第二转化子单元用于采用第二转化层将多个融合子矩阵转化为多个融合特征图,得到由多个融合特征图构成的第三特征图序列。
[0126]
根据本公开的实施例,第一局部编码网络包括第二融合子网络、第二编码子网络和第二转化子网络。上述第一局部编码模块包括第一融合子模块、第二编码子模块和第二转化子模块。第一融合子模块用于采用第二融合子网络融合第一特征图序列中第一部分的特征图,得到第四特征图序列。第二编码子模块用于将第四特征图序列输入第二编码子网络,得到第五特征图序列。第二转化子模块用于采用第二转化子网络将第五特征图序列转化为特征图矩阵,得到第一局部特征图。
[0127]
根据本公开的实施例,第二融合子网络包括第三转化层、第一池化层和第四转化层。上述第一融合子模块包括第一转化单元、第一池化单元和第二转化单元。第一转化单元用于采用第三转化层将第一特征图序列转化为第一特征图矩阵。第一池化单元用于采用第一池化层对截取的第一特征图矩阵中第一预定区域的特征图进行池化操作,得到第六特征图矩阵。第二转化单元用于采用第四转化层将第六特征图矩阵转化为第四特征图序列。
[0128]
根据本公开的实施例,图像分类模型还包括第二局部编码网络。上述装置800还可
以包括第二局部编码模块,用于采用第二局部编码网络提取第一特征图序列的第二局部特征,得到第二局部特征图。上述分类模块850还可以用于将全局特征图、第一局部特征图和第二局部特征图输入预测网络,得到待分类图像的分类信息。其中,第一局部特征的尺寸大于第二局部特征的尺寸。
[0129]
根据本公开的实施例,第二局部编码网络包括第三融合子网络、第三编码子网络和第三转化子网络。上述第二局部编码网络可以包括第二融合子模块、第三编码子模块和第三转化子模块。第二融合子模块用于采用第三融合子网络融合第一特征图序列中第二部分的特征图,得到第七特征图序列。第三编码子模块用于将第七特征图序列输入第三编码子网络,得到第六特征图序列。第三转化子模块用于采用第三转化子网络将第六特征图序列转化为特征图矩阵,得到第二局部特征图。
[0130]
根据本公开的实施例,第三融合子网络包括第五转化层、第二池化层和第六转化层。上述第二融合子模块可以包括第三转化单元、第二池化单元和第四转化单元。第三转化单元用于采用第五转化层将第一特征图序列转化为第一特征图矩阵。第二池化单元用于采用第二池化层对截取的第一特征图矩阵中第二预定区域的特征图进行池化操作,得到第八特征图矩阵。第四转化单元用于采用第六转化层将第八特征图矩阵转化为第七特征图序列。
[0131]
基于本公开提供的图像分类模型的训练方法,本公开还提供了一种图像分类模型的训练装置,以下将结合图9对该装置进行详细描述。
[0132]
图9是根据本公开实施例的图像分类模型的训练装置的结构框图。
[0133]
如图9所示,该实施例的图像分类模型的训练装置900可以包括图像切分模块910、自注意力编码模块920、全局编码模块930、第一局部编码模块940、第一分类模块950和模型训练模块960。其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络。
[0134]
图像切分模块910可以用于将样本图像切分为多个图像块,得到图像块序列。在一实施例中,图像切分模块910用于执行前文描述的操作s510,在此不再赘述。
[0135]
自注意力编码模块920用于采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列;第一特征图序列包括分别针对多个图像块的多个特征图。在一实施例中,自注意力编码模块920可以执行前文描述的操作s520,在此不再赘述。
[0136]
全局编码模块930用于采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图。在一实施例中,全局编码模块930可以执行前文描述的操作s530,在此不再赘述。
[0137]
第一局部编码模块940用于采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图。在一实施例中,第一局部编码模块940可以执行前文描述的操作s540,在此不再赘述。
[0138]
第一分类模块950用于根据全局特征图确定第一分类信息,并根据第一局部特征图确定第二分类信息。在一实施例中,第一分类模块950可以执行前文描述的操作s550,在此不再赘述。
[0139]
模型训练模块960用于根据第一分类信息与第二分类信息之间的第一差异,对图像分类模型进行训练。在一实施例中,模型训练模块960可以执行前文描述的操作s560,在
此不再赘述。
[0140]
根据本公开的实施例,图像分类模型还包括第二局部编码网络。上述装置900还可以包括第二局部编码模块,用于采用第二局部编码网络提取第一特征图序列的第二局部特征,得到第二局部特征图。上述第一分类模块950还用于根据第二局部特征图确定第三分类信息。上述模型训练模块960还可以用于根据第一分类信息和第三分类信息之间的第二差异及第二分类信息和第三分类信息之间的第三差异,对图像分类模型进行训练。
[0141]
根据本公开的实施例,样本图像包括真值类别信息。上述装置900还可以包括第一差异确定模块,用于针对第一分类信息、第二分类信息和第三分类信息中的任一分类信息,确定任一分类信息与真值类别信息之间的第四差异。上述模型训练模块960还可以用于根据第一分类信息、第二分类信息和第三分类信息各自与真值类别信息之间的第四差异,对图像分类模型进行训练。
[0142]
根据本公开的实施例,任一分类信息包括样本图像针对多个预定类别的概率分布信息,真值类别信息包括样本图像所属的真值类别。上述第一差异确定模块可以包括分布确定子模块和第一差异确定子模块。分布确定子模块用于根据真值类别,确定样本图像针对多个预定类别的预定分布信息。差异确定子模块用于根据预定分布信息与概率分布信息之间的分布差异,确定任一分类信息与真值类别信息之间的第四差异。
[0143]
根据本公开的实施例,任一分类信息包括样本图像针对多个预定类别的概率分布信息。多个预定类别中的每个类别具有对应的数值取值,真值类别信息包括样本图像所属的真值类别。上述第一差异确定模块可以包括取值确定子模块和第二差异确定子模块。取值确定子模块用于根据概率分布信息确定多个预定类别对应的多个数值取值的加权和,作为加权取值。第二差异确定子模块用于根据真值类别对应的数值取值与加权取值之间的取值差值,确定任一分类信息与真值类别信息之间的第四差异。
[0144]
根据本公开的实施例,样本图像包括真值类别信息,图像分类模型还包括预测网络。上述装置900还可以包括第二分类模块和第二差异确定模块。第二分类模块用于将全局特征图和第一局部特征图输入预测网络,得到第四分类信息。第二差异确定模块用于确定第四分类信息与真值类别信息之间的第五差异。上述模型训练模块960还用于根据第五差异,对图像分类模型进行训练。
[0145]
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0146]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0147]
图10示出了可以用来实施本公开实施例的基于图像分类模型的图像分类方法和/或图像分类模型的训练方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/
或者要求的本公开的实现。
[0148]
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序,来执行各种适当的动作和处理。在ram 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0149]
设备1000中的多个部件连接至i/o接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0150]
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如基于图像分类模型的图像分类方法和/或图像分类模型的训练方法。例如,在一些实施例中,基于图像分类模型的图像分类方法和/或图像分类模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram 1003并由计算单元1001执行时,可以执行上文描述的基于图像分类模型的图像分类方法和/或图像分类模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于图像分类模型的图像分类方法和/或图像分类模型的训练方法。
[0151]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0152]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0153]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0154]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0155]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0156]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(

virtual private server

,或简称

vps

)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0157]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0158]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1