一种用于工业检测的图像分类方法、装置及计算机设备与流程

文档序号:31340601发布日期:2022-08-31 10:04阅读:69来源:国知局
一种用于工业检测的图像分类方法、装置及计算机设备与流程

1.本技术涉及深度学习技术领域,具体而言,涉及一种用于工业检测的图像分类方法、装置及计算机设备。


背景技术:

2.基于深度学习的图像分类技术已经成为人工智能领域的研究热点。深度学习模型能够自动学习图像特征,应用于传统的多类别图像分类任务中,分类检测效果较好。
3.但是对于图像特征相似度较高的细粒度分类检测应用,基于深度学习的图像分类模型存在对图像分类不准确的问题,不能较好的满足检测需求。细粒度分类检测是在区分出基本类别的基础上,进行的更精细的子类划分。由于图像之间具有更加相似的外观和特征,同时在采集中存在姿态、视角、光照、遮挡、背景干扰等影响,而使图像呈现出类间差异性大、类内差异性小的特点。
4.虽然目前基于深度学习技术的算法要远远优于传统方法,但是在图像差异性小时,基于深度学习的图像分类模型对图像进行再分类还是相对困难,存在分类检测准确度低的问题。


技术实现要素:

5.为了解决由于图像差异性小,对图像进行更精细的子类划分时存在分类检测准确度低的问题,本技术提供了一种用于工业检测的图像分类方法、装置及计算机设备。
6.本技术的实施例是这样实现的:
7.本技术实施例提供一种用于工业检测的图像分类方法,所述方法包括:
8.获取第一训练图像的特征向量,并将所述特征向量输入至具有多个类别向量的权重矩阵,所述类别向量根据图像分类需求设定;
9.扩大角度空间中各初始向量夹角,得到目标向量夹角对应的余弦值,所述初始向量夹角为所述特征向量与各所述类别向量之间的角度;其中,所述余弦值用于确定相似度,所述角度空间是基于所述权重矩阵转化得到的分类空间;
10.根据所述相似度所在的对应阈值区间,确定所述第一训练图像对应的第一类别。
11.在一些实施例中,所述扩大角度空间中各初始向量夹角,得到目标向量夹角对应的余弦值,进一步包括:
12.设定分离角度间隔;
13.求取分离角度间隔与所述初始向量夹角之和、或求取分离角度间隔与所述初始向量夹角之积,得到目标向量夹角;
14.计算所述目标向量夹角的余弦值。
15.在一些实施例中,计算所述初始向量夹角,进一步包括:
16.计算所述权重矩阵中的每一个所述类别向量与所述特征向量的点积;
17.基于所述点积,计算所述特征向量与每一个所述类别向量之间的所述初始向量夹
角,所述初始向量夹角是大小为n的一维向量,所述n表示类别向量的类别数。
18.在一些实施例中,所述确定所述相似度,进一步包括:
19.通过交叉熵损失函数计算所述相似度,所述相似度用于表征所述余弦值与所述类别向量之间的相似程度。
20.在一些实施例中,所述角度空间是基于所述权重矩阵转化得到的分类空间,进一步包括:
21.计算特征向量模和所述权重矩阵的行参数模;
22.计算所述特征向量与所述特征向量模的比值、以及所述权重矩阵的行参数与所述行参数模的比值,求取两个比值之积为角度余弦值;
23.通过所述角度余弦值反余弦计算得到角度,实现将所述权重矩阵转化到所述角度空间。
24.在一些实施例中,获取第一训练图像的特征向量,进一步包括:
25.通过主干模型从所述第一训练图像中提取所述特征向量,所述特征向量是大小为所述n的一维向量。
26.在一些实施例中,在所述将所述特征向量输入至具有多个类别向量的权重矩阵之后,所述方法还包括:
27.将所述类别向量按照当前索引位所针对的类别划分为当前索引位类别和其他索引位类别,其中,将所述当前索引位类别表示为1,将所述其他索引位类别表示为0。
28.本技术的又一实施例提供了一种用于工业检测的图像分类装置,包括:
29.获取模块,用于获取第一训练图像的特征向量,并将所述特征向量输入至具有多个类别向量的权重矩阵,所述类别向量根据图像分类需求设定;
30.扩大模块,用于扩大角度空间中各初始向量夹角,得到目标向量夹角对应的余弦值,所述初始向量夹角为所述特征向量与各所述类别向量之间的角度;其中,所述余弦值用于确定相似度,所述角度空间是基于所述权重矩阵转化得到的分类空间;
31.确定模块,用于根据所述相似度所在的对应阈值区间,确定所述第一训练图像对应的第一类别。
32.在一些实施例中,所述扩大模块包括:
33.设定单元,用于设定分离角度间隔;
34.第一计算单元,用于求取分离角度间隔与所述初始向量夹角之和、或求取分离角度间隔与所述初始向量夹角之积,得到目标向量夹角;
35.第二计算单元,用于计算所述目标向量夹角的余弦值。
36.本技术的又一实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述用于工业检测的图像分类方法的步骤。
37.本技术的有益效果:通过扩大角度空间中各初始向量角度,强化了不同类别图像之间的分离边界,使得图像特征的类内距离更为紧凑、类间距离更为分离,可实现所有的图像数据都能在角度分类空间中被正确分类的效果;进一步基于交叉熵损失函数计算相似度,交叉熵损失函数越小,相似度越高,则表明特征向量与类别向量之间的拟合度越好,获得的分类结果越精确。
附图说明
38.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
39.图1为本技术实施例提供的用于工业检测的图像分类方法流程图;
40.图2为本技术实施例提供的计算强化角度余弦值的方法流程图;
41.图3为本技术实施例提供的加入分离角度间隔前后的角度分类空间示意图;
42.图4为本技术实施例提供的用于工业检测的图像分类装置的结构框图。
具体实施方式
43.为使本技术的目的、实施方式和优点更加清楚,下面将结合本技术示例性实施例中的附图,对本技术示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本技术一部分实施例,而不是全部的实施例。
44.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.基于本技术描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术所附权利要求保护的范围。此外,虽然本技术中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
46.需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
47.下面结合本技术的技术方案具体说明本技术的实现方式。
48.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
49.在本发明实施例中,主要涉及其中的机器学习方向,机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
50.在本发明实施例中提出的图像分类方法可分为两部分,包括训练部分和图像分类部分;其中,训练部分就涉及到机器学习这一技术领域。
51.在一些实施例中,图像分类是对于一张输入图像,从已有的标签集合中找出一个标签,并分配给这张图像。
52.通常采用图像分类模型进行图像分类。图像分类模型一般分为输入图像、主干模型、分类器和输出预测概率4部分。
53.其中的输入图像是输入包含n个图像的集合,每个图像标识有分类标签;
54.主干模型用于从图像中提取图像特征,分类器用于将图像特征映射为类别分数,分类器预测未曾见过的图像的分类标签并输出预测概率。
55.分类器预测的分类标签与图像真正的分类标签一致时,则预测概率高。
56.本技术将线性分类空间转化到角度空间,再加上一个分离角度间隔,让图像分类模型学习更加清晰的分类边界,使得特征的类内距离更为紧凑、类间距离更为分离。
57.图1示例性示出了本技术实施例提供的用于工业检测的图像分类方法流程图。如图1所示,本技术实施例所提供的一种用于工业检测的图像分类方法,包括以下步骤:
58.在步骤110中,获取第一训练图像的特征向量,并将特征向量输入至具有多个类别向量的权重矩阵,类别向量根据图像分类需求设定。
59.训练图像是指包括显示屏、工业零部件等物品的图像。需要说明的是,所述训练图像可以是预先存储于所述终端设备中的本地图像,或者也可以是与所述终端设备通信连接的其他终端传输至所述终端设备中的,或者也可以为通过指定摄像头采集得到的图像,也可以为从指定视频中提取的视频帧。所述训练图像的具体来源和图像形式在此不做限制。
60.权重矩阵由n行、d列组成,其中n为分类的类别数,根据工业检测的实际分类需求设定,比如分类为合格和不合格时,n代表2;分类为优异、合格和不合格时,n代表3。
61.在一些实施例中,将类别向量按照当前索引位所针对的类别划分为当前索引位类别和其他索引位类别,其中,将当前索引位类别表示为1,将其他索引位类别表示为0。
62.权重矩阵中的d列表示特征向量的大小,权重矩阵中的每一行用于表征当前类别在角度空间的参数,即行参数。
63.当然,在不同的应用领域可以设置不同的特征向量。例如在显示屏缺陷检测中,特征向量包括均灰度值、周长、面积、周长面积比、紧凑度、和椭圆度等。
64.在步骤120中,扩大角度空间中各初始向量夹角,得到目标向量夹角对应的余弦值,初始向量夹角为特征向量与各类别向量之间的角度;
65.其中,余弦值用于确定相似度,角度空间是基于权重矩阵转化得到的分类空间。
66.角度空间是决策空间的一种,决策空间是将主干模型提取的图像特征数据映射的一种抽象的数据空间。
67.在步骤130中,根据相似度所在的对应阈值区间,确定第一训练图像对应的第一类别。
68.当目标向量夹角所对应的余弦值越大,表示该类别向量与特征向量之间的角度越小,则类别向量与特征向量越相似,当类别向量与特征向量的相似度满足对应阈值区间时,该特征向量属于该类别向量所对应的类别。
69.在一些实施例中,步骤120中计算初始向量夹角是通过以下步骤实现的:
70.计算权重矩阵中的每一个类别向量与特征向量的点积;
71.基于点积,计算特征向量与每一个类别向量之间的初始向量夹角,初始向量夹角是大小为n的一维向量,n表示类别向量的类别数。
72.图2为本技术实施例提供的计算强化角度余弦值的方法流程图,如图2所示,上述实施例的步骤120中扩大角度空间中各初始向量夹角,得到目标向量夹角对应的余弦值,是通过以下步骤实现的:
73.在步骤121中,设定分离角度间隔。分离角度间隔的大小根据图像特征之间的相似
程度设定。
74.在步骤122中,求取分离角度间隔与初始向量夹角之和、或求取分离角度间隔与初始向量夹角之积,得到目标向量夹角。
75.在步骤123中,计算目标向量夹角的余弦值。
76.需要说明的是,扩大初始向量夹角包括增加加性分离角度间隔或增加乘性分离角度间隔,用公式分别表示为:
77.cos(θ1+m)-cos(θ2)=0
78.cos(m*θ1)-cos(θ2)=0
79.其中,θ1、θ2分别为图像类别1、类别2的角度,m为分离角度间隔。
80.通过扩大初始向量角度能够提高了类间可分性,同时加强了类间紧凑度。
81.如图3所示为加入分离角度间隔前后的角度分类空间示意图,图3中(a)为未加入分离角度间隔的角度分类空间示意图;图3中(b)为加入分离角度间隔的角度分类空间示意图。
82.相比图3中(a)所示意出的角度分类空间,图3中(b)所示意出的具有分离角度间隔的角度分类空间中类和类之间的边界可分离性更好。
83.在一些实施例中,确定相似度的方法包括:通过交叉熵损失函数计算相似度,相似度用于表征余弦值与类别向量之间的相似程度。
84.其中的交叉熵作为分类器的损失函数,用于衡量两个变量之间的相似度。
85.例如,给定两个概率分布p和q,通过q来表示p的交叉熵,就是通过概率分布q来表达概率分布p的困难程度,p代表正确答案,q代表的是预测值,交叉熵越小,两个概率的分布约接近,两个变量之间越相似。
86.损失函数用于说明一个样本中模型预测的值与真实值之间的差距。
87.例如,对于一个样本(ai,bi),其中bi为真实值,而f(ai)为我们的预测值。
88.使用损失函数l(f(ai)bi)来表示真实值和预测值之间的差距。两者差距越小越好,最理想的情况是预测值刚好等于真实值,差距为0。
89.由于交叉熵是用来评估两个样本分布之间的距离,因此可以使用交叉熵来评估当前训练得到的概率分布与真实分布的差异情况,也就是使用交叉熵损失函数刻画的是实际输出(概率)与期望输出(概率)的距离,当交叉熵的值越小,两个概率分布就越接近。
90.在一些实施例中,角度空间是基于权重矩阵转化或映射得到的分类空间,通过权重矩阵转化或映射得到角度空间,包括以下步骤:
91.计算特征向量模和权重矩阵的行参数模;
92.向量是有大小又有方向的量,向量的大小成为向量的模,也即特征向量的大小为特征向量模,权重矩阵中每一行的参数向量的大小为行参数模;
93.计算特征向量与特征向量模的比值、以及权重矩阵的行参数与行参数模的比值,求取两个比值之积为角度余弦值,通过角度余弦值反余弦计算得到角度,实现将权重矩阵转化到角度空间。
94.角度余弦值用公式表示为:
95.cosθ=(wj/||wj||)
·
(x/||x||)
96.其中,wj表示权重矩阵的行参数,x表示训练图像的特征向量,|wj|表示权重矩阵
的行参数模,|x|表示特征向量模,等式右边表示对决策空间当前类别向量和训练图像特征x归一化。
97.在一些实施例中,获取第一训练图像的特征向量,可通过以下方法实现:
98.通过主干模型从第一训练图像中提取特征向量,特征向量是大小为n的一维向量。通过主干模型提取的图像特征包括颜色特征、纹理特征、形状特征和空间关系特征。当提取的特征向量的数目越多,对图像的描述越精准,检索的准确率也越高。
99.需要说明的是,颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质,一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献;
100.对于具有粗细、疏密等方面较大差别的纹理图像,利用纹理特征是一种有效的方法,但当纹理之间的粗细、疏密等易于分辨的信息之间相差不大的时候,通常的纹理特征很难准确地反映出人的视觉感觉不同的纹理之间的差别。
101.形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征。
102.图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。
103.空间关系是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。
104.通常空间位置信息可以分为两类:相对空间位置信息和绝对空间位置信息。前一种关系强调的是目标之间的相对情况,如上下左右关系等,后一种关系强调的是目标之间的距离大小以及方位。空间关系特征的使用可加强对图像内容的描述区分能力。
105.在以上实施例中,还可以通过卷积神经网络提取图像对应的特征向量。卷积神经网络是目前计算机视觉中最常用、最有效的一种模型,卷积神经网络中仅包括多个卷积层,将待处理图像输入到卷积神经网络进行特征提取,得到图像的特征向量。
106.在一些实施例中,为了增强训练图像的多样性,在获取第一训练图像的特征向量之前,还包括对训练图像进行曾广处理,例如对图像进行水平和垂直方向翻转以及亮度增强等操作,以获得更多的图像数据。
107.基于以上实施例的图像分类方法,将待检测图像输入到基于上述实施例的图像分类方法所建立的分类器中,输出的数据即为该待检测图像的类别。
108.本技术通过扩大角度空间中各初始向量角度,强化了不同类别图像之间的分离边界,使得图像特征的类内距离更为紧凑、类间距离更为分离,可实现所有的图像数据都能在角度分类空间中被正确分类的效果;进一步基于交叉熵损失函数计算相似度,交叉熵损失函数越小,相似度越高,则表明特征向量与类别向量之间的拟合度越好,获得的分类结果越精确。
109.图4为本技术实施例提供的用于工业检测的图像分类装置的结构框图。如图4所示本技术实施例中提供得一种用于工业检测的图像分类装置,包括:
110.获取模块401,用于获取第一训练图像的特征向量,并将特征向量输入至具有多个类别向量的权重矩阵,类别向量根据图像分类需求设定;
111.扩大模块402,用于扩大角度空间中各初始向量夹角,得到目标向量夹角对应的余弦值,初始向量夹角为特征向量与各类别向量之间的角度;其中,余弦值用于确定相似度,
角度空间是基于权重矩阵转化得到的分类空间;
112.确定模块403,用于根据相似度所在的对应阈值区间,确定第一训练图像对应的第一类别。
113.在一些实施例中,扩大模块402包括:设定单元,第一计算单元,第二计算单元。
114.设定单元,用于设定分离角度间隔;
115.第一计算单元,用于求取分离角度间隔与初始向量夹角之和、或求取分离角度间隔与初始向量夹角之积,得到目标向量夹角;
116.第二计算单元,用于计算目标向量夹角的余弦值。
117.上述图像分类装置、以及图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述个模块可以硬件形式内嵌于或独立于计算机设备的处理器中,也可以以软件形式存储与计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
118.本技术实施例提供的图像分类装置,其实现原理和技术效果与上述方法实施例类似,在此不在赘述。
119.本技术实施例还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现用于工业检测的图像分类方法中的步骤。
120.本技术实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不在赘述。
121.在本技术实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现用于工业检测的图像分类方法中的步骤。本技术实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不在赘述。其中的计算机可读存储介质,如只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等。
122.在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本技术的内容,并且上面对特定语言所做的描述是为了披露本技术说明书的最佳实施方式。
123.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
124.类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本技术的示例性实施例的描述中,本技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本技术的单独实施例。
125.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地
改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
126.此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1