特征选择与组合优化算法的零部件缺陷检测区间聚类方法与流程

文档序号:27080528发布日期:2021-10-24 12:15阅读:203来源:国知局

1.本发明涉及图像数据处理的技术领域,尤其是一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法。


背景技术:

2.目前,基于图像数据处理的方法大多是根据经验选取物理量区间进行聚类,物理量权重、光学面及缺陷种类的不同影响着正负样本划分的准确性,存在很多的局限性。最明显的就是线状缺陷的长宽物理量权重较大,不考虑面积物理量;块状缺陷则是缺陷的面积物理量权重较大,不考虑长宽物理量。这导致部分区间组合并不是较优的结果。同时,相同缺陷的光学面不同,使得设置区间组合变得复杂。然而,为了精确的进行工业数据分析,必须找到工件准确的正负样本划分。


技术实现要素:

3.本发明要解决的技术问题是:为了解决上述背景技术中存在的问题,提供一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,对工业零部件的不同缺陷各个光学面进行正负样本的组合优化聚类区分,并且具有一定的鲁棒性,以确保可以得到多项目的缺陷精准检测及划分。
4.本发明解决其技术问题所采用的技术方案是:一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,具体步骤如下:第1步骤、采集数据: 由设备机台拍摄出工件图片,读取原始图片中的轮廓点,完成数据采集工作;第2步骤、数据清洗:进行数据一致性检查、数据缺失值处理以及数据异常值处理;第3步骤、平衡数据分布:由于变量数据类别分布不平衡,正样本数量极少,负样本数量极多,考虑数据的特殊性采用过采样方法进行平衡,随机复制正样本数据,将正样本的数量扩充到负样本的数量;第4步骤、特征选择:使用过滤法对扩充后的数据进行特征物理量选择,以方差作为特征物理量评分标准;第5步骤、设置区间组合,选取较优区间组合并对其进行膨胀优化,具体步骤如下:第5.1步骤、获取基准点到其余点的欧氏距离:在正样本集合中,通过随机抽样选取一个数据点m作为基准点,以该基准点为中心,筛选附近欧氏距离d以内的正样本为一个集合,d是大于0的实数,使得这个集合内每个正样本距基准点的欧氏距离均小于等于d,以不同距离为标准重复该步骤;第5.2步骤、设置区间组合:选取距离为d以内的所有点为集合,正样本集合内各特征物理量的极大值、极小值为边界形成区间范围组合,用区间组合对数据集进行筛选,统计区间组合内正负样本量,通过改变距离d来形成不同区间组合;第5.3步骤、选取较优区间组合并对其进行膨胀优化:将选出正样本多且负样本比
例小的区间组合作为一个规则,并将选出的规则进行区间膨胀,使其在不增加负样本的同时最大化区间,以此来增加规则的鲁棒性;第6步骤、将组合中的数据从原数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束,即从原数据中去除规则内的数据,并用余下数据重复第5步骤,直到数据中没有正样本,得出一系列所有组合优化规则描述,特征选择与组合优化算法完成。
5.进一步具体地限定,上述技术方案中,在第4步骤中,具体步骤如下:第4.1步骤:准备变量分布已经平衡好的数据集,计算数据集中每个特征物理量的方差,由于特征物理量的方差取值差异越大,该特征物理量对区分样本的贡献度越大,故从扩充前的数据中选择前 k个贡献度最大的特征物理量进行组合优化,1≤k≤数据总物理量数,且k是正整数;第4.2步骤:将各特征物理量的方差由大到小进行排列,这里选择方差较大的前k个特征物理量,去除方差较小的特征物理量;第4.3步骤:从原数据集中选择方差较大的k个特征物理量进行后续的数据处理。
6.进一步具体地限定,上述技术方案中,所述的特征物理量的方差计算公式如下:
ꢀꢀꢀꢀ
(1)其中,表示特征物理量的方差;表示点物理量x的平均数;表示该特征物理量在每条数据上的值;n表示数据集中含正负样本的样本总个数。
7.进一步具体地限定,上述技术方案中,在第5步骤的第5.1步骤中,所述的欧氏距离d的计算公式如下: (2)其中,表示多维空间点 到多维空间点 的欧氏距离;t表示t维空间,t为大于等于1的正整数;表示多维空间点p1的坐标;表示多维空间点p2的坐标;i为大于等于1的正整数。
8.进一步具体地限定,上述技术方案中,在第5步骤的第5.2步骤中,取选定正样本集合中,特征物理量a的极大值与特征物理量a的极小值作为特征物理量a的区间;选正样本集合中特征物理量b的极大值与特征物理量b的极小值作为特征物理量b的区间;以此类推找到所有特征物理量的区间,组成此集合中各特征物理量区间的区间组合,并用该区间组合对整体数据进行筛选,统计正负样本数量。
9.本发明的有益效果是:本发明提供的一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,通过对缺陷物理量的特征筛选,以减少规则数量,使用组合优化对数据
进行样本划分,使得规则内的正样本数量较多,负样本数量维持在相对比例以内,这样就得到了该缺陷光学面下的正负样本组合优化规则划分;该方法可以对工业零部件的不同缺陷各个光学面进行正负样本的聚类区分,同时使得区间规则具有一定的鲁棒性,克服了由于光照条件、工件材质、工件形状等导致的缺陷物理量描述不一的不利因素,完成对多项目的缺陷精准检测及划分。
附图说明
10.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1是工业相机采集原图;图2是缺陷分布坐标图;图3是缺陷面积与最小平均亮度分布图;图4是二维欧氏距离计算图;图5是组合优化规则算法流程图;图6是缺陷面积与最小平均亮度规则1划分及膨胀图;图7是缺陷面积与最小平均亮度规则2划分及膨胀图;图8是本发明的算法流程图。
具体实施方式
12.为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
13.见图5和图8,一种特征选择与组合优化算法的零部件缺陷检测区间聚类方法,具体步骤如下:第1步骤、采集数据: 由设备机台拍摄出工件图片,读取原始图片中的轮廓点(像素坐标),完成数据采集工作。其中,设备机台可以是电子3c类表面缺陷外观检测设备。工件是电子3c类工件,如手机外壳、笔记本外壳、手机配件等。
14.第2步骤、数据清洗:进行数据一致性检查、数据缺失值处理以及数据异常值处理。一致性检查即检查数据当中各物理量下有无极大值或极小值与该物理量下大部分数值不同的数据。数据缺失值处理即某条数据中有缺失的数值时,删除该条数据。数据异常值处理即某条数据在某个或某几个物理量下的数值超过了该物理量的取值范围,删除该条数据。
15.第3步骤、平衡数据分布:由于变量数据类别分布不平衡,正样本数量极少,负样本数量极多,考虑数据的特殊性采用过采样方法进行平衡,这里的数据均为常量数据,是具有实际意义的真实数据。随机复制正样本数据,将正样本的数量扩充到负样本的数量。本发明主要用于缺陷检测,默认缺陷数据为正样本数据,所有非缺陷的数据均为负样本数据。数据为工业真实数据,所有正样本均为缺陷数据,在不遗漏正样本数据的前提下平衡数据分布;选用过采样方法进行平衡,分别统计正/负样本数量,在正样本数据中有放回的随机抽取并
复制到正样本数据中,直到正样本的数量与负样本数量相同时停止,数据平衡完成。
16.第4步骤、特征选择:使用过滤法对扩充后的数据进行特征物理量选择,以方差作为特征物理量评分标准(特征物理量的方差取值差异越大,该特征物理量对区分样本的贡献度越大)。第四步骤的具体步骤如下:第4.1步骤:准备变量分布已经平衡好的数据集,计算数据集中每个特征物理量的方差,由于特征物理量的方差取值差异越大,该特征物理量对区分样本的贡献度越大,故从扩充前的数据中选择前k个贡献度最大的特征物理量进行组合优化,1≤k≤数据总物理量数,且k是正整数,k表示特征选择之后的物理量个数。过滤法的具体步骤是:采用“数据平衡”之后的数据,以各物理量为组计算每一组的方差(若有100条正负样本,且正样本和负样本各有50条的数据,12个物理量,以物理量为组的时候就有12组数据,每组有100个该物理量的值,得到12个方差),以方差大小作为特征权重的评分标准,方差大的物理量,特征权重高即贡献度大,方差小的物理量,特征权重低,选取特征权重高的前k个物理量作为“特征选择”后的物理量,使用这些物理量进行下面组合优化逼近算法的步骤。
17.特征物理量的方差计算公式如下:
ꢀꢀꢀꢀ
(1)其中,表示特征物理量的方差;表示点物理量x的平均数;表示该特征物理量在每条数据上的值;n表示数据集中含正负样本的样本总个数。需要说明的是,此处的物理量即为特征,以物理量有12个为例,用字母a、b、c等来表示,100条正负样本(正样本和负样本各有50条)的数据表示n为100,则物理量a组中有数据a1至a
100
这100个数据,计算这100个数据的方差则为物理量a的方差,其余物理量同样适用。
18.第4.2步骤:将各特征物理量的方差由大到小进行排列,这里选择方差较大的前k个特征物理量,去除方差较小的特征物理量;第4.3步骤:从原数据集中选择方差较大的k个特征物理量进行后续的数据处理。
19.第5步骤、设置区间组合,选取较优区间组合并对其进行膨胀优化,具体步骤如下:第5.1步骤、获取基准点到其余点的欧氏距离:在正样本集合中,通过随机抽样选取一个数据点m作为基准点,以该基准点为中心,筛选附近欧氏距离d以内的正样本为一个集合,d是大于0的实数(d可以是大于等于0的任意数值),使得这个集合内每个正样本距基准点的欧氏距离均小于等于d,以不同距离为标准重复该步骤;假如d=3.5,则说明以点m为中心生成的正样本集合半径为3.5,所有处在集合内的点到点m的距离均小于等于3.5。欧氏距离d的计算公式如下: (2)其中,表示多维空间点 到多维空间点

的欧氏距离;t表示t维空间(数据维度,也就是说该数据的特征物理量有t个),t为大于等于1的正整数,t的取值范围为[1, t];表示多维空间点p1的坐标;表示多维空间点p2的坐标;i为大于等于1的正整数,i的取值范围为[1, t]。
[0020]
表示多维空间点p1的坐标,若t= 1,则多维空间点p1位于一维空间,其坐标为x1;若t= 2,则多维空间点p1位于二维空间,其坐标为(x1,x2);若t= 3,则多维空间点p1位于三维空间,其坐标为(x1,x2,x3);若t= 4,则多维空间点p1位于四维空间,其坐标为(x1,x2,x3,x4)。
[0021]
表示多维空间点p2的坐标,若t= 1,则多维空间p2位于一维空间,其坐标为y1;若t= 2,则多维空间p2位于二维空间,其坐标为(y1,y2);若t= 3,则多维空间点p2位于三维空间,其坐标为(y1,y2,y3);若t= 4,则多维空间点p2位于四维空间,其坐标为(y1,y2,y3,y4)。
[0022]
第5.2步骤、设置区间组合:选取距离为d以内的所有点为集合,正样本集合内各特征物理量的极大值、极小值为边界形成区间范围组合(例如:假设特征选择之后,数据集中保留a、b、c三个物理量且a、b、c位于正样本集合内距离为d范围内的极大值、极小值分别是[40,100],[12,19],[500,8800],随机选取的正样本数据点m(80,15,5000)必定在此范围内(初步选择的区间组合是以正样本物理量的极大值、极小值为边界形成的区间,随机选择任何正样本点都会在这个区间组合内),此时的区间组合1见表1),用区间组合对数据集进行筛选,统计区间组合内正负样本量,通过改变距离d来形成不同区间组合。具体地,取选定正样本集合中,特征物理量a的极大值与特征物理量a的极小值作为特征物理量a的区间;选正样本集合中特征物理量b的极大值与特征物理量b的极小值作为特征物理量b的区间;以此类推找到所有特征物理量的区间,组成此集合中各特征物理量区间的区间组合,并用该区间组合(该区间组合为区间组合1的形式)对整体数据进行筛选,统计正负样本数量。例如:分别统计符合区间组合1点集合的正负样本数量,并记录下来;在距离为d的情况下,符合区间组合1条件的正、负样本点集合占比为60:40。这是初步形成的区间组合,该区间组合为选定正样本数据集中物理量的极大值、极小值,例如物理量a在选定正样本数据集中的极小值为40,极大值为100,任意处在选定正样本数据集中的点其物理量a数值均在[40,100]之内,其他物理量同理。
[0023]
表1区间组合140≤a
m
≤100;且12≤b
m
≤19;且500≤c
m
≤8800区间组合280≤a
m
≤100;且12≤b
m
≤17;且4100≤c
m
≤8800区间组合380≤a
m
≤+;且

≤b
m
≤17;且4100≤c
m
≤+其中,表1中的a
m
表示点m在物理量a上的值;b
m
表示点m在物理量b上的值;c
m
表示点m在物理量c上的值;

表示负无穷,向下取值没有界限;+表示正无穷,向上取值没有界限;80≤a
m
≤+可以写作80≤a
m


≤b
m
≤17可以写作b
m
≤17。
[0024]
第5.3步骤、选取较优区间组合并对其进行膨胀优化:将选出正样本多且负样本比
例小的区间组合作为一个规则,并将选出的规则进行区间膨胀(规则区间膨胀后的区间组合3见表1),使其在不增加负样本的同时最大化区间,以此来增加规则的鲁棒性。例如:距离为d的情况下区间组合1中正样本点集合、负样本点集合占比为60:40,但是若去掉一个正样本时,正样本点集合、负样本点集合占比为59:15,符合正样本比例多且负样本比例尽量减小的要求,此时新的区间组合(较优区间组合,区间组合2见表1)。规则区间膨胀中,各物理量区间的膨胀步伐的计算公式如下:
ꢀꢀꢀꢀꢀ
(3)其中,f表示各物理量区间的膨胀步伐;max表示各物理量的最大值;min表示各物理量的最小值;n表示数据集中含正负样本的样本总个数。例如样本数为1000,区间组合1中物理量a的膨胀步伐为=0.06。膨胀方法为(40

0.06*u)以及(100+0.06*v),其中,u和v均为收缩步伐系数,u为大于等于1的正整数,v为大于等于1的正整数。(40

0.06*u)表示以物理量a区间的下边界值为起始点逐渐向外膨胀,当u=2时表示物理量a的区间下边界向外膨胀两个单位,物理量a的区间下边界由40变换为(40

0.06*2)=39.88,区间增大了0.12。(100+0.06*v)表示以物理量a的区间上边界为起始点逐渐向外膨胀,当v=1时表示物理量a的区间上边界向外膨胀一个单位,物理量a的区间上边界由100变换为(100+0.06*1)=100.06,区间增大了0.06。在区间组合1中保持物理量b、c不变的情况下逐步增加物理量a的膨胀步伐,即u、v的值,直到区间内增加一个膨胀单位会导致正/负样本比例产生变动时停止,(规则区间膨胀的前提是要保证膨胀不会影响区间内样本比例的变化),若膨胀后的值超过了该物理量的取值范围则用

(超过取值下限)或+(超过取值上限)来表示,其他物理量区间膨胀方法相同,直到所有物理量完成膨胀工作时停止,膨胀后的规则区间组合为局部较优区间组合。
[0025]
第6步骤、将组合中的数据从原数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束,即从原数据中去除规则内的数据,并用余下数据重复第5步骤,直到数据中没有正样本,得出一系列所有组合优化规则描述,特征选择与组合优化算法完成。在得出区间组合1(见表1所示)后,将符合区间组合1的数据从数据集中去除,余下的数据生成区间组合2(见表1所示),以此类推,这样可以避免符合之前生成区间组合的数据影响后续区间组合的效果。一系列组合规则描述可以是:区间组合1∪区间组合2∪区间组合3∪...... ∪区间组合g,其中的g∈[1,∞]且g为正整数;符号∪表示各个区间组合之间的关系为或,即符合任意一个区间组合的规则时将较优划分出正负样本。一系列组合规则描述也可以是这样的:(a1∩b1∩c1)∪(a2∩b2∩c2)∪(a3∩b3∩c3)∪
……
∪(a
g
∩b
g
∩c
g
),其中的g∈[1,∞]且g为正整数;符号∪表示各个区间组合之间的关系为或,符号∩表示各个区间组合内的物理量之间的关系为且。
[0026]
假如新数据集中数据不符合已有的一系列组合规则(4条),将新数据集放入算法内重复第5、6步骤,直到新数据集内没有正样本,将新生成的2条规则与已有的一系列组合规则(4条)合并成为新的组合规则,该组合规则内含6条规则。
[0027]
见图1,它是工业相机采集原图。从该图中可以看出工件形状,缺陷数据需要读取
轮廓像素等信息进行提取。
[0028]
见图2,它是缺陷分布坐标图,横坐标的单位是像素;纵坐标的单位也是像素;从该图中可以看出缺陷分布的大致位置。
[0029]
见图3,它是缺陷面积与最小平均亮度分布图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;从该图中可以看出缺陷面积与最小平均亮度的大致分布。
[0030]
见图4,它是二维欧氏距离计算图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;图中显示基准点m到点k的欧氏距离d
k

[0031]
见图6,它是缺陷面积与最小平均亮度规则1划分及膨胀图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;图中显示基准点m1的位置,小框区域为膨胀前的规则,大框区域为膨胀后的规则。
[0032]
见图7,它是缺陷面积与最小平均亮度规则2划分及膨胀图,缺陷面积的单位用像素来表示;最小平均亮度的单位用亮度值来表示;图中显示基准点m2的位置,小框区域为膨胀前的规则,大框区域为膨胀后的规则。
[0033]
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1