基于组合优化算法的工业零部件缺陷检测区间聚类方法与流程

文档序号:27080524发布日期:2021-10-24 12:15阅读:204来源:国知局

1.本发明涉及图像数据处理的技术领域,尤其是一种基于组合优化算法的工业零部件缺陷检测区间聚类方法。


背景技术:

2.目前,基于图像数据处理的方法大多是根据经验选取物理量区间进行聚类,物理量权重、光学面及缺陷种类的不同影响着正负样本划分的准确性,存在很多的局限性。最明显的就是线状缺陷的长宽物理量权重较大,不考虑面积物理量;块状缺陷则是缺陷的面积物理量权重较大,不考虑长宽物理量。这导致部分区间组合并不是较优的结果。同时,相同缺陷的光学面不同,使得设置区间组合变得复杂。然而,为了精确的进行工业数据分析,必须找到工件准确的正负样本划分。


技术实现要素:

3.本发明要解决的技术问题是:为了解决上述背景技术中存在的问题,提供一种基于组合优化算法的工业零部件缺陷检测区间聚类方法,对工业零部件的不同缺陷各个光学面进行正负样本的组合优化聚类区分,并且具有一定的鲁棒性,以确保可以得到多项目的缺陷精准检测及划分。
4.本发明解决其技术问题所采用的技术方案是:一种基于组合优化算法的工业零部件缺陷检测区间聚类方法,具体步骤如下:第1步骤、采集数据:由设备机台拍摄出工件图片,读取原始图片中的轮廓点,完成数据采集工作;第2步骤、数据清洗:进行数据一致性检查、数据缺失值处理以及数据异常值处理;第3步骤、平衡数据分布:由于变量数据类别分布不平衡,正样本数量极少,负样本数量极多,考虑数据的特殊性采用过采样方法进行平衡,随机复制正样本数据,将正样本的数量扩充到负样本的数量;第4步骤、特征选择:使用过滤法对扩充后的数据进行特征选择,以方差作为特征评分标准,从扩充前的数据中选择前 k个贡献度最大的特征进行组合优化,k表示特征选择之后的物理量个数,1≤k≤数据总物理量数,且k是正整数;第5步骤、选取正样本数据点,设置区间组合,逐步收缩区间进行优化,生成规则,具体步骤如下:第5.1步骤、选取正样本数据点,设置区间组合:首先从特征选择后的数据集中随机选取正样本数据点m,然后以数据集中各物理量的极大值、极小值为区间边界形成区间组合;第5.2步骤、逐步收缩区间进行优化,生成规则:再以点m在区间组合内的条件下,收缩区间组合,过滤负样本,直到区间组合内负样本数量小于等于一定比例且正样本数量最多,则将该区间组合设置为一个规则;
第6步骤、将规则内的数据从数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束,即从数据集中去除规则内的数据,并用余下数据重复第5步骤直到数据中没有正样本,得出一组规则描述将正负样本进行较优划分。
5.进一步具体地限定,上述技术方案中,在第5步骤的第5.2步骤中,如果区间组合内负样本数量小于等于一定比例,且正样本数量最多,则该区间组合为局部优化规则,从数据集中去除选定规则内的数据;如果区间组合内负样本数量不是小于等于一定比例,且正样本数量不是最多,则重复第5.2步骤,以点m在区间组合内的条件下,收缩区间组合,过滤负样本。
6.进一步具体地限定,上述技术方案中,在第5步骤的第5.2步骤中,如果区间组合内负样本数量不是小于等于一定比例,且正样本数量最多,则重复第5.2步骤;如果区间组合内负样本数量小于等于一定比例,且正样本数量不是最多,则重复第5.2步骤。
7.进一步具体地限定,上述技术方案中,在第6步骤中,完整的算法流程结束后,生成了一系列规则描述并实施,如果有新的数据集,新的数据集含有正样本,且不符合现有已生成的规则,则将新数据集放入算法内重复第5步骤;如果新数据集没有正样本,则得到一系列规则描述,组合优化逼近算法结束。
8.进一步具体地限定,上述技术方案中,在第4步骤中,特征物理量的方差计算公式如下:
ꢀꢀꢀꢀ
(1)其中,s2表示特征物理量的方差;表示点物理量x的平均数;表示该物理量在每条数据上的值;n表示数据集中含正负样本的样本总个数。
9.本发明的有益效果是:本发明的一种基于组合优化算法的工业零部件缺陷检测区间聚类方法,通过对缺陷物理量的特征筛选,以减少规则数量,使用组合优化逼近对数据进行样本划分,使得规则内的正样本数量较多,负样本数量维持在相对比例以内,这样就得到了该缺陷光学面下的正负样本组合优化逼近的一系列规则描述;该可以对工业零部件的不同缺陷各个光学面进行正负样本的聚类区分,同时使得区间规则具有一定的鲁棒性,克服了由于光照条件、工件材质、工件形状等导致的缺陷物理量描述不一的不利因素,完成对多项目的缺陷精准检测及划分。
附图说明
10.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1是工业相机采集原图;
图2是缺陷分布坐标图;图3是缺陷面积与最小平均亮度分布图;图4是组合优化逼近算法流程图;图5是缺陷面积与最小平均亮度规则划分图;图6是缺陷面积与最小平均亮度规则划分逼近中的图;图7是缺陷面积与最小平均亮度规则划分局部最优图;图8是本发明的算法流程图。
具体实施方式
12.为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
13.见图4和图8,本发明的一种基于组合优化算法的工业零部件缺陷检测区间聚类方法,具体步骤如下:第1步骤、采集数据:由设备机台拍摄出工件图片,读取原始图片中的轮廓点(像素坐标),完成数据采集工作。其中,设备机台可以是电子3c类表面缺陷外观检测设备。工件是电子3c类工件,如手机外壳、笔记本外壳、手机配件等。
14.第2步骤、数据清洗:进行数据一致性检查、数据缺失值处理以及数据异常值处理;一致性检查即检查数据当中各物理量下有无极大值或极小值等与该物理量下大部分数值不同的数据。数据缺失值处理即某条数据中有缺失的数值时,删除该条数据。数据异常值处理即某条数据在某个或某几个物理量下的数值超过了该物理量的取值范围,删除该条数据。
15.第3步骤、平衡数据分布:由于变量数据类别分布不平衡,正样本数量极少,负样本数量极多,考虑数据的特殊性采用过采样方法进行平衡,这里的数据均为常量数据,是具有实际意义的真实数据。随机复制正样本数据,将正样本的数量扩充到负样本的数量;本发明主要用于缺陷检测,默认缺陷数据为正样本数据,所有非缺陷的数据均为负样本数据。数据为工业真实数据,所有正样本均为缺陷数据,在不遗漏正样本数据的前提下平衡数据分布;选用过采样方法进行平衡,分别统计正/负样本数量,在正样本数据中有放回的随机抽取并复制到正样本数据中,直到正样本的数量与负样本数量相同时停止,数据平衡完成。
16.第4步骤、特征选择:使用过滤法对扩充后的数据进行特征选择,以方差作为特征评分标准(特征的方差取值差异越大,该特征对区分样本的贡献度越大),从扩充前的数据中选择前k个贡献度最大的特征进行组合优化,k表示特征选择之后的物理量个数,1≤k≤数据总物理量数,且k是正整数。过滤法的具体步骤是:采用“数据平衡”之后的数据,以各物理量为组计算每一组的方差(若有100条正负样本各50条的数据,12个物理量,以物理量为组的时候就有12组数据,每组有100个该物理量的值,得到12个方差),以方差大小作为特征权重的评分标准,方差大的物理量,特征权重高即贡献度大,方差小的物理量,特征权重低,选取特征权重高的前k个物理量作为“特征选择”后的物理量,使用这些物理量进行下面组合优化逼近算法的步骤。
17.特征物理量的方差计算公式如下:
ꢀꢀꢀꢀ
(1)其中,s2表示特征物理量的方差;表示点物理量x的平均数;表示该物理量在每条数据上的值;n表示数据集中含正负样本的样本总个数。需要说明的是,此处的物理量即为特征,以物理量有12个为例,用字母a、b、c等来表示,100条正负样本(正样本和负样本各50条)的数据表示n为100,则物理量a组中有数据a1至a
100
这100个数据,计算这100个数据的方差则为物理量a的方差,其余物理量同样适用。
18.第5步骤、选取正样本数据点,设置区间组合,逐步收缩区间进行优化,生成规则,具体步骤如下:第5.1步骤、选取正样本数据点,设置区间组合:首先从特征选择后的数据集中随机选取一个正样本数据点m,然后以数据集中各物理量的极大值、极小值为区间边界形成区间组合(假设特征选择之后,数据集中保留a、b、c三个物理量且a、b、c极大值、极小值分别是[0,60],[0.5,12.2],[802,7034],随机选取的正样本数据点m (20,3.1,5000)必定在此范围内,此时的区间组合1如表1所示,该区间组合所含正负样本数量为数据集中总正负样本数);这是初步形成的区间组合,该区间组合为全数据集中物理量的极大值、极小值,例如物理量a在数据集中的极小值为0,极大值为60,任意处在数据集中的点其物理量a数值均在[0,60]之内,其他物理量同理。
[0019]
第5.2步骤、逐步收缩区间进行优化,生成规则:再以点m在区间组合内的条件下,逐步收缩区间组合,过滤负样本,直到区间组合内负样本数量小于等于一定比例且正样本数量最多,则将该区间组合(收缩区间组合,过滤负样本时,正样本点m (20,3.1,5000)始终包含在区间组合内,收缩后的区间组合2见表1所示,此时区间组合内的正负样本比例符合要求,则此时的区间组合为局部优化规则)设置为一个规则;各物理量区间的收缩步伐的计算公式如下:
ꢀꢀꢀꢀꢀꢀ
(2)其中,f表示各物理量区间的收缩步伐;max表示各物理量的最大值;min表示各物理量的最小值;n表示数据集中含正负样本的样本总个数。例如数据集中所有样本数为1000,物理量a的收缩步伐为=0.06。收缩方法为(0+0.06*u)以及(60

0.06*v),其中,u和v均为收缩步伐系数,u为大于等于1的正整数,v为大于等于1的正整数,且u+v≤1000。(0+0.06*u)表示以物理量a的最小值为起始点逐渐向内收缩,当u=2时表示物理量a的下边界向内收缩两个单位,物理量a的下边界由最小值0变换为(0+0.06*2)=0.12,收缩了0.12。(60

0.06*v)表示以物理量a的最大值为起始点逐渐向内收缩,当v=1时表示物理量a的上边界向内收缩一个单位,物理量a的上边界由最大值60变换为(60

0.06*1)=59.94,收缩了
0.06。以m点(20,3.1,5000)始终包含在区间组合内为原则逐步增加u、v的值,其他物理量区间收缩方法相同。直到区间内正/负样本比例大于等于3:1时停止,生成局部较优区间组合。
[0020]
如果区间组合内负样本数量小于等于一定比例,且正样本数量最多,则该区间组合为局部优化规则,从数据集中去除选定规则内的数据;如果区间组合内负样本数量不是小于等于一定比例,且正样本数量不是最多,则重复第5.2步骤,以点m在区间组合内的条件下,收缩区间组合,过滤负样本。如果区间组合内负样本数量不是小于等于一定比例,且正样本数量最多,则重复第5.2步骤;如果区间组合内负样本数量小于等于一定比例,且正样本数量不是最多,则重复第5.2步骤。需要说明的是,对一定比例的解释说明,例如:持续过滤负样本d次,d是大于等于1的正整数,直到过滤第d+1次时,正样本被过滤掉了,且正/负样本比例小于等于3:1,停止(取决于设定要求,通常采用3:1这个比例),生成规则,本规则取第d次的区间组合值。
[0021]
表1区间组合10≤a
m
≤60;且0.5≤b
m
≤12.2;且802≤c
m
≤7034区间组合214.7≤a
m
≤55;且0.5≤b
m
≤6.3;且4000≤c
m
≤7034其中,表1中的a
m
表示点m在物理量a上的值;b
m
表示点m在物理量b上的值;c
m
表示点m在物理量c上的值。
[0022]
第6步骤、将规则内的数据从数据集中去除,余下数据重复第5步骤,直到所有正样本均被规则选出,得到一系列规则描述,组合优化逼近算法结束(组合优化逼近算法主要是逻辑遍历,即逐个判断是与否符合要求),即从数据集中去除规则内的数据,并用余下数据重复第5步骤直到数据中没有正样本,得出一组规则描述将正负样本进行较优划分。完整的算法流程结束后,生成了一系列规则描述并实施,如果有新的数据集,新的数据集含有正样本,且不符合现有已生成的规则,则将新数据集放入算法内重复第5步骤;如果新数据集没有正样本,则得到一系列规则描述,组合优化逼近算法结束。在得出区间组合1(见表1所示)后,将符合区间组合1的数据从数据集中去除,余下的数据生成区间组合2(见表1所示),以此类推,这样可以避免符合之前生成区间组合的数据影响后续区间组合的效果。一系列组合规则描述可以是:区间组合1∪区间组合2∪区间组合3∪...... ∪区间组合g,其中的g∈[1,∞]且g为正整数;符号∪表示各个区间组合之间的关系为或,即符合任意一个区间组合的规则时将较优划分出正负样本。一系列组合规则描述也可以是这样的:(a1∩b1∩c1)∪(a2∩b2∩c2)∪(a3∩b3∩c3)∪
……
∪(a
g
∩b
g
∩c
g
),其中的g∈[1,∞]且g为正整数;符号∪表示各个区间组合之间的关系为或,符号∩表示各个区间组合内的物理量之间的关系为且。
[0023]
假如新数据集中数据不符合已有的一系列组合规则(5条),将新数据集放入算法内重复第5、6步骤,直到新数据集内没有正样本,将新生成的2条规则与已有的一系列组合规则(5条)合并成为新的组合规则,该组合规则内含7条规则。
[0024]
见图1,它是工业相机采集到的原图,其中的黑色点表示的是正样本,灰色点表示的是负样本。从该图中可以看出工件形状,缺陷数据需要读取轮廓像素等信息进行提取。
[0025]
见图2,它是缺陷分布坐标图,从该图中可以看出缺陷分布的大致位置。
[0026]
见图3,它是缺陷面积与最小平均亮度分布图;从该图中可以看出缺陷面积与最小平均亮度的大致分布。
[0027]
见图5,它是缺陷面积与最小平均亮度规则划分图;黑色线框区域为初始区间组合范围,以点m在区间组合内的条件下,区间内的正样本数量为430个,区间内的负样本数量大于25%,其中25%指占区间内总样本数量的25%,总样本数量是正样本数量与负样本数量之和。
[0028]
见图6,它是缺陷面积与最小平均亮度规则划分逼近中的图;正样本的数量是62个;负样本的数量是165个;黑色线框区域为逼近优化中的区间组合范围,以点m在区间组合内的条件下。
[0029]
见图7,它是缺陷面积与最小平均亮度规则划分局部最优图;黑色线框区域为逼近优化局部最优的区间组合规则,以点m在区间组合内的条件下,优化后区间内的正样本数量为3个,区间内的负样本数量为1个(25%),该处的25%指负样本数量占区间内总样本数量的25%。
[0030]
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!