一种基于PCA-粗糙集的船舶涂装缺陷知识获取方法与流程

文档序号:18823120发布日期:2019-10-09 01:07阅读:240来源:国知局
一种基于PCA-粗糙集的船舶涂装缺陷知识获取方法与流程

本发明涉及船舶涂装缺陷知识获取领域,尤其是涉及一种基于pca-粗糙集的船舶涂装缺陷知识获取方法。



背景技术:

船舶涂装在施工过程中,由于操作不当、干燥及固化期间环境变化或涂料自身质量等影响,会产生多种缺陷。据经验推断及相关机构调查,80%的涂装缺陷是由于施工过程中施工人员的不当操作造成的,明确这些缺陷产生的原因可以对涂装操作过程进行有力的指导并减少由于操作不规范引起的涂装缺陷。传统涂装工艺在施工完成后特定时间内对涂层质量进行检测,判断并记录产生的缺陷种类及等级,无法提前预防与控制缺陷的产生。

知识获取即从现有工艺数据及信息中获得新知识的能力。目前常见的知识获取方式可以分成交互式知识获取与自动式知识获取两类,交互式知识获取即知识工程师与领域专家合作,通过对相关领域知识和专家知识进行搜集、分析、挖掘、综合、整理及归纳,并进行知识的规范化表达后存入知识库。交互式方法获取到的知识主观性较强,并且无法保证知识的精确性,同时对于获取到的知识需要逐条输入到计算机,知识获取效率较低,因此需要开展自动式知识获取研究。

从现场产品数据管理系统(pdm)获得的涂装工艺数据,来自企业设计bom、工艺bom和制造bom,其中包含海量的数据,因此需要对大量多源异构数据进行降维处理,在减少数据的同时保证尽可能少的丢失数据信息,以便为以后的数据分析和知识获取打下良好的基础。但是,并不是所有的信息都是必需的,数据中常常会掺杂很多噪音和干扰项,因此在降维前需要对数据进行预处理,防止其对最终数据结果产生不利的影响。

现实世界中,数据往往是复杂的、不确定的,要快速协同地分析这些不确定性数据,并有层次地为用户提供更为准确有效的知识,必须研究一种新的面向复杂数据的智能分析理论、模型和方法。



技术实现要素:

发明目的:为了克服背景技术的不足,本发明公开一种基于pca-粗糙集的船舶涂装缺陷知识获取方法,该方法能够准确、快速地获取船舶涂装缺陷知识。

技术方案:本发明所述的基于pca-粗糙集的船舶涂装缺陷知识获取方法,包括以下步骤:

(1)从船舶涂装工艺数据库与船舶涂装缺陷案例库中选择目标数据集;

(2)对选中的目标数据集进行检查及预处理;

(3)利用主成分分析对船舶涂装缺陷多源异构数据进行降维处理;

(4)粗糙集理论对船舶涂装缺陷数据进行知识获取;

(5)对知识分类并存储。

其中,步骤(1)中所述的目标数据集包括属性信息、参数信息及环境信息,其中,属性信息包括涂装区域、涂装面积、表面粗糙度、除锈等级、涂装方法、涂装设备;参数信息包括涂料黏度、空气动力、喷射距离、涂料转移率;环境信息包括空气流速、相对湿度、空气温度。

进一步的,步骤(2)中数据检查包括数据缺失值检查、不一致数据检查及数据噪声值检查,判断是否需要对数据进行预处理。

其中,上述数据预处理包括缺失值处理、合理性检验与噪声值处理,具体手段包括自动删除、填充和修正处理,处理完毕后判断是否处理完整,如果不完整,返回进行重新检查及数据处理,否则进行下一步。

进一步的,步骤(3)具体采用one-hot编码的方式对离散型船舶涂装缺陷相关属性进行编码,离散型船舶涂装缺陷相关属性包括涂装设备、涂料种类、涂装方法、作业班组;对预处理后的数据求协方差矩阵,针对协方差矩阵计算其特征值及特征向量,依据特征值大小排序并计算方差贡献率和方差累积贡献率,交互式确定主成分个数并得到主成分数值,将各主成分对应的变量作为新的数据输入,以此实现船舶涂装缺陷数据中大量多源异构数据的降维处理。

进一步的,步骤(4)具体分为以下步骤:

(a)建立初始案例决策表,具体划分条件属性与决策属性;

(b)进行知识约简,计算约简后各条件属性对决策属性的重要性;

(c)进行属性值约简,得到简化后的决策数据表;

(d)进行规则知识提取。

其中,步骤(a)中综合考虑可能影响最终形成涂装缺陷的多种因素作为条件属性,所述条件属性包括工艺属性、工艺参数及环境信息;所述工艺属性包括涂装区域、涂装面积、表面粗糙度、除锈等级,工艺参数包括涂料黏度、干膜厚度、固体份含量、喷嘴距离,环境信息包括空气温度、相对湿度、空气流速;所述决策属性作为最终形成的缺陷名称。

步骤(b)具体为在不影响知识表达能力的条件下,采用基于属性重要性的约简算法进行属性约简,消除冗余知识,并计算约简后各条件属性对决策属性的重要性。

其中,上述属性重要性的约简算法包括以下步骤:

i、采用差别矩阵计算得到核属性集合core;

ii、计算约简前整个决策表的依赖度γc(d),以及除核属性之外的每个条件属性的重要性σcd(ci);

iii、计算核属性的依赖度γcore(d);

iv、如果γcore(d)≥γc(d),算法结束,输出属性约简集合core;如果γcore(d)<γc(d),

将属性按照属性重要性从大到小排序ci(i=1,2,…n),逐个加入到集合core中,for(i=1:n),core=core∪ci,计算γcore(d),若γcore(d)≥γc(d),算法结束,输出属性约简集合core;若γcore(d)<γc(d),继续循环。

进一步的,步骤(5)具体为计算每条船舶涂装缺陷知识的支持度、覆盖度与可信度,将知识分为确定性知识、强规则知识以及弱规则知识并存入知识库。

有益效果:与现有技术相比,本发明的优点为:

(1)首先,本发明采用pca-粗糙集知识获取方法,可以获取到船舶涂装缺陷成因知识,改变了船舶涂装缺陷只能事后检测的现状,实现了涂装缺陷的提前防控;

(2)其次,本发明进行知识获取时,可以处理多种类型(如连续型和离散型)的数据,无须考虑数据类型不一致的问题;

(3)再而,本发明采用主成分分析进行降维,将船舶涂装大量多源异构数据进行降维处理,剔除重复属性;

(4)最后,本发明采用粗糙集进行知识获取,可以发现在船舶涂装工艺数据库与缺陷案例库中隐含的规则,为船舶涂装工作提供有力的指导。

附图说明

图1是本发明的方法流程图;

图2是本发明属性重要性的约简算法的流程图;

图3是本发明主成分分析碎石图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示基于pca-粗糙集的船舶涂装缺陷知识获取方法,包括以下步骤:

s1:选择目标数据集:

从船舶涂装工艺数据库与船舶涂装缺陷案例库中选择目标数据集,目标数据集包括属性信息、参数信息及环境信息,其中,属性信息包括涂装区域、涂装面积、表面粗糙度、除锈等级、涂装方法、涂装设备等;参数信息包括涂料黏度、空气动力、喷射距离、涂料转移率等;环境信息包括空气流速、相对湿度、空气温度等。

s2:数据检查及数据预处理:

对选中的目标数据集进行检查及预处理,

(1)进行数据检查,包括数据缺失值检查、不一致数据检查及数据噪声值检查,判断是否需要对数据进行处理;

(2)对需要进行处理的数据进行相应预处理,包括缺失值处理、合理性检验与噪声值处理,具体手段包括自动删除、填充和修正处理,处理完毕后判断是否处理完整,如果不完整,返回进行重新检查及数据处理,否则进行下一步。

以涂装区域为外板、涂装面积为200-400㎡、除锈等级为sa2.0-sa3.0的缺陷案例为数据集;直接剔除船舶涂装缺陷数据缺失多于数据总数1/3的样本,对于缺失不多于数据总数1/3的样本采用平均数进行数据补齐。数据异常包括不一致数据与噪声数据,该情况多与船舶工艺测量输入变量和输出变量的不一致或者一些其他因素有关,异常的数据比如个别样本在某些变量上与绝大多数样本偏离太远,并且从样本的统计分布来看出现该值的概率极低,数据异常可以通过短时区间估计或者人为填充进行修正。

s3:对预处理后数据进行主成分分析降维:

利用主成分分析对船舶涂装缺陷多源异构数据进行降维处理

具体采用one-hot编码的方式对离散型船舶涂装缺陷相关属性进行编码,离散型船舶涂装缺陷相关属性包括涂装设备、涂料种类、涂装方法、作业班组等;对预处理后的数据求协方差矩阵,针对协方差矩阵计算其特征值及特征向量,依据特征值大小排序并计算方差贡献率和方差累积贡献率,交互式确定主成分个数并得到主成分数值,将各主成分对应的变量作为新的数据输入,以此实现船舶涂装缺陷数据中大量多源异构数据的降维处理。

s4:利用粗糙集理论对船舶涂装缺陷数据进行知识获取:

包括以下步骤:

(a)建立初始案例决策表,具体划分条件属性与决策属性;

综合考虑可能影响最终形成涂装缺陷的多种因素作为条件属性,所述条件属性包括工艺属性、工艺参数及环境信息;所述工艺属性包括涂装区域、涂装面积、表面粗糙度、除锈等级等,工艺参数包括涂料黏度、干膜厚度、固体份含量、喷嘴距离等,环境信息包括空气温度、相对湿度、空气流速等;所述决策属性作为最终形成的缺陷名称。

(b)进行知识约简;

在不影响知识表达能力的条件下,采用基于属性重要性的约简算法进行属性约简,消除冗余知识,并计算约简后各条件属性对决策属性的重要性。

如图2所示的上述属性重要性的约简算法包括以下步骤:

i、采用差别矩阵计算得到核属性集合core;

ii、计算约简前整个决策表的依赖度γc(d),以及除核属性之外的每个条件属性的重要性σcd(ci);

iii、计算核属性的依赖度γcore(d);

iv、如果γcore(d)≥γc(d),算法结束,输出属性约简集合core;如果γcore(d)<γc(d),将属性按照属性重要性从大到小排序ci(i=1,2,…n),逐个加入到集合core中,for(i=1:n),core=core∪ci,计算γcore(d),若γcore(d)≥γc(d),算法结束,输出属性约简集合core;若γcore(d)<γc(d),继续循环。

(c)进行属性值约简;

去除冗余的属性值,得到简化后的决策数据表。

(d)进行规则知识提取;

根据简化后的属性决策数据表,合并相关的规则知识。

s5:对知识分类并存储

计算每条船舶涂装缺陷知识的支持度、覆盖度与可信度,将知识分为确定性知识、强规则知识以及弱规则知识并存入知识库。

可信度定义:

支持度定义:

覆盖度定义:

其中,|c(x)∩d(x)|为满足决策规则c(x)→d(x)的样本总数;|c(x)|为满足决策规则的前件c(x)的样本数。|u|为整个论域的样本总数。其中|d(x)|为满足决策规则的后件d(x)的样本总数。

(1)显著性知识:可信度为1,支持度为1,覆盖度为1。

(2)强规则知识:0.5≤可信度<1,0.5≤支持度<1,0.5≤覆盖度<1。

(3)弱规则知识:0<可信度<0.5,0<支持度<0.5,0.5≤覆盖度<1。

如图3所示为主成分分析碎石图可以用来帮助确定最优的主成分数目,碎石图中横坐标表示主成分数目,纵坐标表示特征值,主成分特征值的连续陡峭部分即为应取的主成分数目。

从表1中可以直观看出,前3个主成分的特征值的累积方差贡献率达到85%,因此选择前3个成分代替原变量。

表1特征值及方差贡献率

采用标准化的正交旋转法得到各个因子对不同主成分的因子载荷,得到的成分矩阵如表2所示。

表2成分矩阵

基于主成分分析法将船舶涂装工艺数据降维至13个变量,分别是涂料黏度、湿膜厚度、喷嘴距离、空气温度、相对湿度、空气流速、重涂时间、喷嘴孔径、喷涂宽幅、表面粗糙度、涂装设备、稀释剂含量、作业班组,其中包含了船舶涂装领域专家凭借经验确定的船舶涂装缺陷影响因素。

基于属性重要性的约简算法,先求出核属性集,再根据属性重要性值从大到小逐个加入;决策表约简后的依赖度值不低于约简前的依赖度值,具体描述如上述步骤iv。

根据上述约简算法处理表2,表2中13个属性被消去6个冗余属性之后的约简结果。

建立决策表,选取涂料黏度、湿膜厚度、喷嘴距离、空气温度、相对湿度、空气流速看作条件属性、各条件属性代表的含义如表3所示。决策属性包括d1皱纹,d2流挂,d3橘皮,d4开裂,d5针孔,d6起泡。

表3属性约简结果

属性约简和值约简的结果得到决策数据表,如表4所示。

表4决策数据表

由表4的决策表,可以获取到以下规则知识:

表5规则知识表

以上知识的含义为:

x1:if(涂料黏度过低)and(湿膜厚度过薄)and(喷嘴距离过远)and(空气温度正常)and(相对湿度过高)and(空气流速正常)and(复涂时间正常)thend=橘皮。该知识为确定性知识。

x2:if(涂料黏度正常)and(湿膜厚度过厚)and(喷嘴距离过近)and(空气温度过高)and(相对湿度正常)and(空气流速正常)and(复涂时间过薄)thend=针孔。该知识为强规则知识。

x3:if(涂料黏度过高)and(湿膜厚度正常)and(喷嘴距离过近)and(空气温度正常)and(相对湿度过低)and(空气流速过快)and(复涂时间正常)thend=皱纹。该知识为弱规则知识。

x4:if(涂料黏度过高)and(湿膜厚度过薄)and(喷嘴距离正常)and(空气温度过低)and(相对湿度正常)and(空气流速正常)and(复涂时间过长)thend=开裂。该知识为弱规则知识。

x5:if(涂料黏度正常)and(湿膜厚度正常)and(喷嘴距离过近)and(空气温度过高)and(相对湿度过高)and(空气流速正常)and(复涂时间过短)thend=流挂。该知识为显著性知识。

x6:if(涂料黏度过低)and(湿膜厚度过厚)and(喷嘴距离正常)and(空气温度过高)and(相对湿度正常)and(空气流速正常)and(复涂时间过长)thend=起泡。该知识为强规则知识。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1