一种光纤折射率大数据预测方法与流程

文档序号:17588307发布日期:2019-05-03 21:32阅读:206来源:国知局
一种光纤折射率大数据预测方法与流程

本发明属于机器学习、大数据处理技术、智能制造领域,尤其基于多模型融合的制造业参数回归。



背景技术:

21世纪,是在错失前三次工业革命后,中国第一次与发达国家共同迎接第四次工业革命的全新时代。其代表技术——人工智能,以当今大数据时代为背景,已悄然在我国传统制造业中掀起了浪潮,点亮了“中国智造”。

智能制造是一种由智能机器和人类专家共同组成的人机一体化智能系统,它在制造过程中能进行智能活动,诸如分析、推理、判断、构思和决策等。通过人与智能机器的合作共事,去扩大、延伸和部分地取代人类专家在制造过程中的脑力劳动。它把制造自动化的概念更新,扩展到柔性化、智能化和高度集成化。

我国在传统光纤制备方面已经信息化,但是距离智能化还有很长一段路,比如难以固化专家经验、在光棒、光纤生产出现故障时,无法准确判断故障的原因、难以准确发现工艺参数的影响因素及内在关联关系、难以准确预测工艺参数的变化对产品质量的影响、需要对重要的工艺参数的设置范围进一步的优化和精准化等。



技术实现要素:

本发明旨在解决以上现有技术的问题。提出了一种对即将被拉制的光纤的折射率进行回归预测分析,判断生产的光纤是否满足要求,提高光纤生产的效率与合格率的光纤折射率大数据预测方法。本发明的技术方案如下:

一种光纤折射率大数据预测方法,其包括以下步骤:

101、对光纤拉制时的生产数据按照先后顺序,进行异常值处理、缺失值处理、离散值编码的预处理步骤;

102、根据光纤拉制设备的不同,划分训练集和验证集;

103、根据训练集建立三个基础机器学习模型,分别为弹性网络回归模型、catboost模型及全连接网络模型;

104利用线性加权方法对步骤103的基础机器学习模型进行融合,得到最终融合预测模型;

105根据最终融合预测模型,对即将拉制的光纤的折射率进行回归预测。

进一步的,所述步骤101对原始光纤生产数据异常值处理具体步骤为:

101-1.异常值处理:对于异常值的判断,使用k-means方法对每一个连续值属性进行单独聚类操作,k值取2,如果在聚类后,被分为任意一标签的数据量只占总数据量的0.2%及以下,那判定该批数据存在异常,并且对异常值的后续处理采取两种方案:一是异常值所在的某条数据,存在“严重异常”即单条异常属性达到总属性数量20%及以上的情况,对这种数据进行丢弃操作;二是用如下公式进行填充,其中q2是单列属性的第二四分位数,min是最小值,max是最大值,errordata是进行填充的数据:

进一步的,所述缺失值处理具体包括步骤:

101-2.缺失值处理:采取两种方式处理数据采集过程中产生的缺失值:一是对于“严重缺失”即单条缺失属性达到总属性数量20%及以上的光纤数据进行丢弃操作,二是对于其他缺失数据进行补充操作:对离散型数据用众数进行填充,对连续型数据用如下公式进行填充,其中q1是单列属性的第一四分位数,q3是第三四分位数,min是最小值,max是最大值,mean是均值,missdata是进行填充的数据:

进一步的,所述离散值编码具体包括步骤:

101-3.离散值编码:对离散值i编码时,随机抽取该值所对应数据的80%,然后采用如下公式进行计算,其中labeli是指离散值i所对应的标签值,n是计算离散值i所对应数据量的大小即随机抽取80%后的大小,codei是对离散值i的编码结果:

进一步的,所述步骤102根据光纤拉制设备的不同,划分训练集和验证集操作具体步骤为:光纤拉制设备有n台,根据设备号将原始数据划分为n份,再分别把每份数据按3:1的比例划分,最后将n份比例为3的数据合并得到最终的训练集,将七份比例为1的数据合并得到验证集。

进一步的,所述步骤103建立三个基础机器学习模型操作具体步骤为:

103-1.弹性网络回归模型:建立弹性网络回归模型,先按照如下公式自定义损失,其中labeli是指预测的标签值,labeli_是真实的标签值,n是被预测的数据量大小,i表示第i个被预测的数据,loss是损失值大小:

再根据如下公式定义弹性网络回归的损失函数,r表示l1、l2正则化比重、α表示正则化参数化,θi表示惩罚系数,其中r设定为0.2,α设定为0.01:

103-2.catboost模型:采用catboost(自动处理分类数据的提升树)建立集成树模型,同时舍弃101-3离散值编码,对原始离散数据不做处理,直接输入模型,训练参数相关:depth设定为6,ignored_features设定为true,subsample设定为0.7,learning_rate设定为0.015,iterations设定为1000;

103-3.全连接网络模型:采用全连接网络,网络的结构从输入层到输出层如下:输入层,即光纤属性向量输入,该层不采取额外处理;第一层隐藏层,设定神经元50个,权重w1的droupout设定为0.7,即网络计算过程中该层权重向量会有70%的被输出参与计算,30%被舍弃,偏置项b1的droupout设定为0.7,激活函数设定为tahn;第二层隐藏层,设定神经元10个,权重w2的droupout设定为0.8,偏置项b2的droupout设定为1,激活函数设定为relu;第三层隐藏层,设定为输出层,设定神经元1个,即为最后的预测值输出,权重w3的droupout设定为0.8,偏置项b2的droupout设定为1,激活函数设定为relu。该神经网络采用adam优化器,损失函数设定为均方误差,学习率设定为恒定0.003,迭代次数50000次,添加l2正则化0.001。

进一步的,所述步骤104利用线性加权方法对基础模型进行融合操作具体步骤为:

首先按照公式(4)计算三个已建立模型的损失,然后根据如下公式对每个模型的损失值大小进行以自然数e为底的对数变换,其中lossi是模型的损失值大小,li为变换的结果:

li=ln(lossi+1)公式(6)

得到变换的值后,继续将三个变换后的损失值转换成三个和为1的概率值,该概率值也就是我们线性融合的权重值,如下方公式所示,表示变换后的损失值向量,li表示第i个损失值,lj表示计算第i个权重时的第j个损失值,wi表示第i个权重值大小:

最后按照线性加权融合的方式,得到最终融合的结果,如下方公式所示,其中是第i个模型的预测标签向量,wi是第i个模型的权重,是最终的预测标签向量:

进一步的,所述步骤105根据最终建立的模型,对即将生产的光纤的折射率进行回归预测操作具体步骤为:

根据建立三个基础机器学习模型操作,完全随机区分训练集与验证集5次,再分别得到5组模型的权重值,对5组权重取均值,得到最后的权重,最后将所有不再区分训练集验证集的数据分别训练出弹性网络回归模型、catboost模型、全连接网络模型,根据求得的权重融合,得到预测光纤折射率。

本发明的优点及有益效果如下:

1.本发明在所述步骤101-1对“严重异常”数据通过公式(1)填充以及步骤101-2对“严重缺失”数据通过公式(2)填充时,考虑到偏离点的影响和数据分布的不同,故引入了分位数(表示数据分割点的数据)参与计算,使填充值的有效性有极大提升,同时也间接提高了后续模型的鲁棒性。

2.本发明在所述步骤101-3对离散数据数据通过公式(3)编码时,只抽取了80%的数据参与计算,是由于考虑到全部参与计算的编码方法在实际应用中会有极大的过拟合风险,所以选取部分计算的方法可以有效提高编码的有效性,简化计算,同时也间接提高了后续模型的鲁棒性。

3.本发明在所述步骤103构建基础机器学习模型时,在充分考虑到模型之间的差异性的同时,也考虑到实际生产中的效益,故分别只选择了线性模型的代表—弹性网络回归、树模型的代表—catboost、神经网络的代表—全连接模型,即使在仅有的三个模型下,通过后续融合依然能够能得到较为精准的预测结果,无需耗费大量时间和设备进行各模型的重复累积。

4.本发明在所述步骤104模型融合中,通过公式(6)(7)得到三个模型的融合权重,对比传统的人工策略(即通过人为观测然后设定模型的融合权重),具有更为科学、更为简便、更加符合智能制造的思想的优点。

附图说明

图1是本发明提供优选实施例一种光纤折射率大数据预测方法的流程图。

图2为本发明实施例一提供的一种光纤折射率大数据预测方法中全连接网络的结构图。

图3为本发明实施例一提供的一种光纤折射率大数据预测方法中得到各模型权重的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

参考图1,图1为本发明实施例一提供一种基于大数据制造的光纤折射率预测方法的流程图,具体包括:

一种光纤折射率大数据预测方法,其特征在于,包括以下步骤:

101、对光纤拉制时的生产数据进行包括异常值处理、缺失值处理、、离散值编码在内的预处理步骤;

102、根据光纤拉制设备的不同,划分训练集和验证集;

103、建立三个基础机器学习模型,分别为弹性网络回归模型、catboost模型及全连接网络模型;

104利用线性加权方法对步骤103的基础机器学习模型进行融合,得到最终融合预测模型;

105根据最终融合预测模型,对即将拉制的光纤的折射率进行回归预测。

优选的,所述步骤101对原始光纤生产数据异常值处理具体步骤为:

101-1.异常值处理:对于异常值的判断,使用k-means方法对每一个连续值属性进行单独聚类操作,k值取2,如果在聚类后,被分为任意一标签的数据量只占总数据量的0.2%及以下,那判定该批数据存在异常,并且对异常值的后续处理采取两种方案:一是异常值所在的某条数据,存在“严重异常”即单条异常属性达到总属性数量20%及以上的情况,对这种数据进行丢弃操作;二是用如下公式进行填充,其中q2是单列属性的第二四分位数,min是最小值,max是最大值,errordata是进行填充的数据:

优选的,所述缺失值处理具体包括步骤:

101-2.缺失值处理:采取两种方式处理数据采集过程中产生的缺失值:一是对于“严重缺失”即单条缺失属性达到总属性数量20%及以上的光纤数据进行丢弃操作,二是对于其他缺失数据进行补充操作:对离散型数据用众数进行填充,对连续型数据用如下公式进行填充,其中q1是单列属性的第一四分位数,q3是第三四分位数,min是最小值,max是最大值,mean是均值,missdata是进行填充的数据:

优选的,所述离散值编码具体包括步骤:

101-3.离散值编码:对离散值i编码时,随机抽取该值所对应数据的80%,然后采用如下公式进行计算,其中labeli是指离散值i所对应的标签值,n是计算离散值i所对应数据量的大小即随机抽取80%后的大小,codei是对离散值i的编码结果:

优选的,所述步骤102根据光纤拉制设备的不同,划分训练集和验证集操作具体步骤为:光纤拉制设备有n台,根据设备号将原始数据划分为n份,再分别把每份数据按3:1的比例划分,最后将n份比例为3的数据合并得到最终的训练集,将七份比例为1的数据合并得到验证集。

优选的,所述步骤103建立三个基础机器学习模型操作具体步骤为:

103-1.弹性网络回归模型:建立弹性网络回归模型,先按照如下公式自定义损失,其中labeli是指预测的标签值,labeli_是真实的标签值,n是被预测的数据量大小,loss是损失值大小:

再根据如下公式定义弹性网络回归的损失函数,其中r设定为0.2,α设定为0.01:

103-2.catboost模型:采用catboost建立集成树模型,同时舍弃101-3离散值编码,对原始离散数据不做处理,直接输入模型,训练参数相关:depth设定为6,ignored_features设定为true,subsample设定为0.7,learning_rate设定为0.015,iterations设定为1000;

103-3.全连接网络模型:采用全连接网络,网络的结构从输入层到输出层如下:输入层,即光纤属性向量输入,该层不采取额外处理;第一层隐藏层,设定神经元50个,权重w1的droupout设定为0.7,即网络计算过程中该层权重向量会有70%的被输出参与计算,30%被舍弃,偏置项b1的droupout设定为0.7,激活函数设定为tahn;第二层隐藏层,设定神经元10个,权重w2的droupout设定为0.8,偏置项b2的droupout设定为1,激活函数设定为relu;第三层隐藏层,设定为输出层,设定神经元1个,即为最后的预测值输出,权重w3的droupout设定为0.8,偏置项b2的droupout设定为1,激活函数设定为relu。该神经网络采用adam优化器,损失函数设定为均方误差,学习率设定为恒定0.003,迭代次数50000次,添加l2正则化0.001。

优选的,所述步骤104利用线性加权方法对基础模型进行融合操作具体步骤为:

首先按照公式(4)计算三个已建立模型的损失,然后根据如下公式对每个模型的损失值大小进行以自然数e为底的对数变换,其中lossi是模型的损失值大小,li为变换的结果:

li=ln(lossi+1)公式(6)

得到变换的值后,继续将三个变换后的损失值转换成三个和为1的概率值,该概率值也就是我们线性融合的权重值,如下方公式所示:

最后按照线性加权融合的方式,得到最终融合的结果,如下方公式所示,其中是第i个模型的预测标签向量,wi是第i个模型的权重,是最终的预测标签向量:

优选的,所述步骤105根据最终建立的模型,对即将生产的光纤的折射率进行回归预测操作具体步骤为:

根据建立三个基础机器学习模型操作,完全随机区分训练集与验证集5次,再分别得到5组模型的权重值,对5组权重取均值,得到最后的权重,最后将所有不再区分训练集验证集的数据分别训练出弹性网络回归模型、catboost模型、全连接网络模型,根据求得的权重融合,得到预测光纤折射率。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1