本发明涉及一种铝电解过热度不平衡数据的自适应过采样方法
背景技术:
铝电解槽电解质的过热度是指电解质温度与初晶温度的差值。过热度直接影响铝电解的电流效率,同时影响电解槽的炉膛形状及稳定性,进而影响电解槽的寿命。因此,有效的检测过热度的大小对于铝电解的生产过程具有很重要的指导作用。由于正常过热度数与非正常过热度数差距很大,正常过热度样本数显著超过非正常样本数,用传统方法训练的分类器倾向于使决策偏向于大多数类而对少数类不利,因此过热度数据分类比较困难。
技术实现要素:
本发明目的在于提供一种铝电解过热度不平衡数据的自适应过采样方法,以提升过热度分类性能。
为实现上述目的,本发明提供一种铝电解过热度不平衡数据的自适应过采样方法,包括以下步骤:
①将待处理的铝电解过热度不平衡原始数据分成多数类样本和少数类样本;
②设定过采样方法中参数的上下界,随机选取参数值;
③使用过采样方法作用于少数类样本,得到新的合成少数类样本;
④将合成少数类样本和原始数据样本合并,评价其分类性能;
⑤使用状态转移算法重新选取过采样方法中的参数值,重复步骤③④,得到并保存分类性能较好的那一组参数值;
⑥重复步骤⑤,直到达到条件结束,得到过采样方法的最优参数值和铝电解过热度不平衡数据的最佳分类性能。
所述原始数据包括1000-2000个、优选1200-1800个、最优选1500个数据。
所述步骤①还包括对数据进行初始化,输入和输出相关变量。
其中,输入的相关变量包括系列电流,针振,摆动,出铝量,下料间隔,分子比,槽温。两水平八种变量,输出的相关变量为过热度。
其中,所述两水平包括铝水平、电解质水平。
所述步骤②具体为:对smote的参数进行设定,smote算法为一种常用的解决类不平衡问题中的过采样方法,其参数包括x=(k,n),其中k表示最近邻域面积,n表示过采样率。
步骤④样本合并后,生成初始解决方案,随机生成一个生成对应的解y=(kappabest,accuracybest),kappa反映了分类准确度,kappa值越高,准确度就越可信。
而重复步骤③④具体包括:通过使用子程序smote(t,k,n)来重新平衡原始数据集,其中t代表少数实例,新的数据集是通过组合原数据集和合成数据集创建的,然后传统分类器通过使用新的数据集进行训练和评估。
所述状态转移算法包括引入状态转移算法中的旋转变换,平移变换,扩展变换,坐标变换得到se个候选集x。
步骤⑥具体为由子程序smote用于生成解集y,算法会比较解集y每个解y的kappa值和精确度,得到最优的解x,然后继续迭代,将此次得到的最优解x重新代入,如此反复进行迭代,设定的最大迭代次数为5-50次,优选10-30次,更优选20-25次,此时通过smote得到最优解。
本发明通过铝电解过热度不平衡数据的自适应过采样方法增大过热度的分类性能,而且很好的兼顾了大多数类和少数类数据,在平衡好两者关系的同时具有非常好的准确性,并有着良好的自适应性。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的一种铝电解过热度不平衡数据的自适应过采样方法框架图,图2是本发明优选实施例具体实施流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明运用自适应过采样方法,作为过热度数据分类的依据。
本发明实施例公开了一种铝电解过热度不平衡数据的自适应过采样方法,如图1所示,包括以下步骤:
①将待处理的铝电解过热度不平衡原始数据分成多数类样本和少数类样本;
②设定过采样方法中参数的上下界,随机选取参数值;
③使用过采样方法作用于少数类样本,得到新的合成少数类样本;
④将合成少数类样本和原始数据样本合并,评价其分类性能;
⑤使用状态转移算法重新选取过采样方法中的参数值,重复步骤③④,得到并保存分类性能较好的那一组参数值;
⑥重复步骤⑤,直到达到条件结束,得到过采样方法的最优参数值和铝电解过热度不平衡数据的最佳分类性能。
具体的如下实施例所示:
实施例1:
s1:首先将选择的1500个电解铝原始数据进行加载,并将原始数据分为多数类和少数类,(多数类样本表示为正类,也就是正常数据;少数类表示为负类,也就是异常数据),并对数据进行初始化。八种变量被视为输入,分别为系列电流,针振,摆动,出铝量,下料间隔,分子比,槽温,两水平(铝水平,电解质水平),过热度被视为输出。
s2:对smote的参数进行设定,其参数包括x=(k,n),其中k表示最近邻域面积,n表示过采样率。随机生成初始状态x=(k,n)式子如下:
k=kmin+(kmax-kmin)×rand
n=nmin+(nmax-nmin)×rand
其中nmax表示多数类和少数类的比例,nmin是100%,kmin=2,kmax表示少数类的总数。作用于少数类数据,得到新的合成数据并将合成数据与原始数据融合在一起。
s3:生成初始解决方案,随机生成一个初始状态,x=(k,n),生成对应的解y=(kappabest,accuracybest),kappa反映了分类准确度,kappa值越高,准确度就越可信。
其中tp,fp.fn,tn的含义如表1(混淆矩阵)所示
表1:混淆矩阵
通过使用子程序smote(t,k,n)来重新平衡原始数据集,其中t代表少数实例,新的数据集是通过组合原数据集和合成数据集创建的,然后传统分类器通过使用新的数据集进行训练和评估。
初始解y=(kappabest,accuracy)通过测量混淆矩阵的kappa值和精确度来获得。
kappa值是一个重要的评估指标,反映了分类的准确度,kappa值越高就越可信,其范围为-1到+1。
kappa>0.8高度一致,可信度高
0.6<kappa≤0.8相对较强的一致性,相对较高的可信度
0.4≤kappa≤0.6一致性和准确性一般
kappa<0.4不一致,准确性低
s4:引入状态转移算法,利用旋转变换,平移变换,扩展变换,坐标变换得到se个候选集x,四种变化分别为:
①旋转因子对应旋转变换
其中α称为旋转因子,为一个正数,rr是一个随机的矩阵,其元素限于[-1,1]。
②平移变换
其中β称为平移因子,为一个正数,rr是一个随机变量,其元素被限制在[0,1]。
③扩展变换xk+1=xk+γrnxk
其中γ称为扩展因子,为一个正数,rn是随机对角矩阵,其元素遵循高斯分布。
④坐标变换xk+1=xk+δraxk
其中δ称为坐标因子,为一个正数,ra是一个随机对角矩阵,其元素也遵循高斯分布。
然后由子程序smote生成解集y,算法会比较解集y每个解y得kappa值和精确度,得到最优的解x,然后继续迭代,将此次得到最优解x重新代入,如此反复进行迭代,设定的最大迭代次数为25次,此时通过smote得到最优解。
实施例2:
电解铝原始数据选择为1800个,其他和实施例1相同。
实施例3:
电解铝原始数据选择为1200个,其他和实施例1相同。
实施例4:
设定最大迭代次数为20次,其他和实施例1相同。
综上可知,本发明通过铝电解过热度不平衡数据的自适应过采样方法增大过热度的分类性能。且本发明提出的方法准确性高,具有很好的自适应性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。