痕量金属离子浓度区间预测方法、装置及存储介质与流程

文档序号:16388215发布日期:2018-12-22 10:30阅读:230来源:国知局
痕量金属离子浓度区间预测方法、装置及存储介质与流程

本发明涉及紫外可见光谱分析领域,具体涉及一种痕量金属离子浓度的区间预测方法、装置及存储介质。

背景技术

在湿法冶金净化工序中,料液浸出液存在金属离子种类多、特性相近、浓度比大等特点,严格控制痕量杂质金属离子的浓度对净化出口溶液合格率、电解锌品质具有重要作用。痕量杂质金属离子主要通过置换法和沉淀法去除,主金属粉料的添加量是净化过程关键的控制参数,不仅直接影响出口溶液杂质离子浓度稳定性与合格率,也直接影响净化液的产量与质量。现场操作人员主要根据杂质离子的浓度区间范围调节主金属料粉的添加量。然而离子信号非线性强、数据样本分布不均衡及误判代价不相等的特点给高浓度比背景下痕量金属离子浓度的区间预测带来极大挑战。

在净化过程中,将痕量杂质离子浓度分成几个数值区间,现场操作人员根据浓度区间添加适量主金属粉料进行去除过程。添加粉料的过程中,如果痕量杂质离子浓度的区间预测偏高,仅会增加粉料的加入量,净化完全,不会对后续工序造成影响;但是如果预测区间低于实际值,净化不完全将会导致净化出口溶液中杂质离子浓度高、波动大,发生“烧板”现象,进而降低电解产品的产量与质量,给生产过程造成巨大损失。传统方法针对现场数据分布不均衡以及上述误判代价不相等的特点,通过最大化准确性实现对模型的评估,传统算法凸显出一定的局限性。

受试者工作特征(roc)曲线下的面积(auc)是统计上与准确性相容但更具判别力的性能度量准则。auc能刻画算法的整体性能,独立于先验分布、误判代价以及阈值,因此auc在众多分类器应用场合替代准确性作为模型的性能评价准则。同时,为使优化目标与性能评价准则一致,auc也被用作模型优化准则。

近年来,紫外可见分光光度法由于其简单、快速、稳定、灵敏度高、重现性好以及预处理操作简单等特点,在多金属离子在线分析测定领域得到了广泛应用。根据在线检测时对检测仪器快速性、稳定性、低成本等要求,紫外可见分光光度法适用于测量料液浸出液中痕量杂质金属离子信号。



技术实现要素:

基于此,有必要针对高浓度比背景下的多金属离子混合溶液中痕量离子检测信号重叠,对痕量离子的浓度区间的预测值低于痕量离子的实际浓度的技术问题,提供一种痕量金属离子浓度区间预测方法、装置及存储介质。

本发明提出一种痕量金属离子浓度区间预测方法,包括以下步骤:

s1、基于待测液的导数光谱获取所述待测液中痕量金属离子的最佳建模区间,并利用所述最佳建模区间结合主成分分析法提取痕量金属离子光谱信号特征;

s2、基于支持向量机模型对所述痕量金属离子光谱信号特征进行处理,获得所述痕量金属离子的浓度区间预测结果。

优选地,在步骤s1之前还包括采用小波函数对待测液的光谱数据进行预处理,利用导数光谱法处理预处理后的光谱数据获得所述待测液的导数光谱。

步骤s2之前还包括:

根据多个样本的痕量金属离子的光谱信号特征构建二叉树模型,将所述二叉树模型转化为多个子模型;

根据所述子模型,构建所述支持向量机模型;

和/或,根据所述子模型,构建所述支持向量机模型还包括:

基于马氏距离-径向基核函数对所述支持向量机模型进行优化。

将所述二叉树模型转化为多个子模型具体步骤包括:

根据所述多个样本的痕量金属离子光谱信号特征划分多个浓度区间;按照优先区分浓度最高的浓度区间原则逐级递减一个浓度区间构成包括多个层级的二叉树模型;

所述二叉树模型中的每一层级对应一个所述子模型。

优选地,根据所述子模型,构建所述支持向量机模型之前还包括:

使用归一化的wilcoxon-mann-whitney统计计算auc的最大似然估计,对所述子模型进行优化。

优选地,根据所述子模型,构建所述支持向量机模型还包括:

利用状态转移算法优化所述支持向量机模型的参数。

优选地,所述auc的最大似然估计采用非参数估计算法求解,其中所述非参数估计算法为:

其中,i=1,…n+,j=1,…n-,n+和n-分别表示正例样本和负例样本的个数;分别表示正例样本和负例样本,f表示决策函数;其中,为指示函数,

,其中,δ>0表示允许存在的细微偏差;

和/或,优化所述子模型包括求解所述子模型的目标函数:

其中,c>0是惩罚参数,用于寻找几何间隔最大超平面和保证数据偏差最小之间的权重,为松弛变量;表示任意;

其中,差样本集z为:

z为n维矩阵;

将所述子模型的优化问题转化为求解对偶问题,所述子模型的目标函数转化后:

其中,z∈z,转化后的目标函数取决于一组拉格朗日乘子α;

其中,所述zu和zv的马氏距离-径向基(m-rbf)核函数为:

k(zu,zv)=exp(-p(zu-zv)v-1(zu-zv)t/m);

其中,v-1为类协方差矩阵的逆矩阵,p>0和m>0是控制马氏距离的关键因素,p是核参数,m为马氏距离平方的平均值;zu和zv分别表示任意两个不同的差样本;

根据转化后的目标函数,输入所述待测离子光谱信号特征x得到决策函数f以及判别函数y,根据所述决策函数及所述判别函数得到所述浓度区间预测结果;其中,

其中,b为决策阈值,由于auc独立于决策阈值,决策阈值在得到决策函数后依据具体的分类任务确定,定义为:

优选地,所述参数的优化目标为:

maxap;c=w·aucp;c+(1-w)·accp;c

s.t.0<p≤2,

0.01≤c≤100;

其中,acc为校正模型的准确度;w为auc与准确度的加权权重;

其中,优化模型参数p和c的框架为:

其中,p的搜索范围为(0,2]:c的搜索范围为(0.01,100]:k为第k次转移循环,pk和ck为每次循环的解,ak和bk为状态转移矩阵,uk是历史状态函数,y是目标函数。

本发明还提出一种用于痕量金属离子浓度区间预测的装置,包括显示器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

此外,本发明还包括一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本发明与现有技术对比的有益效果包括:根据痕量离子的导数光谱获取其最佳建模区间,并利用主成分分析法提取痕量离子光谱信号特征,减少多重共线性,有效确定模型输入变量,支持向量机模型将输入的待测离子光谱信号特征进行处理得到该痕量离子的浓度区间预测结果,该方法能够准确获知痕量离子的浓度区间,在其中一个实施例中,对cu(ii)的浓度区间的预测准确率为93.75%,且将对预测值判断低于痕量离子实际浓度的概率为0;co(ii)预测准确率为81.25%,且将对预测值判断低于痕量离子的概率为6.25%。

附图说明

图1为本发明实施例提供的痕量金属离子浓度的区间预测方法的流程示意图。

图2为本发明实施例提供的三种金属离子的光谱信号图。

图3为本发明实施例提供的在不同的离子干扰环境下cu2+在520nm波长处的吸光度系数。

图4为本发明实施例提供的三种金属离子的导数光谱信号图。

图5为本发明实施例提供的二叉树结构示意图。

图6为本发明实施例提供的模型参数优化算法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

结合图1,本实施例提出一种痕量金属离子浓度区间预测方法,包括以下步骤:

t1、采用小波函数对待测液的光谱数据进行预处理,预处理后的光谱数据利用导数光谱法获得所述待测液的导数光谱。其中,光谱数据通过紫外可见分光光度法获取,具体地,获取待测液在全波段的吸光度,例如可以为以1nm为间隔、以400-800nm为波长范围,包含的401个波长点的吸光度。为了减少噪声对光谱信号的影响,并使光谱信号更加平滑,采用经典db3小波函数对光谱数据进行去噪。

其中,待测液可以为含有多种金属离子的混合溶液,并且该待测液中基体离子与待测的痕量金属离子可以具有高浓度比。

t2、基于导数光谱获取痕量离子的最佳建模区间,并利用所述最佳建模区间结合主成分分析法(pca)提取待测离子光谱信号特征,减少多重共线性。需要说明的是,溶液中的主基体离子的高浓度导致痕量离子光谱信号被主基体离子掩蔽,为了尽可能多地提取痕量离子光谱信息,分别获取所有金属离子的一阶导数光谱,分析比较多种金属离子的光谱特征,选取待测离子光谱信号变化率最大而其他干扰离子光谱信号变化率小的区间作为建模区间。进一步地,采用主成分分析(pca)提取光谱特征,以90%的累积贡献率确定主成分数获得新变量,这些新变量能够代表原始数据的绝大部分信息并减少噪声的干扰。

t3、基于支持向量机模型(svm)对所述痕量金属离子光谱信号特征进行处理,获得所述痕量金属离子的浓度区间预测结果。其中,所述支持向量机模型包括多个子模型;每个所述子模型设有至少两个待预测的浓度区间。

基于上述实施例,本实施例步骤t2之前还包括建:

根据多个样本的痕量金属离子的光谱信号特征构建二叉树模型,将所述二叉树模型转化为多个子模型,避免了传统方法中的不可分割性。

基于上述实施例,本实施例中将所述二叉树模型转化为多个子模型具体步骤包括:

根据所述多个样本的痕量金属离子光谱信号特征划分多个浓度区间;按照优先区分浓度最高的浓度区间原则逐级递减一个浓度区间构成包括多个层级的二叉树模型;

所述二叉树模型中的每一层级对应一个所述子模型。

例如将所有的样本的痕量金属离子光谱信号特征分为四个浓度区间,其中,区间浓度从高到低依次为:第四浓度区间、第三浓度区间、第二浓度区间、第一浓度区间。优先区分第四个浓度区间和前三个浓度区间,建立子模型1;然后在三个浓度区间中区分第三浓度区间和其他两个浓度区间,建立子模型2;最后在两个浓度区间中区分第一浓度区间和第二浓度区间,建立子模型3。例如在子模型1中,被判断为第四浓度区间的离子光谱信号为正例样本,被判为另外三个浓度区间的离子光谱信号为负例样本。

基于上述实施例,本实施例中构建所述支持向量机模型还包括基于马氏距离-径向基核函数(m-rbf)对所述支持向量机模型进行优化。传统svm或者用于优化auc的svm模型,采用的判别函数仅由支持向量或支持向量对确定,更具体地说,只关注正好满足或不能满足排序约束的样本的贡献,这可能导致整个样本集信息的丢失。引入马氏距离-径向基核函数(m-rbf)可弥补信息损失,充分利用数据内部信息,并提高模型的非线性映射能力。进一步地,马氏距离-径向基核函数具有维数独立性和挖掘特征之间耦合的特性,它通过使用方差和协方差矩阵考虑了数据间的相关性,可以强调具有较强相对性的特征并减少不相关特征的影响,充分利用数据内部信息并可以表示数据的整体结构。因此引入马氏距离-径向基(m-rbf)核函数实现将输入空间映射到具有全局结构信息的特征空间。

基于上述实施例,进一步地,根据所述子模型,构建所述支持向量机模型之前还包括:

使用归一化的wilcoxon-mann-whitney统计计算auc的最大似然估计,对所述子模型进行优化。

基于上述实施例,在本实施例中所述auc的最大似然估计采用非参数估计算法求解,其中所述非参数估计算法为:

其中,i=1,…n+,j=1,…n-,n+和n-分别表示正例样本和负例样本的个数;分别表示正例样本和负例样本,f表示决策函数;其中,为指示函数,

,其中,δ>0表示允许存在的细微偏差。

进一步地,优化所述子模型包括求解所述子模型的目标函数:

其中,c>0是惩罚参数,用于寻找几何间隔最大超平面和保证数据偏差最小之间的权重,为松弛变量;表示任意;

其中,差样本集z为:

z为n维矩阵。需要说明的是差样本集z表示每个正例样本与每个例样本的差的集合。

将所述子模型的优化问题转化为求解对偶问题,所述子模型的目标函数转化为:

其中,z∈z,转化后的目标函数取决于一组拉格朗日乘子α;

其中,所述zu和zv的马氏距离-径向基(m-rbf)核函数为:

k(zu,zv)=exp(-p(zu-zv)v-1(zu-zv)t/m);

其中,v-1为类协方差矩阵的逆矩阵,p>0和m>0是控制马氏距离的关键因素,p是核参数,m为马氏距离平方的平均值;zu和zv分别表示任意两个不同的差样本。

根据转化后的目标函数,输入所述待测离子光谱信号特征x得到决策函数f以及判别函数y,根据所述决策函数及所述判别函数得到所述浓度区间预测结果;其中,

其中,b为决策阈值,由于auc独立于决策阈值,决策阈值在得到决策函数后依据具体的分类任务确定,定义为:

此外,本实施例中构建所述支持向量机模型还包括利用状态转移算法优化所述支持向量机模型的参数。其中,所述参数的优化目标为:

maxap;c=w·aucp;c+(1-w)·accp;c

s.t.0<p≤2,

0.01≤c≤100;(7)

其中,acc为校正模型的准确度;w为auc与准确度的加权权重;

其中,优化模型参数p和c的框架为:

其中,p的搜索范围为(0,2]:c的搜索范围为(0.01,100]:k为第k次转移循环,pk和ck为每次循环的解,ak和bk为状态转移矩阵,uk是历史状态函数,y是目标函数。

基于上述实施例,本实施例还包括一种用于痕量金属离子浓度区间预测的装置,包括显示器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

基于上述实施例,本实施例还包括一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

下面举例说明本发明实施例提供的痕量金属离子浓度的区间预测方法。

在亚硝基r盐的显色体系下配置高浓度比的锌zn(ii)和铜cu(ii)、钴co(ii)单离子溶液和三者的混合溶液,其中锌zn(ii)离子为基体离子,铜cu(ii)、钴co(ii)为待进行区间预测的痕量金属离子。以试剂空白(不含zn(ii)、cu(ii)、co(ii),只含显色剂和缓冲剂的试剂)作参比测量混合溶液的吸光度。光谱仪采用双光路设计,扫描范围为400-800nm,扫描分辨率为1nm,光谱带宽为2nm,实验环境稳定在20±2℃。其中zn(ii)浓度为70-100g/l;cu(ii)、co(ii)浓度区间为:(0,1],(1,2],(2,3],(3,4],单位为mg/l,为叙述方便,用i、ii、iii、iv分别代替所述四个区间(0,1],(1,2],(2,3],(3,4]。

首先应用紫外可见分光光度法得到64组zn(ii)、cu(ii)、co(ii)混合溶液光谱数据,以48组光谱数据作为校正集进行建模,16组作为未知样品用来验证模型。

光谱数据中除了含有样品自身的信息外,还包含有其他无关信息和噪声,如电噪声、样品背景和杂散光等,因此在建立模型前,有必要对光谱数据进行消噪预处理,从而有效的滤除噪声,提升光谱分析的精度。由于小波分析具有多分辨率、低熵性、去相关性等特点,在分析处理光谱信号等非平稳信号方面具有明显优势。

图2为本发明实施例提供的zn(ii)、cu(ii)、co(ii)三种金属离子的光谱信号图。如图2所示,由于高浓度比,基质离子(zn(ii))的光谱信号在400-500nm范围内严重覆盖了痕量杂质离子(cu(ii)、co(ii))的光谱信号,并且由于痕量杂质离子化学性质相似,彼此产生了重叠峰。同时,由于超高浓度比以及离子间严重的相互作用,痕量杂质离子的光谱信号表现出较强的非线性,以cu(ii)为例,图3为本发明实施例提供的在不同浓度的zn(ii)、co(ii)干扰环境下,cu(ii)在520nm波长处的吸光度系数存在较大差异。

因此,为了充分提取cu(ii)、co(ii)的光谱信息,减少zn(ii)的影响,选取适当的波长范围进行建模非常重要。对于光谱重叠严重的现象,常用的分析处理方法是导数光谱法,通过对图2进行一阶导数分析,得到图4提供的zn(ii)、cu(ii)、co(ii)三种金属离子的导数光谱信号图。如图4所示,cu(ii)在490-544nm范围内一阶导数光谱达到峰值,且zn(ii)、co(ii)导数光谱信号较为平缓,因此将490-544nm作为cu(ii)的建模区间;在524-608nm范围内,co(ii)导数光谱达到峰值,且此波段范围内zn(ii)、cu(ii)信号较小,因此选用524-608nm作为的co(ii)建模区间。

在所述波长范围(建模区间)内,波长变量包含大量的冗余或无关信息,同时为了减少变量个数,提高模型精度、降低复杂度,需要对吸光度进行特征提取,选择有效的待测离子光谱信号特征进行建模。pca是特征提取最常用的方法之一,在化学计量学中起重要作用。pca提取的特征变量(即待测离子光谱信号特征)可以充分表示原始数据的特征而不丢失信息,特征变量相互正交,降低了多重共线性,进一步减少了测量噪声的干扰,同时减少了输入向量的维数,提高模型的性能。

将上述pca提取的特征变量作为模型输入变量。

图5为本发明实施例提供的二叉树结构示意图,按照图5所述,分别针对cu(ii)、co(ii)建立三个子模型。图6为本发明实施例提供的模型参数优化算法的流程示意图。每个子模型的具体参数优化步骤如下:

步骤a:根据所分类别,根据式(5)计算差样本集,然后利用pca进行特征提取,以90%的累积贡献率作为主成分提取的终止条件,将特征变量作为输入变量输入模型;

步骤b:初始化迭代状态k=0以及待优化的模型参数p和c,将p和c的初始值带入式(4),利用基于auc的svm求解模型,然后计算48组校正集的auc数值aucp;c和准确率accp;c,根据式(7)计算目标值ap;c,并将此值设定为最优值abest;

步骤c:在每次循环中,跟新迭代状态k=k+1,根据sta中的四种特殊状态转换算子更新待优化的模型参数p和c,利用基于auc的svm求解模型,重新计算48组校正集的auc数值aucp;c和准确率accp;c,根据式(7)计算目标值ap;c,比较ap;c和abest,如果ap;c>abest,将ap;c设定为新的最优值abest,并保留此次循环中的参数p和c数值;如果ap;c≤abest,重复此次循环;

步骤d:达到设定的最大状态循环次数(设定值为100),终止循环,并输出保留得到的abest,p和c。

确定每个子模型的模型参数,用16组验证集验证模型。

为了说明本发明实施例提供的方法具有效果,本发明实施例还使用pso-svm,bp-ann对cu(ii)、co(ii)进行区间预测,从而与本发明实施例提供的方法进行对比。

在净化工序中,区间预测误差是允许存在的,但是由于不相等的误判代价(包括生产成本、质量检测和金属回收等),应该尽可能减少浓度区间预测低于实际值情况的发生。

针对高锌背景下,cu(ii)和co(ii)光谱信号被遮掩,谱信号呈现较强的非线性,且样本数据分布不均衡和误判代价不相等的情况,本发明实施例提供的基于auc的svm模型对cu(ii)和co(ii)浓度区间进行预测,采用16组验证集验证模型。本实施例提出不能容忍率int:

其中,nm表示将高浓度区间错误地预测为低浓度区间的数量,sum是验证集总体样本数。

需要说明的是,本实施例中的不能容忍率int是指将预测值判断为低于痕量离子实际浓度的概率。

为了直观比较三种模型的性能,采用正确率acc和不能容忍率int作为模型的评价指标。正确率acc公式定义为:

其中,na表示区间预测正确的样本数量,sum是验证集总体样本数。

16组混合溶液中cu(ii)和co(ii)的浓度区间预测结果分别见表1和表2。

表1cu(ii)区间预测建模比较

表2co(ii)区间预测建模比较

与pso-svm和bp-ann相比,本发明实施例所提供的区间预测模型获得的cu(ii)和co(ii)的浓度区间预测正确率(acc)不低于其他两种方法,分别为93.75%和81.25%,更重要的是,cu(ii)和co(ii)的浓度区间预测的不能容忍率(int)分别为0和6.25%,远远低于其他两种方法,很大程度控制减少了预测结果偏低情况的发生。分析表1和表2可得,本发明实施例提供的痕量金属离子浓度的区间预测方法型取得了更好的检测结果,效果理想,更好的解决了高浓度比背景、样本数据分布不均衡和误判代价不相等的情况下痕量离子的区间预测问题。

本发明提供的痕量金属离子浓度的区间预测方法,通过采用小波去噪预处理和pca特征提取,减少测量噪声的干扰,减少光谱变量,降低多重共线性,提高模型精度、降低计算复杂度;利用auc替代准确率作为模型准则,auc不仅对不均衡分布和不相等误判代价不敏感,而且与分类阈值无关,避免了阈值选择过程中假定的主观性;然后用svm模型优化auc,在高浓度比背景下,提高非线性映射能力,并在数据样本分布不均衡和误判成本不相等的情况下,保证更好的泛化能力。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1