基于数据拟合的稀土矿尾中稀土元素含量的规律研究方法与流程

文档序号:15932855发布日期:2018-11-14 01:55阅读:385来源:国知局

本发明具体涉及基于数据拟合的稀土原地浸矿尾矿中稀土元素含量的规律的研究,属于稀土尾矿中稀土元素分析技术领域。

背景技术

稀土元素因其具有特有的电子层结构,因此使得稀土元素自身具有优异的磁、光、电等特性,现在已经普遍地适用于各行各业。南方风化壳稀土矿是我国特有的、宝贵的稀土资源,加大对稀土原地浸取尾矿的研究,提高稀土资源的利用率,减少尾矿对环境的影响,意义十分的重大。但是,到目前我们还不能确定原地浸取尾矿中稀土元素含量的变化规律,以及潜在的可再开发效益。为此,我们收集有关稀土含量随着深度变化而变化的数据,以进行相关分析。



技术实现要素:

我们根据收集得到的有关稀土含量随着深度变化而变化的数据,从而得到所收集数据的具体走势,画出散点图。因为散点图无法清晰给出尾矿中稀土元素的变化规律,所以我们进一步根据对应的散点图,采用局部加权线性回归算法给所有的待预测点附近的每个点都赋予一定的权重,基于最小均方差来进行回归,从而获得数据的基本回归曲线走势。之后根据所得到的曲线基本走势,结合最小二乘法来求的最终的曲线,通过使其平方和误差最小,获得最优曲线。

根据局部加权回归算法定义,需要给自变量每一个点都赋予对应的权重,也就是w矩阵。目前局部加权回归算法当中常用的权重函数有高斯(gauss)权函数应用局部加权线性回归方法,也就是对n组值中的自变量点xi,i=1,2,...,n,求得对应的a0(xi),a1(xi),...,ap(xi)从而使得取得最小值。

这里可以使得

w(x)=diag[w1(x),w2(x),...,wn(x)]

将待测数据放在矩阵x中,对应的回归系数则存放在向量w中。这时对应已有的输入数据xi,其对应的预测结果可以通过yi=xitw,其中t表示矩阵x的转置得到。已有的数据是包括x和y的,如何求出所需要的回归系数w是主要工作。本文所采取的方法是找到一个误差最小的w。这里所指的误差是通过得到的算法模型所得到的预测值与实际已有的值之间的差值,只使用简单的误差累加,那么求解过程中的正负误差可能会相互抵消,从而使得求解所得到的预测结果出现较大差异,因而采用平方误差。平方误差可以写做:对应的矩阵表达形式为(y-xw)t(y-xw)。最终可以解出,wε=(xtx)-1xty,其中wε表示这是当前可以估计的最优解。这里所运用求解最佳w的方法是最小二乘法。最终得到相应的规律。

有益效果

通过使用局部加权回归算法对采集的到的有关稀土含量随着深度变化而变化的数据,得出尾矿中稀土元素的留存规律,明确表明稀土尾矿具有极大的二次开发利用的价值。

附图说明

图1为数据散点图;

图2为最佳拟合直线图;

图3为系数值为10的拟合图像;

图4为系数值为100的拟合图像;

图5为系数值为300的拟合图像;

图6为系数值为500的拟合图像;

图7为matlab拟合结果。

具体实施方式

以下结合附图进一步说明本发明技术方案。

1、局部加权回归

局部加权回归算法(lowess)是数据挖掘当中用于获取回归模型的算法,首先是由c1eveland首次提出解决单个变量的问题,之后由c1eveland和develin在实际使用过程中推广到多个自变量的情形。

局部加权回归算法使回归模型中的各个参数所取的值随着模型中自变量取值的变化而变化,进而取得不同变化中所产生值,选择不同的参数值。即不同的参数值对应不同的参数,从而在局部根据自变量的不同给出相应回归函数的估计值。对不同的点xi,i=1,2,...,n,通过选择合适的权值函数得到对应的权值wi(xi),通过使用带有权值wk(xi)来对xi,i=1,2,...,n,利用最小二乘法来进行多阶多项式拟合,从而得到相对应的值yi,i=1,2,...,n。通过这种方法,来进行赋予权值wk(xi)得到相对应的拟合值的方法就称为局部加权回归。

权重的确定与参数估计

根据局部加权回归算法定义可知,在算法中需要给自变量每一个点都赋予对应的权重,也就是w矩阵,其中距离x近的点赋予较大的权重,因为往往离样本点越近,往往更加符合同一个模型。相对应,某些间隔较远的点则赋予较小的权,甚至不赋予权重。因此我们可以指定一个函数w(u),其中w(u)满足以下三点:

(4)w(u)≥0;

(5)当u>1时,w(u)=0;

(6)当0≤u≤1时,w(u)是u非递增函数。

目前局部加权回归算法当中常用的权重函数有三次权函数,以及高斯(gauss)权函数应用局部加权线性回归方法,也就是对n组值中的的自变量点xi,i=1,2,...,n,求得对应的a0(xi),a1(xi),...,ap(xi)从而使得取得最小值。

这里可以使得

w(x)=diag[w1(x),w2(x),...,wn(x)]

具体做法,这里我们假定待测数据是放在矩阵x当中,而对于的回归系数则存放在向量w当中。从而对于任意给定的数据xi,我们估计的结果就可以通过yi=xitw,其中t表示矩阵x的转置来得到。这时可以通过采用平方误差最小化,来得到最小误差的回归系数w,其中误差是指估计值与实际值之间的差,从而平方误差可以写做:对应的矩阵表达形式为(y-xw)t(y-xw)。最终可以解出,wε=(xtx)-1xty,其中wε表示这是当前可以估计的最优解。

进而给上述解添加权重wi(xi),最终可以解得回归系数w的形式为wε=(xtw(x)x)-1xtw(x)y,其中w(x)是一个矩阵,也就是我们给每个点所赋的权重。最后x的拟合值可以表示为:y(x)=a0(x)+a1(x)x+...+ap(x)xp

2.稀土元素含量的分析

运用上文中的回归方法来进行回归拟合,首先我们假定已有的待测数据是放在矩阵x当中,对应的回归系数则存放在向量w当中。这时对应已有的输入数据xi,其对应的预测结果可以通过yi=xitw,其中t表示矩阵x的转置得到。已有的数据是包括x和y的,如何求出所需要的回归系数w是主要工作。本文所采取的方法是找到一个误差最小的w。这里所指的误差是通过得到的算法模型所得到的预测值与实际已有的值之间的差值,只使用简单的误差累加,那么求解过程中的正负误差可能会相互抵消,从而使得求解所得到的预测结果出现较大差异,因而采用平方误差。平方误差可以写做:对应的矩阵表达形式为(y-xw)t(y-xw)。最终可以解出,wε=(xtx)-1xty,其中wε表示这是当前可以估计的最优解。这里所运用求解最佳w的方法就是最小二乘法。

首先获得如图1的散点图,首先对该数据采用平方误差最小的标准来进行直线拟合,获得最佳拟合。

在python环境下,调用numpy库中的矩阵方法,编写相应的代码。通过numpy中线性代数库可以求解一个未知矩阵。首先函数读入已有的数据(xi,yi),i=1,2,...,m,并将其保存到矩阵当中,并计算已有的矩阵的行列式是否为0,如果为0则出错,如果不为零,那么求出对应的逆矩阵,然后计算xtx。其中逆矩阵的求解可以调用numpy中的函数linalg.det求解对应的函数。最终返回w,对所有数据进行处理,解出矩阵解,然后将其放在矩阵当中。画出最佳拟合直线图如图2。

通过建立上述的直线模型,可以发现如果仅仅只使用最佳拟合直线方法进行建模,得到的效果并不好,直线模型的走势无法反映出数据点的实际走势。因此我们可以根据数据来进行局部调整从而进行预测。

在进行最佳直线拟合过程中,可能出现欠拟合现象,因为我们在求解最佳拟合直线时只是求得具有最小均方误差的无偏估计。因此,如果所获得的模型欠拟合,那么所得的结果就不是最好的预测结果。因此为了解决这一拟合问题,有的拟合方法就会在拟合过程中采取一些方法,通常会给每个点添加一些偏差,从而可以降低最终预测结果的均方误差。

局部加权拟合方法是由cleveland提出的一种光滑数据的拟合方法,通过运用这个算法,我们在我们要预测的点都加上一定的权重,在基于此来做回归。因此进而给前文中的最佳拟合直线解添加一定的权重wi(xi)。算法所采取的方法是设定一个权重矩阵,所设定的矩阵的阶数是样本点的个数。这样每个点都会赋予一定的权重,然后遍历所有数据,计算每个数据点的权重值:样本点与预测值越远,那么对应的权重值会以指数级进行衰减,这里可以通过不同的衰减速度来得到不同的解,其中系数k来控制衰减速度。最终可以解得回归系数w的形式为wε=(xtw(x)x)-1xtw(x)y,其中w(x)是一个矩阵,也就是我们给每个点所赋的权重。这里采用的是给每个点赋予高斯核,其中高斯核的权重是

通过赋予高斯核函数后,每个点都有一点的权重了,这时再进行数据拟合得到图3的效果。

根据图3我们可以看到该拟合曲线基本上覆盖了所有点,但根据图像很明显可以看到这种情况下,拟合曲线纳入了太多的噪声点,使得得到的曲线与已有的数据的过于接近了,因此最终拟合结果过拟合了,因此可以通过变换所取的系数值,来改变各点所赋予的权重,从而舍弃一些点,使得所得到的曲线结果更加光滑,更加符合一般曲线走势。通过变换系数值可以得到下面三幅图。

结合图4,图5和图6,可以发现通过变换系数值k的大小,最终所获得的拟合结果也有一定的区别,考虑到曲线最终应尽可能光滑,当系数值为300时的结果较为理想。在根据图5可以发现该曲线走势满足指数形式。这时选择另一个工具matlab来继续进行分析,选择借用matlab工具不同的拟合函数来进行相对应的数据拟合工作。通过调用matlab环境下的拟合工具箱,给图像赋予最终的指数表达式形式,可以得到以下结果。

其中拟合结果的方程表达式为f(x)=a*exp(b*x)+c*exp(d*x),各个参数的对应值为:a=2192,b=-0.006649,c=153.2,d=-1.883e-05。其中拟合的r-square的值为0.9073,表明该拟合效果较好,能够很好地反映由实际数据所得到的拟合函数。(r-square值为统计学名词,其值在0和1之间,值越大拟合效果越好)。

根据图6可以发现,当浸出深度达到并超过500cm时,整个浸出液中所含的稀土离子浓度已接近平稳,并且整个溶液当中稀土离子的含量也已经低于500ug。可以发现500cm再往下,稀土离子浓度基本上不会发生变化。整个淋浸过程中稀土含量变化在前500cm时的曲线变化幅度很大,但随着浸淋深度达到一定深度后,浓度就随着深度的变化而不再发生变化,因此为了保障稀土资源的二次利用具有一定的经济性和操作性,并且也保证尾矿中稀土的浸出率,从而提高对稀土这种战略资源的利用率,我们在二次利用时可以参考这一结论,结合实际情况进行开采。这一结论对于充分利用稀土这一宝贵资源来说是具有很大意义的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1