一种红外光谱数据pls建模方法
【专利摘要】本发明公开了一种红外光谱数据PLS建模方法,结合各个间隔区间的PLS模型的误差和误差之间的相关性来确定各个间隔区间的PLS模型的权系数,从而能使所得的融合PLS模型具有最小的误差。本发明的方法可以最好的利用各个间隔区间的光谱信息,简便、可视化、运算量小,可以很快的找到特征波长区间;本方明中的权系数的确定方法由于同时考虑到了各个参与融合的模型的误差以及误差之间的相关性,能保证融合之后的模型具有最小的误差。
【专利说明】一种红外光谱数据PLS建模方法
【技术领域】
[0001] 本发明属于红外光谱识别领域,具体是一种能提升红外光谱偏最小二乘建模效果 的数据处理方法。
【背景技术】
[0002] 在小样本多变量的红外光谱数据中,PLS模型可以很好的解决其它建模方法所遇 到的变量共线性问题和维数灾难,因此在红外光谱识别中得到了广泛的用。虽然PLS可以 直接对全光谱建模,但是理论和大量的实验证明波长选择仍是一种有效的提高PLS模型的 方法。波长优化选择是指通过一定的方法在建模之前进行特征波长或波段的筛选。经波长 选择后所建模型由于剔除了不相关或非线性变量,因此较全波长模型更为简化,预测能力 和稳健性也更好。其中iPLS(interval PLS-iPLS)是一种常用的波长选择方法。iPLS方法 的优点是简便、可视化、运算量小,可以很快的找到特征波长区间。缺点是只利用一个间隔 区间的光谱信息,可能丢失其他间隔区间的有用的光谱信息。因此如何最好的利用各个间 隔区间的光谱信息是亟待解决的问题。
【发明内容】
[0003] 本发明所要解决的技术问题是,针对上述现有技术的不足,提供一种红外光谱数 据PLS建模方法。
[0004] 为解决上述技术问题,本发明所采用的技术方案是:一种红外光谱数据PLS建模 方法,包括以下步骤:
[0005] 1)设置最大间隔区间数max_int_no、最大潜变量数max_lv_no、交叉法的重数 和k 2 ;其中,1^、1^2均不小于2 ;
[0006] 2)计算间隔区间数为int_no时,对应的融合PLS模型的交叉验证误差,计算的步 骤都是 2.1 至 2.2,其中 int_no < max_int_no :
[0007] 2. 1)将红外光谱样本集数据中的光谱矩阵X平均分为int_no个间隔区间Χ,:每 个间隔区间的列数1= ..........^ : £- h > □表示取整;第i个间隔区间Xi对应光谱矩阵 mt- /?ο J X的第[(i-l) X 1+1]?(i X 1)列的数据;1彡i彡int_no ;
[0008] 2. 2)计算潜变量数为lv_no时,融合PLS模型的?其中1彡lv_no彡max_ lv_no,计算的步骤都是2. 2. 1至2. 2. 5 ;
[0009] 2. 2. 1)用&重交叉法计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间 对应的PLS模型的交叉验证误差= ,其中y表示红外光谱样本集数 据中的因变量矩阵的实际值,表示第i个间隔区间对应的潜变量数为lv_no的PLS模型 根据kl重交叉法得到的因变量矩阵的预测值,ei是相应的预测残差矩阵,η是红外光谱样 本集数据的样品数;
[0010] 2. 2. 2)计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应 COvi £;,,£·;;) . 的PLS模型的预测残差矩阵之间的相关性G .................../ = U,…》mt:其中, covk,e } = -<e,,e/),i,j' = 1,2,…,int-腳;
[0011] 2. 2. 3)通过非线性优化的方法计算下式, int nn ini no ini no
[0012] / = min(^ m;S2(e:) + 2j^ ^ /-1 /-I μ-? i
【权利要求】
1. 一种红外光谱数据PLS建模方法,其特征在于,包括以下步骤: 1) 设置最大间隔区间数max_int_no、最大潜变量数max_lv_no、交叉法的重数kjPk2 ; 其中,1^、1^2均不小于2 ; 2) 按照步骤2. 1)和步骤2. 2)计算间隔区间数为int_no时,对应的融合PLS模型的交 叉验证误差,其中1 < int_no < max_int_no : 2. 1)将红外光谱样本集数据中的光谱矩阵X平均分为int_no个间隔区间\ :每个间 的 度 ? 隔区间的列数I = I,□表示取整;第i个间隔区间\对应光谱矩阵X的 _ mt_ no j 第[(i-1) X1+1]?(iXl)列的数据;1 < i < int_no ; 2. 2)按照步骤2. 2. 1)?步骤2. 2. 5)计算潜变量数为lv_no时,融合PLS模型的.¢,=, 其中 1 < lv_no < max_lv_no : 2. 2. 1)用重交叉法计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应 的PLS模型的交叉验证误差= ,其中 Λ y表示红外光谱样本集数据中 " ?. = j-j,-1 的因变量矩阵的实际值,兑表示第i个间隔区间对应的潜变量数为lv_no的PLS模型根据 kl重交叉法得到的因变量矩阵的预测值,^是相应的预测残差矩阵,η是红外光谱样本集 数据的样品数; 2. 2. 2)计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应的 pls模型的预测残差矩阵之间的相关性4 …;其中, cov(e,, e -) = -(e,, e Λ, /, / = 1,2, - ··, int_ no ; n、 · 2. 2. 3)通过非线性优化的方法计算下式: inf ttf% inf ι?η mi mn
得到间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应的PLS模型的组合系数 ω = [ ω " …,ω int-加]': 2. 2. 4)用k2重交叉法计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间对 应的PLS模型的预测残差矩阵化=.1,-九,其中爲,表示第i个间隔区间对应的潜变量数为 lv_no的PLS模型根据k2重交叉法得到的因变量矩阵的预测值,计算; ini no ini no int iut ./:二=Σ (作(?)十2Σ Σ -"以⑷%、,); /~? i~i p>/ 2. 2. 5)选出最小的.I:作为间隔区间数为int_no时的融合PLS模型的交叉验证误 差,记为; 3) 选出所有间隔区间数下最小的i ,w,该最小的尤H"对应的间隔区间数int_bt、潜 变量数lv_bt和组合系数c〇_bt作为最优的模型参数; 4) 根据最优的模型参数构造融合PLS模型:将光谱矩阵X平均分为int_bt个间隔区 间,融合PLS模型如下: int bt 其中,ω_btg是ω _bt的第g个分量,/是融合PLS模型对样品的因变量的预测值;bg、 cg分别是间隔区间Xg和因变量矩阵Y对应潜变量数为lv_bt时的偏最小回归系数和截距; x g是第g个间隔区间对应的红外光谱数据。
【文档编号】G06F19/00GK104091089SQ201410362602
【公开日】2014年10月8日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】陈孝敬 申请人:温州大学