一种基于lasso的近红外光谱变量选择方法_2

文档序号:9451023阅读:来源:国知局
明做进一步地详细说明,但是本发明 要求保护的范围并不局限于实施例表示的范围。
[0041] 实施例1 :
[0042] 本实施例是应用于近红外光谱分析,对烟草样本中的还原糖含量值进行测定。具 体的步骤如下:
[0043] (1)采集烟叶样本的近红外光谱数据,使用Bruker Vector 22/N近红外光谱仪 (德国Bruker光学仪器公司)测试了不同烟叶产区的269个烟叶薄片样本。NIR光谱波数 范围为4000~9000cm \采样间隔为4个波数,共1296个波长点,样品的近红外光谱图如 图1所示。烟草样品中还原糖(Reducing Sugar)含量采用AAIII型连续流动分析仪(德 国Bran Luebbe公司)按照标准方法测定。在建模前把烟叶样本随机分成两部分,包括训 练集和预测集样本,其中训练集样本用来建立模型、预测集样本用来检验模型的预测能力。
[0044] (2)采用交叉验证确定LASSO的约束值t。t控制着压缩的程度,t越小,压缩的程 度越强,这个限制条件使得向量e的某些分量变成0,从而达到了变量选择的目的。本实施 例训练集进行1000次交叉验证的残差平方和(SSR)平均值以及方差随着归一化的约束值 t的变化如图2所示,其中竖线代表最优模型对应的t值,为0. 103。
[0045] (3)求解LASSO的回归系数。利用最小角回归算法求解LASSO的回归系数0, 保存回归系数不为0的波长点位置。
[0046]
[0047] 该实施例进行LASSO变量选择后所有变量对应的回归系数0值如图3所示。
[0048] (4)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱 矩阵。光谱矩阵与训练集样本被测成分浓度向量建立偏最小二乘回归(PLS)模型,其中PLS 模型的因子数通过蒙特卡罗交叉验证结合F检验确定。利用这个模型,测定预测集样本被 测成分的浓度含量。该实施例确定的因子数为8。
[0049] UVE、MCUVE、RT、LASS0四种变量选择方法保留变量的分布图如图4所示。从图4 可以看出,一方面,LASS0与其它三种方法选择的变量范围大致相同,这说明了 LASS0方法 选择变量的合理性。另一方面,LASS0选择的变量数比其它三种变量选择方法更少,这体现 了该方法的优越性。
[0050] 为了进一步比较四种变量选择的效果,表1给出了烟草近红外数据不采用变量选 择以及采用变量选择后建立PLS模型的建模效果。由表中数据可知,LASS0选择变量仅27 个,是其它三种变量选择方法的近十分之一。计算时间11. 89,虽然比不进行变量选择的 PLS要慢,但是明显快于其它变量选择方法。LASS0-PLS建模得到的RMSEP值最小,R值最 大,说明该方法更能提高模型的预测精度。因此,LASS0-PLS与其它建模方法相比较选择变 量数少,计算时间更短,预测精度更高。
[0051] 表1烟草近红外数据不同建模方法的结果比较
[0052]
[0053] 实施例2 :
[0054] 本实施例是应用于近红外光谱分析,对香油与大豆油、稻米油三元掺混的近红外 光谱数据进行测定。具体的步骤如下:
[0055] (1)采集香油与大豆油、稻米油三元掺混样本的NIR光谱数据,使用近红外分光光 度计(TJ270-60,天津市拓普仪器有限公司)进行近红外光谱数据测量,波长范围为800~ 2500nm,采样间隔为lnm,共1701个波长点。样品的近红外光谱图如图5所示。样品按一定 比例配置(大豆油质量0. 05~2. 5,间隔0. 05 ;稻米油浓度0. 05~2. 5,间隔0. 05)。在建 模前把样本随机分成两部分,包括训练集和预测集样本,其中训练集样本用来建立模型、预 测集样本用来检验模型的预测能力。
[0056] (2)采用交叉验证确定LASSO的约束值t。t控制着压缩的程度,t越小,压缩的程 度越强,这个限制条件使得向量e的某些分量变成0,从而达到了变量选择的目的。该实施 例训练集进行1000次交叉验证的残差平方和(SSR)平均值以及方差随着归一化的约束值 t的变化图如图6所示,其中竖线代表最优模型对应的t值为0. 254。
[0057] (3)求解LASSO的回归系数。利用最小角回归算法求解LASSO的回归系数0, 保存回归系数不为0的波长点位置。
[0058]
[0059] 该实施例训练集进行LASSO变量选择后所有变量对应的回归系数0值如图7所 不。
[0060] (4)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱 矩阵。光谱矩阵与训练集样本被测成分浓度向量建立偏最小二乘回归(PLS)模型,其中PLS 模型的因子数通过蒙特卡罗交叉验证结合F检验确定。利用这个模型,测定预测集样本被 测成分的浓度含量。该实施例确定的因子数为8。
[0061] UVE、MCUVE、RT、LASSO四种变量选择方法保留变量的分布图如图8所示。从图8 可以看出,LASS0与其它三种方法选择的变量范围大致相同,这说明了 LASS0方法选择变量 的合理性。另一方面,LASS0选择的变量数比其它三种变量选择方法更少,这体现了该方法 的优越性。
[0062] 为了进一步比较四种变量选择的效果,表2给出了香油与大豆油、稻米油三元掺 混近红外光谱数据不采用变量选择以及采用变量选择后建立PLS模型的建模效果。由表 中数据可知,LASSO选择变量仅11个,远远少于其他变量选择方法选择的变量。计算时间 2. 48秒,明显快于其它变量选择方法。LASS0-PLS建模得到的RMSEP值最小,R值最大。因 此,LASS0-PLS与其它建模方法相比较选择变量数少,计算时间更短,预测精度更高。
[0063] 表2植物油NIR数据不同建模方法的结果比较
[0064]
【主权项】
1. 一种基于LASSO的近红外光谱变量选择方法,其特征在于包含W下步骤: 1) 采集被测物样本的近红外光谱数据,用常规方法测定训练集中样本的被测成分浓度 含量,采用一定分组方式将数据分为训练集和预测集; 2) 确定LASSO的约束值t.; 3) 利用最小角回归算法求解LASSO的回归系数0 ; 4) 将训练集光谱矩阵回归系数0不为0的波长列与浓度向量建立偏最小二乘回归 (化巧模型,利用运个模型,预测未知样本成分的含量。2. 根据权利要求1所述的一种基于LASSO的近红外光谱变量选择方法,其特征在于: 所述的利用最小角回归算法求解LASSO的回归系数0的具体过程为: ① 更新模型入选变量集(activeset),计算相关系数绝对值更新activesetA(k)② 确定最小角方向(Uk) 令Xk= (. . .SjXj. . . )jEA(k) 其中s,=喊"{a,}嗎二义)-il*,A =姐(而义r'U-OS Ik是所有分量为1的向量,其长度等于IAl计算最小角方向:Uk=Xk?k ③ 计算步长 当j 4 A(k),令Qk,二X% 若|A|二山则;算法终止 否则八=min:e刷杉广叫/(A-~),& +Cb)/(A+?)} ④ 预测响应 '英啼Y,二-pJis/Okihy、=。 Ii~八八八 ~ 若n<n,则於二乂M+n"* 当j E A化若,<-式+尸嘴V否则y^ =〇//(A: +1)=犀)-W,其中' / = arg minW 心+1,=:?:''〇;-心),并且台+1=?1严。+〇},返回执行步骤(1) 否则y* =>Vi+r*的 当j G A化若, <-若, + "bV否则=0返回执行步骤①。3. 根据权利要求I所述的一种基于LASSO的近红外光谱变量选择方法,其特征在于: 所述的LASSO的约束值t.的确定方法为交叉验证,t控制着压缩的程度,t越小,压缩的程 度越强,运个限制条件使得向量0的某些分量变成0,从而达到了变量选择的目的。4. 根据权利要求1所述的一种基于LASSO的近红外光谱变量选择方法,其特征在于: 所述的PLS模型的因子数确定方法为蒙特卡罗交叉验证结合F检验。
【专利摘要】一种基于LASSO的近红外光谱变量选择方法,具体过程如下:采集样本的近红外光谱,用常规方法测定被测成分浓度向量;采用一定的分组方式将数据集分成训练集和预测集;采用交叉验证确定LASSO方法的约束值t;利用最小角回归算法计算回归系数β,保留β不为0的波长点的位置;利用保留的波长对应的训练集光谱与浓度向量间建立偏最小二乘回归模型,对预测集样本被测成分浓度进行预测。该方法能提取出有效波长,简化了定量分析模型,提高了模型的预测精度。与已有变量选择方法相比,具有快速、可重复、用更少的变量数达到更高预测精度的优势。本发明适用于复杂样品近红外光谱的变量选择。
【IPC分类】G01N21/359
【公开号】CN105203498
【申请号】CN201510581659
【发明人】卞希慧, 颜鼎荷, 李淑娟, 谭小耀, 李翔
【申请人】天津工业大学
【公开日】2015年12月30日
【申请日】2015年9月11日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1