一种基于lasso的近红外光谱变量选择方法

文档序号：9451023阅读：605来源：国知局

一种基于lasso的近红外光谱变量选择方法
【技术领域】
[0001] 本方法发明属于分析化学领域的无损分析技术领域，具体涉及一种基于LASSO的近红外光谱变量选择方法。
【背景技术】
[0002] 近红外光谱分析技术是分析化学领域里高速发展的技术，它具有分析效率高、检测速度快、无需样品预处理等优点，已广泛的应用于食品、石油等行业。在近红外光谱和被测物质的含量或类别之间建立模型，可以实现复杂物质的直接定性定量分析。近红外光谱建模中非常重要的一个问题就是光谱中存在冗余波长。一般的近红外光谱（NIR)包含成百上千的波长变量点，而其中一些波长与研究的性质是不相关的，这些不相关波长点，会影响模型质量，导致其预测能力下降。因此变量选择一直是光谱建模分析的重要内容。
[0003] 光谱数据分析中常用的变量选择方法主要包括基于智能优化算法的方法以及基于统计学的方法。前者主要有模拟退火（simulated annealing，SA，参见Swierenga H， de Groot P J? de ffeijer A P? Derksen MWJ? Buydens LMC? Improvement of PLS model transferability by robust wavelength selection， Chemom Intell Lab Syst，1998， 41，237-248)、遗传算法（genetic algorithm，GA，参见 Leardi R，Gonzalez AL，Genetic algorithms applied to feature selection in PLS regression ：how and when to use them，Chemom Intell Lab 378七，1998,41，195_207)、禁忌搜索（丁&131186&1'。11，丁3，参见 Hageman JA，Streppel M? ffehrens R? Wavelength selection with Tabu Search， J Chemometrics，2003,17,427-437)、蚁群算法（ant colony optimization，AC0，参见 Shamsipur M，Zare-Shahabadi V，Hemmateenejad B，Akhond M，Ant colony optimization ： a powerful tool for wavelength selection，J Chemometrics，2006, 20,146-157)、粒子群算法（particle swarm optimization，PS0,参见Xu L，Jiang JH，Wu HL，Shen GL，Yu RQ， Variable-weighted PLS，Chemom Intell Lab Syst，2007,85,140-143)等，这些最优化的方法存在需要大量的参数、搜索时间较长以及容易陷入局部最优等缺陷。后者主要有无信息变量消除方法（Uninformative Variable Elimination，UVE，参见 Centner V，Massart D L，de Noord 0 E，Jong S，Vandeginste BM，Sterna C，Elimination of uninformative variables for multivariate calibration. Anal Chem，1996,68, 3851-3858)、蒙特卡洛结合无信息变量消除方法（Monte Carlo Uninformative Variable Elimination，MCUVE，参见 Cai WS? Li YK，Shao XG，A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra， Chemom Intell Lab Syst，2008,90，188_194)、基于随机检验的变量筛选方法 (Randomization Test，RT，参见 Xu H，Liu ZC，Cai WS，Shao X G，A wavelength selection method based on randomization test for near-infrared spectral analysis. Chemom Intell Lab Syst，2009,97，189-193)等。UVE方法采用了留一法交叉验证来获取变量稳定性值，该过程需要多次反复的运算，而且还需要引入与原始光谱所包含变量数目相等的随机噪声变量，所以当数据集数目较大时，该方法计算效率低，耗时较长。MCUVE算法和RT方法都引入多次建模技术，产生的多个模型往往比单一模型更能有效地从数据的不同方面和不同层面抽取并表达自变量和因变量之间的复杂关系，有利于更合理、可靠地选择变量。但由于每次建模样本的随机选择，使得这两种方法的运算结果存在一定的不稳定性，而且在数据量较大时也比较费时。因此，有必要进一步发展新型快速的变量选择方法，提高模型的稳定性与预测精度。

【发明内容】

[0004] 本发明的目的是针对上述存在问题，提供一种快速、稳定的变量选择方法。该方法在一个回归系数的绝对值之和小于一个常数的条件下，使残差平方和最小化，从而较严格地使某些回归系数变为零，相应的变量被删除，实现变量选择。
[0005] 具体步骤如下：
[0006] (1)收集m个待测样本。设定光谱参数，采集样本的近红外光谱，得到样本的光谱矩阵X。用常规方法测定样本的被测组分含量，得到浓度向量y。采用一定分组方式将数据分为训练集和预测集，其中训练集样本用来建立模型并优化参数，预测集样本用来检验模型的预测能力。
[0007] (2)采用交叉验证确定LASSO的约束值t。t控制着压缩的程度，t越小，压缩的程度越强，由于这个限制条件，最后结果会使得回归系数0的某些分量变成0,达到了变量选择的目的。
[0008](3)利用最小角回归算法求解LASSO的回归系数0，保存回归系数不为0的波长点位置-
[0009]
[0010] 最小角回归算法过程如下：
[0011]①更新模型入选变量集（active set)，计算相关系数绝对值
[0012]
[0013] 更新 active setA (k)，
[0014]
[0015] ②确定最小角方向（uk)
[0016] 令 Xk= (...sa…）』EA(k)
[0017] 其中，
[0018] lk是所有分量为1的向量，其长度等于|A|。计算最小角方向：uk= xk?k③计算步长
[0019]当j*A(k)，令
[0020] 若|A| = d，则乂 =：&/為，算法终止。
[0021]
[0022]
[0023]
[0024]
[0025]
[0026]
[0027]
[0028]
[0029] 当j G A时，&e，否则〇返回执行步骤①。
[0030] (4)根据保留的波长点位置，仅保留训练集光谱矩阵相应的波长列，得到新的光谱矩阵，并且与训练集样本被测成分浓度向量建立偏最小二乘回归（PLS)模型。其中PLS模型的因子数通过蒙特卡罗交叉验证结合F检验确定。利用这个模型，测定预测集样本被测成分的浓度含量。
[0031] 与现有变量选择方法相比，本发明具有运行速度快、选择变量具有可重复性的优点，而且能用更少的变量数达到更好的预测结果。
【附图说明】
[0032] 图1 :烟草样本的近红外光谱图
[0033] 图2 :烟草近红外光谱数据训练集进行1000次交叉验证的残差平方和（SSR)平均值以及方差随着归一化的约束值t的变化图，其中竖线代表最优模型对应的t值
[0034] 图3 :烟草近红外光谱数据训练集进行LASSO变量选择后所有变量对应的回归系数0
[0035] 图4 :UVE、MCUVE、RT、LASSO四种变量选择方法保留变量的分布图
[0036] 图5 :香油与大豆油、稻米油三元掺混样本的近红外光谱图
[0037] 图6 :香油与大豆油、稻米油三元掺混样本的光谱数据训练集进行1000次交叉验证的残差平方和（SSR)平均值以及方差随着归一化的约束值t的变化图，其中竖线代表最优模型对应的t值
[0038] 图7 :香油与大豆油、稻米油三元掺混样本光谱数据训练集进行LASSO变量选择后所有变量对应的回归系数0
[0039] 图8 :UVE、MCUVE、RT、LASSO四种变量选择方法保留变量的分布图
【具体实施方式】
[0040] 为更好理解本发明，下面结合实施例对本发

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卞希慧;颜鼎荷;李淑娟;谭小耀;李翔;
技术所有人：天津工业大学;
我是此专利的发明人

上一篇：气体成分在线实时监测的装置及方法
上一篇：一种由近红外光谱预测脱硫胺液中硫化氢含量的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。