基于集成l1正则化的红外光谱波长选择方法

文档序号:9614876阅读:1153来源:国知局
基于集成l1正则化的红外光谱波长选择方法
【技术领域】
[0001] 本发明涉及红外光谱技术领域,更具体而言,涉及一种基于集成L1正则化的红外 光谱波长选择方法,是一种利用集成学习思想的红外光谱波长选择方法。
【背景技术】
[0002] 红外光谱分析是一种新兴的分析技术,由于它具有快速、无损和无污染等优点,在 农业、化工和环境监测等领域有着广泛的应用。但是,红外光谱通常具有波长点多、吸收峰 重叠、波长点之间存在严重的共线性关系等特点,给后续的定性与定量分析造成困难。因 此,研究波长选择方法,对于简化模型、提高模型的预测能力和鲁棒性具有重要的实际意 义。
[0003]传统的波长选择方法包括前向选择法、群优化算法、区间偏最小二乘法、无信息变 量消除法等。前向选择法通过逐步回归,每次选择一个相关程度最高的波长,但是没有考虑 波长点间的共线性问题;群优化算法(遗传算法、蝙蝠算法等),通过特定的优化策略对目 标函数进行优化,从而实现波长的选择,但是普遍存在计算量大、鲁棒性弱等缺点;区间偏 最小二乘法通过将整个波长范围划分成若干个子区间,然后选择泛化性能最好的若干个子 区间,但是子区间的个数设置对结果的影响较大,且计算量较大;无信息变量消除法通过加 入一些人工随机变量,剔除稳定性低于随机变量的波长点,从而达到波长选择的目的,但是 选择出的波长点个数依然很多,模型复杂度较高。
[0004]然而,上述方法均未对波长选择方法的稳定性进行分析,即当数据集发生变化时, 波长选择的结果也不尽相同,从而导致对筛选出的特征波长解释性变差。文献[高维小样 本数据的特征选择研究及稳定性分析,2014,厦门大学硕士学位论文.]将随机森林思想引 入到特征选择研究中,并提出了随机集成特征选择方法,显著提升了特征选择算法的稳定 性。然而,该方法并没有考虑到红外光谱数据的共线性和稀疏性等特点,直接应用该方法的 效果不佳。

【发明内容】

[0005]针对现有的红外光谱波长选择方法普遍存在的稳定性较差的问题,提出一种新型 的集成波长选择方法,该方法首先对原始数据集利用Bootstrap抽样方法生成若干个子数 据集,然后利用无信息变量消除法(UninformativeVariableElimination,UVE)对每个子 数据集进行预处理,接着采用L1正则化方法对每个子数据集进行特征选择,最后对各个子 数据集的波长选择结果进行集成。
[0006]为了解决上述技术问题,本发明所采用的技术方案为:
[0007]基于集成L1正则化的红外光谱波长选择方法,首先利用Bootstrap抽样方法生成 若干个子数据集,其次针对每个子数据集采用无信息变量消除法进行预处理,然后利用L1 正则化方法对每个子数据集进行特征选择,将特征选择问题转换为稀疏优化问题并进行计 算,最后采用投票法对各个子数据集的波长选择结果进行集成,从而筛选出最佳的特征波 长组合。
[0008] 具体步骤为:
[0009] 步骤1、利用Bootstrap抽样方法对原始数据集进行有放回地重采样,从而生成Μ 个子数据集Si,s2,…,SM;
[0010] 步骤2、针对每个子数据集,利用无信息变量消除法对光谱进行预处理,从而剔除 其中贡献在噪声水平的波长点;
[0011] 步骤3、针对每个子数据集,利用L1正则化方法,对经过无信息变量消除法预处理 后的波长点进行特征选择,即将波长筛选问题转化为以下1:范数稀疏优化问题计算稀疏解 结果:
[0012]
[0013] 其中,为利用光谱仪扫描出的红外光谱信号;为对应的待分析 组分含量;b为经过无信息变量消除法预处理后的波长点回归系数;II为L1正则化算法中 控制稀疏度的参数;?为计算出的最优解;
[0014] 步骤4、采用投票法对Μ个子数据集Si,S2,…,SM的波长选择结果进行集成,从而筛 选出最佳的特征波长组合。
[0015] 所述步骤2中无信息变量消除法对光谱进行预处理具体为:
[0016] (1)产生一个与原光谱矩阵维度相同的随机噪声变量矩阵,并与原光谱矩阵合并 在一起,形成一个扩展矩阵X€ :
[0017] (2)采用交叉验证PLS方法建立待分析组分含量Y与光谱信号i之间的回归模 型:
[0018] y= …+bpxp+bp+1xp+1+. · · +b2px2p
[0019] (3)根据下式计算各个变量对待分析组分含量Y的贡献值:
[0020]
[0021] 上式中,mean(bj和stcKbj)分别表示第j个变量的回归系数的均值和标准差,可 以看出,S]越大,表明第j个变量的回归系数的稳定性越高,意味着对待分析组分含量Y的 贡献值越重要,当s/j、于一定的阈值时,可以认为对应的变量贡献很少,即称为"无信息变 量",可以删除;
[0022] (4)通过下式中给出的阈值,对所有的回归系数进行处理,将其中小于阈值的变量 删除:
[0023]cutoff=kXmax(abs(snoise))
[0024] 其中,k为需要调整的参数。
[0025] 所述步骤3中计算的稀疏解结果需要转换为二进制序列方式,即一个长度为P的 二进制序列,其中1表示对应的波长点被选中,〇表示未被选中。
[0026] 与现有技术相比本发明所具有的有益效果为:
[0027]本发明为了提升红外光谱波长选择的稳定性,引入集成学习思想,并利用无信息 变量消除法对光谱数据进行预处理,同时采用L1正则化方法进行特征选择,与现有方法相 比,该方法具备可调参数少、稳定性强等优点,从而可以大大提升特征选择结果的稳定性, 可以广泛应用于固相、液相和气相的红外光谱波长选择领域中。
【附图说明】
[0028] 下面通过附图对本发明的【具体实施方式】作进一步详细的说明。
[0029] 图1为本发明的系统框图;
[0030] 图2为60个汽油样品的近红外光谱图;
[0031] 图3为无信息变量消除法波长筛选过程图;
[0032] 图4为无信息变量消除法波长筛选结果图;
[0033] 图5为本发明的波长选择结果图。
【具体实施方式】
[0034] 下面实施例结合附图对本发明作进一步的描述。
[0035] 如图1所示,为本发明基于集成L1正则化的红外光谱波长选择方法系统框图。
[0036] 假设有N个样品,利用光谱仪扫描出的红外光谱信号为Χ£Κ·νχΡ,对应的待分析 组分含量为YeJP/x1。其中,Ρ为红外光谱的波长点数,一般情况下Ν<<Ρ。
[0037] 由化学计量学原理可得,待分析组分的含量预测模型可以表示为
[0038] Y=Xb+ε (1)
[0039] 其中,15€狀~为待拟合的回归系数;为噪声误差。
[0040] 首先,利用Bootstrap抽样方法对原始数据集进行有放回地重采样,从而生成Μ个 子数据集Si,S2,…,SM,每个子数据集中仍然包含Ν个样品。那么,由概率论可知,新生成的 子数据集中不包含某个样本的概率为
[0041 ]
[0042]
[0043]
[0044]即虽然新生成的子数据集的样本总数与原始数据集相等(都为N),但是子数据集 中可能包含了重复的样本(有放回抽取),若除去重复的样本,每个子数据集中仅包含了原 始数据集中约1-0. 368X100%= 63. 2 %的样本。
[0045] 因此,相较于仅依赖一个原始数据集,通过产生Μ个子数据集Si,S2,…,SM,可以有 效保证特征选择的稳定性。
[0046] 其次,针对每个子数据集,利用无信息变量消除法(UninformativeVariab
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1