基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法

文档序号:6014954阅读:263来源:国知局
专利名称:基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法
技术领域
本发明涉及一种近红外光谱的特征波长筛选方法,特指用于食品和农产品品质检测的基于遗传核偏最小二乘法的特征波长筛选方法。
背景技术
近红外光谱(OTR,Near Infrared Spectroscopy)分析技术作为一种快速、无损、 准确、多组分同时检测的绿色分析技术,已广泛应用于食品和农产品品质检测中。借助先进的近红外光谱仪器,可以方便地在短时间内获得大量的光谱数据。但由于光谱仪器所采集到的数据除样品自身的信息外,还包含了大量无关和噪音信息,这些信息很难在光谱预处理中全部消除。如果这些数据都参与模型的建立,不但计算量大、模型复杂,且会影响模型的预测精度。另外,由于大多待测样本的待测组分是非常复杂的天然成分,再加上近红外光谱区域的谱带复杂、重叠多,会导致所采集的光谱数据与待测组分浓度实测值之间呈现较为复杂的非线性映射关系。

发明内容
本发明的目的在于针对现有技术的不足,提供一种计算量小、模型简单且预测精度高的基于遗传核偏最小二乘(GA-KPLS, Genetic Algorithm-Kernel Partial Least Squares)法的近红外光谱特征波长筛选方法。所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法的技术方案包括以下步骤
1)利用傅里叶变换近红外光谱仪采集待测样本的光谱,得到待测样本的原始近红外光谱数据,并运用光谱预处理算法对原始近红外光谱数据进行预处理;利用理化分析方法测定所有待测样本的待测组分浓度值,并根据待测组分浓度值划分样本的校正集和预测集,
2)利用遗传算法(GA,GeneticAlgorithm)对预处理后的校正集光谱数据点进行全局搜索,依据核偏最小二乘(KPLS,Kernel Partial Least Squares)法交互验证过程中最小的交互验证均方根误差(RMSECV, Root Mean Square Error of Cross-Validation)值确定出最终参与建模的特征变量数,并将筛选出来的特征变量重新组成新的数据矩阵,作为KPLS模型的输入;
3)将测得的校正集样本待测组分浓度矩阵作为KPLS模型的标准输出,建立最佳 GA-KPLS校正分析模型;并利用该模型对预测集样本待测组分浓度值进行预测。由于本发明采用以上技术方案,得到的有益效果是本发明在建模之前通过引入遗传算法,利用GA具有全局快速搜索的特点,并将GA和KPLS方法进行结合,发挥各自的优势,以建立预测性能高、泛化能力强的更加稳定、简便的校正分析模型。该方法通过筛选特征波长减少建模运算时间,剔除大量噪声和冗余变量,使最终建立的农产品和食品品质检测近红外光谱模型的预测性能和精度更高。


图1为本发明方法的流程示意图; 图2为梨样本的原始光谱图3为RMSECV值随建模所用变量数增加而变化的趋势图4为梨的可溶性固形物含量SSC的GA-KPLS模型校正集和预测集样本的实测值与近红外光谱NIR预测值之间的散点图。
具体实施例方式参见图1,本发明按如下步骤实现
1)利用傅里叶变换近红外光谱仪采集所有待测样本的近红外光谱数据,得到待测样本的原始近红外光谱数据,并对光谱数据进行预处理,以消除光谱偏移或基线变化等因素对所建模型性能的影响,保证光谱数据和待测样品品质指标之间有较好的相关性。目前常用的光谱预处理方法有标准正态变量变换、均值中心化、一阶导数和二阶导数等。然后,利用理化分析方法测定所有待测样本的待测组分浓度值,并根据待测组分浓度值,对经过预处理后的原始近红外光谱数据合理地划分样本的校正集和预测集,确保预测集样本的待测组分浓度值尽量落在校正集样本的范围内,且校正集和预测集样本的统计分布尽可能的一致,即两个样本集的均值和方差基本相同,以提高校正模型对预测集样本预测结果的可信程度。2)利用遗传算法(GA)对预处理后的校正集光谱数据点进行全局搜索时,首先将核偏最小二乘(KPLS)方法交互验证过程中的最小的交互验证均方根误差(RMSECV)作为遗传算法的适应度函数;然后运用遗传算法进行KPLS模型建立过程中的特征波长的筛选。本发明是以遗传迭代次数达到初始设定值为收敛终止条件,迭代终止后,所有特征变量按选用频数的高低重新排列,再逐一加入到KPLS模型中,以建模所选用的特征变量数与RMSECV 值作图,依据最小的RMSECV值确定出最终参与建模的特征变量数,并将筛选出来的参与最终模型建立的特征变量重新组成新的数据矩阵,作为KPLS模型的输入,用KPLS算法来建立最终的非线性校正分析模型。上述利用GA来筛选KPLS非线性模型建立所需的最佳特征波长,在利用GA来选择最佳特征波长前先需确定如下参数
ι遗传编码对采集的近红外光谱数据的所有波长进行编码,即把每一个波长作为一个基因,然后对每一个基因(波长)进行0/1 二进制编码。②群体初始化群体的大小即个体(染色体)的数目是根据波长(基因)的多少来选定,一般为30 100,限定条件为个体选定的最大变量数目。③适应度函数在特征变量筛选过程中,对模型的预测能力常采用交互验证法来评价。因此,本发明采用交互验证过程中的RMSECV作为适应度函数,定义为1/(1+题5£^7)。Φ遗传操作选择的目的是把优胜的个体直接遗传到下一代或通过交叉或变异产生新的个体在遗传到下一代,本发明选用适应度比例方法,即每个个体的选择概率与其适应度成比例;交叉是GA中最主要的算子,寻优的搜索过程主要是通过它来实现,取值范围通常为0. 5 0. 99 ;变异算子的目的是为了保持群体的多样性,防止出现未成熟收敛现象,取值范围一般为0.01 0. 1。⑤收敛判据以遗传迭代次数为收敛终止的条件,取值范围一般为100 1000。上述利用KPLS算法来建立最终的非线性校正分析模型,在KPLS模型建立前先需确定的参数如下
①核函数一般选用径向基核函数(RBF,Radial Basis Function)。②核参数核参数c通常根据公式c二rm σ 2进行选择,其中r是由所预测的变量
过程决定的常数,m是输入变量的数据维数,σ 2为数据的方差,核参数c 一般取值范围为 0. 01 6。3)将测得的校正集样本待测组分浓度矩阵作为KPLS模型的标准输出,并利用 KPLS算法来对重组后的特征变量进行校正分析模型的建立,KPLS的应用能够解决待测样本的某些待测组分和近红外光谱数据之间的非线性关系,且此时所获得的校正分析模型即为全局最佳模型。通过运用本发明的方法来建立模型,可以较好地解决模型输入与输出之间存在的非线性映射关系,并通过剔除大量不相关和冗余变量,以得到预测能力强、稳健性好的非线性校正分析模型。最后利用建立的最优GA-KPLS模型来对预测集样本待测组分浓度值进行预测,该模型的输出即为预测集样本OTR光谱所对应的待测组分浓度的预测值。 对于最终建立的校正分析模型,以预测集的实测组分浓度值和近红外光谱预测值的相关系数a, Correlation Coefficient)和预测均方根误差(RMSEP, Root Mean Square Error of Prediction)作为最终模型评价的有效指标。以下以梨为例,提供本发明的一个实施例
图ι所示为本发明处理过程的示意图,图2所示为所采集的90个梨样本原始近红外光谱图,光谱波数范围为9999. 10^3999. 64cm 1,扫描次数为16次,分辨率为ScnT1,每条光谱包括1557个数据点。在校正集和预测集样本的划分过程中,首先将所有样本按照待测组分浓度值的大小从大到小排列,每3个样本中选取2个进入校正集,1个进入预测集。这样做的目的是为了确保预测集样本的待测组分浓度值尽量落在校正集样本的范围内,且校正集和预测集样本的统计分布尽可能的一致(即两个样本集的均值和方差基本相同),以提高校正模型对预测集样本预测结果的可信程度。最终,校正集包含60个梨的近红外光谱数据,预测集包含30个梨的近红外光谱数据。利用GA对校正集中光谱数据点进行全局搜索。初始群体大小设置为30,交叉概率&=0.5,变异概率&=0. 01,遗传迭代次数设置为100。迭代终止后,将按选用频数重新排列的变量依据频数的高低顺序逐一加入KPLS校正模型中,其中,KPLS模型的核函数选用径向基核函数,其中核参数c在模型建立过程中通过优化最终取0.6;再由选用的变量数与 RMSECV值作图确定出模型最佳变量数,以得到最终参与建模的变量。图3所示为梨的可溶性固形物含量(Soluble Solid Content, SSC)的GA-KPLS模型建立过程中RMSECV值随建模所用变量数的增加而变化的趋势图。由图3可以看出,在GA优化参与KPLS建模变量个数过程中,当入选的变量个数为 39时,可获得最低的RMSECV值,为0. 2265,将所选用的变量重新组成新的数据矩阵,再次运用KPLS建立梨的SSC的校正分析模型,此时所获得的校正分析模型即为全局最佳模型。最终建立梨的SSC的GA-KPLS校正模型主成份因子数为12个,参与建模的变量数为39个,其校正集(Re)和预测集(Rp)相关系数分别为0. 9632和0. 9549,RMSECV和REMSP分别为 0. 2570和0. 3044,此模型校正集和预测集各样本实测值和NIR预测值之间的散点图如图4 所示,从图中可以看出,无论在校正集还是预测集,OTR预测值和实测参考值之间都有很好的相关性。
权利要求
1.一种基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法,其特征在于,包括以下步骤1)采集所有待测样本的近红外光谱数据,并对光谱数据进行预处理;然后利用理化分析方法测定所有待测样本的待测组分浓度值,并根据待测组分浓度值划分样本的校正集和预测集;2)利用遗传算法GA对预处理后的校正集光谱数据点进行全局搜索,依据核偏最小二乘法KPLS交互验证过程中最小的交互验证均方根误差RMSECV值确定出最终参与建模的特征变量数,并将遗传算法GA筛选出来的特征变量重新组成新的数据矩阵,作为KPLS模型的输入;3)将测得的校正集样本待测组分浓度矩阵作为KPLS模型的标准输出,建立最佳 GA-KPLS校正分析模型,并利用该模型对预测集样本待测组分浓度值进行预测。
2.根据权利要求1所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征是,步骤幻中,采用遗传算法GA来筛选建模所需的特征变量前需确定如下参数遗传编码将每一个波长作为一个基因,对每一个基因进行0/1 二进制编码;群体初始化群体的大小是30 100 ;适应度函数交互验证过程中的RMSECV作为适应度函数为1/ (1+RMSECV);遗传操作每个个体的选择概率与其适应度成比例,交叉算子取值为0. 5 0. 99,变异算子取值为0.01 0. 1 ;收敛判据遗传迭代次数取值范围为100 1000。
3.根据权利要求1所述的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法, 其特征是,步骤幻中核偏最小二乘算法KPLS执行前需确定的参数如下核函数选用径向基核函数;核参数根据公式c二rm σ 2选择核参数c,其中r是由所预测的变量过程决定的常数, 是输入变量的数据维数,σ 2为数据的方差,核参数c取值范围为0. 01 6。
全文摘要
本发明公开一种用于食品和农产品品质检测的基于遗传核偏最小二乘法的近红外光谱特征波长筛选方法,利用理化分析方法测定所有待测样本的待测组分浓度值后划分样本的校正集和预测集;利用遗传算法对预处理后的校正集光谱数据点进行全局搜索,依据核偏最小二乘法交互验证过程中最小的交互验证均方根误差值确定出最终参与建模的特征变量数,并将遗传算法筛选出来的特征变量重新组成新的数据矩阵作为模型的输入;将测得的校正集样本待测组分浓度矩阵作为模型的标准输出,建立最佳校正分析模型,利用该模型对预测集样本待测组分浓度值进行预测;通过筛选特征波长减少建模运算时间,剔除大量噪声和冗余变量,使最终建立的模型预测性能和精度更高。
文档编号G01N21/35GK102305772SQ201110215259
公开日2012年1月4日 申请日期2011年7月29日 优先权日2011年7月29日
发明者朱伟兴, 李新城, 江辉 申请人:江苏大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1