基于间隔偏最小二乘法的农产品、食品近红外光谱谱区选择方法

文档序号:6532763阅读:128来源:国知局
专利名称:基于间隔偏最小二乘法的农产品、食品近红外光谱谱区选择方法
技术领域
本发明涉及利用近红外光谱分析农产品品质食品的方法,特指基于间隔偏最小二乘法的农产品、食品近红外光谱谱区选择方法。
背景技术
随着近红外光谱技术和化学计量方法的发展,近红外光谱技术应用到农产品品质、食品分析中越来越广泛,近红外光谱分析技术以其高速、精确,以及测量信号数字化和分析过程绿色化等特点使其成为上世纪九十年代以来发展最快、最引人注目的光谱分析技术。
近红外光谱分析的应用基础理论是朗伯-比尔定律。事实上朗伯-比尔定律适用的条件是纯的元素或化合物,而农产品、食品这样的多组分物质的近红外光谱吸收主要是分子的倍频吸收和合频吸收,吸收光谱中包含了十分丰富的多组分物质的信息,由于多组分的相互干扰合光谱检测中的随机误差都会严重影响分析检测精度,因此简单地使用朗伯-比尔定律会产生很大的误差,难以取得理想的效果。所以在近红外光谱区选取信息的方法一直是制约近红外光谱分析技术的主要原因之一。
大多数农产品、食品的近红外光谱的分析的总体走势比较平缓,波峰和波谷没有剧烈的起伏。单一波长下获得的光谱数据很难获得准确的分析模型,现代近红外光谱数据的分析都是在多波长下进行的。图示法和专家经验选取波峰、波谷和组分特征波长建立模型几乎是不可能的。现有的多元校正技术如主成分回归(principalcomponentre-gression,简称PCR)或偏最小二乘法(partialleastsquares,简称PLS)对农产品、食品近红外光谱数据建立光谱预测模型时,需要确定特定组分的特征波长谱区,减小建模和预测运算时间,以及剔除噪声污染过大的谱区等,都要面临选择合适的光谱谱区的问题。

发明内容
为克服上述技术的不足,本发明的目的是提供一种基于间隔偏最小二乘法的农产品近红外光谱谱区选择方法。
所述的基于间隔偏最小二乘法的农产品近红外光谱谱区选择方法包括如下处理对去噪后的近红外光谱,选取合适的特征光谱谱区的宽度,把所得的整个近红外光谱分成若干个区间;然后对每个区间分别进行PLS处理;通过比较正交检验均方根误差RMSECV和预测集均方根误差RMSEP(Root Mean Square Error of Cross Validation/Prediction)得到每个区间的最佳PLS模型;同样通过比较每个区间的最佳的PLS模型的RMSECV和RMSEP选取特征谱区区间。最后对所选取的特征波长区间进行PLS分析建立模型。
所述的去噪后近红外光谱是指通过对原始光谱进行适当的预处理减少或消除各种光谱对光谱产生影响的因素,净化后的光谱,并且该光谱包括一个校正集和一个预测集。
所述的合适特征光谱谱区宽度的选取方法有随机选取法、等分法和移动窗口法。
所述的随机选取法,是根据经验在整个光谱上随机取n个点,将光谱分成n+1个区间,各区间内的光谱点个数不一定相等。
所述的等分法,是将整个光谱等分为n个区间,每个区间内的光谱数据点个数相等。
所述的移动窗口法包括以下步骤(1)选取一个起始的窗口宽度,通常为30~50个光谱数据的宽度;(2)在光谱轴上以步长为一个光谱数据点地移动该窗口,每次截取窗口宽度的光谱数据;(3)对每个截取窗口内的数据进行PLS处理,并将每个窗口最佳PLS模型的正交检验均方根误差RMSECV和预测集均方根误差RMSEP保存下来。
(4)然后让窗口宽度增加10个光谱数据,重复(2)、(3)步,直到RMSEP明显随窗口增大而最大时停止;(5)比较所有的RMSECV和RMSEP,当RMSECV和RMSEP同时达到最小时的窗口宽度和光谱数据保存下来,此时的窗口宽度即为最终光谱谱区宽度,此时的光谱数据区间为最佳特征区间。
所述的选取特征谱区区间可以不止一个,当上面所述的最佳特征区间所建立的PLS模型精度不够高时,可以选取多个特征区间。
所述的多个特征区间的选取包括以下步骤(1)在最佳特征区间的两边,以上述最终光谱谱区宽度的窗口将整个光谱分成若干个区间;(2)对每个区间内的数据进行PLS建模,计算每个模型的RMSECV和RMSEP。
(3)将那些区间按RMSECV值从小到大排序。
(4)取(3)中排序后的第一个区间(也就是RMSECV和RMSEP平均值最小的区间)与最佳特征区间一共两个区间内数据进行PLS建模,同时计算此时模型的RMSECV和RMSEP;(5)取(3)中排序后的前两个区间与最佳特征区间一共三个个区间内数据进行PLS建模,同时计算此时模型的RMSECV和RMSEP;(6)继续增加区间,直到所建立的PLS模型的RMSECV和RMSEP最小,而相关系数最大为止,则此时参与建模的区间为最终的特征区间。
由于本发明采用以上技术方案,得到以下效果
通过移动窗口法解决了用近红外光谱进行农产品品质检测建模时特征谱区宽度大小问题,可以方便的获得特征光谱谱区的宽度和最佳的特征区间。通过交叉检验均方差和预测均方差最小解决了多特征区间选择的问题。通过特征区间的选取可以减小建模运算时间,剔除噪声过大的谱区,使最终建立的农产品品质检测近红外光谱模型的预测能力和精度更高。


图1处理过程流示意2经去噪、中心化等预处理后的124个苹果近红外光谱数据;图3整个苹果光谱分成40个区间,每个区间最佳PLS模型的RMSECV(斜体数字为PLS模型中变量的个数),图中粗黑线为苹果近红外光谱形状,虚线为整个光谱参与PLS建模的RMSECV;图4选取第2、3、5、8、9、10、12、13、22区间的光谱数据建立iPLS模型;图5移动窗口宽度为72个光谱宽度时对苹果糖度进行近红外建模,RMSCV随窗口移动时变换情况,图中粗线为典型的苹果近红外光谱,虚线为整个光谱参与建模时的RMSCV;图6最小RMSECV和RMSECP随窗口宽度增大变化情况;图7整个啤酒光谱分成20个区间,每个区间最佳PLS模型的RMSECV;图8选取第10区间进行啤酒数据的PLS建模情况具体实施方式
具体实施方式
结合以下两个实施实例进行说明。
实施实例1间隔偏最小二乘法对苹果糖度近红外分析光谱谱区选择。
图1为处理过程的示意图,图2为经去噪、中心化等预处理后的124个苹果近红外光谱数据,光谱范围为4279~9843cm-1,每条光谱包括2886个数据点,将其中78个苹果的光谱数据作为预测集,46个苹果光谱作为预测集。通过移动窗口法选取合适的特征光谱谱区宽度为72个光谱点,将整个光谱分为40个区间。对每个区间进行PLS处理,每个区间最佳PLS模型的如图3所示,选取其中第2、3、5、8、9、10、12、13、22区间的光谱进行PLS建模,所得的结果如图4。其中光谱宽度为72个光谱点是通过如下方法选取的选取初始窗口宽度为32个光谱数据的宽度;在光谱轴上以步长为一个光谱数据点地移动该窗口,每次截取32个光谱数据;对每个截取窗口内的数据进行PLS处理,并将每个窗口最佳PLS模型的正交检验最小均方根误差RMSECV和预测集均方根误差RMSEP保存下来;然后让窗口宽度增加10个光谱数据,即为42个光谱数据的宽度,重复(2)、(3)步,直到窗口宽度142个光谱点宽度停止;图5在进行苹果糖度近红外建模,移动窗口宽度为72个光谱宽度时,RMSCV随窗口移动时变换情况,图中粗线为一条苹果近红外光谱,虚线为整个光谱参与建模时的RMSCV。
图6为移动窗口宽度由小到大变化时,每次获得的最小RMSECV、RMSEP变化情况。图中RMSECV随着窗口宽度的增大而减小,RMSEP开始时随着窗口宽度的增大而减小,但随后窗口继续增大时RMSEP变大。由图6可以看出窗口宽度72个光谱点时RMSEP达到最小。因此最佳窗口宽度为72个光谱点。
区间选择是通过一下步骤实现的选取RMSECV最小的第12区间,在其数据上建立的PLS模型相关系数只有0.7,RMSCV=0.82,显然模型不够好;在第12区间的基础上,加入第2区间,在两个区间的数据上建立PLS模型,但结果还是不好,继续增加区间,最终的特征区间确定的特征区间为2、3、5、8、9、10、12、13、22一共9个区间的数据。建立的PLS模型的相关系数达到0.8958,RMSECV=0.5892实施实例2间隔偏最小二乘法对啤酒近红外分析光谱谱区的选择。
对60个啤酒测试近红外光谱样本,光谱范围为400~2250nm,每条光谱包括926个数据点,将其中40个啤酒的光谱数据作为预测集,20个啤酒光谱作为预测集。通过移动窗口法选取合适的特征光谱谱区宽度为41个光谱点,将整个光谱分为20个区间。对每个区间进行PLS处理,每个区间最佳PLS模型的如图7所示,选取第10区间的数据进行PLS建模,得到的结果如图8所示,此时相关系数达到0.9981,RMSECV=0.151,精度已很好,因此iPLS最终确定的区间为第10区间,光谱范围为1240~1330nm。
权利要求
1.基于间隔偏最小二乘法的农产品、食品近红外光谱谱区选择方法,其特征是首先对去噪后的近红外光谱,选取合适的特征光谱谱区的宽度,把所得的整个近红外光谱分成若干个区间;然后对每个区间分别进行PLS处理;通过比较正交检验均方根误差RMSECV和预测集均方根误差RMSEP得到每个区间的最佳PLS模型;同样通过比较每个区间的最佳的PLS模型的RMSECV和RMSEP选取特征谱区区间;最后对所选取的特征波长区间进行PLS分析建立模型。
2.根据权利要求1所述的选择方法,其特征是所述的合适特征光谱谱区宽度的选取方法是随机选取法、等分法或移动窗口法。
3.根据权利要求1所述的选择方法,其特征是所述的随机选取法,是根据经验在整个光谱上随机取n个点,将光谱分成n+1个区间,各区间内的光谱点个数不一定相等。
4.根据权利要求1所述的选择方法,其特征是所述的等分法,是将整个光谱等分为n个区间,每个区间内的光谱数据点个数相等。
5.根据权利要求1所述的选择方法,其特征是所述的移动窗口法包括以下步骤(1)选取一个起始的窗口宽度,通常为30~50个光谱数据的宽度;(2)在光谱轴上以步长为一个光谱数据点地移动该窗口,每次截取窗口宽度的光谱数据;(3)对每个截取窗口内的数据进行PLS处理,并将每个窗口最佳PLS模型的正交检验均方根误差RMSECV和预测集均方根误差RMSEP保存下来;(4)然后让窗口宽度增加10个光谱数据,重复(2)、(3)步,直到RMSEP明显随窗口增大而最大时停止;(5)比较所有的RMSECV和RMSEP,当RMSECV和RMSEP同时达到最小时的窗口宽度和光谱数据保存下来,此时的窗口宽度即为最终光谱谱区宽度,此时的光谱数据区间为最佳特征区间。
6.根据权利要求1所述的选择方法,其特征是所述的多个特征区间的选取包括以下步骤(1)在最佳特征区间的两边,以上述最终光谱谱区宽度的窗口将整个光谱分成若干个区间;(2)对每个区间内的数据进行PLS建模,计算每个模型的RMSECV和RMSEP;(3)将那些区间按RMSECV值从小到大排序;(4)取(3)中排序后的第一个区间(也就是RMSECV和RMSEP平均值最小的区间)与最佳特征区间一共两个区间内数据进行PLS建模,同时计算此时模型的RMSECV和RMSEP;(5)取(3)中排序后的前两个区间与最佳特征区间一共三个个区间内数据进行PLS建模,同时计算此时模型的RMSECV和RMSEP;(6)继续增加区间,直到所建立的PLS模型的RMSECV和RMSEP最小,而相关系数最大为止,则此时参与建模的区间为最终的特征区间。
全文摘要
本发明涉及利用近红外光谱分析农产品品质食品的方法,其首先对去噪后的近红外光谱,选取合适的特征光谱谱区的宽度,把所得的整个近红外光谱分成若干个区间;然后对每个区间分别进行PLS处理;通过比较正交检验均方根误差RMSECV和预测集均方根误差RMSEP得到每个区间的最佳PLS模型;同样通过比较每个区间的最佳的PLS模型的RMSECV和RMSEP选取特征谱区区间。最后对所选取的特征波长区间进行PLS分析建立模型。其优点是通过移动窗口法可以方便的获得特征光谱谱区的宽度和最佳的特征区间。通过特征区间的选取可以减小建模运算时间,剔除噪声过大的谱区,使最终建立的农产品品质检测近红外光谱模型的预测能力和精度更高。
文档编号G06F19/00GK1657907SQ200510038528
公开日2005年8月24日 申请日期2005年3月23日 优先权日2005年3月23日
发明者赵杰文, 邹小波, 黄星奕 申请人:江苏大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1