一种基于稀疏回归LAR算法的近红外定量分析方法与流程

文档序号:17086054发布日期:2019-03-13 22:50阅读:577来源:国知局
本发明涉及一种基于近红外光谱的定量分析检测方法。
背景技术
::基于近红外光谱的定量分析回归模型的构建,是整个近红外光谱定量分析过程中的核心环节,也是最为复杂的环节。近红外光谱定量分析是高维小样本问题,光谱维度一般都上千甚至几千维度,并且各维度光谱数据间存在高度线性互相关。近红外光谱中有效信号微弱,需要在高维的庞大光谱信息中提取出和目标品质参数相关的微弱信号,并建立回归预测模型,这是具有挑战性的任务。而这正是机器学习中回归方法所擅长和所要解决的问题。机器学习的回归方法可分为线性和非线性方法两大类别。其中基于线性模型的机器学习方法因其简单快速,便于理解,受到广泛的欢迎,是近红外光谱品质定量检测中最常用的方法。偏最小二乘(partialleastsquares,pls)又是线性回归方法中用得最广的方法;其他的如多元线性回归(multiplelinearregression,mlr)和主成分回归(principalcomponentregression,pcr)也常被采用。多元线性回归mlr是最早的近红外回归建模方法。由于光谱数据间的高线性相关,单纯的多元线性回归效果一般不是很好。pls是近红外光谱分析中最广泛使用的回归方法。pls被用于大量的近红外光谱的定量分析检测。由于克服光谱间的高度线性相关问题,pls的预测效果一般优于mlr。主成分回归pcr是在主成分上进行线性回归。由于其简单易于实现,pcr也应用在一些研究中,但效果不如pls。非线性机器学习方法也被成功的应用于农产品品质的近红外定量分析检测。然而,从模型的可理解性方面,如通过模型发现最相关的光谱波段方面,基于线性模型的机器学习方法比非线性的要更好。虽然一些专门的技术被提出来用于发现和选择最重要的特征,这些方法都非常的复杂并且计算量很大,而基于线性的方法相对简单直接,且便于理解和使用。因为这个原因,基于线性模型的pls方法是近红外光谱分析中最常用的方法。由于近红外(near-infrared,nir)光谱采集中包含了复杂的物理和光学现象,近红外光谱中不可避免的包含噪声。一般认为噪声比信号具有更小的方差。为了减少噪声,pcr把小方差的方向丢弃。pls也趋向于压缩小方差方向,但同时又会放大一些高方差方向。这会导致pls有一点不稳定。并且,pls减少噪声特征的权重,但并不丢弃它们;因此大量噪声仍会影响到pls的预测性能。而且高互相关变量趋于被同时选取,导致所选变量集中存在大量的冗余。技术实现要素:最小角度回归(leastangleregression,lar),是一种基于线性模型的稀疏回归算法。lar和pls等算法的不同之处在于,将无关变量丢弃从而产生一个稀疏的模型;从而更少的被噪声所影响。lar和lasso(leastabsoluteshrinkageandselectionoperator)紧密相关,事实上lar的变体提供了计算完整lasso路径的效率极高的算法。最小角度回归(leastangleregression,lar)和传统的模型选择方法前向逐步回归紧密相关。前向逐步回归,从所有系数全为零开始,然后逐步的一次加入一个变量,构建一系列的模型,并更新最小二乘系数。前向逐步回归一次选择一个变量加入模型来得到最佳最小二乘拟合。这个过程一直持续直到达到一些停止的标准。前向逐步回归是贪婪算法因为它寻求每个单一步骤的最优而无视其将来的影响。前向逐段回归和前向逐步回归类似,但关注于减少逐步回归中贪婪行为的负面效果。在逐步回归中,每一步都将最有用的变量加入到模型中,该变量的系数从零直接跳到最小二乘系数值。前向逐段回归选取的第一个变量和逐步回归一样,但仅仅改变其系数一个较小的量。然后再选择和当前残差最相关的变量,这个变量可能和前一步所选是同一个变量。同样这个变量的系数只改变一点点。这个过程一直这样持续下去。当一个变量比其他变量有明显的初始优势时,这个变量将会有连续多个步骤被选取。其后,当模型中有多个变量时,这个选取过程将在这些变量间轮流进行。这样产生的系数比逐步回归方法得到的系数更稳定。最小角度回归和前向逐段回归的过程类似,但使用数学公式来使计算效率更高。不再是在当前变量上进行多个很小和长度固定的步骤,步骤的合适长度通过数学方法计算确定,直到下一个变量的相关性赶上来。并且,最小角度回归方法也不用在当前已选取变量间轮流进行小步骤的系数调整直到另一个变量进入模型,该方法直接根据确定的步长跳到那个合适的点。残差和第一个协变量之间的相关系数的绝对值比和其他协变量间的相关系数的绝对值要大。当第一个协变量的回归系数移向它的最小二乘值(在这个点和残差间相关系数将变为零)时,其和残差的相关系数不断减少,最终总会有另一个协变量和残差间的相关系数与其相等。这时那个变量就作为第二个活动变量(被选变量)加入模型。然后这两个协变量的系数都向它们的最小二乘值移动,直到第三个变量的相关系数赶上来。在高维回归问题中,其他的协变量最终将加入模型,当所有活动变量和残差间的相关系数降到和其他协变量一样的水平。假设总共有n个测量样本,每个样本有p个协变量测量值和一个响应测量值。向量是第个长度为n的协变量(=1,2,…,p),y是响应变量(长度也为n),是包含回归系数的长度为p的向量,是第个协变量的回归系数(=1,2,…,p),回归残差r是长度为n的向量(每个元素对应一个样本)。lar算法的流程可以总结如下:1)将近红外光谱数据的所有协变量进行标准化,使它们的均值为零并且方差为1。残差r的初始值等于居中化后的响应变量:(是y的均值)。所有的回归系数为零:;2)找出和残差r最相关的协变量;3)把回归系数从0向其最小二乘系数<(和残差r的内积)移动,直到一些其它的协变量和当前残差的相关系数追上的相关系数;4)同时沿着当前残差在()上的联合最小二乘系数的方向,移动回归系数和,直到其它的某个协变量的相关系数赶上来;5)持续这个流程,直到所有的协变量加入模型,或者模型中协变量数等于。当所有协变量加入lar模型后,结果和通常的最小二乘一样。根据以上的算法步骤,所选中的协变量根据其重要程度依次进入模型。最佳的模型一般会丢弃一些无关或者不重要的协变量,比如说,只保留前k个协变量。超参数k,模型中所保留的协变量个数,可以通过交叉验证来确定。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。农产品内在品质的定量分析检测,是基于近红外光谱的定量分析技术的一个重要研究和应用的领域。并且不同研究对象的基于近红外光谱的定量分析应用,其所用的方法是相通的。采用了脐橙的内在品质的定量分析作为实验例证。所有样本的近红外光谱采集,均使用近红外光谱仪在反射模式采集的吸收光谱(log1/r)。扫描的波长范围从1000nm到2499nm,波长间隔为1nm。两个14.5的卤素灯作为光源。光谱仪检测探头垂直于样本果实表面,距离果实表面10毫米。近红外光谱在果实样本的赤道部位测得。赤道部位即水果表面周长最大的圆周所在部位。赤道部位上选择相互间相隔约120度三个点测定果皮表面的反射光谱。这三个点所测光谱取平均值作为该水果样本赤道部表面光谱测定值。内在品质数据测定。总可溶固体(totalsolublesolids,tss),可滴定酸(titratableacidity,ta),和维生素c(vitaminc,vc)三种内部品质参数的真实值由传统破坏性化学测试方法测得。总可溶固体(tss)是最常用的品质指标之一,和脐橙的糖分含量也高度相关。可滴定酸(ta)是体现水果内部品质的关键参数,是影响口味的最重要指标之一。总可溶固体(tss),可滴定酸(ta),和维生素c(vc),是能较全面反映脐橙内部品质的三种重要参数。另一个重要的常用品质指标是成熟度(固酸比),是总可溶固体和可滴定酸的比值,也可由所测参数计算得到。参数的实际值通过传统破损性测试方法测定。总可溶固体tss含量测定:脐橙样品去除果皮后榨汁,随后用双层纱布过滤,并使果汁混合均匀。然后取其中的上清液在室温下用日本产手持数显折射仪(atago,pal-es3,japan)测定总可溶固体tss含量。可滴定酸ta含量测定:采用酸碱滴定法测定果实的含酸量。准确吸取10ml果汁至100ml容量瓶中,加蒸馏水定容至刻度并摇匀,取稀释液10ml至100ml三角瓶中,加1%酚酞指示剂2滴,用氢氧化钠溶液滴定至终点,溶液显均匀桃红色为滴定终点。记录滴定所消耗的氢氧化钠溶液体积,根据消耗的体积计算含酸量。维生素c含量测定:采用2,6-二氯吲哚酚钠法测定果实维生素c含量。准确吸取10ml果汁原液至100ml容量瓶中,质量浓度为1g/100ml的草酸溶液定容至刻度并摇匀,取稀释液2ml至50ml三角瓶中,用2,6-二氯吲哚酚钠标准溶液滴定至终点,溶液呈均匀浅红色为滴定终点。根据消耗的2,6-二氯吲哚酚钠溶液体积计算维生素c含量。这些数据样本中的四分之三被选取作为训练数据集,用来构建预测内部品质参数的回归模型;另四分之一样本用来作为测试数据集来评估模型的预测性能。预测精度对于机器学习回归分析算法,是最为核心和重要的性能指标。如果不能达到可接受范围内的预测精度,那么定量分析的回归预测结果就没有意义。模型预测精度评价指标,使用了训练相关系数r,训练均方根误差rmsec,测试相关系数r,测试均方根误差rmsep,偏差bias等五种指标。这五种指标也是对回归模型预测精度进行全面和准确评价的最常用的指标。近红外光谱数据,不可避免会包含有噪声。在用于检测脐橙品质参数前,为了减轻噪声影响,近红外光谱数据使用了移动平均平滑方法和标准正态变量校正(standardnormalvariate,snv)方法来预处理。移动平均平滑方法是用来移除高频噪声的预处理方法;标准正态变量校正snv是一种行变换方法,对每个单独的光谱进行居中和尺度变换,使每个光谱均值为0方差为1,用于移除光散射效应带来的噪声影响。最小角度回归lar算法被用来构建基于近红外光谱的定量分析模型,预测脐橙的几个最重要的内部品质参数,总可溶固体tss,可滴定酸ta和维生素c。结果表明lar回归的预测性能总是比最广泛应用的方法——pls回归更好。非线性回归方法最小二乘支持向量机ls-svm是目前许多近红外光谱定量分析研究中公认的预测精度最高的方法。lar算法的预测精度优于pls的幅度较大,而和ls-svm的预测精度较为接近,差距不大。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1