本发明涉及一种基于最小角排序选择的优选训练集的方法。
背景技术:
1、得益于近红外光谱分析具有简单,快速,无损、具有成本效益的特点,化学计量学结合近红外光谱技术建立定性和定量分析预测模型成为了农业食品领域的流行分析工具。然而,现代分析仪器的飞速发展及其强大的快速产生数据的能力,使得分析化学工作者能够容易地得到大量样本的光谱数据,且采集到的光谱具有很高的维数。但是,当训练集的样本已经具有代表性,建立出的模型已经可以在验证集上获得很好的预测效果后,训练集再增加建模样本就会引入分析误差,带来冗余,覆盖有用的信息,降低模型性能,增加光谱分析的成本效益。选择合理有效的建模样本不仅可以改善上述问题,当遇到模型界外样本时,还便于更新和维护模型,并且样本的选择在多元校正模型的传递中也非常重要。因此,对建模样本进行优选是非常必要的,从这些样本的近红外光谱中剔除冗余和噪声波长也十分必要。然而,目前大多数建模过程并没有对训练集进行二次选择,也没有研究过二次选择后的训练集与原训练集样本在数量和分布上的情况。
技术实现思路
1、本发明的目的是提出一种最小角排序选择的方法对训练集样本进行优选,达到有效压缩原始训练集样本容量并提高模型预测能力的目的。该方法包括以下步骤:
2、采集待测样品的光谱数据x和参比值y;
3、采用最小角对训练集样本重新排序:
4、①计算训练集的理想光谱,用训练集样本的平均光谱近似。是每一次在已选样本子集中添加新样本后获得的的估计值,ε为给定的精确度,n为训练集样本数。与各样本xi之间的关系为:
5、
6、该算法从和与最为接近的样本x1=xi开始,此时
7、②在连续的循环中从尚未被使用的样本子集s中选择出与已选样本线性空间l相关性最大的样本xi,在样本xi的方向上移动步长θi;
8、③循环步骤②直至无多余样本或估计值距离目标光谱小于ε,此时获得重新排序的光谱数据
9、当循环进行到第j次时,获得与l的相关性最大的样本xj计算公式如下:
10、argmax{l(ltl)-1ltxi},xi∈s
11、则此时的估计值为:
12、
13、此时,移动步长θj的约束条件如下:
14、
15、对重新排序的光谱进行二次选择的步骤是:
16、①从20个样本开始依次添加进训练子集建立pls模型,pls模型的因子数lvs默认为20,共建立n-19个pls模型;
17、②计算训练子集的交互验证均方根误差(rmsecv),共获得n-19个rmsecv值;
18、③比较n-19个rmsecv值,选择rmsecv最小时对应的训练子集作为优选的训练集。
1.一种基于最小角排序选择的优选训练集的方法,其特征在于:将样本集划分为训练集和预测集后,计算训练集样本光谱的近似理想光谱作为排序时的目标光谱,采用最小角对训练集样本重新排序,根据排序后的训练子集建立pls子模型,根据模型结果完成优选。
2.根据权利要求1所述的方法,其中,所述基于最小角排序选择的优选训练集的方法用于定量分析。
3.根据权利要求1所述的方法,其中,所述样本集的容量为大于或等于100个。
4.根据权利要求1所述的方法,其中,所述模型结果为训练集均方根误差rmsecv。
5.根据权利要求3所述的方法,其中,所述优选训练集是样本集划分为训练集和预测集后,对训练集再次进行样本选择建立优选训练集,使用优选训练集的样本光谱进行剔除异常样本、波长选择和模型建立等后续步骤。
6.根据权利要求5所述的方法,其中,所述训练集样本的光谱与理想光谱必须是近似线性关系。
7.根据权利要求6所述的方法,其中,所述训练集样本的理想光谱通常用平均光谱近似。