一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法与流程

文档序号:15995035发布日期:2018-11-20 18:43阅读:1351来源:国知局

本发明涉及一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,属于近红外光谱数据分析处理的技术领域。



背景技术:

近红外光谱分析技术是一种发展速度很快的成分快速分析技术,具有分析速度快、分析效率高、分析成本低、测试重现性好、无损测量、便于实现在线分析的特点,被广泛应用在农业、食品、医药等领域。

由于不同的物质对近红外光的吸收程度不一样,因此利用近红外光谱进行物质识别,选出特征差异比较明显的特征波长,建立校正模型。目前常用的特征波段选择算法复杂计算量大、速度慢、识别率低。

主成分分析-马氏距离法,首先利用主成分分析法将样本的光谱数据降维,得到主成分载荷矩阵和得分矩阵,然后利用得分向量计算马氏距离,最后结合设定阈值将异常样本剔除。张灵帅等人利用近红外光谱的主成分分析-马氏距离聚类判别卷烟的真伪,结果前4个的主成分贡献率已达到了98.46%,说明4个主成分就可以代表原始光谱主要的信息;120个样本随机抽取100个建立4个主成分的定性判别模型,其相关系数达到了0.95;对20个未知样本做预测,准确率达到100%。

显著性差异处理,是一种特征选择的方法。该方法是计算每组数据与其他组数据的显著性分数,然后逐个与设定好的显著性分数做比较,如果大于设定好的显著性分数,说明差异比较大,可作为分类的重要依据。王东利用显著性假设检验方法有效的对癌症基因进行特征选择,并且利用特征数据进行建模,分类的精度达到了99.02%。



技术实现要素:

针对现有技术的不足,本发明提供一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法。

本发明的技术方案为:

一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,包括以下步骤:

(1)采集样本的近红外光谱数据,并进行样本预处理;所述样本预处理的方法为主成分分析-马氏距离法;

(2)将样本预处理后的数据进行显著性差异处理;具体步骤为:设波长对应属性吸光度有n个类C1,C2,…Ci…,Cn;n个类对应的属性均值分别是每一类的显著分数为zl;设定zl的阈值;如果显著分数zl超过设定的阈值,判定相应的波段差异较大,相应的波长数据为重要数据,并且保留该波长数据;

显著性差异参数zl采用以下公式:

其中:l表示波长,是l波长Cj类吸光度的平均值;是l波长Ci类吸光度的平均值;sli是l波长Ci类吸光度的方差;ni是Ci类样本数;slj是l波长Cj类吸光度的方差;nj是Cj类样本数;显著性差异处理的有益效果是,放大有用波段,减少光谱数据,提高建模速度和分类准确率。

(3)将显著性差异处理后的数据按比例分为训练集和预测集;

(4)将训练集和预测集带入偏最小二乘定性回归模型获得预测结果。其建模思想是,选出相关性较大的自变量和因变量的主成分,建立回归模型,得出残差向量,逐次迭代,最后根据交叉有效性判定主成分数,停止迭代,建立回归模型。

根据本发明优选的,所述步骤(1)中,采集样本的近红外光谱数据的方法是:选取1300~2300nm的波长范围,间隔为6.4nm,每条光谱曲线取10次测试平均值;多次测量样品不同位置的反射光谱,并取平均后,作为建模的样本数据。

本发明的有益效果为:

1.本发明所述近红外光谱数据分析方法,显著性假设检验采用显著性参数衡量数据的重要性,利用不同的分数提取特征波段信息,得到的特征子集维数较小,减少数据处理量,有效提取同种物质近红外光谱明显差异的特征波段,实现对光谱数据的有效特征快速提取;结合偏最小二乘定性回归模型提高了识别正确率;

2.本发明所述近红外光谱数据分析方法,采用显著性假设检验计算每组每个波长数据与其他组对应波长数据的显著分数,之后与设定的显著分数做比较,得到差异比较大的波长的数据,选取了有用的波长,降低其他不重要的波长的扰;利用显著性假设方法算出的有用波段,降低了其他无用波段对建模的干扰,进而提高了建模速度和识别准确率;

3.本发明所述近红外光谱数据分析方法在农业和食品品种、产地溯源、真伪等方面具有良好的应用前景。

附图说明

图1是本发明所述近红外光谱数据分析方法的流程图;

图2是实施例1采用的茶叶样本的近红外光谱图;

图3实施例1分析得到的茶叶近红外光谱的特征光谱波段;

图4为实施例1得到的日照绿茶的识别结果;

图5为实施例1得到的崂山绿茶的识别结果;

其中,图3中的圆圈表示选出的特征波段。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。

实施例1

利用基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法进行茶叶的特征光谱波段提取,进一步利用近红外光谱进行茶叶产地溯源。包括以下步骤:

(1)采集样本的近红外光谱数据,并进行样本预处理;所述样本预处理的方法为主成分分析-马氏距离法;

本实施例中,共采集了200个茶叶样本的近红外光谱数据,其中包括100个崂山茶叶、100个日照茶叶。

采集样本的近红外光谱数据的方法是:选取1300~2300nm的波长范围,间隔为6.4nm;每条光谱曲线取10次测试平均值;三次测量样品不同位置的反射光谱,并取平均后,作为建模的样本数据。其中,样品的不同位置为随机选取。本实施例利用型号为AvaSpec-NIR256/2.5TEC的近红外光谱仪共采集156个数据点。

(2)将样本预处理后的数据进行显著性差异处理;具体步骤为:设波长对应属性吸光度有n个类C1,C2,…Ci…,Cn;n个类对应的属性均值分别是每一类的显著分数为zl;设定zl的阈值;如果显著分数zl超过设定的阈值,判定相应的波段差异较大,相应的波长数据为重要数据,并且保留该波长数据;

显著性差异参数zl采用以下公式:

其中:l表示波长,是l波长Cj类吸光度的平均值;是l波长Ci类吸光度的平均值;sli是l波长Ci类吸光度的方差;ni是Ci类样本数;slj是l波长Cj类吸光度的方差;nj是Cj类样本数;显著性差异处理的有益效果是,放大有用波段,减少光谱数据,提高建模速度和分类准确率。

(3)将显著性差异处理后的数据按7:3的比例分为训练集和预测集;本实施例中,140个样本划为训练集,60个样本划为预测集。

(4)将训练集和预测集带入偏最小二乘定性回归模型获得预测结果。其建模思想是,选出相关性较大的自变量和因变量的主成分,建立回归模型,得出残差向量,逐次迭代,最后根据交叉有效性判定主成分数,停止迭代,建立回归模型。

分析结果如图3-图5所示;利用上述方法得到的训练集的识别率是100%,预测集的识别率是94.64%;而预处理后直接建立偏最小二乘回归模型的训练集的识别率是100%,预测集的识别率是89.29%。相比较而言,利用本发明所述方法对茶叶产地预测集的识别率有明显提高。

本实施例通过对近红外光谱数据进行样本预处理,再进行光谱显著性假设检验,由于茶叶的光谱曲线大致相同,通过显著性参数比较出光谱差异较大的波段,得到特征光谱波段,从而快速建立近红外光谱校正模型,并且提高产地识别率。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1