一种基于近红外提高鉴别结果的定性分析方法

文档序号:6246270阅读:167来源:国知局
一种基于近红外提高鉴别结果的定性分析方法
【专利摘要】本发明公开了一种基于近红外提高鉴别结果的定性分析方法,该方法包括:步骤1:采集样本的近红外光谱数据,并确定建模集和测试集;步骤2:对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征提取;步骤3:采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,并校正剩余测试集;步骤4:建立定性分析模型;步骤5:利用建立的定性分析模型对剩余测试集进行定性鉴别。本发明建立在近红外定性分析基础上,在特征提取步骤中使用了在多分类和二分类问题中都能使用的正交线性鉴别方法;除此之外,通过直接模型传递方法能够校正测试集,从而能够解决同一台仪器长时间的光谱偏移带来的模型适用性问题,提高定性鉴别的结果。
【专利说明】一种基于近红外提高鉴别结果的定性分析方法

【技术领域】
[0001] 本发明涉及近红外定性鉴别领域,特别是一种基于近红外提高鉴别结果的定性分 析方法。

【背景技术】
[0002] 近红外光谱(Near Infrared Spectrum,NIR)是介于可见光(Vis)和中红外(MIR) 之间的电磁辐射波,美国材料检测协会(ASTM)将近红外光谱区定义为780?2526nm的区 域,是人们在吸收光谱中发现的第一个非可见光区。近红外光谱区与有机分子中含氢基团 (〇-H、N-H、C-H)振动的合频和各级倍频的吸收区一致,通过扫描样品的近红外光谱,可以得 到样品中有机分子含氢基团的特征信息,而且利用近红外光谱技术分析样品具有方便、快 速、高效、准确和成本较低,不破坏样品,不消耗化学试剂,不污染环境等优点,因此该技术 受到越来越多人的青睐。
[0003] 随着分析技术的快速发展,基于近红外光谱的各类检测技术虽然得到了广泛的应 用,但是基本都是在定量分析中的应用,在定性分析应用中较少。而目前较为需求的则是近 红外光谱的定性分析鉴别技术,例如在食品安全领域,要鉴别作物种子的品种真实性,以保 障农民的生产利益;检测奶粉中是否含有某些特殊物质以确保食用安全;在药品安全领域 中,检测药物中是否含有某一种成分,以确保用药安全等。可见近红外光谱定性分析技术, 会在更多的领域得到发展,同时也会在更多领域发挥越来越重要的作用。
[0004] 在实际应用近红外定性分析过程中,以往的实验结果都是在采集条件较为理想的 数据集上得到的,而在实际应用中,采集的实验数据往往会包含很多不确定信息,这些不确 定信息可能影响整个定性分析模型的性能,从而影响定性鉴别分析的结果准确性。
[0005] 针对该问题,有人提出了模型传递的思想,它是用于解决多台相同型号仪器之间 的模型共用问题。除了不同仪器之间的差别,同一台仪器长时间的光谱偏移同样面临着模 型适用性的问题,由于相同物质不同品种间成分相差较小,光谱相互交叠,因此这种差异对 定性分析的影响甚至比定量分析更为严重,严重时甚至完全不能正确识别。
[0006] 实际应用近红外光谱进行定性分析时,很多方法在特征提取时都用到了线性鉴别 分析(LDA),由于LDA方法提取的数据维数必须比类别数小1,因此如果在定性分析中使用 LDA算法,当类别数较少的时候,则限定了 LDA提取数据的维数,很可能导致有用信息的丢 失,甚至算法完全失效。小样本问题是是线性鉴别分析最大的问题。因此本发明使用了正 交线性鉴别分析(OLDA)方法,使本发明所提出来的定性鉴别分析不仅能用于多分类问题, 还能用于二分类问题。
[0007] 针对目前近红外定性分析和模型适用性等的现状与诸多不足,本发明提出一种基 于近红外提高鉴别结果的定性分析方法。


【发明内容】

[0008] (一)要解决的技术问题
[0009] 有鉴于此,本发明的主要目的是为了提供一种简单可行、快速高效,并且能提高定 性分析鉴别结果的一种基于近红外提高鉴别结果的定性分析方法。
[0010] (二)技术方案
[0011] 为达到上述目的,本发明提供了一种基于近红外提高鉴别结果的定性分析方法, 该方法包括:
[0012] 步骤1 :采集样本的近红外光谱数据,并确定建模集和测试集;
[0013] 步骤2 :对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴 别特征提取;
[0014] 步骤3 :采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,并校 正剩余测试集;
[0015] 步骤4 :建立定性分析模型;
[0016] 步骤5 :利用建立的定性分析模型对剩余测试集进行定性鉴别。
[0017] 上述方案中,步骤1中所述采集样本的近红外光谱数据,是采用近红外光谱仪在 不同时间采集样本的近红外光谱数据。所述确定建模集和测试集,是将在同一天采集的光 谱数据作为建模集,建模集是用来建立定性分析模型的原始建模数据;将不同采集日期采 集的近红外光谱数据作为不同的测试集,测试集是用来鉴别种子品种真实性的原始测试数 据。
[0018] 上述方案中,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征 提取和正交线性鉴别特征提取,具体包括:
[0019] 步骤21 :对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行 预处理;
[0020] 步骤22 :对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到偏最小 二乘特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间;
[0021] 步骤23 :利用得到的偏最小二乘特征矩阵,将经过预处理之后的建模集和测试集 数据变换到偏最小二乘空间中;
[0022] 步骤24 :对经过偏最小二乘特征提取之后的建模集数据进行正交线性鉴别分析 特征提取,得到正交线性鉴别分析特征矩阵;
[0023] 步骤25 :利用得到的正交线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之 后的建模集和测试集数据变换到正交线性鉴别分析空间中;
[0024] 步骤26 :利用变换到正交线性鉴别分析空间中的建模集数据进行建模,用变换到 线性鉴别分析空间中的测试集数据进行鉴别。
[0025] 上述方案中,步骤2中所述的预处理、偏最小二乘特征提取和正交线性鉴别分析 特征提取,在对建模集和测试集处理时采用相同的参数。
[0026] 上述方案中,步骤22中进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,具 体包括:
[0027] 步骤221 :对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为 1 ;令样本矩阵为Xtl,类别信息矩阵为Ytl ;其中,Xtl定义为n条光谱p个数据点的原始光谱矩 阵,Ytl为对应的类别属性矩阵:
[0028]

【权利要求】
1. 一种基于近红外提高鉴别结果的定性分析方法,其特征在于,该方法包括: 步骤1 :采集样本的近红外光谱数据,并确定建模集和测试集; 步骤2 :对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特 征提取; 步骤3 :采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,并校正剩 余测试集; 步骤4:建立定性分析模型; 步骤5 :利用建立的定性分析模型对剩余测试集进行定性鉴别。
2. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤1中所述采集样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集样本的近红 外光谱数据。
3. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤1中所述确定建模集和测试集,是将在同一天采集的光谱数据作为建模集,建模集是用 来建立定性分析模型的原始建模数据;将不同采集日期采集的近红外光谱数据作为不同的 测试集,测试集是用来鉴别种子品种真实性的原始测试数据。
4. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征 提取,具体包括: 步骤21 :对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行预处 理; 步骤22 :对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到偏最小二乘 特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间; 步骤23 :利用得到的偏最小二乘特征矩阵,将经过预处理之后的建模集和测试集数据 变换到偏最小二乘空间中; 步骤24 :对经过偏最小二乘特征提取之后的建模集数据进行正交线性鉴别分析特征 提取,得到正交线性鉴别分析特征矩阵; 步骤25 :利用得到的正交线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的 建模集和测试集数据变换到正交线性鉴别分析空间中; 步骤26 :利用变换到正交线性鉴别分析空间中的建模集数据进行建模,用变换到线性 鉴别分析空间中的测试集数据进行鉴别。
5. 根据权利要求4所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤2中所述的预处理、偏最小二乘特征提取和正交线性鉴别分析特征提取,在对建模集和 测试集处理时采用相同的参数。
6. 根据权利要求4所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤22中进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,具体包括: 步骤221 :对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1 ;令 样本矩阵为Xtl,类别信息矩阵为Ytl ;其中,Xtl定义为η条光谱p个数据点的原始光谱矩阵, Ytl为对应的类别属性矩阵:
Y(i中,yu = 1表示第i条光谱属于第j类,yu = O表示第i条光谱不属于第j类; 步骤222:求矩阵Xi Jtl的协方差矩阵C = Xi A),协方差矩阵常数舍弃; 步骤223 :求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值 的大小排列,取最大的η维特征值对应的特征向量组成投影矩阵W1^ ; 步骤224 :得到新的特征向量为X' i = XiW' PIjS。
7. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤24中所述的进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵,具体包 括: 步骤241 :假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵Sw、 类间散布矩阵Sb如下:
其中,
丨为第i类模式的均值,
为总样本均值; 步骤242 :将正交线性鉴别分析的优化问题转换为求解下式的优化问题:
其中,Wi (i = 1,2,...,)对应为下式特征值降序排列前η个值对应的特征向量,且要 满足WtW = I : SBw = λ SwW ; 步骤243 :得到Wraili^pt后,取最大的η维特征值对应的特征向量组成投影矩阵Wcma,即 可进行数据转换t =YW' _Α。
8. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤24中所述的正交线性鉴别分析特征矩阵,与线性鉴别分析特征矩阵相比,正交线性鉴别 分析特征矩阵在求解变换矩阵的过程中,特征向量之间是两两正交的,即满足W tW = I。
9. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤3中所述采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,具体包括: 首先从建模集和测试集中各自挑选出用于光谱校正的光谱数据;然后用直接模型传递 方法计算变换矩阵。
10. 根据权利要求9所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,所 述挑选光谱校正数据,是从建模集和测试集中各自挑选出用于光谱校正的光谱数据,所用 方法包括Kennard/Stone算法,采用Kennard/Stone算法挑选光谱校正数据的过程具体包 括: 步骤31 :设置需要选取的校正样品个数k ; 步骤32 :计算所有建模集样本两两之间的距离,将距离最远的两个样本选为校正集的 第一、二个样本; 步骤33 :对于剩余样本,计算其与已选样本之间的距离并取其最小值,然后选择这些 距离中最大值对应的样本为本次选择样本; 步骤34 :重复步骤33,直至选够k个样本组成建模集的校正集; 步骤35 :在测试集中选择建模集中所选出的对应编号的样本作为测试集的校正集。
11. 根据权利要求9所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤3中所述的建模集和测试集,是指经过预处理、偏最小二乘和正交线性鉴别分析特征提 取之后的光谱数据集;所述的光谱变换矩阵,是测试集与建模集之间的光谱变换矩阵,不同 的测试集对应不同的变换矩阵。
12. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤3中所述的校正剩余测试集,是利用计算所得到的光谱变换矩阵,得到建模集和测试集 之间的校正关系,并将这种校正关系应用在剩余测试集中,消除时间推移带来的测试集光 谱与建模集光谱之间的偏移现象,从而解决光谱偏移所带来的模型不适用的问题。
13. 根据权利要求12所述的基于近红外提高鉴别结果的定性分析方法,其特征在于, 步骤3中所述的剩余测试集,是指从测试集中挑选出光谱校正集之后剩余的测试数据集。
14. 根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步 骤4中所述建立定性分析模型,采用的建模方法根据模型的适用范围及分析目标的不同采 用不同的建模方法,包括基于高维形象几何分析的仿生模式识别方法、支持向量机或最近 欧氏距离方法。
15. 根据权利要求14所述的基于近红外提高鉴别结果的定性分析方法,其特征在于, 步骤4中所述建立定性分析模型采用仿生模式识别方法,则步骤5中所述用所建模型对剩 余测试集进行定性鉴别,采用仿生模式识别方法,该方法具体包括: 步骤51 :计算超香肠神经元;首先对建模集中的每一类样本进行模糊聚类,在每一个 聚类簇上建立超香肠神经元,最终建立的超香肠神经元数目为类别数目CX每类的聚类数 K,超香肠神经元输出采用简单的点到超香肠距离的倒数,分母上加1的目的是为确保分母 不为雲·
其中X表示输入样本向量,τ表示超香肠神经元的核; 步骤52 :计算感知器神经元;感知器数目等于类别数目C,对于建模样本集X,行表示样 本,列表不变量,对每一类定义一个感知器的期望输出列向量qi,其值由〇或1组成,1表不 训练样本属于第i类,〇表示训练样本不属于第i类;对于未知样本X,其第i个感知器输出 标量为: qi = Xwi,其中 Wi = (X' ΧΠ ' qi 步骤53 :超香肠神经元和感知器联合输出为: 0J = Pj*Qi 其中,为第j个超香肠神经元的输出,第j个超香肠神经元属于类别i,Qi为该类别 的感知器输出; 步骤54 :采用最小二乘法直接求解得出线性神经元的权值,用O表示超香肠神经元和 感知器联合输出矩阵,其中表示第i个样本在第j个超香肠神经元和感知器的联合输 出,定义y为训练集期望输出列向量,则对应的线性神经元权值为: ψ = (O' 0)_10/ y 步骤55 :对得到的估计值选取合适的阈值,便可以进行分类。
16.根据权利要求15所述的基于近红外提高鉴别结果的定性分析方法,其特征在于, 步骤5中所述剩余测试集,是指进行了光谱校正之后的剩余测试集。
【文档编号】G01N21/359GK104374738SQ201410599230
【公开日】2015年2月25日 申请日期:2014年10月30日 优先权日:2014年10月30日
【发明者】张丽萍, 李卫军, 董肖莉, 覃鸿 申请人:中国科学院半导体研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1