一种近红外光谱模型转移策略优选方法及装置与流程

文档序号:15888860发布日期:2018-11-09 19:58阅读:291来源:国知局
一种近红外光谱模型转移策略优选方法及装置与流程
本发明涉及红外光谱分析
技术领域
,具体涉及一种近红外光谱模型转移策略优选方法及装置。
背景技术
近红外光谱是指波长介于可见光与中红外光谱之间的电磁波,美国材料测试协会将近红外光谱区定义为780nm-2526nm(12800-3960cm-1),它主要用于有机物质定性和定量分析中。近红外光谱主要是反映分子合频与倍频的振动信息,由于每一种有机组分在近红外光谱区都有信息,所以近红外光谱反映的是一种重叠的、宽泛的、背景复杂的信息,因此不能直接用于分析。近红外光谱的应用需要结合化学计量学方法来实现,利用化学计量学方法最大限度的提取有用的化学信息,从而实现近红外光谱的应用。这种技术具有高效、无损、无污染、可同时进行多组分或性质分析等优点,被广泛应用到农产品、饲料、烟草等诸多行业中。随着这些行业的发展,将源机上的模型推广到目标机上使用的需求正变得十分重要,它是实现大范围应用和网络化集成的基础,由此产生了对近红外光谱分析模型的转移研究。常用的模型转移方法具有比较多的模型转移策略,计算选择量大,造成计算负担。技术实现要素:有鉴于此,本发明提出一种简便的近红外光谱模型转移策略优选方案,具体技术方案如下所述。本发明提供一种近红外光谱模型转移策略优选方法,所述近红外光谱模型转移策略优选方法包括:剔除标准样品在源机和目标机上检测的光谱数据中的异常样本值;建立预选模型策略;采用投票机制对所述预选模型策略进行投票,以获得高于预设票数的预选模型策略;根据所述高于预设票数的预选模型策略得到最优选模型策略。优选的,所述标准样品在源机和目标机上检测的光谱数据中的异常样本值显示的方法为主成分分析-马氏距离法。优选的,所述主成分分析-马氏距离法包括:将标准样品进行近红外光谱数据主成分分析,获得由预设主成分的得分向量组成的得分矩阵;将所述得分矩阵和化学测量值向量组成综合矩阵;根据综合矩阵计算标准样品的马氏距离;通过箱形图对所述马氏距离进行统计,显示异常样本值。优选的,所述“建立预选模型策略”包括:将多种近红外光谱数据平滑方法和多种模型转移算法进行排列组合得到多组预选模型策略。优选的,所述近红外光谱数据平滑方法包括无平滑、多项式平滑、卷积平滑和内核平滑中的一种或多种。优选的,所述模型转移算法包括直接矫正算法、分段直接矫正算法、shenk's算法和光谱差值矫正算法中的一种或多种。优选的,所述投票机制包括:将标准样品在源机上检测的光谱数据进行平滑处理得到源机光谱数据;将标准样品在目标机上检测的光谱数据进行预选模型策略处理得到目标机转移光谱数据;根据所述源机光谱数据和所述目标机转移光谱数据得到全定性相似度和全定量相似度;判断所述预选模型策略是否得到1票,所述判断方法是:当全定性相似度大于等于0.99,同时全定量相似度在97%~103%之间时,则相应的模型转移策略得1票;否则得0票。优选的,所述“根据所述高于预设票数的预选模型策略得到最优选模型策略”包括:将所述高于预设票数的预选模型策略分别用于目标机上检测的光谱数据得到目标机转移光谱数据;将所述原机光谱数据、目标机光谱数据和目标机转移光谱数据分别与化学测量值构建预测模型得到化学预测值;根据所述化学预测值和所述对应化学测量值获得预测误差和相关系数;根据所述预测误差和所述相关系数得到最优选模型策略。优选的,所述近红外光谱模型转移策略优选方法还包括:排除低于所述预设票数的预选模型策略。本发明提供一种近红外光谱模型转移策略优选装置,所述近红外光谱模型转移策略优选装置包括存储器及处理器,所述存储器存储了用于近红外光谱模型转移策略优选的程序,所述处理器从所述存储器里读取所述程序,以执行:剔除标准样品在源机和目标机上检测的光谱数据中的异常样本值;建立预选模型策略;采用投票机制对所述预选模型策略进行投票,以获得高于预设票数的预选模型策略;根据所述高于预设票数的预选模型策略得到最优选模型策略。本发明的有益效果:本发明提出一种简便的近红外光谱模型转移策略优选方案,通过引入投票机制获得得票较高的策略,以减轻计算负担,简化了建模步骤。附图说明图1为本发明提供的一种近红外光谱模型转移策略优选方法流程图。图2为本发明提供的一种主成分分析-马氏距离法流程图。图3为本发明提供的一种投票机制流程图。图4为本发明提供的一种根据所述高于预设票数的预选模型策略得到最优选模型策略的方法流程图。图5为本发明实施例提供的pca-md方法对源机和目标机近红外光谱数据的分析结果图。图6为本发明实施例提供的异常样本标记箱形图。图7为本发明实施例提供的模型转移示意图。图8为本发明实施例提供的应用策略7对源机和目标机数据预测结果图。图9为本发明提供的一种近红外光谱模型转移策略优选装置的结构示意图。具体实施方式以下所述是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。请参阅图1,本发明提供一种近红外光谱模型转移策略优选方法,所述近红外光谱模型转移策略优选方法包括步骤s100、步骤s200、步骤s300和步骤s400。每个步骤详细介绍如下。步骤s100,剔除标准样品在源机和目标机上检测的光谱数据中的异常样本值。将异常样本值剔除以减少个别异常值对整个数据模型的干扰,获得更精确的建模数据。步骤s200,建立预选模型策略。进一步的实施例中,所述“建立预选模型策略”包括将多种近红外光谱数据平滑方法和多种模型转移算法进行排列组合得到多组预选模型策略。优选的,所述近红外光谱数据平滑方法包括无平滑(下述用none表示)、多项式平滑(下述用polynomial表示)、卷积平滑(下述用sg表示)和内核平滑(下述用kernel表示)中的一种或多种。优选的,所述模型转移算法包括直接矫正算法(下述用ds表示)、分段直接矫正算法(下述用pds表示)、shenk's算法和光谱差值矫正算法中的一种或多种。可以理解的是,所述“建立预选模型策略”还包括将数据预处理方法和建模,其中数据预处理方法包括散射(msc)、矫正(snv)、一阶导数(first-orderderivative)和二阶导数,建模包括偏最小二乘回归(partialleastsquaresregression)法。步骤s300,采用投票机制对所述预选模型策略进行投票,以获得高于预设票数的预选模型策略。将多个预选模型策略通过投票机制进行筛选,初步筛选出高于预设票数的预选模型策略,其中预选票数可根据预选模型策略的多少来设定,当预选模型策略的个数有n个时,可将得票数排在前5%的所有预选模型策略筛选出来。步骤s400,根据所述高于预设票数的预选模型策略得到最优选模型策略。再将高于预设票数的多个预选模型策略进行下一步筛选得到最优选模型策略。在预选模型策略的数量不大的情况下可直接测试所有的预选模型策略得到最优选模型策略。本发明提出一种简便的近红外光谱模型转移策略优选方案,通过引入投票机制获得得票较高的策略,以减轻计算负担,简化了建模步骤。进一步的实施例中,所述标准样品在源机和目标机上检测的光谱数据中的异常样本值显示的方法为主成分分析-马氏距离法。请参阅图2,进一步的实施例中,所述主成分分析-马氏距离法包括步骤110、步骤120、步骤130和步骤140。各个步骤详细如下所述。步骤110,将标准样品进行近红外光谱数据主成分分析,获得由预设主成分的得分向量组成的得分矩阵。其中预设主成分是指含量排在前几位的主成分,将标准样品进行近红外光谱数据主成分分析,得到主成分的光谱数据,然后将主成分的光谱数据进行变换得到得分向量,由得分向量组成得分矩阵。步骤120,将所述得分矩阵和化学测量值向量组成综合矩阵。可以理解的是,所述化学测量值通过化学计量方法得到。步骤130,根据综合矩阵计算标准样品的马氏距离。步骤140,通过箱形图对所述马氏距离进行统计,显示异常样本值。请参阅图3,进一步的实施例中,所述投票机制包括步骤310、步骤320、步骤330和步骤340。各个步骤详细如下所述。步骤310,将标准样品在源机上检测的光谱数据进行平滑处理得到源机光谱数据。引入平滑方法可以使源机光谱和目标光谱经过处理最大程度相似,以此来保证基于源极数据所建模型对目标机光谱数据预测的准确性。步骤320,将标准样品在目标机上检测的光谱数据进行预选模型策略处理得到目标机光谱数据。步骤330,根据所述源机光谱数据和所述目标机光谱数据得到全定性相似度和全定量相似度。其中全定性相似度包括夹角余弦相似度,记为sf1,和比率定性相似度,记为sf2,采用夹角余弦相似度和比率定性相似度能过获得准确的近红外光谱主成分的定性评价。步骤340,判断所述预选模型策略是否得到1票,所述判断方法是:当全定性相似度大于等于0.99,同时全定量相似度在97%~103%之间时,则相应的模型转移策略得1票;否则得0票。请参阅图4,进一步的实施例中,所述“根据所述高于预设票数的预选模型策略得到最优选模型策略”包括步骤410、步骤420、步骤430和步骤440。各个步骤详细如下所述。步骤410,将所述高于预设票数的预选模型策略分别用于目标机上检测的光谱数据得到目标机转移光谱数据。步骤420,将所述源机光谱数据、目标机光谱数据和目标机转移光谱数据分别与化学测量值构建预测模型得到化学预测值。可以理解的是,源机光谱数据、目标机光谱数据和目标机转移光谱数据分别对应三种化学预测值。步骤430,根据所述化学预测值和对应的所述化学测量值获得预测误差和相关系数。其中预测误差用rmse表示,相关系数用r表示。可以理解的是,根据三种化学预测值分别与对应化学测量值,得到三种对应的预测误差和相关系数。步骤440,根据所述预测误差和所述相关系数得到最优选模型策略。比较各种预选模型策略所对应的预测误差和相关系数,预测误差越小、相关系数越大,说明模型效果越佳。进一步的实施例中,所述近红外光谱模型转移策略优选方法还包括排除低于所述预设票数的预选模型策略。预先排除得票较低的模型策略,可以减轻计算负担。下面通过具体实施例来说明。实施例1近红外光谱模型转移策略优选方法应用实例-马铃薯一、通过主成分分析-马氏距离(pca-md)法剔除标准样品在源机和目标机上的数据中的异常值。首先,对近红外光谱数据进行主成分分析,获得由含量为前几的主成分的得分向量组成的得分矩阵。然后,将得分矩阵和化学测量值向量组成新的矩阵,并计算各个样本的马氏距离。最后,利用箱形图对所有马氏距离(mahalanobis距离)进行统计,并显示异常样本。pca-md方法对源机和目标机近红外光谱数据的分析结果如图5所示,其中图6是利用箱形图对mahalanobis距离进行统计判断异常值的结果,具体见表1。表1异常样本编号统计结果异常样本来源样本编号样本数源机异常样本编号33,34,44,84,85,90,163,182,185,19410目标机异常样本编号12,34,42,43,44,46,72,80,849总异常样本编号12,33,34,42,43,44,46,72,80,84,85,90,163,182,185,19416将表1中显示的异常样本编号剔除掉。二、建立预选模型策略。将多种近红外光谱数据平滑方法和多种模型转移算法进行排列组合得到多组预选模型策略。本实施例中建立8种预选模型策略,具体如表2所示。表28种预选模型策略三、采样“投票机制”获得得票较高的预选模型转移策略,排除得票较低的预选模型转移策略。在本发明实施例中,将采用全定性相似度、全定量相似度作为相同样本在源机和目标机上光谱数据相似程度的度量。如图7所示,其中黑色实线表示源机上检测的响应值,虚线表示在目标机上检测的响应值,左边表示为经过模型转移侧率处理,右边表示经过模型转移侧率处理,源机与目标机光谱差异很大,经过模型转移后,源机光谱与目标机转移光谱十分相似,从图7中可以看出,源机和目标机原始的光谱数据之间差异很大,经过模型转移处理(对源机光谱进行平滑处理,对目标机光谱进行平滑处理+模型转移处理)后,两条光谱基本重合。从表3中可以看出,模型转移前后的全定性相似度差异不大,全定量相似度差异较为明显,尤其是三级全定量相似度,差异最为显著。因此,全定性全定量相似度可以反映出光谱之间较为可靠的真实相似程度信息。表3标准样本全定性相似度、全定量相似度指标统计表从上述表3可以看,采用模型转移策略后的全定性相似度sf1和sf2均为1,均大于0.99,而全定量相似度中的一级、二级、三级和四级均在97%~103%,即得到1票。将上述表2中的8种预选模型策略分别应用到目标机上,对源极光谱数据进行平滑,选择剔除异常样本值后的92个检测样本,最终得到的投票结果如表4所示。表48种预选模型策略投票结果如表4所示:参与投票的样本总数为92。模型转移前,所有模型转移策略的得票数均为0,说明源机与目标机光谱差异显著;模型转移后,编号为2、4、6、8的策略得票38,显著低于编号为1、3、5、7的策略得票(78)。四、根据8种预选模型策略的票数结果进行预测以得到最优选模型策略。在该实施例中只测试了8种预选模型策略,在数量不大的情况下可将其全部进行预测。将上述8种预选模型策略预测,结果如表5所示。表58种预选模型策略预测结果如表5所示:所有预测模型策略基于源机数据所建模型用于源机光谱数据预测的结果基本符合要求。预测误差都在1.2以内,相关系数都在0.7604以上。所有预测模型转移策略基于源机数据所建模型直接用于目标机光谱数据预测的结果都不太理想。预测误差最高的达到30.731,最低的也有10.727,因此,对目标机直接套用源机模型不合适。不同模型转移策略基于源机数据所建模型用于目标机转移光谱数据预测的结果存在较为明显的差异,编号为2、4、6、8的策略,预测误差最高达到3.2538,最低也有2.0263,相关系数最低为0.2435,最高为0.5216,预测结果不太理想。编号为1、3、5、7的策略,预测误差最高为1.0567,最低为0.9532,相关系数最高为0.8506,最低为0.7786,预测结果基本令人满意。对照表4和表5中的结果可以看出,各策略最终预测的结果的优劣与得票的票数是对应的,即得票较多的策略(编号为1、3、5、7)其预测的结果也是比较令人满意的。因此,在模型转移建模过程中,可以将“投票机制”作为模型转移策略初步筛选手段,将得票较低的策略直接排除。此外,从1、3、5、7号策略的结果来看,未进行平滑处理的策略(编号为1的策略),对训练集(源机光谱、目标机转移光谱)的预测相对于其他策略,具有更大的相关系数0.8601(源机光谱)、0.8506(目标机转移光谱);具体更小的预测误差0.9211(源机光谱)、0.9532(目标机转移光谱)。但对测试集的预测并不一定优于其他策略,有时反而不及,如编号为7的策略对测试集的预测明显优于编号为1的策略。综合比较之后,可以选择编号为7的策略作为最终的模型转移建模方案。此外,从表4的结果还可以看出,平滑处理在一定程度上改善了模型的性能。五、应用策略7建立马铃薯中淀粉含量近红外光谱转移模型马铃薯中淀粉含量的测定按照国标方法《gb5009.9-2016食品安全国家标准食品中淀粉的测定》进行。测得的淀粉含量在7.20~16.5g/100g,平均值为12.5g/100g。土豆模型转移最优策略建模的具体参数信息如表5所示。表6马铃薯近红外光谱模型转移建模策略策略各子模块方法近红外光谱数据平滑kernel模型转移ds数据预处理snv+msc+first-orderderivative建模partialleastsquaresregression评估参数rmse、r预测结果如图8和表7所示。表7中训练集为123个,测试集为61个。表7应用策略7对源机和目标机数据预测结果统计表策略7模型对源机和目标机的数据均有较好的预测性能。相关系数都在0.8000以上,预测误差都在1.0800以内。表8对表7中的相对误差进行了进一步的统计,从中可以看出相对误差15%以内的全部都达到90%以上,10%以内的也都超过了77%。由此,可见,新建的模型基本能符合要求。表8相对误差统计表通过以上验证结果可以看出,本发明所提出的近红外模型转移策略优选方法与预先的设想基本一致。应用该方法能在一定程度上减轻“计算负担”,提高模型转移建模的效率。此外,发明中引入的平滑部分,能在一定程度上改善模型转移模型的预测性能。请参阅图9,本发明提供一种近红外光谱模型转移策略优选装置10,所述近红外光谱模型转移策略优选装置10包括存储器100及处理器200,所述存储器100存储了用于近红外光谱模型转移策略优选的程序,所述处理器200从所述存储器200里读取所述程序,以执行下述步骤。步骤s100,剔除标准样品在源机和目标机上检测的光谱数据中的异常样本值。步骤s200,建立预选模型策略。步骤s300,采用投票机制对所述预选模型策略进行投票,以获得高于预设票数的预选模型策略。步骤s400,根据所述高于预设票数的预选模型策略得到最优选模型策略。所述近红外光谱模型转移策略优选装置10还包括通信接口300,存储器100、处理器200、通信接口300可以通过总线400相互连接。总线400可以是外设部件互连标准总线或扩展工业标准结构总线等。所述总线400可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1