一种假定标样的在线近红外光谱模型的转移方法与流程

文档序号:26007271发布日期:2021-07-23 21:26阅读:216来源:国知局
一种假定标样的在线近红外光谱模型的转移方法与流程

本发明涉及在线测量过程控制技术领域,具体而言,涉及一种假定标样的在线近红外光谱模型的转移方法。



背景技术:

近年来,近红外光谱分析技术发展十分迅速,被广泛应用于农业,化工,食品,制药等多个领域。近红外光谱法具有快速、低消耗、无破坏性、几乎无需样品预处理等优点,可以代替传统的化学分析方法,离线或在线取样测量。但建立近红外预测模型时,需要大量样本的光谱数据和化学成分指标作为模型建立的数据基础,因此,建模过程十分费时并且花费巨大,建模过程结束后,还须不断地从各个流程环节入手,对模型进行循环优化和维护,以提高模型的动态适应性,确保模型长期有效。另外,由于原定量分析模型包含了当下条件的样品状态、测量方式、仪器性能和环境背景等信息,在较长时间间隔之后,仪器的工作环境(如温度、湿度等)变化或生产场地的变化,同一个样品采集的光谱会发生吸光度差异和波长漂移,进而造成预测结果的偏差;在实际应用中,由于仪器之间的硬件差异或测量条件的差异,即使是同一台仪器,关键部件的更换或随着时间的推移,一台仪器上建立的模型往往也不能直接用于另一台仪器,进而影响了近红外光谱预测模型的精度。近红外光谱受测量仪器或测量条件的影响较大,模型转移对近红外光谱技术的实际应用尤为重要。按照是否可以在主仪器(已有模型仪器)和从仪器(待转移模型仪器)上采集一一对应的标准光谱,模型转移可分为有标样模型转移和无标样模型转移。但在实际工业生产中,近红外设备已安装在生产线中,因此难以获得在主仪器和从仪器上均采集相同样品的光谱作为标准标样,而使用目前无标样算法在实际生产过程中模型转移预测效果差。为解决这一问题,本发明使用有标样模型算法:直接标准化(ds)法,结合pca降维,在无法获取标准标样的情况下,创新的使用与从仪器样品化学值相同或相近的主仪器光谱作为假定标样进行有标样转移,解决工业生产过程中无法采集一一对应的标准标样,并且无标样算法预测效果差的问题,实现工业上模型的在线转移。为工业上难以获取一一对应的标准标样的模型转移过程提供了新的思路,实现不同仪器及配件间的模型共享。随着仪器小型化、便携式的发展,和在线近红外光谱仪的广泛应用,模型转移在未来会变得愈加必不可少,节省人力财力物力。



技术实现要素:

为了弥补以上不足,本发明提供了一种方法是对建立的定量分析模型,通过主成分分析降维与直接标准化法(principalcomponentanalysis-directstandardization,以下简称pca-ds方法),实现不同设备或不同使用环境下的模型转移。

本发明是这样实现的:

一种假定标样的在线近红外光谱模型的转移方法,包括以下步骤:

步骤(1)原环境下,主光谱仪采集在线生产样品的近红外光谱数据,同时用容器收集样品液并送与理化室做化学值检测得到待测指标的化学值,共计m组数据。

步骤(2)将步骤(1)收集到的光谱数据和化学值对应整理,并使用spxy方法选择建立定量模型所用的训练数据,训练数据和验证数据比例7:3为最佳。

步骤(3)对步骤(2)得出的训练数据进行预处理方法的选择,比较none、平滑处理(detrend)、去基线(baseline)、msc、snv、一阶求导(1stderivative)、s.g平滑、1d+s.g、1d+detrend、baseline+1d及多种组合等方法,对训练集建立偏最小二乘模型(pls)模型,用训练集相关系数(rc2)、训练集均方根误差(rmsec)、留一交叉验证相关系数(rcv2)、留一交叉验证均方根误差(rmsecv)、验证集均方根误差(rmsep)等指标评估模型的预测能力,其中相关系数越接近1越优,验证均方根误差(rmsec)、交叉验证均方根误差(rmsecv)、验证集均方根误差(rmsep),误差越小越优,最终选择的预处理方法为1d+detrend(offset)+autoscale的组合。

步骤(4)对步骤(2)得出的预处理后的训练数据进行有效波段选择,包括遗传算法(ga)、移动窗口偏最小二乘(mwpls)、间隔偏最小二乘(ipls)、随机蛙(randomfrog)、竞争自适应重加权采样(cars)、无信息变量消除法等方法,选择后的波段建立pls,并比较模型评价指标,确定最优的有效波段选择的方法为ga,采用ga自动选择变量的方法筛选有效的波段范围并剔除冗余信息能够在一定程度上提高模型的准确度和精密度。

步骤(5)对步骤(3)和(4)所建立的模型若不能满足工业用户的误差要求,可选择建立线性的主成分回归(pcr)、多元线性回归(mlr)和非线性方法神经网络(ann)、支持向量机(svm)等模型,模型建立完成,实现在线应用。

步骤(6)新环境下,从光谱仪采集在线生产样品的近红外光谱数据,同时用容器收集样品液并送与理化室做化学值检测得到待检指标的化学值,共计n组数据,且n远小于m。

步骤(7)根据步骤(6)收集到光谱数据和对应的化学值,同样用spxy算法,从n组数据中选出有代表性t1组数据(t1≤n),作为从仪器标样,剩余(n-t1)组数据为验证集。

步骤(8)根据步骤(7)选取的t1组数据的化学值,在步骤(1)的m组数据寻找化学值相等或相近的数据t2组,作为在主仪器的假定标样。

步骤(9)对t1和t2组的光谱数据选择与步骤(3)相同的预处理方法,进行光谱预处理。

步骤(10)对步骤(9)预处理后的t1和t2两组光谱数据矩阵,分别进行主成分分析(principalcomponentanalysis,pca),多维光谱变量进行降维处理,使之能以一个较高的精度转换成低维变量,选择累计贡献率大于85%的主元若干个,作为降维后光谱数据的变量个数,记为st1和st2。

步骤(11)对步骤(10)降维后从主仪器的两组标样光谱,通过直接标准化算法(ds),求得从仪器光谱到主仪器光谱的转移矩阵f,通过如下公式计算:st1=st2×f,f是st2的广义逆。

步骤(12)对步骤(7)的(n-t1)组数据进行验证,与步骤(9)和(10)相同的光谱预处理和主成分降维方法对光谱数据处理后,确保光谱数据降维到同一个空间,通过步骤(11)公式,计算转移后光谱记为s(n-t1)。

步骤(13)对步骤(12)得到的转移后的光谱s(n-t1),进行主成分还原扩展得到正常光谱数据,输入到步骤(5)所建立的主光谱仪在线模型中,得到对应的浓度预测值;

步骤(14)对步骤(13)得到的预测值与步骤(6)所得的化学值进行比较,通过相对误差大小判断所求转移矩阵是否合适。

步骤(15)如果步骤(14)相对误差较大,通过调整步骤(7)所选代表标样和步骤(8)所选假定标样,重新的到转移矩阵,最终的目的是实现验证集(n-t1)组光谱数据的模型预测值与实验室化学值的相对误差满足工业生产要求。

进一步的,步骤(2)和步骤(6)所述的化学方法优选高效液相色谱法(hplc)、分光光度计、折光仪和酸度计,但不限于此,根据生产需求选择化学方法。

进一步的,步骤(3)所述的模型评价参数的计算公式如下:

相关系数:r越接近1越好;

交叉验证均方根误差:越小越好;

预测均方根误差:越小越好;

其中,ci是参考值是预测值,n训练集样本数,m是验证集样本数。

进一步的,步骤(14)所述的相对误差的公式为:相对误差的控制限根据在线生产需求不同,可以按照±3%、±5%或±10%设定。

本发明的有益效果是:

通过主成分分析降维与直接标准化法(principalcomponentanalysis-directstandardization,以下简称pca-ds方法),实现不同设备或不同使用环境下的模型转移。

附图说明

为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明的方法流程图;

图2为口服饮品粗多糖在线模型光谱转移前后对比;

图3为口服饮品粗多糖在线模型光谱转移前后模型预测值与实测值相对误差图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

实施例1、口服饮品粗多糖浓度在线近红外模型转移

(1)口服饮品粗多糖浓度近红外光谱数据的采集。

主光谱仪所处环境是生产车间a,采用傅里叶变换近红外光谱仪,透反射光纤探头采样模式,探头法兰固定插入产品储存罐管道内,产品根据生产计划连续生产,以空气为参比,采集波长范围是1000-2500nm,分辨率为8cm-1,每个样品重复采集三次,三次采集的平均光谱作为该样品近红外光谱。在生产线中采集不同月份、不同批次的口服饮品的近红外光谱数据共200组,理化室内粗多糖浓度采用苯酚-硫酸法测定,粗多糖浓度范围是:5.59-9.16(mg/ml)。a车间的粗多糖含量预测模型的建立,对采集的200组样本的光谱通过1d+detrend(offset)+autoscale的方法进行预处理,对预处理后的数据,通过遗传算法自动选择波段,建立偏最小二乘模型,模型预测值与化学值之间的相对误差可控制±10%之内,满足客户的实际应用要求,模型可成功在线应用。

由于车间的改造,该产品的生产由车间a转移到车间b,属于同一款产品的另一条生产线,且车间a和b所用的在线监控仪器为同一厂家同型号的不同傅里叶变换近红外光谱仪。车间b的光谱仪,称为从光谱仪,分辨率为16cm-1,采样方式和探头安装方式与车间a相同。主从光谱仪除分辨率和所处的生产环境不同,其他均相同。因分辨率不同,对主光谱通过间隔取点的方法降低分辨率,由8分辨率,降低为16分辨率,表现在光谱数据中,每条光谱本有1557个点组成,减少为778个点组成,重新建立粗多糖浓度预测模型,并通过验证可成功在线应用。

车间b的从光谱仪,生产线中采集不同月份、不同批次的口服饮品的近红外光谱数据共60批,并同时收集60批样本送于理化实验室,用苯酚-硫酸法测定粗多糖实际浓度值,得到粗多糖的浓度范围是6.49-7.8(mg/ml)。这样60组样本光谱的采集和理化指标的获得等工作量远小于对200组样品的处理。

使用spxy方法对60批近红外光谱数据和化学值进行分组,得出代表性标样和验证集,数据比例为1:4时建模效果最佳,所以分组后代表标样12组,验证集48组。

(2)假定标样的选择

选出的12组从光谱仪的代表性标样,根据本发明所述步骤(8)的方法在主光谱仪的200组样本中选择12组,作为假定标样。然后进行主成分分析,选择4个主元个数,从而达到单个光谱的维数从778维降维到4维的目的。

(3)求转移矩阵

通过本发明所述pca-ds算法,关联12组代表标样和假定标样的相关关系,求出转移矩阵f。

(4)求转移后的光谱

对48组验证集的从光谱仪进行转移,按照下式计算:sm=ss×f,sm转移后光谱矩阵,ss转移前光谱矩阵,并通过pca扩展转换成与主光谱仪环境一致的光谱,见附图2,使得主光谱仪建立的模型可成功应用于车间b的从光谱仪。

(5)模型对验证集的预测

把48组验证集样品转移后的近红外光谱数据输入到主机光谱仪上建立的近红外粗多糖模型中,得到验证集的粗多糖预测值,预测结果见表1。

表1口服饮品48批验证集样品粗多糖预测结果

表1是主仪器的近红外模型对48组验证数据的预测结果,所有数据的相对误差均控制在±10%以内,最大绝对偏差为-0.609,平均绝对偏差为-0.0095;最大相对误差为8.22%,平均相对误差为0.02%,预测结果误差较小。可得出,主仪器建立的模型,可成功应用于从仪器,避免从仪器模型的重复建立,减少工作量,降低成本。

以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1