一种生物制品近红外模型转移方法与流程

文档序号:15460717发布日期:2018-09-18 18:04阅读:252来源:国知局

本发明涉及属于生物血液制品生产过程质量控制技术领域,涉及一种生物制品近红外模型转移方法。



背景技术:

近红外光谱(NearInfraredSpectroscopy,NIRS)是介于可见光(Vis)和中红外(MIR)之间的电磁辐射波,美国材料检测协会(ASTM)将近红外光谱区定义为780-2526nm的区域,是人们在吸收光谱中发现的第一个非可见光区。作为广泛使用的过程分析技术(ProcessAnalyticalTechnologies,PAT)工具,近红外光谱分析技术由于快速无损,环境友好型等特点,在制药、食品,农业领域的具有潜在的应用价值,可实现含量测定、无损定性分析,更在现场检测,在线控制等功能。近红外光谱分析法的一般应用流程为光谱采集、光谱预处理和模型的建立。傅立叶变换近红外光谱仪(FT-NIR)是实验室中常用的分析型的近红外光谱仪,其有着精确度高,重复性好,分辨率高等优点,然而与之相应的是较高的设备使用和维护成本,且较难应用于现场检测。近几年来,随着现场检测、在线生产工艺条件的要求,微型便携式的近红外光谱仪器发展迅速,例如微型近红外光谱仪(MicroNIR1700),其主要特点就是体积小,价格较便宜,与FT-NIR相比灵敏度低,波段范围窄,准确性相对差一点。一个稳健的模型的建立过程是十分复杂和繁琐的,并且成本高昂。

近红外的模型转移技术(calibrationtransfertechnology)是在现代近红外光谱分析技术的应用过程中为不断提高模型的适用性而发展起来的一项新技术,其目的是将在一台仪器上建立的校正模型稳健的移植到其它同类型或不同类型的仪器上使用,从而提高模型的适用性或提高同台仪器所建模型的精度。众所周知,在光谱采集过程中,仪器的稳定性存在多个影响因素,这些影响因素将直接影响到模型的适用性能。同时建立近红外校正模型时往往需要测量大量样本的化学值或基础性质作为数据基础,投入大,成本高,因此使用模型转移技术实现模型共享和有效利用非常必要。模型转移可克服样本在不同仪器上的量测信号(或光谱)间的不一致性,通过信号处理以消除仪器对量测信号的影响,不仅使已有模型具有较好的动态适应性,而且可以减少因重复建模造成的人力、物力、财力以及时间的浪费。且先前更多的研究都是同一厂家的仪器模型转移,因仪器内部结构相似,难度不大。不同厂家仪器的模型转移研究涉及少,内部结构差距大,转移后用于验证的样本量很大等难点。这也是使用者一般不轻易换厂家的原因,最近这些问题已引起人们的广泛关注。

模型转移是以高精度的分析型近红外光谱仪为主仪器(masterinstrument),以便携式微型近红外光谱仪为辅仪器(salveinstrument)。目前模型转移算法主要有2大类:有标样算法和无标样算法。有标样算法须选择一定数量的样本构成标样集,同时在主仪器和从仪器上分别测得样本的光谱信号,找出函数关系,如DS(directstandardization)算法、PDS(piecewisedirectstandardization)算法、PRS(piecewise reverse standardization)算法和Shenk's算法等。无标样算法即不需要任何样本,主要以FIR(finiteimpulseresponse)算法为代表。通过这些算法可以将一台仪器上建立的模型可靠的移植到其他仪器上使用,或者将某一条件下建立的模型适用于同台仪器的其他条件下的光谱数据,同时通过此算法对光谱数据不断修正,去除样本中的异常值,消除仪器变动和环境等因素引起的仪器光谱数据的漂移,然后再对修正后的光谱数据建模,从而提高模型的预测准确度和精度。本文涉及的模型转移算法为PRS,是基于PDS算法改写而来,即将主仪器(FT-NIR)的光谱转移成辅仪器(Micro NIR 1700)的光谱。由于两种仪器之间的波长数及数据点数不同,在模型转移前,需要选取适当的校正样本参与光谱转移和建模。理想的校正集应满足以下几个条件:(1)样本光谱特征及性质范围应能涵盖未知样本的光谱特征;(2)样本的物化参数应该是均匀分布的。但在实际测量过程中,样本的成分含量分布不是均匀分布的,而是呈正态分布,高成分和低成分含量的样本较少,中间含量的样本相对集中。若这些样本不加选择直接参与校正模型的建立,预测时可能产生回归预测结果趋向中心值效应(Dunneeffect)。常用的校正集选择方法有Sample set partitioning based on joint x-y distance(SPXY)、Kennard Stone(KS)和Rank-Kennard Stone(Rank-KS)。



技术实现要素:

为了解决上述问题,本发明提供了一种生物制品近红外模型转移方法。本发明采用Rank-SPXY校正样本集划分方法,在此基础上,结合模型转移的PRS算法实现了不同分辨率不同波长点数主辅仪器的模型转移,建立了用于定量预测的偏最小二乘回归(partial least squares regression,PLSR)模型。形成了Rank-SPXY-PRS的模型转移策略,并成功用于生物制品生产血浆醇沉过程中总蛋白的含量测定研究。

为实现上述目的,本发明采用以下技术方案:

本发明目的之一,提供一种生物制品近红外模型转移方法,包括以下步骤:

(1)分别主仪器和辅仪器采集生物血液制品生产中的血浆醇沉过程中总蛋白原始样本的NIR光谱;

(2)使用Rank-SPXY方法对所获得的样本光谱进行校正集的选择,其中校正集用于定量模型的建立,验证集用于验证模型的预测能力;

(3)利用PRS算法对采集的FT-NIR光谱进行模型转移,将FT-NIR光谱转移成同MicroNIR 1700同波长区间的光谱,并与Micro NIR 1700的原始光谱进行拟合对比;

(4)进行光谱预处理;

(5)建立PLSR模型;

(6)对近红外校正模型转移后的预测效果进行评价分析。

本发明通过对参与模型转移的校正样本进行选择,并结合PRS算法进行光谱转移,使建立的模型更加稳定可靠。采用Rank-SPXY方法划分校正集与验证集,与已有方法KS,SPXY和Rank-KS相比,该方法划分的样本集空间分布比较合理,且利用建立的PLSR模型评价参数也证明了该方法的优越性。本发明对模型转移PRS算法的光谱窗口宽度进行探讨,发现选择窗口宽度为7。本发明通过对比一阶导数(FD),二阶导数(SD)、平滑(Smoothing)、标准归一化(SNV)、多元散射校正(MSC)和标准化(autoscale)单独或组合运用对光谱预处理光谱转移后的PLSR模型性能参数的影响,发现采用Rank-SPXY的校正样本划分方法+一阶导数+SG 15点平滑+标准化组合方法预处理后所建立的模型预测能力较好。本发明将模型转移后的PLSR模型同原始FT-NIR光谱建立的PLSR模型和原始Micro NIR 1700光谱建立的PLSR模型进行对比,模型转移后光谱的质量和模型的预测能力都有所提高。

本发明目的之二,提供一种近红外光谱分析模型,所述模型由以上方法建成。

本发明目的之三,提供所述近红外光谱分析模型在生物血液制品生产中的血浆醇沉过程中总蛋白含量测定中的应用。

本发明的有益效果为:

本发明一种生物制品近红外模型转移方法,采用Rank-SPXY方法划分校正集与验证集,选择出的校正样本参与后期的模型转移,使得最终获得的PLSR模型预测能力得到了提高;作为模型转移的重要关键步骤之一,与传统的校正样本划分方法相比,该方法获得更加有效的校正样本,样本空间分布均匀,且建立的近红外模型预测能力更强。同时与PRS组合形成的模型转移策略也缩短质检时间,节省人力财力物力。该方法的建立有助于模型转移在生物血液制品生产过程参数的监测应用,保证血液制品的批间一致性,提高药品的安全性与有效性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为血浆醇沉过程中收集样本的NIR光谱(A:a:FT-NIR采集样本的原始光谱,b:Micro NIR 1700采集样本的原始光谱;B:统一横坐标(波长)参数下的光谱对比,c:FT-NIR光谱,d:Micro-NIR 1700光谱);

图2为四种划分校正样本方法的样本PCA空间分布比较(a:SPXY;b:KS;c:Rank-SPXY;d:Rank-KS。黑点和灰点分别代表校正集和验证集);

图3为本发明所使用的PRS模型转移算法和基础PDS算法原理和比较;

图4为本发明中对FT-NIR进行光谱转移后所得光谱与原始Micro-NIR 1700采集光谱的对比;

图5为本发明获得的模型转移后的最佳血浆醇沉过程中总蛋白含量PLSR预测模型图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术所介绍的,现有技术中普通的模型转移样本集划分方法有待创新和提高,从而建立更优的模型转移PLSR近红外预测模型,为了解决如上的技术问题,本申请提出了一种更有效的生物制品近红外模型转移方法,包括以下步骤:

(1)分别主仪器和辅仪器采集生物血液制品生产中的血浆醇沉过程中总蛋白原始样本的NIR光谱;

(2)使用Rank-SPXY方法对所获得的样本光谱进行校正集的选择,其中校正集用于定量模型的建立,验证集用于验证模型的预测能力;

(3)利用PRS算法对采集的FT-NIR光谱进行模型转移,将FT-NIR光谱转移成同MicroNIR 1700同波长区间的光谱,并与Micro NIR 1700的原始光谱进行拟合对比;

(4)进行光谱预处理;

(5)建立PLSR模型;

(6)对近红外校正模型转移后的预测效果进行评价分析。

优选的,步骤(1)中近红外光谱采集参数为:

所有主仪器光谱数据由Antaris II FT-NIR光谱仪的透射模块进行原始近红外光谱的采集,将样本装载于内径为3-5mm的玻璃小管中;光谱的扫描范围为10000-4000cm-1,分辨率为6-10cm-1,扫描次数为30-34次,以空气作为参比,每小时采集一次背景。

优选的,步骤(1)中近红外光谱采集参数为:

所有主仪器光谱数据由Antaris II FT-NIR光谱仪的透射模块进行原始近红外光谱的采集,将样本装载于内径为4mm的玻璃小管中;光谱的扫描范围为10000-4000cm-1,分辨率为8cm-1,扫描次数为32次,以空气作为参比,每小时采集一次背景。

优选的,步骤(1)中近红外光谱采集参数为:

所有辅仪器光谱数据是由Micro NIR 1700微型近红外光谱仪采集得到;光谱扫描范围780-1650nm,光程1mm,以空比色皿为参考,积分时间为30000us。

优选的,步骤(2)Rank-SPXY方法为:将样本按因变量数目进行排序,然后将样本等分为m份;选择样本后,再利用SPXY公式进行后续校正样本选择;其中校正集样本个数与验证集的样本个数比为2:1。

优选的,步骤(3)中通过利用皮尔逊相关系数rij分析得到模型转移的窗口宽度为7-9。

优选的,步骤(3)中通过利用皮尔逊相关系数rij分析得到模型转移的窗口宽度为7。

优选的,步骤(4)光谱预处理方法为:将一阶导数、SG 15点平滑和标准化组合用于光谱预处理。

本发明目的之二,提供一种近红外光谱分析模型,所述模型由上述方法建成。

本发明目的之三,提供近红外光谱分析模型在生物血液制品生产中的血浆醇沉过程中总蛋白含量测定中的应用。

为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例详细说明本申请的技术方案。

1血浆醇沉过程实验和样本总蛋白含量参考值测定

原料血浆在4℃条件下添加醋酸缓冲液调节血浆pH为5.95±0.05,称取此时血浆溶液质量,根据质量计算所应添加的95%乙醇体积。随后在低温反应仪中进行血浆醇沉过程,温度设定和实际生产反应温度一致,为-4.5℃。每个批次取100mL血浆上清置于250mL的圆底烧瓶中,当温度为0℃开始加乙醇,恒流泵加入无水乙醇的速度为0.875mL/min。醇沉开始前以及醇沉过程中每隔2min取样0.3mL用于蛋白含量的测定。一个批次的醇沉时间为40min,共得到21个样本,一共进行8个正常批次的醇沉过程,共得168个样本。所得样本进行离心(6000rpm*15min),取其上清液进行总蛋白含量的分析。总蛋白含量测定方法为双缩脲法,所有样本均委托金域医学检验中心进行相关含量的测定,使用的仪器为贝克曼AU 5800型全自动生化分析仪。

2主仪器和辅仪器的NIR光谱采集

所有主仪器光谱数据采用Antaris II FT-NIR光谱仪(后文简称FT-NIR)的透射模块进行原始近红外光谱的采集,将样本装载于内径为4mm的玻璃小管中。光谱的扫描范围为10000-4000cm-1,分辨率为8cm-1,扫描次数为32次,以空气作为参比,每小时采集一次背景。获得主仪器光谱见图1A中的(a)谱图。

所有辅仪器光谱数据是由Micro NIR 1700微型近红外光谱仪采集得到的。光谱扫描范围780-1650nm,光程1mm,以空比色皿为参考,积分时间为30000us。每个样本采集3次光谱,取平均光谱为最终光谱。获得辅仪器光谱见图1A中的(b)谱图。

将两种光谱的横坐标统一单位为波长进行光谱比较,见图1B谱图。血浆原料经醇沉操作后所得溶液主要成分除水、乙醇之外即蛋白质,其中C-H基团的伸缩和变形振动主要在3950-4400cm-1(2273-2532nm),C-H伸缩振动的二级倍频位于5700-5850cm-1(1709-1754nm),N-H伸缩振动的二级倍频位于6500cm-1(1538nm),6900cm-1(1449nm)为水的O-H伸缩及变形振动的二级倍频,8100cm-1(1235nm)为C-H伸缩振动的三级倍频。

3校正样本划分方法的比较

KS法划分样本集的原理为:首先计算所有样本两两之间的欧氏距离,选择距离最远的样本作为校正集,然后计算剩余样本与选定的样本间的距离,最短距离中相对较长距离的被选入验证集,具体见公式(1)。

SPXY是在KS法的基础上发展而来的,实验证明SPXY法能够有效地用于NIR定量模型的建立。其优点在于将Y的信息加以考虑,能够有效地覆盖多维向量空间,从而改善所建模型的预测能力。SPXY在样本间距离计算时将x变量和y变量同时考虑在内,加了距离公式(2)。同时SPXY方法用dxy(p,q)代替了dx(p,q),同时为了确保样本在x和y空间的具有相同的权重,将dx(p,q)和dy(p,q)分别除以它们在数据集中的最大值,因此标准化的dxy(p,q)的距离公式为(3):

Rank是把数据按照大小排列,并且分成m段,从每一段中选取一定n个样本作为校正集,可以保证样本集选取的均匀性,参考公式(4,5)

Rei∈[ymin+(i-1)*D,ymin+i*D],i∈[1,m] (5)

将Rank和SPXY结合,即对样本数据划分m段,以一定比例选择样本后,再利用SPXY公式进行后续校正样本选择。利用Rank-SPXY方法选择样本集划分方法是一种新的尝试,本文将对此尝试的结果同常规样本集划分方法(KS法、SPXY法、Rank-KS法)进行对比,验证该校正样本划分方法的优良性。

样本以2:1的比例进行划分。表1为不同方法选择得到的样本集信息,结果显示Rank-KS法及Rank-SPXY选择的校正集和验证集有相近的SD值且均值相差较小,验证集的浓度范围居于校正集的浓度范围内,结果较优。但是Rank-KS法由于没有考虑Y,因此选择的验证集的浓度范围并不完全在校正集的浓度范围中。为优选出最佳的样本集划分方法,对四种划分方法得到的样本进行样本PCA分布进行分析,分布结果如图2所示。图2(a)(b)(d)中SPXY、KS和Rank-KS法样本集划分结果图中,在黑色的圆圈中仅包含校正集样本而未有验证集样本包含其中,说明此区域样本集的选择结果不是最优,未达到验证集样本均匀分布于校正集的要求。图2(c)Rank-SPXY法样本集划分的结果图,可见验证集样本较均匀的分布于校正集样本中。

表1不同样本集划分方法参数比较

4模型转移

模型转移PRS算法是基于PDS方法提出的,具体原理和区别见图3。PRS与PDS算法都是一种常用的多元校正模型传递方法,它的局部校正和多变量特性使其优于其它的模型转移算法,能够同时对吸光度强度的变化、波长点偏移和谱峰展宽进行校正。

具体为:首先在转化光谱的第i个波长点左右扩展一个窗口(i-k,i+w),令Zi表示转化光谱从i-k到i+w共k+w+1个波长点的吸光度矩阵:

Zi=[As,i-k,As,i-k+1,…,As,i+w-1,As,i+w] (6)

然后将目标光谱的第i个波长点吸光度Am,i与Zi构造一个多元回归模型:

Am,i=Zibi+ei (7)

此方程由PLSR方法求解。将所有的回归系数bi置于转换矩阵F的主对角线上,并将其它元素置为0,得到一个对角形矩阵F(假设有P个波长点):

F=diag(b1T,b2T,…,biT,…,bpT) (8)

其计算公式(6)中Ai,k为第i个样本光谱第k个波长点对应的吸光度值。对角形矩阵F作用转换矩阵,将待转化光谱转换成所需与目标光谱相匹配的光谱。

随后根据FT-NIR光谱特性选择一个窗口宽度,从而建立窗口宽度中的光谱数据与Micro NIR 1700中光谱对应点的PLSR模型。窗口宽度在PDS算法中是重要的参数之一。本文引用公式(9)为皮尔逊相关系数rij,根据i,j之间的相关性确定最佳窗口宽度。xi为主仪器第i个样本光谱y轴的平均值,yi为辅仪器第i个样本光谱y轴的平均值,k=1,2,…,m,m为波长点数。r值越接近1,说明i与j之间越相近,拟合结果越好,此时的窗口宽度最佳。

实验考察了7-21之间的奇数窗口宽度对模型转移结果的影响。表2是对转移前后950-1650nm全波段区间各个对应的波数转化前后的相关系数进行统计分析,结果发现,随着窗口宽度的增加,相关系数不断下降,均方差和方差不断增大,因此,最终选择窗口宽度为7。

主仪器光谱转移成波长区间为950-1650nm的转移光谱见图4。对模型转移后的光谱与原始Micro NIR 1700光谱进行拟合操作,发现Micro NIR 1700的原始图谱与模型转移后的NIR光谱图,两者拟合情况较好。且两种图谱相比,模型转移后的样本图谱的波动差异明显比Micro NIR 1700的样本间原始图谱小。

表2全波段(950-1650nm)不同窗口宽度数的相关系数统计值

5预处理方法选择

本研究对比了导数(FD和SD)结合平滑(Smoothing)、SNV、MSC和autoscale等光谱预处理方法,同时组合校正样本划分方法一起建立PLSR模型,考察了提出的新样本集划分方法和普通方法的模型预测能力对比。表3为样本集划分方法和预处理方法组合建模预测参数,以RMSEP作为模型的主要评价参数,通过模型参数比较发现,以样本划分方法为Rank-SPXY法,预处理为一阶导数+SG 15点平滑+标准化时的模型最优。

表3不同校正样本划分方法和不同预处理方法PLSR建模参数对比

6PLSR建模结果对比

表4为主仪器、辅仪器和模型转移后建立的PLSR模型参数比较,经过校正样本划分和光谱预处理后,模型的Rc2和Rp2较无处理时建模明显提高,RMSEP明显下降,模型转移后的PLSR模型比原始主仪器和辅仪器建立德PLSR模型预测能力都有所提高。综合整个实验,说明提出的Rank-SPXY校正样本划分方法更有效,同时组合的Rank-SPXY-PRS模型转移策略可以提高模型的有效性。血浆醇沉过程模型转移后总蛋白含量测定的最佳PLSR模型的LVs=1,Rp2=0.8395,RMSEP=0.934g/L,PLSR预测模型图见图5。

表4.主仪器、辅仪器和模型转移后建立的PLSR模型参数比较

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1