一种利用相关系数进行药品库数据处理的方法与流程

文档序号:11675975阅读:276来源:国知局
本发明涉及数据库管理
技术领域
:,特别涉及一种利用相关系数进行药品库数据处理的方法,即取自药品的近红外光谱数据整合、构建成库、并应用于未知药品理化指标快速测定的方法。
背景技术
::近红外光谱检测技术具有非破坏、无前处理、无污染、实时等特点,在制药、药品监管工作中已被广泛应用,包括原料药的分析、制药过程中间体的分析、药物制剂的分析,甚至包括带包装药品的分析。然而,目前的近红外检测技术一般依赖于所建立的校正分析模型,而建立模型需要对大量代表性样品进行理化值测量、有效光谱采集并借助化学计量学搭建两者函数关系,需要消耗大量时间、人力、物力和财力,是近红外技术发展过程中的一大难题。另一方面,目前很多药检机构、药企的大量现成数据得不到合理有效利用,从而造成资源浪费,因此,如何高效利用已测药品大量现成数据是近红外技术在药检领域得以快速应用与分析的重要渠道之一。此外,目前,针对近红外现有数据的利用一般基于原有模型的更新或转移。对于模型更新,通常添加与原校正样本存在差异的新样本到模型中,以确保更新后的模型适用于新待测对象;对于模型转移,往往通过信号处理以消除不同仪器对量测信号的影响,以实现转移后的模型适用于新仪器预测。上述两种方式,不仅需要尝试大量复杂的算法,而且变换后模型的适用性、准确性仍比较有限,不能从根本上解决建模时投入大、成本高的难题,需要寻求更加有效的方法来弥补近红外光谱技术在实际应用中的弊端。技术实现要素::本发明的目的在于提供一种利用相关系数进行药品库数据处理的方法,在已有药品库药品已统一测量近红外光谱和药检理化值的基础上,利用近红外光谱间相关系数来整理和构建药品近红外光谱数据库,并应用该数据库快速、准确的建立待测对象及所需指标的预测模型,一方面对目前药检机构、药企的大量现成数据进行合理有效利用,避免造成资源浪费,同时还解决现有技术中近红外模型建立需要对大量代表性样品进行理化值测量、有效光谱采集并借助化学计量学搭建两者函数关系、需要消耗大量人力、物力和财力的问题;另一方面,通过将待测样本与大批量原始样本进行比对,快速筛选出最合适的、且具有代表性的建模集,使待测对象预测模型的精度有所提升,解决了近红外模型普适性有限的难题。为实现上述技术目的,本发明采用的具体技术方案如下:一种利用相关系数进行的药品库数据处理的方法,即取自药品的近红外光谱数据整合、构建成库、并应用于未知药品理化指标快速测定的方法,其中已有药品库的所有药品已统一测量近红外光谱和药检理化值,其特征在于,包括基于已有药品库的近红外数据构建药品光谱库和应用所构建光谱库快速分析待测药品品质的两大部分:第一部分,基于已有药品库的近红外数据构建药品光谱库,具体包括如下步骤:步骤一、药品分类:按剂型划分药品,整理出同一剂型的所有药品作为该剂型数据库的原始样品,每个剂型下按品种分类,用于后续分剂型建立药品近红外光谱库;步骤二、数据调取:从已有药品库调取某剂型下所有样品的近红外光谱和所需理化指标;步骤三、确定基准光谱l:选取该剂型现有品种中的任意一个品种,取该品种所有样品的平均光谱作为该剂型光谱库的基准光谱l;步骤四、计算相关系数r:确定基准光谱l后,分别计算该剂型下所有样品光谱li,j与基准光谱l的相关系数r,计算公式为:其中,m为该剂型下的品种总数,n为指定品种下的样品总数;数值按实际情况而定。本步骤的主要目的是计算光谱间相似性,目前大家常用的光谱之间相似性的度量方法如欧式距离、马氏距离、光谱角等,此处均适用,方法同相关系数法,所以不再详细描述;步骤五、计算区段频数ni:以0.1%作为一个区段间隔,将计算所得的相关系数r进行区段划分,分品种统计落入每个区段的样品数作为该品种在该区段的频数ni。例如,分析第k个品种,即i=k,假如k品种中三个样品光谱与基准光谱l的相关系数分别为98.69、98.78%、98.73%,则落入98.60-98.69%区段的有一个样品,其数值为98.69%,即该区段的频数为1;而落入98.7%(即98.70~98.79%)区段的有两个样品,其数值为98.78%和98.73%,即该区段的频数为2;步骤六、构建光谱库:以相关系数r为横坐标,频数ni为纵坐标,做该剂型不同品种所有样品的分布图,作为该剂型的原始光谱库;步骤七、重复步骤三至步骤六,建立已有药品库中其他所有剂型的原始光谱库,至此,基于已有药品库的近红外光谱数据库的构建完成。第二部分,应用所构建光谱库快速分析待测药品的品质,具体包括如下步骤:步骤a、依据待测药品的剂型确定匹配的原始光谱库:明确待测药品的剂型,确定与该剂型吻合的原始光谱库;步骤b、选定待测药品的检测样本:在待测药品中随机选取若干数量样品作为待测新样本;步骤c、扫描待测样品光谱:扫描待测新样本,获取每个样品的有效近红外光谱,并计算这些光谱的平均光谱步骤d、查找“相似品种”:计算待测新样本的平均光谱与对应原始光谱库中现有品种各平均光谱的相关系数r,将原始光谱库中与相关系数r>96%的品种,定义为相似品种。可优先关注光谱库中与待测品种同一测量方式下(有、无带包装等)的品种。步骤e、查找“可参考样本”:根据相似品种所有样品在原始光谱库中的分布,查找出被相似品种分布区域覆盖的待测新样本,定义为可参考样本;步骤f、确定待测理化指标,从已有药品库调取相似品种所有样品对应的理化值,并用标准方法测量可参考样本对应的理化值;因可参考样本数量较少,可在保证模型有效的前提下,减少大量理化数值测量的麻烦;步骤g、统一建模:利用步骤d确定的相似品种和步骤e确定的可参考样本的近红外光谱和理化值,建立预测模型;步骤h:扫描剩余所有待测药品的近红外光谱,利用步骤g建立的预测模型快速得出所有待测药品的理化值,以确定待测药品的品质,筛查出质量有问题的药品个体。作为本发明的优选技术方案,所述药品的剂型为胶囊剂、片剂、颗粒剂或粉针剂。进一步的,所述胶囊剂、片剂、颗粒剂的近红外光谱扫描为隔包装盒或包装袋(如隔铝塑)测量,或者直接接触测量;粉针剂的近红外光谱扫描分为隔包装瓶(如隔西林瓶)测量,或者直接接触测量。进一步优选的,所述理化指标为每个品种在指定剂型下药典所规定的药检指标,包括药物活性成分(activepharmaceuticalingredients,api)含量、纯度、水分或平均装量。进一步优选的,在第一部分步骤二中或第二部分步骤c中,近红外光谱的采集方法为:运用bruker公司的matrix-f型ft-nir光谱仪进行采集,光谱的采集范围为12000~4000cm-1,分辨率为8cm-1,对每个样品扫描6张光谱,每张光谱扫描32次,环境温度为室温;光谱仪采用ingaas检测器,使用光纤附件对样品采集漫反射光谱;对每个样品的6张扫描光谱取平均,以平均光谱作为每个样品的原始光谱。进一步优选的,第一部分步骤四中,数值r中百分号前的数值保留至小数点后两位,相应的,第二部分步骤d中,数值r百分号前的数值也保留至小数点后两位,例如98.69%、98.78%、98.73%等。进一步优选的,第二部分步骤b中,检测样品的数量至少为30个。进一步优选的,第二部分步骤e中,待测品种中可参考样本的数量为10个以上,若选用的样本量不足以满足该条件,则通过添加其他新样本光谱来达到预期;若由于光谱库中相似品种的样品量过大导致模型偏态,则采用主成分分析法选择适量的相似样本。通过上述两种方式,使得待测新样本的可参考样本与相似品种的相似样本的数量比值不小于1:5,且用于步骤g中建模的总样本量不少于60个。进一步优选的,第二部分步骤g中,建立预测模型时,可以使用bruker公司提供的opus操作软件(版本7.0),首先采用预处理方法转换光谱;然后选择建模波段;最后统一建模,并随机验证模型优劣,确定最终预测模型。进一步优选的,所述预处理方法包括一阶导和适量归一化,窗口大小为17;采用多组合建模比较方式确定最佳建模波段;采用内部交叉验证和外部验证相结合的方式进行模型优劣验证,内部交叉验证采用留一法;统一建立偏最小二乘回归(partialleastsquaresregresssion,pls)定量模型。本发明主要技术原理如下:近红外光主要是对含氢基团振动的倍频和合频吸收,包含了大多数有机化合物的组成和分子结构的信息,若两样品的组成中,其主要含氢基团的类型和数量相似,即使结构不同,这两个样品的光谱仍具有一定的相似性,在建立近红外模型时,利用相似含氢基团的近红外峰可以实现不同结构物质统一建模并预测相同性质(如含量等)的功能。若样品的组成较复杂,由混合物构成,可根据光谱的相似性从光谱库快速筛选出相似的混合物样本,并统一建模来预测化合物组成不同的样品。与现有技术相比,本发明的技术优势在于:1、建模速度快,模型建立与维护成本低本发明建模过程简单,充分利用已有的大量药品数据,仅需测量待测品种少数几个样品的光谱和指定指标,便可建立高精度的定量模型,而被检测过的样品,其信息又可以添加到药品库,实现数据库的不断完善。这种以相关系数为手段建立药品近红外光谱库并充分应用的方法,能够快速完成待测品种模型的建立,大大降低了模型建立过程中检测成本和时间的消耗,而药品信息简单存储和快速获取的形式为模型维护提供了便利,极大降低了建模的复杂程度。2、测定准确率高本发明既充分利用了原有药品数据,也联系了待测对象特征属性,后期通过大量的运算对本方法的有效性进行了检验,包括建立了片剂api和粉针剂水分定量模型,校正算法采用常规的pls模型,结果分别如表2和表4所示,模型精度分别达到了r2=95.86,rmsep=1.96,bias=0.0147,rpd=4.92;同时r2=99.13,rmsep=0.22,bias=0.0255,rpd=10.8,预测效果好。3、实用性强本发明光谱库适用于所有药品,局限性小,大大提高了近红外光谱技术用于药品快检的实用性,满足实际应用的需求。4、开放性强本发明光谱库不仅能充分利用现有药品数据,后期获取的所有药品数据均可方便的载入光谱库,并随同光谱库用以未知样品的预测,不限制检测单位、测量时间、分析品种等,随用随取,具有很强的开放性。综上,上述药品近红外光谱数据库构建与应用方法,充分发挥已有药品库光谱数据和理化指标数据的作用,解决近红外光谱技术推广过程中建模困难、且已有模型普适性低的技术难题;还有效解决了药品快检中品种杂、批次多、任务量大的难点问题。附图说明通过结合以下附图所作的详细描述,本发明的上述和/或其他方面和优点将变得更清楚和更容易理解,这些附图只是示意性的,并不限制本发明,其中:图1是本发明涉及的实施例1中以“司帕沙星片-铝塑”平均光谱为基准的片剂光谱库;图2是本发明涉及的实施例1中利用片剂光谱库中相似品种建模预测青霉素v钾片的交互验证结果图;图3是本发明涉及的实施例1中利用片剂光谱库中相似品种建模预测青霉素v钾片的外部验证结果图;图4是本发明实施例1中添加可参考样本后相似品种建模预测青霉素v钾片的交互验证结果图;图5是本发明实施例1中添加可参考样本后相似品种建模预测青霉素v钾片的外部验证结果图;图6是本发明涉及的实施例2中以“注射用盐酸头孢吡肟”平均光谱为基准的粉针剂光谱库;图7是本发明涉及的实施例2中利用粉针剂光谱库中注射用头孢噻肟钠建模预测待测品种的交互验证结果图;图8是本发明涉及的实施例2中利用粉针剂光谱库中注射用头孢噻肟钠建模预测待测品种的外部验证结果图;图9是本发明涉及的实施例2中利用粉针剂光谱库中注射用头孢曲松钠建模预测待测品种的交互验证结果图;图10是本发明涉及的实施例2中利用粉针剂光谱库中注射用头孢曲松钠钠建模预测待测品种的外部验证结果图。具体实施方式在下文中,将参照附图描述本发明的利用相关系数进行药品库数据处理的方法的实施例。此记载的实施例为本发明的特定的具体实施方式,用于说明本发明的构思,均是解释性和示例性的,不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案,这些技术方案包括采用对在此记载的实施例的做出任何显而易见的替换和修改的技术方案。本说明书的附图为示意图,辅助说明本发明的构思,示意性地表示各部分的形状及其相互关系。请注意,为了便于清楚地表现出本发明实施例的各部件的结构,各附图之间并未按照相同的比例绘制。相同的参考标记用于表示相同的部分。下面结合具体实施例对本
发明内容作进一步的解释。本发明涉及实施例均按剂型划分光谱库,选用代表性国家基本药物来完成光谱库的构建及应用,并在应用方式中区分不同品种不同指标、不同品种同一指标的定量过程。其中,本发明涉及的实施例1的剂型为片剂,选用青霉素v钾片为待测品种;实施例2针对剂型为粉针剂,选用注射用盐酸头孢吡肟为待测品种。由于本发明中符合要求的不同剂型、不同品种光谱库建立和使用方法基本一致,所以不作一一列举。下面以测定青霉素v钾片的api和注射用盐酸头孢吡肟的水分为例,详细介绍本发明的内容。两个实施例中,药品近红外光谱运用bruker公司的matrix-f型ft-nir光谱仪进行采集。光谱的采集范围为12000~4000cm-1,分辨率为8cm-1,对每个样品扫描6张光谱,每张光谱扫描32次,环境温度为室温。光谱仪采用ingaas检测器,使用光纤附件对样品采集漫反射光谱。对每个样品的6张扫描光谱取平均,以平均光谱作为每个样品的原始光谱。实施例1:片剂近红外光谱库的构建与应用第一部分,片剂近红外光谱库的构建片剂(tablets)系指药物与适宜的辅料混匀压制而成的片状固体制剂,它是现代药物制剂中应用最为广泛的品种之一,口服用片剂分为:片剂、包衣片、泡腾片、咀嚼片、分散片、缓释片、控释片、多层片、口腔速崩片。整理出现有已有药品库中的片剂品种(m=4),包括司帕沙星片(n=73个,光谱采集方式:隔铝塑或直接接触测量)、克拉霉素缓释片(n=54个,光谱采集方式:隔铝塑)以及阿莫西林分散片(n=65个,光谱采集方式:直接接触测量)。上述所有样品均已测量近红外光谱(12000~4000cm-1)和所需理化值。其中,药品api含量是指一种药品制剂中包含国家标准规定的有效成分的数量,是评定药品的主要指标之一。由于各个药厂生产工艺不同、添加原辅料不同,导致药片中除有效成分外,还有辅料、杂质、聚合物等,现采用“纯度”指标来表征每个药片品质情况,片剂纯度的计算方法如公式(2)所示:根据已有药品数据,选取“司帕沙星片-铝塑”的平均光谱为基准光谱l,统一建立片剂近红外光谱库。选定上述基准光谱l后,计算该品种下所有样品光谱li,j与基准光谱l之间的相关系数r,其计算方式如公式(1)所示:其中,m=4,n=73个。将所欲数值r保留至小数点后两位,并按品种统计相关系数r每间隔0.1%划分的区段频数。绘制频数与相关系数之间分布图,即得到片剂近红外光谱库,结果如图1所示。第二部分:片剂近红外光谱库的应用选取青霉素v钾片(n=70个,光谱采集方式:隔铝塑)作为新的待测品种,探讨光谱库应用时的限制与规则。同理,青霉素v钾片已获得近红外光谱(12000~4000cm-1)和纯度数值。计算所有青霉素v钾片样品光谱的平均光谱并计算光谱库中已有品种的各平均光谱然后获得与之间的相关系数r,其数值如表1所示。表1.待测品种平均光谱与片剂光谱库内已有品种平均光谱之间的相关系数r找到光谱库中与相关系数r>96%的品种,即克拉霉素缓释片定义为青霉素v钾片的“相似品种”。根据“可参考样本”查找方式,确定待测品种中被光谱库中克拉霉素缓释片分布(r=97.91%~99.32%)所覆盖的样品量为1个。利用光谱库中相似品种——克拉霉素缓释片所有样品和可参考样本——青霉素v钾片被覆盖样品的近红外光谱数据和纯度值,使用bruker公司提供的opus操作软件(版本7.0),首先对光谱进行一阶导和适量归一化有效转换;然后选择合适的建模波段统一建立pls定量模型,其模型结果如表2和图2(留一交叉验证)、图3(外部验证)结果所示。表2.应用片剂光谱库建立青霉素v钾片纯度定量模型的结果统计值为进一步论证可参考样本数量大小的影响,添加一定数量的青霉素v钾片新样品,使可参考样本达到17个,此时,待测品种的可参考样本与相似品种的相似样本的数量比值不小于1:5。当添加一定量新的待测样本后,再次建立pls定量模型,其模型结果如表2和图4(留一交叉验证)、图5(外部验证)结果所示。模型效果进一步得到提升。实施例2:粉针剂近红外光谱库的构建与应用第一部分,粉针剂近红外光谱库的构建粉针剂是将药物与试剂混合后,经消毒干燥形成的粉状物品,根据制备原理分为无菌粉和冻干粉。整理出现有药品中的粉针剂品种(m=6),包括注射用头孢曲松钠(n=118个,光谱采集方式:隔西林瓶)、注射用头孢唑肟钠(n=110个,光谱采集方式:隔西林瓶)、注射用头孢呋辛钠(n=32个,光谱采集方式:隔西林瓶)、注射用头孢噻肟钠(n=29个,光谱采集方式:隔西林瓶)、注射用头孢哌酮钠(n=40个,光谱采集方式:隔西林瓶)、注射用盐酸头孢吡肟(n=35个,光谱采集方式:隔西林瓶)。上述所有样品均已测量近红外光谱(12000~4000cm-1)和所需理化值。本实施例考察的理化指标为含水量,以明确光谱库用于不同药品间同一化学组分测量的有效性。根据已有药品数据,选取“注射用盐酸头孢吡肟”的平均光谱为基准光谱l,统一建立粉针剂的光谱库。选定上述基准光谱l后,将该品种下所有样品光谱li,j分别与基准光谱l之间计算相关系数r,其计算方式如公式(1)所示。将所欲数值r保留至小数点后两位,并按品种统计相关系数r每间隔0.1%划分的区段频数。绘制频数与相关系数之间分布图,即得到粉针剂近红外光谱库,如图6所示。第二部分:粉针剂近红外光谱库的应用。选用注射用头孢唑啉钠(n=45个,光谱采集方式:隔西林瓶)作为新的待测品种,探讨光谱库应用时的限制与规则。同理,注射用头孢唑啉钠已获得近红外光谱(12000~4000cm-1)和含水量数值。计算所有注射用头孢唑啉钠样品光谱的平均光谱并计算光谱库中已有品种的各平均光谱然后获得与之间的相关系数r,其数值如表1所示。表3.待测品种平均光谱与粉针剂光谱库内已有品种平均光谱之间的相关系数r找到光谱库中与相关系数r>96%的品种,即注射用头孢噻肟钠、注射用头孢呋辛钠和注射用头孢曲松钠为注射用头孢唑啉钠的“相似品种”。根据“可参考样本”查找方式,确定待测品种中被光谱库中注射用头孢噻肟钠分布(r=88.52%~97.86%)所覆盖的样品量为37个;注射用头孢呋辛钠分布(r=94.24%~97.13%)所覆盖的样品量为12个;注射用头孢曲松钠分布(r=84.91%~95.91%)所覆盖的样品量为38个。根据可参考样本的充分性,选取注射用头孢噻肟钠和注射用头孢曲松钠两个品种分别建模,判断粉针剂光谱库应用的可行性。(1)相似品种——注射用头孢噻肟钠利用光谱库中相似品种——注射用头孢噻肟钠所有样品和适量可参考样本——注射用头孢唑啉钠的近红外光谱数据和水分值,使用bruker公司提供的opus操作软件(版本7.0),运用一阶导和适量归一化处理近红外光谱,统一建立pls定量模型,其模型结果如表4和图7(留一交叉验证)、图8(外部验证)结果所示。表4.应用粉针剂光谱库建立注射用头孢唑啉钠水分定量模型的结果统计值(2)相似品种——注射用头孢曲松钠由于头孢曲松钠的样本量较大,为了避免权重过高,使用主成分分析pca方法选择前3个主成分对上述品种选择45个样品作为校正集样品。利用光谱库中相似品种——注射用头孢曲松钠45个样品和适量可参考样本——注射用头孢唑啉钠的近红外光谱数据和水分值,使用bruker公司提供的opus操作软件(版本7.0),运用一阶导和适量归一化处理近红外光谱,统一建立pls定量模型,其模型结果如表5和图9(留一交叉验证)、图10(外部验证)结果所示。表5.应用粉针剂光谱库建立注射用头孢唑啉钠水分定量模型的结果统计值综上,由上述两个实例可知,依据本发明分品种构建光谱库,并挑选待测品种的相似品种、可参考样本以统一建模,均能取得良好的建模效果,证明上述光谱库的应用条件适用于同一品种下所有品种、所有检测指标。本发明充分发挥已有数据库样品数据和光谱数据的作用,解决近红外光谱技术推广过程中建模困难、且已有模型普适性低的技术难题;还有效解决了药品快检中品种杂、批次多、任务量大的难点问题。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1