基于偏最小二乘法分析药物中活性物质含量的集成参数优化建模方法

文档序号:25308907发布日期:2021-06-04 15:10阅读:145来源:国知局
1.本发明属于近红外光谱分析中标定模型建模的参数优化领域。具体是一种基于偏最小二乘法,在对预测药物中活性物质含量问题建模时对预处理、变量选择、潜在因子这三个可调参数进行集成参数优化的建模方法。
背景技术
::2.近红外光谱分析技术以其高效、快速、无损伤检测等优点被广泛运用于有机物定量分析中。然而近红外光谱具有谱带宽、峰重叠严重以及信息解析复杂等特点,因此常常需要建立数学模型对近红外光谱数据进行分析。偏最小二乘法(pls)是一种多元变量回归方法,其校正模型质量好,易于实现。pls已经在快速光谱分析筛选方法的发展中充分证明了它的有效性,成功应用的领域包括油品、啤酒、土壤和药品等。由于近红外光谱分析方法在很大程度上依赖于为回归分析选择合适的预处理策略和变量提取技术,这给模型带来参数优化的问题,包括光谱预处理、变量选择、pls中的潜在因子等。3.2016年,王琴等人在光谱学与光谱分析杂志上发表的文章中利用近红外光谱结合偏最小二乘法实现对不同品牌盐酸左西替利嗪片剂有效成分进行定量分析,经内部交叉验证,确定最佳波数范围和光谱预处理方法,以及最佳主成分数,建立最优pls校正模型。2019年,yukteshwarbaranwal等人在internationaljournalofpharmaceutics上发表的文章中建立了一个多元偏最小二乘校正模型,将其溶出曲线与光谱数据联系起来用来预测双层片的溶出度,药片的实验数据集由两种活性药物成分组成,在三种硬度下进行物理分离,该校准模型用于预测独立测试集的溶出曲线,并使用无模型方法(即差异性和相似性因子对预测结果进行比较,以确保溶解性能的相似性。但是,上述建模过程没有考虑到三个参数之间的联系,只是采用光谱预处理、变量选择、潜在因子三步法建立了针对特定数据集的单一分析模型,而单一模型往往不具有鲁棒性。4.2015年,nazhao等人在scientificreports上发表的文章中提出了一种创新的、综合不同建模参数的全可能性方法(all‑possibilities'approach,apa),以证明多路径在pls模型开发和优化中的重要性。参数包括不同的光谱预处理、变量选择和pls中的潜在因子。pls模型采用加工路径优化建模参数,结果表明,描述的稳健模型比其他已发表的论文具有更好的效率。随后,2018年,nazhao等人在frontiersinchemistry上发表的文章中将光谱预处理、潜在因子和变量选择这三个参数优化扩展到光谱预处理、潜在因子、变量选择和校准方法,提升了模型性能。2018年,chenzhaodu等人在spectrochimicaactaparta上发表的文章中针对近红外建模中三个参数优化问题,运用两类误差检测理论,表明模型参数选择不当所引起的误差会传递给下游过程,强调了误差权重的传递在pls建模过程中的重要性,在不同数据集上验证了误差传播的程度,该方法为利用误差传播理论选择apa参数提供一种新的工具。但是上述路径方法并没有考虑到光谱预处理和变量选择间的潜在联系,由于光谱预处理的不同对后续建模路径上的误差传播极大,因此,如何减少由光谱预处理的不同选择带来的误差极为重要。技术实现要素:5.针对现有技术存在的上述不足,本发明引入相关系数,旨在找到感兴趣的药物活性物质含量(api)与光谱指数之间的线性关系。然后,提出组合波段系数,包括归一化差分系数(ndi)、差分系数(di)和比值系数(ri)。对不同光谱预处理方法得到的处理光谱进行相关系数的计算,随后提取相关系数值最大的波长部分建立新的数据集,新的数据集综合考虑了不同预处理对原始光谱产生的不同贡献,通过此步骤将光谱预处理、变量选择这两个非系统参数缩减到光谱组合这一个参数,减少了模型前需要优化的参数数量,从而减少了因参数选择带来的在后续建模路径上的误差。相关系数有一维相关系数(皮尔逊相关)和组合波段相关系数,建立pls潜在因子为1‑6的组合pls模型。模型性能通过均方根误差(rmse)、r2和预测标准误差与标准偏差之比(rpd)进行评估。分析了两个开源的药物近红外光谱数据集,将该方法应用于预测药物中的活性物质含量分析研究。6.药物近红外光谱数据集的简要介绍:7.数据集a:“tablet”数据集。原料药的近红外透射光谱由dyrby等人在2002年发表的文章中首次公开,并在http://www.models.life.ku.dk/plates上开源。该药片数据集包含310个样本,用kennardstone(ks)算法将数据集分为校准集和验证集,分别包含207个样本和103个样本。测量范围为7000–10500cm‑1,分辨率为16cm‑1,即每个样本总共有404个变量。8.数据集b:“shootout”数据集。2002年,国际漫反射会议公开了一个“shootout”数据集,在https://eigenvector.com/data/tablets上开源,该数据集包含655个样本,校准、验证和测试集被ks算法划分155、40和460个样本。光谱测量范围为600‑1898nm,分辨率为2nm,每个样本有650个变量。9.数据集介绍如表1,每个样本对应一个api值。10.表1‑数据集介绍[0011][0012]为实现上述目的,本发明采用的技术方案为基于偏最小二乘法分析药物中活性物质含量的集成参数优化建模方法,包括以下步骤:[0013]步骤1,首先,以数据集a为例,对药物的近红外校准集光谱(记为矩阵a[207,404],表示207个样本,每个样本有404个变量,每个变量代表对应波数上的光谱吸光度值)进行光谱预处理。采用的光谱预处理方法有savitzky–golay导数滤波、光谱散射矫正、一阶导、二阶导、光谱散射矫正后跟二阶导。得到五个不同的预处理光谱数据集,分别记为sgd[207,404]、msc[207,404]、fd[207,403]、sd[207,402]、mscsd[207,402]。[0014]步骤2,根据皮尔逊相关r:[0015][0016]ri是波数i上的光谱吸光度值,μr是样本吸光度值的算术平均值,而ci和μc是相同波数i下样品的api值和api平均值。[0017]计算a[207,404]中每个样本同一波数上的吸光度值与api的皮尔逊相关系数值,得到向量p_a[1,404]。p_a中的最大值即为a中吸光度值与api相关性的最高值。同理,对sgd[207,404]、msc[207,404]、fd[207,403]、sd[207,402]、mscsd[207,402]进行同样的计算,分别得到向量p_sgd[1,404]、p_msc[1,404]、p_fd[1,403]、p_sd[1,402]、p_mscsd[1,402]。[0018]随后,提取各相关系数值最高处的波数作为pcc光谱参数p_wave(见表2)。[0019]步骤3,采用组合波段系数:[0020]ndi(ri,rj)=(ri‑rj)/(ri+rj)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(2)[0021]di(ri,rj)=ri‑rjꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(3)[0022]ri(ri,rj)=ri/rjꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(4)[0023]ri和rj分别是波数i和j上的吸光度值。[0024]分别计算a[207,404]的ndi、di、ri变化,例如,进行ndi计算后,每个样本都得能到维度为[404,404]的ndi变换矩阵ndip_a。同理,可得到dip_a[404,404],rip_a[404,404]。同理,对sgd[207,404]、msc[207,404]、fd[207,403]、sd[207,402]、mscsd[207,402]进行同样的计算。[0025]步骤4,以a[207,404]举例,分别计算ndip_a,dip_a,rip_a的光谱值与api的皮尔逊相关系数。得到二维相关系数值矩阵ndi_a[404,404],di_a[404,404],ri_a[404,404],矩阵中每一个点代表一对波长上对应的吸光度值与api的相关系数值。同理,预处理矩阵sgd、msc、fd、sd、mscsd做同样计算。[0026]随后,提取最大值的坐标作为ccc的光谱参数ndi_wave、di_wave、ri_wave(见表2)。[0027]步骤5,根据步骤3和步骤4提取的光谱参数和校正数据集中的api值重构输入和输出数据集,建立参数优化路径和潜在因子数为1‑6的全连接网络,运行为所有参数优化建立的pls模型,对每个模型的评价指标的结果进行了登记。[0028]步骤6,建立了包括rmse、r2在内的模型评价指标,为保证模型评估,还包括了rpd重要参数。并对结果进行了分析,确定了pls建模的轨迹路径。[0029]步骤7,确立系统参数优化的pls模型。[0030]表2‑一维和组合波段相关系数选择最敏感的光谱参数[0031][0032]与现有技术相比,本发明具有以下优势:[0033](1)提出组合波段相关系数,以选择与api更为敏感的光谱带组合,增强了光谱的特征表达。[0034](2)利用相关系数(包括皮尔逊相关和组合波段相关),组合了各个预处理光谱不同的特征表达,使得模型无需考虑光谱预处理这一变量,即:将光谱预处理、变量选择、潜在因子集合到光谱参数、潜在因子,缩减了模型前需要优化的参数数量。附图说明[0035]图1样品的各预处理光谱图[0036]图2api与波数的pcc系数值图[0037]图3api与波数的ccc系数值计算示意图[0038]图4建模步骤流程图[0039]图5加工多路径示意图[0040]图6模型rpd评价指标结果图具体实施方式[0041]下面结合附图和具体实施方式对本发明作进一步详细说明。[0042]本发明公开了基于偏最小二乘法分析药物中活性物质含量的集成参数优化建模方法。近红外分析方法在很大程度上依赖于为回归分析选择合适的预处理策略和变量提取技术,现有的基于偏最小二乘法的标定模型建立往往只考虑预处理、变量提取和潜在因子这三个参数的逐步优化,只能建立针对特定数据集的单一分析模型,而单一模型往往不具有鲁棒性,或者只考虑三个参数的统一路径优化,而每个参数的选择都会往后传播较大的误差。针对上述不足,本发明引入相关系数,找到活性物质含量与光谱指数之间的线性关系,对不同光谱预处理方法得到的各种光谱参数进行了组合运算,综合考虑不同预处理提供的不同贡献,将光谱预处理、变量选择、潜在因子集合到光谱参数、潜在因子。光谱系数有一维相关系数(皮尔逊相关)和组合波段相关系数,建立潜在因子数1‑6的全连接pls组合模型。模型性能通过均方根误差(rmse)、r2和预测标准误差与标准偏差(rpd)之比进行评估。该方法采用了所有可能参数组合的全局最优策略和轨迹路径,分析了不同药物的近红外光谱数据集。结果表明,数据集a中使用ndi组合变量提取和pls在6个潜在因子下模型的性能最好,验证集的rmsep,r2和rpd值分别为0.3098%,0.9400和4.68,数据集b中得到ri组合变量提取并在pls的6个潜在因子下选择变量,rmsep、r2和rpd分别为0.1020%、0.9639和5.2794,该模型可作为药物活性物质含量的测定。[0043]图1,由于近红外光谱图中常常存在噪声,为消除光散射引起的非线性显著影响和光谱中加性和乘法效应,选取savitzky–golay导数滤波(sgd),光谱散射矫正(msc),一阶导(fd),二阶导(sd),光谱散射矫正后跟二阶导(mscsd)共五种不同的预处理方式对原谱的全谱进行处理。[0044]图2,分别对不同预处理之后的光谱进行api与波数值的皮尔逊相关系数计算,找到图中最高或最低点的位置,作为pcc光谱参数。[0045]图3,分别对不同预处理之后的光谱进行api与波数值的组合波段相关系数计算,找到图中最亮的点的波长组合位置,作为ccc光谱参数。[0046]图4,利用表2中所选的光谱参数和校正数据集中的api重构输入和输出数据集,同时设置潜在因子为1‑6的全连接网络,形成参数优化路径。[0047]图5,以数据集a为例,通过图4的建模路径,展示了具体的多路径建模图,最后以rmse、r2及rpd为评价指标评价模型好坏。[0048]图6,结果表明,不止一条建模路径可以确保一个成功的模型。从不同的建模路径和模型预测获得的数据来看。以数据集a为例,有7个rpd在3.5到4之间的很好模型,还有13个rpd值大于4的非常好的模型路径(图6a)。rpd的临界值为2,越高表示模型越好。图6a显示,建立api模型时,采用ndi组合变量提取和pls在6个潜在因子下模型的性能最好,验证集的rmsep,r2和rpd值分别为0.3098%,0.9400和4.68。同样,得到ri组合变量提取并在pls的6个潜在因子下选择变量,得到了最优b数据集模型,rmsep、r2和rpd分别为0.1020%、0.9639和5.2794。结果表明,模型在药物的api预测分析中表现优异。表3比较了同一数据集下前人工作与本方法的结果对比,结果表明基于偏最小二乘法分析药物中活性物质含量的集成参数优化模型性能有所提高。[0049]表3‑结果对比[0050]当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1