一种基于工作流的振动光谱分析模型优化方法与流程

文档序号:16785227发布日期:2019-02-01 19:22阅读:229来源:国知局
一种基于工作流的振动光谱分析模型优化方法与流程
本发明涉及光谱分析领域的一种模型优化处理方法,尤其是涉及了一种基于工作流的振动光谱分析模型优化方法。
背景技术
:现代光谱分析技术因其方便快捷、低成本、无污染等优势逐渐成为农业、医药、石油等产业的产品无损检测主流技术之一。由于各类生物系统的复杂性与差异性,振动光谱往往含有许多噪声成分,其所提供的信息往往不能被直观地观察到,因此需要使用各类多元分析方法搭配合适的预处理技术对光谱数据进行建模分析。不同的多元分析方法分别适用于不同类别的光谱数据和预测指标,各类预处理技术也具有这样的特点。在实际生产中,往往需要利用多个算法构成组合模型,并对其超参数进行优化选择,才能找到合适的建模方法。而庞大的超参数范围和算法间的高耦合度导致模型的优化难度大大提升,需要消耗大量的人力和计算资源才能找到最佳模型。同时,随着光谱采集手段的进步,用于研究分析的光谱数据量增加迅速,海量的数据对模型的构建提出了新的挑战。传统的基于特定领域背景知识,人为反复试验优化超参数的方法由于效率较低,且由于存在较强的主观性可能难以选到最优超参数,已逐渐无法适应针对大量光谱数据的高效建模和优化的需求。目前已有的各类光谱分析软件能够利用特定的分析方法快速建模,但没有提供模型的超参数优化和多个模型之间的性能比较的方便高效的工作流程。因此,特别需要开发一种针对振动光谱分析的模型优化的工作流程。技术实现要素:针对振动光谱分析的模型超参数优化和多模型性能比较过于繁琐,缺乏系统的工作流程的问题,本发明的目的在于设计提供一种基于工作流的振动光谱分析模型优化方法,通过交叉验证和网格搜索来提供高效的工作流程。本发明的目的是通过以下技术方案来实现的:所述振动光谱分析模型包括预处理方法和多元分析方法,振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理获得最优的振动光谱分析模型:振动光谱分析模型中,输入的原始光谱数据先通过预处理方法进行基线校正、散射校正、平滑滤波和归一化等操作,再利用一种或多种多元分析方法对预处理方法后的光谱数据进行建模分析输出结果。对于定性分析,采用分类算法作为多元分析方法建模分析输出预测标签;对于定量分析,采用回归算法作为多元分析方法建模分析输出预测值。步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;选取所有预处理方法中的一种或者多种或者不选,再结合上多元分析方法中的一种或多种。步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;步骤4):将输入的振动光谱数据划分为训练集和测试集;步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,根据步骤1)确定的评价参数计算各个组合模型的评价参数,作为组合模型的模型性能,选出评价参数最优的组合模型作为最优模型。本发明的振动光谱数据可以来源于用于鉴别红酒类别或质量的红酒近红外光谱、用于测定药物片剂中活性物质的药片近红外光谱和用于鉴别细菌类别的细菌表面增强拉曼散射光谱等。所述步骤5)中,具体为:针对每个方法组合,采用交叉验证和网格搜索相结合的方式搜索每个方法组合的最优超参数:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间内各取的一个数值相组合形成一个超参数组合作为网格中的交叉点,每一个交叉点代表了一个超参数组合,由此获得所有超参数组合,对网格中的每一个交叉点进行遍历,通过交叉验证方式计算每一个交叉点的估测值,作为每一个超参数组合下对应的模型性能,然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数;上述通过交叉验证方式计算每一个交叉点的估测值,具体为:将训练集分割成多个子样本,子样本的总个数为n;取一个单独的子样本作为验证子样本,其余的n-1个子样本作为训练子样本,将训练子样本输入到每个超参数组合下对应的模型中进行训练,用验证子样本进行验证;按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复n次,每次训练后采用验证子样本验证一次获得验证结果,取n次的验证结果的平均值作为估测值,表征每一个超参数组合下对应的模型性能。本发明具体是由步骤3)中各个方法组合需要优化的超参数对应的超参数空间组合采用网格搜索方法建立需要搜索的网格,利用交叉验证方式对网格搜索方法所建立的网格进行处理计算,这样的特殊处理方式能够准确获得方法组合的最优超参数。所述步骤1)中,所述的评价参数在定性分析的振动光谱分析模型中为准确率α,所述的评价参数在定量分析的振动光谱分析模型中为均方根误差rmse,计算公式如下:其中,n是振动光谱数据中样本数据的总数,nt是定性分析中分类正确的样本数,是定量分析中样本数据的预测值,yi是定量分析中样本数据的真实值。所述步骤4)中,振动光谱数据训练集和测试集的划分方式为随机划分,训练集和测试集的比例为4:1。每一种方法组合都要按顺序执行步骤5)、步骤6)和步骤7),针对不同的方法组合并行进行步骤5)、步骤6)和步骤7)的步骤,不同的方法组合所对应构建的振动光谱分析模型的超参数优化、模型参数训练和评价参数均同时进行。所述步骤7)中选择最优模型的方法是选择评价参数最好的模型,在定性分析中是选择准确率最高的组合模型,在定量分析中是选择均方根误差最小的组合模型。所述的预处理方法包括用于基线校正的非对称最小二乘(asymmetricleastsquares,als)、用于移除散射影响的标准正态变换(standardnormalvariate,snv)、用于去除高频噪声达到平滑效果的savitzky-golay滤波(savitzky-golayfilter,sgf)、用于使得特征中心对称的平均中心化(meancentering,mc)等等。所述的多元分析方法包括偏最小二乘(partialleastsquares,pls)、主成分分析(principlecomponentanalysis,pca)、线性判别分析(lineardiscriminantanalysis,lda)、logistic回归(logisticregression,logr)等等。本发明中,超参数是指根据方法所建立的模型在开始训练之前人为设定其值且在训练过程中不再进行调整的参数,例如savitzky-golay滤波(savitzky-golayfilter,sgf)中的窗口长度(sgf__window_length)、多项式阶数(sgf__polyorder)、偏最小二乘(partialleastsquares,pls)中的潜变量个数(pls_n_components)和主成分分析(principlecomponentanalysis,pca)中的主成分个数(pca_n_components)。模型参数是指根据方法所建立的模型在训练过程中不断调整其值并在训练结束后最终确定其值的参数,例如savitzky-golay滤波(savitzky-golayfilter,sgf)中单个滑动窗口内拟合的多项式中各单项式的系数、偏最小二乘(partialleastsquares,pls)中的回归方程中各单项式的系数和主成分分析(principlecomponentanalysis,pca)中的回归方程中各单项式的系数。本发明是一种通用型的振动光谱数据处理方法,针对各种来源和途径获得的振动光谱分析模型,在未知背景知识或者未采用背景知识对原始振动光谱数据进行任何预处理的情况下,直接能够进行振动光谱分析模型的优化,获得最优模型。本发明的有益效果是:本发明方法确定所有需要优化和比较的组合模型与其对应的超参数空间,避免了繁琐的人工操作,并减少了可能造成的遗漏;基于交叉验证和网格搜索的超参数优化方式更加科学,避免了人工操作时的主观判断;各类方法的组合方式和超参数空间在初始化时就已确定,在实际优化和后期训练过程中可充分利用并行计算资源,达到效率的提升。综合来说,本发明建立了针对振动光谱数据的通用处理方式,避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的系统的模型优化工作流程,解决了传统光谱分析软件中缺乏系统的模型优化的工作流程的问题。附图说明图1是本发明方法的整体流程图;图2是原始近红外光谱的示例图;图3是方法组合的结构图;表1是所有方法组合的最优超参数和评估结果;表2是超参数的搜索范围。具体实施方式以下结合说明书附图对本发明作进一步说明。本发明实施例如下:考虑一个针对药片的拉曼光谱数据进行定性分析的建模任务。样本含有310条数据,4种类别,近红外光谱如图2所示。建立的典型的方法组合结构图如图3所示,其中的预处理方法包括用于移除散射影响的标准正态变换(standardnormalvariate,snv)和用于去除高频噪声达到平滑效果的savitzky-golay滤波(savitzky-golayfilter,sgf)。,其中的多元分析方法包括属于降维算法的偏最小二乘(partialleastsquares,pls)、主成分分析(principlecomponentanalysis,pca)和属于分类算法的线性判别分析(lineardiscriminantanalysis,lda)。在预处理步骤中需要选择由两种预处理方法构成的一种组合,即可以选择一种或者两种预处理方法或者不选,在多元分析步骤中的降维步骤中选择两种降维算法中的一种,在多元分析步骤中的分类步骤中指定使用线性判别分析(lineardiscriminantanalysis,lda)。因此,需要评估的方法组合共有8种,如表1表格中第一列所示。表1需要优化的超参数及其范围如表2所示,包括sgf中的窗口长度(sgf__window_length)、多项式阶数(sgf__polyorder),pls中的潜变量个数(pls__n_components)和pca中的主成分个数(pca__n_components)。表2超参数超参数搜索范围sgf__window_length{5,7}sgf__polyorder{2,3}pls__n_components[2,21]pca__n_components[2,21]表1中的各个方法组合需要优化的超参数由其中的每个方法需要优化的超参数组合而成。每个超参数的超参数空间是可能的取值的集合,各个超参数之间相互独立。针对方法组合下所有超参数的可能的取值的集合建立集合,即为该方法组合对应的超参数空间组合。比如针对sgf-pca-lda方法组合,需要优化的超参数为sgf__window_length(超参数空间是{5,7})、sgf__polyorder(超参数空间是{2,3})和pca__n_components(超参数空间为[2,21]),对应的超参数空间组合为{sgf__window_length:{5,7},sgf__polyoorder:{2,3},pca__n_components:[2,21]}。将样本按照4:1的比例随机划分为训练集和测试集。以分类准确率作为评价指标,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数。确定单个方法组合下的最优超参数的具体方式为:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间的一个数值相组合形成一个超参数组合作为网格中的交叉点。每一个交叉点代表了一个超参数组合,由此获得所有超参数组合。对网格中的每一个交叉点进行遍历,在对每一个交叉点做计算时,将训练集分割成5个子样本,取一个单独的子样本作为验证子样本,其余的4个子样本作为训练子样本,用将训练子样本输入到该交叉点的超参数组合下对应的模型中进行训练,用验证子样本进行验证,按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复5次,每次训练后采用验证子样本验证一次获得验证结果,取5次的验证结果的平均分类准确率作为估测值,表征每一个交叉点对应的超参数组合下对应的模型性能。然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数。将训练集的振动光谱数据分别输入获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型。将测试集的振动光谱数据分别输入各个组合模型,计算各个组合模型的分类准确率,作为组合模型的模型性能,选出评价参数最优的组合模型作为最优模型。根据表1的结果显示由pls-lda方法组合和sgf-pls-lda方法组合建立的组合模型具有最好的性能,这两个组合模型在测试集上的分类准确率均为98.39%,如表1中的第三列所示。这两个组合模型就是我们最终选出的最优组合模型。本发明具有较强的通用性,不仅在此例以药片分类作为目标的拉曼光谱建模分析任务中取得了良好的效果,在其他测试中也表现优越,比如在以大肠杆菌分类为目标的拉曼光谱建模分析任务中快速建立了分类准确率达到87%的最优组合模型,而基于经验和背景知识,通过人工选择建立的模型往往难以超出80%的分类准确率。在以土壤有机质含量检测为目标的近红外光谱分析任务中本发明建立的工作流程帮助研究者在几小时内建立了rmse达到12g/kg的最优组合模型,而基于经验和背景知识,通过人工选择建立的模型要想获得相近的准确率需要数倍的试错时间和精力。这说明本发明建立的针对振动光谱数据的通用工作流程避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的系统的模型优化工作流程,解决了传统光谱分析软件中缺乏系统的模型优化的工作流程的问题。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1