一种基于机器学习的光谱数据回归方法与流程

文档序号:17300652发布日期:2019-04-03 04:56阅读:683来源:国知局
一种基于机器学习的光谱数据回归方法与流程
本发明属于光谱数据处理领域,尤其涉及到一种基于机器学习的光谱数据回归方法。
背景技术
:目前,在工业生产、环境保护等实际应用相关领域,物质中元素的在线检测和定量分析在工业流程和排放实时监控中的应用需求非常迫切。在这样的应用中,数据采集的实验条件经常不能人为控制且往往比较恶劣,例如利用激光诱导击穿光谱(libs)技术在野外作业、检测排污口废气、废液等排放是否达到国家标准、传送带上的产品是否合格等。因此,实际应用中采集到的光谱数据具有较强的波动性,通常源自于两个方面:1)实验条件的不稳定性,比如激光脉冲强度,激光入射样品表面角度,激光聚焦焦点位置与样品表面之间的距离等在测量中的起伏;2)样品的基体效应,比如待测样品的物理特性,化学组份,表面形貌及几何形状等在实验中的差异。目前单从设备硬件优化来克服或减轻上述的由于实验条件的不可控性和样品本身的差异性所引起的测量数据的抖动和起伏已经趋于饱和。在硬件优化已经出现天花板的情况下,通过数据处理对光谱的稳定性和可靠性做进一步的优化似乎成了唯一的方法。对于libs光谱数据来讲,目前已经有一些通过数据处理进行分析结果优化的方法,比较普遍的是通过物理模型的免定标法和通过化学计量学的多变量模型分析法。前者,免定标法是在样品的所有元素的谱线强度、所有元素的浓度、等离子体物理参数(例如温度、密度等)之间建立一个依赖的物理模型。模拟中需要使用跃迁几率等误差较大,所需测量的激光诱导等离子体物理参数误差较大,及需对样品中所有元素(主量、微量、恒量)进行归一化,再得到待测元素含量。对待测元素,特别是微量、恒量元素浓度的测量精度一般来说只能局限于10%以上。因此该方法实际运用不多,一般只作为半定量分析手段。后者,多变量模型分析法是利用各种化学计量统计方法,包括多元线性回归、偏最小二乘回归、主成分回归、人工神经网络等。针对具体的分析对象,基于一定的物理和化学过程的解释,建立数学统计模型,通过一定的典型样品来拟合分析获得模型参数,从而进行待测物质的元素定标预测。这种方法通常需要进行有人工干预的光谱预处理,合理提取光谱信息作为输入变量,建立数学模型。这不仅需要较大的计算量,以及专业人员的人工干预。通过人工干预和有关物理、化学信息的提取,其目的偏重于对所使用的化学分析方法中所涉及的物理、化学过程进行研究和优化。在这同时,随着人工智能和大数据算法的发展,基于机器学习的算法正在为解决越来越多的工程问题提供有效的方法,这就为研发新型的光谱数据处理方法,弥补上述两种现有的光谱数据,特别是libs光谱数据,处理方法所存在的不足创造了条件。技术实现要素:本发明的目的在于针对现有光谱分析检测技术中存在的不足和缺陷,提供一种基于机器学习的光谱数据回归方法,将大数据和机器学习的方法结合起来,采用人工智能的理念,使用先进的计算机计算手段对光谱数据进行更深层次的挖掘和更高速、更精准的信息提取,从而实现更准、更快、全自动化的光谱分析结果的导出。具体地是指,本发明将通过把在线检测所获取的样品的包含有随机的和系统偏差的libs光谱数据直接导入训练好的校准模型,最大限度上消除实验条件和样品基体等属性所带来的光谱数据的起伏和不确定性,快速地获得准确、可靠的待测元素浓度。本发明是根据以下技术方案实现的:一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:步骤s1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;步骤s2:超空间中的广义光谱强度定义;步骤s3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;步骤s4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10-3即0.1%,认为校准模型优化完成;步骤s5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。上述技术方案中,步骤s1具体包括如下步骤:步骤s101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量其中其中m1为样品信息总数,样品参数信息通过囊括在广义光谱强度里。记录的样品信息向量为其中样品信息向量总数为s,s为正整数,s为大于等于1并小于等于s的整数;步骤s102:浓度系列样品获取或制备,对给定的样品信息向量获取或制备n种一系列的含有待测元素浓度分别为co1,co2,…,con,…con的标准样品或实验室参考样品,其中n为大于等于1并小于等于n的整数;步骤s103:实验条件的记录,实验条件包括实验室坏境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益,这些实验条件记录后进行数值化,组成实验条件信息向量其中m2为实验条件信息总数,实验条件信息通过囊括在广义光谱强度里;记录的实验条件信息向量为其中实验条件信息向量总数为k,k为正整数,k为大于等于1并小于等于k的整数;步骤s104:光谱数据的采集,在给定的实验条件信息向量和样品信息向量的浓度系列实验样品中,选取含有待测元素浓度con的样品进行重复的光谱数据采集,光谱采集重复的总次数为j次,k为大于等于1并小于等于k的整数,n为大于等于1而小于等于n的整数;采集到的光谱强度向量m为原始光谱强度的总数。记录的实验条件信息向量为其中光谱强度向量总数为j,j为正整数,j为大于等于1并小于等于j的整数。上述技术方案中,步骤s2具体包括如下步骤:步骤s201:超空间定义,由光谱强度向量样品信息向量实验条件信息向量三个部分共同构成m+m1+m2维的超空间,每个维度的坐标轴即为im,m=1,2,…m,m+1,…,m+m1,m+m1+1,…,m+m1+m2;步骤s202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量样品信息向量实验条件信息向量三个部分构成,即在m+m1+m2维的超空间中,广义光谱强度矢量可表示如下:对于给定的n,s,k,j,都对应一个广义光谱强度矢量其中,n对应于待测元素浓度期望值con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j对应于光谱强度向量的序数;步骤s203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱强度矢量存在一个标量与其对应,被称为其广义模长,矢量的广义模长对应于待测元素浓度期望值con,映射表示为:上述技术方案中,步骤s3具体包括如下步骤:步骤s301:选定机器学习算法,将选择的算法标记为fs;步骤s302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量的广义模长,对应于待测元素浓度的预测值,表示为步骤s303:确定选定算法fs在优化中可改变的参数。上述技术方案中,步骤s4具体包括如下步骤:步骤s401:确定评估算法标准,评估标准为与con的相对差的平方总和小于10-3即0.1%,即其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系列的标定浓度和模型映射浓度的相关性;步骤s402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-3,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤s5;步骤s403:如果算法fs不满足err<10-3,修改步骤s303选定的可调参数,进入步骤s401;步骤s404:重复步骤s401、s402、s403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。上述技术方案中,其特征在于,步骤s5具体包括如下步骤:步骤s501:优化的校准模型的使用。采集未知样品的原始光谱强度向量样品基体信息向量以及实验条件信息向量如无样品基体信息向量作缺省值null处理;步骤s502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:步骤s503:将未知样品的广义光谱强度矢量输入校准模型ff中,则快速得到未知样品中待测元素的浓度预测值cou。与现有技术相比,本发明具有如下的有益效果:1、对元素浓度的测量精确度、准确度等达到定量分析的要求;2、对检测未知样品的待测元素浓度的计算时间达到工业在线监测的要求;3、不需要专业人员介入。4、本发明具有普适性,也适合libs光谱方法之外的别的光谱方法。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为二维空间中广义光谱强度矢量示意图;图2为二维空间中广义光谱强度矢量的广义模长示意图;图3为训练前的超空间数据散点分布示意图;图4为待测元素浓度预测值与期望值相关性图;图5为训练后的超空间数据散点分布示意图;图6为本发明的方法整体流程示意图;图7为本发明的数据格式化的示意图;图8为本发明的模型使用示意图;图9为未使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图;图10为使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图。具体实施方式下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。本方法提出并实现了一种基于机器学习的光谱数据回归方法,编制了相应的程序,得到的回归模型可以用于满足上述要求的定量和定性分析。本方法所用参数定义如表1所示:表1本方法所用参数定义本发明的一种基于机器学习的光谱数据回归方法,该种方法流程图如图6所示,其具体步骤如下:步骤s1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据,即广义光谱强度。其中数据格式化的流程图见图7;步骤s1具体包括如下步骤:步骤s101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量其中其中m1为样品信息总数,样品参数信息通过囊括在广义光谱强度里。记录的样品信息向量为其中样品信息向量总数为s,s为大于等于1并小于等于s的整数。为了方便表述,下文中,样品信息向量中只含有一个元素,例如样品的型号,即取m1=1;步骤s102:浓度系列样品获取或制备,对给定的样品信息向量获取或制备n种一系列的含有待测元素浓度分别为co1,co2,…,con,…con的标准样品或实验室参考样品,其中n为大于等于1并小于等于n的整数;步骤s103:实验条件的记录,实验条件包括实验室坏境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益等,这些实验条件记录后进行数值化,组成实验条件信息向量其中m2为实验条件信息总数,实验条件信息通过囊括在广义光谱强度里。记录的实验条件信息向量为其中实验条件信息向量总数为k,k为大于等于1并小于等于k的整数。为了方便表述,下文中,实验条件信息向量中只含有一个元素,例如压强,即取m2=1;步骤s104:光谱数据的采集,在给定的实验条件信息向量和样品信息向量的浓度系列实验样品中,选取含有待测元素浓度con的样品进行重复的光谱数据采集,光谱采集重复的总次数为j次,k为大于等于1并小于等于k的整数,n为大于等于1而小于等于n的整数。采集到的光谱强度向量m为原始光谱强度的总数。记录的实验条件信息向量为其中光谱强度向量总数为j,j为大于等于1并小于等于j的整数。步骤s2:超空间中的广义光谱强度定义;步骤s2具体包括如下步骤:步骤s201:超空间定义,由光谱强度向量样品信息向量实验条件信息向量三个部分共同构成m+m1+m2维的超空间,每个维度的坐标轴即为im,m=1,2,…m,m+1,…,m+m1,m+m1+1,…,m+m1+m2;步骤s202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量样品信息向量实验条件信息向量三个部分构成,即在m+m1+m2维的超空间中,广义光谱强度矢量可表示如下:对于给定的n,s,k,j,都对应一个广义光谱强度矢量其中,n对应于待测元素浓度期望值con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j对应于光谱强度向量的序数。为了方便表达,下面举例给出在二维空间中的广义光谱强度矢量的图像,如图1所示。步骤s203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱强度矢量存在一个标量与其对应,被称为其广义模长,矢量的广义模长对应于待测元素浓度期望值con,映射表示为:为了方便表达,作为例子,下面给出在二维空间中的广义光谱强度矢量和所对应的广义模长的图像,如图2所示。步骤s3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;步骤s3具体包括如下步骤:步骤s301:选定机器学习算法,将选择的算法标记为fs,例如随机森林回归算法、岭回归、lasso、前向逐步回归等;步骤s302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量的广义模长,对应于待测元素浓度的预测值,表示为一般情况下,待测元素浓度的预测值与期望值con之间有差异。如图3所示,以二维空间举例,广义光谱强度矢量分别用圆圈、菱形、星形的散点来表示。待测元素浓度期望值co1,co2,co3即是半径分别为co1,co2,co3的圆,分别用实线、虚线、点线表示。待测元素浓度的预测值与期望值con之间有差异,在二维空间中的散点并不完全分布在半径分别为co1,co2,co3的圆上。以下优化算法的任务使待测元素浓度的预测值趋向于期望值con,即广义光谱强度矢量散点分布在co1,co2,co3的圆上。步骤s303:确定选定算法fs在优化中可改变的参数。例如,选定的算法为随机森林回归算法,优化中可变参数为决策树个数(n_estimators)和最大特征数(max_features);步骤s4:校准模型的优化,当待测元素浓度的预测值与其期望值的相对误差小于10-3即0.1%,认为校准模型优化完成;步骤s4具体包括如下步骤:步骤s401:确定评估算法标准,评估标准为与con的相对差的平方总和小于10-3即0.1%,即其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系列的标定浓度和模型映射浓度的相关性;该评估标准(err<10-3)达到的同时,此时,对于整个浓度系列样品,方法所给出的预测值与期望值con的相关系数呈现接近1的最大值。相关系数的计算公式如下:其中,为与con的协方差,为的方差,var(con)为con的方差。在的条件下,接近1,见图4。步骤s402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-3,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤s5;步骤s403:如果算法fs不满足err<10-3,修改步骤s303选定的可调参数,进入步骤s401;步骤s404:重复步骤s401、s402、s403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。步骤s4得到的优化算法ff,算法ff计算出广义光谱强度矢量的广义模长,即待测元素浓度预测值与待测元素浓度的预测值近似相等,表示为:以二维空间为例,如图5所示,广义光谱强度矢量在这个二维空间中用圆圈、菱形、星形的散点表示。待测元素浓度co1,co2,co3,即是半径分别为co1,co2,co3的圆,使用实线、虚线、点线表示。由于与con之间近似相等,在二维空间中的散点几乎同时完全地分布在半径分别为co1,co2,co3的圆上。步骤s5:该步骤是发明的模型的实际应用情况,整个过程的流程图见图8,含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。步骤s5具体包括如下步骤:步骤s501:优化的校准模型的使用。采集未知样品的原始光谱强度向量样品基体信息向量以及实验条件信息向量如没有样品信息向量作缺省值null处理。步骤s502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:如没有样品信息向量未知样品的广义光谱强度矢量写为:步骤s503:将未知样品的广义光谱强度矢量输入校准模型ff中,则可快速(<1s)得到未知样品中待测元素的浓度预测值cou。下面以土壤中重金属检测为例,来说明该方法的优点。以本方法检测土壤中的重金属含量为例,在这个例子中,有4组不同的土壤基体样品(nist2587,nist2710,自采样品no.3,自采样品no.7),对每种土壤基体进行以下7组重金属银(ag)浓度(20、50、100、200、400、600、800ppm)的掺杂,对这28组掺杂样品分别进行5次重复的libs光谱数据采集,根据本方法对这140组光谱数据进行处理,获得一个优化的光谱校准模型,拿未知银浓度的土壤样品的libs光谱数据导入校准模型,在低于1s的时间内,输出此样品的银浓度分析值的偏差在1%以下。未使用该方法,得到的样品的标定浓度和模型预测浓度相关性如下图9表示。相同的光谱数据,使用该方法,得到的样品的标定浓度和模型预测浓度相关性如下图10表示。可明显看出相同的光谱数据,使用该方法,得到的样品的标定浓度和模型预测浓度相关性更好。本发明实现步骤以检测泥土粉末状样品中的银元素为例来说明:1、数据收集及其格式化(1)准备4种不同的泥土粉末,在样品信息向量中含有一个元素,即样品型号,取m1=1。此时,4种不同泥土粉末的样品信息向量分别标为(2)浓度系列样品制备。对给定一种泥土基体(s=1,2,3,4),以氧化物粉末的形式掺入银元素,对该样品基体制备8种含有不同浓度待测元素银(ag)的实验样品,由样品基体组成了一系列浓度分别为co1,co2,…,co8的待测样品。标记co1co2co3co4co5co6co7co8浓度(ppm)02050100200400600800(3)2种不同的实验条件,在实验条件信息向量中含有一个元素,即信号增益,取m2=1。此时,2种不同的实验条件信息向量分别标为(4)数据重复采集。在给定的实验条件(k=1,2),和样品信息向量(s=1,2,3,4)下,选取一含有待测元素浓度con(n=1,2,3,…,8)的样品进行重复的光谱数据采集,重复次数为5次,获得光谱强度向量分别为(5)广义光谱强度矢量在给定的实验条件(k=1,2),和样品信息向量(s=1,2,3,4)下,选取一含有待测元素浓度con(n=1,2,3,…,8)的样品,第j次采集到的光谱强度向量(j=1,2,3,…,5),构成广义光谱强度矢量在m+2(即m+m1+m2)维的超空间中,广义光谱强度矢量可表示如下:2、模型初始化(1)选定随机森林回归算法,标记为fs。该算法中选定的可调参数为n_estimators和max_features。(2)对于给定(n,s,k),得到5次重复实验的广义光谱数据中,随机的选出3组作为训练集,剩余2组作为测试集。将测试集输入到选定算法,进行训练。3、模型的优化计算算法fs是否满足评估标准(err<10-3),即(1)满足,则得到优化算法。(2)未满足,则改变选定的可调参数,再计算err。4、模型的使用训练好的模型可以用来测试未知土壤样品的重金属银浓度。虽然本发明以libs光谱为切入点和验证实例,这种新的数据处理方法也普适于其它的光谱或质谱数据。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1