一种基于相似光谱拟合的多化学指标预测方法与流程

文档序号:28665554发布日期:2022-01-26 21:07阅读:85来源:国知局
一种基于相似光谱拟合的多化学指标预测方法与流程

1.本发明属于近红外光谱及化学计量学领域,具体涉及一种基于相似光谱拟合的多化学指标预测方法。


背景技术:

2.近红外光谱分析技术是一种快速、准确和无损的检测技术。近红外光谱主要是对含氢基团振动的倍频和合频吸收,其中包含了大多数类型有机化合物的组成信息,非常适合用于各种复杂混合物的检测。目前基于近红外的烟叶主要化学成分建模主要是通过偏最小二乘算法(partial least squares,pls)来实现。
3.pls是为了弥补最小二乘在计算强共线性数据时的缺陷而提出,考虑一组因变量y和一组自变量x,在x存在严重多重相关性或者样本数量少于变量个数时,对矩阵x
t
x求逆将会失效。pls采用成分提取的办法解决这个问题,通过在x和y中依次提取出成分分量,保证x中分量与y中分量的协方差最大,从而实现回归建模、数据结构简化以及分析两组变量之间的相关性,能够有效地处理多变量和共线性问题,非常适合应用于近红外光谱的定量分析。
4.针对烟草、中药材等复杂农产品的主要物质建模问题,pls主要如下几个缺陷,一是对于不同地域、品种、等级且含量范围较宽的物质,光谱与物质的关系可能是非线性的,pls作为一种线性方法建模效果可能不理想;二是如果有多种物质需要建模,每种物质都需建立一个pls模型,涉及多种预处理方法及多个模型参数,增加了模型的复杂性;三是pls方法需要样本达到一定数量才可以建模,建模样本数量较少时无法进行预测。
5.公开号为cn101419207a的专利申请公开了一种烤烟烟气主要指标的预测方法,先建立烤烟烟气主要指标的模型:检测训练烤烟样品和测试烤烟样品的主要化学成分及烟气主要指标;利用灰色函数聚类将训练烤烟样品聚类;确定进入模型的变量;在每一类样品的烟气主要指标与主要化学成分之间建立灰色预测模型;建立每一类训练样品的bp神经网络;用测试样品烤烟的烟气主要指标对和主要化学成分进行测试和调整。检测时将待测烤烟样品的主要化学成分进行聚类后利用其所在类的模型进行预测从而得到烟气主要指标。该方法需要一定的样本量才能建模,不利于模型的更新。
6.公开号为cn104697955a的专利申请公开了一种卷烟烟气指标预测方法及系统,获取待测烟丝的常规化学成分含量;输入所述待测烟丝的常规化学成分含量至预先生成的烟气预测模型,所述烟气预测模型为依据烟气指标与常规化学成分含量构建的模型;运行所述烟气预测模型,输出待测烟丝的烟气指标。该方法同样需要一定的样本量才能建模,不利于模型的更新。


技术实现要素:

7.鉴于上述,本发明的目的是提供一种基于相似光谱拟合的多化学指标预测方法,实现多化学指标的快速准确预测。
8.实施例提供的技术方案为:
9.一种基于相似光谱拟合的多化学指标预测方法,其特征在于,包括以下步骤:
10.(1)利用近红外光谱仪采集多个样品的近红外光谱作为样本集,采用分析化学方法检测每个样品的每种化学指标的检测值;
11.(2)对样本集中每个近红外光谱进行预处理后,选定一个近红外光谱作为目标谱,计算目标谱与样本集中其他近红外光谱的相似度;
12.(3)在每个n的取值下,针对每个目标谱,选择与目标谱相似度前n大的n个近红外光谱进行趋近于目标谱的拟合,以确定与近红外光谱对应的n个拟合系数,其中,n的取值为大于1的自然数;
13.(4)利用n个拟合系数计算每个目标谱的每个化学指标的拟合值,并计算拟合值与检测值的绝对误差;
14.(5)针对每个化学指标,计算所有近红外光谱作为目标谱对应的绝对误差的平均值,筛选绝对误差的平均值最小时对应的n作为最终确定值n0;
15.(6)对待测样本的近红外光谱作为目标谱,对目标谱进行预处理后,计算目标谱与样本集中其他近红外光谱的相似度,然后选择与目标谱相似度最大的n0个近红外光谱进行趋近于目标谱的拟合,以确定与近红外光谱对应的n0个拟合系数,利用n0个拟合系数计算目标谱的每个化学指标的拟合值。
16.优选地,所述对样本集中每个近红外光谱进行预处理,包括:
17.对近红外光谱进行一阶导处理,然后将一阶导处理后的近红外光谱平均分段得到多个谱段,对每个谱段内的波数点进行校正。
18.优选地,所述对每个谱段内的波数点进行校正,包括:
19.针对每个谱段,计算每个谱段内所有波数点的均值mean(x)和标准差std(x),然后利用均值mean(x)和标准差std(x)按照以下公式进行校正:
[0020][0021]
其中,xi表示谱段内第i个波数点的原始值,表示谱段内第i个波数点的校正值。
[0022]
优选地,采用以下公式计算目标谱与样本集中其他近红外光谱的相似度:
[0023]
s=-log
10
((1-p)*d)
[0024]
其中,s表示相似度,p表示皮尔逊相关系数,计算公式为p=corr(y0,yj),y0表示目标谱,yj表示第j个近红外光谱,d表示目标谱y0与近红外光谱yj之间的欧式距离。
[0025]
优选地,步骤(3)中,在每个n的取值下,针对每个目标谱,构建的拟合问题为:
[0026][0027]
其中,y0表示目标谱,y表示与目标谱相似度最大的前n大的n个近红外光谱形成的向量,w表示与近红外光谱对应的n个拟合系数形成的向量;
[0028]
在求解拟合问题时,增加拟合系数为非负性、拟合系数之和为1约束,通过求解拟合问题,确定与近红外光谱对应的n个拟合系数。
[0029]
优选地,步骤(4)中,采用以下公式,利用n个拟合系数计算每个目标谱的每个化学指标的拟合值:
[0030][0031]
其中,wj表示第j个近红外光谱对应的拟合系数,z
j,k
表示第j个近红外光谱中第k个化学指标的化学值,lk表示第k个化学指标的拟合值。
[0032]
优选地,在获得每个化学指标的绝对误差的平均值后,对每个化学指标的绝对误差的平均值进行量纲统一后,计算所有化学指标的绝对误差的平均值之和,筛选之和最小时对应的n作为最终确定的值n0。
[0033]
优选地,采用以下方式计算对每个化学指标的绝对误差的平均值进行量纲统一:
[0034][0035]
其中,ek表示第k个化学指标的绝对误差的平均值,fk表示第k个化学指标的检测值的平均值,cvk表示第k个化学指标的量纲统一值。
[0036]
优选地,n的取值范围为2-100,若样本量低于200个,则n的下限为2,上限设定为样本量总数的一半。
[0037]
优选地,当样品为固体时,利用近红外光谱仪采集样品的近红外光谱时,要求固体采用粉末状,粒度为35-45目,进一步优选为40目。
[0038]
具有的有益效果至少包括:
[0039]
实施例提供的于相似光谱拟合的多化学指标预测方法,采用局部方法,较线性算法有更好的灵活度,且不使用pls方法建模,因此受样本量,参数选择等的影响较小,采用相似近红外光谱拟合目标谱,避免了多个不相似近红外光谱拟合为目标谱,避免了过拟合,且该方法可实现一次性预测多个指标,无需逐一建模,对于新增化学指标,可通过本方法直接预测,无需pls建模,提升了化学指标的预测效率和准确性。
附图说明
[0040]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0041]
图1是一实施例提供的基于相似光谱拟合的多化学指标预测方法的流程图。
[0042]
图2是一实施例提供的烟叶近红外光谱;
[0043]
图3是一实施例提供的以1号样本对应的近红外光谱作为目标谱时,与其他近红外光谱的相似度及排序,其中,数字标示样本序号,也就是近红外光谱的序号;
[0044]
图4是一实施例提供的以1号样本对应的近红外光谱作为目标谱时,,在n=5时,各近红外光谱仪的拟合参数,其中1-5分别对应训练集中50#,63#,3#,38#,34#样本;
[0045]
图5是一实施例提供的训练集的拟合误差,n=63时达到最小值。
具体实施方式
[0046]
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本
发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
[0047]
图1是一实施例提供的基于相似光谱拟合的多化学指标预测方法的流程图。如图1所示,实施例提供的基于相似光谱拟合的多化学指标预测方法,包括以下步骤:
[0048]
步骤1,利用近红外光谱仪采集多个样品的近红外光谱作为样本集,采用分析化学方法检测每个样品的每种化学指标的检测值。
[0049]
实施例中,样品可以是液体样品,也可以是固体样品。当为固体样品时,为了提升采集近红外光谱的准确性,限定固体样品粉末粒度为40目。
[0050]
实施例中,还采用分析化学方法检测每个样品的每种化学指标的检测值,该检测值用于后续评判拟合值与检测值的差距,以筛选相似样本。
[0051]
步骤2,对样本集中每个近红外光谱进行预处理。
[0052]
实施例中,对近红外光谱进行预处理包括1阶求导和数值校正处理。在进行近红外光谱的1阶导处理时,参数为窗宽15,多项式阶数2。在对1阶求导处理后的近红外光谱进行数值校正时,为了提升校正的准确性,采用分段校正的方式,即将近红外光谱平均分段得到多个谱段,每个谱段含有m个波数点,m的取值范围为40-60,然后对每个谱段内的波数点进行谱段内校正,过程为:针对每个谱段,计算每个谱段内所有波数点的均值mean(x)和标准差std(x),然后利用均值mean(x)和标准差std(x)按照以下公式进行校正:
[0053][0054]
其中,xi表示谱段内第i个波数点的原始值,表示谱段内第i个波数点的校正值。
[0055]
步骤3,分别将每个近红外光谱作为目标谱,计算目标谱与样本集中其他近红外光谱的相似度。
[0056]
针对预处理后的近红外光谱进行相似度计算,具体过程为:选择1个近红外光谱作为目标谱,然后采用以下公式计算目标谱与样本集中其他近红外光谱的相似度:
[0057]
s=-log
10
((1-p)*d)
[0058]
其中,s表示相似度,p表示皮尔逊相关系数,计算公式为p=corr(y0,yj),y0表示目标谱,yj表示第j个近红外光谱,d表示目标谱y0与近红外光谱yj之间的欧式距离。
[0059]
在获得每个目标谱与样本集中所有其他近红外光谱的相似度后,为每个目标谱对应的进行相似度排序,以用于后续相似度的筛选。
[0060]
步骤4,对于当前n值,针对每个目标谱,选择与目标谱相似度前n大的n个近红外光谱进行趋近于目标谱的拟合,以确定与近红外光谱对应的n个拟合系数。
[0061]
实施例中,n的取值为大于1的自然数,进一步,取值为2-100的自然数,在每个n值下,针对每个目标谱,选择与目标谱相似度前n大的n个近红外光谱进行趋近于目标谱的拟合,以确定与近红外光谱对应的n个拟合系数。这样,需要执行30轮计算,得到每个n值下的拟合系数。
[0062]
实施例中,在每个n的取值下,针对每个目标谱,构建的拟合问题为:
[0063][0064]
其中,y0表示目标谱,y表示与目标谱相似度最大的前n大的n个近红外光谱形成的
向量,w表示与近红外光谱对应的n个拟合系数形成的向量;
[0065]
在求解拟合问题时,增加拟合系数为非负性、拟合系数之和为1约束,通过求解拟合问题,确定与近红外光谱对应的n个拟合系数。
[0066]
步骤5,利用n个拟合系数计算每个目标谱的每个化学指标的拟合值,并计算拟合值与检测值的绝对误差。
[0067]
实施例中,在每个n取值下,采用以下公式,利用n个拟合系数计算每个目标谱的每个化学指标的拟合值:
[0068][0069]
其中,wj表示第j个近红外光谱对应的拟合系数,z
j,k
表示第j个近红外光谱中第k个化学指标的化学值,lk表示第k个化学指标的拟合值。
[0070]
步骤6,针对每个化学指标,计算所有近红外光谱作为目标谱对应的绝对误差的平均值,筛选绝对误差的平均值最小时对应的n0作为最终确定值。
[0071]
实施例中,可以筛选适配单个化学指标的n值作为最终确定值n0,来用于后续测试样本单个化学指标的预测,具体过程为:对于每个化学指标,计算所有近红外光谱作为目标谱对应的绝对误差的平均值,如果总计有q个样品,则此过程会得到q个绝对误差的平均值,然后从q个绝对误差的平均值中筛选筛选绝对误差的平均值最小时对应的n作为最终确定值n0。
[0072]
实施例中,还可以筛选适配所有化学指标的n值作为最终确定值n0,来来用于后续测试样本所有化学指标的预测,具体过程为:在获得每个化学指标的绝对误差的平均值后,对每个化学指标的绝对误差的平均值进行量纲统一,计算公式为:
[0073][0074]
其中,ek表示第k个化学指标的绝对误差的平均值,fk表示第k个化学指标的检测值的平均值,cvk表示第k个化学指标的量纲统一值。
[0075]
然后,计算所有化学指标的绝对误差的平均值之和,筛选之和最小时对应的n作为最终确定的值n0。
[0076]
步骤7,以测试样本的近红外光谱作为目标谱,采用最终确定的n0,按照步骤2-步骤5,计算计算目标谱的每个化学指标的拟合值。
[0077]
实施例中,对待测样本的近红外光谱作为目标谱,对目标谱进行预处理后,计算目标谱与样本集中其他近红外光谱的相似度,然后选择与目标谱相似度最大的n0个近红外光谱进行趋近于目标谱的拟合,以确定与近红外光谱对应的n0个拟合系数,利用n0个拟合系数计算目标谱的每个化学指标的拟合值。
[0078]
实验例
[0079]
实验例中,选取某企业烤烟样本646个。取样后将样本按照烟草行业标准《yc/t 31-1996烟草及烟草制品试样的制备和水分测定烘箱法》制备成粉末样本(将烟叶置于烘箱中,40℃下干燥4h,用旋风磨(foss)磨碎过40目筛),密封平衡1d后进行光谱测量。同时利用国标法或其它方法测得样品的目标化学指标的检测值,包括总糖、烟碱、还原糖、氯、钾、总
氮。同时采集样品的近红外光谱图,如图2所示。然后按照上述基于相似光谱拟合的多化学指标预测方法中的步骤2~步骤7进行测试,拟定以1号为目标,其他样本的近红外光谱相似度排序如图3所示,图4给出了在n=5时,1号样本的最相似的5个样本及拟合系数。图5给出了训练集拟合误差,n=63时达到最小值。
[0080]
独立于训练集的烟叶样本230个。与训练样本同样的方式采集近红外光谱及测定化学指标的检测值。为了体现本方法的优势,与使用偏最小二乘方法(pls2)对训练集进行建模及测试集的测试结果进行对比。
[0081]
表1.本发明方法训练及测试结果
[0082][0083][0084]
表2.pls方法训练及测试结果
[0085][0086]
表3 wilcoxon符号秩检验对比两方法结果的差异性
[0087][0088]
分析表1-表3可得,pls模型预测结果中,总糖、烟碱、还原糖三项指标的预测误差远大于训练误差,显示出过拟合倾向,而氯、钾、总氮三项指标的预测误差低于训练误差,有悖常识,应该是数据批次巧合所致。相比之下,本方法6项指标中预测误差均稍高于训练误差,且预测结果与pls方法相当,展示出良好的建模和模型预测效果。
[0089]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1