一种近红外光谱技术快速识别松脂来源树种的方法与流程

文档序号:15632340发布日期:2018-10-12 20:54阅读:442来源:国知局

本发明涉及光谱技术识别物质来源领域,尤其涉及一种近红外光谱技术快速识别松脂来源树种的方法。



背景技术:

松脂是由松属树种树脂道内的分泌脂细胞分泌产生的一种天然树脂,是松树生理代谢的次生产物。松脂是制造松香和松节油的原料,采自马尾松、湿地松、云南松、南亚松、加勒比松、火炬松等天然植物,其中马尾松和湿地松是最主要的树种。松脂的质量直接影响松香的颜色、软化点、杂质和结晶等主要质量指标,同时也间接影响到松香下游产品的工艺条件和产品质量。在实际的生产过程中,由于松脂的供货环节由大中型供应商掌握,为获取更高利润,常出现不同种类的松脂掺杂现象。松脂掺杂导致两个问题,其一是以特定品质松脂为原料的松香及其下游产品在相同的工艺条件下无法得到合格的产品;其二是由于掺杂的松脂种类及量的差异,导致松脂化学组成稳定性无法得到保证,影响到统一的生产作业。

现有的松脂成分分析技术主要是气相色谱分析法,该方法能对松脂的化学组成进行比较充分的定性定量解析,其结果可以作为分辨马尾松和湿地松的依据。但是,由于不同种类的松脂识别是近年来才在松脂产业中出现的问题,因此专门用于识别马尾松和湿地松的技术还很少。而且,气相色谱法存在仪器昂贵、操作复杂、样品处理繁琐、分析时间长等缺点,不适合在原料采购环节对松脂样本的种类做快速鉴别。

由于不同种间的松脂在化学组成上具有较高的相似性,只存在极少的特征组分以及组分之间的含量差异,因此通过传统的鉴别方法如肉眼观察、称重等无法实现有效的质量控制,亟需开发新的快速可行的检测识别松脂树种来源方法。本发明的目的即开发一种基于近红外光谱技术,用于快速识别马尾松松脂和湿地松松脂,以保证松脂原料的产品质量。



技术实现要素:

本发明实施例提供一种近红外光谱技术快速识别松脂来源树种的方法,用于解决现有技术中识别松脂来源树种的测试方法低效高成本的问题。

一种近红外光谱技术快速识别松脂来源树种的方法,包括以下步骤:

(1)采集一松脂来源树种的多个样本,用于建立近红外识别模型的校正集;

(2)采用光谱分析方式测量所述样本的近红外光谱数据;

(3)建立所述样本与松脂来源树种对应的近红外识别模型;

(4)测量待识别松脂来源树种的样品的近红外光谱数据,将所述近红外光谱数据代入近红外光谱识别模型进行比对,从而得出所述样品的松脂来源树种。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述的建立所述样本与松脂来源树种对应的近红外识别模型包括:通过偏最小二乘线形判别法或支持向量机方法建立所述样本与松脂来源树种对应的近红外识别模型。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述通过偏最小二乘线性判别法建立所述样本与松脂来源树种对应的近红外识别模型前包括步骤:

利用蒙特卡洛奇异值判别法剔除奇异样本;

利用sg平滑技术进行数据预处理;

利用无信息变量删除技术进行波段选择。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述通过偏最小二乘线性判别法建立所述样本与松脂来源树种对应的近红外识别模型后包括步骤:

通过内部交互检验方法和外部测试集方法对模型的预测性能进行评价;

所述内部交互检验方法为:将校正集中的样本均分为k个样本子集,选择其中1个样本子集作为预测子集,剩余的k-1个样本子集共同作为校正子集,如此循环k次,取k次建模的平均预测效果作为内部检验的结果;

所述外部测试集方法为:取若干样本组成外部测试集,利用校正集所建立的模型对外部测试集的样本进行预测,外部测试集中的样本不参与建模的任何环节,仅用于评价所得模型的泛化能力。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述光谱分析方式包括透射分析方式和漫反射分析方式。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述透射分析方式包括如下步骤:

用丙酮溶解所述样本得到溶液;

测量所述溶液的近红外光谱。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述漫反射分析方式包括如下步骤:

将所述样本装入密封袋;

通过积分球采集信号。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述松脂来源树种包括马尾松、湿地松、云南松、南亚松、加勒比松、火炬松。

作为技术方案的进一步改进,以上所述的一种近红外光谱技术快速识别松脂来源树种的方法,所述偏最小二乘线性判别法和/或蒙特卡洛奇异值判别法采用matlab软件进行分析。本发明具有以下有益效果:

1、本发明采用近红外光谱技术实现快速、准确识别不同松脂来源树种,从而为高产优质的松脂来源树种资源的快速筛选提供有理的科学依据,同时有利于后续松脂加工工艺的正常进行。

2、本发明的技术方案识别松脂树种来源方法较气相色谱法识别方法的成本更低。

3、本发明的漫反射技术方案与常规化学分析方法相比,检测速度快、不破坏样品、无需样品预处理、不使用化学试剂,分析精度高,是一种方便、快速、可靠的绿色分析技术,能满足松脂来源树种快速识别的需要。

附图说明

图1为本申请实施例一的蒙特卡洛法奇异值删除结果示意图;

图2为本申请实施例一的样本的原始近红外光谱图;

图3为本申请实施例一的样本的s-g光谱平滑技术处理后的近红外光谱图;

图4为本申请实施例二的蒙特卡洛法奇异值删除结果示意图;

图5为本申请实施例二的样本的原始近红外光谱图;

图6为本申请实施例二的样本的s-g光谱平滑技术处理后的近红外光谱图;

图7为本申请实施例二的建模算法选择的变量与样本的近红外光谱对照图;

图8为本申请实施例二的利用重复双重交叉检验法的潜变量数统计图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

以下结合附图,详细说明本发明各实施例提供的技术方案。

实施例1

一种近红外光谱技术快速识别松脂来源树种的方法包括以下步骤:

步骤11:采集一松脂来源树种的多个样本,用于建立近红外识别模型的校正集;

采集82个松脂样本,单个样本采集量为50g,采集地点为武鸣、防城、富川、梧州、百色、乐业,松脂样本包括马尾松和湿地松两大类。其中,51个为马尾松松脂,31个为湿地松松脂。样本采集后去除树皮、枝叶等杂质导入样本瓶,密封,存于冰箱冷藏待建立近红外识别模型的校正集样本。

将马尾松松脂设为类别“1”,湿地松松脂设为类别“-1”,作为建模的响应变量。

可以理解的是,所述松脂来源树种包括但不限于马尾松、湿地松、云南松、南亚松、加勒比松、火炬松。

步骤12:测量所述样本的近红外光谱图;

82个样本分成校正集和测试集,其中校正集包括41个马尾松松脂和25个湿地松松脂,合计66个;测试集包括10个马尾松松脂和6个湿地松松脂,合计16个。对82个样本测量近红外光谱数据,具体结果如表1所示。

表1松脂样本的近红外数据模式

光谱分析方式包括透射分析方式和漫反射分析方式,本实施例采用透射分析方式。透射分析方式包括:

子步骤121:用丙酮(分析纯)溶解所述样本得到溶液;

本实施例采用透射式光谱测量方法,将82份松脂样本进行近红外光谱扫描和光谱数据收集,所用仪器为i-spec型近红外光谱仪,通过光纤连接吸收池与近红外光谱仪。对每个样本称取2克松脂装入烧杯中,采用丙酮将松脂样本溶解为透明溶液。

子步骤122:测量所述溶液的近红外光谱。

将子步骤121得到的透明溶液置于1cm比色皿中测量。实验参数:积分时间4000ms,光谱采集次数3次,扫描波段900-1700nm。数据模式见表1,单个松脂样本的分析时间为2分钟。

步骤13:通过偏最小二乘线性判别法建立所述样本与松脂来源树种对应的识别模型;

偏最小二乘线性判别分析将偏最小二乘与线性判别分析相结合,先用偏最小二乘法对原始数据进行降维,得到新的特征变量,即所谓得分矢量,然后再对得分矢量进行线性判别分析,得到分类判别函数进而建立判别模型。

可以理解的是,还可以通过支持向量机方法建立所述样本与松脂来源树种对应的识别模型,只要可以得到识别模型的方法均属于本发明的保护范围。

为了建立松脂的近红外光谱信息及其种类之间的关联,本发明中所用到的算法均通过matlab编程,可在windowsxp,windows7,windows10系统运行。建模步骤包括:

子步骤131:利用蒙特卡洛奇异值判别法剔除奇异样本;

蒙特卡洛奇异值筛选法通过对数据进行n次采样,n一般为几千次;由于每次采样时,只随机取了部分样本,一般占总样本的70%~80%,然后用这些样本作为训练集建模,并对没参与建模的样本进行预测误差的计算,经过数千次的采样,每个样本点都可得到其预测误差的一个分布,而奇异值和非奇异值在模型中存在差异,故可以通过对其预测误差分布特点的不同而进行有效的区分。

利用蒙特卡洛奇异值筛选法剔除奇异样本,结果见图1。方差和平均值的阈值根据实际情况设定,本实验中均值取1.10,方差取0.350,超出阈值的样本不参与建模,如图1所示的左下区域为建模样本。

子步骤132:利用sg平滑技术进行数据预处理;

sg平滑技术由savitzky和golay共同提出,即窗口移动多项式最小二乘拟合法,该方法在处理一个含噪声的光谱时,将其中的第i个点及其前后各m个数据点作为一个窗口,对这个窗口的数据点进行多项式最小二乘拟合,并将窗口内2m+1个等距离点的数据拟合为多项式。

对子步骤131得到的剩余的样本采用s-g光谱平滑技术进行光谱预处理,提高信噪比,具体可见图2和图3。

子步骤133:利用无信息变量删除技术进行波段选择。

利用无信息变量删除法进行最佳波段选择,得到有效变量133个,对有效变量进行建模。

无信息变量删除技术在原始光谱矩阵中加入一个与校正集光谱矩阵的变量数相同的随机矩阵,然后通过留一交叉验证建立pls模型,得到回归系数矩阵b,用回归系数的平均值除以回归系数的标准偏差作为衡量某个变量稳定性的参数。将所有变量稳定性进行降序排序,以噪音的稳定性最大值作为阈值,删除小于该阈值的变量。

波段选择是基于无信息变量删除技术,一方面是为了消除共线性对建模的影响,另一方面由于某些波长下不同样本的吸光度一样,故该波长提供的信息对于区分样本并无价值从而排除该波段。通过波段选择将信息量大的变量用于建模,有利于简化模型,提高模型的稳定性。

子步骤134:利用偏最小二乘线性判别法(pls)建立识别模型,通过内部交互检验对主成分数进行优化。

内部交互检验法为将校正集中的样本均分为k个样本子集,选择其中1个样本子集作为预测子集,剩余的k-1个样本子集共同作为校正子集,如此循环k次,取k次建模的平均预测效果作为内部检验的结果。

主成分数取10的时候,模型自校正和内部交互检验的准确率分别为100%和92%。可以理解的是,pls建模时,原始变量经分解后变为按照信息多少降序排列的潜变量,即为主成分数。主成分数是根据交互检验的结果来选择的。

子步骤135:利用16个松脂样本作为外部测试集。

外部测试集法为取若干样本组成外部测试集,利用校正集所建立的模型对外部测试集的样本进行预测,外部测试集中的样本不参与建模的任何环节,仅用于评价所得模型的泛化能力。

外部测试集中的样本与参与建模环节的样本存在重合,故能客观的反映模型的预测能力,通过测试外部测试集的样本可知,10个马尾松松脂正确预测9个,6个湿地松松脂全部正确预测,总体的预测准确率93.75%,具体如表2所示。

表2透射模式下pls识别模型的预测结果

步骤14:测量待识别松脂来源树种的样品的近红外光谱数据,将所述近红外光谱数据代入近红外光谱识别模型进行比对,从而得出所述样品的松脂来源树种。

本实施例的近红外光谱识别模型的准确率高达93.75%,可用于识别松脂来源树种,具体为:测量待识别松脂来源树种的样品的近红外光谱数据,将该近红外光谱数据录入识别模型,与识别模型中的近红外光谱数据进行比对,从而识别模型判断出样品的松脂来源树种。

实施例2:

一种近红外光谱技术快速识别松脂来源树种的方法包括以下步骤:

步骤21:采集一松脂来源树种的多个样本,用于建立近红外识别模型的校正集样本;

采集82个松脂样本,单个样本采集量为50g,采集地点为武鸣、防城、富川、梧州、百色、乐业,松脂样本包括马尾松和湿地松两大类。其中,51个为马尾松松脂,31个为湿地松松脂。样本采集后去除树皮、枝叶等杂质导入样本瓶,密封,存于冰箱冷藏待建立近红外识别模型的校正集样本。

将马尾松松脂设为类别“1”,湿地松松脂设为类别“-1”,作为建模的响应变量。

步骤22:测量所述样本的近红外光谱图;

光谱分析方式包括透射分析方式和漫反射分析方式,本实施例采用漫反射分析方式采集松脂的近红外光谱信息,漫反射采集光谱的优势在于无需对松脂样本进行溶解处理,直接取松脂若干装入透明的密封袋即可测样,分析速度极快。

具体步骤包括:

子步骤221:将所述样本装入密封袋;

移取适量松脂装入3cm×4cm的透明密封袋,压平松脂,制备得到厚度约5mm,面积约2cm×2cm的饼状松脂样本,呈粘稠固体形态。

子步骤222:近红外光谱仪预热30分钟后开始测量样本的近红外光谱信息。

首先关闭近红外光谱仪光源测得仪器暗电流,以白色底板测得参比光谱,再通过积分球以漫反射方式直接采集松脂样本的近红外光谱信息。本实施例的扫描波段为900nm-1400nm,积分时间为4000ms,扫描次数为10次,单个样本采集光谱数据点511个。

步骤23:通过偏最小二乘线性判别法建立所述样本与松脂来源树种对应的识别模型;

为了建立松脂的近红外光谱信息及其种类之间的关联,本发明所采用的算法均通过matlab编程,可在windowsxp,windows7,windows10系统运行.

可以理解的是,本发明包括但不限于matlab编程,只要可以实现本发明所采用的算法的编程软件,都属于本发明的保护范围。

识别模型的建模步骤包括:

子步骤231:利用蒙特卡洛奇异值判别法剔除奇异样本;

采用基于蒙特卡洛采样的奇异值诊断技术对校正集中的奇异值进行筛选。如图4所示,本实施例的均值取0.80,方差取0.181,超出阈值的样本为奇异值,所有奇异值均不参与建模。

子步骤232:利用sg平滑技术进行数据预处理;

去除奇异值的样本被随机划分为训练集与测试集,训练集样本数50个(32个马尾松松脂和18个湿地松松脂),测试集样本数27个(16个马尾松松脂和11个湿地松松脂)。利用训练集的50个样本建模,测试集中的样本不参与建模的任何过程,仅用于检验模型的预测能力。

对子步骤231得到的剩余的样本采用s-g光谱平滑技术进行光谱预处理,提高信噪比,具体前后效果比较如图5、图6所示。

子步骤233:子窗口随机分析波段选择;

本实施例采用子窗口随机化分析法进行变量选择,从511个原始光谱数据点中选择了300个变量进行建模。子窗口随机化分析变量选择是基于模型集群的思想,通过不同的训练子集和变量子集反复地建立子模型,通过对大量子模型的统计分析,筛选出最佳的变量集。如图7所示,将建模算法选择出的变量与样本的近红外光谱图进行对照,可以发现有效变量出现的区域与近红外光谱吸收峰的位置一致。

子步骤234:利用偏最小二乘线性判别法建立识别模型;

偏最小二乘线性判别法是一种广泛应用的有监督模式识别方法,即用已知的样本进行训练,让计算机从这些样本的数据中“学习”,从而得到一个对同类样本具有预测功能的判别模型,该方法特别适合于样本数较少、变量数较多的数据集。本实施例中,训练集的光谱矩阵为x50×511,即有50个松脂样本,每个样本有511个光谱数据点;训练集的响应矩阵为y50×1,其中马尾松松脂由“+1”表示,湿地松松脂由“-1”表示。

主成分数选择过少,模型欠拟合;主成分数选择过多,则会引起模型过拟合。交互检验可以有效地利用样本信息,在进行建模的同时进行样本校验,并据此获得最佳模型。重复双重交叉校验法是一种内部交互检验方法,它将蒙特卡洛交叉校验与双重交叉校验结合到一起,兼具二者的优势,能够给出预测误差的分布信息。如图8所示,本实施例利用重复双重交叉检验法建立1000个子模型,统计最优模型潜变量数的最高频度值最终确定为模型的潜变量数(n=7)。

子步骤235:识别模型建立及评价。

经过光谱预处理、奇异值筛选、波长选择和确定潜变量数等步骤后,利用偏最小二乘线性判别法建立模型,并通过测试测试集中的未知样本对模型的预测能力进行评估。如表3所示,测试集中的27个样本,除1个湿地松松脂被错判为马尾松松脂,其余26个样本均能正确识别,准确率达到96.30%。

表3漫反射近红外光谱识别模型预测结果

步骤24:测量待识别松脂来源树种的样品的近红外光谱数据,将所述近红外光谱数据代入近红外光谱识别模型进行比对,从而得出所述样品的松脂来源树种。

本实施例的近红外光谱识别模型的准确率高达93.75%,可用于识别松脂来源树种,具体为:测量待识别松脂来源树种的样品的近红外光谱数据,将该近红外光谱数据录入识别模型,与识别模型中的近红外光谱数据进行比对,从而识别模型判断出样品的松脂来源树种。

漫反射模式的分类结果和透射模式的分类结果准确率相当,但漫反射具有更快的分析速度。

本发明利用近红外光谱结合化学计量学算法,能够对马尾松松脂和湿地松松脂进行准确识别,透射和漫反射两种光谱采集方式的识别准确率分别能达到93.75%和96.30%。多次分析的结果稳定,模型稳定性好。本发明的松脂来源树种识别方法操作简单,分析时间短,透射模式的单个松脂样本的分析时间为2分钟,漫反射模式的单个样本分析时间为30秒,相较气相色谱法识别技术成本更低,能快速、准确识别不同松脂来源树种,从而为高产优质的松脂来源树种资源的快速筛选提供有理的科学依据,同时有利于后续松脂加工工艺的正常进行。

以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1