基于近红外光谱波数k均值聚类的烟草化学值定量方法

文档序号：9417666阅读：386来源：国知局

基于近红外光谱波数k均值聚类的烟草化学值定量方法
【技术领域】
[0001] 本发明涉及烟草的理化检测技术领域，具体涉及一种基于近红外光谱波数K均值聚类的烟草化学值定量方法。
【背景技术】
[0002] 烟草中的主要化学成分如总糖、烟碱、还原糖、总氮等对烟叶品质具有重要影响，是决定烟气劲头，醇和度等的主要因素。在烟草工业中，常规化学成分的分析测定对卷烟成品质量的控制具有重要的意义。
[0003] 近红外光谱能够表征待测物中多种含氢基团信息，具有采样方便、无损伤、无污染、能够在线检测等优点，非常适合用于各种复杂混合物的检测。近红外光谱检测技术目前已广泛应用于烟草领域，例如打叶复烤中基于烟碱含量的均质化加工及卷烟生产中的质量监测等。应用近红外分析技术，可以较好的预测烟叶中烟碱，总糖，总氮等主要化学成分含量，对烟叶质量进行快速初步的评价有极大地帮助。
[0004] 目前基于近红外的烟叶主要化学成分建模主要是通过偏最小二乘算法 (PartialLeastSquares，PLS)来实现，PLS是为了弥补最小二乘在计算强共线性数据时的缺陷而提出的（参见文献 H. Martens, S. A. Jensen, and P. Geladi, "Multivariate linearity transformations for near infrared reflectance spectroscopy, '，in Proc. Nordic Symp. Applied Statistics, 1983, pp.205 - 234.)〇
[0005] 考虑一组因变量Y= {yi，y2，…，yq}和一组自变量X= {Xl，x2, ···，&}，在X存在严重多重相关性或者样本数量少于变量个数时，对矩阵XtX求逆将会失效。PLS采用成分提取的办法解决这个问题，通过在X和Y中依次提取出成分分量，保证X中分量与Y中分量的协方差最大，从而实现回归建模、数据结构简化以及分析两组变量之间的相关性，能够有效地处理多变量和共线性问题，非常适合应用于近红外光谱的定量分析。
[0006] 然而，针对烟草等复杂的天然产品，PLS方法在算法执行中对所有波数信息统一进行处理，对感兴趣物质含量相关区域、无信息区域以及噪声区域等没有进行甄别，致使模型的预测精度和解释能力没有达到最优。同时，由于近红外光谱定量分析属于二次分析方法，即在标准分析方法（如流动分析等）的基础上进行建模，其模型误差对后续应用有较大影响。
[0007] 例如，打叶复烤中根据化学值对烟叶进行调配，保证复烤烟叶质量均一稳定，又如，在烟叶醇化过程中，监测不同种类烟叶随醇化时间的烟叶化学值和品质变化过程，优选最佳的醇化时间等。在上述应用中，都需利用近红外光谱快速大量的获取分析数据，同时，由于其预测精度对后续的调配，加工等至关重要，因此，需优化定量分析模型以提供精准的化学值预测。
[0008] 现有的基于近红外的烟草化学值的建模方法为单一 PLS算法，该算法执行中对光谱的各局部信息没有进行筛选或处理，导致部分高噪声变量同时进入到建模过程中，对于与待测化学值关联性较强的谱段没有进行适当的增强，致使模型的预测精度和解释能力没有达到最优。
[0009] 由于现有的基于近红外的烟草化学值的建模方法为单一 PLS算法，对近红外光谱中的各个波段统一处理，存在对光谱噪声的抑制能力不强，对光谱中的有效信息挖掘能力不够的缺点。

【发明内容】

[0010] 本发明提供了一种基于近红外光谱波数K均值聚类的烟草化学值定量方法，利用近红外光谱的波数K均值聚类和模型集成，建立烟草中化学成分的定量模型，降低近红外光谱信号中的干扰因素，提高定量模型的预测精度。
[0011] -种基于近红外光谱波数K均值聚类的烟草化学值定量方法，包括如下步骤：
[0012] (1)建立训练集和测试集，采集训练集中所有烟草样本的近红外光谱，并测量训练集中各烟草样本的目标成分含量；
[0013] (2)采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类；
[0014] (3)每一次聚类完成后，利用偏最小二乘法分别建立各子类谱段与目标成分含量的关系模型，并计算各关系模型的交叉验证均方根误差（即Root Mean Square Error for Cross-Validation, RMSECV)；
[0015] (4)以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数，并将最优聚类数对应的各关系模型进行加权求和，得到全谱模型；
[0016] (5)采集测试集中各烟草样本的近红外光谱，并依据全谱模型，得到测试集中各烟草样本的目标成分含量。
[0017] 本发明中利用近红外光谱波数K均值聚类和模型集成的建模方法分为三步：首先，通过K均值聚类和子类建模，对近红外光谱的局部信息进行提取，其次，通过对子类进行比较和加权，确定各局部信息在全谱模型中的权重，最终得到全谱模型，最后，利用交叉验证的方法，对不同的聚类和建模效果进行比较，确定最优的聚类类别数和相应的模型回归系数，利用模型回归系数对测试集中各烟草样本的目标成分进行预测。本发明将局部信息提取和模型相融合，提高了模型的预测精度和解释能力。
[0018] 步骤（1)中利用现有技术中的国际国内标准或其他已经成熟的测试方法测量训练集中各烟草样本的目标成分含量，目标成分根据需要进行选择，优选地，步骤（1)中的目标成分为总糖、烟碱、还原糖或总氮。
[0019] 步骤（2)中聚类的最大聚类数为2~10。最大聚类数依据近红外光谱所含变量的数目确定，优选地，步骤（2)中聚类的最大聚类数为2~5。
[0020] 本发明中，为了获得更好的精度以及计算效率，优选地，偏最小二乘法采用非线性迭代偏最小二乘法。交叉验证均方根误差采用五折交叉验证算法。
[0021] 作为优选，步骤（4)中各关系模型的权重Wk计算公式如下：
[0022]
[0023] 式中：ek为第k个子类的交叉验证均方根误差；
[0024] η为子类的个数。
[0025] 将各关系模型加权求和，得到全谱模型，全谱模型中各回归系数β的计算公式如下：
[0026]
[0027] 式中，wk，β 别为第k个关系模型的权重和回归系数。
[0028] 为了获得理想的近红外光谱，需要对烟草样本进行预处理，预处理过程如下：
[0029] 烟草样本烘干后，磨碎至40目，密封平衡24~36h后，进行近红外光谱测量。
[0030] 本发明提供的基于近红外光谱波数K均值聚类的烟草化学值定量方法，与现有的 PLS方法相比，能够显著降低模型的预测误差，适用于近红外光谱中对烟草样本化学值的准确定量。
【附图说明】
[0031]

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毕一鸣;储国海;周国俊;夏琛;吴继忠;袁凯龙;史春云;夏骏;
技术所有人：浙江中烟工业有限责任公司;
我是此专利的发明人

上一篇：基于生理信息熵的人体体成分预测方法
上一篇：医疗点的药物分配的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。