在线近红外样本量确定方法

文档序号:9415664阅读:1124来源:国知局
在线近红外样本量确定方法
【技术领域】
[0001] 本发明涉及一种基于光谱投影的在线近红外样本量确定方法,属于烟草制品生产 质量评价领域。
【背景技术】
[0002] 烟草近红外谱图中包含大量的烟叶常规化学值信息,物理信息,以及外观信息,因 此近红外在常规化学值检测中,烟叶稳定性评价,以及烟叶质量评价领域发挥着很大的作 用,但是要建立好一个比较好的近红外模型,往往需要足够多的样本量,比较好的基础数据 质量,来构建近红外模型检测,评价体系;模型里面的样本量的大小比较重要,而往往模型 里面的样本量不能确定的化,要么导致模型的样本量过少,使得构建的烟叶近红外定性定 量模型比较不稳定,要么会导致模型里面的样本量过多,使得建立的近红外模型包含丰富 的待挖掘信息,但是也同时会导致构建的近红外模型体系非常复杂,维护起来非常繁琐,复 杂,形成年度一维护,季度一维护,更有甚者一月,一周一维护,很大程度上制约了红外模型 在烟叶领域的深度应用。
[0003] 在实际烟叶领域近红外定性,定量模型构建的过程中,对于样本量的确定方法一 般有如下几种方法(1)人为要求近红外模型里面的样本包含不同的品种,不同的产地,不 同的部位,不同的等级,甚至不同工艺的加工方式;由于全国品种,等级,信息很多,这种要 求一般在实际生产中很难满足;(2)人为取大量的基础光谱数据,利用PCA投影,剔除比较 接近的样本,逐渐的扩大模型的样本容量,这种方法由于PCA空间随着样本容量的变化而 变化,而且只能定性指导红外检测人员以及研究人员,并不能给研究人员一种明确的指导; 近红外分析技术,其作为一种大样本统计分析方法对样本量有一定要求,目前的研究结果 表明,追求样本量的绝对数量意义并不大。因为最低样本量的要求与多种因素相关:近红外 信息的含量,信号的稳定性,基础数据的准确性,近红外指标模型复杂程度,数据分布形态, 近红外应用的背景强度以及研究设计特点,所以没有任何一个最少样本量的推荐值同时考 虑了上述诸因素。近红外样本容量是一个很值得研究的问题,在构建近红外复杂定性定量 体系的过程中,如果样本量过少,构建出来的红外模型往往不能包含复杂的背景体系,稳健 性不好,导致模型的外推预测能力变差,如果在构建近红外模型体系中样本量过多,这无疑 会对模型的定性定量构建带来运算与计算上的复杂度,同时近红外的快速分析检测的优势 就体现不出来,由于在近红外领域,基础数据的检测,往往有一定的难度与成本,这无疑会 给企业带来大幅的成本上升,增加了维护的近红外模型的难度;
[0004] 如何快捷并且准确的在近红外模型构建钱确定近红外模型所需要的样本容量,如 何合理的根据实验目标以及前期所取得的基础数据信息,渐进评估模型的所需样本量,构 建一个具备初步稳健性质的近红外复杂体系模型为本专利研究的内容。

【发明内容】

[0005] 本发明的目的在于提供一种基于光谱投影的在线近红外样本量确定方法,以解决 上述问题。本发明采用了如下技术方案:
[0006] 一种在线近红外样本量确定方法,其特征在于,包括如下步骤:
[0007] 步骤一、仅采集全体样本的光谱信息,而不进行具体成分的分析;
[0008] 步骤二、对收集到的光谱信息所形成的矩阵进行PCA投影;
[0009] 步骤三、构造近红外光谱的统计量:
[0010]
[0011]
[0012] (3、
[0013] 其中Thl表示的是第i个样本的累积贡献率,thl表示的是第i个样本的贡献率,S hl 表示的第m个主成分的标偏,η是指样本量;F表示的是F分布;
[0014] 步骤四、计算总体样本空间T值的标偏,计算每个样本近红外光谱的T值;对全体 样本空间的T值以不同百分比进行抽样;把近红外模型的准确性转换成近红外光谱的稳定 性计算,在每个百分比下随机抽取k次,计算每个比例下样本T值的稳定性;
[0015] 步骤五:比较不同百分比抽样下的样本空间的T值标偏与总体样本变化的T值标 偏;样本空间的T值标偏与总体的样本的T值标偏的差异小于预定值时所对应的抽样比例, 即为所需在线近红外样本量的取样比例。
[0016] 进一步,本发明的在线近红外样本量确定方法,还可以具有这样的特征:其中,步 骤一中在采集全体样本的光谱信息后,还包括对异常光谱进行剔除的步骤,剔除量不超过 样本量的5%。
[0017] 进一步,本发明的在线近红外样本量确定方法,还可以具有这样的特征:其中,在 步骤四中,对全体样本空间的T值的抽样百分比是以5 %为起点,直到最大值100 %,中间间 隔2 %进行抽样。
[0018] 进一步,本发明的在线近红外样本量确定方法,还可以具有这样的特征:其中,步 骤四中所述稳定性用所抽取样本T值的标偏来衡量。
[0019] 进一步,本发明的在线近红外样本量确定方法,还可以具有这样的特征:其中,步 骤五中,所述预定值为10%。
[0020] 发明的有益效果
[0021] 1 :对于在线近红外,因为其大都实行了高度自动化样本光谱采集,全体样本空间 可以从近红外实时光谱中很容易获得;因此以实时光谱作为全体空间,来估计建模的样本 量,减少了模型大量复杂维护的工作,为企业节省了大量做基础数据的成本,取得很高的经 济价值。
[0022] 2:按照本发明的分析方法,经过数据比对得出建模所需要的估计量,减少了模型 的复杂度,利于后期对于近红外模型的维护;
[0023] 3 :对于一些定性分析,由于定性样本的获取来之不易,准确的定位样本的估计量, 一方面可以为烟草企业带来可行性研究的科学性,另外一方面又不至于获得过多的样本的 情况下对整个项目的可行性带来实证工作。
【附图说明】
[0024] 图1是样本烟叶的原始光谱;
[0025] 图2是烟叶原始样本T值分布图;
[0026] 图3是不同样本量模型的稳定性曲线;
[0027] 图4是不同样本量光谱空间变异程度曲线;
[0028] 图5是外部验证中预测值和实际值的曲线图。
【具体实施方式】
[0029] 以下结合【具体实施方式】来详细说明本发明的技术方案。
[0030] 本发明中所述方法主要包含以下步骤:
[0031] 1)在线近红外安装在检测位置后,仅收集样本的光谱信息,而不进行具体成分的 分析,从而形成一个近红外光谱的样本空间;然后对异常光谱进行剔除,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1