一种基于烟叶近红外光谱的相似烟叶搜索方法

文档序号:5953650阅读:118来源:国知局
专利名称:一种基于烟叶近红外光谱的相似烟叶搜索方法
技术领域
本发明涉及一种烟草行业中可用于相似烟叶搜索的方法,通过计算未知烟叶与各种目标烟叶的相似程度得到搜索结果。

背景技术
烟叶的内在质量受气候条件、种植地域、种植管理、调制加工等因素的影响,各产地、品种的烟叶原料主要根据外观质量分类成不同等级,而烟叶外观质量与内在质量的对应关系并不确切,因此烟叶原料在烟草加工企业进行配方设计和工业生产利用之前,需要通过人工评吸来确定其内在质量特性。产品设计涉及到的烟叶来源复杂,按产地、品种和等级细分有数百上千种之多,由于人工评吸的效率难以提高,而且得到的数据具有模糊性和非量化的特征,并且一定程度上受主观因素的影响,为了评价烟叶的可替代性,维护成品内在质量的稳定,大量的烟叶样品评吸给产品配方人员带来很大挑战,并给配方人员的身体健康带来压力。
烟叶中各种化学成分的含量反映了烟叶的质量状态,烟叶中总糖、还原糖、总氮、总碱、氯、钾等化学成分因为对烟叶质量有重要影响而成为烟草行业日常开展的检测指标,一般称作“烟叶常规化学成分”。然而目前所用的烟叶常规化学成分远不能充分表达烟叶的品质信息,对烟叶的可替代性的评价仍然深深依赖于感官评吸。
定义烟叶的质量和其对烟气质量的影响是非常复杂的问题。陈景云等研究了用烟叶化学成分评价烟叶品质的方法,利用烟叶中还原糖、烟碱、总氮和总挥发碱含量数据建立了烟叶化学成分-品质物元模型,把烟叶品质分为“较好”、“一般”和“较差”三级。胡建军等用模糊综合评定法评价烟叶感观质量品质,利用多个感观质量评价指标用模糊关系模型计算综合评价得分。蔡健荣等用计算机模拟人的视觉,建立人工神经网络模型对烟叶进行分级分类。谭仲夏等用灰色关联法对不同品种的烟叶内在质量进行了分析,以烟叶中9项化学成分指标数据为基础,通过灰色关联分析寻找影响烟草质量的主导因子。黎妍妍等对河南烟区193种烤烟样品的烟叶质量可用性进行了评价,利用模糊数学理论计算6种化学指标的隶属度,通过确定隶属函数的上下限和最优值来进行烟叶可用性的综合评价。蔡宪杰等研究了烤烟外观指标量化分析的方法,并考察了外观质量指标间的相关性。V.Nicolova为了研究地域因素对烤烟质量的影响,用烟叶化学成分、烟气成分和物理指标对烟叶质量进行评价。这些研究的目的是试图对烟叶的品质水平进行准确表达,努力把结果回归到外观质量因素和感官质量因素上。目前这些技术尚处于探索阶段,还难以得到稳定可靠的符合工业企业实际要求的结果。目前烟草企业普遍应用的是使用烟叶常规化学成分来给烟叶的可替代性评价作参考,局限性很大。在其他行业,如中药,已有用药材提取物的液相色谱指纹图谱进行质量判定的应用,而烟草内在品质因素范围广,许多内在质量指标找不到确切对应的有效成分,烟叶相似性的评价远比中药质量判定复杂。
本发明利用客观的烟叶近红外光谱数据,用模式识别方法评价未知烟叶与不同目标烟叶间相似程度,得到量化的、能反映烟叶间可替代性的数据。本专利方法同时考虑目标烟叶的平均水平和波动水平,相似烟叶搜索结果具有较高的可用性。


发明内容
本发明的目的是利用烟叶的客观检测数据——近红外光谱,来计算未知烟叶与各种具有一定波动水平的目标烟叶间的距离,通过对距离计算结果的排序,搜索与未知烟叶内在质量相似的目标烟叶。
本发明通过以下技术方案实现首先,对每种目标烟叶进行分布式取样,对样品进行粉碎或切丝处理,在近红外光谱仪上扫描处理样品的近红外光谱,并对近红外光谱进行前处理;然后分别对每一种目标烟叶的多个近红外光谱进行主成分分析(PCA)运算,得到载荷矩阵、特征值对角矩阵和标准化残差,生成每种目标烟叶的数据模型,建立目标烟叶数据模型库;接下来,扫描未知烟叶样品的近红外光谱,未知烟叶样品的前处理方式、近红外光谱扫描条件以及近红外光谱前处理方式与目标烟叶相同;用目标烟叶数据模型中的载荷矩阵对未知烟叶近红外光谱进行主成分分解计算,得到未知烟叶的主成分得分与分解残差,计算未知烟叶的主成分得分与目标烟叶数据模型的主成分空间距离,以及未知烟叶主成分分解残差与目标烟叶数据模型中的标准化残差之间的残差距离,用主成分空间距离与残差距离和的平方根来衡量未知烟叶与目标烟叶的距离,距离越小则相似度越高;最后,比较未知烟叶与各个目标烟叶的距离,按距离的大小排序,得到相似烟叶搜索结果,距离最小的为最相似的烟叶。
本发明的具体实现步骤如下 1)取样和样品前处理对每种目标烟叶进行分布式取样,根据目标烟叶的批量大小取样10~50个,取样应按均匀的间隔进行,取样量以满足近红外光谱扫描的要求为准。烟叶经粉碎处理制成烟末样品,或经切丝处理制成烟丝样品,如果烟叶未去梗,则需在制样之前去除烟叶主脉。设有n种目标烟叶C1~Cn,第i种目标烟叶的取样数量为Mi。
2)扫描样品的漫反射近红外光谱。选定谱区范围4000cm-1~10000cm-1中的一段或数段,对光谱进行前处理,前处理方式可以是均值中心化、一阶倒数、二阶倒数、拟合直线扣除、向量归一化、多元散射校正中的一种或几种的组合。设向量cij为目标烟叶i的第j个样品的经前处理后的近红外光谱,则由[ci1 ci2...ciMi]构成了目标烟叶i的近红外光谱特征矩阵SPi。
3)对目标烟叶i的近红外光谱特征矩阵SPi进行主成分分析(PCA)运算,得到载荷矩阵LDi,特征值对角矩阵Xi和主成分分解后的残差矩阵Ri。如用奇异值分解的方法进行iPCs个主成分数的主成分分析,用Matalab语言可表示为 奇异值分解[U,S,V]=svds(SPi,iPCs); 载荷矩阵LDi=V; 特征值对角矩阵Xi=S2; 残差矩阵Ri=SPi-U×S×V′。
残差矩阵Ri由目标烟叶i中的各个样品光谱经iPCs个主成分分解后所残留的光谱信息构成,设qij为目标烟叶i第j个样品的残差光谱向量,计算每个样品的光谱残差值 Qij=qij×qij′,j=1~Mi 设定目标烟叶i的标准化残差值RQi为各样品残差平方和的平均值+2倍目标烟叶各样品残差平方和的标准偏差,即 RQi=mean(Qij)+2×std(Qij),j=1~Mi 其中mean()为平均值计算函数,std()为标准偏差计算函数。
4)在目标烟叶i数据模型中保存载荷矩阵LDi,特征值对角矩阵Xi,标准化残差值RQi。
5)重复步骤“3)”~“4)”,直至建立所有n种目标烟叶的数据模型。
6)扫描未知烟叶的近红外光谱,选择与目标烟叶同样的光谱区域和光谱前处理方法,得到未知烟叶光谱向量spx; 7)计算未知烟叶光谱向量spx与目标烟叶i数据模型的距离 a)计算未知烟叶光谱向量spx的主成分得分 score=spx×LDi 其中LDi为目标烟叶i数据模型中保存的载荷矩阵。
b)计算未知烟叶光谱向量spx与目标烟叶i数据模型的主成分空间距离 其中Xi-1为目标烟叶i数据模型中保存的特征值矩阵Xi的逆矩阵; Mi为目标烟叶i的样品数。
c)计算未知烟叶光谱向量spx的主成分分解残差res res=spx-score×LDi′ d)计算未知烟叶光谱向量spx与目标烟叶i数据模型的残差距离 DRi=res×res′/RQi 其中RQi为目标烟叶i数据模型中保存的标准化残差值。
e)未知烟叶光谱向量spx与目标烟叶i数据模型的距离为以上计算所得主成分空间距离与残差距离平方和的平方根 8)重复步骤“7”,直至得到未知烟叶光谱spx与所有n种目标烟叶模型的距离D1~Dn; 9)对距离D1~Dn按从小到大的顺序排序,距离越小表明相似度越高。
距离值D既可用作未知烟叶与不同目标烟叶间相似性高低的相对比较,也可用来衡量未知烟叶与某一特定的目标烟叶的相似程度。根据本发明所述计算方式,可认为距离D<20为很相似,20<D<50为较相似,50<D<100为弱相似,D>100为不相似。

具体实施例方式 以下实施例旨在说明本发明而不是对本发明的进一步限定。
实施例1 在115种目标烟叶(C1~C115)中每种取10~50个共取样2989个,旋风磨粉碎制成烟叶样品,扫描所有样品的近红外光谱,光谱扫描范围4000cm-1~10000cm-1,取全光谱区域,采用向量归一化处理近红外光谱,按本发明方法建立115个目标烟叶的数据模型。在目标烟叶C51~C60中各另取1个共10个独立检验样品(T51~T60)作为未知烟叶,作与目标烟叶同样的样品处理和光谱前处理,按本发明方法计算其与目标烟叶C1~C115的距离,搜索与这10个未知烟叶最相似的目标烟叶。以未知烟叶T51与目标烟叶C51的距离计算为例 目标烟叶C51取样23个,近红外光谱扫描范围为4000cm-1~10000cm-1,每个样品光谱1555个波长点,共23×1555个吸收值数据。对每个样品光谱进行向量归一化(Vector Normalizaiton)处理,即光谱每点先减去光谱的平均吸收值,然后计算所有光谱点强度值的平方和,再用每个光谱点强度值除以这个平方和的平方根。由23个样品的向量归一化处理近红外光谱构成目标烟叶矩阵SP51。未知烟叶T51的近红外光谱经同样的向量归一化处理得到其光谱向量spx。
1)首先对SP51进行主成分数为6的主成分分析,建立目标烟叶C51的数据模型 奇异值分解[U,S,V]=svds(SP51,6); 保存载荷矩阵LD51=V; 保存特征值对角矩阵X51=S2; 得到主成分分解残差矩阵R51=SP51-U×S×V′; 设q51j为残差矩阵R51中第j个样品的残差光谱向量,计算每个样品的光谱残差值 Q51j=qij×qij′,j=1~23 计算目标烟叶C51的标准化残差值RQ51 RQ51=mean(Q51j)+2×std(Q51j),j=1~23 =8.082×10-7; 其中mean()为平均值计算函数,std()为标准偏差计算函数。
2)计算未知烟叶T51光谱向量spx与目标烟叶C51数据模型的距离 a)计算未知烟叶光谱向量spx的主成分得分 score=spx×LD51=
b)计算未知烟叶光谱向量spx与目标烟叶C51数据模型的主成分空间距离 DM51=score×X51-1×score′×(23-1)=8.465 c)计算未知烟叶光谱向量spx的主成分分解残差res res=spx-score×LD51′ d)计算未知烟叶光谱向量spx与目标烟叶C51数据模型的残差距离 DR51=res×res′/RQ51=(1.979×10-6)/(8.082×10-7)=2.449 e)未知烟叶光谱向量spx与目标烟叶i数据模型的距离为以上计算所得主成分空间距离与残差距离平方和的平方根 表1列出了与10个未知烟叶样品最相似的前7种目标烟叶,结果表明未知烟叶样品与其原来所属的目标烟叶高度相似,虽然未知烟叶样品T51~T60并未参与建立目标烟叶C51~C60的数据模型。表1相似烟叶搜索结果——与未知烟叶T51~T60最相似的7种目标烟叶 *括号内的数值为未知烟叶与目标烟叶的距离计算结果。
实施例2 在115种目标烟叶(C1~C115)中每种取10~50个共取样2989个,旋风磨粉碎制成烟叶样品,扫描所有样品的近红外光谱,光谱扫描范围4000cm-1~10000cm-1,取光谱区域4000cm-1~7500cm-1,采用均值中心化、一阶倒数和拟合直线扣除处理近红外光谱,按本发明方法建立115个目标烟叶的数据模型。在目标烟叶C21~C30中各另取1个共10个独立检验样品(T21~T30)作为未知烟叶,作与目标烟叶同样的样品处理和光谱前处理,按本发明方法搜索与这10个未知烟叶最相似的目标烟叶。表2列出了与10个未知烟叶样品最相似的前7种目标烟叶,结果表明未知烟叶样品与其原来所属的目标烟叶高度相似,虽然未知烟叶样品T21~T30并未参与建立目标烟叶C21~C30的数据模型。
表2相似烟叶搜索结果——与未知烟叶T21~T30最相似的7种目标烟叶 *括号内的数值为未知烟叶与目标烟叶的距离计算结果。
实施例3 在115种目标烟叶(C1~C115)中每种取10~50个共取样2989个,切丝制成烟丝样品,扫描所有样品的近红外光谱,光谱扫描范围4000cm-1~10000cm-1,取光谱区域5200cm-1~6800cm-1、7500cm-1~9000cm-1,采用均值中心化、二阶倒数处理近红外光谱,按本发明方法建立115个目标烟叶的数据模型。在目标烟叶C71~C80中各另取1个共10个独立检验样品(T71~T80)作为未知烟叶,作与目标烟叶同样的样品处理和光谱前处理,按本发明方法搜索与这10个未知烟叶最相似的目标烟叶。表3列出了与10个未知烟叶样品最相似的前7种目标烟叶,结果表明未知烟叶样品与其原来所属的目标烟叶高度相似,虽然未知烟叶样品T71~T80并未参与建立目标烟叶C71~C80的数据模型。 表3相似烟叶搜索结果——与未知烟叶T71~T80最相似的7种目标烟叶 *括号内的数值为未知烟叶与目标烟叶的距离计算结果。
实施例4 在115种目标烟叶(C1~C115)中每种取10~50个共取样2989个,切丝制成烟丝样品,扫描所有样品的近红外光谱,光谱扫描范围4000cm-1~10000cm-1,取光谱区域4200cm-1~7500cm-1,采用均值中心化和多元散射校正处理近红外光谱,按本发明方法建立115个目标烟叶的数据模型。在目标烟叶C91~C100中各另取1个共10个独立检验样品(T91~T100)作为未知烟叶,作与目标烟叶同样的样品处理和光谱前处理,按本发明方法搜索与这10个未知烟叶最相似的目标烟叶。表4列出了与10个未知烟叶样品最相似的前7种目标烟叶,结果表明未知烟叶样品与其原来所属的目标烟叶高度相似,虽然未知烟叶样品T91~T100并未参与建立目标烟叶C91~C100的数据模型。
表4相似烟叶搜索结果——与未知烟叶T91~T100最相似的7种目标烟叶 *括号内的数值为未知烟叶与目标烟叶的距离计算结果。
权利要求
1.一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征在于首先,对每种目标烟叶进行分布式取样,进行样品前处理,在近红外光谱仪上扫描得到其近红外光谱,进行近红外光谱的前处理,再分别对每一种目标烟叶的多个近红外光谱进行主成分分析(PCA)运算,得到载荷矩阵、特征值对角矩阵和标准化残差,生成每种目标烟叶的数据模型,建立目标烟叶数据模型库;然后,扫描未知烟叶的近红外光谱,未知烟叶样品的前处理方式、近红外光谱扫描条件以及近红外光谱前处理方式与目标烟叶相同;接下来,用目标烟叶数据模型中的载荷矩阵对未知烟叶近红外光谱进行主成分分解计算,得到未知烟叶的主成分得分与分解残差,计算未知烟叶的主成分得分与目标烟叶数据模型的主成分空间距离,以及未知烟叶主成分分解残差与目标烟叶数据模型中的标准化残差之间的残差距离;用主成分空间距离与残差距离和的平方根来衡量未知烟叶与目标烟叶的距离,距离越小则相似度越高;最后,比较未知烟叶与各个目标烟叶的距离,按距离的大小排序,得到相似烟叶搜索结果,距离最小的为最相似的烟叶。
2.根据权利要求1所述的一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征是近红外光谱的谱区范围为4000cm-1~10000cm-1中的一段或数段。
3.根据权利要求1所述的一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征是近红外光谱的前处理方式是均值中心化、一阶倒数、二阶倒数、拟合直线扣除、向量归一化、多元散射校正中的一种或几种的组合。
4.根据权利要求1所述的一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征是计算目标烟叶每个样品光谱的主成分分解残差平方和,标准化残差=目标烟叶各样品残差平方和的平均值+2×目标烟叶各样品残差平方和的标准偏差。
5.根据权利要求4所述的一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征是利用未知烟叶光谱与目标烟叶数据模型中保存的载荷矩阵、特征值对角矩阵和目标烟叶样本数,计算未知烟叶光谱主成分得分与该目标烟叶模型的主成分空间距离;用未知烟叶光谱经目标烟叶模型主成分分解后的残差,计算未知烟叶与目标烟叶模型的残差距离残差距离=未知烟叶光谱残差/目标烟叶数据模型中保存的标准化残差。
6.根据权利要求1所述的一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征是对每种目标烟叶进行10~50次的分布式取样。
7.根据权利要求1所述的一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征是步骤如下
1)取样和样品前处理对每种目标烟叶进行分布式取样,根据目标烟叶的批量大小取样10~50个,取样应按均匀的间隔进行,取样量以满足近红外光谱扫描的要求为准,烟叶经粉碎处理制成烟末样品,或经切丝处理制成烟丝样品,设有n种目标烟叶C1~Cn,第i种目标烟叶的取样数量为Mi;
2)扫描样品的漫反射近红外光谱。选定谱区范围4000cm-1~10000cm-1中的一段或数段,对光谱进行前处理,前处理方式是均值中心化、一阶倒数、二阶倒数、拟合直线扣除、向量归一化、多元散射校正中的一种或几种的组合;设向量cij为目标烟叶i的第j个样品的经前处理后的近红外光谱,则由[ci1 ci2...ciMi]构成了目标烟叶i的近红外光谱特征矩阵SPi。
3)对目标烟叶i的近红外光谱特征矩阵SPi进行主成分分析(PCA)运算,得到载荷矩阵LDi,特征值对角矩阵Xi和主成分分解后的残差矩阵Ri;用奇异值分解的方法进行iPCs个主成分数的主成分分析,用Matalab语言可表示为
奇异值分解[U,S,V]=svds(SPi,iPCs);
载荷矩阵LDi=V;
特征值对角矩阵Xi=S2;
残差矩阵Ri=SPi-U×S×V′;
残差矩阵Ri由目标烟叶i中的各个样品光谱经iPCs个主成分分解后所残留的光谱信息构成,设qij为目标烟叶i残差矩阵Ri中第j个样品的残差光谱向量,计算每个样品的光谱残差值Qij
Qij=qij×qij′,j=1~Mi
设定目标烟叶i的标准化残差值RQi为各样品残差平方和的平均值+2倍目标烟叶各样品残差平方和的标准偏差,即
RQi=mean(Qij)+2×std(Qij),j=1~Mi
其中mean()为平均值计算函数,std()为标准偏差计算函数。
4)在目标烟叶i数据模型中保存载荷矩阵LDi,特征值对角矩阵Xi,标准化残差值RQi。
5)重复步骤“3)”~“4)”,直至建立所有n种目标烟叶的数据模型。
6)扫描未知烟叶的近红外光谱,选择与目标烟叶同样的光谱区域和光谱前处理方法,得到未知烟叶光谱向量spx;
7)计算未知烟叶光谱向量spx与目标烟叶i数据模型的距离
a)计算未知烟叶光谱向量spx的主成分得分
score=spx×LDi
其中LDi为目标烟叶i数据模型中保存的载荷矩阵。
b)计算未知烟叶光谱向量spx与目标烟叶i数据模型的主成分空间距离
其中Xi-1为目标烟叶i数据模型中保存的特征值矩阵Xi的逆矩阵;
Mi为目标烟叶i的样品数。
c)计算未知烟叶光谱向量spx的主成分分解残差res
res=spx-score×LDi′
d)计算未知烟叶光谱向量spx与目标烟叶i数据模型的残差距离
DRi=res×res′/RQi
其中RQi为目标烟叶i数据模型中保存的标准化残差值。
e)未知烟叶光谱向量spx与目标烟叶i数据模型的距离为以上计算所得主成分空间距离与残差距离平方和的平方根
8)重复步骤“7”,直至得到未知烟叶光谱spx与所有n种目标烟叶模型的距离D1~Dn;
9)对距离D1~Dn按从小到大的顺序排序,距离越小表明相似度越高。
8.根据权利要求1或7所述的一种基于烟叶近红外光谱的相似烟叶搜索方法,其特征是距离值D可用作未知烟叶与不同目标烟叶间相似性高低的相对比较,或是用来衡量未知烟叶与某一特定的目标烟叶的相似程度;距离D<20为很相似,20<D<50为较相似,50<D<100为弱相似,D>100为不相似。
全文摘要
一种基于烟叶近红外光谱的相似烟叶搜索方法,所用的基础数据是烟叶的近红外光谱。首先对每种目标烟叶进行分布式取样,进行样品前处理,在近红外光谱仪上扫描得到其近红外光谱,再分别对每一种目标烟叶的多个近红外光谱进行主成分分析(PCA)运算,得到载荷矩阵、特征值和标准化残差,生成每种目标烟叶的数据模型;然后扫描未知烟叶的近红外光谱,用目标烟叶数据模型中的载荷矩阵对未知烟叶近红外光谱进行主成分分解计算,得到未知烟叶的主成分得分与分解残差,计算未知烟叶的主成分得分与目标烟叶数据模型的主成分空间距离,以及未知烟叶分解残差与目标烟叶数据模型中的标准化残差之间的残差距离,用主成分空间距离与残差距离和的平方根来衡量未知烟叶与目标烟叶的距离,距离越小则相似度越高;最后,比较未知烟叶与各个目标烟叶的距离,按距离的大小排序,得到相似烟叶搜索结果。
文档编号G01N21/17GK101251471SQ200810030799
公开日2008年8月27日 申请日期2008年3月12日 优先权日2008年3月12日
发明者文 杜, 易建华, 谭新良, 任建新, 张文利, 燕 周 申请人:湖南中烟工业有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1