建立烟草近红外模型的选样方法

文档序号:6158179阅读:152来源:国知局

专利名称::建立烟草近红外模型的选样方法
技术领域
:本发明涉及一种用于建立烟草近红外模型的方法,具体涉及一种建立烟草近红外模型的选样方法。
背景技术
:二十世纪九十年代以来,近红外技术在烟草中的应用越来越广泛,各烟草企业根据各自的实际情况都建立了自己的近红外模型。进入本世纪后,国内烟草行业掀起了兼并重组的浪潮,原来分散的巻烟厂,联合组成了跨地域、大集团式的工业公司。在近红外技术的研究中,随之而来的问题出现了原来各烟厂建立的近红外模型,已不能适应大集团模式下研究的需要。现实情况却是,不同的烟厂建立了不同的近红外模型,但这些模型是彼此独立的,这些模型可能采用不同的近红外仪器扫描光谱,同时还有可能用不同的分析方法获得原始数据。一般而言,这种情况下模型之间的样品信息是很难共享的。在这种情况下,重新建立近红外模型是不现实的,必须找到合适的方法,将已有的模型充分利用起来。目前,在建立烟草近红外模型过程中,样品的选择常用到经验选择、浓度识别和光谱识别三种方法。经验选择法通常是按照烟草的品种、年份、部位、等级以及用途等性质,挑选具有代表性的烟草样品作为定标集样品建立模型;浓度识别法主要是依据样品组分的浓度差异,选择具有代表性的样品作为定标集样品建立模型;光谱识别法主要依据样品的光谱差异挑选样品建立模型。采用经验选择法挑选样品的缺点是其所需样品量巨大,同时这种方法忽略了样品本身的物理和化学性质而容易引起误差;浓度识别法的缺点是其忽略了样品的光谱差异,从而可能导致模型的预测能力偏低;光谱识别法的缺点是其忽略了样品内在质量的差异,容易导致模型失真。针对这些情况,本发明提出了一种用于建立烟草近红外模型的选样方法。
发明内容本发明克服了现有技术的不足,提供了一种能克服上述方法缺点的建立烟草近红外模型的选样方法。本发明的技术方案是—种建立烟草近红外模型的选样方法,采用步骤1至步骤7:步骤1获得相互独立的两个样品集{A}和{B}中的烟草样品的近红外扫描谱步骤2将样品集{A}和样品集{B}的近红外扫描谱图进行光谱预处理;步骤3根据样品集{B}中样品i的近红外光谱&和样品集{A}中样品的平均光谱X^,得到样品i到样品集{A}的光谱马氏距离&;步骤4根据样品集{B}中样品i的组分含量1和样品集{A}中样品的组分含量平均值Y^,得到样品i到样品集{A}的组分值距离d/;步骤5根据步骤3求得的光谱马氏距离&和步骤4求得的组分值距离di',得到样品集{B}中样品i到样品集{A}的整体欧式距离Di;步骤6按特定原则选取样品集{B}中的样品添加到样品集{A}中形成新的样品集{A’},由样品集{A’}建立得到新的近红外模型A’;步骤7用内部交叉验证法和外部验证法对模型A’进行评价。更进一步的技术方案是步骤2中的光谱预处理是采用平滑、二次插值法、一阶导数法或二阶导数法中的一种或几种方法对原始近红外光谱进行预处理。更进一步的技术方案是步骤3中求取样品集{B}中样品i到样品集{A}的光谱马氏距离d、的方法采用如下公式[ooT6)d,√(父f—x吣)’s“(xj—xavg),X、为样品集{B}中样品i的光谱矢量(n×1),X…为样品集{A}中样品的平均光谱矢量(n×1),S为协方差矩阵(n×n),(X,一X。\/。)’为(X,一X。\/。)的转置矩阵,n为光谱X、的数据点个数。更进一步的技术方案是步骤4中求取样品集{B}中样品i到样品集{A}的组分值距离d、’的方法采用如下公式d’j—Yj—YaV。Y、为样品集{B}中样品i的组分含量,Y…为样品集{A}中样品的平均组分含量,更进一步的技术方案是步骤5中求取整体欧式距离D、的方法采用如下公式厂一二一一一一一丁更进一步的技术方案是步骤6所述特定原则,是按照整体欧式距离D、从小到大的顺序将样品集{B}中的样品添加到样品集{A}中形成新的样品集{A’}。更进一步的技术方案是步骤7中内部交叉验证采用交叉验证均方根误差(RMSE(V)、决定系数(矿),外部验证采用预测均方根误差(RMSE[’)、决定系数(矿)对模型进行评价。本发明设有两个独立的烟草样品集{A}和样品集{B},依次分别属于两个独立的近红外模型A和模型B,要在样品集{B}中选取有效的样品添加到样品集{A}中形成样品集{A’},用样品集{A’}建立新的近红外模型A’。由于样品集{A}和样品集{B}是相互独立的,它们之间没有关联,如果随意选择样品,则这些样品很可能成为样品集{A’}中的异常点,进而影响模型A’的精度。本发明的有益技术效果是从样品集{B}中选取有效的样品加入到样品集{A}中得到样品集{A’},有效地避免样品集{A’}中异常点的出现,从而解决了独立烟草近红外模型间样品信息共享的问题,采用本发明的选样方法能建立剔除无效的异常数据的模型,保证模型具有良好的预测能力和适用性。图l本发明用来测试烟草蛋白质的实施例l中样品集{Al}的近红外扫描谱图2本发明用来测试烟草蛋白质的实施例l中样品集{Bl}的近红外扫描谱图3本发明用来测试烟草蛋白质的实施例1中样品集{Al}的预处理后的近红外谱图;图4本发明用来测试烟草蛋白质的实施例1中样品集{Bl}的预处理后的近红外谱图;图5本发明用来测试烟草蛋白质的实施例1中近红外模型Al'内部交叉验证图;图6本发明用来测试烟草蛋白质的实施例1中近红外模型Al'外部验证图;图7本发明用来测试烟草石油醚提取物的实施例2中样品集{A2}的近红外扫描谱图;图8本发明用来测试烟草石油醚提取物的实施例2中样品集{B2}的近红外扫描谱图;图9本发明用来测试烟草石油醚提取物的实施例2中样品集{A2}的预处理后的近红外谱图;图10本发明用来测试烟草石油醚提取物的实施例2中样品集{B2}的预处理后的近红外谱图;图11本发明用来测试烟草石油醚提取物的实施例2中近红外模型A2'内部交叉验证图;图12本发明用来测试烟草石油醚提取物的实施例2中近红外模型A2'外部验证具体实施方式实施例1以烟草中蛋白质近红外模型Al和模型Bl进行测试,按照如下步骤8至步骤14进行步骤8:获得相互独立的两个样品集{Al}和{Bl}中烟草样品的近红外扫描谱图,样品集{Al}中样品的近红外扫描谱图见图l,样品集{Bl}中样品的近红外扫描谱图见图2;步骤9:运用二次插值法和一阶导数法将样品集{Al}中样品的近红外扫描谱图进行预处理,处理后的近红外谱图见图3;用二次插值法和一阶导数法将样品集{Bl}中样品的近红外扫描谱图进行预处理,处理后的近红外谱图见图4;步骤10:根据样品集{Bl}中样品i的近红外光谱Xi和样品集{Al}中样品的平均光谱X^,得到样品i到样品集{Al}的光谱马氏距离&;步骤11:根据样品集{Bl}中样品i的组分含量1和样品集{Al}中样品的组分含量平均值Y^,得到样品i到样品集{Al}的组分值距离d/;步骤12:根据步骤10求得的光谱马氏距离&和步骤11求得的组分值距离d/,得到样品集{Bl}中样品i到样品集{Al}的整体欧式距离Di;光谱马氏距离di,整体欧式距离Di见表l蛋白质样品距离表表l蛋白质样品距离表<table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table><table>tableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table><table>tableseeoriginaldocumentpage19</column></row><table><table>tableseeoriginaldocumentpage20</column></row><table>步骤13:按照Di从小到大的原则选取样品集{Bl}中的320个样品添加到样品集{Al}中形成新的样品集{Al'},由样品集{Al'}建立得到新的近红外模型Al'。步骤14:对模型A1'进行内部交叉验证,其交叉验证均方根误差(RMSECV)为0.267,决定系数(R2)为92.33,近红外模型Al'内部交叉验证图见图5;对模型A1'进行外部验证,其预测均方根误差(RMSEP)为0.179,决定系数(R2)为94.52,近红外模型Al'外部验证图见图6。新模型A1'满足实际应用要求。实施例2以烟草中石油醚提取物近红外模型A2和模型B2进行测试,按照如下步骤15至步骤20进行步骤15:获得相互独立的两个样品集{A2}和{B2}中烟草样品的近红外扫描谱图,样品集{A2}中样品的近红外扫描谱图见图7,样品集{B2}中样品的近红外扫描谱图见图8;步骤16:运用二次插值法和一阶导数法将样品集{A2}中样品的近红外扫描谱图进行预处理,处理后的近红外谱图见图9;用二次插值法和一阶导数法将样品集{B2}中样品的近红外扫描谱图进行预处理,处理后的近红外谱图见图10;步骤17:根据样品集{B2}中样品i的近红外光谱Xi和样品集{A2}中样品的平均光谱X^,得到样品i到样品集{A2}的光谱马氏距离&;步骤18:根据样品集{B2}中样品i的组分含量1和样品集{A2}中样品的组分含量平均值Y^,得到样品i到样品集{A2}的组分值距离d/;2步骤19:根据步骤17求得的光谱马氏距离&和步骤18求得的组分值距离d/,得到样品集{B2}中样品i到样品集{A2}的整体欧式距离Di;光谱马氏距离di,整体欧式距离Di见表2石油醚提取物样品距离表表2石油醚提取物样品距离表<table>tableseeoriginaldocumentpage20</column></row><table><table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage0</column></row><table><table>tableseeoriginaldocumentpage24</column></row><table>步骤6:按照Di从小到大的原则选取样品集{B2}中的35个样品添加到样品集{A2}中形成新的样品集{A2'},由样品集{A2'}建立得到新的近红外模型A2'。步骤20:对模型A2'进行内部交叉验证,其交叉验证均方根误差(RMSECV)为0.243,决定系数(R2)为94.95,近红外模型A2'内部交叉验证图见图11;对模型A2'进行外部验证,其预测均方根误差(RMSEP)为O.193,决定系数(R2)为97.19,近红外模型A2'外部验证图见图12。新模型A2'满足实际应用要求。权利要求一种建立烟草近红外模型的选样方法,其特征在于采用步骤1至步骤7步骤1获得相互独立的两个样品集{A}和样品集{B}中烟草样品的近红外扫描谱图;步骤2将样品集{A}和样品集{B}的近红外扫描谱图进行光谱预处理;步骤3根据样品集{B}中样品i的近红外光谱Xi和样品集{A}中样品的平均光谱Xavg,得到样品i到样品集{A}的光谱马氏距离di;步骤4根据样品集{B}中样品i的组分含量Yi和样品集{A}中样品的组分含量平均值Yavg,得到样品i到样品集{A}的组分值距离di’;步骤5根据步骤3求得的光谱马氏距离di和步骤4求得的组分值距离di’,得到样品集{B}中样品i到样品集{A}的整体欧式距离Di;步骤6按特定原则选取样品集{B}中的样品添加到样品集{A}中形成新的样品集{A’},由样品集{A’}建立得到新的近红外模型A’;步骤7用内部交叉验证法和外部验证法对模型A’进行评价。2.根据权利要求1所述的建立烟草近红外模型的选样方法,其特征在于所述的步骤2中的光谱预处理是采用平滑、二次插值法、一阶导数法或二阶导数法中的一种或几种方法对原始近红外光谱进行预处理。3.根据权利要求1所述的建立烟草近红外模型的选样方法,其特征在于所述的步骤3中求取样品集化}中样品i到样品集{A}的光谱马氏距离&的方法采用如下公式Xi为样品集{B}中样品i的光谱矢量(nX1),X^为样品集{A}中样品的平均光谱矢量(nXl),S为协方差矩阵(nXn),(Xi-XjT为(X「Xavg)的转置矩阵,n为光谱Xi的数据点个数。4.根据权利要求1所述的建立烟草近红外模型的选样方法,其特征在于所述的步骤4中求取样品集{B}中样品i到样品集{A}的组分值距离d/的方法采用如下公式<formula>formulaseeoriginaldocumentpage2</formula>1为样品集{B}中样品i的组分含量,Y^为样品集{A}中样品的平均组分含量。5.根据权利要求1所述的建立烟草近红外模型的选样方法,其特征在于所述的步骤5中求取整体欧式距离Di的方法采用如下公式6.根据权利要求1所述的建立烟草近红外模型的选样方法,其特征在于所述的步骤6中的特定原则,是按照整体欧式距离Di从小到大的顺序将样品集{B}中的样品添加到样品集{A}中形成新的样品集{A'}。7.根据权利要求1所述的建立烟草近红外模型的选样方法,其特征在于所述的步骤7中内部交叉验证采用交叉验证均方根误差(RMSECV)、决定系数(R2),外部验证采用预测均方根误差(RMSEP)、决定系数(R2)对模型进行评价。全文摘要本发明公开了一种建立烟草近红外模型的选样方法,获得相互独立的两个样品集{A}和样品集{B}中烟草样品的近红外扫描谱图;对近红外扫描谱图进行光谱预处理;得到样品i到样品集{A}的光谱马氏距离di;得到样品i到样品集{A}的组分值距离di’;得到样品集{B}中样品i到样品集{A}的整体欧式距离Di;按特定原则选取样品集{B}中的样品添加到样品集{A}中形成新的样品集{A’},由样品集{A’}建立得到新的近红外模型A’。本发明克服了现有技术无法兼顾预测能力和模型真实的问题,提供了一种能剔除无效的异常数据的选样方法,建立的模型具有良好的预测能力和适用性,可以广泛应用在烟草行业。文档编号G01N21/35GK101710071SQ20091021665公开日2010年5月19日申请日期2009年12月9日优先权日2009年12月9日发明者吴艳,李朝荣,胡兴峰,邓发达,郑建申请人:川渝中烟工业公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1