一种种子近红外光谱和光谱图像定性分析模型建立方法_3

文档序号：9273619阅读：来源：国知局

化目标。该方法可以有效地提高模型的稳健性，改善过拟合的问题。
[0127] 本发明实施例中，步骤S16,如图2所示，进一步包括如下步骤：
[0128]S161、使用Kennard-St〇ne(KS)算法从所述模型训练数据集中每个类别的样品数据中选择构网样本点；
[0129]S162、根据预设的结构和顺序连接各个类别的构网样本点，构成每一类样品的改进的仿生模式识别定性分析模型的骨架；
[0130]S163、确定各类样品的改进的仿生模式识别定性分析模型的拒识阈值ns;对于某一模型的Trainingset数据，计算样本点i到该类所有样本点中心c的距离为屯，i= 1，2,…，N。，7和s为必，…。的均值和标准差，通过训练获得标准差倍数n(此时模型正确识别本类样本，成功拒识异类样本）。鉴定样本时，计算样本点到c的距离屯，如果名，则拒识该样本。
[0131] S164、根据所述改进的仿生模式识别定性分析模型的骨架和拒识阈值确定所述改进的仿生模式识别定性分析模型。
[0132] 其中，步骤S161中，使用KS算法选择构网样本点，实现过程如下：
[0133] 1)初始化。使用S。代表某一类的原始训练样本集合（数目为N。）。用Sb代表某一类的选择出的构网样本集合，根据实际需要设定数目为Nb。
[0134] 2)剔除异常样本点。某一样本点i到该类所有样本点中心的距离为c^i= 1，2,…，N。，孑和s为A的均值和标准差，如果4 > 35，则样本点i会从样本集S。中删除。
[0135] 3)使用KS算法从集合S。中选择模型的构网样本点。首先计算集合S。中样本两两之间的距离并将距离最远的两个点选入集合Sb中，计算Sb中的点与集合S。中剩余点之间的距离并选择距离最大的点加入到sb中。依次类推，每次添加一个点到集合sb中，直至 sb中构网点数目达到Nb。
[0136] 进一步地，步骤S17中的采用建立的定性分析模型对所述测试数据集进行鉴定，具体包括如下图中未示出的步骤：
[0137] S171、计算所述测试数据集中的样品数据到各类样品的改进的仿生模式识别定性分析模型的骨架的距离；
[0138] 其中，计算所述测试数据集中的样品数据到各类样品的改进的仿生模式识别定性分析模型的骨架的距离，Ui)的具体计算公式为：
[0139]
[0140] 其中，x为样品数据的样本点，为模型骨架，Xl、x2为构成模型骨架的构网样本点，
[0141] S172、从所有距离中，基于从小到大的顺序选择预设数量个距离值；
[0142] S173、根据所述预设数量个距离值分别对当前样品数据进行鉴定，得到预设数量个鉴定结果；
[0143] S174、对鉴定结果进行投票，将该样品数据判定为得票最多的类别。
[0144] 使用本发明建立的定性分析模型鉴定待测试样品，首先让仪器通过预热和自检。每次使用现有模型对待测样本数据进行鉴定前，需要使用标准样本数据对模型进行测试。当模型对标准测试样本的判别正确时，可以直接进行日常测试工作。如果出现错误，分三个步骤解决问题。
[0145] 1)检查仪器状态是否正常，操作是否正确，若存在问题，则需要检修仪器或者规范实验操作流程。
[0146] 2)检查测试集数据的偏离度是否偏大（D>1)，这时需要重新采集数据，对模型进行更新。
[0147] 3)若不是前两个原因，则需要检查分析方法，更新模型。待标准样品测试正确后，再进行日常测试工作。
[0148] 下面以一个具体的实施例来说明本发明，但不限定本发明的保护范围。该具体实施例中使用本发明的方法对小麦、玉米的近红外光谱数据进行定性分析模型建立。
[0149] (1)数据集介绍
[0150] 数据集1 :10份小麦种子样品近红外光谱数据
[0151] 样本来源：山东良星种业有限公司2014年6月收获的十份小麦种子样品。小麦样本名称分别记为良星661，良星662,良星663,良星771，良星772,良星773,良星991，良星 992,良星993,良星994。
[0152] 实验仪器和测量方法：聚光科技的漫反射型近红外光谱仪（型号FPI SupNIR-2720)，光源为卤钨灯，波长有效范围为1000~1799nm，采集样品的有效光程为 0. 2~5_，波长准确性为0. 2nm，共可采集800个数据点，小麦种子置于样品杯中采集数据。
[0153] 光谱采集：在2014. 11. 6~2015. 1.25近三个月的时间内，共采集了 34次数据，每份样品每次采集10~15条光谱。使用前5次采集的数据（每份小麦样品75条光谱）建立BPRI模型，其余的数据用来测试模型的性能。
[0154] 数据集2:17份玉米种子样品近红外光谱数据
[0155] 样本来源：屯玉种业有限公司和金色农华种业有限公司提供的17份玉米种子样品，共有11个品种（屯玉绿源的7个品种2102, 2104, 2105, 2106, 2107, 2109, 2110,以及另外四个品种S032G-1，S108G-1，NH101，XD20)。其中NH101和XD20各有四份来自不同产地和年份的样本，另外9个品种均只有1份样品。
[0156] 实验仪器和测量方法：聚光科技的漫反射型近红外光谱仪（型号FPI SupNIR-2720)，光源为卤钨灯，波长有效范围为1000~1799nm，采集样品的有效光程为 0. 2~5mm，波长准确性为0. 2nm，共可采集800个数据点，玉米种子置于样品杯中采集数据。
[0157] 光谱采集：在2012. 10~2013. 4时间段内共采集21次的数据，每份样品每次采集 10条光谱。使用前5次采集的数据建立BPRI模型，其余的数据测试。
[0158] 数据集3 :75个玉米自交系种子样品近红外光谱数据
[0159] 样本来源：北京金色农华种业有限公司提供的海南育种基地的75个玉米自交系。
[0160]实验仪器和测量方法：德国布鲁克公司的MPA型光谱仪，单籽粒漫反射测量方式，谱区范围为12000~4000CHT1 (833~2500nm)，波长分辨率16CHT1，共1037个波长点数据。
[0161] 光谱采集：一个自交系选取5个果穗，果穗的穗尖、穗中、穗末三个部位各挑选5粒种子测量光谱（每个品种75条光谱）。
[0162] (2)数据分析方法
[0163] 数据预处理方法：移动平均平滑（9个数据点），一阶差分导数（差分宽度为9个数据点），标准化。
[0164] 特征提取：使用PLS，0LDA对光谱数据进行特征提取和降维。
[0165] 建立模型：数据集1，数据集2使用BPRI方法建立品种识别模型。数据集3被用来比较不同建模方法的特点，分别建立BPR，BPRI，SVM鉴定模型。
[0166] 评价指标统计：统计可分性J，分类正确度CA，偏离度D，正确识别率CAR，正确拒识率CRR对模型的模型性能进行预判和评价。
[0167] 测试结果：
[0168] 分别计算数据集1，数据集2的原始数据的可分性，分类正确度和偏离度指标，并与模型最终的正确识别率进行对应分析。测试可分性，分类正确度和偏离度指标是否可以准确预判模型的性能。
[0169] 表1数据集1，2可分性、分类正确度、偏离度和正确识别率CAR统计
[0170]
[0171] 表1中统计了数据集1，2的可分性，分类正确度和偏离度评价指标及其分类模型的正确识别率。数据集1中，10个小麦品种可分性为1. 67,分类正确度为0. 8,可以初步判断品种鉴定模型的性能较好，最终模型对内部测试数据二的CAR为96%，满足要求。而且内部测试数据二的偏离度仅为0. 05,说明不同环境测量的数据稳定性较好。
[0172] 数据集2中的11个玉米品种的可分性为1. 07,分类正确度为0. 9,可以预判这批数据建立的品种鉴定模型正确率较高。内部测试数据2的正确识别率为98%，偏离度为〇. 01，说明模型的稳定较高。数据集2的可分性比数据集1低，但是其分类正确度和正确识别率均比数据集1高。这是因为数据集2中，农华101和浚单20的样本来源于不同的产地和年份，中间距离较大，所以使得计算得到的可分性指标较小。但是不同玉米种子近红外光谱差异显著，建立模型的效果较好。
[0173] 本发明实施例中两个数据集的测试结果说明，可分性，分类正确度指标可以预判模型的正确识别率。当数据的偏离度较大时，数据的稳定性较差，模型的正确识别率会较低。根据可分性，分类正确度选择预数据处理方法。通过比较评价指标确定合适的方法，而不必等到建立模型之后才能得出方法的效果。
[0174] 以对数据集2的分析为例，比较比较原始数据、移动平均平滑和一阶差分导数，标准化、PLS+0LDA和PCA+0LDA方法特征提取处理后不同类别数据之间的可分性，分类正确度，正确率指标。
[0175] 表2数据集2经不同方法处理后可分性、分类正确度和CAR指标比较
[0176]
[0177] 表2中，原始数据的可分性最低，为1. 07,分类正确度为0. 72,平均正确识别率为65 %。经过平滑+-阶导数和标准化预处理后，可分性提高到1. 32,分类正确度提高到 0. 92,因此选用这些方法对数据进行预处理，而最终模型的正确识别率也得到较大提升。
[0178] 分别使用PLS+0LDA和PCA+0LDA方法对数据进行特征提取和降维，发现PLS+0LDA 方法的可分性和分类正确度指标均高于PCA+0LDA方法，所以选用PLS+0LDA方法处理数据，模型的正确识别率为95%，高于PCA+OLDA方法（90% )。说明使用可分性和分类正确度评价指标选择特征提取方法是有效的。
[0179] 本实施例中使用测试集参数标准化的方法对光谱进行预处理，消除环境和仪器背景噪声对光谱的影响，提高模型的稳定性。对测试集数据进行标准化处理时有两种方式，第一种是使用训练集参数（平均光谱mean_train和标准差std_train)标准化测试集数据；第二种是

完整全部详细技术资料下载

当前第3页1 2 3 4