一种种子近红外光谱和光谱图像定性分析模型建立方法_4

文档序号:9273619阅读:来源:国知局
使用测试集自身的参数(平均光谱meanjest和标准差stcLtset)标准化测试集 数据。标准化处理时所有光谱减去平均光谱,除以对应波段吸光度数据的标准差。比较使 用两种方式标准化测试数据的效果优劣。
[0180] 使用20121109~21021205共5次采集的数据建立模型,其余时间段采集的数据 测试。实验中统计了测试集数据分别用训练集参数标准化和测试集参数标准化时的平均正 确识别率和偏离度。使用训练集参数标准化时,如图3所示,从20121213到20130408约5 个月的时间内,测试集正确率逐渐下降。可见环境对光谱的影响越来越大,测试集数据的偏 离度也逐渐升高。20130312-1,20130314-1,20130407-1三组数据是由另一台相同型号的光 谱仪采集的数据,与原光谱仪采集的数据之间有较大的差别,偏离度较大,正确识别率也很 低。说明不同仪器之间的差异远大于同一仪器不同状态之间的差异。
[0181] 图4示出了独立测试集维数确定法与传统维数确定方法的效果比较意图,如图4 所示,传统数据维数随着所用的数据维数的逐渐增加,模型的正确识别率先上升,后下降。 取模型获得最高训练集正确识别率时的维数作为最佳维数。但是这种方法确定的维数对于 训练集数据正确识别率很高,但是往往会导致过拟合问题使得模型的推广能力差,对于测 试集数据则效果不佳。为了解决这个问题,引入独立测试集维数确定法。
[0182] 如图5所示,确定数据集2(可分性1. 07)的维数实验中,训练集正确识别率逐渐 升高直至100%,不再下降。因此选用平均正确率取得峰值时的维数18作为最优数据维数。
[0183] 为了提高模型分类能力的同时,提高模型的稳健性,避免过拟合问题,可以使用多 组测试数据对模型的正确率进行测试,本发明对此不做限定。
[0184] 本发明实施例中,对改进的仿生模式识别(BPRI),仿生模式识别(BPR),支持向量 机(SVM)三种模式识别方法进行了测试,其中BPRI和BPR方法具有拒识能力,即当待鉴定 样本不属于已知模型中的任何一类时会被模型拒识,而不是被错误判别为其他已知的类 另〇。SVM模型具有较高的分类能力和稳健性,但是不能拒识模型没有学习过的样本。
[0185] 使用数据集3对BPR,BPRI,SVM三种方法的性能进行测试。数据集3中共有75个 玉米自交系。分别选择25,50,75个品种建立品种识别模型,比较在不同的模型数目下三种 方法的性能,模型测试结果见下表。
[0186] 表3BPR,BPRI,SVM三种鉴定模型的性能比较
[0187]
[0188] 统计三种方法的训练集和测试接的正确识别率,BPRI与SVM效果相当,正确率均 大于94%,BPR正确率低于90%,如表3所示。BPR模型需要训练模型半径,当训练集数据代 表性不足,训练不充分时,很容易将本类的测试集样本拒识,导致正确识别率偏低。BPRI拒 识时采用的是标准差阈值,相比而言,本类测试集样本不容易拒识,所以正确识别率较高。
[0189] 随着模型数目的增加,模型的正确识别率并没有显著降低,说明近红外光谱中包 含丰富的反映玉米品种之间差异的信息,可用于建立大规模的品种定性分析模型。
[0190] 综上所述,本发明提供的种子近红外光谱和光谱图像定性分析模型建立方法,使 用可分性,分类正确度,偏离度等评价指标提高了建立定性分析模型的效率,通过预处理方 法消除环境因素的影响,使用分类正确度确定最优数据维数避免过拟合,提高了定性分析 模型的稳健性,应用前景广阔。
[0191] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
【主权项】
1. 一种种子近红外光谱和光谱图像定性分析模型建立方法,其特征在于,所述方法包 括: 在不同的环境中采集每个类别的样品数据,并确定模型训练数据集和测试数据集,所 述样品数据为近红外光谱数据和/或光谱图像; 采用不同的数据预处理方法和/或特征提取方法对所述模型训练数据集中的样品数 据进行处理,获取不同类别的样品数据之间的可分性、分类正确度和偏离度; 根据所述可分性、分类正确度和偏离度选择最佳数据预处理方法和最佳特征提取方 法; 根据所述分类正确度确定所述最佳特征提取方法的最优数据维数; 根据所述最佳数据预处理方法、最佳特征提取方法以及最优数据维数提取所述模型训 练数据集中的样品数据的特征; 采用改进的仿生模式识别方法建立定性分析模型。2. 根据权利要求1所述的方法,其特征在于,在所述采用改进的仿生模式识别方法建 立定性分析模型之后,所述方法还包括: 采用建立的定性分析模型对所述测试数据集进行鉴定,并获取正确率指标; 根据所述正确率指标对所述定性分析模型的性能进行测试。3. 根据权利要求1或2所述的方法,其特征在于,所述获取不同类别的样品数据之间的 可分性、分类正确度和偏离度,包括: 计算所述模型训练数据集中样本数据的类内类间距离,根据所述类内类间距离确定所 述模型训练数据集中不同类别的样品数据之间的可分性; 获取所述模型训练数据集中样本数据的总数量N和正确分类的样本数据的数量M,根 据所述样本数据的总数量N和正确分类的样本数据的数量M计算分类正确度CA,CA=M/ N; 获取所述模型训练数据集中任意两个类别数据的中心距离Dmn以及每一类别中的不 同数据点的中心距离Dm和Dn,并采用如下公式计算模型训练数据集中任意两个类别数据 的偏离度D:4. 根据权利要求3所述的方法,其特征在于,所述计算所述模型训练数据集中样本数 据的类内类间距离,包括: 获取所述模型训练数据集中样本数据的类间离散度矩阵瓦和类内离散度矩阵估计 爻:其中,mi表示第i类样本数据的均值向量,m表示所有各类的样本数据的总平均向量,c为样本数据的类别数目,Pi为相应类别的先验概率,T表示矩阵转置,为第i类的特 征向量; 根据所述类间离散度矩阵4和类内离散度矩阵估计又计算所述模型训练数据集中各 类别的样本数据的类内类间距离,作为可分性J: J^tr(Su +5J, 其中,Tr()表示计算矩阵的迹。5. 根据权利要求1所述的方法,其特征在于,所述根据所述可分性、分类正确度和偏离 度选择最佳数据预处理方法和最佳特征提取方法,包括: 当采用某一数据预处理方法和/或特征提取方法对所述模型训练数据集中的样品数 据进行处理之后,计算其各类别的样品数据之间的可分度J和分类正确度CA; 选择使得J或CA的值最大的数据预处理方法为最佳数据预处理方法,和/或,选择使 得J或CA的值最大的特征提取方法为最佳特征提取方法; 根据所述偏离度确定最佳的样品数据采集方法。6. 根据权利要求1所述的方法,其特征在于,所述根据所述分类正确度确定所述最佳 特征提取方法的最优数据维数,包括: 设置数据维数初始值dim=rv%为待分类样本的类别数目; 根据所述数据维数初始值对所述模型训练数据集中的样品数据进行特征提取,并建立 仿生模式识别模型,对所述测试数据集中的第一测试数据集进行测试,所述测试数据集包 括第一测试数据集和第二测试数据集; 统计所述模型训练数据集中不同类别的样品数据的分类正确度CA1和所述第一测试 数据集中不同类别的样品数据的分类正确度CA2,计算CA1和CA2的均值^ ; 若dim维数据的方差贡献率CCR小于预设阈值,则将数据维数值加1,重复执行特征提 取的步骤,当所述CCR的值大于或等于预设阈值时,取使得&值最大时对应的数据维数为 最优数据维数。7. 根据权利要求2所述的方法,其特征在于,所述采用改进的仿生模式识别方法建立 定性分析模型,包括: 使用KS算法从所述模型训练数据集中每个类别的样品数据中选择构网样本点; 根据预设的结构和顺序连接各个类别的构网样本点,构成每一类样品的改进的仿生模 式识别定性分析模型的骨架; 确定各类样品的改进的仿生模式识别定性分析模型的拒识阈值; 根据所述改进的仿生模式识别定性分析模型的骨架和拒识阈值确定所述改进的仿生 模式识别定性分析模型。8. 根据权利要求7所述的方法,其特征在于,所述采用建立的定性分析模型对所述测 试数据集进行鉴定,包括: 计算所述测试数据集中的样品数据到各类样品的改进的仿生模式识别定性分析模型 的骨架的距离; 从所有距离中,基于从小到大的顺序选择预设数量个距离值; 根据所述预设数量个距离值分别对当前样品数据进行鉴定,得到预设数量个鉴定结 果; 对鉴定结果进行投票,将该样品数据判定为得票最多的类别。9. 根据权利要求8所述的方法,其特征在于,所述计算所述测试数据集中的样品数据 到各类样品的改进的仿生模式识别定性分析模型的骨架的距离,具体计算公式 为:其中,x为样品数据的样本点,&为模型骨架,Xl、x2为构成模型骨架的构网样本点,10. 根据权利要求2所述的方法,其特征在于,所述正确率指标包括正确识别率CAR和 正确拒识率CRR,其中:所述根据所述正确率指标对所述定性分析模型的性能进行测试,包括: 计算所述定性分析模型的正确识别率和正确拒识率; 根据正确识别率和正确拒识率的预设标准分析所述定性分析模型的性能。
【专利摘要】本发明提供了一种种子近红外光谱和光谱图像定性分析模型建立方法,该方法包括:在不同的环境中采集每个类别的样品数据,并确定模型训练数据集和测试数据集,样品数据为近红外光谱数据和/或光谱图像;采用不同的数据预处理方法和/或特征提取方法对模型训练数据集中的样品数据进行处理,获取不同类别的样品数据之间的可分性、分类正确度和偏离度;根据可分性、分类正确度和偏离度选择最佳数据预处理方法、最佳特征提取方法以及最佳特征提取方法的最优数据维数,并提取模型训练数据集中的样品数据的特征;采用改进的仿生模式识别方法建立定性分析模型。本发明提高了建立定性分析模型的效率和定性分析模型的稳健性,应用前景广阔。
【IPC分类】G01N21/359, G01N21/25
【公开号】CN104990891
【申请号】CN201510355686
【发明人】安冬, 贾仕强, 刘旭, 冉航, 赵盛毅
【申请人】中国农业大学
【公开日】2015年10月21日
【申请日】2015年6月24日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1