一种种子近红外光谱和光谱图像定性分析模型建立方法_2

文档序号：9273619阅读：来源：国知局

图像定性分析模型建立方法的流程图。
[0069] 参照图1，本发明实施例提出的种子近红外光谱和光谱图像定性分析模型建立方法包括：
[0070] S11、在不同的环境中采集每个类别的样品数据，并确定模型训练数据集和测试数据集，所述样品数据为近红外光谱数据和/或光谱图像；
[0071] 需要说明的是，在不同的环境中采集每个类别的样品数据，即在环境温湿度、仪器状态等背景因素不同的条件下采集得到样品数据，分别记为模型训练数据集（Training set)和测试数据集（Internaltest)，其中，测试数据集包括第一测试数据集（Internal testset1)和第二测试数据集（Internaltestset2)。
[0072] 代表性样品是指某一类别的种子不同产地、季节或者年份收获的样品。
[0073] S12、采用不同的数据预处理方法和/或特征提取方法对所述模型训练数据集中的样品数据进行处理，获取不同类别的样品数据之间的可分性、分类正确度和偏离度；
[0074] S13、根据所述可分性、分类正确度和偏离度选择最佳数据预处理方法和最佳特征提取方法；
[0075] 其中，近红外光谱预处理方法包括平滑降噪，散射校正，导数法，标准化，中心化。光谱图像预处理方法包括平滑滤波，图像增强，目标分割。特征提取方法包括主成分分析（PrincipleComponentAnalysis，PCA)，偏最小二乘分析（PartialLeast SquaresAnalysis,PLS)和正交化线性判别分析（OrthogonalLinearDiscriminant Analysis，0LDA)。光谱图像特征提取方法还包括灰度分布统计量、灰度共生矩阵统计量、灰度分布直方图、局部二值模式和尺度不变特征转换特征。
[0076] 本发明实施例，在采用不同的数据预处理方法和/或特征提取方法对所述模型训练数据集中的样品数据进行处理后，根据计算出的可分性、分类正确度和偏离度选择出最佳数据预处理方法和最佳特征提取方法。
[0077] S14、根据所述分类正确度确定所述最佳特征提取方法的最优数据维数；
[0078] S15、根据所述最佳数据预处理方法、最佳特征提取方法以及最优数据维数提取所述模型训练数据集中的样品数据的特征；
[0079] S16、采用改进的仿生模式识别方法建立定性分析模型。
[0080] 本发明实施例提供的种子近红外光谱和光谱图像定性分析模型建立方法，使用可分性，分类正确度，偏离度等评价指标提高了建立定性分析模型的效率，通过预处理方法消除环境因素的影响，使用分类正确度确定最优数据维数避免过拟合，提高了定性分析模型的稳健性。
[0081] 进一步地，为了定性分析模型的稳健性，本发明实施例在步骤S16之后，还包括图中未示出的步骤S17和S18 :
[0082] S17、采用建立的定性分析模型对所述测试数据集进行鉴定，并获取正确率指标；
[0083] S18、根据所述正确率指标对所述定性分析模型的性能进行测试。
[0084] 其中，正确率指标包括正确识别率（CorrectAcceptanceRate,CAR)和正确拒识
[0086] 率（CorrectRejectionRate,CRR)，计算公式如下：[0085]
[0087] CAR和CRR范围均在0~100之间，CAR值下降时，CRR会上升，根据实际情况的需要设定模型的CAR和CRR标准。
[0088] 使用Internaltestset2对模型的性能进行测试，得到模型的CAR和CRR评价指标，CAR和CRR达到标准时，则模型可以用来进行日常鉴定工作。
[0089] 若CAR较低，如果是数据可分性和分类正确度较低（低于0. 5)，则近红外光谱和高光谱图像不适于对这批样本进行定性分析，如果数据偏离度高（大于1)，需要补充不同环境下采集的数据，或者改进数据测量方法，提高数据的稳定性。
[0090] 进一步地，步骤S18具体包括：
[0091] 计算所述定性分析模型的正确识别率和正确拒识率；
[0092] 根据正确识别率和正确拒识率的预设标准分析所述定性分析模型的性能。
[0093] 本发明实施例解决了近红外光谱或光谱图像定性分析模型建立效率低、模型稳定性差的问题，适合于对光谱数据和光谱图像数据进行定性分析，应用前景广阔。
[0094] 本发明实施例中，步骤S12中的获取不同类别的样品数据之间的可分性、分类正确度和偏离度，进一步包括如下图中未示出的步骤：
[0095] S121、计算所述模型训练数据集中样本数据的类内类间距离，根据所述类内类间距离确定所述模型训练数据集中不同类别的样品数据之间的可分性；
[0096] 其中，所述计算所述模型训练数据集中样本数据的类内类间距离，包括：
[0097] 获取所述模型训练数据集中样本数据的类间离散度矩阵尾和类内离散度矩阵估计
[0098]
[0099]
[0100] 其中，mi表示第i类样本数据的均值向量，m表示所有各类的样本数据的总平均向量，c为样本数据的类别数目，Pi为相应类别的先验概率，T表示矩阵转置，xf为第i类的特征向量；
[0101] 根据所述类间离散度矩阵&和类内离散度矩阵估计&计算所述模型训练数据集中各类别的样本数据的类内类间距离，作为可分性J:
[0102]
[0103]其中，Tr〇表示计算矩阵的迹。
[0104] 实际应用中，可分性J可以反映出一批样品数据分类的难易程度，J值越大，表示分类越容易。
[0105] S122、获取所述模型训练数据集中样本数据的总数量N和正确分类的样本数据的数量M，根据所述样本数据的总数量N和正确分类的样本数据的数量M计算分类正确度CA，CA=M/N；
[0106] 由于可分性无法准确反映出各类样本之间的分布情况，为了更加准确地评价数据的可分类程度，定义了分类正确度指标。
[0107] 对待分类的数据建立仿生模式识别模型，对模型训练数据进行分类，假设所有样本数目为N，正确分类样本数目为M，分类正确度CA=M/N，范围在0~1之间，分类正确度越大，说明数据的可分类程度越高。
[0108]S123、获取所述模型训练数据集中任意两个类别数据的中心距离Dmn以及每一类别中的不同数据点的中心距离Dm和Dn，并采用如下公式计算模型训练数据集中任意两个类别数据的偏离度D:
[0109]
。
[0110] 由于数据采集环境、仪器状态、采集方式的变化，同一样本在不同环境下采集的不同批次光谱或光谱图像数据之间会有差异，导致不同批次的数据之间发生偏离，定义偏离度D对数据的变化程度进行评价。
[0111] 假设有M，N两个类别的待分类数据，M类包括两种数据（Ml和M2，），N类也包括两种数据（N1和N2)。
[0112] Ml和M2类数据点的中心距离为Dm，N1和N2两类数据的中心距离为Dn，M和N两类数据中心距离为Dmn。偏离度D定义如下：
[0113]
[0114] u但j?人，衣1胸罔度越大，不同环境采集的同种样本数据之间的差异越大。对于多类数据，取不同类别两两之间距离的均值作为种间距离。
[0115]可理解的是，如果预判结果显示一批数据的可分性太差（J〈0. 5,CA〈0. 5)，则没有必要进行后续分析。计算Trainingset中不同类别数据之间的可分性和分类正确度，对近红外光谱或光谱图像技术是否可以用来定性分析某一批样品进行预判；对Trainingset 和Internaltestset1之间的偏离度D进行计算，判断数据稳定性。如果偏离度过大 0>1)，说明数据稳定性不好，需要对数据测量方法进行调整。
[0116] 本发明实施例中的步骤S13进一步包括：
[0117] 当采用某一数据预处理方法和/或特征提取方法对所述模型训练数据集中的样品数据进行处理之后，计算其各类别的样品数据之间的可分度J和分类正确度CA;
[0118] 选择使得J或CA的值最大的数据预处理方法为最佳数据预处理方法，和/或，选择使得J或CA的值最大的特征提取方法为最佳特征提取方法；
[0119] 根据所述偏离度确定最佳的样品数据采集方法。
[0120] 具体的，在数据经过某一种方法处理之后，计算其各类之间的可分度J和分类正确度评价指标CA，若J或CA的值提高，则说明该方法有效，可以采用。若J或CA的值无变化或者降低，则不采用该方法。同时也可以对不同的数据处理方法的评价指标进行组合，选择使得J或CA的值最大的数据处理方法。
[0121] 本发明实施例中，步骤S14进一步包括：
[0122] 设置数据维数初始值dim=rv%为待分类样本的类别数目；
[0123] 根据所述数据维数初始值对所述模型训练数据集中的样品数据进行特征提取，并建立仿生模式识别模型，对所述测试数据集中的第一测试数据集进行测试，所述测试数据集包括第一测试数据集和第二测试数据集；
[0124] 统计所述模型训练数据集中不同类别的样品数据的分类正确度CA1和所述第一测试数据集中不同类别的样品数据的分类正确度CA2,计算CA1和CA2的均值d;
[0125] 若dim维数据的方差贡献率CCR小于预设阈值，则将数据维数值加1，重复执行特征提取的步骤，当所述CCR的值大于或等于预设阈值时，取使得&值最大时对应的数据维数为最优数据维数。
[0126] 为了克服传统数据维数确定方法由于过拟合问题使得模型的推广能力差，对于测试集数据则效果不佳的问题，本发明实施例，引入的独立于模型训练数据的第一测试数据集，其数据的采集时间与训练集数据不同，以测试模型的推广能力，称为独立测试集维数确定法。确定特征提取数据维数时，从低到高依次增加数据维数，统计每一个维数下模型训练数据的正确识别率（简称训练集正确率），纯度鉴定模型对内部测试数据一的正确识别率 (简称测试集正确识别率），以训练集和测试集正确识别率的平均值（简称平均正确率）作为优

完整全部详细技术资料下载

当前第2页1 2 3 4