一种种子近红外光谱和光谱图像定性分析模型建立方法

文档序号:9273619阅读:375来源:国知局
一种种子近红外光谱和光谱图像定性分析模型建立方法
【技术领域】
[0001] 本发明涉及光谱和光谱图像检测技术领域,尤其涉及一种种子近红外光谱和光谱 图像定性分析模型建立方法。
【背景技术】
[0002] 常规的定性分析模型建立流程包括建立数据集,数据预处理,特征提取,建立模 型,系统测试,模型优化等步骤。建立一个满足要求的模型比较困难和复杂,需要在每一步 中选择合适的方法,调整参数;而且需要分析人员具备专业知识,一般的人员并不能很好地 利用近红外光谱(光谱图像)技术进行定性分析,常规定性分析模型的分析效率较低。
[0003]常规的定性分析模型建立方法只考虑了模型训练集的正确率,对模型的稳健性却 没有给予足够的重视,导致建立的模型适应性差,需要不断更新。建立一个满足要求的种子 定性分析模型需要大量的样本,同时需要考虑遗传背景、生长环境、季节变化、收获时间、存 储方式、仪器状态变化等因素对光谱的影响,因此建立一个理想的模型往往需要花费很长 的时间。
[0004] 现有的模式识别方法在对种子等天然产物进行识别时效果不佳,存在一定的缺 陷。同一类别的种子不同产地和年份的样品可能有很大的差异,现有的基于划分的模式识 别方法(支出向量机等)和逐类建模方法(最近邻方法)不能将这些样品分为一类。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或 者减缓上述问题的种子近红外光谱和光谱图像定性分析模型建立方法,提高了建立定性分 析模型的效率以及定性分析模型的稳健性。
[0006] 本发明提供了一种种子近红外光谱和光谱图像定性分析模型建立方法,该方法包 括:
[0007] 在不同的环境中采集每个类别的样品数据,并确定模型训练数据集和测试数据 集,所述样品数据为近红外光谱数据和/或光谱图像;
[0008] 采用不同的数据预处理方法和/或特征提取方法对所述模型训练数据集中的样 品数据进行处理,获取不同类别的样品数据之间的可分性、分类正确度和偏离度;
[0009]根据所述可分性、分类正确度和偏离度选择最佳数据预处理方法和最佳特征提取 方法;
[0010] 根据所述分类正确度确定所述最佳特征提取方法的最优数据维数;
[0011] 根据所述最佳数据预处理方法、最佳特征提取方法以及最优数据维数提取所述模 型训练数据集中的样品数据的特征;
[0012] 采用改进的仿生模式识别方法建立定性分析模型。
[0013]可选的,在所述采用改进的仿生模式识别方法建立定性分析模型之后,所述方法 还包括:
[0014] 采用建立的定性分析模型对所述测试数据集进行鉴定,并获取正确率指标;
[0015] 根据所述正确率指标对所述定性分析模型的性能进行测试。
[0016] 可选的,所述获取不同类别的样品数据之间的可分性、分类正确度和偏离度,包 括:
[0017] 计算所述模型训练数据集中样本数据的类内类间距离,根据所述类内类间距离确 定所述模型训练数据集中不同类别的样品数据之间的可分性;
[0018] 获取所述模型训练数据集中样本数据的总数量N和正确分类的样本数据的数量 M,根据所述样本数据的总数量N和正确分类的样本数据的数量M计算分类正确度CA,CA= M/N;
[0019] 获取所述模型训练数据集中任意两个类别数据的中心距离Dmn以及每一类别中 的不同数据点的中心距离Dm和Dn,并采用如下公式计算模型训练数据集中任意两个类别 数据的偏离度D:
[0020]
[0021] 口」选的,所还昇所还模型训练数据集中样本数据的类内类间距离,包括:
[0022] 获取所述模型训练数据集中样本数据的类间离散度矩阵尾和类内离散度矩阵估 计足:
[0023]
[0024]
[0025] 其中,mi表示第i类样本数据的均值向量,m表示所有各类的样本数据的总平均向 量,c为样本数据的类别数目,Pi为相应类别的先验概率,T表示矩阵转置,为第i类的 特征向量;
[0026] 根据所述类间离散度矩阵矣和类内离散度矩阵估计反,计算所述模型训练数据集 中各类别的样本数据的类内类间距离,作为可分性J:
[0027]
[0028] 其中,Tr()表示计算矩阵的迹。
[0029] 可选的,所述根据所述可分性、分类正确度和偏离度选择最佳数据预处理方法和 最佳特征提取方法,包括:
[0030] 当采用某一数据预处理方法和/或特征提取方法对所述模型训练数据集中的样 品数据进行处理之后,计算其各类别的样品数据之间的可分度J和分类正确度CA;
[0031] 选择使得J或CA的值最大的数据预处理方法为最佳数据预处理方法,和/或,选 择使得J或CA的值最大的特征提取方法为最佳特征提取方法;
[0032] 根据所述偏离度确定最佳的样品数据采集方法。
[0033] 可选的,所述根据所述分类正确度确定所述最佳特征提取方法的最优数据维数, 包括:
[0034] 设置数据维数初始值dim=rv%为待分类样本的类别数目;
[0035] 根据所述数据维数初始值对所述模型训练数据集中的样品数据进行特征提取,并 建立仿生模式识别模型,对所述测试数据集中的第一测试数据集进行测试,所述测试数据 集包括第一测试数据集和第二测试数据集;
[0036] 统计所述模型训练数据集中不同类别的样品数据的分类正确度CA1和所述第一 测试数据集中不同类别的样品数据的分类正确度CA2,计算CA1和CA2的均值d;
[0037] 若dim维数据的方差贡献率CCR小于预设阈值,则将数据维数值加1,重复执行特 征提取的步骤,当所述CCR的值大于或等于预设阈值时,取使得己X值最大时对应的数据维 数为最优数据维数。
[0038] 可选的,所述采用改进的仿生模式识别方法建立定性分析模型,包括:
[0039] 使用KS算法从所述模型训练数据集中每个类别的样品数据中选择构网样本点;
[0040] 根据预设的结构和顺序连接各个类别的构网样本点,构成每一类样品的改进的仿 生模式识别定性分析模型的骨架;
[0041] 确定各类样品的改进的仿生模式识别定性分析模型的拒识阈值;
[0042] 根据所述改进的仿生模式识别定性分析模型的骨架和拒识阈值确定所述改进的 仿生模式识别定性分析模型。
[0043] 可选的,所述采用建立的定性分析模型对所述测试数据集进行鉴定,包括:
[0044] 计算所述测试数据集中的样品数据到各类样品的改进的仿生模式识别定性分析 模型的骨架的距离;
[0045] 从所有距离中,基于从小到大的顺序选择预设数量个距离值;
[0046] 根据所述预设数量个距离值分别对当前样品数据进行鉴定,得到预设数量个鉴定 结果;
[0047] 对鉴定结果进行投票,将该样品数据判定为得票最多的类别。
[0048] 可选的,所述计算所述测试数据集中的样品数据到各类样品的改进的仿生模式识 别定性分析模型的骨架的距离,具体计算公式为:
[0049]
[0050] 其中,x为样品数据的样本点,.ta为模型骨架,Xl、x2为构成模型骨架的构网样 本点,
[0051] 可选的,所述正确率指标包括正确识别率CAR和正确拒识率CRR,其中:
[0052]
[0053]
[0054]所述根据所述正确率指标对所述定性分析模型的性能进行测试,包括:
[0055] 计算所述定性分析模型的正确识别率和正确拒识率;
[0056]根据正确识别率和正确拒识率的预设标准分析所述定性分析模型的性能。
[0057] 本发明的有益效果为:
[0058]本发明提供的种子近红外光谱和光谱图像定性分析模型建立方法,使用可分性, 分类正确度,偏离度等评价指标提高了建立定性分析模型的效率,通过预处理方法消除环 境因素的影响,使用分类正确度确定最优数据维数避免过拟合,提高了定性分析模型的稳 健性,应用前景广阔。
【附图说明】
[0059]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0060] 图1为本发明实施例提出的一种种子近红外光谱和光谱图像定性分析模型建立 方法的流程图;
[0061] 图2为本发明实施例提出的一种种子近红外光谱和光谱图像定性分析模型建立 方法中步骤S16的细分流程图;
[0062]图3为本发明实施例中训练集参数标准化和测试集参数标准化预处理方法效果 比较示意图;
[0063] 图4为本发明实施例中提出的独立测试集维数确定法与传统维数确定方法的效 果比较意图;
[0064]图5为本发明实施例中提出的数据集的正确率指标与数据维数的关系曲线示意 图。
【具体实施方式】
[0065] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0066]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式"一"、"一 个"、"所述"和"该"也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措 辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加 一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
[0067]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术 术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应 该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中 的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。 [0068] 图1示出了本发明实施例的一种种子近红外光谱和光谱
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1