一种鉴别作物种子品种的方法

文档序号:6029604阅读:257来源:国知局

专利名称::一种鉴别作物种子品种的方法
技术领域
:本发明属于农业光谱分析领域,具体涉及一种用近红外光谱和仿生模式识别快速鉴别作物种子品种的方法。
背景技术
:20世纪30年代以来,农作物的杂交优势逐渐得到人们的重视,杂交品种也得到普遍推广。与此同时,假种子造成的坑农害农事件时有发生,给国家和农业生产造成了很大的损失。因此,作物种子品种鉴别问题是目前农业生产、作物育种和种子检验的重要问题之一。国内外种子品种鉴别的常用方法主要有形态学方法、荧光扫描鉴定法、化学鉴定法和电泳鉴定法。形态学方法通过观察作物生长过程中种子、幼苗和植株形态特征特性的差异,将不同品种区分开来。这是品种鉴别最常用的简单易行的方法。但该方法鉴别所需时间长,而且精度不高。由于作物生长初期,其形态特征并不明显,直接依此判断种子品种,易产生较大误差。荧光扫描鉴定法是利用光照射物体后有激发光的现象,将不可见的短光波转变为可见的长光波。根据不同品种种子发出的荧光颜色可进行品种鉴别。该方法灵敏度较高,但为了产生最大强度的荧光发射光谱,在鉴别前需要选择特定的激发光波长。另外,在分析过程中需要确定荧光发射光谱最大处的波长,因而耗时较多。化学鉴定法主要根据不同品种中化学物质和成分的差异,以及对不同化学试剂反应显色的差异来鉴别品种。该方法精度较高,但因要求被鉴定的种子必须具有某些化学特异反应,因此其应用范围受到了很大的限制。另外,该方法鉴定时间较长,在鉴定过程中需要消耗大量的化学药剂,因此成本较高。电泳鉴定法的原理是不同作物品种的遗传组成不同,其种子蛋白的种类、数量、大小及结构等也不同。因此可以通过电泳形成不同的蛋白质谱带,从而鉴别品种。电泳鉴定法的准确性较高,重复性好,但对于某些遗传组成非常接近的品种不易找到特异蛋白,采用蛋白质电泳也难以发现用于区分的特征带。另外,电泳所需的时间较长,而且鉴别过程烦琐,非专业人员难以胜任,不适宜对样品进行批量快速分析和无损在线监测。
发明内容本发明的目的是提供一种用近红外光谱和仿生模式识别快速鉴别作物种子品种的方法。通过组合使用多种化学计量学方法,快速、无损且有效的对作物种子品种进行定性分析。为实现上述目的,本发明采用如下技术方案—种用近红外光谱和仿生模式识别快速鉴别作物种子品种的方法,该方法包括以下步骤s101对所述的作物种子品种的近红外光谱波长区域进行预处理;3s102对所述的作物种子品种的近红外光谱波长区域选择检测波长区域;s103对所述的作物种子品种的近红外光谱波长区域进行特征提取;sl04对作物种子品种的近红外光谱波长区域建立仿生模式识别模型;sl05通过所述的仿生模式识别模型对作物种子品种样本进行识别。其中,步骤s104中建立所述的仿生模式识别模型的步骤如下采用一个多权值神经元作为基本覆盖单元,用多个多权值神经元组合起来构造各类高维空间样本点覆盖区。其中,构造所述的各类高维空间样本点覆盖区的步骤如下①对于所述的作物种子品种的近红外光谱波长区域中的所有的构网样本点,在高维特征空间中通过计算所有的构网样本点两两之间的欧式距离,找出距离最近的两个点Bn、B^,构成第一个直线段^S,用一个多权值神经元来覆盖这个直线段^X,多权值神经元的覆盖范围为P。②对于Pp判断高维特征空间中剩余各点是否被P工覆盖,若有构网样本点在P工覆盖范围之内,则排除该构网样本点;对于在Pi覆盖范围外的其它的构网样本点,按照步骤①的方法,找出离B12距离最近的一点B13,与B12构成第二个直线段^,同样,用一个多权值神经元来覆盖这个线段,其覆盖范围为P2;③重复上述步骤,直到处理完所有的构网样本点,最终产生的多权值神经元个数记为m,所述的作物种子品种的近红外光谱波长区域为产生的m个神经元覆盖区域的并集。其中,对所述的作物种子品种的近红外光谱波长区域进行特征提取选用主成分分析、偏最小二乘法、核主成分分析、线性鉴别分析、小波变换、K近邻法和/或互信息熵的方法来提取光谱特征。其中,步骤s101中对所述的作物种子品种的近红外光谱波长区域选择检测波长区域,选用的是基于搜索的方法包括前进选择、顺序后退、逐步选择、模拟退火算法、遗传算法、渐进因子分析和/或窗口因子分析。利用本发明进行快速鉴别作物种子品种,相比现有技术具有以下有益效果1)近红外光谱区介于可见光谱区与中红外光谱区之间,波长范围为780nm-2500nm。通过近红外光谱,可以得到样品中所有有机分子含氢基团的特征信息。近红外光谱对物质的穿透能力较强,不需要对样品做任何预处理。近红外光谱还具有不会对人体造成伤害、不会对环境造成任何污染以及快速、高效的特点。2)仿生模式识别能够更好地实现计算机对作物种子品种自动分类的优点。两者结合能够对作物种子品种进行快速、无损且高效地定性分析,因此用于作物品种鉴别具有重要的理论和现实意义。图1为本发明用近红外光谱和仿生模式识别快速鉴别作物种子品种的方法流程图;图2为本发明中玉米品种CE03005的原始近红外光谱;图3为本发明经矢量归一化预处理后玉米品种CE03005的近红外光谱;图4为本发明中玉米品种P138的原始近红外光谱;图5为本发明经矢量归一化预处理后玉米品种P138的近红外光谱;图6为本发明中使用固定尺寸移动窗口渐进因子法得出的玉米品种CE03005类内的相关系数曲线;图7为本发明使用固定尺寸移动窗口渐进因子法得出的玉米品种P138类内的相关系数曲线;图8为本发明使用固定尺寸移动窗口渐进因子法得出的玉米品种CE03005和P138类间的相关系数曲线;图9为本发明所有样本在两维主成分空间中的分布。具体实施例方式本发明提出的用近红外光谱和仿生模式识别快速鉴别作物种子品种的方法,结合附图和实施例说明如下。近红外光谱对物质的穿透能力较强,不需要对样品做任何预处理。近红外光谱还具有不会对人体造成伤害、不会对环境造成任何污染以及快速、高效的特点。所以将其用于作物品种鉴别具有重要的理论和现实意义。本实施例用近红外光谱和仿生模式识别快速鉴别作物种子品种方法的流程图如图l所示,包括步骤s201,近红外光谱预处理;近红外光谱区介于可见光谱区与中红外光谱区之间,波长范围为780nm-2500nm。通过近红外光谱,可以得到样品中所有有机分子含氢基团的特征信息。但是近红外光谱数据中含有较多噪声且谱带严重重叠,仪器分析得到的原始近红外光谱数据无法直接用于样品的定性计算,因此对原始光谱数据进行预处理。这里选用平滑、归一化、散射效应校正、回归、微分、求导、小波变换中的任意一种或多种预处理方法。其中,预处理方法及其组合方式的选择根据不同作物的光谱信息及光谱数据质量而定。步骤s202,选择检测特征光谱区域;在近红外光谱定性分析模型建立过程中,全谱计算的计算量很大。实际上,在某些光谱区域,样品光谱中有用信息很少。如果直接利用全光谱数据进行计算,会把对样品性质无关的信息也计算在内,甚至会引入干扰信息,影响预测模型的精度。因此,需要选择检测光谱区域进行建模。这里选用基于搜索的方法,即将光谱区域选择看成一个组合优化问题,通过一些搜索方法,如前进选择、顺序后退、逐步选择、模拟退火算法、遗传算法、渐进因子分析和/或窗口因子分析来选择检测波长区域。步骤s203,光谱特征提取;经过特征光谱区域选择后原始信息已经减少,但是光谱数据的维数仍然很高。如果在样本量不多的情况下,直接根据高维数据建立分类模型,无论从模型性能还是计算复杂度来看都不是最好的。这里选用如主成分分析、偏最小二乘法、核主成分分析、线性鉴别分析、小波变换、K近邻法和/或互信息熵的方法来提取光谱特征,以达到降低计算复杂度、提高模型性能的目的。步骤s204,建立仿生模式识别模型;仿生模式识别理论通过分析某类样本点在高维空间中的分布情况,利用高维空间复杂几何形体对其进行覆盖。从高维空间几何分析的角度来看,一个神经元可以构造出一个复杂的封闭几何形体,多个神经元组合起来的人工神经网络可以实现高维空间复杂几何形体的近似覆盖。这里采用一个多权值神经元作为基本覆盖单元,用多个多权值神经元组合起来实现作物不同品种样本的神经网络覆盖区。所述的构造各类高维空间样本点覆盖区的具体步骤如下①对于某品种所有的构网样本点,在高维特征空间中计算所有点两两之间的欧式距离,找出距离最近的两个点Bn、B12。这样在高维特征空间中就由点Bn、B12构成第一个直线段^X。用一个多权值神经元来覆盖这个线段,其覆盖范围为P^②对于已构造好的几何形体Pp判断剩余各点是否被Pi覆盖。若在&覆盖范围内,则排除该点;对于在Pi覆盖范围外的各点,按照步骤①的方法,找出离B12距离最近的一点813,这样B^与Bu就构成第二个直线段^X。同样,用一个多权值神经元来覆盖这个线段,其覆盖范围为&。③重复上述步骤,直到处理完所有的构网样本点,最终共产生m个神经元。每一品种样本的覆盖区域就是这些神经元覆盖区域的并集。步骤s205,样本识别。用构造好的各个网络识别待测样本集中的所有样本。待识别样本落入哪个网络覆盖区,识别结果即为哪个网络所代表的类另U。如若待识别样本没有落入任何网络覆盖区,则该样本不属于任何网络所代表的类别。本实施例以对玉米为例具体介绍,具体包括以下步骤所有玉米籽粒样品均来自北京种植的玉米品种,具体情况如表1所示。样品成熟后收获,风干脱水保存。样品的近红外光谱由德国BR區ER公司的VECT0R22/N傅立叶变换近红外光谱仪获得。该光谱仪采样间隔3.9cm—、分辨率8cm—、测定谱区范围为4000-12000cm—、扫描次数64次。所有样品扫描前40度烘干72小时。样品盛放在统一尺寸的玻璃杯中。放置时,最底层玉米籽粒一半胚乳向上,一半胚乳向下。对每一样品重复扫描20次。表l7个品种的玉米籽粒样品6<table>tableseeoriginaldocumentpage7</column></row><table>(1)近红外光谱预处理由于近红外光谱数据中含有较多噪声且谱带严重重叠,仪器分析得到的原始近红外光谱数据无法直接用于样品的定性计算,因此,有必要对原始光谱数据进行预处理。由于玉米籽粒具有不同厚度,为了利于光谱解析并且降低同一样品若干次测量之间的差别,这里选用基于矢量归一化的光谱预处理方法。矢量归一化方法的基本思想是针对每条光谱,首先计算出平均吸光度a^值,再从光谱中减去这个值,然后计算出吸光度aC(k)值的平方和,用其平方根除光谱。公式如下<formula>formulaseeoriginaldocumentpage7</formula>其中,a(k)为波数k处的吸光度值,n为量测波数的个数,Sa^)为所有量测波数处吸光度值之和,aii(k)为矢量归一化处理后波数k处的吸光度值。图2、图3分别是玉米品种CE03005的原始近红外光谱图和经过矢量归一化预处理后的近红外光谱图;图4、图5分别是玉米品种P138的原始近红外光谱图和经过矢量归一化预处理后的近红外光谱图。经过比较图2、图3和图4、图5,可以清楚地看出,经过归一化预处理后的近红外光谱图大大降低了谱带重叠。(2)选择检测特征光谱区域对原始近红外光谱进行矢量归一化预处理,能在一定程度上减少同品种玉米籽粒样本之间的差异,但从全谱范围来看,依然无法将不同品种的样本区分开。实际上,不同品种样本之间只存在细微差别,从如此相似的光谱数据中提取信息,需要选择合适的特征光谱区域。在该区域内,同类样本的光谱尽可能相似,而不同类样本之间的光谱区别较大,这样更有利于建立多品种的鉴别模型。这里采用固定尺寸移动窗口渐进因子法,通过在不同光谱区域内,计算样本各自类内的相关系数以及两类样本之间的相关系数,以寻找不同品种样本的特征光谱区域。下面以两类样本为例,说明其计算过程。设第一类样本光谱数据矩阵为A,其维数为2075'20(2075为量测波数的个数,20为样本数)。第二类样本光谱数据矩阵为B,其维数为2075'20(2075为量测波数的个数,20为样本数)。计算时,以固定窗口宽度(IOO个波数为单位),以固定步长(l个波数为步长),首先分别从A、B矩阵中取出前100行作为子矩阵,计算各自子矩阵中各列向量间的相关系数,取平均值,再计算两子矩阵列向量间的相关系数,取平均值,这样就得到了3个相关系数值。然后将该窗口从数据矩阵的起点向终点移动l个步长,再进行相关系数的计算,得到3个相关系数值。依次滑动窗口,直到计算完整个矩阵。如果在某个光谱区域,两类样本各自类内的相关系数较高,而类间的相关系数较低,那么该区域即为两类样本的特征光谱区域。图6是使用固定尺寸移动窗口渐进因子法得出的玉米品种CE03005类内的相关系数曲线,图7是使用固定尺寸移动窗口渐进因子法得出的玉米品种P138类内的相关系数曲线,图8是使用固定尺寸移动窗口渐进因子法得出的玉米品种CE03005和P138类间的相关系数曲线。可以看出,终止波数在5843-5893cm—、起始波数为5457-5503cm—0和10866-10961cm—、起始波数为10480-10575cm—0这两个光谱区域,两类样本各自类内的相关系数不低于0.8,而两类样本之间的相关系数最高只能达到0.78。采用相同的参数,对其它品种的玉米样本进行两两分析时发现,在上述两个波段范围内,不同品种玉米样本各自类内的相关系数都比较高,而类间的相关系数较低。因此,选择5457-5893cm—乂112个波数)和10480-10961cm—乂123个波数)这两个波段作为特征光谱区域。[ooes](3)光谱特征提取主成分分析是最常用的一种特征提取方法,根据方差最大原则对原始数据集的多个自变量进行线性组合,从而用数量较少的新的综合变量替代原始高维变量集,达到降维目的。对于7个品种的玉米籽粒样本,主成分分析的具体步骤如下①标准化矩阵。设经过特征光谱区域选择后,所有玉米籽粒样本的光谱数据矩阵为C,其维数为235'140(235为特征光谱区域波数的个数,140为所有样本数)。对于矩阵C的每个行向量,首先计算其均值,然后用原始值减去均值,得到标准化矩阵CC。②规范化矩阵。计算标准化矩阵CC的协方差矩阵,得到规范化矩阵V。③计算规范化矩阵V的特征值和特征向量,并将求得的特征向量与标准化矩阵CC相乘,得到主成分矩阵。对于235维的玉米籽粒样本,最终可求得235个主成分。特征值很小的主成分,其方差也很小,这样的主成分所包含的信息量也很少。因此,对于求得的235个主成分,只要保留特征值较大的前P(P<235)个主成分即可替代原有的235个主成分,达到降维目的。通常用累积贡献率来评价主成分所包含的信息量。前P个主成分的累积贡献率为这P个主成分的方差贡献率之和,而某个主成分的方差贡献率为该主成分所对应的特征值与所有主成分特征值之和的比值。由于玉米光谱数据经主成分提取后得到的前5个主成分的累积贡献率已经达到99.96%,因此,提取前5个主成分作为特征矢量。图9是对7个玉米品种进行主成分分析得到的二维空间中样本的分布图。其中,l表示品种1127在二维空间中样本的分布;2表示品种CE03005在二维空间中样本的分布;3表示品种MiniCT在二维空间中样本的分布;4表示品种P25在二维空间中样本的分布;5表示品种P138在二维空间中样本的分布;6表示品种815在二维空间中样本的分布;7表示品种HeiNuo在二维空间中样本的分布。(4)仿生模式识别对于每个品种的玉米籽粒样本,从中随机挑选10个作为训练集,其余10个作为第一测试集,其它品种的样本(6类共120个样本)作为第二测试集。在建立仿生模式识别模型时,采用一个两权值神经元(HSN)作为基本覆盖单元,用多个两权值神经元组合起来实现玉米不同品种样本的神经网络覆盖区。下面以某一品种训练集中的玉米籽粒样本为例,说明其仿生模式识别模型的构建过程。设该品种训练集中玉米籽粒样本的光谱数据矩阵为D,其维数为5'10(5为经过主成分分析后得到的样本特征数,10为样本数),则每个样本都可以看作是5维空间中的一个点。①对于训练集中的10个样本点,在5维特征空间中计算所有点两两之间的欧式距离,找出距离最近的两个点Bn、B12。这样在特征空间中就由点Bn、B12构成第一个直线段^X。用一个HSN来覆盖这个线段,其覆盖范围为P"②对于已构造好的几何形体P"判断剩余各点是否被Pi覆盖。若在Pi覆盖范围内,则排除该点;对于在Pi覆盖范围外的各点,按照步骤①的方法,找出离B12距离最近的一点B13,这样B12与B13就构成第二个直线段^X。同样,用一个HSN来覆盖这个线段,其覆盖范围为P"③重复上述步骤,直到处理完所有的10个样本点,最终共产生n(n£9)个神经元。该品种样本的HSN网络覆盖区域就是这些神经元覆盖区域的并集。模型构建完成后,采用测试集进行样本识别。其中,第一测试集用于检测该品种的HSN网络对于同品种样本的正确识别率,第二测试集用于检测该品种的HSN网络对于其它品种样本的正确拒识率。若第一测试集中的样本落入已构造好的HSN网络覆盖区域,则样本被正确识别;若第二测试集中的样本没有落入已构造好的HSN网络覆盖区域,则样本被正确拒识。表2是应用仿生模式识别方法对7个不同品种的玉米籽粒样本进行了计算机自动分类的实验结果。表2.基于仿生模式识别的7个玉米品种的分类结果第一测试集正确识别率/%第二测试集正确拒识率/%识别CE03005的HSN网络100100识别1127的HSN网络100100识别P25的HSN网络8099.2识别P138的HSN网络10099.2识别815的HSN网络8099.2识别HeiNuo的HSN网络1001009<table>tableseeoriginaldocumentpage10</column></row><table>其中,用来识别CE03005、1127、P25、P138、815、HeiNuo和MiniCT的HSN网络对于本品种样本的正确识别率分别为100%、100%、80%、100%、80%、100%和100%,平均正确识别率为94.3%,对于其它品种样本的正确拒识率分别为100%、100%、99.2%、99.2%、99.2%、100%和96.7%,平均正确拒识率为99.1%。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关
技术领域
的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。权利要求一种鉴别作物种子品种的方法,其特征在于,该方法包括以下步骤s101对作物种子品种的近红外光谱波长区域进行预处理;s102对所述的作物种子品种的近红外光谱波长区域选择检测波长区域;s103对所述的作物种子品种的近红外光谱波长区域进行特征提取;s104对所述的作物种子品种的近红外光谱波长区域建立仿生模式识别模型;s105通过所述的仿生模式识别模型对作物种子品种样本进行识别。2.如权利要求1所述的鉴别作物种子品种的方法,其特征在于,步骤sl04中建立所述的仿生模式识别模型的步骤如下采用一个多权值神经元作为基本覆盖单元,用多个多权值神经元组合起来构造各类高维空间样本点覆盖区。3.如权利要求2所述的鉴别作物种子品种的方法,其特征在于,构造所述的各类高维空间样本点覆盖区的步骤如下①对于所述的作物种子品种的近红外光谱波长区域中的所有的构网样本点,在高维特征空间中通过计算所有的构网样本点两两之间的欧式距离,找出距离最近的两个点Bn、B『构成第一个直线段^X,用一个多权值神经元来覆盖这个直线段^X,多权值神经元的覆盖范围为p。②对于Pp判断高维特征空间中剩余各点是否被Pi覆盖,若有构网样本点在Pi覆盖范围之内,则排除该构网样本点;对于在Pi覆盖范围外的其它的构网样本点,按照步骤①的方法,找出离B12距离最近的一点B13,与B12构成第二个直线段^X,同样,用一个多权值神经元来覆盖这个线段,其覆盖范围为P2;③重复上述步骤,直到处理完所有的构网样本点,最终产生的多权值神经元个数记为m,所述的作物种子品种的近红外光谱波长区域为产生的m个神经元覆盖区域的并集。4.如权利要求1所述的鉴别作物种子品种的方法,其特征在于,对所述的作物种子品种的近红外光谱波长区域进行特征提取选用主成分分析、偏最小二乘法、核主成分分析、线性鉴别分析、小波变换、K近邻法和/或互信息熵的方法来提取光谱特征。5.如权利要求1所述的鉴别作物种子品种的方法,其特征在于,步骤slOl中对所述的作物种子品种的近红外光谱波长区域选择检测波长区域,选用的是基于搜索的方法包括前进选择、顺序后退、逐步选择、模拟退火算法、遗传算法、渐进因子分析和/或窗口因子分析。全文摘要本发明的目的是提供一种用近红外光谱和仿生模式识别快速鉴别作物种子品种的方法。该方法通过对作物种子品种的近红外光谱波长区域建立仿生模式识别模型并通过所述的仿生模式识别模型对作物种子品种样本进行识别。通过近红外光谱,可以得到样品中所有有机分子含氢基团的特征信息,并且对物质的穿透能力较强,不需要对样品做任何预处理,对人体无伤害,对环境无污染,仿生模式识别能够更好地实现计算机对作物种子品种自动分类的优点。两者结合能够对作物种子品种进行快速、无损且高效地定性分析,因此用于作物品种鉴别具有重要的理论和现实意义。文档编号G01N21/00GK101738373SQ20081022716公开日2010年6月16日申请日期2008年11月24日优先权日2008年11月24日发明者安冬,苏谦,邬文锦申请人:中国农业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1