一种拉曼光谱法鉴别大米种类的特征数据提取方法与流程

文档序号:18457759发布日期:2019-08-17 01:45阅读:502来源:国知局
一种拉曼光谱法鉴别大米种类的特征数据提取方法与流程

本发明属于大米种类特征数据提取方法技术领域,具体涉及一种拉曼光谱法鉴别大米种类的特征数据提取方法。



背景技术:

中国是世界上100多个水稻生产国中的“稻米王国”,约60%的人口以稻米为主食。大米按原料稻谷类型分为籼米、粳米和糯米3类。由于稻田的环境气候条件不同,不同种类稻米在各地分布有所不同。籼、粳的分化是栽培稻最重要的演化,数千年的杂交、分化、选择的循环,使两者的差异进一步扩大,产生了一定的生殖障碍。对于籼、粳稻的杂交育种,如果对籼、梗稻的特征认识不深,则会造成测配选亲本困难、测配结果不理想及遗传规律等难以确定。因此,正确地了解籼、粳分类和判别籼、粳是籼粳稻杂交育种急需研究的问题。大米间化学成分的含量和糊化等理化特性有较大的差异,因而食味品质差别明显,实验表明,只有某些籼米品种才能制作出品质优良的米粉,现阶段稻米食品加工原料的选择大多凭经验,盲目性较大,食品品质难以得到保证。

目前,在籼、粳稻分类鉴别中应用的方法有感官评价法、形态指数鉴定法、杂交亲和力鉴定法、同工酶基因数量化鉴定法、dna分子标记鉴定法、氯酸钾抗性鉴定法、机动细胞硅酸体形态性状鉴定法、双峰乳突鉴定法等,这些研究处理过程中存在以下的问题:

对引起大米种类间差异的特征信息未进行研究,且由于指纹图谱信息维度高、数据量大,随着大米样本的复杂化,样本数量的空前膨胀化,使得这类鉴别方法越来越耗时,难以满足社会发展的需求。



技术实现要素:

本发明所要解决的技术问题在于针对上述现有技术的不足,提供一种拉曼光谱法鉴别大米种类的特征数据提取方法,以解决上述背景技术中提出的对引起大米种类间差异的特征信息未进行研究,鉴别方法越来越耗时,难以满足社会发展需求的问题。

为解决上述技术问题,本发明采用的技术方案是:一种拉曼光谱法鉴别大米种类的特征数据提取方法,包括以下步骤:

s1、选取大米样品,然后将样品经过粉碎机进行粉碎处理得到米粉;

s2、将米粉经过100目和140目的筛子进行颗粒分级,收集粒度为100-140目之间的米粉;

s3、利用激光拉曼光谱仪采集米粉的拉曼光谱;

s4、将s3中得到的拉曼光谱依次进行去噪处理和归一化处理;

s5、对s4中经过去噪和归一化处理后综合运用主成分分析、窗口分析和层次聚类分析三种方法完成特征数据的提取。

优选的,在s1中具体的粉碎处理为准确称取每份大米样品20g,待粉碎机预热运行1分钟后,在半分钟内缓慢加入大米,再粉碎2分钟,保证大米粉碎完全。

优选的,所述粉碎机具体为内置筛网的网孔直径为0.6mm的15b型立式粉碎机。

优选的,所述激光拉曼光谱仪具体为由美国enwaveoptronics公司生产的激光波长785nm的prott-ezraman-d3型便携式激光拉曼光谱仪。

优选的,在s4中的去噪处理具体为基于matlab2016a平台利用wden小波函数对拉曼光谱数据进行小波去噪,归一化处理具体为用mapminmax函数对拉曼光谱数据做归一化处理。

优选的,所述主成分分析法具体为采取数学降维的方法消除变量间的相关性,在反映原变量的信息量基础上,用多个相互独立的综合变量来代替原来众多的变量,将全部数据信息矩阵分解成代表样本信息的载荷矩阵与得分矩阵,以得分矩阵中的特征主成分投影到二维平面或者三维空间坐标系中,利用二维平面上或三维坐标系中各模式点的分布进行分类与判别。

优选的,所述窗口分析法具体为将测得的拉曼光谱等分为p个等宽的波段区间,把每个波段区间内连续的w个波数点作为一个窗口,对每一个窗口建立预测模型,通过对比找出目标光谱信息含量最多的建模区间。

优选的,所述层次聚类分析法具体是根据样本在多维空间中距离的大小来确定样品之间的亲疏关系,使相似的样本“聚”在一起,从而达到分类的目的,层次聚类分析用于建立一个簇的层次结构,其层次结构用树的结构来表示,称为树状图,树的根是包括所有对象的一个簇,而叶子则分别对应于特点的单个对象。

本发明与现有技术相比具有以下优点:

1、本发明通过将大米样品粉碎后采集的拉曼光谱数据进行去噪和归一化处理,且综合运用主成分分析、窗口分析和层次聚类分析三种方法对大米的拉曼光谱进行特征提取,最终筛选出相关性小的30个波数,采用这30个波数重新建立模型,三种大米归类准确率为91.1429%,鉴别效果较理想,且识别耗时降低了10倍,大大提高了模型的效率。

2、本发明运用的主成分分析、窗口分析和层次聚类分析联用方法能够从海量数据中精准提取特征信息,大大降低了数据维度,在大样本量分析时可有效提升模型的效率。

3、本发明结合化学成分分析,能够对复杂混合物中的差异成分进行解析,使大米种类鉴别分析进入微观分子水平

附图说明

图1是本发明整体方法流程图;

图2是本发明窗口分析法波段区间选择方式;

图3是本发明三种大米的拉曼光谱图;

图4是本发明前15个主成分的贡献率、累计贡献率及识别准确率图;

图5是本发明前3个主成分的载荷图;

图6是本发明波段951cm-1~1000cm-1的聚类树图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1所示,本实施例提供一种技术方案:一种拉曼光谱法鉴别大米种类的特征数据提取方法,包括以下步骤:

s1、选取大米样品,然后将样品经过粉碎机进行粉碎处理得到米粉,具体为准确称取每份大米样品20g,运用内置筛网的网孔直径为0.6mm的15b型立式粉碎机,待粉碎机预热运行1分钟后,在半分钟内缓慢加入大米,再粉碎2分钟,保证大米粉碎完全;

s2、将米粉经过100目和140目的筛子进行颗粒分级,收集粒度为100-140目之间的米粉;

s3、利用激光拉曼光谱仪采集米粉的拉曼光谱,激光拉曼光谱仪具体为由美国enwaveoptronics公司生产的激光波长785nm的prott-ezraman-d3型便携式激光拉曼光谱仪;

s4、将s3中得到的拉曼光谱依次进行去噪处理和归一化处理,去噪处理具体为基于matlab2016a平台利用wden小波函数对拉曼光谱数据进行小波去噪,归一化处理具体为用mapminmax函数对拉曼光谱数据做归一化处理;

s5、对s4中经过去噪和归一化处理后综合运用主成分分析、窗口分析和层次聚类分析三种方法完成特征数据的提取。

其中主成分分析法具体为采取数学降维的方法消除变量间的相关性,在反映原变量的信息量基础上,用多个相互独立的综合变量来代替原来众多的变量,将全部数据信息矩阵分解成代表样本信息的载荷矩阵与得分矩阵,以得分矩阵中的特征主成分投影到二维平面或者三维空间坐标系中,利用二维平面上或三维坐标系中各模式点的分布进行分类与判别。

窗口分析法具体见图2,具体为将测得的拉曼光谱等分为p个等宽的波段区间,把每个波段区间内连续的w个波数点作为一个窗口,对每一个窗口建立预测模型,通过对比找出目标光谱信息含量最多的建模区间。

所述层次聚类分析法具体是根据样本在多维空间中距离的大小来确定样品之间的亲疏关系,使相似的样本“聚”在一起,从而达到分类的目的,层次聚类分析用于建立一个簇的层次结构,其层次结构用树的结构来表示,称为树状图,树的根是包括所有对象的一个簇,而叶子则分别对应于特点的单个对象。

实施例2

本实施例的拉曼光谱法鉴别大米种类的特征数据提取方法包括以下步骤;

s1、选取籼米中的遮放贡米zf、粳米中的七星粳米一号jsj和糯米中的白莲坡糯米na作为三种大米的典型,

s2、粉碎后取粒度在100-140目的米粉;

s3、利用激光拉曼光谱仪采集米粉的拉曼光谱;

s4、经wden小波去噪和mapminmax归一化预处理后的拉曼光谱图,具体见图3;尽管高度相似,但三种大米在部分波段范围内有肉眼可见差异。以每个产地一个大米为代表,共9个大米的拉曼光谱对照图如图3所示,其中,糯米在425、455、1410cm-1附近区域内的吸收峰强度明显高于粳米和籼米,但在1450cm-1附近的光强却低于其它两种米,根据朗伯-比耳定律,糯米与其它两种米的部分成分含量差异略大。在455cm-1附近区域,三种大米的最大吸收光强对应的波长位置有明显差异,说明这三种大米的部分成分在结构上存在差异。在1410cm-1附近区域,三种大米的吸收峰形状有明显差异,糯米和粳米的吸收曲线有明显峰顶,籼米的吸收曲线则较平滑。此外,由图3可见,地理位置的差异对大米拉曼光谱的影响较小,而大米种类对大米拉曼光谱的影响较大。

s5、三种大米的72个拉曼光谱数据依次去噪、归一化处理后经主成分分析,降维后得71个主成分。

前15个主成分的贡献率如图4所示,累计贡献率达85.41%。其中,第一主成分解释了27.48%的原始信息,第二主成分解释了23.36%的信息量,第三主成分解释了10.34%的信息量,前3个主成分的累计贡献率为61.18%,包含了拉曼光谱数据大部分的信息。采用随机函数随机选取37个样本作为训练集来训练模型(籼米14个,粳米13个,糯米10个),剩余的样本(籼米14个,粳米12个,糯米9个)作为验证集样本验证所建模型的准确性。采用径向基核函数rbf,惩罚参数c和核参数g的寻优使用网格搜索法,具体参数设置如下:c的变化范围限定为[2-10,25],g的范围取[2-10,2],进行5折交叉验证,c和g的步进值均为0.5。

为提高模型的可靠性,将随机运行10次的平均值作为模型的识别准确率,见图4,主成分数为8及以上时,识别率波动较小,与采用71个主成分建模的结果,识别准确率为97.7143%。

进一步地,根据前3个主成分的载荷图,具体见图5,分析粳米、籼米、糯米分类的主要特征波段,可得420-560cm-1、860-980cm-1、1000-1200cm-1、1300-1500cm-1对粳米、籼米和糯米分类的贡献较大,该结果与图3肉眼可见拉曼光谱差异波段相比较,基本吻合,同时多了860-980cm-1这个波段,说明模式识别方法具备高效的特征提取和数据分析能力,能揭示指纹图谱数据中的隐含信息,从每个载荷向量看,特征波段比较复杂,特征维数依旧较多,难以找出关键性的信息。

为了实现大米种类快速鉴别,缩短识别耗时,考虑利用大米拉曼光谱局部波段数据代替全波段数据建立svm分类模型,通过降低数据维数有效地降低运算复杂度,缩短运算时间。依次对拉曼光谱数据进行去噪和归一化预处理,按每50cm-1将251cm-1-1500cm-1全波段分为25个波段分别建立25个svm分类模型,进行10次循环实验,识别率取平均值后的结果如表1所示。结果表明,采用局部波段建立svm分类模型,能够有效的减少识别时间,但最高识别率仅为92.29%。

表125个波段分别进行10次svm分类识别实验结果

为了进一步提高模型的识别率,选取识别率≥80%的波段(即451-500cm-1,501-550cm-1,951-1000cm-1,1351-1400cm-1,1401-1450cm-1),并考虑到波段的连续性与完整性,把波段451-500cm-1,501-550cm-1组合成451-550cm-1波段,把波段1351-1400cm-1,1401-1450cm-1组合成1351-1450cm-1波段,然后对重组后的三个波段,即451-550cm-1,951-1000cm-1,1351-1450cm-1进行不同的组合,分别建立svm分类模型,进行10次实验,结果如表2所示。组合6建立的分类识别模型与表1全波段相比,平均识别率类似,但平均识别耗时大大降低,说明波段451-550cm-1、951-1000cm-1和1351-1450cm-1对三种大米分类识别的贡献最大,可作为三种大米识别的特征波段。

表26组波段分别进行10次svm分类识别实验结果

窗口分析法结果与上述pca载荷分析结果,特征波段:420-560cm-1、860-980cm-1、1000-1200cm-1、1300-1500cm-1相比,进一步缩小了特征波段的范围,使得特征波段越来越精确。

层次聚类分析法,在上述实验基础上,按每50cm-1将451-550cm-1;951-1000cm-1;1351-1450cm-1波段分为5个区间,经hca分析探究信号间的相关性,进而筛选出不相关的信号。

以951-1000cm-1波段为例,分别使用欧氏距离、标准欧氏距离、城市街区距离和余弦距离四种距离计算方法计算各波数间的相似性,采用平均距离法、最短距离法和最长距离法分别创建系统聚类树,计算各种方法下的同表象型相关系数,结果如表3所示。

表3不同距离度量和聚类树创建方法的同表象型相关系数

最大值0.9444对应的距离度量方法为欧氏距离法,创建系统聚类树的方法是平均距离法,所创建的聚类树图如图5所示,其中横坐标维数1-50对应于波段951-1000cm-1。图中可见连续波数挨在一起,这是由于相邻波数代表分子中相同共价键经不同的跃迁能级振动产生的,因此样品固定,这些共价键及其含量就是固定的,对应的波数和吸收强度就是固定的,即具有相关性。hca聚类树图上可见波段归为两类的欧氏距离为1.586-4.050,归为三类的欧氏距离为1.199-1.586,归为四类的欧氏距离为1.079-1.199。

对其它4个波段区间进行同样的研究,分别得出最高同表象形系数对应的最佳距离度量方法和创建系统聚类树的方法,发现451-500cm-1和501-550cm-1采用欧氏距离法最佳,1351-1400cm-1和1401-1450cm-1的数据采用余弦距离法最佳,其次为欧氏距离法,为了便于比较分析,统一使用欧氏距离法作为距离度量方法、平均距离法为创建系统聚类树的方法,波段分类的欧氏距离见表4,

表4各波段的hca分析结果

编号①-⑩按照欧氏距离数值由大到小的顺序排列,根据前述主成分分析降维后不相关的特征成分为71个,累计贡献率达85%的主成分数为15个,故欧氏距离小于1.000的波段可认为是有一定相关性的波段。以951-1000cm-1波段为例,图6中维数11-12、1-10、13-15、16-19、20-50具有相关性,建模时只需各取出其中一个波数,且取波段中间处,如此,选择维数11、6、14、17、35(对应波数为961,956,964,967,985cm-1)作为951-1000cm-1波段的代表性信息。按照上述原则,共筛选出30个波数,见表4,采用筛选出的30个波数建立鉴别模型,识别准确率为91.1429%,鉴别效果较理想;识别耗时11.328432s,是全波段识别耗时(108.115369s)的十分之一,可大大缓解大样本量分析效率低的问题。这些波数对应的来源见表5,

表5近似峰值及其对应的基团及振动形式

可知三种大米可区分的关键成分为蛋白质和淀粉,总之,大米的拉曼光谱是多种成分的综合反映,每个谱带的强度、位置和宽度变化是由于不同组分的含量和微观结构的差异导致的,本文从海量数据中精准提取特征信息,大大降低了数据维度,在大样本量分析时可有效提升模型的效率。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1