一种快速识别红外光谱数据分类的方法及系统与流程

文档序号:11520300阅读:290来源:国知局
一种快速识别红外光谱数据分类的方法及系统与流程

本发明涉及红外光谱数据分析技术领域,尤其涉及一种快速识别红外光谱数据分类的方法及系统。



背景技术:

红外光谱检测具有快速、安全、低成本、无损的特点,用红外光谱来对物质进行快速检测是一种行之有效的办法。然而,现有对红外光谱数据的常用模式识别方法,如偏最小二乘回归算法(pls)方法及主成份分析法(pca)的空间重构方法,都需要涉及复杂的不直观的空间投影方法。

因此,亟需一种快速识别红外光谱数据分类的方法,简单直观,且误差较小。



技术实现要素:

本发明实施例的目的在于提供一种快速识别红外光谱数据分类的方法及系统,简单直观,且误差较小。

为了解决上述技术问题,本发明实施例提供了一种快速识别红外光谱数据分类的方法,所述方法包括:

获取样品每一种类别各自对应的红外光谱数据,并将所述获取到的红外光谱数据基于som聚类网络进行聚类计算,得到样品的红外光谱数据的特征信息;

确定样品每一种类别的样品数,并获取样品每一种类别中每一个样品数的红外光谱数据,且根据所述获取到的样品每一种类别中每一个样品数的红外光谱数据,形成样品每一种类别各自对应的分类训练样本矩阵以及样品总训练样本矩阵;其中,所述样品每一种类别各自对应的分类训练样本矩阵是由同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;所述样品总训练样本矩阵是由不同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;

确定样品未知类别的待测样本数据,且将所述待测样本数据形成以所述特征信息的维度为行数的单列矩阵作为待测样本矩阵,并根据所述形成的样品总训练样本矩阵以及待测样本矩阵构建二者线性关系,进一步采用最小二乘回归算法对所述构建的线性关系求解,得到所述样品总训练样本矩阵与所述待测样本矩阵之间形成的回归系数;

根据所述得到的回归系数以及样品每一种类别各自对应的分类训练样本矩阵,得到对应于样品每一种类别的估算样本矩阵,并对比所述待测样本矩阵分别与所述得到的对应于样品每一种类别的估算样本矩阵之间的欧氏距离,确定欧氏距离为最小时所对应估算样本矩阵的类别为所述待测样本数据的类别。

其中,所述样品每一种类别各自对应的红外光谱数据采用行数为3000、列为1的矩阵来表示。

其中,特征信息的维度为294。

其中,所述样品数为25个。

本发明实施例还提供了一种快速识别红外光谱数据分类的系统,所述系统包括:

数据维度选择单元,用于获取样品每一种类别各自对应的红外光谱数据,并将所述获取到的红外光谱数据基于som聚类网络进行聚类计算,得到样品的红外光谱数据的特征信息;

训练样本矩阵获取单元,用于确定样品每一种类别的样品数,并获取样品每一种类别中每一个样品数的红外光谱数据,且根据所述获取到的样品每一种类别中每一个样品数的红外光谱数据,形成样品每一种类别各自对应的分类训练样本矩阵以及样品总训练样本矩阵;其中,所述样品每一种类别各自对应的分类训练样本矩阵是由同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;所述样品总训练样本矩阵是由不同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;

求解回归系数单元,用于确定样品未知类别的待测样本数据,且将所述待测样本数据形成以所述特征信息的维度为行数的单列矩阵作为待测样本矩阵,并根据所述形成的样品总训练样本矩阵以及待测样本矩阵构建二者线性关系,进一步采用最小二乘回归算法对所述构建的线性关系求解,得到所述样品总训练样本矩阵与所述待测样本矩阵之间形成的回归系数;

样品类别识别单元,用于根据所述得到的回归系数以及样品每一种类别各自对应的分类训练样本矩阵,得到对应于样品每一种类别的估算样本矩阵,并对比所述待测样本矩阵分别与所述得到的对应于样品每一种类别的估算样本矩阵之间的欧氏距离,确定欧氏距离为最小时所对应估算样本矩阵的类别为所述待测样本数据的类别。

其中,所述样品每一种类别各自对应的红外光谱数据采用行数为3000、列为1的矩阵来表示。

其中,所述特征信息的维度为294。

其中,所述样品数为25个。

实施本发明实施例,具有如下有益效果:

本发明实施例通过som聚类网络实现了红外光谱数据的变量选择,得到较少的更具特征的变量数据,并结合线性回归的算法,用训练样本来线性表示预测样本的方式,然后根据不同类别的训练样本表示待测样本的好坏来进行判决,实现待测样本的快速分类,因此具有简单直观,且误差较小等优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的快速识别红外光谱数据分类的方法的流程图;

图2本发明实施例提供的快速识别红外光谱数据分类的系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明实施例中,提出一种快速识别红外光谱数据分类的方法,所述方法包括:

步骤s101、获取样品每一种类别各自对应的红外光谱数据,并将所述获取到的红外光谱数据基于som聚类网络进行聚类计算,得到样品的红外光谱数据的特征信息;

具体过程为,利用som聚类网络实现对已知光谱数据的变量选择,提升分类识别率。其中,样品每一种类别各自对应的红外光谱数据采用行数为3000、列为1的矩阵来表示;特征信息的维度为294。

作为一个例子,以泥蚶的重金属污染种类的红外光谱识别为例,有五类泥蚶样本,分别为泥蚶a,泥蚶b,泥蚶c,泥蚶d,泥蚶e,每个泥蚶样品的红外数据为3000×1的列矩阵,即每一种泥蚶每一个样品数的红外数据均采用行数为3000的单列矩阵。将光谱样本的变量经过som聚类网络,并选择聚类数目的参数,最后得到泥蚶的红外光谱数据的特征信息的维度为294。

步骤s102、确定样品每一种类别的样品数,并获取样品每一种类别中每一个样品数的红外光谱数据,且根据所述获取到的样品每一种类别中每一个样品数的红外光谱数据,形成样品每一种类别各自对应的分类训练样本矩阵以及样品总训练样本矩阵;其中,所述样品每一种类别各自对应的分类训练样本矩阵是由同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;所述样品总训练样本矩阵是由不同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;

具体过程为,根据样品的类别标签将同类的训练样本矩阵分在一起,即如把相同类别泥蚶样本的红外光谱数据放在一起。

在形成样品总训练样本矩阵过程中,是取样品每一种类别中每一个样品数的红外光谱数据,即已知样品的类别,将不同种类别的红外光谱数据形成的以特征信息的维度为行数、样品数为列数的矩阵;而在形成样品每一种类别各自对应的分类训练样本矩阵的过程中,是取样品同种类别的红外光谱数据形成的以特征信息的维度为行数、样品数为列数的矩阵。其中,样品数可设为25或其它。

作为一个例子,在上述泥蚶的重金属污染种类的红外光谱识别的例子中,将已知类别标签的每种泥蚶样品数均设为25个,然后将泥蚶样本数据排成行为294,列为25的形式,并且a1的1~25列为第一类泥蚶a,a2的1~25列为第二类泥蚶b,以此类推,构建样品总训练样本矩阵a和分类训练样本矩阵ai。a=[ai]=[vi,1,vi,2,...,vi,n],对于第i类的矩阵数据,存在n个训练样本;i=1-5,n=25。

步骤s103、确定样品未知类别的待测样本数据,且将所述待测样本数据形成以所述特征信息的维度为行数的单列矩阵作为待测样本矩阵,并根据所述形成的样品总训练样本矩阵以及待测样本矩阵构建二者线性关系,进一步采用最小二乘回归算法对所述构建的线性关系求解,得到所述样品总训练样本矩阵与所述待测样本矩阵之间形成的回归系数;

具体过程为,明确待测样本矩阵y,即明确某一个需要识别其类别标签的样本,做成行数为特征信息的维度、列数为1的矩阵。

对于待测样本矩阵y,根据样品总训练样本矩阵a,形成线性关系y=ax,并进行求解。由于对于红外光谱数据来说,通常数据的特征信息的维度是大于样本数的,也就是说,线性系统y=ax是超定的,通常可以得到一个唯一解。利用最小二乘法,求解出这个线性系统的系数其公式是

步骤s104、根据所述得到的回归系数以及样品每一种类别各自对应的分类训练样本矩阵,得到对应于样品每一种类别的估算样本矩阵,并对比所述待测样本矩阵分别与所述得到的对应于样品每一种类别的估算样本矩阵之间的欧氏距离,确定欧氏距离为最小时所对应估算样本矩阵的类别为所述待测样本数据的类别。

具体过程为,利用之前得到的每一种类别的分类训练样本矩阵ai乘以对应的最小二乘回归系数得到对应于样品每一种类别的估算样本矩阵

根据某一类的估算样本矩阵与待测样本矩阵y的差异来进行判决,这里的差异性是通过估算样本矩阵与待测样本矩阵y之间的欧式距离作为标准,以误差最小的那类标签作为实际的预测样本的类别。即最后输出欧氏距离为最小时所对应估算样本矩阵的类别为该待测样本数据的类别,即输出

如图2所示,为本发明实施例中,提供的一种快速识别红外光谱数据分类的系统,所述系统包括:

数据维度选择单元110,用于获取样品每一种类别各自对应的红外光谱数据,并将所述获取到的红外光谱数据基于som聚类网络进行聚类计算,得到样品的红外光谱数据的特征信息;

训练样本矩阵获取单元120,用于确定样品每一种类别的样品数,并获取样品每一种类别中每一个样品数的红外光谱数据,且根据所述获取到的样品每一种类别中每一个样品数的红外光谱数据,形成样品每一种类别各自对应的分类训练样本矩阵以及样品总训练样本矩阵;其中,所述样品每一种类别各自对应的分类训练样本矩阵是由同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;所述样品总训练样本矩阵是由不同种类别的红外光谱数据形成的以所述特征信息的维度为行数、样品数为列数的矩阵;

求解回归系数单元130,用于确定样品未知类别的待测样本数据,且将所述待测样本数据形成以所述特征信息的维度为行数的单列矩阵作为待测样本矩阵,并根据所述形成的样品总训练样本矩阵以及待测样本矩阵构建二者线性关系,进一步采用最小二乘回归算法对所述构建的线性关系求解,得到所述样品总训练样本矩阵与所述待测样本矩阵之间形成的回归系数;

样品类别识别单元140,用于根据所述得到的回归系数以及样品每一种类别各自对应的分类训练样本矩阵,得到对应于样品每一种类别的估算样本矩阵,并对比所述待测样本矩阵分别与所述得到的对应于样品每一种类别的估算样本矩阵之间的欧氏距离,确定欧氏距离为最小时所对应估算样本矩阵的类别为所述待测样本数据的类别。

其中,所述样品每一种类别各自对应的红外光谱数据采用行数为3000、列为1的矩阵来表示。

其中,所述特征信息的维度为294。

其中,所述样品数为25个。

实施本发明实施例,具有如下有益效果:

本发明实施例通过som聚类网络实现了红外光谱数据的变量选择,得到较少的更具特征的变量数据,并结合线性回归的算法,用训练样本来线性表示预测样本的方式,然后根据不同类别的训练样本表示待测样本的好坏来进行判决,实现待测样本的快速分类,因此具有简单直观,且误差较小等优点。

值得注意的是,上述系统实施例中,所包括的各个系统单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如rom/ram、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1