本发明涉及拉曼光谱定量分析领域,具体地来讲为一种基于聚类的高光谱样本选择方法。
背景技术:
拉曼光谱样本选择方法是利用高光谱空间信息来获得模型训练所需的训练样本集和测试样本集,从而使得模型具有较好的精度和稳定性。目前有以下几种常用样本选择算法:随机选择法Random Sampling(RS)、Kennard-Stone(KS)、Sample set partitioning based on joint x-y distance(SPXY)等方法。随机选择法较为通用,但稳定性较差,可能出现较大的建模精度波动;KS则是基于样本间欧式距离,采用最大最小距离选择样本,在一定程度上可以有效地解决稳定性问题,但是其对奇异值非常敏感,而且样本空间分布不均匀;SPXY在KS的基础上等权重加入样本标签信息,并没有解决其存在的问题。
技术实现要素:
本发明所要解决的技术问题在于提供一种基于降维与聚类的高光谱样本选择方法,以解决稳定性差以及样本空间分布不均匀的问题。
一种基于降维与聚类的高光谱样本选择方法,包括如下步骤:
一种基于降维与聚类的高光谱样本选择方法,该方法包括:
步骤1,将原始高光谱数据集标准化处理为标准化数据集;
步骤2,计对标准化数据集降维得到联合代表空间;
步骤3,将获得的联合代表空间聚类得到聚类簇;
步骤4,从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。
进一步地,所述步骤3中,以欧式聚类作为相似度测度,根据数据点到原型距离作为优化目标函数,采用误差平方和作为聚类准则函数。
进一步地,所述步骤2中包括:
采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵;
将代表高光谱样本空间的主成分矩阵以权重矩阵与样本标签信息联合,获得联合代表空间。
进一步地,所述步骤2中采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵包括:
计算相关系数矩阵R=XTX/(n-1),求解相关系数矩阵R的特征方程|R-λIp|=0获得p个特征值;其中X为标准化数据集,n为样本个数。
进一步地,步骤2中,权重矩阵如下所示:
Y为样本标签信息,U为主成分矩阵,M为权重矩阵,S为联合代表空间。
进一步地,步骤3聚类包括:
第一步:随机选取k个初始聚类中心cj;
第二步:逐个计算样本si与聚类中心cj的距离,若与聚类中心cj距离最近,则将其归到聚类簇Dj中
第三步:重新计算聚类簇Dj的聚类中心
式中d为聚类簇Dj所含样本数目,sk为依次加入到聚类簇Dj的样本;
第四步:不断执行步骤二和步骤三,直到聚类中心趋于稳定,通过迭代更新k个聚类中心使目标函数F取得最小值,其目标函数如下式所示:
进一步地,步骤1包括:
将原始高光谱数据集XR∈Rn×p标准化获得数据集X
其中,其中n为样本个数;p为样本的维度,为第i行数据集的平均值。
本发明与现有技术相比,有益效果在于,本发明能够根据实际情况权衡样本光谱空间与样本标签之间的权重,经选择得到训练集与测试集在样本空间中均匀分布,对奇异值不敏感,具有较强代表性,且相比于先前方法建模精度与稳定性显著提高。
附图说明
图1为本发明实施例提供的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于降维获取代表高光谱的低维信息空间,利用聚类的方法获得若干个子空间,根据最大最小距离获得其训练样本和测试集样本,包括如下步骤:
步骤1:假设所获得的原始光谱数据为XR∈Rn×p,其中n为样本个数;p为样本的维度。先将数据标准化,将原始高光谱数据集XR∈Rn×p标准化获得数据集X:
式中,为第i行原始数据集的平均值。
步骤2:采用主成分分析的方法,计算标准化数据集的相关系数矩阵R=XTX/(n-1),根据累计贡献率确定m值,计算其主成分矩阵U∈Rn×m,
步骤如下:
第一步:计算相关系数矩阵R=XTX/(n-1);
第二步:求解相关矩阵R的特征方程|R-λIp|=0获得p个特征值λ,其中单位矩阵Ip∈Rp×p,并假设特征值λ满足λ1≥λ1≥…≥λp,λ为特征值,Ip为单位矩阵,Ip∈Rp×p;
第三步:根据累计贡献率确定m值,并由如下公式解得前m特征值λ1、λ1、…、λm对应特征向量,并组成特征向量矩阵P∈Rp×m,
|R-λiIp|pi=0i=1,2,…,m,
第四步:将标准后的指标标量与第三步获得特征向量矩阵P∈Rp×m相乘,从而获得主成分矩阵U∈Rn×m
步骤3:计算联合矩阵,Y为样本的标签信息,将代表高光谱样本空间的主成分矩阵以权重矩阵M与样本标签信息Y联合,获得其联合代表空间S,其中权重矩M如下所示:
步骤4:将获得的代表联合空间S采用K均值聚类以得到聚类簇Dj j=1,2,…,k
K均值聚类以欧式聚类作为相似度测度,根据数据点到原型距离作为优化目标函数,采用误差平方和作为聚类准则函数。准则函数最小时,收敛于最优分类。
假设类别为k类,C为聚类中心集合,并有k个聚类中心cj∈C j=1,2,…,k以及聚类簇Dj j=1,2,…,k;其中代表每个样本主成分矩阵si∈S i=1,2,…n;
具体步骤包括:
第一步:随机选取k个初始聚类中心cj;
第二步:逐个计算样本si与聚类中心cj的距离。若与聚类中心cj距离最近,则将其归到聚类簇Dj中
第三步:重新计算聚类簇Dj的聚类中心
式中d为聚类簇Dj所含样本数目,sk为依次加入到聚类簇Dj的样本。
第四步:不断执行步骤二和步骤三,直到聚类中心趋于稳定,即通过迭代更新k个聚类中心使目标函数F取得最小值,其目标函数如下式所示:
第五步:从聚类簇Dj j=1,2,…,k中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。
步骤5:根据最大最小距离原理,即可得到训练样本集合与测试样本集合。
首先选取两个距离最远的点加入训练集合中,然后在计算剩下每个样本与训练集合中每个样本之间的距离,对每个训练集合中样本取最大的最大距离的样本作为候选样本,在若干个候选样本中选择距离最短的加入训练集合中,依次类推,可以得到指定数目的训练样本集合,剩余样本作为测试集。
实施例:
将样本置于石英透明小杯中,本实施例中选取的是发酵的葡萄酒,立即进行光谱采集,进行共512次扫描,扫描速率为10kHz,光谱分辨率6cm-1,扫描范围4000-400cm-1,重复测定3次,取其平均,40个样本的原始拉曼光谱XR∈Rn×p
采取如下步骤:
步骤一:数据标准化,将原始高光谱数据集Y标准化获得数据集X
步骤二:采用主成分分析的方法,计算其相关系数矩阵R=XTX/(n-1),根据累计贡献率确定m值,计算其主成分矩阵U∈Rn×m
步骤三:计算联合矩阵,Y为样本的标签信息,将代表高光谱样本空间的主成分矩阵以权重矩阵M与样本标签信息Y联合,获得其联合代表空间S,其中M矩阵如下所示:
步骤四:将获得的联合空间S采用K均值聚类以得到聚类簇Dj j=1,2,…,k
步骤五:根据最大最小距离原理,即可得到训练样本集合与测试样本集合。
步骤六:采用BP神经网络建立定量分析模型。
所建立拉曼光谱定量分析模型性能的好坏决定于该模型的准确度以及稳健性,本实施例以训练集均方根RMSEC、预测集均方根误差RMSEP及预测集相对分析误差RPD来评价拉曼光谱所建立模型性能。|RMSEP-RMSEC|值相差越大,模型稳健性越差;RPD越高,模型准确度越高,
分别采用RS法、KS法、SPXY法及KM法四种样本选择方法来进行对比试验。葡萄酒酵过程中共有40个样本,按照3:1的比例选择训练集和预测集,然后分别对它们得到的模型进行评价,得到的结果见表1。
表1
结果表明,在相同预处理(多元散射校正)条件下,本实施例提出的方法在RPD方面明显优于其他校正集选择方法,|RMSEP-RMSEP|值最小。综合分析,基于KM算法所建立的模型具有很好的准确度和稳健性,其所选样本具有很强的代表性。
MultiRAM傅里叶变换拉曼光谱仪(BrukerOptics,Germany)配有室温InGaAs检测器、性能液氮冷却的Ge检测器、标准Nd:YAG(1064nm)激光器和PUS 7.0(Bruker Optics,Germany)软件程序。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。