一种基于降维与聚类的高光谱样本选择方法与流程

文档序号：12468871阅读：258来源：国知局

本发明涉及拉曼光谱定量分析领域，具体地来讲为一种基于聚类的高光谱样本选择方法。

背景技术：

拉曼光谱样本选择方法是利用高光谱空间信息来获得模型训练所需的训练样本集和测试样本集，从而使得模型具有较好的精度和稳定性。目前有以下几种常用样本选择算法：随机选择法Random Sampling(RS)、Kennard-Stone(KS)、Sample set partitioning based on joint x-y distance(SPXY)等方法。随机选择法较为通用，但稳定性较差，可能出现较大的建模精度波动；KS则是基于样本间欧式距离，采用最大最小距离选择样本，在一定程度上可以有效地解决稳定性问题，但是其对奇异值非常敏感，而且样本空间分布不均匀；SPXY在KS的基础上等权重加入样本标签信息，并没有解决其存在的问题。

技术实现要素：

本发明所要解决的技术问题在于提供一种基于降维与聚类的高光谱样本选择方法，以解决稳定性差以及样本空间分布不均匀的问题。

一种基于降维与聚类的高光谱样本选择方法，包括如下步骤：

一种基于降维与聚类的高光谱样本选择方法，该方法包括：

步骤1，将原始高光谱数据集标准化处理为标准化数据集；

步骤2，计对标准化数据集降维得到联合代表空间；

步骤3，将获得的联合代表空间聚类得到聚类簇；

步骤4，从聚类簇中按最大最小距离选取样本组成训练集，其余剩下的样本组成测试集。

进一步地，所述步骤3中，以欧式聚类作为相似度测度，根据数据点到原型距离作为优化目标函数，采用误差平方和作为聚类准则函数。

进一步地，所述步骤2中包括：

采用主成分分析的方法，计算标准化数据集的相关系数矩阵，根据累计贡献率确定m值，计算标准化数据集的主成分矩阵；

将代表高光谱样本空间的主成分矩阵以权重矩阵与样本标签信息联合，获得联合代表空间。

进一步地，所述步骤2中采用主成分分析的方法，计算标准化数据集的相关系数矩阵，根据累计贡献率确定m值，计算标准化数据集的主成分矩阵包括：

计算相关系数矩阵R＝X^TX/(n-1)，求解相关系数矩阵R的特征方程|R-λI_p|＝0获得p个特征值；其中X为标准化数据集，n为样本个数。

进一步地，步骤2中，权重矩阵如下所示：

Y为样本标签信息，U为主成分矩阵，M为权重矩阵，S为联合代表空间。

进一步地，步骤3聚类包括：

第一步：随机选取k个初始聚类中心c_j；

第二步：逐个计算样本s_i与聚类中心c_j的距离，若与聚类中心c_j距离最近，则将其归到聚类簇D_j中

第三步：重新计算聚类簇D_j的聚类中心

式中d为聚类簇D_j所含样本数目，s_k为依次加入到聚类簇D_j的样本；

第四步：不断执行步骤二和步骤三，直到聚类中心趋于稳定，通过迭代更新k个聚类中心使目标函数F取得最小值，其目标函数如下式所示：

进一步地，步骤1包括：

将原始高光谱数据集X^R∈R^n×p标准化获得数据集X

其中，其中n为样本个数；p为样本的维度，为第i行数据集的平均值。

本发明与现有技术相比，有益效果在于，本发明能够根据实际情况权衡样本光谱空间与样本标签之间的权重，经选择得到训练集与测试集在样本空间中均匀分布，对奇异值不敏感，具有较强代表性，且相比于先前方法建模精度与稳定性显著提高。

附图说明

图1为本发明实施例提供的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明基于降维获取代表高光谱的低维信息空间，利用聚类的方法获得若干个子空间，根据最大最小距离获得其训练样本和测试集样本，包括如下步骤：

步骤1：假设所获得的原始光谱数据为X^R∈R^n×p，其中n为样本个数；p为样本的维度。先将数据标准化，将原始高光谱数据集X^R∈R^n×p标准化获得数据集X：

式中，为第i行原始数据集的平均值。

步骤2：采用主成分分析的方法，计算标准化数据集的相关系数矩阵R＝X^TX/(n-1)，根据累计贡献率确定m值，计算其主成分矩阵U∈R^n×m，

步骤如下：

第一步：计算相关系数矩阵R＝X^TX/(n-1)；

第二步：求解相关矩阵R的特征方程|R-λI_p|＝0获得p个特征值λ，其中单位矩阵I_p∈R^p×p，并假设特征值λ满足λ₁≥λ₁≥…≥λ_p，λ为特征值，I_p为单位矩阵，I_p∈R^p×p；

第三步：根据累计贡献率确定m值,并由如下公式解得前m特征值λ₁、λ₁、…、λ_m对应特征向量，并组成特征向量矩阵P∈R^p×m，

|R-λ_iI_p|p_i＝0i＝1,2,…,m，

第四步：将标准后的指标标量与第三步获得特征向量矩阵P∈R^p×m相乘，从而获得主成分矩阵U∈R^n×m

步骤3：计算联合矩阵，Y为样本的标签信息，将代表高光谱样本空间的主成分矩阵以权重矩阵M与样本标签信息Y联合，获得其联合代表空间S，其中权重矩M如下所示：

步骤4：将获得的代表联合空间S采用K均值聚类以得到聚类簇D_j j＝1,2,…,k

K均值聚类以欧式聚类作为相似度测度，根据数据点到原型距离作为优化目标函数，采用误差平方和作为聚类准则函数。准则函数最小时，收敛于最优分类。

假设类别为k类，C为聚类中心集合，并有k个聚类中心c_j∈C j＝1,2,…,k以及聚类簇D_j j＝1,2,…,k；其中代表每个样本主成分矩阵s_i∈S i＝1,2,…n；

具体步骤包括：

第一步：随机选取k个初始聚类中心c_j；

第二步：逐个计算样本s_i与聚类中心c_j的距离。若与聚类中心c_j距离最近，则将其归到聚类簇D_j中

第三步：重新计算聚类簇D_j的聚类中心

式中d为聚类簇D_j所含样本数目，s_k为依次加入到聚类簇D_j的样本。

第四步：不断执行步骤二和步骤三，直到聚类中心趋于稳定，即通过迭代更新k个聚类中心使目标函数F取得最小值，其目标函数如下式所示：

第五步：从聚类簇D_j j＝1,2,…,k中按最大最小距离选取样本组成训练集，其余剩下的样本组成测试集。

步骤5：根据最大最小距离原理，即可得到训练样本集合与测试样本集合。

首先选取两个距离最远的点加入训练集合中，然后在计算剩下每个样本与训练集合中每个样本之间的距离，对每个训练集合中样本取最大的最大距离的样本作为候选样本，在若干个候选样本中选择距离最短的加入训练集合中，依次类推，可以得到指定数目的训练样本集合，剩余样本作为测试集。

实施例：

将样本置于石英透明小杯中，本实施例中选取的是发酵的葡萄酒，立即进行光谱采集，进行共512次扫描，扫描速率为10kHz，光谱分辨率6cm^-1，扫描范围4000-400cm^-1，重复测定3次，取其平均，40个样本的原始拉曼光谱X^R∈R^n×p

采取如下步骤：

步骤一：数据标准化，将原始高光谱数据集Y标准化获得数据集X

步骤二：采用主成分分析的方法，计算其相关系数矩阵R＝X^TX/(n-1)，根据累计贡献率确定m值，计算其主成分矩阵U∈R^n×m

步骤三：计算联合矩阵，Y为样本的标签信息，将代表高光谱样本空间的主成分矩阵以权重矩阵M与样本标签信息Y联合，获得其联合代表空间S，其中M矩阵如下所示：

步骤四：将获得的联合空间S采用K均值聚类以得到聚类簇D_j j＝1,2,…,k

步骤五：根据最大最小距离原理，即可得到训练样本集合与测试样本集合。

步骤六：采用BP神经网络建立定量分析模型。

所建立拉曼光谱定量分析模型性能的好坏决定于该模型的准确度以及稳健性，本实施例以训练集均方根RMSEC、预测集均方根误差RMSEP及预测集相对分析误差RPD来评价拉曼光谱所建立模型性能。|RMSEP-RMSEC|值相差越大，模型稳健性越差；RPD越高，模型准确度越高，

分别采用RS法、KS法、SPXY法及KM法四种样本选择方法来进行对比试验。葡萄酒酵过程中共有40个样本，按照3:1的比例选择训练集和预测集，然后分别对它们得到的模型进行评价，得到的结果见表1。

表1

结果表明，在相同预处理(多元散射校正)条件下，本实施例提出的方法在RPD方面明显优于其他校正集选择方法，|RMSEP-RMSEP|值最小。综合分析，基于KM算法所建立的模型具有很好的准确度和稳健性，其所选样本具有很强的代表性。

MultiRAM傅里叶变换拉曼光谱仪(BrukerOptics，Germany)配有室温InGaAs检测器、性能液氮冷却的Ge检测器、标准Nd:YAG(1064nm)激光器和PUS 7.0(Bruker Optics,Germany)软件程序。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王巧云;郑念祖;马振鹤
技术所有人：东北大学
我是此专利的发明人

上一篇：一种学术异构信息网络中作者合作关系预测的方法与流程
上一篇：输入信息确定方法和设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。