本发明涉及岩石分类技术领域,特别是涉及一种岩石光谱特征融合分类方法及系统。
背景技术:
在遥感地质领域,岩石光谱一直是热门研究方向之一,其主要包括成像光谱岩矿识别、岩石光谱特征分析、影响岩石光谱的因素以及岩石光谱分类。
在岩石光谱分类方面,吴辉等人基于aviris航空高光谱遥感数据,首先将预处理后的数据进行最小噪声分离,然后用ppi算法选择研究对象,最后用线性光谱混合分类模型进行岩性分类研究;张翠芬等人将岩石单元的图形纹理特征及光谱特征进行协同分类研究,用面对对象方法进行图谱指数分割,然后用光谱指数提取岩石信息,划分精度较好;徐清俊等人使用asd光谱仪测量钻孔岩心数据,利用viewspecpro软件进行格式转换,输入到envi软件里建成光谱库,与美国usgs光谱库中典型矿物光谱曲线进行对比分析,进而识别岩性得出结论;周江将asd光谱仪的光谱曲线与遥感影像通过envi软件相结合对岩石等地物进行分类,与用神经网络进行监督分类的结果相对比。
总之,该领域目前的主要问题在于要么是将数据进行一系列复杂预处理后利用传统模型进行分类,使得分类效率低;要么因为岩石光谱的特殊性,没有统一的光谱曲线标准,使得分类结果不够准确。
技术实现要素:
基于此,有必要提供一种岩石光谱特征融合分类方法及系统,以解决日常地质活动中对于部分岩石分类时存在的工作繁琐、误差大的问题,从而提高分类效率和分类的准确度。
为实现上述目的,本发明提供了如下方案:
一种岩石光谱特征融合分类方法,包括:
获取ads便携式光谱仪测得的待测岩石光谱反射率;所述待测岩石光谱反射率为类别未知的岩石的光谱反射率数据;
将所述待测岩石光谱反射率输入至训练好的融合分类模型中,得到类别未知的岩石的所属类别;所述训练好的融合分类模型是采用训练数据对融合分类模型进行训练得到的;所述融合分类模型是将支持向量机模型、k-最近邻模型和随机森林模型进行融合得到的;所述训练数据包括类别已知的岩石的光谱反射率数据和对应的类标签。
可选的,所述训练好的融合分类模型的确定方法为:
获取训练数据;
将所述训练数据按照设定比例划分为训练集和测试集;
分别构建支持向量机模型、k-最近邻模型和随机森林模型;
采用投票法将所述支持向量机模型、所述k-最近邻模型和所述随机森林模型融合,得到融合分类模型;
将所述训练集作为所述融合分类模型的输入,对所述融合分类模型进行训练,得到训练后的融合分类模型;
将所述测试集作为所述训练后的融合分类模型的输入,对所述训练后的融合分类模型进行调整,得到训练好的融合分类模型。
可选的,所述融合分类模型为:
其中,h(x)表示融合分类模型的分类结果;
可选的,所述获取训练数据,具体包括:
获取ads便携式光谱仪测得的类别已知的岩石的光谱反射率数据;
将所述类别已知的岩石的光谱反射率数据和对应的类标签确定为训练数据。
可选的,所述获取ads便携式光谱仪测得的类别已知的岩石的光谱反射率数据,具体包括:
采用白板对ads便携式光谱仪进行定标,得到定标后的ads便携式光谱仪;
在设定测试时间段、设定天空云量和设定测试场地视场角下,采用所述定标后的ads便携式光谱仪对各类别已知的岩石均进行多次光谱反射率的采集,得到各类别已知的岩石对应的多个光谱反射率;
对每个类别已知的岩石对应的多个光谱反射率求平均,得到每个类别已知的岩石的光谱反射率数据。
可选的,所述将所述训练数据按照设定比例划分为训练集和测试集,具体包括:
将所述训练数据按照0.65:0.35的比例划分为训练集和测试集。
可选的,所述采用投票法将所述支持向量机模型、所述k-最近邻模型和所述随机森林模型融合,得到融合分类模型,具体包括:
采用硬投票将所述支持向量机模型、所述k-最近邻模型和所述随机森林模型融合,得到融合分类模型。
本发明还提供了一种岩石光谱特征融合分类系统,包括:
待分类数据获取模块,用于获取ads便携式光谱仪测得的待测岩石光谱反射率;所述待测岩石光谱反射率为类别未知的岩石的光谱反射率数据;
分类模块,用于将所述待测岩石光谱反射率输入至训练好的融合分类模型中,得到类别未知的岩石的所属类别;所述训练好的融合分类模型是采用训练数据对融合分类模型进行训练得到的;所述融合分类模型是将支持向量机模型、k-最近邻模型和随机森林模型进行融合得到的;所述训练数据包括类别已知的岩石的光谱反射率数据和对应的类标签。
可选的,所述岩石光谱特征融合分类系统还包括:融合模型确定模块,用于确定模块用于确定所述训练好的融合分类模型;所述融合模型确定模块具体包括:
训练数据获取单元,用于获取训练数据;
数据划分单元,用于将所述训练数据按照设定比例划分为训练集和测试集;
单一模型构建单元,用于分别构建支持向量机模型、k-最近邻模型和随机森林模型;
融合模型构建单元,用于采用投票法将所述支持向量机模型、所述k-最近邻模型和所述随机森林模型融合,得到融合分类模型;
融合模型训练单元,用于将所述训练集作为所述融合分类模型的输入,对所述融合分类模型进行训练,得到训练后的融合分类模型;
融合模型调整单元,用于将所述测试集作为所述训练后的融合分类模型的输入,对所述训练后的融合分类模型进行调整,得到训练好的融合分类模型。
可选的,所述分类模块中的所述融合分类模型为:
其中,h(x)表示融合分类模型的分类结果;
与现有技术相比,本发明的有益效果是:
本发明提出了一种岩石光谱特征融合分类方法及系统,所述方法包括:获取ads便携式光谱仪测得的待测岩石光谱反射率;将支持向量机模型、k-最近邻模型和随机森林模型进行融合得到融合分类模型;采用训练数据对融合分类模型进行训练得到训练好的融合分类模型;将待测岩石光谱反射率输入至训练好的融合分类模型中,得到类别未知的岩石的所属类别。本发明解决了日常地质活动中对于部分岩石分类时存在的工作繁琐、误差大的问题,依靠计算机软件和asd便携式光谱仪对图像进行自动分类,能够在保证岩石分类成本低的基础上,排除个人因素和环境因素的干扰,从而提高分类效率和分类的准确度,且使用范围广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1一种岩石光谱特征融合分类方法的流程图;
图2为本发明实施例3一种岩石光谱特征融合分类系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例1一种岩石光谱特征融合分类方法的流程图。
参见图1,本实施例的岩石光谱特征融合分类方法,包括:
步骤101:获取ads便携式光谱仪测得的待测岩石光谱反射率;所述待测岩石光谱反射率为类别未知的岩石的光谱反射率数据。
步骤102:将所述待测岩石光谱反射率输入至训练好的融合分类模型中,得到类别未知的岩石的所属类别;所述训练好的融合分类模型是采用训练数据对融合分类模型进行训练得到的;所述融合分类模型是将支持向量机模型、k-最近邻模型和随机森林模型进行融合得到的;所述训练数据包括类别已知的岩石的光谱反射率数据和对应的类标签。
其中,步骤102中所述训练好的融合分类模型的确定方法为:
1)获取训练数据。具体包括:
获取ads便携式光谱仪测得的类别已知的岩石的光谱反射率数据。具体的,采用白板对ads便携式光谱仪进行定标,得到定标后的ads便携式光谱仪;在设定测试时间段、设定天空云量和设定测试场地视场角下,采用所述定标后的ads便携式光谱仪对各类别已知的岩石均进行多次光谱反射率的采集,得到各类别已知的岩石对应的多个光谱反射率;对每个类别已知的岩石对应的多个光谱反射率求平均,得到每个类别已知的岩石的光谱反射率数据。
将所述类别已知的岩石的光谱反射率数据和对应的类标签确定为训练数据。
在实际应用中,可以选定设定测试时间段为每天12:00-14:00,设定天空云量为天空云量小于10%,设定测试场地视场角为25°左右。在野外每次进行岩石光谱测试前,需要在半小时之前对ads便携式光谱仪进行开机预热和软件标准化调试,并用白板进行定标。测试时,每个类别已知的岩石(样品)测试10次求平均得到样品的反射率,最终获取ads便携式光谱仪测得的类别已知的岩石的光谱反射率数据。
2)将所述训练数据按照设定比例划分为训练集和测试集。具体的,首先将所述训练数据选择常用8:2比例划分训练集和测试集,利用分好组的数据输入模型迭代,结果准确率较低,调整划分比例,多次迭代后确定划分比例选择0.65:0.35结果准确率较好。因此,本实施例中将所述训练数据按照0.65:0.35的比例划分为训练集和测试集。
3)构建常见的单一分类模型-决策树,为了提高分类准确率,利用决策树的升级模型—随机森林(randomforest,rf),但当数据噪音较大时会使随机森林陷入过拟合,所以接下来用基于对异常值不敏感的k-最近邻(k-nearestneighbor,knn)建模,但knn需要对每个样本都考虑,当数据量大时计算量会很大,效率不高,所以通过支持向量机(supportvectormachine,svm)来提升准确率。从实验结果可以看出,在4种不同的分类模型中,准确率排序为svm>knn>随机森林>决策树。所以选择构建准确率较高的支持向量机、k-最近邻、随机森林模型三个模型融合得到融合模型。
4)采用投票法将所述支持向量机模型、所述k-最近邻模型和所述随机森林模型融合,得到融合分类模型。具体的,由于硬投票可在一定程度上减少过拟合现象的发生,更加适合分类模型,因此选择投票法中的硬投票将所述支持向量机模型、所述k-最近邻模型和所述随机森林模型融合,得到融合分类模型。
5)将所述训练集作为所述融合分类模型的输入,对所述融合分类模型进行训练,得到训练后的融合分类模型。
6)将所述测试集作为所述训练后的融合分类模型的输入,对所述训练后的融合分类模型进行调整,当分类结果大于99%时,得到训练好的融合分类模型。
其中,步骤102中所述融合分类模型为:
其中,h(x)表示融合分类模型的分类结果;
下面提供了一个更为具体的实施例。
实施例2
首先对识别原理进行介绍。
1、决策树模型
决策树(decisiontree,dt)是一个自上而下构建的树形模型,包括根节点、父节点和子节点,一个分支就代表一个测试输出。本实施例采用了决策树模型中的cart算法,相比传统数学统计方法分类更准确,且数据量越大越容易显现其优越性。cart算法通过计算基尼系数来评判数据划分前后的分类效果,基尼系数越小证明数据纯度越高;所以选择能使分类后得到的基尼系数最小的特征,将其作为树中节点。采用cart决策树对三类岩石光谱数据的训练集建模,然后用测试集检验分类效果。将树的深度设置为10;节点划分最不小纯度设置为0.02;节点再划分所需最小样本数设为2。
2、随机森林模型
为提高分类准确率,又选取了决策树的升级模型——随机森林(randomforest,rf),它是基于bagging策略的集成学习,通过多棵树对数据样本分类。其包含两个随机过程:一是输入数据随机;二是分类特征随机选取。这样就得到了多颗cart决策树弱分类器,再将多个分类器采取投票法的策略,投出票数最多的作为最终结果。rf的参数也分为两部分:一是随机森林的bagging框架参数,其中cart决策树的最大迭代次数设置为1000,划分cart决策树特征的评价标准选用基尼系数;二是决策树参数,深度25,划分最大特征数为45,节点再划分所需最小样本数设为2。
3、k-最近邻模型
随机森林模型在数据噪音较大时易陷入过拟合,且数据特征过多时也会对模型准确率造成较大影响。而k-最近邻模型(k-nearestneighbor,knn)依据不同特征值间的距离进行分类,不存在训练过程,只是将最近的划分为一类。先将数据标准化;然后算出输入的数据与测试集的数据的距离,本次实验采取的计算距离方法为闵可夫斯基距离;找出距离最近的k个,这里k设置为1;将出现最多的类别作为输入数据的类别。但knn需要对每个样本都予以考虑,当数据量大时计算量会很大,效率不高。
3、支持向量机模型
支持向量机模型(supportvectormachine,svm)是通过在数据间找到距离最大处来工作的,而数据是否线性可分决定着是用硬间隔最大化还是软间隔最大化。由于岩石光谱数据非线性可分,因而将数据映射到新空间,使之线性可分。核函数选高斯核函数;惩罚系数设为10;gamma值设定为1。
4、多种模型相融合
为进一步提高岩石光谱特征自动分类的准确率,采取了融合多个不同模型的办法,即对不同模型的分类结果进行投票,选择投票最多的作为最后分类结果。在此基础上又分为硬投票和软投票,硬投票是直接对模型投票而软投票加入了权重,可以区分不同模型的重要度,但二者的基本原则都是少数服从多数。由于硬投票可在一定程度上减少过拟合现象的发生,更加适合分类模型,所以选用硬投票方法。
基于以上原理,本实施例提供的岩石光谱特征融合分类方法主要包括以下步骤。
步骤一:数据采集。
测定时间为每天12:00-14:00,天空云量小于10%,测试场地的视场角为25°左右。在野外每次进行岩石光谱测试前,需要在半小时之前对仪器进行开机预热和软件标准化调试,并用白板进行定标。测试时,每个样品测试10次求平均得到样品的反射率。对每个测试点进行gps经纬度定位,同时用相机拍摄采样环境和样品特征。在野外记录本上详细记录采样岩石的命名、经纬度、地质背景以及环境情况等信息。
样本集(yij)608*2500,y表示反射率,波长x也就是特征点从0到2500,共有608组数据。
步骤二:基于融合学习模型的训练。
以0.65:0.35的比例将岩石光谱分为训练集和测试集。
测试集d=(y1j,ct),(y2j,ct),……,(y395j,ct)。
j=1,2,……2500,t=1,2,3,ct代表所属类别,本实施例将数据共分为三类,c1表示属于第一类,c2表示属于第二类,c3表示属于第三类。
a.决策树
1、训练数据集为d,计算每一个特征x对其可能取得的每一个y,根据此值将训练样本分为d1,d2。计算xj=yij时的基尼指数(i=1,2,……,395,j=1,2,……2500)。
其中,j为类的个数,pj为样本属于第j类的概率。
2、选择基尼指数最小的特征点xj作为最优特征及切分点。
3、对两个子节点递归调用1、2步,直到树的深度到达10或基尼系数小于0.02或内部节点样本数小于2。
4、停止计算,决策树生成。
b.随机森林
1、在395个样本的数据集中,有放回抽样选择395个样本构成中间数据集,在中间数据集中随机选择45个特征作为最终数据集,以上述方式构成1000个最终数据集d’。
2、为每个最终数据集分别建立完全分裂的cart决策树,构建过程见上文。
3、根据分类决策规则,计算新数据的类别。
上式中,i为指示函数,表示当ci=ct时,i为1,否则i为0;ci表示1000颗cart决策树的输出类别。
c.k-最近邻
1、根据测试集中给定数据点x的距离度量(这里为闵可夫斯基距离)在训练集中找出与之最近的一个数据点y。距离计算公式如下:
其中,n=2500,xn和yn分别表示数据点x和数据点y的第n个反射率;p取4。
2、将与数据点x距离最近的数据点y的类别ct作为数据点x的类别。
d.支持向量机
1、超平面方程与分类间隔
ωtx+γ=0
ω=[ω1,ω2,......ωn]t,x=[x1,x2,......xn]t
x表示样本点,n表示n维空间的超平面,向量ω表示垂直于超平面的向量,标量γ仍表示截距。d表示样本点到超平面也就是决策面的距离,w表示分类间隔。
此时,问题就变成了求解w最大化。
2、对于任意支持向量上的样本点(支持向量也称作支持样本点,表示使w最大的样本点),有|ωtxi+γ|=1,有
3、最终目标函数和约束条件
yi为类别标签,n表示样本点个数,s.t.表示subjectto(服从与)。
4、构造拉格朗日目标函数
其中αi是拉格朗日乘子,αi≥0。令
利用对偶性:
5、首先固定α,分别对w和b求偏导数,使其为0。
代回目标函数有:
s.t.αi≥0,i=1,2,......n
此时只有一个变量αi,超平面方程变为
对于线性不可分数据,将数据映射到特征空间,有
计算内积引入高斯核函数
通过对偶问题的转化将最开始求w,b的问题转化为求α的问题。只要能找到所有的α,就能求出w、b,然后就可通过计算距离而判断该点类别。
e.融合模型
将分类准确率较高的三种模型支持向量机、随机森林、k最近邻形成融合模型。使用投票法中的硬投票来进行模型融合,公式如下:
其中,h(x)表示融合分类模型的分类结果;
最后,利用测试集数据进行测试准确率。训练完毕后,将测试集作为参数输入到上述训练后的融合模型中,研究其输出结果的正确率。例如,输入花岗岩的测试数据,观察其输出是否为花岗岩。如果准确率低,则重复训练与测试。
步骤三:将数据输入到训练好的融合学习模型中,实现岩石分类。
实施例3
本实施例提供了一种岩石光谱特征融合分类系统,图2为本发明实施例3一种岩石光谱特征融合分类系统的结构示意图。
参见图2,本实施例的岩石光谱特征融合分类系统包括:
待分类数据获取模块201,用于获取ads便携式光谱仪测得的待测岩石光谱反射率;所述待测岩石光谱反射率为类别未知的岩石的光谱反射率数据。
分类模块202,用于将所述待测岩石光谱反射率输入至训练好的融合分类模型中,得到类别未知的岩石的所属类别;所述训练好的融合分类模型是采用训练数据对融合分类模型进行训练得到的;所述融合分类模型是将支持向量机模型、k-最近邻模型和随机森林模型进行融合得到的;所述训练数据包括类别已知的岩石的光谱反射率数据和对应的类标签。
作为一种可选的实施方式,所述岩石光谱特征融合分类系统还包括:融合模型确定模块,用于确定模块用于确定所述训练好的融合分类模型;所述融合模型确定模块具体包括:
训练数据获取单元,用于获取训练数据。
数据划分单元,用于将所述训练数据按照设定比例划分为训练集和测试集。
单一模型构建单元,用于分别构建支持向量机模型、k-最近邻模型和随机森林模型。
融合模型构建单元,用于采用投票法将所述支持向量机模型、所述k-最近邻模型和所述随机森林模型融合,得到融合分类模型。
融合模型训练单元,用于将所述训练集作为所述融合分类模型的输入,对所述融合分类模型进行训练,得到训练后的融合分类模型。
融合模型调整单元,用于将所述测试集作为所述训练后的融合分类模型的输入,对所述训练后的融合分类模型进行调整,得到训练好的融合分类模型。
作为一种可选的实施方式,所述分类模块中的所述融合分类模型为:
其中,h(x)表示融合分类模型的分类结果;
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。