结合径向基函数和核主成分分析的太赫兹光谱识别方法与流程

文档序号:16857031发布日期:2019-02-12 23:26阅读:378来源:国知局
结合径向基函数和核主成分分析的太赫兹光谱识别方法与流程

本发明涉及物质识别领域,更具体地,涉及一种结合径向基函数和核主成分分析的太赫兹光谱识别方法。



背景技术:

物质的太赫兹光谱主要是由物质分子间和分子内的振动和转动模式决定的。物质在一定的太赫兹频段内有时会表现出明显的吸收特性,而其余频段则没有这种明显的吸收特性。因此物质的太赫兹光谱的各个数据变量之间存在一定的相关性,存在大量的冗余信息。现有运用广泛的主成分分析技术主要是通过降维的思想,在尽量减少信息损失的情况下,将原始数据通过数学转换得到少数几个带有统计意义的特征。用少量特征代表物质的太赫兹光谱能够更迅速有效地进行物质识别。但是,主成分分析方法并不适用于线性不可分的太赫兹光谱集,因为主成分分析是将数据集从高维投影到低维,用少数几个特征代表太赫兹光谱信息,而线性不可分的情况下,主成分分析提取得到的特征不具有代表性,导致分类时出现误判的情况。



技术实现要素:

本发明为克服上述现有技术所述的提取出来的特征可区分性不够强的缺陷,提供一种结合径向基函数和核主成分分析的太赫兹光谱识别方法。

本发明旨在至少在一定程度上解决上述技术问题。

为解决上述技术问题,本发明的技术方案如下:一种结合径向基函数和核主成分分析的太赫兹光谱识别方法,其步骤包括:

s1:将待测物质进行制样处理,得到待测样品;

s2:设置太赫兹时域谱系统的测量参数,将待测样品放进太赫兹时域光谱系统中得到待测样品的太赫兹光谱;

s3:对待测样品的太赫兹光谱采用滑动平均滤波法进行去躁处理;

s4:将去噪处理后的太赫兹光谱使用径向基函数映射;

其径向基函数的计算公式为:

式中,xc表示径向基函数的中心;σ表示径向基函数的宽度参数,用于控制函数的作用范围;x表示待测物质的太赫兹光谱数据;

s5:对径向基函数映射后的太赫兹光谱使用核主成分分析进行降维处理;

s6:将降维处理后得到的特征输入经过训练的支持向量机进行分类得到待测物质识别结果。

本发明提出了结合径向基函数和核主成分分析的方法进行太赫兹光谱特征提取,通过对待测物质进行制样处理,再将制样处理后的待测物质样品放进太赫兹时域光谱系统中得到待测样品的太赫兹光谱,采用滑动平均滤波法对待测物质的太赫兹光谱进行去躁处理,再使用径向基函数映射,最后利用核主成分分析进行降维处理得到特征,并将特征输入到经过训练的支持向量机进行分类得到物质识别结果。

优选地,若待测物质是固体,步骤s1的具体步骤为:

s11:把待测物质放进玛瑙制作的研钵中研磨;

s12:将研磨过后的粉末状颗粒使用震动筛进行过滤,获得粉末状待测物质;

s13:将粉末状待测物质放进压片模具中,使用压片机施加2-6吨压力,并保持1分钟,最终得到该待测物质的压片,完成制样过程。

优选地,若待测物质是液体,步骤s1的具体步骤为:将待测物质放进液体池中,调整好液体液面,完成制样过程。

优选地,若待测物质是气体,步骤s1的具体步骤为:则将气体充进气体容器中即可。

优选地,步骤s2中的测量环境其相对湿度维持在低于8%,温度维持或者低于20摄氏度。

优选地,步骤s2中的测量参数包括待测样品厚度、测量范围、分辨率、扫描次数。

优选地,步骤s2中将制样处理后的待测物质样品放进太赫兹时域光谱系统中得到待测样品的太赫兹光谱的具体过程为:对待测物质进行若干次测量,并去掉偏差较大的太赫兹光谱,将其余太赫兹光谱取其平均值作为待测样品的太赫兹光谱。

优选地,步骤s3的具体步骤如下:

s31:设置滑动平均滤波窗口的大小为n;

s32:将待测物质的太赫兹光谱的n个采样值所在的窗口看做是一个队列,以步幅为1,不断向前滑动窗口,每滑动1次,将新进来的数据放在窗口尾部,原来窗口首部数据离开窗口;

s33:取窗口中n个数值的算术平均值作为窗口首部数据的测量值;滑动窗口平均滤波法的计算公式如下:

其中,式中,x(i)为第i个太赫兹光谱数值,y(n)为窗口内滤波后得到的第n个测量值,n为滑动滤波窗口的宽度。

优选地,步骤s5的具体步骤为:

s51:对于给定的n维n个经过映射的太赫兹时域光谱数据集x={x1,x2,x3,…,xn},其中xi∈rn(i=1,2,3,4,…,n),将其映射到特征空间,得到φ(x),则在特征空间中的的协方差矩阵表示为:

c=φ(x)φ(x)t

s52:在特征空间中进行主成分分析降维,可得到:

φ(x)φ(x)tw=λw

其中,w是特征空间中的特征向量,λ是特征向量对应的特征值;

s53:对于任意第j个特征向量wj(j=1,2,3,…,n),λi是对应的特征值,则有:

∑(φ(xi)φ(xi)t)wj=λiwj

s54:令则有wj=∑αφ(xi),

φ(x)φ(x)tφ(x)α=λiφ(x)α

φ(x)tφ(x)φ(x)tφ(x)α=λiφ(x)tφ(x)α

s55:令核方法k=φ(x)tφ(x)

k2=λikα

化简,可得k=λiα

将太赫兹光谱数据代入k=λiα即可降维得到降维后的特征。

优选地,核主成分分析方法中,核函数选取高斯核函数。

与现有技术相比,本发明技术方案的有益效果是:本发明通过使用滑动平均滤波法能够滤除随机干扰,平滑度较高,计算量较少,能够满足实际应用中的实时性要求;其次通过使用径向基函数对去噪后的太赫兹光谱数据进行映射,太赫兹光谱可区分性更好;采用核主成分分析能够消除太赫兹光谱数据间存在的冗余性和共线性,提取出来的特征分类效果更好。

附图说明

图1为本发明实施流程图。

图2为本发明实施例滤波后太赫兹吸光度谱图。

图3为本发明实施例使用径向基函数映射后太赫兹吸光度谱图。

图4为本发明实施例使用核主成分分析提取特征效果图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的一种结合径向基函数和核主成分分析的太赫兹光谱识别方法的流程图,其具体步骤包括:

s1:将待测物质进行制样处理;

s11:若待测物质是固体,则把待测物质放进玛瑙制作的研钵中研磨;

s12:将研磨过后的粉末状颗粒使用震动筛进行过滤,获得粉末状待测物质;

s13:将粉末状待测物质放进压片模具中,使用压片机施加2-6吨压力,并保持1分钟,最终得到厚度大约为2mm的固体待测物质的压片,完成制样过程。

s14:若待测物质是液体,则将待测物质放进液体池中,调整好液体液面,完成制样过程。

s15:若待测物质是气体,则将气体充进气体容器中即可。

s2:设置太赫兹时域谱系统的测量参数,将制样处理后的待测物质样品放进太赫兹时域光谱系统中得到待测样品的太赫兹光谱;在测量时,需要保证太赫兹时域光谱系统测量空间内的相对湿度维持在低于8%,温度维持或者低于20摄氏度;根据测量时的条件,设置太赫兹时域谱系统的测量参数,包括待测样品厚度、测量范围、分辨率、扫描次数等。

在具体实施过程中,将得到的待测物质样品放进太赫兹时域光谱系统中,通过多次重复测量,去掉偏差较大的太赫兹光谱,将其余正常的太赫兹光谱取其平均值作为待测样品的太赫兹光谱。

s3:对待测物质的太赫兹光谱采用滑动平均滤波法进行去躁处理;

s31:设置滑动平均滤波窗口的大小为n;

s32:将待测物质的太赫兹光谱的n个采样值所在的窗口看做是一个队列,以步幅为1,不断向前滑动窗口,每滑动1次,将新进来的数据放在窗口尾部,原来窗口首部数据离开窗口;

s33:取窗口中n个数值的算术平均值作为窗口首部数据的测量值;滑动窗口平均滤波法的计算公式如下:

其中,x(i)为第i个太赫兹光谱数值,y(n)为窗口内滤波后得到的第n个测量值,n为滑动滤波窗口的宽度。

s4:将去噪处理后的太赫兹光谱使用径向基函数映射;使用径向基函数将待测样品的太赫兹光谱进行映射后,可以达到将线性不可分的数据变得成为线性可分,从而可以使用支持向量机等分类器进行物质识别。

其径向基函数的计算公式为:

式中,xc表示径向基函数的中心;σ表示径向基函数的宽度参数,控制函数的作用范围;x表示待测物质的太赫兹光谱数据;

s5:对径向基函数映射后的太赫兹光谱使用核主成分分析进行降维处理;

s51:对于给定的n维n个经过映射的太赫兹时域光谱数据集x={x1,x2,x3,…,xn},其中xi∈rn(i=1,2,3,4,…,n),将其映射到特征空间,得到φ(x),则在特征空间中的的协方差矩阵表示为:

c=φ(x)φ(x)t

s52:在特征空间中进行主成分分析降维,可得到:

φ(x)φ(x)tw=λw

其中,w是特征空间中的特征向量,λ是特征向量对应的特征值;

s53:对于任意第j个特征向量wj(j=1,2,3,…,n),λi是对应的特征值,则有:

∑(φ(xi)φ(xi)t)wj=λiwj

s54:令则有wj=∑αφ(xi),

φ(x)φ(x)tφ(x)α=λiφ(x)α

φ(x)tφ(x)φ(x)tφ(x)α=λiφ(x)tφ(x)α

s55:令核方法k=φ(x)tφ(x)

k2=λikα

化简,可得k=λiα

将太赫兹光谱数据代入k=λiα即可降维得到降维后的特征。

s6:将降维处理后得到的特征输入经过训练的支持向量机进行分类得到物质识别结果。

在具体实施过程中,将植物油作为取样样本,其具体实施过程如下:

step1:首先将3种植物油取样,放进特制的太赫兹光谱液体池中。液体的厚度为6mm。制作完成的样本没有气泡,液面水平。

step2:将待测物质样品放进太赫兹时域光谱系统中测量获得待测物质的太赫兹时域光谱。本实施例使用的是爱德万公司生产的太赫兹时域光谱系统。首先,启动太赫兹时域光谱系统,使用空压机抽取空气,将空气通过干燥过滤单元,然后向太赫兹时域光谱系统源源不断充入干燥空气,直至太赫兹时域光谱系统测量空间内的相对湿度降至8%以下。检查太赫兹光谱系统测量空间内温度,如果温度过高,可以使用风扇或者空调等设备适当降温,使其维持或者低于20摄氏度。太赫兹时域光谱系统参数设置如表1所示。

表1实验系统参数设置表

step3:使用滑动窗口平均滤波算法对太赫兹光谱进行去噪处理。滑动窗口平均滤波法的计算公式如下:

式中,x(i)为第i个太赫兹光谱数值,y(n)为窗口内滤波后得到的第n个测量值,n为滑动滤波窗口的宽度。

本实施例中,窗口的宽度为10,滤波后效果图如图2所示。

step4:使用径向基函数对去噪后的太赫兹光谱进行显式映射。径向基函数的计算公式如下:

式中,xc表示径向基函数的中心;σ表示径向基函数的宽度参数,控制函数的作用范围;x表示待测物质的太赫兹光谱数据;

本实施例中,xc取值为0,σ取值为1,向基函数映射后效果如图3所示。

step5:使用核主成分分析对映射后的太赫兹光谱进行降维,提取特征。本实施例使用matlab工具箱里面的kpca降维函数进行降维,维数为3,降维后的效果图如图4所示。

step6:将本发明例中的3中植物油样本输入支持向量机中,采用5折交叉验证的方法,验证分类的效果。为了证明本发明的算法具有优越性,本实施例使用matlab对滑动窗口平均滤波后的太赫兹光谱分别用主成分分析、核主成分分析和本发明的方法进行特征提取,然后采用5折交叉验证方法计算6种不同核函数的支持向量机分类的准确率。对比结果如表2所示。

表2不同特征提取方法分类效果

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1