一种拉曼光谱多元数据分析方法

文档序号:24830925发布日期:2021-04-27 17:50阅读:275来源:国知局
一种拉曼光谱多元数据分析方法

1.本发明涉及拉曼光谱信息处理及其光谱特征计算机识别领域,特别是涉及一种拉曼光谱多元数据分析方法。


背景技术:

2.拉曼光谱是基于光和材料内化学键的相互作用而产生的,是一种无损的分析技术可以获得样品的化学结构、相和形态、结晶度以及分子相互作用的详细信息。利用拉曼光谱还可以把处于红外区的分子能谱转移到可见光区来进行检测。因此拉曼光谱作为红外光谱的补充,是研究分子物质结构的一种强有力武器。随着科学技术的发展进步,拉曼光谱技术在石油、化工、材料、生物、环保、地质等多个领域得到应用,为各行业的发展提供了更多的分子结构方面的信息。
3.目前,拉曼光谱技术已经发展成为分析科学领域基础与应用科学研究中最为重要的技术之一。因其具有分子敏感性、易于实施以及水环境适用性等技术特征,拉曼光谱分析技术也已被广泛应用于其他多学科研究领域。此外,最新的发展已经将拉曼散射的化学敏感性和特异性与共焦显微镜的高空间分辨率结合起来,重构产生样品生化构成的图像信息。尽管如此,拉曼光谱分析技术及其相关分析技术的广泛应用,也还受到一些技术难点的制约。首先,拉曼散射为一种微弱的光学现象,其所产生的光谱信息(即拉曼光谱)极易受环境及外界因素的干扰;其次,在复杂的生化环境或其他体系内,不同种类的生物大分子含有类似的生化构成,从而导致其拉曼光谱出现谱峰位置交叠、谱峰强度不均及谱峰宽度(半高宽)延展的现象。
4.基于以上背景,提出一种拉曼光谱多元数据分析方法,在实现不同种类样品原始拉曼光谱预处理的基础上,运用特征提取和分类鉴别多元数据分析方法,实现不同材料光谱特征信息的提取与判定。


技术实现要素:

5.本发明的目的是提供一种拉曼光谱多元数据分析方法及软件系统,应用于各类有机与无机材料的拉曼光谱与光谱数据集预处理与多元分析。根据拉曼光谱数据集结合pca,pls

da算法对样品光谱进行特征提取,而后结合lda,pls

da,svm,pca

svm算法对样品特征判别分析。
6.为实现上述目的,本发明提供了如下方案:
7.一种拉曼光谱多元数据分析方法,包括以下步骤:
8.s1、利用拉曼光谱检测仪器,测量得到各类有机与无机材料的原始拉曼光谱与光谱数据集;
9.s2、使用拉曼光谱多元数据分析软件系统对得到的拉曼光谱数据集进行预处理;
10.s3、对所述得到的拉曼光谱数据集进行预处理后,对所述拉曼光谱数据进行归一化和均值中心化处理;
11.s4、采用主成分分析法pca或偏最小二乘

判别分析法pls

da提取拉曼光谱特征数据,分别利用单因素方差分析和交叉验证提取所述拉曼光谱数据中显著特征成分;
12.s5、结合分类模型,对所述步骤s4中提取的特征分别建立并利用四种分类模型,进行光谱信息分类鉴别;
13.s6、使用无偏留一法交叉验证,评估所述分类模型的可靠性;
14.s7、选取剩余数据进行测试,得到样本分类的准确率、敏感性、特异性、以及所述分类模型的受试工作者特征曲线,并对分类模型性能进行评估。
15.优选地,所述步骤s2中,预处理主要包括:对光谱特征范围选择、去宇宙射线、基于多项式拟合方法的背景荧光信号处理和基于savitzky

golay卷积方法的光谱平滑处理。
16.优选地,所述步骤s3中,在预处理的基础上,根据需求选择光谱强度归一化、谱峰面积归一化、峰强归一化和均值中心化处理。
17.优选地,所述步骤s4中的主成分分析法pca的过程为:
18.通过正交变换将一组线性相关变量转换成线性无关变量,降低光谱数据集的维度,同时提取数据集中显著的特征j;根据观测样本数i及光谱特征数j构建样本数据集x(i
×
j),对样本数据集进行谱峰面积归一化和均值中心化处理,然后获得协方差矩阵x
t
x;对所述协方差矩阵进行奇异值分解,得到x=pδq
t
,其中,p是左奇异矢量,q是右奇异矢量,δ是奇异值的对角矩阵;
19.f=pδ,f=pδ=pδq
t
q=xq,矩阵q给出了用于计算因子得分的线性组合的系数,因此也称为投影矩阵,用x乘以q得到了主成分上观测值的投影值f。
20.优选地,所述步骤s5中的四种分类模型包括:基于线性判别分析方法lda、偏最小二乘

判别分析方法pls

da、支持向量机svm和主成分分析结合支持向量机pca

svm算法建立的分类模型。
21.优选地,在所述步骤s7中选取剩余数据进行测试,得到所述各分类模型性能指标的受试工作者特征曲线roc,结合所述步骤s5

s7对所述拉曼光谱数据及生化差异进行分析。
22.优选地,所述roc曲线为受试者工作特征曲线,能够反映光谱分类模型灵敏度和特异性;所述roc曲线通过连续改变分类阈值从而计算出一系列灵敏度和特异性,再以灵敏度为纵坐标、1

特异性为横坐标绘制成roc曲线,曲线下面积越大,分类模型的预测准确性越高。
23.本发明的有益效果为:
24.1、本发明具有完善的拉曼光谱数据集预处理功能,能够对采集的单个拉曼光谱或光谱数据集进行光谱特征范围选择,去除宇宙射线,基于多项式拟合方法的背景荧光信号处理和基于savitzky

golay卷积的光谱平滑处理,以及根据需求选择进行归一化(光谱强度归一化,谱峰面积归一化,峰强归一化)与均值中心化处理功能;
25.2、本发明集成优化了多种常用于各类有机材料和无机材料的拉曼光谱多元数据分析方法:主成分分析方法(pca),偏最小二乘

判别分析方法(pls

da),线性判别分析方法(lda),支持向量机(svm),主成分分析结合支持向量机(pca

svm);
26.3、本发明将主成分分析与支持向量机结合的pca

svm分类算法模型,在svm的基础上提高了模型的分类性能;
27.4、本发明能有效识别出包括,以生物组织、细胞为代表的各类有机与无机材料在内的样品特征并进行区分,但不仅限于这几类样品;
28.5、本发明在特征提取部分,利用pca,pls

da结合单因素方差分析以及交叉验证选取数据集中具有显著意义的特征。
附图说明
29.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
30.图1为本发明数据分析流程图;
31.图2为本发明拉曼光谱数据预处理界面示意图;
32.图3为本发明实施例中经过去除宇宙射线,去除背景噪声,平滑处理的结果示意图;
33.图4为本发明实施例中均值中心化处理后结果示意图;
34.图5为本发明实施例中pca

lda模型交叉验证及分类汇总界面示意图;
35.图6为本发明实施例中pls

da模型交叉验证及分类汇总界面示意图;
36.图7为本发明实施例中svm模型训练界面示意图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
39.如图1所示为本发明数据分析流程图;
40.利用各类商用与自主研制的拉曼光谱仪,包括:大型科研级拉曼光谱检测仪器和小型便携式拉曼光谱检测仪器,测量得到各类有机与无机材料的拉曼光谱与光谱数据集;
41.将获取到的拉曼光谱数据,通过如图2所示的光谱预处理界面对光谱进行预处理,包括光谱特征范围选择,去宇宙射线,基于多项式拟合方法的背景荧光信号处理和基于savitzky

golay卷积方法的光谱平滑处理(结果及界面如图2,3所示);在预处理的基础上可以根据需求选择进行归一化和均值中心化处理(结果如图4所示);
42.进行归一化处理包括:为了消除功率扰动和样品不均匀的影响,可选择光谱强度归一化;为了讨论某一物质的量化信息,可选择谱峰面积归一化;为了以消除由于样品和仪器变化造成的影响,进一步凸显某些物质含量变化,可选择谱峰强度归一化。
43.对预处理后的光谱数据集进行特征提取,本发明提供两种方法:主成分分析方法(principal component analysis,简称:pca)、偏最小二乘

判别分析方法(partial least squares

discriminant analysis,简称:pls

da);选择其中任意一种方法对光谱数据集进
行分析,然后分别利用单因素方差分析和交叉验证选取最具显著意义的光谱特征成分。
44.主成分分析具体步骤如下:
45.通过正交变换将一组线性相关变量转换成线性无关变量,从而降低光谱数据集的维度,同时提取数据集中显著的特征;样本数据集为x(i
×
j),i是观测样本数,j是光谱特征数。
46.首先进行谱峰面积归一化和均值中心化处理,然后获得协方差矩阵x
t
x;对所述协方差矩阵进行奇异值分解,得到x=pδq
t
其中,p是左奇异矢量,q是右奇异矢量,δ是奇异值的对角矩阵。
47.f=pδ,f=pδ=pδq
t
q=xq,矩阵q给出了用于计算因子得分的线性组合的系数,因此也称为投影矩阵(或者loading矩阵),用x乘以q就得到了主成分上观测值的投影值f(f也称为score矩阵)。
48.线性判别分析lda步骤为:
49.(1)约定数据集包含两类样本,计算类间散度矩阵s
b
和μ1;
50.s
b
=(μ0‑
μ1)(μ0‑
μ1)
t
u051.将数据投影到直线ω上,则两类样本的中心在直线上的投影分别为ω
t
μ0和ω
t
μ1;
52.(2)计算样品同类类内散度矩阵s
w
[0053][0054]
(3)计算类间散度矩阵s
b
和样品同类类内散度矩阵s
w
的广义瑞利熵求解投影方向ω;
[0055]
(4)投影直线即y=ω
t
x;
[0056]
(5)将新的未知样本投影到该直线上,根据投影点到两类样本中心距离分类该点所属类别。
[0057]
如图5所示为本发明实施例中pca

lda模型交叉验证及分类汇总界面。
[0058]
最小二乘判别法包括:
[0059]
(1)将数据进行均值中心化处理;
[0060]
(2)根据最小二乘回归计算各个样本的预测响应值;
[0061]
(3)根据概率密度函数和贝叶斯公式计算样本属于各个类别的后验概率,如时间a和事件b:
[0062]
p(a|b)=p(b|a)*p(a)/p(b)
[0063]
(4)选择具有最大概率的类别作为预测标签。
[0064]
如图6所示为pls

da模型交叉验证及分类汇总界面;
[0065]
支持向量机步骤包括:
[0066]
(1)约定超平面ω
t
x+b=y;其中ω为法向量,b为位移。
[0067]
(2)计算点到超平面y的距离d;
[0068]
[0069]
(3)最大化分类间隔;
[0070][0071]
s.t.y
i
(w
t
·
φ(x
i
)+b)≥1,i=1,2,

,n
[0072]
其中,φ(x
i
)是特征空间转换函数,也就是映射函数,s.t.是约束条件。
[0073]
(4)引入松弛变量允许一些数据被错误分类,防止过拟合;
[0074][0075]
约束条件s.t.为:
[0076]
y
i
(w
·
x
i
+b)≥1

ξ,i=1,2,

,n
[0077]
ξ
i
≥0,i=1,2,

,n
[0078]
如图7所示为svm训练模型界面。
[0079]
对提取的特征,结合分类模型进行光谱特征识别,本发明使用线性判别分析方法(linear discriminant analysis,lda)、偏最小二乘

判别分析方法(pls

da)、支持向量机(support vector machine,svm)、主成分分析结合支持向量机(principal component analysis combined support vector machine,pca

svm)算法,建立了四种分类模型,分别通过这四种模型进行特征的提取。
[0080]
使用一种无偏留一法交叉验证、评估各个分类模型的可靠性,防止出现过拟合现象。
[0081]
在上述步骤中取样本总量为n,选取其中n
t
个数据作为训练集,那么n
ts
=n

n
t
即为所取测试样本数,得到样本分类的准确率,敏感性,特异性,以及模型的受试工作者特征曲线,以此评估拉曼光谱多元数据分析方法对样本(特别是生物组织样本)拉曼光谱识别的性能。
[0082]
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1