一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法

文档序号:28534940发布日期:2022-01-19 13:50阅读:380来源:国知局
一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法
一种用于拉曼光谱学的基于多项式重建算法的cnn迁移学习方法
技术领域
1.本发明属于拉曼光谱技术领域和深度学习技术领域,尤其涉及一种用于拉曼光谱学的基于多项式重建算法的cnn迁移学习方法。


背景技术:

2.随着深度学习技术的发展,神经网络模型在拉曼光谱技术领域的应用成为了研究热门,尤其是在多分类问题上,神经网络模型通常能够表现出比传统机器学习方法更加优秀的性能,因此拉曼光谱学与深度学习技术相结合进行物质的识别和分类已成为一种必然趋势。卷积神经网络(cnn)模型作为一种热门的深度学习模型,已经在拉曼光谱学的应用中展示出其独特的优势,然而一个具有优良性能的cnn模型通常需要大量的训练数据进行训练,拉曼光谱通常难以在短时间内大量获得,这是cnn在拉曼光谱学中应用的一个主要挑战。
3.迁移学习是解决数据匮乏问题的一个有效手段,通过少量的校准数据,对已经受过大量训练的cnn模型进行简单的重新训练以获得良好的性能。然而迁移学习带来的另一个问题是数据尺寸不匹配,cnn要求输入数据必须具有与其相匹配的尺寸大小,而不同拉曼光谱仪所采集的光谱数据尺寸(数据点的数量,采样率等)通常不一致,这是cnn在拉曼光谱学中迁移学习所面对的一个主要问题。
4.类比在图像的迁移学习中,使用插值法来对图像尺寸大小进行缩放,以适应二维的cnn模型,目前在拉曼光谱学领域采用的是使用插值算法对光谱的尺寸大小进行缩放,以适应一维的cnn模型。然而较多的预处理步骤意味着对原始光谱的多次采样,必然会引入较多采样误差,降低cnn模型的性能。因此,开发一种既能对光谱尺寸大小进行缩放,又能实现去噪,并且最大程度减少采样次数,保留原始光谱信息的预处理方法将会很有意义。


技术实现要素:

5.发明目的:本发明的目的在于提供一种用于拉曼光谱学的基于多项式重建算法的cnn迁移学习方法,以简化拉曼光谱的预处理步骤,并最大程度地保留光谱有用信息,提高信噪比,进而提高cnn模型在拉曼光谱中迁移学习的性能。
6.技术方案:一种用于拉曼光谱学的基于多项式重建算法的cnn迁移学习方法,包括以下步骤:
7.步骤1:从公开的拉曼光谱数据库获得原始光谱构建拉曼光谱大数据集;
8.步骤2:利用重建算法对大数据集中的拉曼光谱进行重建;
9.步骤3:利用数据增强方法来扩充数据;
10.步骤4:利用大数据集中的重建光谱训练一个cnn模型;
11.步骤5:利用两个不同的拉曼光谱仪构建两个自测拉曼光谱数据集;随后用重建算法对两个数据集中的光谱进行重建;
12.步骤6:将一个拉曼光谱仪所测数据作为校准数据,经过数据增强处理后,用于重新训练cnn模型的全连接层;另一个拉曼光谱仪所测数据集作为测试数据;
13.步骤7:使用k折交叉验证法产生不同比率的校准数据来测试cnn模型在迁移学习中对校准数据的需求;使用k最近邻分类器(knn)来评估cnn模型的迁移学习性能。
14.进一步的,步骤2具体包括以下几个要点:
15.重建算法使用savitzky-golay(sg)算子来计算重建光谱上每个点的数据;
16.重建算法使用波数最小差值匹配法将重建光谱上的每个点匹配到原始光谱上的对应点,以此来定位sg算子的窗口位置;
17.sg算子的窗口长度和阶次可以自由设置;
18.重建光谱的起始点、终止点和采样率可以自由设置;
19.利用sg平滑结合样条插值算法的方法处理原始光谱,以评估重建算法的效果。
20.进一步的,所述的步骤4中,在训练过程中使用k折交叉验证方法,以评估训练后cnn模型的性能。
21.进一步的,所述的步骤7中,使用k折交叉验证法产生不同比率的校准数据,具体包括以下要点:
22.将校准数据集分成k组,依次选取每一组作为训练集,余下的k-1组作为验证集,以此完成k折交叉验证;
23.设置不同的k值,拆分出的每一组校准数据占总数据数量的比例不同,由此实现对cnn在迁移学习中对校准数据比例需求的探究。
24.有益效果:本发明与现有技术相比,具有以下优点:
25.本发明提供了一种重建算法作为拉曼光谱数据集的预处理方法。该方法能够同时实现光谱的去噪和插值处理,且只需要对光谱进行一次采样,简化了预处理步骤,并且最大程度地保留了光谱有用信息,提高了信噪比;
26.经过测试,基于该重建算法所建立的cnn模型只需要用与测试集数据量占比75%的校准数据进行再训练,即可获得优于knn的性能。因此,基于该重建算法的cnn模型在拉曼光谱数据集上的迁移学习性能优于使用插值算法的cnn模型。
附图说明
27.图1是本发明提供的一种用于拉曼光谱学的基于多项式重建算法的cnn迁移学习方法的流程示意图;
28.图2是本发明提供的拉曼光谱重建算法的波数最小插值匹配法示意图;
29.图3是本发明提供的基于重建算法的卷积神经网络模型在拉曼光谱中的预训练效果柱状图;
30.图4是本发明提供的基于重建算法的卷积神经网络模型在不同拉曼光谱仪间的迁移学习效果散点图。
具体实施方式
31.现通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式
来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
32.图1展示了本发明的主要流程,包括利用重建算法对拉曼光谱进行重建,并用于cnn模型的预训练和迁移学习中,具体实施方式如下:
33.从两个公开的拉曼光谱数据库——rruff和sop数据库,下载831种矿物质和有机颜料共2563条原始光谱,构建起拉曼光谱大数据集。随后,利用重建算法进行重建并替换掉大数据集中的原始光谱。重建算法的具体步骤如下:
34.对于每一条拉曼光谱,首先确定光谱波数范围的起始点和终止点,并将起始点小于0cm-1
的部分裁去,终止点大于2000cm-1
的部分裁去。从起始点到终止点,生成一条采样间隔为1cm-1
的空白光谱。对空白光谱中每一个数据点的计算,是由sg平滑算子来实现的,窗口长度为5,阶次为3的sg平滑算子公式如下:
[0035][0036][0037][0038][0039][0040]
其中y-2
,y-1
,y0,y1和y2分别为平滑窗口中的五个原始光谱上的数据点。和分别用于计算空白光谱起始的两个点和末尾的两个点的值,则用于计算空白光谱其余所有点的值。空白光谱上每一个点,都按照波数最小差值匹配法定位到原始光谱中的对应点。
[0041]
图2示出了本发明提供的拉曼光谱重建算法的波数最小插值匹配法示意图。
[0042]
对于空白光谱上的一个点,计算原始光谱中所有点的波数与空白光谱上该点的波数的差值,差值最小的即为该空白光谱上的点在原始光谱上所对应的点。将原始光谱上的对应点作为平滑窗口的中心点,即可完成当前平滑窗口的定位。利用平滑窗口内的数据和对应公式即可算出空白光谱上该点的拉曼强度值。按照此方法,计算出空白光谱上所有点的拉曼强度值,直到完成整条光谱的重建。
[0043]
光谱重建后,需要将其范围扩展到0~2000cm-1
之间,缺省的部分用0填充。随后利用最大最小值归一化的方法,将重建光谱的拉曼强度范围缩放到0~1000之间,至此光谱的预处理完成。
[0044]
将拉曼光谱大数据集中的光谱全部重建后,从每一种样本中随机抽取一条光谱组成测试集,并利用数据增强来扩充剩余光谱的数据量。方法包括:将拉曼光谱的波数左右平移1~2cm-1
;向光谱中添加比率为2%的高斯噪声;将两条光谱乘以不同比率(比率之和为100%),然后相加。经过扩充,每一种样本的光谱数量扩充为30。然后利用k=10的交叉验证法获得10组训练集和验证集,并对cnn模型进行预训练。
[0045]
该模型具有两个卷积层和两个全连接层,每个卷积层后面是一个批标准化层以降
低过拟合风险,之后是一个最大池化层以简化特征。第一个全连接层之后是批标准化层和概率为0.5的drop out层,以进一步降低过拟合风险。最后一个全连接层通过softmax函数以独热编码的形式输出结果。
[0046]
为了充分评估重建算法的效果,采用sg平滑结合样条插值的方法来处理拉曼光谱大数据集中的原始光谱,构建一个评估数据集。数据增强和k=10的交叉验证同样用于处理该数据集。
[0047]
图3示出了本发明提供的一种基于重建算法的卷积神经网络模型在拉曼光谱中的预训练效果。cnn模型在重建数据集上表现优于评估数据集,表明将重建算法作为预处理方法优于sg平滑结合样条插值法。
[0048]
然后利用实验室自搭建的显微拉曼光谱仪,和商用型“finder one”拉曼光谱仪分别对39种无机盐、有机化合物和常见氨基酸样品进行光谱采集,构建两个自测拉曼光谱数据集;随后用重建算法对两个数据集中的光谱进行重建。自搭建显微拉曼光谱仪所测数据集作为校准数据,用于重新训练cnn模型的全连接层;“finder one”拉曼光谱仪所测数据集作为测试数据,测试重新训练后的cnn模型的性能。此处使用k值分别等于10、5、4、3和2的交叉验证法产生不同比率的校准数据来测试cnn模型在迁移学习中对校准数据的需求,其比例分别为10%、20%、25%、33%和50%,进一步可交换上述步骤中的验证集和训练集,由此可产生比例为67%、75%和80%的校准数据;使用knn来评估cnn模型的迁移学习性能。
[0049]
图4示出了本发明提供的一种基于重建算法的卷积神经网络模型在不同拉曼光谱仪间的迁移学习效果。随着校准数据比例的增多,cnn模型对测试集的判别准确率持续上升,而knn分类器没有明显变化趋势。当使用占测试数据数量50%的校准数据进行重新训练时,cnn模型对测试集数据的判别准确率已经很接近knn分类器,而当使用75%的校准数据进行重新训练时,cnn模型的判别准确率高于knn分类器。相比于其他基于插值算法的cnn模型通常需要200%的校准数据,本发明提供的基于重建算法的卷积神经网络模型在不同拉曼光谱仪间具有更好的迁移学习性能。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1