一种拉曼光谱数据的智能建库方法与流程

文档序号:26588464发布日期:2021-09-10 20:05阅读:318来源:国知局
一种拉曼光谱数据的智能建库方法与流程
systems,1998.》通过对真实光谱添加不同程度的高斯噪声生成大量模拟光谱。
5.同时,在计算机视觉领域兴起的数据增强方法,例如生成对抗网络(generative adversarial networks,gan)也被引入了拉曼光谱分析领域《yu s,li h,li x,et al.classification of pathogens by raman spectroscopy combined with generative adversarial networks[j].science of the total environment,2020,726:138477》。生成对抗网络由生成模型(generative model)和判别模型(discriminative model)两部分组成,通过向生成模型输入噪声向量生成大量数据,并由判别模型根据真实数据对生成数据进行判别这种方式,使生成模型生成与真实数据分布基本一致的生成数据。将生成对抗网络应用于拉曼光谱,以原始拉曼光谱作为学习目标,直接产生与原始光谱相同维数的生成光谱。直接使用光谱信号训练生成对抗网络时,其卷积结构无法很好地利用光谱局部性特征,且训练过程不稳定,使得生成模型无法很好的模拟真实光谱数据的分布。实验证明,这样生成的光谱大都类似于原始光谱添加高斯噪声后的信号,直接加入数据库用于训练将降低物质分类的准确性,无法准确完成物质定性检测。初步分析,这是因为序列形式的拉曼光谱数据缺乏空间相关性造成的。生成对抗网络中的卷积核无法提取到足够的局部特性,从而导致了生成数据包含类似于噪声的毛刺信息。
[0006]
对实际采集的光谱添加一定程度的高斯噪声可以模拟大量具有真实光谱特征的数据,但也不可避免地改变了光谱的信噪比,导致模拟光谱与真实光谱的数据分布不一致。这违背了机器学习中训练和测试数据同分布的假设,若使用添加了高斯噪声的模拟光谱进行机器学习模型的训练,很可能学习到一个对模拟光谱过拟合的模型,无法可靠运用于真实光谱的物质检测。同时,添加高斯噪声时需要人工调节高斯噪声强度等相关参数,若噪声过强则会淹没原光谱信号,若噪声太弱则模拟光谱与真实信号高度相似,无法实现数据增强的目标。
[0007]
将纯物质的光谱线性叠加的方式能够生成大量混合物的模拟光谱,但仅简单地设置权值将若干纯净物的光谱线性加和忽略了实际混合物中物质分子之间的相互作用。在实际混合物的光谱中,很可能存在某些峰由于分子之间的相互作用而被淹没或得到增强的现象,这种非线性的变化是线性加和的方式无法模拟得出的。由此叠加生成的模拟拉曼光谱可信度不高,无法用于训练或者构建数据库。


技术实现要素:

[0008]
本发明的主要目的在于克服现有技术中建立拉曼光谱数据库存在的困难,提出一种拉曼光谱数据的智能建库方法,能快速高效的建立丰富的拉曼光谱数据库,可用于深度学习模型的训练和测试,为最终实现准确的现场物质检测奠定数据基础。
[0009]
本发明采用如下技术方案:
[0010]
一种拉曼光谱数据的智能建库方法,其特征在于,包括如下步骤:
[0011]
1)使用连续小波变换对数据库中第c种目标物质(c=1,...,c)的所有原始拉曼光谱进行特征变换,得到原始拉曼光谱的二维数据信号,c为目标物质的种类数量;
[0012]
2)生成随机向量z,输入训练好的针对第c种目标物质的生成模型,获得对应的生成光谱的二维信号,重复本步骤m次,获得m个生成光谱的二维信号,并标注为第c种目标物质;
[0013]
3)对其它目标物质重复步骤1)

2),则产生c
×
m个生成光谱的二维信号构成二维数据集合,联合步骤1)得到的原始拉曼光谱的二维信号建立一个大型的拉曼光谱数据库,其覆盖c类目标物质的大量已标注样本。
[0014]
步骤1)具体为:设原始拉曼光谱为s={s
j
|j=1,2,...,n
c
},其中n
c
表示标注了第c种目标物质的原始拉曼光谱的数目;每个拉曼光谱表示为s
j
(t),其中t=[t1,t2,...,t
n
]是拉曼光谱位移序列,n表示每个拉曼光谱位移序列的长度,s
j
(t
i
)表示在t
i
位置的拉曼光谱信号强度,i=1,2,...,n;对每一个拉曼光谱s
j
(t)使用连续小波变换进行特征变换,得到其时频域的二维信号:
[0015][0016]
其中ψ(t)为小波母函数,a是长度为l的缩放因子向量,b为平移因子向量,其取值与t相同,则第c种目标物质的时频域二维数据集合:与t相同,则第c种目标物质的时频域二维数据集合:为l行n列的二维矩阵。
[0017]
步骤2)中,还包括训练针对第c种目标物质的生成对抗网络,其包括:先建立针对第c种目标物质的生成对抗网络,再将特征变换后的第c种目标物质的原始拉曼光谱的二维信号作为训练集输入该生成对抗网络进行训练,获得其中训练好的针对第c种目标物质的生成模型。具体的,预先构造针对第c种目标物质的生成对抗网络,其包括两个神经网络模型:生成模型g
c
和判别模型d
c
,将第c种目标物质的原始拉曼光谱的二维数据集合wt
c
分为若干批(batch),每一批wt
batch
包括batchsize个拉曼光谱数据,所述训练生成对抗网络的步骤具体包括如下:
[0018]
2.1)将该批原始拉曼光谱的二维数据集合wt
batch
,输入判别模型d
c
,然后用判别模型d
c
的输出d
c
(wt
batch
)计算判别模型d
c
的第一部分损失,并将该损失进行反向传播;所述第一部分损失如下:
[0019][0020]
2.2)生成随机向量集合z
batch
={z
batch,k
|k=1,...,batchsize},每个噪音向量长度为d,逐一将z
batch,k
输入生成模型g
c
得到二维信号g
c
(z
batch,k
),再将二维信号g
c
(z
batch,k
)输入判别模型d
c
来计算第二部分损失,最后将该损失进行反向传播和梯度下降;所述第二部分损失如下:
[0021][0022]
2.3)使用2.2)的中间结果d
c
(g
c
(z
batch,k
))计算生成模型g
c
的损失,也将该损失进行反向传播和梯度下降;所述生成模型gc的损失如下:
[0023][0024]
2.4)对每一批原始拉曼光谱的二维数据集合重复步骤2.1

2.3),则完成一轮训练,重复进行y轮训练,则第c种目标物质的生成对抗网络训练完成,训练好的生成模型g
c
可用于建库。
[0025]
所述生成模型是输入为随机向量z,输出为生成二维格式光谱的神经网络,所述判别模型是输入光谱二维数据,然后用二分类神经网络来判断输入是原始光谱还是生成光谱,并输出置信度;所述生成对抗网络的最优化目标为最小化生成光谱与原始光谱之间的
差异,如下:
[0026][0027]
其中和e
z
表示数学期望。
[0028]
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0029]
1、本发明的方法,创新性地使用多尺度小波变换的多分辨率特性,将拉曼光谱由序列数据变换成类似于图像的二维信号,并提取了拉曼光谱信号的细粒度特征。
[0030]
2、本发明的方法,使用生成对抗网络训练二维的原始拉曼光谱,产生大量含有原始拉曼光谱物质指纹特征的生成光谱,解决了生成对抗网络直接应用于光谱过程中生成效果差和训练不稳定的问题。
[0031]
3、本发明的方法,联合少量标注的原始光谱和大量生成光谱,建立一个二维格式的拉曼光谱数据库,解决了将深度学习应用于光谱分析领域时所面临的光谱数据采集难、成本高和耗时长等问题,推动了深度学习方法在光谱分析应用的落地。
[0032]
4、本发明方法,使用人工智能技术快速的建立光谱数据库,可用于深度学习模型的训练和测试,为最终实现准确的现场物质检测奠定数据基础。
[0033]
5、本发明的方法不仅能够使用于拉曼光谱的数据库建设,还能扩展适用于其他的光谱检测,如红外光谱、x射线衍射光谱和色谱的数据库建设。
附图说明
[0034]
图1为本发明方法流程图;
[0035]
图2a为碱性嫩黄o的原始光谱;
[0036]
图2b为碱性嫩黄o原始二维谱图;
[0037]
图2c为碱性嫩黄o生成二维谱图示例;
[0038]
图3a为柠檬黄的原始光谱;
[0039]
图3b为柠檬黄的原始二维谱图;
[0040]
图3c为柠檬黄的生成二维谱图示例;
[0041]
图4为混淆矩阵:vgg16分类器的物质识别结果。
[0042]
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
[0043]
以下通过具体实施方式对本发明作进一步的描述。
[0044]
本发明提出的是一种基于小波变换和生成对抗网络的拉曼光谱数据的智能建库方法,如图1所示包括特征变换、训练生成模型和建立光谱数据库等。对于特征变换和训练生成模型:首先利用小波变换将原始拉曼光谱的一维序列信号变换为小波空间中的二维信号,然后输入生成对抗网络进行训练,参见虚线箭头部分。生成对抗网络由一个生成模型(generator,g)和一个判别模型(discriminator,d)组成,以两个模型对抗的形式训练;前者输入随机向量z,后者输入原始光谱(二维格式)。
[0045]
建立拉曼光谱数据库部分,是在生成对抗网络的训练完成后,利用其中的生成模型(g)产生大量的生成光谱(二维格式),并与原始光谱联合建立拉曼光谱数据库。该数据库以二维信号格式来存储拉曼光谱数据。因此,新增的光谱在训练或检测之前,都需要使用多
尺度小波变换进行二维的特征变换,然后再做后续光谱定性分析。
[0046]
具体的,本发明的方法包括如下步骤:
[0047]
1)假设某应用要支持c种目标物质的检测,而每种目标物质仅有少量标注的光谱,使用连续小波变换对数据库中第c种目标物质(c=1,...,c)的所有原始拉曼光谱进行特征变换,得到原始拉曼光谱的二维数据信号,c为目标物质的种类数量。
[0048]
该特征变化步骤中,使用连续小波变换(continuous wavelet transform,cwt)对数据库中第c种目标物质的所有原始拉曼光谱进行特征变换,将它们由时域序列信号(一维)变换为时频域的二维信号。
[0049]
设原始光谱为s={s
j
|j=1,2,...,n
c
},其中n
c
表示标注了第c种目标物质的原始拉曼光谱的数目;每个光谱表示为s
j
(t),其中t=[t1,t2,...,t
n
]是拉曼光谱位移序列,n表示每个拉曼光谱位移序列的长度,s
j
(t
i
)表示在t
i
位置的拉曼光谱信号强度,i=1,2,...,n;对每一个光谱s
j
(t)用连续小波变换进行特征变换,得到其时频域的二维信号:
[0050][0051]
其中ψ(t)为小波母函数,a是长度为l的缩放因子向量,b为平移因子向量,其取值与t相同。注意到积分区间为[

∞,+∞],对于拉曼光谱,其拉曼光谱仪器的采谱区间有限,故通过对采谱区间外的信号做补零或其它合理方式进行处理,以保证公式(1)的计算。因此获得第c种目标物质的时频域二维数据集合:获得第c种目标物质的时频域二维数据集合:为l行n列的二维矩阵。
[0052]
2)生成随机向量z,输入训练好的针对第c种目标物质的生成模型g
c
,获得对应的生成光谱的二维信号g
c
(z),重复本步骤m次,获得m个生成拉曼光谱的二维信号,并标注为第c种目标物质,m可根据应用需设置为较大的常数。
[0053]
该步骤中,还包括训练针对第c种目标物质的生成对抗网络,其包括:先建立针对第c种目标物质的生成对抗网络,再将特征变换后的第c种目标物质的原始拉曼光谱的二维信号作为训练集输入该生成对抗网络进行训练,获得其中训练好的针对第c种目标物质的生成模型g
c

[0054]
预先构造针对第c种目标物质的生成对抗网络,其包括两个神经网络模型:生成模型g
c
和判别模型d
c
。生成模型是输入为随机向量z,输出为生成二维格式光谱的神经网络,该神经网络可采用具有逆卷积层、激活层和批标准化的常规神经网络,在此不作限定。判别模型是输入拉曼光谱二维数据,然后用二分类神经网络来判断输入是原始光谱还是生成光谱,并输出置信度;生成对抗网络的最优化目标v为最小化生成光谱与原始光谱之间的差异,其中和e
z
表示数学期望:
[0055][0056]
进行训练前,将第c种目标物质的原始拉曼光谱的二维数据集合wt
c
分为若干批(batch),每一批wt
batch
包括batchsize个拉曼光谱数据,训练生成对抗网络的步骤具体包括如下:
[0057]
2.1)将该批原始光谱的二维数据集合wt
batch
,输入判别模型d
c
,然后用判别模型d
c
的输出d
c
(wt
batch
)计算判别模型d
c
的第一部分损失,并将该损失进行反向传播,即将损失函数的误差传播到神经网络的参数。第一部分损失如下:
[0058][0059]
2.2)生成随机向量集合z
batch
={z
batch,k
|k=1,...,batchsize},每个噪音向量长度为d,逐一将z
batch,k
输入生成模型g
c
得到二维信号g
c
(z
batch,k
),再将二维信号g
c
(z
batch,k
)输入判别模型d
c
来计算第二部分损失,最后将该损失进行反向传播和梯度下降,即根据反向传播的误差更新神经网络的参数。第二部分损失如下:
[0060][0061]
2.3)使用2.2)的中间结果d
c
(g
c
(z
batch,k
))计算生成模型g
c
的损失,也将该损失进行反向传播和梯度下降,即根据反向传播的误差更新神经网络的参数;生成模型g
c
的损失如下:
[0062][0063]
2.4)对每一批原始拉曼光谱的二维数据集合重复步骤2.1

2.3),则完成一轮训练,重复进行y轮训练,y可根据应用需要设置,则第c种目标物质的生成对抗网络训练完成,其中训练好生成模型记为g
c

[0064]
3)对其它目标物质重复步骤1)

2),则产生c
×
m个生成光谱的二维信号构成二维数据集合,联合已步骤1)得到的原始拉曼光谱的二维信号建立一个大型的拉曼光谱数据库,其覆盖c类目标物质的大量已标注样本。
[0065]
本发明首先对真实的原始拉曼光谱进行特征变换,创新性地将多尺度小波变换应用于拉曼光谱数据分析,将其由序列数据变换成类似于图像的二维信号。多尺度小波变换具有多分辨率的特点,对拉曼光谱进行多尺度小波变换后,不仅将拉曼光谱由序列数据变换成类似于图像的二维信号,也充分提取了不同尺度的拉曼光谱信号特征。然后将变换后的二维光谱数据作为学习目标,使用gan产生大量二维的生成拉曼光谱数据。最后联合原始光谱和生成光谱,建立大型的二维存储格式的拉曼光谱数据库。根据需要,本发明的方法,也可应用于其他光谱数据建库中,例如红外光谱或x射线衍射光谱或色谱。
[0066]
实验验证
[0067]
本发明实验所使用的训练和测试拉曼光谱数据,是使用高意pt2000拉曼光谱仪器(光谱范围200~2500cm
‑1)采集的9种目标物质样本(色素:亮蓝、日落黄、柠檬黄、碱性嫩黄o、碱性橙2、罗丹明b、胭脂红、苋菜红、诱惑红),具体见表1。
[0068]
表1:拉曼光谱数据(物质c=9)
[0069][0070]
为了验证本发明方法在小训练样本应用的有效性,本实验仅随机取每类物质的20条原始拉曼光谱数据用于训练对抗生成网络,即n
c
=20,c=1,

,9。在本次实验中,使用了深度卷积深层对抗网络(dcgan)的网络结构,设置训练轮数y=1000,批大小batchsize为10,随机向量长度d为100,生成模型g
c
和判别模型d
c
的学习率均设置为0.0005,使用adam优化器(beta1=0.5,beta2=0.9)进行梯度下降。每一种目标物质的生成模型g
c
训练完成后,可生成m=10000个生成光谱(二维格式),并做标注。最后建立一个9种色素的拉曼光谱数据库,可用于分类器训练的标注样本共90180个。
[0071]
实验一使用含碱性嫩黄o的20个原始拉曼光谱产生的大量的生成光谱(二维格式),列举3个示例如图2c所示。实验二使用含柠檬黄的20个原始拉曼光谱产生的生成光谱(二维格式),列举3个示例如图3c所示。比较图2b和图2c可以发现,特征变化后获得的原始光谱(二维格式)与生成光谱(二维格式)具有相似性。比较图2c和图3c也可以发现,含有不同目标物质的生成光谱(二维格式)存在明显的差异。由此可见,这些生成谱图也具有物质指纹特性的,可以用于有效训练。
[0072]
实验三验证以本发明方法建立的光谱数据库作为训练集时,深度学习分类器vgg16的物质识别准确性。在本实验中vgg16神经网络作为分类器,训练轮数设置为4,批大小设置为50,学习率设置为0.0001。训练好的vgg16分类器对1070个测试光谱样本进行分类识别,并使用混淆矩阵和准确率:作为性能评估指标。如图4所示,七种色素的测试样本都被正确识别了,即对角线上的正确分类的光谱数目等于相应色素的测试样本数目。但是,柠檬黄的10个测试光谱和胭脂红的7个测试光谱被错误识别为其他色素,因此总体准确率达到(175+111+90+69+76+96+204+122+111)/1070=98.41%,这样的性能可以满足大部分物质检测的应用需求。若vgg16神经网络设置同样参数,直接对180个一维的原始拉曼光谱进行训练,对1070个测试光谱样本进行分类,则仅有18.97%光谱样本所含的色素被准确识别。由此可见,少标注样本已经阻碍了深度学习分类器在拉曼光谱物质识别
中的应用。而本发明方法可以有效解决标注样本少的实际困难,有利于后续使用深度学习深入分析拉曼光谱。
[0073]
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1