一种基于WGAN-GP的拉曼光谱数据扩增方法和装置与流程

文档序号：37151340发布日期：2024-02-26 17:06阅读：22来源：国知局

本发明涉及到数据扩增技术，尤其涉及基于深度学习拉曼光谱识别技术的一种拉曼光谱数据扩增方法和装置。

背景技术：

1、拉曼光谱是一种分子散射光谱，可以被看作是构成物质的分子结构的“指纹”，从而对物质的成分进行识别分析。在违禁品防控工作方面，拉曼技术已经得到了广泛的关注，因为其在检测过程中具备灵敏度高、时间短、无损、无需接触等特点。近年来，神经网络广泛地应用于光谱分析领域。相比于传统方法来说，基于深度学习的拉曼光谱识别技术具有检测速度更快、检测精确度更高的优点。而且神经网络不要进行复杂的特征工程，只需要将相应的数据集传进网络即可。因此，神经网络的训练问题依赖于大量的数据样本，数据量越大，训练得到的模型的性能也就越好。

2、然而由于拉曼技术起步较晚，再加上拉曼光谱的采集受到诸多因素的干扰，样本数据的采集相当繁琐，并且需要花费大量的人力、财力以及时间，采集到的数据样本量较少，不能够满足深度学习需要大量样本进行训练的条件。同时，采集到的各个类别的样本数量如果不均衡的话会导致模型的过拟合。因此很少有比较标准的拉曼光谱数据库，所以想要靠自己采集拉曼光谱来完成神经网络的训练不太现实。

3、针对这种情况，可以选择拉曼光谱数据增强技术，它能够增加各种类别的数据量，同时使各类别之间保持平衡，避免样本的不均衡而导致的过拟合问题。而且还能够减轻前期光谱数据采集的工作量。现阶段传统的一些拉曼光谱数据扩增方法包括随机添加噪声、同种类拉曼光谱线性叠加以及将拉曼光谱的拉曼位移随机进行左右平移。

技术实现思路

1、本发明要解决在基于神经网络的训练过程中，拉曼光谱数据样本量不足的难题，提供了一种基于wgan-gp的拉曼光谱数据扩增方法和装置。wgan-gp是在wgan的基础上改进而来的，网络模型包括生成网络g以及判别网络d，因为wgan在实际的实验过程中仍然存在着训练困难、收敛速度慢的问题，而wgan-gp采用了一种新的lipschitz连续性限制手法-梯度惩罚，解决了wgan训练梯度消失或梯度爆炸的问题。其对每种物质光谱都可以进行模拟仿真，解决了拉曼光谱数据样本量不足的问题。

2、为了实现上述目的，本发明采用的技术方案为：

3、一种基于wgan-gp的拉曼光谱数据扩增方法，包括如下步骤：

4、1)进行光谱数据采集。搭建拉曼光谱采集装置，对待测的样品进行光谱数据采集，然后对光谱数据进行预处理，包括去噪、平滑以及归一化等。

5、2)构建并训练生成网络g。使得生成网络能够生成更加接近真实样本的数据。

6、3)构建并训练判别网络d。使得判别网络能够识别出生成样本和生成数据。

7、进一步，所述步骤1)包括如下步骤：

8、(11)采用实验室自行搭建的基于拉曼光谱的手持式敏感物检测仪进行拉曼光谱数据的采集。

9、(12)对采集得到的拉曼光谱数据进行预处理，采用savitzky-golay卷积平滑滤波法对拉曼光谱进行去噪。设窗口大小为2m+1，窗口内的光谱数据为z(x)，平滑后的光谱数据为y(x)，y(x)如下式所示：

10、y(x)＝a0+a1x+a2x2+…anxn n≤2m (1)

11、式中，a0，a1，a2，an为待求系数，n为自定义的阶数。

12、将窗口沿着光谱向量平移，将得到的y(x)相连就是去噪后的光谱向量。

13、进一步，所述步骤2)包括如下步骤：

14、(21)首先使用人工神经网络模型来构造生成网络g，其中生成网络利用反卷积操作来创建，对生成模型的输入和参数进行初始化。根据原始实验光谱，输入一个随机噪声，得到原始生成光谱，其中随机噪声由函数sample_z(m,n)来生成。

15、(22)给定判别网络d的参数，达到优化生成网络的目的，使得生成网络能够生成更加接近真实样本的数据，其中生成网络g的损失函数为：

16、

17、(23)输入随机噪声得到生成样本，放入判别网络，希望生成网络生成的样本判别网络可以判别为真。

18、进一步，所述步骤3)包括如下步骤：

19、(31)判别网络d利用卷积操作来创建，对判别模型的输入和参数进行初始化。

20、(32)判别网络模型d对原始实验光谱和原始生成光谱进行判别分析，此时将两类光谱看作是真假样本。判别网络的目的是拉大真假样本的识别，即判别差越大越好，即梯度越大越好，变化幅度越大越好。其中判别网络d的损失函数为：

21、

22、其中即g(z)，表示由随机噪声得到的生成光谱，x表示真实光谱，表示生成样本和真实样本的线性插值。d(x)表示概率分布，表示l2范数，λ是梯度惩罚与其他评论家损失的比率。

23、(33)给定生成网络g的参数，达到优化判别网络的目的，这样可以大大提高判别网络的识别精度。

24、本发明的第二个方面涉及一种拉曼光谱数据扩增装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现本发明的一种拉曼光谱数据扩增方法

25、本发明的第三个方面涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种拉曼光谱数据扩增方法。

26、相比于传统的gan模型，wgan_gp采用连续的wasserstein距离来衡量生成数据和真实数据之间的差距，解决了梯度消失或梯度爆炸问题；且梯度惩罚理念的引入能够对判别器的损失函数进行惩罚，以确保梯度在某个范围内，从而增加了模型的稳定性。

27、与现有的技术相比，本发明的有益效果在于：

28、wgan-gp提出了梯度惩罚的理念，不但解决了训练梯度消失或爆炸的问题，而且相对于wgan来说拥有更高的收敛速度，提供了更加稳定的训练方式，能够生成质量更高的仿真光谱，使得生成的光谱能够较高的保留了原始光谱的信息。

技术特征：

1.一种基于wgan-gp的拉曼光谱数据扩增方法，包括如下步骤：

2.如权利要求1所述的一种基于wgan-gp的拉曼光谱数据扩增方法，其特征在于，所述步骤1)包括如下步骤：

3.如权利要求1所述的一种基于wgan-gp的拉曼光谱数据扩增方法，其特征在于，所述步骤2)包括如下步骤：

4.如权利要求1所述的一种基于wgan-gp的拉曼光谱数据扩增方法，其特征在于，所述步骤3)包括如下步骤：

5.一种基于wgan-gp的拉曼光谱数据扩增装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-4的一种基于wgan-gp的拉曼光谱数据扩增方法。

6.一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现权利要求1-4的一种基于wgan-gp的拉曼光谱数据扩增方法。

技术总结
一种基于WGAN‑GP的拉曼光谱数据扩增方法和装置，其方法包括：1)进行光谱数据采集。搭建拉曼光谱采集装置，对待测的样品进行光谱数据采集，然后对光谱数据进行预处理，包括去噪、平滑以及归一化；2)构建并训练生成网络G。使得生成网络能够生成更加接近真实样本的数据；3)构建并训练判别网络D。使得判别网络能够识别出生成样本和生成数据。本发明提供了更加稳定的训练方式，能够生成质量更高的仿真光谱，使得生成的光谱能够较高的保留了原始光谱的信息。

技术研发人员：浦世亮,张怡龙,杜康,毛慧,陈朋,王海霞,蔡宏,朱镇峰,张世峰,梁荣华
受保护的技术使用者：杭州海康威视数字技术股份有限公司
技术研发日：
技术公布日：2024/2/25

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：浦世亮,张怡龙,杜康,毛慧,陈朋,王海霞,蔡宏,朱镇峰,张世峰,梁荣华
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

上一篇：一种岩沥青与SBS改性沥青复合改性沥青混合料制备方法与流程
上一篇：基于二维码的设备资产管理方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。