一种基于拉曼理化特征的纯净物识别方法与流程

文档序号:37672876发布日期:2024-04-18 20:45阅读:13来源:国知局
一种基于拉曼理化特征的纯净物识别方法与流程

本发明涉及一种纯净物识别方法,尤其涉及一种基于拉曼理化特征的纯净物识别方法。


背景技术:

1、现有样品识别方法主要有全谱相似度计算和特征提取匹配两种。

2、全谱相似度计算:利用待识别样品完整拉曼光谱与已知样品库中拉曼光谱进行相似度计算,选择相似度最高的库中样品作为待识别样品的识别结果。比如专利文献cn102507532a选取样品测得其拉曼谱图,建立数据库,再检测未知样品的拉曼谱图,采用谱图比对的方法,与标准谱图相比较,计算其相关命中率指数h.q.i.(hit qualificationhit),h.q.i.越接近于0,表明两个光谱之间匹配关系约好,即样品有更大可能与库中相应成分一致。通过设定较为严格的阈值,可对化学品进行准确的定性判别。相关命中率指数法是数字评判的一个重要方法,它将光谱与源机光谱在所有波长点处进行比较。

3、全谱相似度计算存在的主要问题如下:

4、①实际测量的拉曼光谱往往包含背景噪声和其他干扰因素,而全谱相似度计算的技术中包含大量非有效信息区数据,这些数据可能会影响相似度计算的结果,导致识别准确性的降低。

5、②对于大型数据库,计算所有可能的匹配并确定最佳匹配可能需要大量的计算资源和时间,全谱相似度计算的技术中包含大量非有效信息区数据,会浪费大量的计算资源与时间。

6、特征提取匹配主要分为基于峰检测的无监督特征提取和机器学习、深度学习等有监督降维特征提取。比如专利文献cn101629909a确定拉曼光谱中预定波长附近是否存在与化学物或生化物物质相关的光谱信号。

7、又比如专利文献cn101285773a将提取的特征峰峰项对应的波数进行标记,记录提取的特征峰所在的位置和强度。将待测样品的特征表与已知样品的特征峰位置表集合进行位置匹配,将待测样品的特征表与集合中每一个进行位置匹配,对于每一个特征峰所在的波数点,m为已知样品i的特征峰的数量,检查待测样品特征表在这m个波数点上是否也都有峰存在,若存在,则认为待测样品与第i种已知样品位置匹配成功,否则,匹配失败。

8、专利文献cn114993891a基于特征峰的余弦相似度计算方法,针对不同特征峰位的匹配光谱特征峰向量p1和数据库光谱特征峰向量p2,开发适用性的余弦相似度匹配方法,用于对所述匹配光谱特征峰向量p1和数据库光谱特征峰向量p2进行相似度计算。

9、专利文献cn108241846a第一识别步骤:比较被测谱图的峰信息和预存的标准谱图的峰信息,以识别被测谱图与标准谱图的峰信息是否匹配;第二识别步骤:在第一识别步骤中识别出被测谱图与标准谱图的峰信息匹配的情况下,比较被测谱图的数据和预存的标准谱图的数据,以进一步识别被测谱图与标准谱图是否匹配。

10、由上可见,现有的特征提取匹配主要存在如下问题:

11、①基于特征提取方法的解释性较差。可能无法清楚地说明为什么一个特定的样品被识别为某种物质。

12、②机器学习和深度学习模型通常需要大量标记的数据进行训练,以确保良好的泛化能力。然而,获取足够的高质量训练数据可能是困难的。


技术实现思路

1、本发明所要解决的技术问题是提供一种基于拉曼理化特征的纯净物识别方法,能够提高识别结果的解释能力;降低噪声信号对识别结果的干扰;提高不同光谱像素长度的数据适用能力和识别准确率。

2、本发明为解决上述技术问题而采用的技术方案是提供一种基于拉曼理化特征的纯净物识别方法,包括标准库的建立步骤与样品识别步骤,所述标准库的建立步骤如下:s11)获取建库纯净物拉曼光谱数据;s12)对纯净物拉曼光谱数据进行预处理,包含降噪、去基线与插值处理;s13)基于寻峰算法,通过迭代动态调整峰高、峰间距和峰突出度,预寻特征并标记起始与截止拉曼位移;s14)依据纯净物实际理化信息,调整预寻特征,并为特征添加对应的振动/转动模式;s15)为每项特征进行建库,并将该纯净物与特征组合入库;

3、所述样品识别步骤如下:s21)获取待识别样品拉曼光谱数据rr;s22)对待识别样品拉曼光谱数据进行预处理,包含降噪、去基线与插值处理,得到预处理后拉曼光谱数据rp;s23)获取标准库中特征数据集f,依次将每个标准库特征数据与当前待识别样品进行匹配,在与某一标准库特征进行匹配时,截取rp对应的拉曼范围数据,计算特征相似度;对于特征相似度高于特征阈值的标准库特征加入到匹配特征集mf,若mf为空,则转入步骤s27,否则进入步骤s24;s24)通过匹配特征集mf与标准库中的物质与特征组合表进行匹配,具体包括:求每种标准库中物质的特征集sf与匹配特征集mf的交集大小cm,再将cm与对应物质的特征集sf的大小cs的比值,加入到匹配物质-匹配特征比例集msf;s25)从msf中筛选剔除匹配特征比例小于特征比例阈值的项,若此时msf征为空,则转入步骤s27,否则进入步骤s26;s26)遍历msf,对于每一匹配物质都使用标准库中该物质的所有特征构造回归光谱rf,并使用其所有的特征范围从rp中截取相应拉曼位移的光谱数据并构造匹配光谱,计算特征相似度,并将结果加入到匹配物质-回归系数集msr中;s27)对匹配物质-回归系数集按回归系数降序排序,选取第一项作为最终识别结果,并按其在标准特征库中的所有特征起始、截止位移与特征对应的振动/转动模式标定待测样品拉曼光谱。

4、进一步地,所述步骤s12采用whittaker平滑算法进行降噪处理,设定平滑窗口数为5,拟合阶数为2,得到去基线纯净物拉曼光谱数据。

5、进一步地,所述步骤s12采用airpls算法进行去基线处理,设定拟合误差为1000,拟合阶数为2,最大迭代次数为15,得到去基线纯净物拉曼光谱数据。

6、进一步地,所述步骤s12的插值处理采用三次样条插值法,插值的间隔为1,插值范围为158-3412。

7、进一步地,所述步骤s23和s26中使用下式计算特征相似度:

8、

9、进一步地,所述特征包括面外摇摆振动、弯曲振动、伸缩振动、面内摇摆振动、不对称变形振动、对称变形振动、不对称伸缩振动以及对称伸缩振动。

10、进一步地,所述纯净物为乙醇,对应的特征为oh面外摇摆振动、c-c弯曲振动、c-o伸缩振动、oh面内摇摆振动、ch3和ch2不对称变形振动、ch3和ch2对称变形振动、ch3和ch2不对称伸缩振动以及ch3和ch2对称伸缩振动。

11、本发明对比现有技术有如下的有益效果:本发明提供的基于拉曼理化特征的纯净物识别方法,具有如下优点:

12、1.本发明从理化特征出发对未知样品进行识别,并且最终结果回归理化特征用于支撑与解释识别结果;

13、2.相比于传统的数据建库,本发明仅对特征区域建库,排除非有效信息区域的干扰,降低噪声信号对识别结果的干扰;

14、3.由于对理化特征建库,极大的减小单条标准数据的范围,从而可以实现更为灵活的特征组合匹配,适用于不同光谱像素长度的拉曼光谱数据;

15、4.通过对粒度更低的特征进行匹配,从而排除非有效信息区域信号的影响,提高识别的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1