一种基于机器学习的有机硅污染物非靶标筛查方法及系统与流程

文档序号:34445310发布日期:2023-06-13 10:07阅读:27来源:国知局
一种基于机器学习的有机硅污染物非靶标筛查方法及系统与流程

本发明涉及环境非靶标物质筛查,更具体的说是涉及一种基于机器学习的有机硅污染物非靶标筛查方法及系统。


背景技术:

1、近年来,有机硅聚合物在耐温性能、耐候性能、电气性能、耐辐射性、表面性能、可修复性、安全环保性(低可燃性、低毒无味、生理惰性、人体友好等)等方面都呈现出优异特性进而被大量合成。在有机硅聚合物产品的使用和生产过程中,其中残留的小分子单体物质有可能通过各种途径进入到环境中。因此,随着有机硅的大量生产和使用,人们开始关注单体物质如硅氧烷的毒性效应以及环境效应。表现为甲基硅氧烷d4、d5在动物体内难以降解并具有积聚特性,同时,已有研究表明甲基硅氧烷对于动物体具有生殖、免疫和神经毒性。

2、目前,有机硅种类众多,以硅氧烷类为例,除常见的二甲基硅氧烷,苯基、三氟丙基、氨基、乙烯基等特殊支链硅氧烷也有广泛的生产及环境排放。然而,由于分析方法的限制,无法实现对环境中有机硅化合物的全组分研究评估。为了能够全面合理的评价有机硅的环境效应,非靶标筛查逐渐发展起来被用作复杂环境基质中筛查未知物的主要手段。目前高分辨质谱如gc-qtof由于高分辨全扫描模式以及精确质量数具有了发现非目标污染物的潜力,为有机硅高通量全组分分析提供了理论可能,但是传统的污染物筛查方法都是基于谱图比对,对物质的分子式和结构式判断,最后用标准品进行验证,这种方法并不适用于硅氧烷等新型污染物。目前缺少对于其性质和毒性研究,质谱库例如nist质谱库仅有百余种硅氧烷的谱图解析,这对于有机硅的筛查是致命的缺陷,同时这种基于质谱信息解谱的方法耗时耗力,很难快速而又高效地筛查有机硅污染物,对于某些含有众多有机硅样品的介质,如果逐个进行解谱,其筛查难度和工作量巨大。

3、质谱比对这种基于先验数据的方法完美适用于机器学习,已经成功应用在蛋白质组学以及代谢组学领域,迄今为止尚未有人针对有机硅物质利用进行机器学习的非靶标筛查。因此,提出一种基于机器学习的有机硅污染物非靶标筛查方法,用于复杂环境介质中含硅有机物的筛查与鉴定,实现快速高效筛查是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种基于机器学习的有机硅污染物非靶标筛查方法及系统,用于复杂环境介质中含硅有机物的筛查与鉴定,解决硅氧烷难以进行解谱的问题,为了实现上述目的,本发明采用如下技术方案:

2、一种基于机器学习的有机硅污染物非靶标筛查方法,包括:

3、获取待测目标的质谱数据;

4、对质谱数据进行特征工程处理得到第一数据集;

5、构建随机森林模型,所述随机森林模型基于第一数据集进行训练得到待测目标的环线形分类结果,将环线形分类结果耦合第一数据集得到第二数据集;所述随机森林模型基于第二数据集进行训练得到待测目标的分子式数据,将分子式数据耦合第二数据集得到第三数据集;所述随机森林模型基于第三数据集进行训练得到待测目标的基团类别;

6、对随机森林模型进行超参数调整;

7、输出结果。

8、可选的,所述特征工程包括硅同位素精确质量差异和峰强度筛选。

9、可选的,所述环线形分类的具体步骤为,将环线形变换为二进制表达形式,环形标记为0,线形标记为1。

10、可选的,所述得到待测目标的分子式数据的具体步骤为,获取待测目标的分子式数据,将待测目标的分子式拆分成原子个数,包括c、h、o和si的原子个数。

11、可选的,所述第三数据集包括第一数据集、待测目标的环线形分类结果和待测目标的分子式数据,模型的标签为基团分类标签,包括纯甲基无特殊基团、氨基、苯基、乙烯基、含氟、羟基和直接与si相连的h原子,分别从0-6按数字表示。

12、可选的,所述随机森林模型是基于python语言环境的sklearn第三方库进行构建,其中数据集的80%用于训练,20%用于测试。

13、可选的,所述随机森林模型进行训练的具体步骤为,所述随机森林模型通过第一数据集进行训练,选用分类模型进行环线形分类预测;基于第二数据集进行训练,选用回归模型预测出原子个数;基于第三数据集进行训练,选用多分类模型预测出基团类别。

14、可选的,所述对随机森林模型进行超参数调整的具体步骤为,根据sklearn库中的gridsearchcv接口利用网格搜索寻找最佳参数,利用调整的参数训练学习器,从所有的参数中找到在测试集上精度最高的参数。

15、可选的,所述输出结果还包括传统非靶标筛查结果与机器学习相互对比验证,得出随机森林模型训练效果。

16、可选的,一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现基于机器学习的有机硅污染物非靶标筛查方法。

17、可选的,一种基于机器学习的有机硅污染物非靶标筛查系统,包括:

18、获取模块:用于获取待测目标的质谱数据;

19、处理模块:构建随机森林模型;通过所述随机森林模型基于第一数据集进行训练得到待测目标的环线形分类结果,将环线形分类结果耦合第一数据集得到第二数据集;所述随机森林模型基于第二数据集进行训练得到待测目标的分子式数据,将分子式数据耦合第二数据集得到第三数据集;所述随机森林模型基于第三数据集进行训练得到待测目标的基团类别;

20、调整模块:用于对随机森林模型进行超参数调整;

21、输出模块:用于输出结果。

22、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于机器学习的有机硅污染物非靶标筛查方法及系统,具有如下有益效果:

23、本发明将环线形分类切换为二进制表达方便模型学习;

24、本发明适用于硅氧烷等新型污染物,将机器学习应用于基于先验数据的质谱比对方法,用于复杂环境介质中含硅有机物的筛查与鉴定。对质谱数据进行特征工程处理得到第一数据集,进行环线形分类结果预测;将分类结果耦合第一数据集得到第二数据集,进行待测目标的分子式数据预测;将分子式数据预测结果耦合第二数据集得到第三数据集,进行基团类别预测;基于第一数据集、第二数据集和第三数据集分别对随机森林模型进行依次预测训练,得到最优的随机森林模型,降低基于质谱信息解谱的方法的解谱难度,快速而又高效地筛查有机硅污染物。

25、本发明通过多层机器学习模型模仿神经网络层级关系,首先获取质谱数据,第二数据集的补充内容就是第一层模型的输出结果;第三数据集的补充内容也是第二层模型的输出结果,通过依次向后反馈的模型结果,扩大数据集规模,提高对于原子个数和基团分类的预测效果,提高准确率。



技术特征:

1.一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,包括:

2.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述特征工程包括硅同位素精确质量差异和峰强度筛选。

3.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述环线形分类的具体步骤为,将环线形变换为二进制表达形式,环形标记为0,线形标记为1。

4.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述得到待测目标的分子式数据的具体步骤为,获取待测目标的分子式数据,将待测目标的分子式拆分成原子个数,包括c、h、o和si的原子个数。

5.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述第三数据集包括第一数据集、待测目标的环线形分类结果和待测目标的分子式数据,模型的标签为基团分类标签,包括纯甲基无特殊基团、氨基、苯基、乙烯基、含氟、羟基和直接与si相连的h原子,分别从0-6按数字表示。

6.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述随机森林模型是基于python语言环境的sklearn第三方库进行构建,其中数据集的80%用于训练,20%用于测试。

7.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述随机森林模型进行训练的具体步骤为,所述随机森林模型通过第一数据集进行训练,选用分类模型进行环线形分类预测;基于第二数据集进行训练,选用回归模型预测出原子个数;基于第三数据集进行训练,选用多分类模型预测出基团类别。

8.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述对随机森林模型进行超参数调整的具体步骤为,根据sklearn库中的gridsearchcv接口利用网格搜索寻找最佳参数,利用调整的参数训练学习器,从所有的参数中找到在测试集上精度最高的参数。

9.根据权利要求1所述的一种基于机器学习的有机硅污染物非靶标筛查方法,其特征在于,所述输出结果还包括传统非靶标筛查结果与机器学习相互对比验证,得出随机森林模型训练效果。

10.一种基于机器学习的有机硅污染物非靶标筛查系统,其特征在于,包括:


技术总结
本发明公开了一种基于机器学习的有机硅污染物非靶标筛查方法及系统,涉及环境非靶标物质筛查技术领域,包括:获取待测目标的质谱数据;对质谱数据进行特征工程处理得到第一数据集;对待测目标进行环线形分类,将分类结果耦合第一数据集得到第二数据集;获取待测目标的分子式数据,耦合第二数据集得到第三数据集;基于第一数据集、第二数据集和第三数据集分别对随机森林模型进行依次训练;对随机森林模型进行超参数调整;输出结果。本发明适用于硅氧烷等新型污染物,将机器学习应用于基于先验数据的质谱比对方法,用于复杂环境介质中含硅有机物的筛查与鉴定,降低基于质谱信息解谱的方法的解谱难度,快速而又高效地筛查有机硅污染物。

技术研发人员:曹生彧,徐琳,蔡亚岐,史亚利
受保护的技术使用者:国科大杭州高等研究院
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1