一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法

文档序号:28549865发布日期:2022-01-19 15:29阅读:260来源:国知局
一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法

1.本发明属于面向化学品风险管理的高通量筛查技术领域,一种基于定量构效关系(qsar)模型预测化学品在四种环境介质(大气、水体、土壤、沉积物)中降解半减期的方法。


背景技术:

2.化学品的环境持久性评价,是化学品风险管理的核心内容之一。环境持久性指化学品在环境中难以降解转化、长时间保持不变的能力。评价化学品环境持久性的最常用指标是其在环境介质中的降解半减期(t
1/2
),即化学品从环境介质中降解去除一半起始量所需的时间。t
1/2
是决定化学品环境归趋的重要指标,也是一些全球法规评价和管控持久性、生物蓄积性和有毒(pbt)化学品的关键参数。
3.化学品在环境介质中的t
1/2
由多种降解反应(如生物降解、水解、光解、大气氧化降解等)共同决定。经济合作与发展组织(oecd)主要基于生物降解性测试对化学品的环境持久性进行评价,发布了地表水(oecd导则309)、沉积物(oecd导则308)和土壤(oecd导则307)中化学品生物降解性的测试导则。测试所得各介质生物降解半减期与相关法规(如reach法规)中持久性标准比较,判断一种化学品是否具有非持久性(np)、持久性(p)或非常持久性(vp)。
4.实验测试获取化学品在环境介质中的t
1/2
,效率低、耗时长、成本昂贵,需要发展高效(高通量、低成本)的模拟预测技术。基于定量构效关系(qsar)的计算模拟技术,通过建立化学品分子结构特征与其环境行为参数的关联,可有效预测化学品在环境介质中t
1/2
。随着机器学习算法的发展,基于机器学习算法的qsar在挖掘预测终点与分子特征内在联系方面呈现出较强优势,其中多任务学习技术通过特征和参数共享机制,能够学习不同预测终点间的关联信息,使qsar在同时预测不同终点的基础上,有效提高模型的预测性能,从而有望在化学品t
1/2
的预测方面发挥重要作用,有助于筛选优先控制的持久性化学品。
5.目前,已有一些研究构建了化学品在环境介质中t
1/2
的qsar预测模型。文献“water res.,2019,157,181-190.”构建了芳香烃及其衍生物在水体中生物降解半减期的多元线性回归模型;文献“j.cheminformatics,2018,10,10.”构建了烃类化合物在水体中生物降解半减期的k近邻回归模型;文献“ecotox.environ.safe.,2016,129,10-15.”构建了预测除草剂在土壤中生物降解半减期的支持向量机模型。已有模型的应用域较小,且只适用于预测单一终点,即化学品在单一介质中t
1/2
,忽略了不同终点间的关联,导致模型预测效果难以进一步提升等问题;同时还缺乏化学品在沉积物中t
1/2
的预测模型。
6.基于以上原因,通过搜集文献,全面获取了250种化学品在大气、水体、土壤、沉积物四种介质中的t
1/2
数据,数据集涵盖有机酸、酯、醚、酮、醇、苯酚、苯胺、多环芳烃、杂环化合物、卤代烃等多种化学品,使用多层前馈神经网络结合多任务学习技术,构建了可同时预测化学品在四种介质中t
1/2
的多任务神经网络定量模型,并对模型应用域进行了表征,明确了模型的适用范围。


技术实现要素:

7.本发明构建了一种简单高效的预测化学品在四种介质中t
1/2
的多任务神经网络模型方法,该方法可以根据化学品的smiles码,同时预测化学品在四种介质中的降解半减期,为pbt化学品筛查提供基础工具;在建模过程中参照oecd对qsar模型构建和使用导则,进行了内、外部验证考察模型的稳健性和预测能力。
8.本发明的技术方案:
9.一种预测化学品在四种环境介质中降解半减期的多任务神经网络方法,步骤如下:
10.(1)数据搜集
11.从文献中搜集了250种化学品在四种介质中t
1/2
;利用python 3.8.8软件中rdkit包生成化学品对应的smiles码;
12.(2)计算化学品的分子指纹
13.采用open babel 2.3.2.2软件将记载化学品smiles码的csv格式文件转化成sdf格式文件;将sdf文件输入padel-descriptor 2.21软件中,计算250种化学品的pubchem分子指纹;
14.(3)模型训练
15.将化学品的pubchem分子指纹和logt
1/2
数据合并;将数据集按4:1的比例随机拆分为训练集和验证集,以化学品在四种介质中logt
1/2
(t
1/2
单位:h)为因变量,以化学品的pubchem指纹为自变量,采用多层前馈神经网络结合多任务学习技术,训练多任务模型;为了避免过拟合,采用批处理和dropout方法;通过网格搜索法确定算法的最佳超参数;基于最佳超参数构建模型,并对验证集化合品的logt
1/2
数据进行预测,表征模型的外部预测性能。
16.模型最佳超参数如下:含第一、第二两个隐藏层,分别包含100个和10个神经元;在第一个隐藏层之后设置dropout层,dropout率设置为20%;两个隐藏层都采用线性整流函数(relu)作为激活函数;每批训练16个化学品,总迭代次数为300,即batchsize=16,epoch=300;损失函数指标为均方误差(mse);优化器选择自适应矩估计(adam);优化器步长设置为0.005,即learningrate=0.005;优化时四个任务设置相同的权重因子;
17.(4)模型评估
18.使用训练集测量推测值-预测值决定系数(r2),均方根误差(rmse),平均绝对误差(mae)表征模型拟合优度;验证集的r2,rmse,mae表征模型预测能力;使用训练集的十折交叉验证系数(q
210
)表征模型稳健性。
19.最终模型的预测效果为:
20.化学品在大气中logt
1/2
(t
1/2
单位:h)的预测效果:r
2train
=0.988,rmse
train
=0.094,mae
train
=0.070,q
210
=0.889,r
2test
=0.713,rmse
test
=0.348,mae
test
=0.244;
21.化学品在水体中logt
1/2
(t
1/2
单位:h)的预测效果:r
2train
=0.976,rmse
train
=0.121,mae
train
=0.087,q
210
=0.895,r
2test
=0.802,rmse
test
=0.305,mae
test
=0.205;
22.化学品在土壤中logt
1/2
(t
1/2
单位:h)的预测效果:r
2train
=0.981,rmse
train
=0.112,mae
train
=0.084,q
210
=0.941,r
2test
=0.883,rmse
test
=0.261,mae
test
=0.204;
23.化学品在沉积物中logt
1/2
(t
1/2
单位:h)的预测效果:r
2train
=0.979,rmse
train

0.107,mae
train
=0.079,q
210
=0.924,r
2test
=0.870,rmse
test
=0.261,mae
test
=0.199;
24.(5)应用域表征
25.采用rdkit软件包生成化学品的maccs分子指纹,计算验证集化学品分子a与训练集化学品分子b之间的谷本相似度(tanimotosimilarity),计算式如下:
[0026][0027]
其中,s
ab
是分子a和b的谷本相似度,x
ja
是分子a的第j个指纹特征,x
jb
是分子b的第j个特征,n是指纹的特征位数。
[0028]
定义相似度阈值(s
cutoff
)和最少相似分子数量(n
min
),来定义应用域,即若训练集中与目标分子谷本相似度大于s
cutoff
的化学品数超过n
min
,则判定该分子处于应用域内。本发明的应用域为:s
cutoff
=0.6,n
min
=5。
[0029]
本发明的有利效果是:所建模型可同时预测化学品在四种介质中logt
1/2
,因考虑了不同终点之间的关联信息,模型的预测性能大大提高,且具有明确表征的应用域。该方法简便高效、成本低,有望在化学品降解半减期数据的高通量预测方面发挥作用,为健全化学品管理提供基础工具,服务于化学品风险管控和新污染物治理的国家重大需求。
附图说明
[0030]
图1为整体方法的构建流程。
[0031]
图2为化学品在四种介质中logt
1/2
(t
1/2
单位为:h)测量推测值与预测值的线性拟合图,训练集和验证集化学品分别为200和50种;(a)是在大气中;(b)是在水体中;(c)是在土壤中;(d)是在沉积物中。
具体实施方式
[0032]
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
[0033]
实施例1
[0034]
给定一个化学品2,2'-二氯联苯(cas号:13029-08-8),要预测其在四种介质中logt
1/2
(单位:h)。首先根据2,2'-二氯联苯的smiles码,利用rdkit软件包计算其maccs分子指纹,然后计算其与训练集化学品分子的谷本相似度,计算得训练集中分子与其相似度大于0.6(s
cutoff
)的分子有6个(超过n
min
=5个),所以2,2'-二氯联苯在模型应用域内。进一步利用padel-descriptor软件计算其pubchem分子指纹,使用本发明构建的多任务神经网络模型进行预测。得到结果:
[0035]
logt
1/2(大气)
=2.31,logt
1/2(水体)
=3.79,logt
1/2(土壤)
=4.15,logt
1/2(沉积物)
=4.25,相应的测量推测值为:logt
1/2(大气)
=2.23,logt
1/2(水体)
=3.74,logt
1/2(土壤)
=4.23,logt
1/2(沉积物)
=4.23,预测值与测量推测值非常相符。
[0036]
实施例2
[0037]
给定一个化学品环己醇(cas号:108-93-0),要预测其在四种介质中logt
1/2
(单位:h)。首先根据环己醇的smiles码,利用rdkit软件包计算其maccs分子指纹,然后计算其与训练集化学品分子的谷本相似度,计算得,训练集中分子与其相似度大于0.6(s
cutoff
)的分子
有8个(超过n
min
=5个),所以环己醇在模型应用域内。进一步利用padel-descriptor软件计算其pubchem分子指纹,使用本发明构建的多任务神经网络模型进行预测。得到结果:
[0038]
logt
1/2(大气)
=1.70,logt
1/2(水体)
=1.77,logt
1/2(土壤)
=1.60,logt
1/2(沉积物)
=2.25,相应的测量推测值为:logt
1/2(大气)
=1.74,logt
1/2(水体)
=1.74,logt
1/2(土壤)
=1.74,logt
1/2(沉积物)
=2.23,预测值与测量推测值非常相符。
[0039]
实施例3
[0040]
给定一个化学品正戊烷(cas号:109-66-0),要预测其在四种介质中logt
1/2
(单位:h)。首先根据正戊烷的smiles码,利用rdkit软件包计算其maccs分子指纹,然后计算其与训练集化学品分子的谷本相似度,计算得,训练集中分子与其相似度大于0.6(s
cutoff
)的分子有15个(超过n
min
=5个),所以正戊烷在模型应用域内。进一步利用padel-descriptor软件计算其pubchem分子指纹,使用本发明构建的多任务神经网络模型进行预测。得到结果:
[0041]
logt
1/2(大气)
=1.30,logt
1/2(水体)
=2.75,logt
1/2(土壤)
=3.24,logt
1/2(沉积物)
=3.74,相应的测量推测值为:logt
1/2(大气)
=1.23,logt
1/2(水体)
=2.74,logt
1/2(土壤)
=3.23,logt
1/2(沉积物)
=3.74,预测值与测量推测值非常相符。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1