基于金属定量构效关系的海水急性基准预测方法_3

文档序号:9687709阅读:来源:国知局
取途径,体外实验R2含0.81,体内试验R2> 0.64。显著水平为α,当ρ<α时,回归方程显著。
[0130] 式中,yi表示第i种金属实测的毒性值,y表示第i种金属预测的毒性值,j表示各毒 性值的平均值,η为训练集中金属的个数。
[0131] 方程(4)、巧)的相关系数和标准偏差可W度量回归直线的拟合优度;方程(6)是检 验因变量与自变量的线性关系是否显著的通用方法。
[0132] 预测金属隶对八科模式生物的急性毒性值,结合SSDs曲线预测基准参考阔值。分 别构建八科模式生物的毒性预测方程,如表3所示。计算隶的最优结构参数σρ = 〇.065,依次 代入方程获得各物种的毒性预测值。
[0133] 表3.八科模式生物的QSAR毒性预测方程
[0134]
[0135]
[0136] 步骤e,QSAR模型的内部验证,包括交叉验证和y随机化验证,分别用el和e2表示;
[0137] el,模型的交叉验证:
[0138] 每个物种的QSAR模型还进行留一法交叉验证,方法的核屯、思想是随机从训练集中 抽出一个数据,用其他的毒性数据和步骤C获得的最佳结构描述符建立一元回归模型,根据 抽出数据的预测值与实验值的比较,来校验所建立的网络模型。为了减少交叉验证结果的 可变性,对一个样本数据集进行多次不同的划分,得到不同的互补子集,进行多次交叉验 证。本步骤中,取多次验证的平均值作为验证结果。
[0139] 此内部验证方法的优势在于用几乎所有的样本来训练模型,最接近样本,运样评 估所得的结果比较可靠;实验没有随机因素,整个过程是可重复的。
[0140] 具体步骤如下:
[0141] 步骤el_l,在给定的建模样本中,选取大部分样本进行建模型,留小部分样本用建 立的模型进行预测,并计算运小部分样本的预测误差;
[0142] 步骤el_2,记录每个方程中预测误差的平方加和,直到所有的样本都被预报了一 次而且仅被预报一次;
[0143] 步骤el_3,计算交叉验证相关系数妒。V和交叉验证均方根误差RMSECV,计算公式如 下所述;判别依据:Q2cv〉0.6,R 2-Q2cv含0.3;
[0146]式中,y产S表示第i个化合物毒性的实测值,代表第i个化合物毒性的预测 值,歹'w代表训练集毒性的平均值,η表示训练集中化合物数。
[0147]方程(7),(8)是留一法交叉验证的指示参数,可有效降低模型对训练集数据的过 拟合,测定训练集中有无特定金属对模型稳健性的影响。
[014 引 W 砂海卿的急性毒性预测方程 log-LC50=(49.827±11.999)w+(-2.824±1.216) 为例,对模型进行留一法内部验证,相关拟合参数见表4。根据步骤e中的公式(7)和(8),计 算 Q2ct = 0.678,RM沈V = 0.6888,R2-Q2ct = 0.124。满足模型稳健性判别依据Q2ct〉0.6,R2-Q2cv <0.3,该模型通过内部验证。
[0149] 表4.模型留一法内部验证相关参数
[0150]
[0151] ~e2,模型的y随机化验证: '
' ' '
[0152] 对QSAR模型进行y随机化验证,W说明自变量和因变量之间的不存在偶然相关性。
[0153] 具体步骤如下:
[0154] 步骤e2_l,在给定的样本中,将原始的因变量(建模海洋生物的急性毒性观测值) 随机打乱顺序,同时保持自变量顺序不变,组成新的数据组;
[0155] 步骤e2_2,用新样本构建QSAR模型,并计算其标准偏差RMSE和交叉验证的均方根 误差RMSEV,计算公式如下所述:
[0158] 式中,捉As表示新的QSAR模型中第i个化合物毒性的实测值,yfw代表第i个化合 物毒性的预测值〇,/"'"'"'表示新的054財莫型进行留一法交叉验证时第1个化合物毒性的预测 值,η表示训练集中化合物数。
[0159] 步骤e2_3,所述的步骤e2_l、e2_2重复进行50次,WRMSE为横坐标、RMSECV为纵坐 标作图,比较y随机化得到的QSAR模型的RMSECV和RMSE是否显著增加。
[0160] W 美洲牡颇的急性毒性预测方程 l〇g-LC50 = (50.518±12.301)〇p+(-4.729± 1.331)为例,将因变量(急性毒性观测值)顺序随机打乱,自变量(软指数)顺序不变,组成新 的数据组,计算新样本的RMSECV和RMSE,重复50次。结果如图2所示。从图2中可W清楚地看 到,对因变量进行随机排序后,用新样本构建的QSAR模型,其交叉验证均方根误差RMSECV和 标准偏差RMSE运两项指标,与原始样本下的QSAR模型相比,大约增加了一倍,表明自变量和 因变量之间不存在随机相关性,即获得的QSAR模型不是随机的。
[0161] 步骤f,QSAR模型的外部验证;
[0162] 对每个物种的QSAR模型进行外部验证,将样本划分为训练集和验证集,训练集用 于构建模型,验证集用于对模型进行外部验证,只有通过外部验证,才能够说明QSAR模型的 预测能力。
[0163] 具体步骤如下:
[0164] 步骤η,将样本划分为训练集和验证集,划分方法为:将样本按毒性从小到大顺序 排列,验证集数据均匀地分布在训练集数据范围内,且验证集数据不少于总样本的20% ;
[0165] 步骤f 2,用训练集数据构建QSAR模型;
[0166] 步骤巧,计算验证集数据预测值与观测值之间的交互验证系数Qext2和一致性相关 系数CCC,计算公式如下所述;判别依据:Qext 2〉0.6,CCC〉0.85。
[0170]式中,yi表示观测值;表示预测值;y表示观测值的均值;;表示训练集观测值 的均值;^表示预测值的均值;next表示验证集的样本数。
[0171 ] W美洲牡颇为例,将其急性毒性数据划分为训练集和验证集,训练集数据用来构 建QSAR模型,获得回归方程:
[0172] l〇g-LC50 = (50.95717 ± 20.07892)σρ+(-4.57305 ± 2.18229)
[0173] 用验证集数据对模型进行外部验证,根据步骤f中的公式(11)、(12)和(13),计算 得到Qext2 = 0.8105,CCC = 0.8940。满足模型外部验证判别条件Qext2〉0.6,CCC〉0.85,该模型 通过外部验证。
[0174] 模型外部验证分组及相关参数如表5所示:
[0175] 表5.模型外部验证分组及相关参数
[0176]

[0177] W观测值为横坐标,预测值为纵坐标作图,如图3所示。
[0178] 步骤g,模型适用范围计算;
[0179] 经过校验的模型,采用杠杆值法计算模型的适用范围,^Williams图直观表示。此 方法可保证模型在预测过程中具有最佳的可靠性。
[0180] 杠杆值hi的计算公式为:
[0181]
[0182] 式中,XI代表第i个金属的结构参数组成的列向量;对于单参数模型,

;χτ表示矩阵X的转置矩阵,(χΤχ尸表示对χΤχ矩阵的逆矩阵。
[0183] 临界值h*的计算公式为:
[0184]
(15)
[0185] 式中,P代表模型中变量数,单参数模型中p=l,n代表模型训练集化合物的数量, 根据步骤a-f校验过后各QSAR方程中训练集金属个数决定。
[0186] W杠杆值h为横坐标,W各数据点的标准残差为纵坐标,绘制Williams图。在图中h <h*的坐标空间为模型的适用范围。
[0187] 计算模型适用范围绘审ijWilliams图。W美洲牡颇的急性毒性预测方程log-LC50 = (50.518±12.301)邱+(-4.729±1.331)为例,训练集各金属的结构参数和毒性终点如表6 所示。临界值 h*=3*( 1+1 )/8 = 0.75。
[0188] 表6.美洲牡颇的急性毒性预测方程适用范围的计算
[0189]
[0190] W各金属最优结构参数的杠杆值为横坐标,预测残差为纵坐标绘制Williams图, 如图4所示。图中Ξ条虚线内部的空间为模型的适用范围,计算结果显示训练集的8种金属 在模型的预测范围内。
[0191] 步骤h,采用获得的毒性预测值和物种敏感度分析对未知金属的毒性和基准预测 值进行快速筛选与预测。
[0192] 步骤hi,按照步骤a-g所述的方法,依次获得优选五口八科海洋生物的单参数QSAR 预测方程。
[0193] 步骤h2,捜集并整理待预测金属在八个方程中出现的所有结构描述符的值,代入 方程计算待预测金属对各海洋物种的急性毒性终点。
[0194] 步骤h3,每种金属对应的各物种金属毒性数据由低(最敏感物种)到高(最不敏感 物种)排序
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1