预测水相中有机化合物与羟基自由基反应速率常数的方法

文档序号：8259730阅读：1059来源：国知局

预测水相中有机化合物与羟基自由基反应速率常数的方法
【技术领域】
[0001]本发明涉及一种通过建立定量构效关系模型(QSAR)预测水相中有机化合物与羟基自由基反应速率常数的方法，属于生态风险评价测试策略领域。
【背景技术】
[0002]羟基自由基(.0H)是水环境中一类常见的活性物种，能够通过水中溶解性物质(如溶解性有机质)的光化学转化过程或人为的高级氧化过程(如Fenton体系)产生。.0Η的标准氧化还原电势为1.9V，是一种重要的强氧化剂，能够与有机污染物发生氧化降解反应。该反应的二级反应速率常数0%)是表征有机污染物与.0H反应强度与能力的参数，也是评估有机污染物在环境中的持久性和进行生态风险评价的一个重要指标。
[0003]化合物的水相kffl可通过实验方法获得。但是实验的方法存在耗时、昂贵、依赖于设备的缺点。截止到2014年11月，美国化学文摘社(Chemical Abstracts Service, CAS)登记的化学品已超过9千万种(http://www.cas.0rs/)，其中投入商业化使用的有机化学品超过14万种。如此数量庞大的有机化学品，无法通过实验方法对其kffl值进行一一测定，从而限制了对其环境持久性的评估。目前仅有1000余种化合物具有可获取的水相kj直，因此，迫切需要发展非实验技术以便高效快捷地获取kra数值，以满足有机化学品生态风险评价和管理的需求。
[0004]定量结构-活性关系(QSAR)是基于分子结构性质来预测化合物的理化性质、环境行为或毒理学参数(统称为活性)的方法。它具有弥补测试数据的缺失、降低测试费用的优点，在有机化学品的生态风险评价领域得到了越来越广泛的重视和应用。通过构建QSAR模型，可以实现高效、快捷地获取有机化学品的kra数据，为化学品的环境持久性和生态风险评估提供支撑。2004年OECD提出了 QSAR模型构建和使用的准则，指出符合以下5个要求的QSAR模型可以应用于化学品的风险评价与管理:(I)具有明确定义的环境指标；(2)具有明确的算法；(3)定义了模型的应用域；(4)模型具有适当的拟合度、稳定性和预测能力；
[5]最好能够进行机理解释。
[0005]目前，国内外用于预测kffl的QSAR方法多集中在气相方面，水相k ^的研宄较少。kffl的气相和水相模型虽有一些相似和关联之处，但也有所区别，如水相中氢键的作用、水分子的极性以及溶剂化效应等因素会显著影响有机物与.0H的反应机制、反应自由能变等，从而改变其反应速率，同一化合物在水相和气相中的kra差别非常显著。因此，对气相kffl具有较好预测效果的QSAR模型并不适用于水相!^^的预测，非常有必要建立针对水相kra的预测模型。关于水相!^^的模型构建，前人开展了少许研宄。目前已构建的水相kffl预测模型虽然有其自身的特点，也存在一些不足之处。这些不足主要体现在以下几方面:第一，大部分模型涵盖化合物种类和数量较少，应用域较窄，如文献“QSAR and Combinatorial Science.2009，28 (11-12): 1309-1316” 中基于多元线性回归(MLR)方法建立的包括酚类、烷烃和醇类的水相QSAR预测模型，涵盖化合物仅55种；文献 “Atmospheric Environment.2008, 42 (33): 7611-7622” 中基于 SAR 方法建立的用于烷烃、醇、有机酸等脂肪族小分子的水相预测模型，仅包含72种化合物。在大部分模型中，很多化合物未被涵盖，如含氮、磷、硫等原子的化合物，这些化合物多为生产和生活中重要的化学品(如农药、抗生素等)，因此非常有必要在模型应用域中涵盖这些类别的化合物。第二，有些模型采用实验测定的参数作为描述符，限制了模型的推广应用，如文献“Physical Chemistry Chemical Physics.2004, 6(16):4118-4126^ , “Internat1nalJournal of Chemical Kinetics.2008，40 (4)，174-188.” 中利用实验测定的键离解能(BDE)来预测化合物的水相kffl，其推广应用很大程度上受到BDE实验值缺乏的限制。第三，模型不够透明，如文献 “Atmospheric Environment.2003, 37 (2): 269-276” 中基于分子结构碎片和人工神经网络(ANN)建立的水相kra预测模型，但由于神经网络模型属于“黑箱模型”，其无法将kra与模型参数的关系用明确的数学表达式呈现出来，也难以对模型进行机理解释，因此不宜被接受和推广使用。第四，一些模型，如文献“Atmospheric Environment.2005, 39(40):7667-7688"构建的模型虽然具有较好的拟合性能，但模型验证和表征并不全面，如欠缺内部和外部验证、模型应用域表征等，不符合OECD对QSAR模型构建和使用准则的要求。此外，还有的模型根据化合物结构和类别进行分类预测，如文献“Environmental Science & Technology.2009，43 (16): 6220-6227” 中应用基团贡献法基于反应官能团的特征对水相kra进行分类预测，文献“环境化学.1999，18(3): 232-237”“哈尔滨工业大学学报2002，34(4): 521-528”等中根据化合物结构和官能团将其划分为烷烃、醇、酚、有机酸等类分别进行预测。分类模型中一般部分化合物的预测模型较优，但也存在预测效果不理想(如拟合R值较低)的类别，且模型形式复杂，不便于应用。基于上述研宄现状，迫切需要发展应用域涵盖化合物数量较多且结构种类丰富、描述符易获得、具有明确算法且透明度高、易于机理解释和便于应用推广的QSAR综合模型。另外，根据OE⑶对QSAR模型构建和使用导则的要求，对模型进行全面的模型性能评估、应用域的表征及机理解释，为有机化学品环境持久性评估及生态风险评价提供基础数据。

【发明内容】

[0006]本发明提供了一种简便、快捷、高效预测有机化学品水相羟基反应速率常数的方法，该方法可以根据化合物分子结构预测其kra数值，进而可以评估其环境持久性，为化学品风险评价和管理提供必要的基础数据。在建模过程中参照OECD对QSAR模型构建和使用导则，不仅进行了内、外部验证考察模型的预测能力和稳健性，而且对模型应用域进行了表征。
[0007]通过查阅大量文献，搜集了水相kffl实验数据，建立了一个涵盖526种有机化合物的数据集，化合物种类不仅包括常见的烃类、芳香类、醇类、酸类化合物，而且涵盖了以往研宄中很少研宄的含氮、磷、硫等杂原子的化合物。
[0008]本发明的技术方案如下:
[0009]预测水相中有机化合物与羟基自由基反应速率常数的方法，步骤如下:
[0010]首先收集526种有机化合物的水相kra数值，将其按照4:1随机拆分为训练集和验证集；训练集中的421种化合物用于构建模型，验证集中的105种化合物用于评估模型的外部预测能力；对上述526种有机化合物的分子结构进行优化，得到相应有机化合物的稳定构型并选取9个量子化学描述符；通过上述稳定构型得到2418个Dragon描述符；采用MLR回归分析方法筛选分子描述符和构建QSAR模型；
[0011]筛选出的最优QSAR模型如下:
[0012]1gkoa= 11.566+6.233 XEhomo-0.074XHATS2s-0.183 XMor23u+0.238 XGATSle-0.099XN-075+0.107XnR = Cp-0.230XnRC0NH2_0.070XC-001+0.080XML0GP+0.113XnS-0.265XnBR+0.651XqH++0.119XEig03_EA(dm)；
[0013]其中，Eikm^示最高占据分子轨道能量，HATS2s是与内蕴状态相关的GETAWAY描述符，Mor23u表不未加权的3D分子结构描述符，GATSle表不Sanderson电负性加权的lag I的Geary自相关指数，N-O75表示苯环上的N原子或与O、N、S、卤素等电负性原子形成离域键的N原子碎片数，nR = Cp表示末端sp2杂化的主碳数目，nRC0NH2表示分子中含RCONH2结构的数目，C-001表示分子中-CH3/CH4结构信息，MLOGP表示Moriguchi辛醇-水分配系数，nS表不分子中含S原子的数目，nBR表不分子中含Br原子的数目，qH+表不H原子最正净电荷，Eig03_EA(dm)表示偶极矩加权的本征值的边界邻接指数。
[0014]所述有机化合物为烷烃类化合物、烯烃类化合物、炔烃类化合物、芳香烃类化合物、醇类化合物、醛类化合物、酮类化合物、醚类化合物、酸类化合物、脂类化合物、齒代类化合物、含氮化合物、含硫化合物或含磷化合物。
[0015]所得模型中每个描述符的方差膨胀因子(VIF)均小于10，且自变量与因变量组成的矩阵MyxW及自变量矩阵M拥K相关指数满足K xx(0.209) ^xy (0.249)，表明模型不存在多重相关性。模型的拟合能力由R2adj和均方根误差(RMSE)表征，R2adj= 0.805，RMSE =0.165，表明该模型具有良好的拟合能力；模型的稳健性由内部验证的交叉验证系数(Q\J和 Bootstrapping 方法所得 Q2boot评价，Q \。。= 0.797, Q 2画=0.791, R 2和 Q 2之差远小于
0.3，可认为该模型不存在过拟合现象，具有良好的稳健性；在模型的外部验证过程中，外部预测相关系数的R2ext= 0.802，Q2ext= 0.801，RMSE ext= 0.232，表明该模型具有良好的外部预测能力。采用Williams图表征模型的应用域。结果表明所建的模型能够有效地用于烷烃类化合物、烯烃类化合物、炔烃类化合物、芳香烃类化合物、醇类化合物、醛类化合物、酮类化合物、醚类化合物、酸类化合物、脂类化合物、齒代类化合物、含氮化合物、含硫化合物、含磷化合物等的水相kra预测。
[0016]本发明的有益效果是:所建模型可以用于预测多种类有机化合物的水相kffl。该方法简便快捷、成本低廉。水相kra预测方法符合OECD规定的QSAR模型发展和使用导则，因此，使用该发明专利的kra预测结果，可以为化学品监管提供数据支持，对化学品的生态风险性评价具有重要意义。
[0017]本发明提供的方法具有如下特点:
[0018]1.模型数据集涵盖烃类、醇类、酮类、酚类、酸类、芳香类等多种结构的有机化合物，尤其包含了其他模型中很少研宄的含氮、磷、硫元素的化合物，应用域广，是目前涵盖化合物数目最大、种类最丰富的kra预测模型；
[0019]2.建模过程中采用OE⑶对QSAR模型构建和使用导则推荐的透明算法——MLR算法，所建模型包含2个量子化学描述符和11个Dragon描述符，模型算法透明，机理易于解释，便于应用推广；
[0020]3.依照OECD关于QSAR模型的构建和使用导则构建和评估模型，所建模型具有良好的拟合能力、稳健性和预测能力，可以用于化学品的风险评价与管理。
【附图说明】
[0021]图1为训练集logkra的实测值与预测值的拟合图，训练集化合物为421种。
[0022]图2为验证集log kra的实测值与预测值的拟合图，验证集化合物为105种。
[0023]图3为模型应用域的Williams图。
【具体实施方式】
[0024]以下结合附图和技术方案进一步说明本

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔显亮;罗翔;陈景文;李雪花;
技术所有人：大连理工大学;
我是此专利的发明人

上一篇：一种基于自回归预测的数据分析报警方法
上一篇：基于多Agent的湖库、流域的水质监测断面优化布设方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。