一种通过定量构效关系模型预测有机物液相蒸气压的方法

文档序号:6440769阅读:367来源:国知局
专利名称:一种通过定量构效关系模型预测有机物液相蒸气压的方法
技术领域
本发明涉及一种通过建立定量构效关系模型OiSAR)预测有机化学品液相蒸气压的方法,属于生态风险评价测试策略领域。
背景技术
蒸气压是在一定温度下,与固态或液态纯物质达到平衡时,该物质在蒸气相或空气中所能达到的最大的量,是表征有机污染物进入环境后发生迁移、转化等环境行为的一个重要的基本参数。它决定了有机污染物的挥发性,影响着有机污染物在气相和环境其它相之间的迁移和分配行为、在大气中的停留时间、以及远距离迁移能力等。根据与气相平衡的纯物质的状态,蒸气压分为固相蒸气压(Ps)和液相蒸气压(PJ。在实际的应用中,Pl比 Ps更受到环境界的关注。这是由于环境中的有机污染物常以分子的形式分散于各个环境介质中,彼此之间的距离较大,难以聚集而形成晶体,因此它们在实际环境中的行为与溶液中的行为比较相似,故&比Ps更能表现出有机污染物在环境中的挥发性。
最初,化合物蒸气压数据是通过实验方法获得。但是仅通过实验方法获取以每年上万种速度增长的化合物的蒸气压数据,不仅工作量大,而且在时间上也是滞后的。这可能导致化学品未经评价而进入环境,对环境造成不可逆转的污染和破坏。因此,前人通过发展计算的方法来预测化合物的蒸气压,取得了有效的进展。其中,QSAR模型是一个很重要的应用。
QSAR是指关联有机污染物的分子结构与其理化性质、环境行为和毒理学参数(统称为活性)的定量预测模型。基于分子结构是决定其理化性质、在环境中的迁移转化行为和生态毒理学效应的内因,分子结构与有机化合物理化性质、环境行为参数和生态毒理学效应参数之间的(定量)关系是可以被认识、表征和应用的,所以通过QSAR模型估测化合物的蒸气压是可行的。
2004年经济合作与发展组织(0E⑶)提出了 QSAR模型构建和使用的导则。该导则规定,具有如下5个标准的QSAR模型,可以应用于化学品的管理与风险评价(1)具有明确定义的环境指标;( 具有明确的算法;C3)定义了模型的应用域;(4)模型具有适当的拟合度、稳定性和预测能力;( 最好能够进行机理解释。目前,已有许多研究者应用QSAR方法成功地建立了多种化合物蒸气压的预测模型。如文献“SAR QSAR Environ. Res. 2003,14 97-111”利用量子化学描述符,应用PLS方法建立了新兴污染物-多溴代联苯醚(PBDEs)的蒸气压预测模型,具有很好的预测能力和稳健性;文献Chemosphere. 2007,66 :1998-2010 和Chemosphere. 2010,80 :65-670应用8种静电描述符和线性回归方法分别建立了 107种多氯联苯醚(POTEs)和22种多溴联苯醚(PBDEs)在^SK温度下的蒸气压预测模型,其相关系数均达到0. 99以上。但是上述模型只适用于某种单一结构类型的化合物,即模型的应用域小。文献“Atmospheric Environment. 2010,44 1似8_1436”则采用量子化学参数, 通过PLS方法建立了 341种卤代芳香族化合物的蒸气压预测模型,得到了良好的线性关系(r2 = 0.97),并提出了氯代芳香族和溴代芳香族化合物其蒸气压之间的线性关系;文献"J. Chem. Inf. Comput. Sci. 1998,38 :321_324”采用结构、几何、静电、拓扑和量子化学描述符,通过主成分分析和线性回归结合的方法,成功建立了 479种不同种类化合物的蒸气压 QSAR模型(r2 = 0. 96)。上述研究建立的蒸气压QSAR模型,虽然应用域较广,但是只能预测 T = ^SK温度下的蒸气压。然而在评价污染物在不同相中分布的实际应用中,由于不同国家和地区所处的纬度和海拔各不相同,所关注的环境温度也互不相同。蒸气压具有较强的温度依附性,为了研究污染物在不同地区乃至全球的环境行为,仅仅考虑单一温度下的蒸气压尚不满足要求。因此,有必要建立一个应用域覆盖多种不同种类化合物的QSAR模型, 并将温度作为一个变量加入模型。同时,应OECD的要求,基于机理分析建立模型后,对模型进行应用域的表征及机理解释。发明内容
本发明的目的是发展一种简便、快捷、高效预测有机化合物液相蒸气压的方法。该方法可以根据化合物结构预测出其液相蒸气压,进而对目标化合物的在环境中不同相的迁移转化进行预测和评价,为化学品风险评价和环境监管提供必要的基础数据。
本发明为保证用于建模数据的准确性,所收集数据均为已发表文献中的实验测定值。最终得到661化合物在不同温度下的10396个液相蒸气压数据。
在建立模型之前,根据影响有机化合物液相蒸气压大小的因素,选取相应描述符分别表征分子的体积,电荷分布,氢键作用,色散力,极性-非极性表面积比,分子形状和电子信息,包括14个量子化学描述符,31个Discovery Studio描述符,17个Dragon描述符。
依据蒸气压数据值的大小排序后,每隔3个蒸气压数据选取1个进入验证集,其余数据进入验证集,即按照3 1的比例分成训练集和验证集。训练集用来建立模型,验证集用于模型建立后的外部验证。建模过程中,将1/T作为一个描述符,对训练集中的蒸气压数据和上述63个描述符进行PLS回归分析。筛选出的最优模型共包含8个描述符,线性关系式如下
logPL = 9. 417-2. 625 X 1031/T_8. 692Χ 10_2μ -5. 843 X KT1NHD-L 907 X KT1MFP
+1. 424JRNCG+4. 023Χ0Α-5· 012X 10_1Xlsol+3. 157GATSlv
其中,1/T表示温度的倒数,μ表示偶极距,NHD表示氢键供体数目,MFP表示极性表面积比,JRNCG表示最负电荷比,XOA表示平均连接性指数chi-0,Xlsol表示溶剂连接性指数chi-1,GATSlv表示范德华体积加权的Geary自相关指数。
在最优模型中,训练集数据个数η = 7797。模型的拟合能力由R2和均方根误差 (RMSEts)表征,R2 = 0. 923, RMSEts = 0. 447,表明该模型具有良好的拟合能力。模型的稳健性由内部验证的交叉验证系数(Q2cv)评价,Q2ct = 0.921,R2和Q2ct之差远小于0.3,可认为该模型不存在过拟合现象,具有良好的稳健性。在模型的外部验证过程中,验证集数据个数 nEXT = 2687,外部预测相关系数的平方Q2ext = 0. 919,RMSEext = 0. 455,表面该模型具有良好的外部预测能力。模型的应用域表征采用欧几里德距离方法,结果表明该模型可以有效预测烷烃类、醇类、酮类、羧酸类及取代物、苯、联苯、苯酚、多环芳烃及取代物等有机化合物的蒸气压。
本发明的有益效果是采用本发明方法可以快速,便捷,有效地预测不同环境温度下多种类有机化合物的液相蒸气压。该发明涉及的预测方法的建立和验证严格依照OECD规定的QSAR模型发展和使用的导则,因此使用该发明专利的&预测结果,可以为化学品监管工作提供重要的基础数据,并对生态风险评价具有重要的指导意义。
本发明提供的方法具有如下特点
1.按照OECD关于QSAR模型构建和使用的导则,建立的模型具有良好的拟合能力, 稳健性和预测能力。
2.模型的应用域涵盖脂肪族和芳香族类多种结构的有机化合物,可用于预测多种不同种类化合物,在不同温度下的液相蒸气压,且温度覆盖范围广泛,可为有机化学品生态风险评价及在不同地区乃至全球的环境行为提供基础数据。
3.建模过程中描述符的选取是基于机理分析进行的,故易于进行机理解释。建模后机理解释是针对模型中包含的描述符分析其对蒸气压的影响,使建立的模型可信度更尚ο


图1为训练集log Pl的实测值与预测值的拟合图。
图2为验证集log Pl的实测值与预测值的拟合图。
图3为建立模型的应用域表征图。
具体实施方式
实施例1
给定一个化合物肉桂酸甲酯,含有苯环结构和氧原子。要预测其在270K,285K, ^8Κ,310Κ,330Κ温度下的蒸气压。首先需要根据肉桂酸甲酯的结构信息,使用M0PAC2009 软件对其进行结构优化后,即可进行计算得出μ的值为5. 574;通过Draogon软件计算出 Χ0Α, Xlsol 和 GATSlv,其值分别为 0. 734,5. 826 和 2. 156 ;通过 Discovery Studio 软件计算NHD,MFP和JRNCG,其值分别为0,0. 155和0. 334。然后通过得到的应用域表征图,可以得出该化合物落在应用域范围内,故可以利用本模型进行预测。将T = 270K,285K,298K, 310Κ,330Κ 和 μ = 5. 574,XOA = 0. 734,Xlsol = 5. 826, GATSlv = 2. 156,NHD = O,MFP =0.155,JRNCG = 0. 334分别代入已得到的线性关系式
logPL = 9. 417-2. 625 X 1031/Τ_8· 692 X 1(Γ2 μ _5· 843 X KT1NHD-L 907 X KT1MFP
+1. 424JRNCG+4. 023Χ0Α-5· 012X 10_1Xlsol+3. 157GATSlv
即可得出 logPL在 T = 270K, 285K, 298K, 310K, 330K 时分别为 0. 102,0. 614,1. 016,1.357,1. 870。与其在 T = 409K, 444K, 459K, 471K, 510K 的 logPL 实验数据 3. 303,3. 902, 4. 125,4. 299,4. 762进行拟合,得出二者相关性系数R2 = 0. 9992,预测值与实验数据十分相符。
实施例2
给定一个实验数据较多的化合物丙醇。预测其在四81(,3031(,3081(,3131(,3181(, 321温度下的蒸气压并与实验值进行对比。根据丙醇的结构信息,使用M0PAC2009、Dragon 和 Discovery Studio 软件计算得出其 μ , NHD, MFP, JRNCG, XOA, Xlsol 和 GATSlv 的值分别为2. 177,1,0. 229,0. 805,0. 854,1. 914,1. 333。通过应用域表征图,可以得出丙醇落在应用域范围内,可以利用本模型进行预测。将T = 298K, 303K, 308K, 313K, 318K,323K和上述描述符数据代入建模已得线性关系式,即可得出IogPL在T = 298K, 303K, 308K, 313K, 318K,323K 时分别为3. 307,3. 453,3. 593,3. 730,3. 861,3. 989。与其在对应温度下的logPL实验数据值 3. 459,3. 602,3. 730,3. 857,3. 981,4. 094 进行比较,差值在 0. 120 0. 152 之间。预测值与实验值十分相近,说明其预测性良好。
实施例3
给定化合物正二十七烷。预测其在较高温度401,423K, 432K, 452K, 462K下的液相蒸气压。根据正二十七烷的结构信息,分别使用M0PAC2009、Dragon和Discovery Studio 软件计算得出其 μ,NHD, MFP,JRNCG, Χ0Α, Xlsol 和 GATSlv 的值分别为 0. 063,0,0,0. 045, 0.729,13. 414 和 3.074。将 T = 40Ι,423Κ,43Ι,452Κ,46^(和计算所得描述符值代入建模已得线性关系式,即可得出正二十七烷在T = 40Ι,423Κ,43Ι,452Κ,46^(温度下的 IogPL值分别为0. 125,0. 449,0. 579,0. 847和0. 973。但是与其对应温度下的logPL实验值-0. 228,0. 430,0. 745,1. 330,1. 603相比较,差值比较大。但通过已表征的应用域,可以发现该化合物Xlsol的值(13.414)超出应用域表征值的范围,说明正二十七烷不在模型的应用域内。由此可见,尽管模型在预测较长碳链烷烃化合物时性能较差,但是已经明确鉴定出该类化合物在模型应用域之外。
权利要求
1.一种通过定量构效关系模型预测有机物液相蒸气压的方法,其特征在于,首先,根据影响有机化合物液相蒸气压大小的因素,选取相应描述符分别表征分子的体积,电荷分布,氢键作用,色散力,极性-非极性表面积比,分子形状和电子信息,包括14 个量子化学描述符,31个Discovery Studio描述符,17个Dragon描述符;依据蒸气压数据值的大小排序后,每隔3个蒸气压数据选取1个数据进入验证集,其余数据进入训练集,即按照3 1的比例分成训练集和验证集;训练集用来建立模型,验证集用于模型建立后的外部验证;建模过程中,将1/T作为一个描述符,对训练集中的蒸气压数据和上述描述符进行PLS回归分析;筛选出的最优模型共包含8个描述符,线性关系式如下logPL = 9. 417-2. 625 X 1031/Τ_8· 692 X 1(Γ2 μ _5· 843 X KT1NHD-L 907 X KT1MFP +1. 424JRNCG+4. 023Χ0Α-5. 012X 10_1Xlsol+3. 157GATSlv其中,1/Τ表示温度的倒数,μ表示偶极距,NHD表示氢键供体数目,MFP表示极性表面积比,JRNCG表示最负电荷比,XOA表示平均连接性指数chi-0,Xlsol表示溶剂连接性指数 chi-1, GATSlv表示范德华体积加权的Geary自相关指数。
2.根据权利要求1所述的的方法,其特征在于,有机化合物包括烷烃类、醇类、酮类、羧酸类及取代物、苯、联苯、苯酚、多环芳烃及其取代化合物。
全文摘要
本发明涉及一种通过定量构效关系模型高效预测有机化合物液相蒸气压的方法。本发明在得知的化合物结构基础上,计算表征其结构的分子结构描述符,应用所建立的分子结构和蒸气压之间的定量关系,可以快捷、有效地预测有机化合物的液相蒸气压。该方法可用于多种类的有机化合物,并且能够预测在不同温度下的蒸气压值,可适用于纬度和海拔各不相同的国家和地区蒸气压数据的获取,并为化学品的风险评价和监管提供必要的基础数据。
文档编号G06F19/00GK102521507SQ201110410088
公开日2012年6月27日 申请日期2011年12月9日 优先权日2011年12月9日
发明者张洪亮, 李雪花, 陈景文 申请人:大连理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1