基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的方法及模型建立方法

文档序号：6548934阅读：307来源：国知局

基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的方法及模型建立方法
【专利摘要】本发明涉及一种基于分子结构快速预测有机化合物牛血清白蛋白-水分配系数(logKBSA/W)的及模型建立方法，该方法采用以下的模型进行牛血清白蛋白-水分配系数预测：logKBSA/W=0.747×logKow+0.476×EHOMO-0.024×CCR+0.870×q++0.007×CSEV+4.342；其中，logKow表示正辛醇-水分配系数，EHOMO表示最高占据分子轨道能，CCR表示核-核排斥能，q+表示最正净电荷，CSEV表示Connolly溶剂排斥体积。本发明的有益效果是采用本发明方法可以快速预测多个种类的中性有机化合物在牛血清白蛋白和水之间的分配系数。所使用的分子结构描述符容易获得，回归分析方法简单，因此该方法方便快捷、成本低廉、性能优异。
【专利说明】基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的方法及模型建立方法

【技术领域】
[0001]本发明属于面向环境生态风险评价的定量结构-活性关系(QSAR)【技术领域】，尤其涉及开发了一种基于分子结构快速预测有机化合物牛血清白蛋白-水分配系数(log/fBSA/w)的及模型建立方法，可以应用于多种类型的中性有机化合物的预测。

【背景技术】
[0002]有机化合物进入生物体内后，在组织器官中的分配会显著影响它们的生物富集、毒理动力学和毒性作用。除了机体内的脂肪组分对有机化合物的吸收和吸附外，蛋白质成分的富集作用也对化合物在生物体内的吸收和代谢发挥了重要作用。进入血液的化合物会与血清白蛋白相结合，进而影响其在血液中的分布、吸收、运输和代谢。因此，研究化合物在血清白蛋白和水相之间的分配，可以帮助我们更好的理解化合物与血清白蛋白之间的相互作用，是成功的进行药物设计和环境化合物毒理分析的基础。
[0003]牛血清白蛋白(BSA)是研究化合物与蛋白质大分子之间相互作用的代表性蛋白，常使用&SA/W来表征化合物在BSA和水相之间的平衡分配。目前#BSA/W值多数通过实验测定获得，常用方法如固相微萃取结合气相色谱法。但是实验测定耗时费力，并受到标准样品的限制。同时，根据美国化学文摘社CAS的统计，目前注册化学品已经超过8800万种，其中绝大多数是合成有机物，对这些化学品逐一进行实验测试，费用极其昂贵，也无法满足有毒有害化学品污染管理的“预先防范原则”。因此，亟需开发成本低廉、方便快捷的评估预测方法。
[0004]定量结构-活性关系(QSAR)可以根据分子结构信息，预测化合物的^^_值，为开发快速预测方法提供了良好的思路。然而，目前报道的关于&^?的QSAR模型，在化合物的适用范围、模型的预测能力以及实际应用的可操作性等方面还存在问题。Wichmann等人(ffichmann, K., Diedenhofen, M., Klamt, A.Predict1n of blood-brainpartit1ning and human serum albumin binding based on C0SM0-RS σ -moments.Journal of Chemical Informat1n Modeling, 2006，47: 228 - 233)使用溶剂模型计算了 5个量子化学参数并建立了 92个药物分子与血清白蛋白结合常数的QSAR模型，该模型预测性能不高，且可应用的化合物种类有限，无法用于环境有机化合物的预测。deBruyn等人(deBruyn, A.M.H.，Gobasj F.A.P.The sorptive capacity of animal protein.Environmental Toxicology and Chemistry, 2007，26: 1803 - 1808)使用正辛醇-水分配系数1g^w建立了 36种化合物lBSA/w的QSAR模型，但该模型覆盖的化合物范围较小，预测性能较差。Endo 等人(Endo S.，Goss, K-U.Serum Albumin Binding of StructurallyDiverse Neutral Organic Compounds: Data and Models.Chemical Research inToxicology, 2011，24，2293 - 2301)基于多参数线性自由能关系(pp-LFER)建立了 83个有机化合物fBSA/w的QSAR模型，也同样存在模型性能不高的问题，用于fBSA/w的预测可靠性较低?使用同样的化合物，Golmohammadi 等人(Golmohammadi H.，Dashtbozorgi Z.，AcreeJr W.E.Predict1n of bovine serum albumin-water partit1n coefficients of awide variety of neutral organic compounds by means of support vector machine.Molecular Informatics, 2012, 31: 867-878)采用拓扑指数基于支持向量机发展了新的QSAR模型，该模型采用非线性方法，透明度不高，移植性差。
[0005]开发基于机理、性能优良、算法简单透明并且实用性强的&^?预测模型，评价和验证模型的预测能力和稳定性，表征模型的应用域，使其可用于应用域内化合物的&SA/W预测，将会有效弥补有机化合物基础数据的缺失，为生态风险评价提供数据支持和理论指导。

【发明内容】

[0006]为了解决上述的技术问题，本发明的一个目的是提供一种基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的方法，本发明的另外一个目的是提供基于分子结构预测有机化合物的牛血清白蛋白-水分配系数模型的建立方法。本发明的方法具有高效快速、成本低廉、应用范围广泛的特点。
[0007]为了实现上述的第一个目的，本发明采用了以下的技术方案:
基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的方法，该方法采用以下的模型进行牛血清白蛋白-水分配系数预测:
lo?fBSA/ff = 0.747Xlo?fow + 0.476XAhqmq - 0.024XCO? + 0.870X+ 0.007XCS5T+ 4.342 ；
其中，logA；w表示正辛醇-水分配系数，表示最高占据分子轨道能，表示核-核排斥能，4表示最正净电荷，CSEV表示Connolly溶剂排斥体积。
[0008]作为优选，所述的有机化合物包括烷烃、烯烃、卤代烃、醇、苯酚、醚、酮、苯胺、脂肪胺、硝基化合物、多环芳烃、杂环化合物和苯的衍生物。
[0009]为了实现上述的第二个目的，本发明采用了以下的技术方案:
基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的模型建立方法，该方法包括以下的步骤:
1)首先，选择了来自于同一个实验室使用相同方法测定的1g^svw值；整个数据集共包括75个中性有机化合物，log^BSA/ff的数值范围为1.19^4.76，跨越3.6个数量级；
2)根据化合物在BSA和水相之间分配机理的分析，共选择21种分子结构描述符用于模型的构建；所述的21种分子结构描述符分别为平均分子极化率(〃)、偶极矩(//)、//2、标准生成热(AZZf)、总能量(招)、电子能(/^)、核-核排斥能(CO?)、最低未占据分子轨道能该?)、最高占据分子轨道能(￡h_)、碳原子最负净电荷(％_)、氢原子最正净电荷(％+)、最负净电荷(O、最正净电荷(α?、C0SM0面积U、C0SM0体积、分子量QQ、Connolly溶剂可及分子表面积(C4A)、Connolly分子表面积(CM)、Connolly溶剂排斥体积(JOSEV)、椭圆度(O)和正辛醇-水分配系数1,? ；
使用M0PAC2012中的PM6算法对分子结构进行优化并计算平均分子极化率(〃)、偶极矩(/O、//2、标准生成热(AZZf)、总能量(招)、电子能(/^)、核-核排斥能(6--)、最低未占据分子轨道能该?)、最高占据分子轨道能仏_。)、碳原子最负净电荷(qc_)、氢原子最正净电荷(％+)、最负净电荷fo_)、最正净电荷fo+)、C0SM0面积0。_)和C0SM0体积15种量子化学描述符，使用ChemOffice 2010和EPI Suite分别计算分子量QQ >ConnoIIy溶剂可及分子表面积(C^)、Connolly分子表面积(_)、Connolly溶剂排斥体积、椭圆度(Ov)和正辛醇-水分配系数logA；w 6种性质参数；
3)采用多元线性回归MLR方法中的逐步回归理论建立模型，具体过程由SPSS 17.0执行；使用相关系数的平方r2和均方根误差rms作为统计学指标表征模型的拟合性能，使用预测相关系数的平方Qi表征模型的预测性能；
经MLR分析得到的最优模型为:
lo?fBSA/ff = 0.747Xlo?fow + 0.476 XEmm - 0.024 XCO? + 0.870 X + 0.QQl XCSEV+ 4.342 ；
其中，logA；w表示正辛醇-水分配系数，表示最高占据分子轨道能，表示核-核排斥能，Q+表示最正净电荷，CSEV表示Connolly溶剂排斥体积。
[0010]作为优选，所述的有机化合物包括烷烃、烯烃、卤代烃、醇、苯酚、醚、酮、苯胺、脂肪胺、硝基化合物、多环芳烃、杂环化合物和苯的衍生物。
[0011]本发明模型的r2为0.901，rms为0.287，表明模型具有较好的拟合能力。通过模型中的几个描述符能够对化合物在BSA和水相之间分配的机理进行合理解释。模型的稳定性和预测能力通过两种方法来评价。首先是模拟外部验证，将原始数据集随机分成两个子集，使用一个子集和模型I中的5个分子结构描述符重新建立模型，拟合结果为r2 = 0.885和rms = 0.297，应用于另一个子集得到的预测结果为= 0.883和rms = 0.304。两个子集统计学性能均与模型I非常接近，表明模型I是基于l0g^BSA/w与描述符之间的本质相关而不是偶然相关得到的，是统计学稳定的。第二种方法是去除10%化合物的交叉验证，结果为平均7= 0.854, rms = 0.309，也与模型拟合性能相差不多，再次证明了模型具有良好的稳定性和预测能力。
[0012]使用Williams图来确定高影响度化合物和离域点。以化合物描述符矩阵的Ai值作为横坐标，以标准残差为纵坐标绘制Williams图。Ai值大于警戒值(本模型为0.200)的化合物被诊断为高影响度化合物，离域点则定义为标准残差的绝对值大于3的化合物。模型I有四个化合物是高影响度化合物，但是它们的标准残差的绝对值都小于2，表明模型的泛化能力较强，对距离描述符矩阵中心较远的化合物也能精确预测。此外，模型I没有离域点。综上，模型的应用域定义为:烷烃、烯烃、卤代烃、醇、苯酚、醚、酮、苯胺、脂肪胺、硝基化合物、多环芳烃、杂环化合物和苯的衍生物。进行1g/rBSA/w的预测时，如果某些化合物的h,值大于0.200，有可能得到不可靠的预测结果，则对于这些化合物模型I的使用要非常谨慎。
[0013]本发明的有益效果是采用本发明方法可以快速预测多个种类的中性有机化合物在牛血清白蛋白和水之间的分配系数。所使用的分子结构描述符容易获得，回归分析方法简单，因此该方法方便快捷、成本低廉、性能优异。该发明所涉及的i0g/rBSA/w的预测方法的建立和验证严格依照经济合作与发展组织(OECD)规定的QSAR模型发展和使用的导则，使用该发明专利得到的1g^svw预测结果，可以为有机化学品的生态风险评价提供重要的基础数据。
[0014]本发明提供的1gfesvw预测模型有如下几个优点:(I)极大拓展了 1g^svw预测模型的应用范围，适用于非常广泛的有机化合物1g^svw的预测；(2)预测模型中的分子结构描述符的计算和模型构建简单易实现，模型的实际应用能力强；(3)模型是基于机理构建的，稳定性高，预测性能优异。

【专利附图】

【附图说明】
[0015]图1是log/fBSA/w预测值与实验值的对比图。
[0016]图2是log/fBSA/w的预测误差值与实验值的拟合图。
[0017]图3是表征模型高影响度化合物和离域点的Williams图。

【具体实施方式】
[0018]实施例1
正辛烷:采用Williams图法计算得到其之值为0.065<A*(警戒值)=0.200，标准残差(SE) = -0.284 > -3，说明此化合物在QSAR模型应用域内。采用MOPAC 2012的PM6算法，ChemOffice 2010和EPI Suite分别计算出5个描述符。
[0019]正辛烷的log/fBSA/w实验测定值为4.01 [L/kg]。基于QSAR模型预测步骤如下: lo?fBSA/ff = 0.747Xlo?fow + 0.476 XAhqmq - 0.024 XCO? + 0.870 X + 0.QQl XCSEV
+ 4.342 = 0.747X (5.81) + 0.476X (-10.434) - 0.024X (19.173) + 0.870X (0.078)+0.007 X (145.454) + 4.342 = 3.87。
[0020]实施例2
四氯乙烯:采用Williams图法计算得到其之值为0.051<A*(警戒值)=0.200，标准残差{SE、= 2.732 < 3，说明此化合物在QSAR模型应用域内。采用MOPAC 2012的PM6算法，ChemOffice 2010和EPI Suite分别计算出5个描述符。
[0021]四氯乙烯的log/fBSA/w实验测定值为2.40 [L/kg]。基于QSAR模型预测步骤如下: lo?fBSA/ff = 0.747Xlo?fow + 0.476XAhqmq - 0.024XCO? + 0.870X+ 0.007XCS5T
+ 4.342 = 0.747 X (3.40) + 0.476 X (-9.545) - 0.024 X (-6.035) + 0.870 X (0.029) +
0.007 X (90.284) + 4.342 = 3.14。
[0022]实施例3
芘:采用Williams图法计算得到其之值为0.248>A* (警戒值)=0.200，标准残差{SE、=-0.016 > -3，说明此化合物在QSAR模型应用域内，模型具有较好的泛化能力。采用MOPAC2012的PM6算法，ChemOffice 2010和EPI Suite分别计算出5个描述符。
[0023]芘的l0g/fBSA/w实验测定值为4.76 [L/kg]。基于QSAR模型预测步骤如下: lo?fBSA/ff = 0.747Xlo?fow + 0.476 XBmK - 0.024 XCO? + 0.870 X + 0.007 XCSBV
+ 4.342= 0.747 X (4.88) + 0.476 X (-8.397) - 0.024 X (48.446) + 0.870 X (0.854) +
0.007 X (161.662) + 4.342= 4.70。
[0024]实施例4
雌激素酮:采用Williams图法计算得到其之值为0.218>A*(警戒值)=0.200，标准残差{SE、= -1.674 > -3，说明此化合物在QSAR模型应用域内，但应用于该化合物的预测要提高警惕。采用MOPAC 2012的PM6算法，ChemOffice 2010和EPI Suite分别计算出5个描述符。
[0025]雌激素酮的实验测定值为2.69 [L/kg]。基于QSAR模型预测步骤如下: lo?fBSA/ff = 0.747Xlo?fow + 0.476 XBmK - 0.024 XCO? + 0.870 X + 0.007 XCSBV+ 4.342 = 0.747 X (3.13) + 0.476 X (-9.143) - 0.024 X (93.446) + 0.870 X (0.303) +0.007 X (254.990) + 4.342 = 2.13。
【权利要求】
1.基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的方法，其特征在于该方法采用以下的模型进行牛血清白蛋白-水分配系数预测:
lo?fBSA/ff = 0.747Xlo?fow + 0.476XAhqmq - 0.024XCO? + 0.870X+ 0.007XCS5T+ 4.342 ；其中，logA；w表示正辛醇-水分配系数，表示最高占据分子轨道能，表示核-核排斥能，4表示最正净电荷，CSEV表示Connolly溶剂排斥体积。
2.根据权利要求1所述的基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的方法，其特征在于:有机化合物包括烷烃、烯烃、卤代烃、醇、苯酚、醚、酮、苯胺、脂肪胺、硝基化合物、多环芳烃、杂环化合物和苯的衍生物。
3.基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的模型建立方法，其特征在于该方法包括以下的步骤: 1)首先，选择了来自于同一个实验室使用相同方法测定的1g^svw值；整个数据集共包括75个中性有机化合物，log^BSA/ff的数值范围为1.19^4.76，跨越3.6个数量级； 2)根据化合物在BSA和水相之间分配机理的分析，共选择21种分子结构描述符用于模型的构建；所述的21种分子结构描述符分别为平均分子极化率(〃)、偶极矩(//)、//2、标准生成热(AZZf)、总能量(招)、电子能(/^)、核-核排斥能(CO?)、最低未占据分子轨道能该?)、最高占据分子轨道能(￡h_)、碳原子最负净电荷(％_)、氢原子最正净电荷(％+)、最负净电荷(O、最正净电荷(α?、COSMO面积U、COSMO体积、分子量QQ、Connolly溶剂可及分子表面积(C4A)、Connolly分子表面积(CM)、Connolly溶剂排斥体积(JOSEV)、椭圆度(O)和正辛醇-水分配系数1,? ；使用M0PAC2012中的PM6算法对分子结构进行优化并计算平均分子极化率(〃)、偶极矩(/O、//2、标准生成热(AZZf)、总能量(招)、电子能(/^)、核-核排斥能(6--)、最低未占据分子轨道能该?)、最高占据分子轨道能仏_。)、碳原子最负净电荷(qc_)、氢原子最正净电荷(％+)、最负净电荷fo_)、最正净电荷fo+)、C0SM0面积0。_)和C0SM0体积15种量子化学描述符，使用ChemOffice 2010和EPI Suite分别计算分子量QQ >ConnoIIy溶剂可及分子表面积(C^)、Connolly分子表面积(_)、Connolly溶剂排斥体积、椭圆度(Ov)和正辛醇-水分配系数logA；w 6种性质参数； 3)采用多元线性回归MLR方法中的逐步回归理论建立模型，具体过程由SPSS17.0执行；使用相关系数的平方r2和均方根误差rms作为统计学指标表征模型的拟合性能，使用预测相关系数的平方Qi表征模型的预测性能；经MLR分析得到的最优模型为:
lo?fBSA/ff = 0.747Xlo?fow + 0.476 XEmm - 0.024 XCO? + 0.870 X + 0.QQl XCSEV+ 4.342 ；其中，logA；w表示正辛醇-水分配系数，表示最高占据分子轨道能，表示核-核排斥能，Q+表示最正净电荷，CSEV表示Connolly溶剂排斥体积。
4.根据权利要求3所述的基于分子结构预测有机化合物的牛血清白蛋白-水分配系数的模型建立方法，其特征在于:有机化合物包括烷烃、烯烃、卤代烃、醇、苯酚、醚、酮、苯胺、脂肪胺、硝基化合物、多环芳烃、杂环化合物和苯的衍生物。
【文档编号】G06F19/00GK104200056SQ201410251455
【公开日】2014年12月10日申请日期:2014年9月26日优先权日:2014年9月26日
【发明者】于海瀛, 陈伟, 郭婷申请人:浙江师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于海瀛;陈伟;郭婷
技术所有人：浙江师范大学
我是此专利的发明人

上一篇：一种基于灵敏度分析的定量式静压转台优化设计方法
上一篇：基于时空关联与先验知识的交通信号灯实时识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。