基于受体结合模式的有机物er亲合力快速筛选预测方法

文档序号:6125034阅读:542来源:国知局
专利名称:基于受体结合模式的有机物er亲合力快速筛选预测方法
技术领域
本发明涉及环境可疑内分泌干扰物生物活性的筛选和预测方法,具体说是基于受体结合模式的可疑环境内分泌干扰物雌激素受体(estrogen receptor,ER)亲合力筛选和预测方法。
背景技术
环境内分泌干扰物(endocrine disrupting chemicals,EDCs)是指干扰生物体内维持自身稳定及调节发育过程中激素的产生、释放、代谢、结合、排泄、交互作用的外源性物质,也叫环境荷尔蒙/激素。EDCs对野生动物与人类的危害早在上世纪90年代就得到了人们的关注。1996年美国环保局列出60种内分泌干扰物。1997年世界野生动物基金会列出68种。1998年日本在全国范围内进行了水环境中的内分泌干扰物普查并于1999年公布了75种内分泌干扰物。目前已确认的环境内分泌干扰物超过100种,其中大多数属于持久性有机物,在环境中污染范围广、影响大、时效长,严重的威胁着人类生存。EDCs已成为继温室效应全球变暖和臭氧层破坏之后又一严重的全球性环境公害问题,属第三代环境污染物,关于EDCs的研究已经成为当前国际环境科学研究的热点领域。
鉴于大量环境污染物是潜在的环境激素类物质,对大量化合物进行筛选和甄别是深入研究EDCs的基础,因此世界各国非常重视EDCs的筛选技术研究。1996年,美国环境保护局(EPA)在国会和“联邦咨询委员会法”的指示下,成立了环境内分泌干扰物筛选和测试顾问委员会(EDSTAC),主要任务是制定筛选和鉴定方法,全面评价EDCs的内分泌干扰活性。EDSTAC推荐了由多达20多种离体与活体测试方法组成的分层式筛选体系,来甄别和测试环境污染物的内分泌干扰活性。由于环境中污染物种类繁多,因财力、人力和时间所限,全部采用这样的多终点测试体系、单纯依赖实验室工作来进行筛选,显然是不现实的,因此目前迫切需要发展非实验性的筛选评价方法,对于环境污染物首先进行快速甄别,在此基础上再进行精细测试和研究。定量结构活性相关(Quantitative StructureActivity Relationship,QSAR)技术可在EDCs结构与其内分泌干扰活性之间架起桥梁,使得解决这一难题成为可能(王连生,韩朔睽.有机污染物的定量结构-活性相关.1993,北京中国环境科学出版社)。QSAR方法不受实验条件和测试仪器的限制,采用各种计算化学和数据挖掘技术来研究和预测化合物的生物活性,因而在面对大批量化合物时具有尤为明显的优势,QSAR正在EDCs筛选与风险评价方面展现出独特魅力。
EDCs作用内在机制主要有以下几种1.与受体直接结合;2.与生物体内激素竞争靶细胞上的受体;3.有些内分泌干扰物可产生类似雌激素的效应,却与雌激素受体的信号传递途径无关;4.影响内分泌系统与其他系统的调控作用;5.影响受体数量;6.影响激素的合成、储存、释放、运输和排出。其中,环境污染物以与内源性激素类似的形式与激素受体结合,使受体的构象发生改变,形成配体-受体复合物,复合物再结合到细胞核内DNA结合域的激素响应元素(HRE)上,诱导或抑制有关调节细胞生长和发育的靶基因的转录,从而对一系列激素依赖性生理生化过程造成影响,产生各种环境激素效应的受体介导模式尤其受到关注。EDCs与目标受体结合能够诱导或抑制多种与激素相关的生理效应,其中,雌激素受体参与介导很多重要的生理过程,雌激素受体亲合力指标是表征可疑EDCs生物活性的重要参数, J.等综述了环境化学品与核受体作用、效应以及相关的体外测试实验研究进展( J.,HilscherováK.,Bláha L.,et al.Environmental xenobiotics and nuclear receptors-Interactions,effects and in vitroassessment.Toxicology in Vitro,2006,2018-37.)。
随着计算机科学和分子生物学的进步,目前QSAR方法也从传统的二维模型预测发展为可以根据化合物三维空间构象信息参数和活性指标建立合适的三维QSAR模型(3D-QSAR),主要可分为基于配体空间结构的3D-QSAR(如比较分子场(CoMFA)/比较分子相似性指数(CoMSIA)、分子全息QSAR(HQSAR)等)和基于受体三维结构的3D-QSAR(包括计算受体结合自由能和模拟配体-受体作用模式等)。其中CoMFA、CoMSIA、HQSAR等提取化合物的空间结构信息与其生物活性指标进行分析,因此对一系列结构相近的化合物预测效果较好,能够探讨不同药效团结构对化合物活性的影响。如崔世海等用HQSAR方法建立了30种雌二醇衍生物ER亲合力的预测模型,交叉验证相关系数为0.897(崔世海,刘树深,王晓栋等.雌二醇衍生物的HQSAR研究.科学通报,2003,48(3)239-242.)。但是,基于配体的QSAR方法存在一个先验的理论假设,即化合物与靶标点同一作用位点结合且作用模式相同。若一批化合物与靶标点作用方式不同,则所得QSAR模型的稳健性和预测能力都会受到较大影响;若想提高方法的拟合优度就必须对所研究的有机污染物进行化学结构的分类。如Shi L.M.等利用CoMFA和HQSAR方法建立了130种EDCs的雌激素受体亲合力指标的预测评价模型。Shi L.M.等首先按结构对化合物进行分类,130种化合物分为类固醇、己烯雌酚衍生物和植物雌激素、DDT类和双酚A衍生物、PCBs、烷基酚和烷氧基酚、杂类化合物共6类;然后对每一类均按独特的共有结构分别进行叠合,进行CoMFA研究;最后将所有预测数据汇总,与实验亲合力指标间的相关系数为0.91;而HQSAR方法的相关系数则为0.76(Shi L.M.,Fang H.,Tong W.,et al.QSAR models using a large diverse set of estrogens.J.Chem.Inf.Comput.Sci.,2001,41186-195.)。Fang H.等根据ER亲合力对230种化合物进行了基于配体结构的结构-活性关系研究,分析了不同取代基对ER亲合力的影响,利用药效团搜索方法寻找ER配体的共同结构,从配体结构角度给出了一种化合物要具备雌激素活性的5个必需标准(Fang H.,Tong W.,Shi L.M.,et al.Structure-ActivityRelationships for a large diverse set of natural,synthetic,and environmental estrogens.Chem.Res.Toxicol.,2001,14280-294.)。Hong H.等根据两种拒绝判定、一种树形模型和三种结构标准的复杂联合模型来判断58,000种化合物能否与ER结合,模型主要用于判断一种化合物是否为ER配体,错判率为19.2%(Hong H.,Tong W.,Fang H.,et al.Prediction of estrogen receptor binding for 58,000 chemicals using anintegrated system of a tree-based model with structural alerts.Environmental HealthPerspectives,2002,110(1)29-36.),Hong H.同时指出两种实验测试方法间不一致率也已达到了15%。以上方法都是基于有机污染物的结构描述符对其与激素受体作用强弱的受体亲合力强弱进行判别。
Brzozowski等对一些化合物和生物体内雌激素受体结合后的复合物共结晶,研究其晶体结构发现不同类型化合物与雌激素受体活性口袋的作用模式和作用位点存在显著差异,并在Nature上报道了研究成果(Brzozowski,A.M.,Pike,A.C.,Dauter,Z.,et al.Molecular basis of agonism and antagonism in the estrogenreceptor.Nature,1997,389,753-758.)。可见,基于配体的QSAR方法在对结构跨度大、种类繁多的有机污染物激素受体亲合能力的判别筛选中存在一定局限性,难以解决化合物与靶标点不同作用位点结合或与同一作用位点以不同作用模式结合的问题。而基于受体三维结构的3D-QSAR方法不仅考虑有机污染物的三维结构在受体结合过程中的作用,还能模拟评价生物大分子结构对污染物-激素受体结合的影响,在一定程度上可以进行基于配体-受体作用模式的模拟筛选,并对可疑EDCs内分泌干扰机制的探索具有指导意义。一般,污染物与生物靶标点作用主要受其传输转运至靶标点的难易程度及其与靶标点的作用模式与强弱有关。疏水性指标logP是表征有机污染物生物细胞、组织、器官中传输转运的重要参数,而有机污染物与雌激素受体活性口袋主要通过氢键作用、范德华力、疏水作用等非键作用结合。氢键作用是使得复合体系稳定的主要作用,污染物是否能与受体特定位点形成氢键及其强弱等对化合物与雌激素受体分子的亲合力大小有重要影响,因此研究和分析不同化合物与雌激素受体活性口袋的作用模式能够帮助我们从分子水平了解污染物-雌激素受体相互作用的微观机制,对有机污染物-雌激素受体亲合力给予快速合理的筛选。
SARS冠状病毒3CL蛋白酶三维结构模型与抗SARS药物(专利申请号03129071.X;公开号CN 1472336A;
公开日期2004年2月4日;发明人沈建华,蒋华良,沈旭等)通过分子模拟获得SARS-CoV病毒3CL蛋白的三维结构,以此为靶标用分子对接虚拟筛选搜寻现有药物数据库,寻找抗SARS药物。环境有机污染物雌激素活性基于分子结构的快速筛选方法(专利申请号200610097362;公开号1963523;
公开日期2007年5月16日;发明人肖乾芬,王晓栋,刘树深等)公开了一种基于配体结构(即有机污染物结构)的雌激素亲合能力判别筛选方法,具体是首先将化合物按结构分成8类,利用Dragon软件计算化合物分子的结构信息参数,并将化合物进行分类,利用QASAR模型建立基于欧氏距离的判别函数及类别重心,可初步判定化合物是否为环境雌激素。
文献检索结果表明,在本发明完成之前,还未发现基于受体结合模式对可疑EDCs与雌激素受体亲合力进行快速判别筛选的报道。

发明内容
1.发明要解决的技术问题进入环境的化学品数量众多,且随时间推移呈增加趋势,其中包含很多可疑内分泌干扰物,有关这些化合物的筛选和确定是控制内分泌干扰物污染、保障人类健康的前提,也是内分泌干扰物研究中最急需解决的问题,对每一种化合物进行生物化学和毒理实验需要巨大的人力、物力、财力,目前已有的筛选和预测方法受限于化合物本身结构信息的获取和描述,对结构差异较大化合物激素亲合力的预测能力有限。本发明的目的是要提供一种基于激素受体结构信息判断和预测化学品受体亲合力的方法,基于有机污染物与激素受体靶标点作用模式可以快速、简便、经济地判断环境化学品雌激素受体亲合力的筛选方法。
2.技术方案本发明的原理是根据已有ER亲合力数据污染物与受体结合能、氢键作用模式和到达受体作用位点难易程度等受体结合模式与亲合力指标的关系建立基于受体结构的QSAR判别模型与预测模型,并将其应用到ER亲合力未知化合物的ER亲合力判别预测上的一种方法。
采用的技术方案如下基于受体结合模式的有机物ER亲合力快速筛选预测方法,其步骤包括(1)根据化合物相对亲合力大小,将已知雌激素受体亲合力的有机污染物按其与雌激素受体亲合力强弱分为三类或四类;每类至少随机抽取一种作为预测组,其余组成训练组。相对亲合力指标采用logRBA(RBA为相对亲合力,即化合物亲合力与雌二醇亲合力的比值,雌二醇的相对亲合力设为100),logRBA<-3,-3≤logRBA<0,logRBA≥0分别对应于极弱ER亲合力、弱ER亲合力、强ER亲合力;logRBA≥0时的情况还可再分为两类,即0≤logRBA<1和logRBA≥1,分别对应中等强度亲合力、高亲合力;(2)根据已有雌激素受体亲合力数据实验测定所使用受体的物种和亚型,从蛋白质数据库(PDB)中选择与不同类型激动剂和拮抗剂结合的雌激素受体晶体结构建立ER模型,作用位点的选择是采用SiteID(SYBYL7.0,TriposInc.)等分子模拟方法寻找受体大分子的活性口袋,选择活性残基周围一定范围内的残基组成底物结合口袋。在实验使用的雌激素受体三维结构未知的情况下,受体结构模建可根据同源性采用点突变、同源模建等方法。当未知ER与已知ER同源性高于90%时,配体结合区仅有数个残基不同,其蛋白质折叠模式基本相同,采用点突变的方法替换少数对折叠模式不起决定作用的残基,建立未知结构ER模型;对于同源性差的未知ER,使用来自NCBI数据库(National Center for Biotechnology Infomation,http://www.ncbi.nih.gov)的目标序列,采用同源模建的方法构建受体模型。
(3)构建有机污染物分子空间结构并进行构型与能量优化,采用分子对接计算可疑环境内分泌干扰物与激素受体活性口袋的结合自由能与形成氢键的位点和数量等氢键作用模式。具体地说构建有机物结构,使用Tripos力场对所有化合物进行能量优化,电荷选择为Gasteiger-Hückel电荷,能量收敛标准为0.05kcal/mol,最大迭代次数设置为1000次。使用FlexX分子对接方法将化合物与雌激素受体活性口袋进行分子对接,计算受体结合自由能Ebinding,对接失败Ebinding赋值为20。计算化合物与活性口袋残基的氢键作用数目(NHB),各指示变量H表示化合物与ER活性口袋内关键残基、结晶水等是否形成氢键,形成氢键作用,对应的指示变量设为1,否则设为0;(4)当分子结构类型较多时,因结构不同导致其在细胞、组织等中的传输转运性质存在显著差异,加入有机污染物疏水性参数logP表征其传输转运至靶标点的难易程度;(5)植物性雌激素(phytoestrogens)是一类比较特殊的ER配体,与ER具有特异的结合模式,在低浓度时显示有弱的雌激素活性,而在浓度升高后又表现出抗雌激素能力,可见其与雌激素受体具有特殊的结合模式,则在筛选中增加指示变量X1进行标志与区分(1表示存在该类物质,0表示否);(6)以表征有机污染物传输转运至靶标点的难易程度的logP、描述化合物与ER靶点氢键作用模式的指示变量H、和ER结合自由能Ebinding、化合物与ER形成氢键的数目NHB、以及指示变量X1为自变量,采用判别分析方法建立有机污染物与雌激素受体亲合力强弱等级的判别函数Y;(7)若存在作用位点和氢键作用模式相近的有机污染物,根据其与雌激素受体活性口袋的结合自由能建立三维定量构效模型(形式为logRBA=aEbinding+b),预测结构类似但受体亲合力未知污染物的受体亲合力;(8)采用获得的判别模型与定量预测模型可对亲合力未知污染物的雌激素受体亲合力进行快速筛选、判别与预测。
Blair R.M.等(Blair R.M.,Fang H.,Branham W.S.,et al.The estrogen receptorrelative binding affinities of 188 natural and xenochemicalsstructural diversity ofligands.Toxicological Sciences,2000,54138-153.)按照相对亲合力指标logRBA的范围将ER配体分为弱、中、强三类,对应logRBA两个分界点分别为-2和0,即化合物ER亲合力低于雌二醇的万分之一时为弱的ER配体,在雌二醇亲合力万分之一和百分之一之间的为中等强度的ER配体,亲合力大于雌二醇亲合力百分之一的为强ER配体。Hong H.等认为化合物的logRBA低于-4.5时不能与ER有效结合(Hong H.,Tong W.,Fang H.,et al.Prediction of estrogen receptor bindingfor 58,000 chemicals using an integrated system of a tree-based model with structuralalerts.Environmental Health Perspectives,2002,110(1)29-36.)。Matthews等则认为logRBA低于-3的化合物在实验浓度范围内不能有效与ER结合(Matthews J.,Celius T.,Halgren R.,et al.Differential estrogen receptor binding of estrogenicsubstancesa species comparison.Journal of Steroid Biochemistry & MolecularBiology,2000,74223-234.)。因此,化合物与受体亲合力在其天然配体亲合力的10-5倍以下时为极弱亲合力化合物,大于10-5倍而小于10-2倍时为弱亲合力化合物,大于10-2倍时为强亲合力化合物,这其中又可分为两类,大于10-2倍小于10-1时为中等强度亲合力化合物,大于10-1倍时为高亲合力化合物换算到相对亲合力指标,则分别对应于logRBA<-3,-3≤logRBA<0,logRBA≥0,其中logRBA≥0又分为0≤logRBA<1和logRBA≥1两类。对目标化合物按照相对亲合力指标高、中等强度、弱、极弱或强、弱、极弱等级别分类,至少分为三类。每类至少随机抽取一种作为预测组,其余组成训练组。预测组主要是检验所建的模型是否达到了预期的目的,所以一般同一类化合物中不同活性的各留1~3个化合物在检验组即可。
上述受体种类包括能够介导生物体内雌激素响应的各种物种和亚型的雌激素受体。根据已有雌激素受体亲合力数据实验测定所使用受体的物种和亚型,从蛋白质数据库(PDB)中选择与不同类型激动剂和拮抗剂结合的雌激素受体晶体结构建立ER模型,作用位点的选择是采用SiteID(SYBYL7.0,Tripos Inc.)等分子模拟方法寻找受体大分子的活性口袋,选择活性残基周围一定范围内的残基组成底物结合口袋。在实验使用的雌激素受体三维结构未知的情况下,受体结构模建可根据同源性采用点突变、同源模建等方法。当未知ER与已知ER同源性高于90%时,配体结合区仅有数个残基不同,其蛋白质折叠模式基本相同,采用点突变的方法替换少数对折叠模式不起决定作用的残基,建立未知结构ER模型;对于同源性差的未知ER,使用来自NCBI数据库(National Center forBiotechnology Infomation,http://www.ncbi.nih.gov)的目标序列,采用ESyPred3D、Spark2等同源模建的方法构建受体模型。如mERα与hERα的同源性最高,LBD区内仅有少数几个残基发生变化,组成活性口袋的残基中仅有一个残基不同,可以考虑采用点突变方法来建立mERα受体模型。而蜥蜴和虹鳟ER与hERα的同源性不到90%,因而可利用ESyPred3D、Spark2等网络服务器构建两者的ER同源模型,利用PROCHECK对构建的受体模型进行合理性评价。
上述有机物的能量优化使用Tripos力场,电荷选择为Gasteiger-Hückel电荷,能量收敛标准为0.05kcal/mol,最大迭代次数设置为1000次。使用FlexX分子对接方法将化合物与雌激素受体活性口袋进行分子对接,计算受体结合自由能。计算化合物与活性口袋残基的氢键作用数目(NHB)。各指示变量H表示化合物与ER活性口袋内关键残基、结晶水等是否形成氢键形成氢键作用,对应的指示变量设为1,否则设为0;如HGlu353、HLeu387、HGly521、HHis524、HLeu346、Hwater、Hother分别是判断化合物与ER活性口袋内残基Glu353、Leu387、Gly521、His524、Leu346、结晶水和其它位点是否形成氢键作用的指示变量,若有氢键作用,对应的指示变量设为1,否则设为0。
当分子结构类型较多时,可采用碎片常数法等计算方法或数据库查询、文献检索等方法获得有机污染物疏水性参数logP,描述因结构不同导致其在细胞、组织等中的传输转运特性,表征其传输转运至靶标点的难易程度以及暴露剂量与有效剂量的关系。目前文献和数据库中已包括了大量化合物的疏水性参数数据可以方便的获得,对结构复杂、种类众多的一系列化合物时需要考虑这一因素,但对一批化合物应当采用来自于同一种实验测试或计算方法的参数值以确保数据的一致性。
某些即能激活又能抑制激素活性的有机污染物与激素受体的结合可能不仅受其结合位点周围氨基酸残基控制,还与受体整体构象的转变有关。植物性雌激素(phytoestrogens)就是一类比较特殊的ER配体,与ER具有特异的结合模式,在低浓度时显示有弱的雌激素活性,而在浓度升高后又表现出抗雌激素能力,可见其与雌激素受体具有特殊的结合模式,本方法在筛选中使用指示变量X1进行标志与区分(1表示存在该类物质,0表示否)。
上述有机污染物与激素受体亲合力强弱等级的判别模型特征是分析化合物与活性口袋氨基酸残基间的氢键作用模式,以logP表征有机污染物传输转运至靶标点的难易程度,以指示变量H表征受体特征靶标点的氢键形成情况(1表示该位点与污染物形成氢键,0表示否),设置NHB变量对氢键数目计数,计算化合物与雌激素受体的结合能Ebinding,对接失败Ebinding赋值为20,用指示变量X1表示有无植物性雌激素。采用马氏距离法建立对污染物-雌激素受体亲合力强弱进行判别的判别函数Y(Y=a1logP+a1Ebinding+a3NHB+a4X1+a5H……),马氏距离法(Mahalanobis distance)具有不受各变量量纲影响、能够排除变量间相关性的干扰等优点。
对于作用位点和氢键作用模式相近的有机污染物,根据其与雌激素受体活性口袋的结合自由能与受体亲合力指标的高度相关性建立三维定量构效模型预测结构类似但受体亲合力未知污染物的受体亲合力,形式为logRBA=aEbinding+b。上述获得的判别模型与定量预测模型可对亲合力未知污染物的激素受体亲合力进行快速筛选、判别与预测;采用上述方法获得的受体作用位点可用于虚拟筛选搜索现有的化学品数据库,获得高激素受体亲合力的可疑有机污染物,优先进行实验测定和研究。
3.有益效果采用本发明方法筛选预测环境可疑EDCs和激素受体亲合力的强弱,对很宽范围活性指标的结构各异化合物均可进行判别筛选与预测,方法成本低廉、简便可靠,能够节省大量的人力、物力、财力,平均预测能力达到80%以上,预测结果对相应化合物的环境管理和生态风险评价具有重要的指导意义。


图1为化合物双烯雌酚(dienestrol)与ERα活性口袋的氢键作用示意图;图2为蛋白质结构合理性评价的Ramachandran图;图3为黄(烷)酮类、异黄酮类化合物结合自由能和亲合力指标的线性关系图;图4为化合物logP的计算值和实验值的关系图。
具体实施例方式
以下通过实施例结合附图进一步说明本发明实施例1采用本发明方法处理一组ER配体和非ER配体(Matthews J.,Celius T.,Halgren R.,et al.Differential estrogen receptor binding of estrogenic substancesaspecies comparison.Journal of Steroid Biochemistry & Molecular Biology,2000,74223-234.)共34种化合物。
分类原则按logRBA值将化合物分为4类1~logRBA<-3,2~-3≤logRBA<0,3~0≤logRBA<1,4~logRBA>1,分别对应极弱ER亲合力、弱ER亲合力、中等强度ER亲合力、高ER亲合力四种类型,与雌二醇的受体亲合力相比,-3、0、1三个区间分界点分别对应亲合力倍数为雌二醇的十万分之一、百分之一和十分之一。从其中抽取30种化合物作为训练组建立模型,剩余4种化合物作为测试组(对应于4种类型)进行验证。
受体结构选择结合了雌二醇的人类雌激素受体α亚型的晶体结构(PDB编码为1ERE)建立受体模型,利用SiteID(SYBYL7.0,Tripos Inc.)寻找受体分子配体结合区的活性口袋。
化合物处理和分子对接构建化合物结构,使用Tripos力场对所有化合物进行能量优化,电荷选择为Gasteiger-Hückel电荷,能量收敛标准为0.05kcal/mol,最大迭代次数设置为1000次。使用FlexX将化合物与受体活性口袋进行柔性对接,计算受体结合自由能,化合物与受体分子对接失败时,Ebinding值赋为20。计算化合物与活性口袋残基的氢键作用数目(NHB),用指示变量HGlu353、HLeu387、HGly521、HHis524、HLeu346、Hwater、Hother分别判断化合物与口袋内残基Glu353、Leu387、Gly521、His524、Leu346、结晶水和其它位点的氢键作用有无,若有氢键作用,对应的指示变量设为1,否则设为0。
疏水性参数本例中不需要加入疏水性参数来表征其传输转运到靶标点的难易程度。
本例中存在植物性雌激素,植物性雌激素是一类具有特殊结合模式的ER配体,在低浓度时显示有弱的雌激素活性,而在浓度升高后又表现出抗雌激素能力,因此建立一个指示变量X1,若化合物为植物性雌激素,则该值赋为1,否则赋为0。
采用化合物的NHB、X1、Ebinding和HGlu353、HLeu387、HGly521、HHis524、HLeu346、Hwater、Hother等氢键作用模式参数与logRBA分类情况进行基于马氏距离法的逐步判别分析。建议以下判别函数Y1=0.407X1-7.418HLeu387+0.285HLeu346+1.902NHB-2.000
Y1判别重心分别为1~-1.789,2~2.554,3~-0.098,4~1.851;Y2=4.702X1-4.251HLeu387+3.920HLeu346-0.484NHB+0.097Y2判别重心分别为1~0.126,2~2.339,3~-0.387,4~-1.098Y3=0.311X1+2.441HLeu387+0.543HLeu346+0.045NHB-0.392Y3判别重心分别为1~0.012,2~0.001,3~-0.346,4~0.015从判别函数累积百分比可以看出,Y1判断能力很强,占76.4%,Y2也有一定的判断能力,占23.5%,而Y3几乎在判别中不起作用,仅占0.1%。方程总判对能力为87.1%。
模型验证用Y1和Y2对测试组4个化合物进行验证,正确率为87.5%。
实施例2采用本发明方法处理美国FDA国家毒理学研究中心(national center fortoxicological research,NCTR)的ER亲合力数据库(Estrogen receptor bindingdataset,www.fda.gov/nctr/science/centers/toxicoinformatics/edkb/index.htm)中232种化合物。
分类原则化合物与ER亲合力指标可分为3类1~logRBA<-3为具有极弱ER亲合力的化合物,2~-3≤logRBA<0为具有弱ER亲合力,3~logRBA≥0为具有ER强亲合力的化合物。从188种非植物性雌激素中抽取180个化合物作为训练组建立模型,其中包括1、2、3类化合物各111个、45个、24个,从44种植物性雌激素中抽取40种作为训练组模型,包括1、2、3类化合物分别为16个、22个、2个。其余12种化合物作为测试组对模型进行验证。
受体结构数据库中化合物的亲合力指标来自于大鼠子宫胞浆中ER中雌二醇的竞争结合IC50,而文献结果表明大鼠子宫ER亲合力与人类ERα亲合力指标间显著相关,且化合物数量很多、结构各异,包含激动剂、拮抗剂及选择性ER配体等多种类型,因此受体模型的建立采用结合了不同类型化合物的6种ERα晶体结构模型(PDB编号分别为1ERE、1ERR、1R5K、3ERT、1a52、1L2I),用SiteID(SYBYL7.0,Tripos Inc.)寻找活性口袋化合物处理和分子对接构建化合物结构,使用Tripos力场对所有化合物进行能量优化,电荷选择为Gasteiger-Hückel电荷,能量收敛标准为0.05kcal/mol,最大迭代次数设置为1000次。使用FlexX分别将化合物与不同受体活性口袋进行柔性对接,选择结合自由能指标最低的一种模式作为化合物与ER的结合模式,计算受体结合自由能,化合物与受体分子对接失败时,Ebinding值赋为20。计算化合物与活性口袋残基的氢键作用数目(NHB),用指示变量HGlu353、HLeu387、HGly521、HHis524、HLeu346、Hwater、Hother分别判断化合物与口袋内残基Glu353、Leu387、Gly521、His524、Leu346、结晶水和其它位点的氢键作用有无,若有氢键作用,对应的指示变量设为1,否则设为0。
由于化合物数量较多,因结构不同导致其在细胞、组织等中的传输转运性质存在显著差异,将化合物疏水性参数logP表征其传输转运至靶标点的难易程度,作为一个数值变量加入至判别规则中。化合物的logP值来自NCTR数据库。
本例中存在植物性雌激素,植物性雌激素是一类具有特殊结合模式的ER配体,因此建立一个指示变量X1,若化合物为植物性雌激素,则该值赋为1,否则赋为0。
采用化合物的logP、NHB、X1、Ebinding和HGlu353、HLeu387、HGly521、HHis524、HLeu346、Hwater、Hother等氢键作用模式参数与logRBA分类情况进行基于马氏距离法的逐步判别分析。建议以下判别函数Y1=-0.773X1-0.007Ebinding+0.261logP+1.647HGlu353-0.573HGly521+0.435Hother+0.786NHB-2.626,Y1判别重心分别为1~-0.954,2~0.673,3~2.916;Y2=-2.204X1-0.090Ebinding-0.153logP+0.426HGlu353+0.048HGly521+1.202Hother+0.090NHB+1.449,Y2判别重心分别为1~0.164,2~-0.542,3~0.579;从判别函数累积百分比可以看出,Y1判断能力很强,占92.1%,Y2几乎在判别中不起作用,占7.9%。方程总判对能力为82.1%。
模型验证对测试组12个化合物进行验证,判断总正确率为83.3%。
实施例3采用本发明方法分析化合物与受体活性口袋的作用模式。选择NCTR数据库中的双烯雌酚(dienestrol)与hERα(PDB编号为1ERE)活性口袋进行对接,显示化合物与受体口袋的作用示意图(附图1)(氢键作用用虚线表示),判断化合物与口袋内残基Glu353、Leu387、Gly521、His524、Leu346、结晶水(water)和其它位点(other)的氢键作用有无,并计算氢键数目。化合物与口袋结合自由能Ebinding为-25.1kcal/mol,图中显示组成口袋关键残基和结晶水的骨架结构,活性口袋的主要作用区域用紫色点阵表示,在残基的α碳原子上标出残基名称和序号,并按原子类型用不同颜色的线型模型显示这部分残基主链和侧链上的非氢原子,dienestrol的结构用棍状模型显示。氢键作用用黄色虚线标出,可见化合物dienestrol位于活性口袋中央,其两个羟基分别与Leu387的羧端、结晶水和Gly521形成氢键,显示了良好的结合能力。因此,按照本发明中方法对该化合物各种氢键作用的指示变量赋值,HGlu353=0,HLeu387=1,HGly521=1,HHis524=0,HLeu346=0,Hwater=1,Hother=0,氢键数目NHB=3。
实施例4采用本发明方法处理受体大分子和配体化合物的作用模式研究,对未获得晶体结构的受体大分子,在蛋白质序列同源性达到30%以上时,根据已有晶体结构的同源蛋白质模型建立未知结构受体的理论三维空间模型。本例用同源模建方法建立了一种雌激素受体的三维结构模型。所使用的目标序列来自NCBI数据库(National Center for Biotechnology Infomation,http://www.ncbi.nih.gov),序列号GI103903,这是一株来源于虹鳟(rainbow trout)的雌激素受体,由574个氨基酸残基组成,在模型构建时仅能构建其配体结合区域(316-508)。使用网络服务器ESyPred3D根据人类雌激素受体α亚型的三维结构(受体文件来自于PDB编号为1a52的pdb文件)构建虹鳟雌激素受体三维结构。
利用PROCHECK程序对构建的蛋白进行合理性评价,考虑主链与侧链的立体结构信息。通过Ramachandran图(附图2)能够分析处于合理位置的二面角信息,位于黑色区域的残基处于二面角合理区域,灰色次之,处于白色区域的残基可能不合理。在构建的模型中,所有残基处于二面角合理区域,G-因子为0.14,说明构建的主链和侧链性质均处于合理状态,构建模型的键长、键角以及公平面性也都很合理。
实施例5采用本发明方法处理未知三维结构的受体大分子,对于序列同源性90%以上的受体,可以对已知结构的受体分子点突变来构建未知结构受体模型。本例用点突变方法根据人类雌激素受体α亚型配体结合区的三维结构(受体结构文件来自PDB中编号为1a52的受体文件)构建了小鼠雌激素受体α亚型配体结合区(两者序列同源性为97.2%,有8个残基差异)的结构,对8个位置进行点突变,分别为将人类雌激素受体的L306、I326、L327、T334、V368、T371、Q502、S527替换为小鼠受体中的P310、M330、I331、S338、G372、N375、R506、N531(字母代表氨基酸残基缩写,数字代表在受体文件中残基的编号),采用实施例5中的评价方法显示所有残基都处于合理区域。
实施例6采用本发明方法处理实施例2中所提到的NCTR数据库中的(异)黄(烷)酮类化合物,选择具有亲合力活性的21种(异)黄(烷)酮类化合物,将其结合自由能和相对亲合力指标进行线性回归(附图3),回归方程为LogRBA=(-0.258±0.024)Ebinding-(7.051±0.450),N=21,R2=0.862,SE=0.376,P=0.000。
由此可知(异)黄(烷)酮类化合物与ERα的结合自由能和其亲合力指标具有明显的线性关系,结合自由能越低,则化合物与ERα的亲合力越高。
实施例7采用本发明方法对未知亲合力化合物进行判别、筛选和预测,本例中将实施例6中的21种化合物随机抽取3种作为未知化合物,将剩余18种化合物的结合自由能和相对亲合力指标进行线性回归,新的回归方程为LogRBA=(-0.266±0.030)Ebinding-(7.160±0.551),N=18,R2=0.833,SE=0.392,P=0.000。对3种化合物的预测误差在±0.65范围内。
实施例8采用本发明方法处理一组化合物,当化合物分子结构类型较多时,可采用碎片常数法等计算方法或数据库查询、文献检索等方法获得有机污染物疏水性参数logP,描述因结构不同导致其在细胞、组织等中的传输转运特性,表征其传输转运至靶标点的难易程度以及暴露剂量与有效剂量的关系。本例随机抽取了实施例3中NCTR数据库232种化合物中的16种,分别为genistein、equol、daidzein、formononetin、4-n-octylphenol、o,p’-DDE、bis(2-ethylhexyl)phthalate、progesterone、β-testosterone、2-hydroxy-estradiol、nonylphenol、4-hydroxy-estradiol、moxestrol、ICI164,384、17α-estradiol、quercetin。用Chemoffice计算化合物的logP(附图4),并与数据库中提供的值比较。将16种化合物logP的计算值和实验值进行回归,回归方程为Y=(0.906±0.038)X+(0.554±0.182),N=16,R2=0.975,SE=0.336,P=0.000,说明计算值与实验室吻合。
权利要求
1.一种基于受体结合模式的有机物ER亲合力快速筛选预测方法,包括以下步骤(1)根据化合物相对亲合力大小,将已知雌激素受体亲合力的有机污染物按其与雌激素受体亲合力强弱分为三类或四类;每类至少随机抽取一种作为预测组,其余组成训练组;相对亲合力指标采用logRBA,其中logRBA<-3,-3≤logRBA<0,logRBA≥0分别对应于极弱ER亲合力、弱ER亲合力、强ER亲合力;logRBA≥0时的情况还可再分为两类,即0≤logRBA<1和logRBA≥1,分别对应中等强度亲合力、高亲合力;(2)根据已有雌激素受体亲合力数据实验测定所使用受体的物种和亚型,从蛋白质数据库中选择与不同类型激动剂和拮抗剂结合的雌激素受体晶体结构建立ER模型,作用位点的选择是采用SiteID分子模拟方法寻找受体大分子的活性口袋,选择活性残基周围一定范围内的残基组成底物结合口袋;(3)构建有机污染物分子空间结构并进行构型与能量优化,采用分子对接计算可疑环境内分泌干扰物与激素受体活性口袋的结合自由能与形成氢键的位点和数量等氢键作用模式;(4)当分子结构类型较多时,因结构不同导致其在细胞、组织等中的传输转运性质存在显著差异,加入有机污染物疏水性参数logP表征其传输转运至靶标点的难易程度;(5)植物性雌激素是一类比较特殊的ER配体,与ER具有特异的结合模式,在低浓度时显示有弱的雌激素活性,而在浓度升高后又表现出抗雌激素能力,可见其与雌激素受体具有特殊的结合模式,则在筛选中增加指示变量X1进行标志与区分;(6)以表征有机污染物传输转运至靶标点的难易程度的logP、描述化合物与ER靶点氢键作用模式的指示变量H、和ER结合自由能Ebinding、化合物与ER形成氢键的数目NHB、以及指示变量X1为自变量,采用判别分析方法建立有机污染物与雌激素受体亲合力强弱等级的判别函数Y;(7)若存在作用位点和氢键作用模式相近的有机污染物,根据其与雌激素受体活性口袋的结合自由能建立三维定量构效模型logRBA=aEbinding+b,预测结构类似但受体亲合力未知污染物的受体亲合力;(8)采用获得的判别模型与定量预测模型对亲合力未知污染物的雌激素受体亲合力进行筛选、判别与预测。
2.根据权利要求1中所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于根据已有亲合力数据污染物与受体结合能、氢键作用模式和到达受体作用位点难易程度这些受体结合模式与亲合力指标的关系建立基于受体结构的QSAR判别模型与预测模型,并将其应用到雌激素受体亲合力未知化合物的受体亲合力判别预测上。
3.根据权利要求1中所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(1)中亲合力指标分类可按化合物与目标受体亲合力和受体天然配体亲合力之间的比值来确定,比值小于10-5时认为化合物为无亲合力化合物,在10-5和10-2之间时认为化合物具有弱亲合力,大于10-2时化合物具有高亲合力,这其中又可分为两类,在10-2和10-1之间时认为化合物具有中等强度的亲合力,大于10-1时认为化合物具有强亲合力;分别对应于logRBA<-3,-3≤logRBA<0,logRBA≥0,其中logRBA≥0又分为0≤logRBA<1和logRBA≥1两类。
4.根据权利要求1~3中任一项所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(2)中在实验使用的雌激素受体三维结构未知的情况下,受体结构模建可根据同源性采用点突变、同源模建方法;当未知ER与已知ER同源性高于90%时,配体结合区仅有数个残基不同,其蛋白质折叠模式基本相同,采用点突变的方法替换少数对折叠模式不起决定作用的残基,建立未知结构ER模型;对于同源性差的未知ER,使用来自NCBI数据库的目标序列,采用ESyPred3D、Spark2同源模建的方法构建受体模型;mERα与hERα的同源性最高,LBD区内仅有少数几个残基发生变化,组成活性口袋的残基中仅有一个残基不同,可以考虑采用点突变方法来建立mERα受体模型;而蜥蜴和虹鳟ER与hERα的同源性不到90%,因而可利用ESyPred3D、Spark2等网络服务器构建两者的ER同源模型,利用PROCHECK对构建的受体模型进行合理性评价。
5.根据权利要求1~3中任一项所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(3)中化合物结构与能量优化使用Tripos力场,电荷选择为Gasteiger-Hückel电荷,能量收敛标准为0.05kcal/mol,最大迭代次数设置为1000次;使用FlexX分子对接方法将化合物与雌激素受体活性口袋进行分子对接。
6.根据权利要求1~3中任一项所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(3)中所述的结合自由能Ebinding通过分子对接方法FlexX计算获得,对接失败Ebinding赋值为20。
7.根据权利要求1~3中任一项所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(3)中所述的氢键作用模式包括有机污染物与激素受体间氢键作用位点的识别和形成氢键数目的确定,NHB表示化合物与活性口袋残基的氢键作用数目;各指示变量H表示化合物与ER活性口袋内关键残基、结晶水等是否形成氢键,形成氢键作用的对应的指示变量设为1,否则设为0。
8.根据权利要求1~3中任一项所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(4)中的有机污染物疏水性参数logP可采用碎片常数法等计算方法或数据库查询、文献检索方法获得,描述因结构不同导致其在细胞、组织等中的传输转运特性,表征其传输转运至靶标点的难易程度以及暴露剂量与有效剂量的关系。
9.根据权利要求1~3中任一项所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(5)所述的植物性雌激素是一类比较特殊的ER配体,与ER具有特异的结合模式,在低浓度时显示有弱的雌激素活性,而在浓度升高后又表现出抗雌激素能力,可见其与雌激素受体具有特殊的结合模式,则在筛选中增加指示变量X1进行标志与区分。
10.根据权利要求1~3中任一项所述的基于受体结合模式的有机物ER亲合力快速筛选预测方法,其特征在于步骤(6)中所述的有机污染物与激素受体亲合力强弱等级的判别模型特征是分析化合物与活性口袋氨基酸残基间的氢键作用模式,以logP表征有机污染物传输转运至靶标点的难易程度,以指示变量H表征受体特征靶标点的氢键形成情况,设置NHB变量对氢键数目计数,计算化合物与雌激素受体的结合能Ebinding,对接失败Ebinding赋值为20,用指示变量X1表示有无植物性雌激素。采用马氏距离法建立对污染物-雌激素受体亲合力强弱进行判别的判别函数Y=a1logP+a1Ebinding+a3NHB+a4X1+a5H……。
全文摘要
本发明公开了一种基于受体结合模式的有机物ER亲合力快速筛选预测方法。根据已有ER亲合力数据污染物与受体结合能、氢键作用模式和到达受体作用位点难易程度等受体结合模式与亲合力指标的关系建立基于受体结构的QSAR判别模型与预测模型,并将其应用到ER亲合力未知化合物的ER亲合力判别预测。采用本发明方法筛选预测环境可疑EDCs和激素受体亲合力的强弱,对很宽范围活性指标的结构各异化合物均可进行判别筛选与预测,方法成本低廉、简便可靠,能够节省大量的人力、物力、财力,平均预测能力达到80%以上,预测结果对相应化合物的环境管理和生态风险评价具有重要的指导意义。
文档编号G01N33/74GK101059520SQ20071002297
公开日2007年10月24日 申请日期2007年5月29日 优先权日2007年5月29日
发明者张爱茜, 高常安, 蔺远, 穆云松, 王连生 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1