旋转异构体文库及其使用方法

文档序号:3570536阅读:467来源:国知局
专利名称:旋转异构体文库及其使用方法
技术领域
本发明总体上涉及蛋白质结构预测以及蛋白质建模和设计领域。
背景技术
在前述说明书中引用若干出版物和专利文件以便更充分描述本发明所属领域的现状。每一项这些引用的公开内容通过引用结合到本文中。对蛋白质和蛋白质复合体的结构预测由来已久。由于该问题的复杂性,大部分的努力受限于方法的某些方面,例如远同源物的鉴定和序列结构比对(综述可参见 Dunbrack, R. L. (2006) Curr. Opin. Struct. Biol.,16 :374-384)、环结构预测(Fiser 等· (2000)Prot. Science,9 :1753-1773 ;Tosatto 等· (2002)Protein Eng. ,15 :279-286 ; Jacobson 等.(2004)Proteins,55 :351-367 ;Zhang 等.(2004)Protein Sci. ,13 391-399 ;Fernandez-Fuentes 等· (2005)Proteins,60 :746-57)和侧链构象预测(Mendes 等·(2001a) J. Comp. Aided. Mol. Design,15 :721-740 ;Xiang 和 Honig Q001) J. Mol. Biol., 311:421-430 ;Desmet 等· (2002)Proteins,48 :31-43 ;Liang 和 Grishin(2002)Protein Sci.,11 :322-331 ;Canutescu 禾口 Dunbrack(2003)Protein Sci. , 12:963-972 ;Peterson 等· (2004) Protein Sci. ,13 :735-751 ;Xu, J. (2005) Rapid protein side-chain packing via tree decomposition,第9届国际计算分子生物学研究年度会议(RECOMB). 423-439)。 虽然蛋白质结构的从头开始(ab initio)预测对小蛋白已成为现实选择(Bradley 等· (2005) kience,309 :1868-1871 ;Wu 等.(2007) BMC Biol.,5 :17),但仍存在的情况是当靶蛋白的同源结构可获得时才可获得最佳结构预测。同样,用于从小配体到蛋白质的从头开始停靠(Lorber 和 Shoichet (2005) Curr. Top. Med. Chem.,5 :739-749 ;MeiIer 和 Baker (2006)Proteins, 65 :538-548)和两个蛋白质的从头开始停靠(Fernandez-Recio 等· Q005)Proteins,60 :308-313 ;Schueler-Furman 等· Q005)Proteins,60 187-194.) 的程序是可获得的。蛋白质还可通过测定在特定环境中很可能折叠成为给定结构的序列而设计 (Jones(1994)Protein Eng. ,3 :567-574 ;Dahiyat 等.(1997)J.Mol. Biol. ,4 :789-796 ; Kortemme 等.Q004)Nat. Struct. Mol. Biol.,11 :371-379)。在蛋白质设计中,堆积、 疏水相互作用和氢键模式可通过在固定环境中对所给定固定主链的侧链构象进行取样 (sampling)而优化(例如另一蛋白质或配体或DNA)。本发明的具体方面是旋转异构体文库,其可限定为蛋白质侧链构象集合,在实验上测定的结构中所述构象由它们的平均二面角和它们的方差(variance)以及它们相关的观察频率给定。旋转异构体文库用于蛋白质结构预测和蛋白质设计的各个方面以对最可能的侧链构象进行取样和评分。发明概述本发明提供主链依赖性旋转异构体文库和制备所述文库的方法。在特定实施方案中,制备主链依赖性旋转异构体文库的方法包括(a)通过在适应核密度估计(adaptive kernel density estimate)中使用von Mises核测定作为主链二面角Φ禾口 Ψ函数的旋转异构体概率;(b)通过使用非参数核回归估计(non-parametric kernel regression estimate)测定x角平均值和方差;并且(c)通过使用对于侧链自由度的数据-适应核密度估计(data-adaptive kernel density estimate)和对于主链自由度的查询-依赖性 tlWiSi^if (query-dependent kernel density estimate) WiI^,-
自由度的主链依赖性概率分布。在另一实施方案中,所述方法包括贝叶斯先验(Bayesian prior),其包含对于其它自由度的χ r旋转异构体-主链依赖性密度估计和主链独立性条件概率的乘积(product)。在又一实施方案中,可在计算机的辅助下实施该方法并且可以任何所需方式(例如打印或显示)将结果输出给用户和/或储存于存储器中。在再一实施方案中,至少部分用于生成旋转异构体文库的数据集通过实验确定。依据本发明的另一方面,提供用于生成至少一条多肽的最优化结构的方法。在特定实施方案中,方法包括以下步骤(a)提供所述至少一条多肽的主链结构;(b)利用本发明的旋转异构体文库以对于所述多肽中的至少一个可变残基位置建立一组可能的旋转异构体;并且(C)分析步骤b)所得到的每一旋转异构体与所述多肽结构剩余部分的至少部分或全部的相互作用,从而生成至少一条多肽的至少一个氨基酸的侧链最优化结构。在特定实施方案中,所述方法包括步骤(a)中配体(例如蛋白质的或非蛋白质的配体)的坐标 (coordinate)并且在配体存在下得到的最优化多肽结构。在又一实施方案中,至少一个可变残基位置具有来自至少两条不同氨基酸侧链的旋转异构体。所述方法可用于确定用于结合(特别为增强的结合)配体或第二多肽的多肽的最佳氨基酸序列。可在计算机的辅助下实施该方法并且可以任何所需方式(例如打印或显示)将结果输出给用户和/或储存于存储器中。在又一实施方案中,可通过实验确定主链结构。在再一实施方案中,可通过实验测试最优化多肽与野生型或变异前的多肽相比的配体或第二多肽的受调结合。依据本发明的又一方面,提供用于测定第一多肽中的改变(alteration)是否调节所述第一多肽与第二多肽结合的方法。在特定实施方案中,所述方法包括(a)提供对于所述第一和第二多肽的氨基酸残基的结构坐标集合;(b)对所述第一和第二多肽之间的相互作用建模;(c)利用本发明的旋转异构体文库以对所述第一多肽中的至少一个可变残基位置建立一组可能的旋转异构体,从而产生限定经改变第一多肽的结构坐标集合;(d)对所述经改变的第一多肽和所述第二多肽的相互作用建模;并且(e)确定与所述第一多肽和所述第二多肽之间的相互作用相比,所述改变是否调节所述经改变的第一多肽和所述第二多肽之间的相互作用。在某些实施方案中,所述相互作用的调节是多肽的亲合力或结合亲和力的调节(例如提高)。在特定实施方案中,多肽之一是抗体并且另一蛋白质是抗原或表位,特别为由所述抗体识别的表位。可在计算机的辅助下实施该方法并且可以任何所需方式(例如打印或显示)将结果输出给用户和/或储存于存储器中。在又一实施方案中,可通过实验确定结构坐标。在再一实施方案中,可通过实验测试经改变的第一多肽与所述第一多肽和/或野生型相比的第二多肽的受调结合。
附图简述

图1提供针对丝氨酸、g+、trans和g_的三个X工旋转异构体(从左至右)的ρ ( Φ, Ψ Ir)核密度估计图。点表示输入数据点。图2提供针对丝氨酸、g+、trans和g_的三个X1旋转异构体(从左至右)的 P(r| Φ,ψ)核密度估计图。点表示输入数据点。图3是用本发明旋转异构体文库,用MolIDE和SCWRL构建的人胱硫醚β合酶的 C-末端调节结构域的同源性模型图像。与配体S-腺苷甲硫氨酸接触的侧链用条表示法显示。图4是用CBS-BD作为目标的MolIDE2图像。如所得序列比对(左下)和交互结构查看器(右中)所示,将在命中列表(左上)中检验的结构在结构上比对。结构上比对的残基块为蓝色。使用由结构比对构建的隐蔽马尔科夫模型(HMM,hidden Markov model) 已将查询序列加入结构比对(左下)。经检验条目的配体列表在右上显示,并且给出与它们相互作用的PFAM。那些配体窗口中已检验的条目包含所需腺苷类似物;它们的残基相互作用在序列比对中突出显示。这些结构还在配体树中突出显示。图5提供SCWRL4侧链构象预测中步骤的流程图。图 6 提供 k-维定向多胞形(kDOP,k-Dimensional Oriented Polytope)的实例。 左图平面(k = 2,3,4)中和三维(k = 3,4)中的kDOP实例。右图kD0P A和kDOP B的重叠试验。若满足所示条件,则包于kDOP内的对象可碰撞(crash)。图7是SCWRL4范德华(van der ffaals)电势图。在该图中,χ = (!/Rij并且θ = 0.8254。图8氢键电势的示意图。变量在本文中定义。图9提供作为双连通分量分解(biconnected component decomposition)归纳的树分解。在左边,将SCWRL3论文中所用的图与其双连通分量分解一起显示。在右边,显示相同图的树分解。残基c和d以及残基h说明树分解的条件2和3被满足,该条件示于树分解下方。图10证明SCWRL4特征对SCWRL3和SCWRL4精确度差异的影响。所示精确度是平均绝对精确度,其涵盖所有侧链二面角。“原子半径”=优化半径的使用;“插值”=旋转异构体文库概率和二面角的插值;“局部BB” =侧链和残基i-Ι的原子N、HN以及残基i+Ι的原子C、0之间的增加相互作用,其先前被忽略;“P = 98%”=按频率递减次序排列的旋转异构体中最高98%概率的读数(先前90% ) ;"H键”=新氢键电势;“新RL” =新旋转异构体文库;“FRM” =柔性旋转异构体模型;“参数调谐” =FRM参数和旋转异构体文库权重 (weight)的调谐。图11为证明由包括晶体近邻导致的精确度改进的图。所示的精确度图反映本文描述的平均绝对精确度的差异。对于Cys未观察到变化。图12提供描述精确度对比电子密度百分位数的图。使用20%的滑动窗口,作为电子密度百分位数的函数显示对于每一二面角自由度的条件精确度。图13提供表1,描述SCWRL4的精确度。图14提供表2,描述SCWRL4相比SCWRL3的改进。发明详述
旋转异构体文库(参见例如,Dunbrack,R. L. Curr. Opin. Struct. Biol. (2002) 12 431-440)在许多蛋白质结构预测和设计应用方面被许多研究组广泛应用,并形成侧链预测程序例如 SCffRL 的基础(Canutescu 和 Dunbrack Q003) Protein Sci.,12 :963-972)。旋转异构体为有机部分的低能构象,有机部分例如由来自其它此类构象的高能障分隔的蛋白质侧链。这样从由高能障分隔的离散构象的意义上讲,蛋白质侧链中的大多数自由度是“旋转异构体的”。一些类型的侧链具有至少一个“非-旋转异构体的”二面角自由度,通常在概率密度分布中仅显示一个宽的、非对称峰。某些旋转异构体的态在能量方面高于其它的态,这是由于与相邻原子的空间相互作用。包括氢键在内的静电相互作用还影响侧链能量。这些相互作用可为“主链独立性”(即不依赖于残基的局部主链构象)或“主链依赖性”(即依赖于由主链二面角Φ和Ψ确定的局部主链构象)。主链依赖性旋转异构体文库提供平均二面角和它们的方差以及蛋白质侧链构象(即旋转异构体)的频率作为主链二面角Φ和Ψ的函数。频率和平均角度以及方差均依赖于局部主链构象(Dunbrack和Cohen (1997) Protein Sci.,6 :1661-1681 ;Dunbrack 和 Karplus(1993)J. Mol. Biol.,230 :543-574 ;Dunbrack 禾口 Karplus(1994)Nature Struct.Biol. ,1 :334-340 ;Dunbrack, R. L. (2006)Curr.Opin. Struct. Biol.,16 :374-384)。主链依赖性旋转异构体文库的先前形式基于用k-最近邻(k-nearest neighbor) 的简单直方图分析(Dunbrack 和 Karplus (1993) J. Mol. Biol.,230 :543-574)或用贝叶斯先验的直方图分析(Dunbrack 和 Cohen (1997) Protein Sci.,6 :1661-1681 ;Dunbrack, R. L. (2006) Curr. Opin. Struct. Biol.,16 :374-384)。后者被许多研究组广泛用于蛋白质结构预测和蛋白质设计。在结构预测和设计期间将平均二面角和有时候将它们的方差用于对蛋白质中侧链构象取样。通过以下方式将频率用作总体评分函数的一部分取每一频率的负自然对数,其乘以作为能量项的某个常数连同范德华、氢键和其它能量项。在一些程序例如Rosetta (Rohl等.Q004) Methods Enz.,383 66-93)中,进行整体结构能量最小化,这需要将所有能量项相对主链自由度Φ和Ψ —阶求导。先前的旋转异构体文库具有若干显著缺点。首先,从贝叶斯直方图分析得到的频率作为Φ和Ψ的函数非常不平滑(bumpy)。这对于需要平滑且可区分能面的结构精修方法尤其有问题(例如Rosetta)。但还存在的问题是由于数据量少,一些频率被错误估算。 该特征是直方图方法特有的。其次,平均角度和它们的方差更加不平滑,平均角度变化很大,这是由于一些Φ、Ψ网格点附近的数据量少。这意味着它们中的许多被错误确定并且在结构的全部能量最小化期间将产生急剧的移动。最后,将非-旋转异构体的自由度视为它们似乎是旋转异构体的,其仅具有3-6离散的、非重叠bins以覆盖180°或360° (取决于侧链类型)。这些都不足以对这些自由度进行连续能量最小化。由于主链依赖性旋转异构体文库在蛋白质结构预测和蛋白质设计方面的广泛应用,改正这些问题的改进旋转异构体文库将具有广泛的影响。本发明的旋转异构体文库从更加严格过滤的数据集得到并且使用完全不同且新的统计方法。实际上,本发明的旋转异构体文库包括以下特征的至少一个、至少两个、至少三个、至少四个、至少五个或全部。第一,新的旋转异构体文库利用现今可获得的与过去的文库相比大得多的数据集并且使用电子密度计算,以去除高度动态的具有不确定构象或坐标的侧链(或蛋白质区段)。在任何结构集合(其实验的结构因子可获得)中测量在针对侧链的原子坐标位置处的电子密度的软件是可获得的(Shapovalov和Dunbrack Q007) Proteins,66 :279-303)。例如,可使用从 Uppsala Electron Density Server (EDS)可得到的电子密度图(Kleywegt, 等.O004)Acta CrystalIogr. D Biol. CrystalIogr. ,60 :2240-2249)。此外,PISCES 服务器(Wang 和 DunbrackQ003)Bioinformatics,19 :1589-1591)处理以下问题选择分辨率和R-因子优于固定截止并具有小于设定值的共同序列同一性的结构集合。PISCES的一大优势是其可接受PDB条目或链的输入列表并且使用输入单个和成对标准选择它们子集。因此,可使用结构因子数据可得的X-射线晶体学条目(约半数χ-射线条目)的列表,并且可将PISCES用于确定它们的适当子集。例如,在1.7人和50%序列同一性截止,可能生成具有可得的结构因子的2,123条链的列表。如果不考虑结构因子的可得性,该列表的大小将为2,196。对于比较,最近的旋转异构体文库O002)使用具有优于1.7 A的分辨率和最大 50%共有序列同一性的850条链。第二,作为主链二面角Φ和Ψ的函数的旋转异构体频率已使用von Mises核函数 (Hall 等.(1987) Biometrika,74 :751-762)采用适应核密度估计(Abramson (1982) Annals Stat. , 10 :1217-1223)计算。旋转异构体文库概率可通过利用贝叶斯法则(Bayes’ rule) 从每一旋转异构体类型的Ramachandran密度,r推导出来
权利要求
1.生成主链依赖性旋转异构体文库的方法,所述旋转异构体文库包含对于氨基酸或其类似物组的容许旋转异构体组的构象,所述方法包括(a)通过在适应核密度估计中使用vonMises核确定作为Φ和Ψ的函数的旋转异构体概率;(b)通过使用非参数核回归估计测定χ角平均值和方差;并且(c)通过使用对于侧链自由度的数据-适应核密度估计和对于主链自由度的查询-依赖性核密度估计的组合,测定非-旋转异构体的自由度的主链依赖性概率分布。
2.权利要求1的方法,还包括贝叶斯先验,其包括针对其它自由度的A主链依赖性密度估计和主链独立性条件概率的乘积。
3.由权利要求1的方法生成的主链依赖性旋转异构体文库。
4.用于生成至少一条多肽的最优化结构的方法,所述方法包括以下步骤(a)提供所述至少一条多肽的主链结构;(b)利用权利要求3的所述旋转异构体文库以对于所述多肽中的至少一个可变残基位置建立一组可能旋转异构体;并且(c)分析步骤b)所得到的每一旋转异构体与所述多肽结构剩余部分的至少部分或全部的相互作用,从而生成所述至少一条多肽的侧链的最优化结构。
5.权利要求4的方法,其中步骤a)还包括辅因子的配体坐标并且在所述配体或辅因子存在下得到所述多肽的最优化结构。
6.权利要求5的方法,其中所述配体或辅因子是非蛋白质的。
7.权利要求4的方法,其中至少一个可变残基位置具有来自至少两个不同氨基酸侧链的旋转异构体。
8.权利要求5的方法,其中至少一条多肽的所述最优化结构是所述至少一条多肽的氨基酸序列,所述至少一条多肽具有对所述配体或辅因子增强的结合。
9.通过权利要求4的方法得到的最优化蛋白质结构。
10.权利要求8的方法,还包括d)比较体外或体内所述最优化结构对于所述配体或辅因子的结合亲和力与未修饰多肽与所述配体或辅因子的结合亲和力。
11.用于测定第一多肽中的改变是否调节所述第一多肽与第二多肽的结合的方法,所述方法包括(a)提供对于所述第一和第二多肽的氨基酸残基的结构坐标集合;(b)对所述第一和第二多肽之间的相互作用建模;(c)利用权利要求3的所述旋转异构体文库以对于所述第一多肽中的至少一个可变残基位置建立一组可能旋转异构体,从而产生限定经改变第一多肽的结构坐标集合;(d)对所述经改变的第一多肽和所述第二多肽的相互作用建模;并且(e)确定与所述第一多肽和所述第二多肽之间的相互作用相比,所述改变是否抑制或促进所述经改变的第一多肽和所述第二多肽之间的相互作用。
12.通过权利要求11的方法鉴定的显示与第二多肽相互作用增强的经改变多肽序列。
13.权利要求11的方法,其中所述第一多肽是抗体并且所述第二多肽包含由所述抗体识别的表位。
14.权利要求11的方法,还包括f)比较体外或体内所述经改变第一多肽对于所述第二多肽的结合亲和力与所述第一多肽和所述第二多肽的结合亲和力。
全文摘要
本发明提供了旋转异构体文库及其使用方法。
文档编号C07K2/00GK102482798SQ201080028728
公开日2012年5月30日 申请日期2010年4月20日 优先权日2009年4月20日
发明者M·沙波瓦洛夫, R·邓布拉克 申请人:福克斯契思癌症中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1