蛋白质聚集预测系统的制作方法

文档序号:6479545阅读:259来源:国知局
专利名称:蛋白质聚集预测系统的制作方法
技术领域
本发明涉及鉴定结构化(折叠)的蛋白中聚集-倾向区域的方法,涉及确定蛋白 的聚集倾向的相关方法,涉及执行所述方法的计算机程序代码和设备,并且涉及鉴定新的 药物和药物靶标以及蛋白质毒性的相关方法。
背景技术
背景现有技术描述在Protein Science (蛋白质科学),卷15,2006,JA Marsh 等,“Sensitivity of secondary structure propensities to sequence differences between alpha-and gamma-synuclein Implicationd for fibrillation(二级结构倾向对于在α-和Y-突触核蛋白之间序列差异性的敏感性对于原纤化的涉及)", 2795-2804 ;和 in silico Biology(硅内生物学),卷 7,2007,S Inicula-Thomas 等,“Correlation between the structural stability and aggregation propensity of proteins (在蛋白质的结构稳定性和聚集倾向之间的关联)",225-237中。之前,我们 已经在WO 2004/066168和WO 2005/045442中描述了用于预测以其天然、未折叠状态存在 的蛋白质的聚集/溶解性比率的技术。这些技术,例如有效用于预测无结构化的多肽链的 抗聚集突变变体,但是它们通常不可应用于预测结构化(折叠)蛋白的聚集。然而,蛋白 质在其折叠状态的聚集对于许多疾病是重要的,并且认为对于该现象的精确预测是一个难 题,因此其尚未得到解决。我们将描述解决该问题的工具;存在该工具的许多应用,包括合 理的设计药物以及蛋白生产技术。发明_既述根据本发明的第一方面,因此提供鉴定蛋白质的氨基酸序列中一个或多个在折 叠的蛋白中被预测促进聚集的区域的方法,所述方法包括对于沿所述序列的氨基酸位置 (i),确定在所述氨基酸位置的局部聚集倾向(Ai),所述局部聚集倾向通过组合关于所述氨 基酸位置的疏水性值、α -螺旋倾向值、β -折叠倾向值、电荷值和模式值来确定;确定关于 所述氨基酸位置的局部结构稳定性值,所述局部结构稳定性值包括在所述氨基酸位置的局 部结构稳定性的量度;以及组合在所述氨基酸位置的所述确定的局部聚集倾向和在所述氨 基酸位置的所述局部结构稳定性值从而鉴定所述氨基酸序列中一个或多个区域,所述一个 或多个区域被预期在所述折叠的蛋白质中促进聚集。局部结构稳定性值考虑蛋白质处于其折叠状态。在一些优选的实施方案中,该信 息纯粹由该蛋白的氨基酸序列预测。在优选的实施方案中,局部结构稳定性值有效测量结 构的热波动的幅度。在一些特别优选的实施方案中,在序列中的位置i(Pi)的局部结构 稳定性值是氨基酸序列(通常基本上是整个氨基酸序列)的性质。通过蛋白质的折叠并 且在其折叠状态保持稳定的倾向确定的对数Pi值通过如在Tartaglia,G. G.,Cavalli, A. &Vendruscolo,M. (2007) Structure (结构)15,139-143 中所述的 CamP 方法确定,将其内 容结合在本文作为参考。在所述方法的实施方案中,无需蛋白质的天然折叠结构的知识而 确定局部结构稳定性值。在实施方案中,确定的局部聚集倾向和局部结构稳定性值的组合通过用局部结构稳定性值来调节局部聚集倾向来进行,尽管,潜在地,所述组合也可以以其他的方式进行, 例如通过在数据的图解表示的不同轴上表示两组值来进行。技术人员将理解确定局部聚集 倾向不需要包括疏水性、α-螺旋和β-折叠倾向、电荷和模式值的线性组合。在一些优选 的实施方案中,将通过局部结构稳定性数据调节的局部聚集倾向用于确定折叠蛋白的聚集 倾向模式,所述模式代表组合数据中随沿所述序列的位置的变化。接着,一个或多个被预测 易于聚集的区域可以通过鉴定局部或绝对最大值,例如在模式的局部峰值或模式的多个区 域的局部峰值而容易地鉴定,在所述区域中,所述模式具有大于阈值水平的值。所述方法的优选实施方案还考虑“门控(gatekeepers) ”的概念,具体地通过考虑 局部电荷对氨基酸模式的作用。因此,当一些氨基酸模式,例如其中亲水性氨基酸和疏水性 氨基酸交替的模式,具体地具有至少5个氨基酸的长度,促进聚集,这种作用受在所述模式 两翼或其内部的局部电荷抑制。因此,所述方法的优选实施方案确定在关于氨基酸模式任 一侧的窗口(window)内的总局部电荷并且使用该值来改变在氨基酸位置确定的局部聚集 倾向。因此,在另一方面,本发明提供在蛋白质的氨基酸序列中鉴定一个或多个在折叠 的蛋白质中被预测促进聚集的区域的方法,所述方法包括关于沿所述序列的多个位置i, 确定灼agg的值,其中灼agg代表在位置i的氨基酸的固有聚集倾向并且包括Ph,Ps, Ph-和P。 的函数,并且Ph,Ps, Phyd和P。分别是在沿所述序列的所述位置i的氨基酸的α -螺旋倾向 值,β _折叠倾向值,疏水性值,和电荷值;关于沿所述序列的多个位置i,确定乂/7值,其中
乂尸由下式确定 其中i
窗口 ι表示在关于所述位置i的任一侧的第一窗口内的氨基酸位置的第一总和,/Tzi是 代表在位置i的亲水性和疏水性氨基酸中一种或两种的模式的模式值,/f是代表侧邻所述 模式或在其内部的电荷的电荷值,并且其中a” apat和α gk是比例因子;并且从关于沿所 述序列的所述多个位置i的乂广值确定关于所述蛋白的聚集倾向模式,所述聚集倾向模式包 括鉴定相关聚集倾向关于沿所述序列的位置的变化的数据。如前所述,本领域技术人员应该理解可以使用广泛范围的ph,ps,phyjnp。的函数, 并且技术的实施方案并不限于这些值的线性组合。因此该方法的实施方案并不限于在下述 方程(1)中给出的Piagg计算的具体形式。如上提及,优选地,代表在氨基酸的局部模式两侧或在其内部的电荷的电荷值包 括在氨基酸位置i的窗口内的(氨基酸)电荷的总和;优选地,该(第二)窗口大于用于确 定乂/7的(第一)窗口。在实施方案中,第一窗口具有基本等于β链的相关长度的长度,例 如7个氨基酸;在实施方案中,第二窗口的边缘是这样的点,在所述点,有效失去电荷对于 β链的“记忆”作用,例如在越过第一窗口边界的超过三个、五个或七个氨基酸处。在优选的实施方案中,确定聚集倾向模式考虑在残基特异性水平的结构保护和聚
6集倾向,具体地通过乘以
( 对数Λ ) α2--^
VJ进行。在这里,^和Ci3是比例因子,并且对数可以例如是基于10的对数或基于 e的对数(对数有效地考虑测量群体/概率并转换为表示稳定性的自由能表示);在实施方 案中,保护因子Pi代表对氢交换的保护,并且自由能涉及产生范德华接触或氢键的自由能 分布。对数Pi范围越大,天然结构越不稳定;在实施方案中,α 3具有约15的值,因为,通过 实验已经发现大于该值的对数Pi的值对应于不稳定的局部结构。在所述方法的实施方案 中,可以确定标准化的固有聚集倾向模式Zf,但是本领域技术人员应该理解这种标准化不 是必须的。同样地,在通过局部结构稳定性值调节之前,清楚地确定该标准化的固有聚集倾 向模式也不是必需的。在上述技术的实施方案中,可以通过总计聚集倾向数据,优选地考虑局部结构稳 定性值,仅在被鉴定为预测促进聚集的那些区域进行总计来确定总的聚集倾向。因此,在另一个方面,本发明提供确定折叠蛋白的总聚集倾向的方法,所述方法包 括考虑局部氢交换和局部电荷对聚集诱导的氨基酸模式的抑制中的一种或两种,在蛋白 的氨基酸序列中鉴定一个或多个在折叠的蛋白中被预测促进聚集的区域;接着总计由在沿 所述序列的多个氨基酸位置(i)的局部聚集倾向的值(Ai)而确定的聚集倾向数据;其中所 述总计包括基本上仅在所述鉴定的区域范围内的总计。由其氨基酸序列预测的所述确定的总的蛋白聚集倾向可以用于鉴定这样的多肽 序列,其特别适合(或不适合)于生产,因为其不可能(或可能)形成不溶的聚集体。在已 经鉴定适合于生产的多肽后,可以接着将该方法的实施方案,从而制备以该方式鉴定的多 肽(蛋白质)。在一些优选的技术中,所述鉴定的多肽使用机器多肽合成装置制备,例如在 计算机程序代码的控制下来执行上述方法。另外,可以通过计算机程序代码来控制自动的 (机器)实验室设备,所述计算机程序代码这样设置以执行上述方法从而鉴定蛋白的氨基 酸序列中的一个或多个在折叠的蛋白中被预测促进聚集的区域。可以例如使用所述设备从 而自动地鉴定蛋白中的药物靶标和/或自动鉴定药物,所述药物与蛋白特别地在一个或多 个鉴定的靶区域内相互作用。因此,在另一个方面,本发明提供鉴定蛋白中的药物靶标的方法,具体地使用上述 方法以鉴定氨基酸序列中一个或多个被预测促进聚集的靶部分。在已经进行了这样的预测 后,任选地这可以通过例如突变该序列来进行测试。此外,已经在蛋白中鉴定了一个或多个 药物靶标后,接着,可以继续进行所述方法以鉴定预测与该蛋白相互作用的一种或多种药 物,所述相互作用例如通过在靶位点结合进行。这可以是直接的,如在数据库中观察以确定 是否存在已知在所述靶位点结合的任何分子,或一旦鉴定了靶位点就可以使用鉴定在所述 靶标结合的分子的合理方法,或可以使用体内/体外筛选方法。此外,可以通过自动(机 器)实验室设备进行所述方法,例如在用于进行上述方法的计算机程序代码的控制下。因此,本发明还提供这样的计算机程序代码,其用于控制计算机或计算化的装置 以执行如上所述的方法或系统。该代码可以在载体上提供,所述载体如磁盘,例如CD-或DVD-R0M,或程序存储器例如固件。执行本发明的实施方案的代码(和/或数据)可以包括 源、对象或在常规编程语言(解释的或编译的)中的可执行代码如C、或汇编代码,用于设置 或控制ASIC(专用集成电路(Application Specific Integrated Circuit))或FPGA(现场 可编程门阵列(Field Programmable Gate Array))的代码、或用于硬件描述语言的代码, 所述硬件描述语言如Verilog(商标)或VHDL(超高速集成电路硬件描述语言(Very high speed integrated circuit Hardware Description Language))。如本令页域技术人员将理 解,所述代码和/或数据可以在彼此联系的多个偶联组件之间传递。技术人员将理解本发明的上述方面和实施方案的特征可以以任何顺序组合。附图
简述本发明的这些和其它方面现在将通过仅举例的方式进一步描述,参考附图,其 中图Ia和Ib分别显示用于进行本发明所述的方法的实施方案的计算机系统的示意 图;和参与淀粉状蛋白疾病的四种肽的聚集倾向模式上线表示固有聚集倾向模式Zp,而下 线表示聚集倾向Zps,后者通过考虑由蛋白的折叠形式的球状结构提供的结构保护来计算; Ai^42 阴影区域显示形成交叉β-核心的区段,并且线条显示对应于肽A β 16_22 (KLVFFAE) 的区域,其已经显示形成高度规则的淀粉状蛋白原纤维;胰高血糖素;降钙素;人CA150的 第二 Wff结构域,其中阴影区域显示形成交叉β核心的区段;图2显示结构化蛋白的预测的聚集倾向模式的实例低折叠倾向的区域,其被较 少保护免于聚集,被鉴定为通过考虑折叠形式的结构保护而计算的聚集倾向模式Zps(黑 线)中的最高峰值;固有聚集倾向模式Zp是上线;二级结构元件显示为线条200(β_折叠) 和上线202 ( α -螺旋);溶菌酶;阴影区域显示残基26-123和32-108的区域,其对于聚集 是重要的;肌红蛋白阴影区域指示高度易于聚集的肽片段(残基100-114);图3显示在个体残基水平(H=螺旋,S=链,和T=转角)的折叠(IogP评分)和 聚集(Zp评分)倾向之间的关联;根据■· expasy. org的无结构化的区域以星形标记,(a) 溶菌酶我们预测区域或残基43-54 (螺旋),73-76 (转角),82-85 (链),和96-98,(无结 构化的)同时具有低结构保护和高聚集倾向,并且因此特别易于在不稳定条件下聚集;我 们还用许多与促淀粉状变突变相关的位置标记;在图中残基标号遵循在ExPASy网络服务 器上的残基编号,并包括18个残基的N-末端标记。(b)肌红蛋白我们预测残基4-19(螺 旋),21-35 (螺旋),125-149 (螺旋)的区域具有高聚集倾向和低结构保护。图4显示两种朊病毒蛋白的聚集倾向模式,关于所述朊病毒蛋白可获得详细的结 构信息;上线表示固有聚集倾向模式Zp,下线表示聚集倾向模式zps,其通过考虑由折叠形 式蛋白的球状结构提供的结构保护而计算。(a)hPrP(23_231)序列的聚集倾向模式;固有模式 Zp和有效的Zps模式;在hPrPC中存在的次级结构元件表示为线条400 ( β -折叠)和线条 402(0-螺旋)。二硫键C179-C214中的位置由线404表示。实验确定的聚集敏感区域(残 基113-127)由灰色阴影区域表示,并且显示与我们的方法预测的具有明显的聚集倾向(Zps > 1)的主要区域基本重叠。(b)HET-s 显示通过固态NMR鉴定的对应于四种β链的区域; 所述阴影区域对应于C-末端片段,其淀粉状蛋白结构已经通过固态NMR光谱法表征。图5显示在关于人朊病毒蛋白(H =螺旋,S =链,和T =转角)的个体残基水平 上折叠(IogP评分)和聚集(Zp评分)倾向之间的关系;根据棚.expasy. org的无结构区域用星形标记;我们预测残基120-123的区域具有最高的聚集倾向和最低的结构保护,其 次是重复序列84-91的区域;我们还标记与CJD突变相关的位置。优选实施方案详述我们将描述预测肽和蛋白序列中对促进它们聚集以及淀粉状蛋白形成最重要的 区域的方法。所述方法关于这样的条件容许进行所述预测,在所述条件下,涉及的分子可以 包含显著程度的永久结构。为了获得该结果,所述方法的实施方案仅使用氨基酸序列的知 识来同时估计折叠倾向以及聚集倾向,以及这两种类型的倾向彼此竞争的方式。我们通过 将所述方法应用于一组均与疾病相关或都不与疾病相关的肽和蛋白来举例说明这样的方 法。该结果不仅显示具有高固有聚集倾向的蛋白区域可以以机器方式鉴定,还显示以单体 (可溶)形式存在的所述区域的结构背景对于确定它们在聚集过程中的作用非常重要。多肽链的氨基酸序列的特定区域,有时也称为“易于聚集”区域(Pawar,Α. P., DuBay,K.F· ,Zurdo,J. ,Chiti,F. ,Vendruscolo,M.& Dobson,C. M. (2005) J. Mol. Biol. ( ^ 子生物学杂志)350,379-392),在确定它们聚集并最终形成有组织的结构如淀粉状蛋白原 纤维的倾向中具有主要作用(Pawar,A. P. ,DuBay,K. F. ,Zurdo, J.,Chiti,F. ,Vendruscolo, Μ. & Dobson, C. Μ. (2005) J. Mol. Biol (分子生物学杂志)· 350,379-392 ;de Groot, N. S., Pallares, I,Aviles,F. X. ,Vendrell, J. & Ventura, S. (2005) BMC Struct. Biol (BMC 结构生 物学).5 ;Fernandez-Escami 11a, Α. Μ. , Rousseau, F. , Schymkowitz, J. &Serrano, L. (2004) Nat Biotech(自然生物技术)22,1302-1306)。通过分析突变对于特定肽和蛋白的聚集 倾向的作用(Chiti, F. , Taddei, N. , Baroni, F. , Capanni, C, Stefani, Μ. , Ramponi, G. & Dobson, C. M. (2002) Nat. Struct. Biol.(自然结构生物学)9,137-143)并通过确定说明多 肽链的特定区段组成所述原纤维的高度有序核心的高分辨率结构模型来提供对于这种观 点的强有力的支持。易于聚集的区域的存在已经提示了这样的方式,其中合理诱变作用可 以减少生物技术中的聚集问题(Ventura, S. & Villaverde, Α. (2006)Trends Biotech.(生 物技术趋势)24,179-185)。此外,已经提议了特异性靶向这些区域以减少它们促进有序分 子间装配形成倾向的治疗策略(Tatarek-Nossol,M.,Yan, L. M.,Schmauder, A.,Tenidis, K.,ffestermark, G. &Kapurniotu, Α. (2005) Chemistry & Biology (化学和生物学)12, 797-809)。最近已经描述了促进未折叠的多肽链聚集的主要的理化因子(Chiti,F., Stefani, M. , Taddei, N. , Ramponi, G. & Dobson, C. Μ. (2003)Nature (自 M ),424, 805-808. Dubay, K. F. , Pawar, Α. P. , Chiti, F. , Zurdo, J. , Dobson, C. Μ. & Vendruscolo, Μ. (2004) J. Mol. Biol (分子生物学杂志)· 341,1317-1326),并且基于此,已经提议了一些 算法来预测"聚集倾向模式",其能够鉴定具有高固有聚集倾向的区域(Rousseau,F., Schymkowitz, J. &Serrano, L. (2006)Curr. Op. Struct. Biol.(现代结构生物学观点)16, 118-126 ;Tartaglia, G.G. , Cavalli, A. , Pellarin, R. & Caflisch, Α. (2004)Protein Sci (蛋白质禾斗学)· 13,1939-1941 ;Thompson, Μ. J. , Sievers, S. Α. , Karani col as, J., Ivanova, Μ. I,Baker, D. & Eisenberg,D. (2006)Proc. Natl. Acad. Sci. USA(美国国家科学 院学报)103,4074-4078 ;Trovato, Α.,Chiti, F.,Maritan, A. &Seno, F. (2006)PLoS Comp. Biol. 2,1608-1618 ;Conchillo-Sole, 0. , de Groot, N. S. , Aviles, F. X. , Vendrell, J., Daura,X. & Ventura,S. (2007) BMC Bioinformatics (BMC 生物信息学)8)。我们在前面已经显示了这种方法用于预测在生理条件下是无结构的多肽链的易于聚集的区域的有效性,所 述多肽链包括与阿尔茨海默病相关的A β肽,和α-突触核蛋白,α-突触核蛋白即为一种 天然未折叠的蛋白,它的聚集与帕金森病相关。目前,我们已经将该方法延伸用于预测促进结构化和部分结构化的球状蛋白质聚 集的区域。在这样的计划中,我们考虑了这样的可能性,即,具有高固有聚集倾向的区域可 能埋在稳定的和通常是高协同作用的结构元件内部,并因此在所述状态不能形成导致聚 集的特定分子间相互作用。因此,以这种方式遮蔽,它们可能不能在聚集过程中起主要作 用,尽管在使天然结构去稳定的突变之后,它们可获得这种能力。为了能够考虑蛋白质序 列的给定区域采取折叠构象的倾向,我们探索了从其序列的知识预测蛋白的各个区域的局 部稳定性的可能性(Tartaglia, G. G.,Cavalli, A. &Vendruscolo, Μ. (2007) Structure (结 构)15,139-143)。实质上,考虑到蛋白的氨基酸序列,我们在此显示了怎样可以组合关于 形成有序的聚集体和折叠为稳定结构的倾向模式的预测。我们通过将该方法应用于预测一 系列肽和蛋白的聚集模式来举例说明该方法,所述肽和蛋白的聚集倾向已经通过实验进行 了特别详细地表征。由于我们开发的算法基于相对于淀粉状蛋白形成动力学的突变数据进 行,我们提供的结果使我们能够讨论具有促进聚集过程的高倾向的区域可以怎样与在稳定 淀粉状蛋白构象的结构核心中起主要作用的那些区分开。方法多肽序列的固有聚集倾向模式在本文所述的方法中,将个体氨基酸的固有聚集倾向定义为(1)
Pigs = ahPi丨+asps+CCliyll ρΙψΙ +acpc
(1)其中分别是α螺旋和β折叠形成的倾向,并且Phyd是疏水性,并且P。是 电荷。接着,以如下所述确定的系数α以线性方式组合这些倾向。技术人员将理解可以使 用除了线型模型之外的模型。组合/^gg值以提供模式Ap,其将固有聚集倾向描述为完整氨 基酸序列的函数(1)。在实施方案中,/可以使用系数α比例化,例如在士 1内。在沿
所述序列的每个位置i,我们将模式Ap限定为七个碱基的窗口的平均值 其中Ipat是考虑交替疏水残基和亲水残基(1)的特定模式存在的术语,而Igk是考 虑个体电荷门控作用Ci的术语 参数α 可以根据由 DuBay 等(16. Dubay,K. F. ,Pawar,A. P. ,Chiti,F. ,Zurdo, J., Dobson, C. Μ. & Vendruscolo,Μ. (2004) J. Mol. Biol.(分子生物学杂志)341,1317-1326)所述的一般方法拟合。为了比较固有倾向模式,我们通过考虑在随机序列的每个位置k的AkP 的平均值(μΑ)和标准偏差(Oa)来对Ap进行标准化。我们因此获得标准化的固有聚集倾 向模式。 关于Z/的目标是具有O的平均值和1的标准偏差,其中我们在随机序列范围内计 算平均值μ和标准偏差σ

在这些式中,我们考虑了长度为N的NJ逭机序列,并且我们证实μ和σ对于范 围在50-1000内的N值是恒定的。μ和σ的值取决于长度N ;例如关于N = 100,μ = 6.9, σ = 7. 3。通过使用SffISS-PROT数据库的氨基酸频率产生随机序列(Boeckmann,B., Bairoch, A. , Apweiler, R. , Blatter, Μ. C, Estreicher, Α. , Gasteiger, Ε. , Martin, Μ. J., Michoud, K. , 0' Donovan, C, Phan, I,Pilbout, S. & Schneider,Μ. (2003)Nucleic Acids Res (核酸研究).31,365-370)。从所述序列预测折叠倾向我们使用了 CamP方法,通过所述方法以高精确度预测蛋白的柔性和溶剂可及性。 该方法能够以超过80%的精确度从隐蔽区域(buried regions)的氨基酸序列的知识进 行预测,并且以平均60%的精确度从关于氢交换的保护因子的知识进行预测(Tartaglia, G. G.,Cavalli, A. & Vendruscolo, M. (2007) Structure (结构)15,139-143)。关于部分结构化多肽链的聚集倾向模式的预测为了促进聚集,多肽序列的区域应该符合两个条件其应该具有高固有聚集倾向 (Zp >0),并且其应该足够不稳定以具有明显的形成分子间相互作用的倾向。为了描述后 者,我们使用关于来自氢交换的保护因子InP的CamP方法。对于具有Zp > 0的那些值,我 们通过用InP调节来改变聚集倾向模式Zp 关于结构化多肽序列的绝对聚集倾向认为仅具有低局部稳定性的残基有利于总的聚集倾向ZSagg,得到下式 其中函数θ (χ)是1(χ > 0)和0(χ < 0)。我们使用类似的表达式(见"Systematic In Vivo Analysis of the Intrinsic Determinants of Amyloid β Path0geniCity(系统体内分析β淀粉状蛋白病原性的固有决定因子)〃 Leila Μ. Luheshi, Gian Gaetano Tartaglia,Ann-Christin Brorrsson,Amol P. Pawar, Ian Ε. Watson, Fabrizio Chiti,Michele Vendruscolo,David A. Lomas,Christopher M. Dobson,Damian C. CrowtheriPloS Biology (www. plosbiology. org),2007 年 11 月,卷 5,
11期,e290)在无结构校正的情况下计算绝对聚集倾向
执行上沭方法的计算机系统实例现在参考图la,其中显示了用于执行上述方法的计算机系统的示意图。通用的计 算机系统100包括处理器100a,其偶联于贮存执行所述方法的计算机程序代码的程序存储 器100b,偶联于工作存储器100d,并偶联于接口(interface) IOOc如常规的计算机屏幕,键 盘,鼠标,和打印机,以及其他的界面如网络接口,和软件接口如数据库接口。计算机系统100接受来自数据输入装置104的使用者输入,所述数据输入装置如 键盘、输入数据文件、或网络接口,并提供输出给输出装置108如打印机、显示器、网络接 口、或数据存储装置。输入装置104,例如网络接口,接受的输入包括蛋白质的氨基酸序列以 及适合于多肽环境的任选的PH和温度值。输出装置108提供的输出包括下列的一个或多 个-.Af, Ζ^,ΖΓ, Zaggs和Zagg。例如,可以提供聚集倾向模式或聚集倾向图表(例如,如在后 图中所显示)。计算机系统100偶联于数据存储器(data store) 102中,所述数据存储器存储疏 水性数据,折叠倾向数据(本身作为倾向数据或在自由能方面),任选地α-螺旋倾向 数据(见下),和电荷数据。存储的这种数据是关于每种氨基酸(残基)的;任选地存储对 应于不同的PH值和/或温度值的这些数据类型中每种的多组。在举例说明的实例中,计算 机系统显示与α-螺旋倾向确定系统106和局部结构稳定性确定系统107连接。可以将这 些中的一个或两个作为单独的机器进行,例如通过网络偶联于计算机系统100,或可以包括 在计算机系统100上运行单独的或整合的程序。无论使用哪种方法,这些系统接收序列数 据并又提供α-螺旋倾向数据和局部结构稳定性数据(In Pi)。如举例说明的,计算机系统100还可以向自动肽合成仪112提供数据输出110,例 如238/或2388。以这种方式,可以对计算机系统100进行编程从而自动比较多种多肽的性 质并选择预期具有自动合成的有利性质的那些多肽的一种或多种。适合的自动肽合成仪的 实例是ABI 433A肽合成仪(来自应用生物系统(Applied Biosystems)) 0α-螺旋倾向可以通过简单地在关于每种氨基酸的倾向值表中查找关于序列的每个氨基酸的 倾向值来确定α-螺旋倾向。备选地,可以使用α-螺旋倾向计算程序,例如获自MMlZZ www. embl~heidelberg. de/Services/serrano/agadir/agadir-start. html 的 AGADIR 代 石马,或获自 http //npsa-pbil. ibcp. fr/cgi~bin/npsa automat, pi ? page = npsa gor4.html的G0R4代码。任选地,可以考虑pH和温度β折叠倾向、疏水性、和电荷下表给出了 20种天然氨基酸的疏水性、β-折叠倾向和电荷的等级。 a基于从水到辛醇的分配系数,20种氨基酸残基在中性pH的疏水性值。数据来自参考 文献30中的表4.8的第6栏。
bWO (高β-折叠倾向)到1 (低β-折叠倾向)标准化的20种氨基酸残基的β-折叠倾 向。数据来自参考文献29的表1的第4栏。由于难以通过实验确定,未报道脯氨酸的 β-折叠倾向。甘氨酸的β-折叠倾向来自理论计算。 e电荷值是在中性pH的值。
d当组氨酸残基带正电荷时,括号内的值是在低于6.0的pH的值_关于脯氨酸,没有获得折叠倾向值,并且因此当评价上述方程(1)时,可以忽 略脯氨酸残基,可以使用任意值(例如1,如果β-折叠倾向以自由能的方式表示),或对应 于另一种氨基酸的值。模式值可以确定序列的每种氨基酸的模式值,例如通过计算极性/非极性交替的数量 直到其达到5以上,并接着将例如+1的模式值(Ipat)分配给交替序列中的每个氨基酸进 行(可以将这些值进行标准化从而使,例如在长度为5的交替序列中的每种氨基酸具有 +0.2的值)。交替的亲水性(“P”)/疏水性(“ΝΡ”)模式导致增加的聚集倾向。优选使 用5个以上的残基,因为这似乎是可以在β折叠促进(· Δ · Δ ·)模式和α-螺旋促进 (· Δ · △ △)模式之间进行区分的最少数量的交替残基。更长的交替序列可以给出更大的 值,例如对于长度为9的交替氨基酸链,为+2。任选地,关于抑制聚集模式(例如亲水性氨 基酸的链,或一些特定氨基酸如脯氨酸的链),Ipat可以通过负值,例如-ι来给出或调整。可以将在 Roseman 等级[Roseman, M. A. , Hydrophilicity of polar amino acid side-chains is markedly reduced by flanking peptide bonds (极j"生M基酸侦!J链白勺亲 水性被两侧的肽键显著减少).J Mol Biol (分子生物学),1988. 200(3) :p. 513-22]上具有 (-0. 5的亲水性值的残基认为是疏水性的,而将具有> 0. 5的值的那些认为是亲水性的。 备选地,可以使用下列分类疏水性ala,val, phe,ile,leu, met, tyr,trp ;疏水性asp, glu,lys,arg,his, ser,thr,cys,gin, asn ;甘氨酸可以是疏水的或可以被认为是中性的。局部结构稳定性(保护因子)可以将残基i的保护因子定义为在无结构的肽中观察到的固有比率免产与观察到 的酰胺氢交换比率h之间的比率,即,PH/"汰。局部结构稳定性数据(In Pi)可以通过确 定从训练的神经网络(trained neural network)进行InP模式的傅里叶转换的系数而确 定,所述训练的神经网络被训练以拟合结构数据从而平衡氢交换测量 其中代表对来自埋藏(burial)的氢交换的保护,Λ^是关于位置i的酰胺氢的
氢键的数目,并且参数b。和bh分别给出产生范德华接触和氢键的自由能分布。详情可见于 CamP ;http//www-almost· ch. cam, ac. uk/camp, php。结果通过实验,易于聚集的区域通过一系列不同技术得到鉴定,所述技术包括淀粉状蛋白原纤维核心的聚集过程动力学的突变分析或淀粉状蛋白原纤维核心的淀粉状蛋白原 纤维高分辨率结构分析稳定性的突变分析,荧光技术,和关于从野生型蛋白提取的肽片段 的聚集的研究。这些探索提供了关于聚集过程的动力学的不同方面,以及淀粉状蛋白状态 的热力学的不同方面的报告。由于我们进行的预测基于对聚集动力学进行的突变作用的分 析,我们对下面两方面都感兴趣评价对于促进聚集过程是最重要的区域的预测质量,和探 索在可能影响淀粉状蛋白原纤维的形成和稳定性的这些方面和其它因素之间的关系。预测肽的聚集倾向我们首先提供对于参与淀粉状蛋白病的少于50个残基的四种肽的聚集倾向模式 的预测,即Αβ 1-42,降钙素,胰高血糖素,和CA150的第二 Wff结构域(图lb)。除了用上述 方法计算的固有的聚集倾向模式Zp,我们提供了第二种类型的模式Zps,其考虑了多肽链的 不同区域形成稳定的折叠结构的倾向(见上)。Aβ 1^42.我们鉴定了高聚集倾向(在中心(残基17-22)和C端(残基32_42)中 高于Zps = 1阈值的那些(上线))区域的两种定位。这两种区域都在以其淀粉状蛋白形式 存在的Aβ _(26)和Αβ 1-42肽的目前的结构模型中具有重要的结构作用。聚集倾向模式 ZPS,其考虑了单体形式的Ah_42在溶液中采取永久构象的倾向,揭示残基33-38的区域与 从固有聚集倾向模式Zp预测的相比,具有显著更低的聚集倾向。这与最近的研究所取得的 结论相一致,即,在单体形式中,匪残基34-37在两条短β链之间形成β转角。降钙素.人降钙素是一种参与钙调节和骨动力学的32个残基的多肽激素,其显示 在患有甲状腺髓样癌的患者中作为淀粉状蛋白原纤维存在。此外,原纤维还可以在被设计 用于治疗应用的体外制备的样品中形成,并且对其向患者的施用表现相当大的限制。通过 计算聚集模式Zps,我们预测了关于12个残基的N端区域和关于残基18-19和27-28的高 聚集潜力。通过实验,已经将K18和F19鉴定为生物活性和自我装配两者中的关键残基,并 且区域15-19 (DFNKF)已经显示在体外寡聚化作用和原纤维形成中具有积极作用。我们没 有预测这种短肽的单体形式形成永久结构的固有倾向,这与可获得的实验证据一致。因此, 固有聚集倾向模式Zp与Zps模式接近。胰高血糖素.胰高血糖素是一种29个残基的激素,其参与碳水化合物代谢并辅 助调节血糖水平,因此用于治疗低血糖症。胰高血糖素已经显示容易在酸性条件下形成淀 粉状蛋白原纤维,并且N端和C端区域似乎对于原纤维形成是重要的,而中心区域(残基 13-18和22)在确定原纤维本身的形态中具有主要作用。如Αβ 142和降钙素的情形,胰高血 糖素在其单体形式不是高度结构化的,并且与这些结果一致,即固有聚集倾向模式Zp与Zps 模式接近。与实验发现一致,我们预测在N端区域(特别是残基Τ7和S8)和C端区域(特 别是残基Q24和W25)中是高度易于聚集的。CA150. WW2.人CA150 (—种与亨廷顿病的亨廷顿蛋白共沉积的蛋白)的第二 Wff结 构域,是一种40个残基的蛋白,已经显示其在生理条件下在体外形成淀粉状蛋白原纤维。 这种Wff结构域在淀粉状蛋白原丝中的结构最近通过固态NMR光谱法进行了表征,显示残基 2-14和16-29组成了原纤维的核心。这些实验结果与本文计算的那些一致,因为将超过Zps =1阈值的区域鉴定为残基5-6和18-22的那些。预测球状蛋白的聚集模式具体地设计本文提供的方法,从而包括对蛋白的氨基酸序列的那些从球状状态起始促进其有序的聚集的区域的预测。在这样的情形中,在正常情况下需要对结构进行去稳 定以提高多肽主链和疏水侧链的可及性从而有利于发生聚集过程。在本部分中,我们讨论 了在所述条件下显示聚集的两种蛋白。溶菌酶.通过考虑从所述序列预测的天然状态中的结构保护而计算的聚集倾向 模式Zps (图中下线)没有显示超过Zps= 1阈值的任何区域。该结果与这样的观察一致,即, 在体外溶菌酶必须去稳定才能聚集,并且发现淀粉状疾病仅作为使常见的突变去稳定的结 果。通过计算野生型人溶菌酶的固有聚集倾向模式zp,我们鉴定了超过Zp= 1阈值的5个 易于聚集的区域(残基42-49,71-76,79-85,92-98和109-111)。这些预测根据最近的实验 观察是特别令人感兴趣的,所述观察即一旦转化为淀粉状蛋白状态,包括残基32-108的序 列区域对于蛋白水解具有高度抗性。为了阐明在保持折叠或聚集的倾向之间的关系,我们比较了在残基特异性水平上 的结构保护和聚集倾向。通过Zp评分测量了聚集倾向,并且通过IogP评分测量了结构保 护,其提供了对于包括特定残基的区域的局部稳定性的预测(图3a)。在这种类型的绘图 中,在绘图的右下角发现最可能在聚集过程的第一阶段起重要作用的以折叠状态存在的高 聚集倾向和低结构稳定性的区域。我们预测残基Leu25(螺旋)和His78(转角)具有最高 的聚集倾向和最低的结构保护。有趣的是,在患有VIII型淀粉样变性病的患者中分别突变 为Thr56和His67的残基Ile56和Asp67 (链)显示高聚集倾向和低结构保护。肌红蛋白.通过考虑天然状态的结构保护而计算的聚集倾向模式ZPS,没有显示超 过Zps = 1阈值的任何区域,这与肌红蛋白应该被充分去稳定化才能聚集的事实是一致的。 这种情况可能对于天然蛋白是常见的。关于溶菌酶,我们鉴定了具有高固有聚集倾向的四 个区域,即超过Zp= 1阈值(图2中的上线)的那些(残基9-12,31-33,65-70和108-114), 其中一种与在体外发现高度易于聚集的肽片段(残基100-114)部分重叠。在图3b中,我们在个体残基水平比较了聚集倾向(Zp评分)和结构保护(IogP评 分)。我们预测了残基 Asp5,Gly6,(螺旋 4_19),Ala23(螺旋 21-35),Glyl25, Alal26,和 Aspl27(螺旋125-149)具有特别高的聚集倾向和低的结构保护。预测朊病毒蛋白的易于聚集的区域人朊病毒蛋白.一系列人和动物神经变性疾病,传染性海绵状脑病(TSEs),与 哺乳动物朊病毒蛋白的错误折叠和聚集相关。人朊病毒蛋白(hPrP)参与散发性的、遗 传的或感染性形式的克洛伊茨费尔特-雅各布病(Creutzfeldt-Jakob disease) (CJD), 格-施-沙病(Gerstmann-Straussler-Sheinker disease) (GSS)和致命性家族性失眠症 (fatal familial insomnia) (FFI)。与这些人类疾病相关的发病机理中的关键事件是将 朊病毒蛋白的正常富含α-螺旋和蛋白酶敏感性细胞同种型(hPrPe)转化为富含折叠 的聚集形式(hPrPSe),其具有独特的理化性质如蛋白酶抗性,不溶性和潜在的毒性。此外, hPrPSc本身似乎通过促进hPrPG转化为其修饰的和致病的聚集状态来介导TSE的传播。尽管将hPrPG转化为hPrPSe的机制尚未被详细了解,hPrPG序列的特定区域似乎在 调节与hPrPSe的相互作用和促进淀粉状蛋白形成的过程中是特别重要的。在图3a中,我 们显示了关于hPrP(23_231)序列的固有聚集倾向模式Zp。我们接着考虑了被结构化并且因此 被保护不聚集的各种残基的固有倾向的作用(见上)。在后一种情形中,其考虑了固有的 基于序列的倾向和特定的结构因子,跨越残基118-128的区域(在图4a中的深色框)对应
16于完整序列中的最高峰,并且仅有一个对应于具有Zps > 1,提示该区域可能是多肽链的最 具致淀粉样变性病性的区段。包含描述通过结构的存在来改变聚集的固有倾向的程度的术 语是我们以前关于无结构多肽描述的预测方法范围(我们以前的专利申请,如上,结合作 为参考)的非常重要的延伸。通过仅考虑固有理化因子预测的聚集模式(图4a)将对应于 α -螺旋II的区域180-186鉴定为最显著的致淀粉样变性病区域。然而,该区域以hPrPC 形式存在,是高度结构化的,并且从实验数据显示对于聚集其没有残基113-127的区域那 样重要。在关于残基1-125的Zp和Zps模式中的类似性与实验观察一致,即该区域不是结 构化的。此外,二硫键C179-C214的存在似乎在稳定该高度易于聚集的区域中具有重要作 用并且抑制分子间相互作用的形成。我们还计算了在包含八肽序列PHGGGWGQ的四个串联 重复的铜结合区域附近的显著聚集倾向,这与该区域在该蛋白的寡聚化过程中可能具有重 要作用的观察是一致的。预测的聚集倾向模式Zp和Zps与关于hPrP片段的体外聚集行为的实验数据良好相 关。重组hPrP的肽hPrP1Q6_114,hPrP1(16_126,hPrP113_126和hPrP127_147都具有形成淀粉样蛋白原纤 维的较高倾向。hPrP1(l6_126具有聚合为直链和无支链的原纤维并诱导原代大鼠海马培养物的 凋亡的特别高的固有能力(25)。hPrP113_126还能够容易地聚集,尽管在这些制备物中的原纤 维在相同的起始肽浓度下丰度较低,并且相对于hPrP1(l6_126,其长度和直径都减少。hPrP1Q6_114 和hPrP127_147与hPrP1(l6_126相比,都具有更低的聚集倾向,尽管前者转化的原纤维在形态上类 似于由hPrP1Q6_126形成的那些,而后者形成扭曲的纤维结构。最近的报道已经鉴定了两种其 它的肽片段,hPrP119_126和hPrP121_127,其可以容易地形成淀粉样蛋白样原纤维并且对于星形 胶质细胞可能是细胞毒性的。这些片段至少部分地包括该序列的区域118-128 (图4a)。本文所述的关于人朊病毒蛋白的计算支持这样的观点,即结构因子对于确定通过 聚集倾向性部分折叠的状态而自我装配的蛋白的聚集率是重要的。我们发现在CJD中存在 所有的突变(http //www. expasy. org/uniprot/PRIO_HUMAN),例外是 D178N 和 V180I,与野 生型相比其具有更高的聚集倾向Zsagg (方程7)(表1)。表 1 关于与克洛伊茨费尔特-雅各布病相关的突变的总聚集倾向Zsagg(http://Ww. expaasy. org/uniprot/PRIO-HUMAN).除了 D178N和V180I之外的所有的突变都具有与野生 型相比更高的聚集倾向。
我们预测突变D178N和V180I增加螺旋172-189的保护,这导致所述蛋白的总聚 集倾向的减少。将在个体残基水平的聚集倾向(Zp评分)和结构稳定性(IogP评分)的比 较显示在图5中。我们观察到残基120-123的区域具有最高的聚集倾向和最低的结构保护, 其次是重复序列84-91的区域。我们还标记与在上述表1中报道的CJD突变相关的位置。HET-S.酵母Podospora anserine的HET-s是参与异核体不相容性的朊病毒蛋白, 并且其与疾病不相关。HET-s已经显示形成淀粉状蛋白原纤维,其结构已经通过固态NMR, 结合位点定向荧光标记和氢交换方法来表征。在从HET-s的C端片段(残基218-289)得到 的原纤维的结构模型中,每个分子贡献4条β -链,其中链1和3 (残基226-234和262-270) 形成平行的β-折叠,并且链2和4(残基237-245和273-282)形成位于约10人远处的另 一种平行的β -折叠。这些β _链分别通过β 1和β 2,以及β 3和β 4之间的两个短环, 以及在β 2和β 3之间的无结构的15个残基的区段连接。固有聚集倾向模式Zp的计算(图4b)揭示在残基5-22和245-289区域中的高聚 集倾向。HET-s的单体形式似乎在残基1-227的区域中是结构化的,而在残基228-289的区 域中是相对无结构的(9)。与这些结果一致,我们通过Zps模式确定在C端区域中的低得多 的聚集倾向(图4b),所述Zps模式部分是由通过CamP方法(上文)关于此区域预测的极 高结构保护得来的。因此,预期包括残基228-289的区域是主要的易于聚集的区域。该片 段,与片段1-227相反,保留在体外形成原纤维的能力,有效催化全长HET-s的聚集并且能 够在体内诱导朊病毒增殖。此外,有限的蛋白水解实验指示残基218-289的区域位于原纤 维核心中。通过实验鉴定为形成交联β-结构的核心的那些的4条β-链(残基226-234, 237-244,262-271和273-282)中的3条对应于HET_s的聚集倾向模式Zps中的主要的三个 峰(残基242-245,260-267和278-289)(图4b)。我们因此建议β _链1在稳定淀粉状蛋 白原纤维的结构中起重要的热力学作用,并且不可能直接参与聚集过程。在本文中我们已经描述了用于预测结构化和部分结构化的蛋白中对于促进其聚 集是最重要的区域的方法。我们的分析揭示可以基于氨基酸序列的知识,鉴定甚至从球状 状态促进聚集的区域。我们所提供的方法是通用的并且基于这样的理念,即蛋白的序列决 定其在折叠和错误折叠情形中的行为。由方法如我们在本文提供的用于预测天然未折叠的 多肽链的促进聚集的区域的方法,用于预测球状蛋白的促进聚集的区域的方法和用于预测 包含折叠和未折叠结构域的系统的促进聚集的区域的方法提供的可能性在生物技术中开 发避免聚集并且用于治疗聚集性疾病的合理方法中有显著的意义,因为其鉴定了决定聚集 的主要因子以及其中普遍存在这些因子的区域。毋庸置疑,技术人员将明了许多其它的有效备选方案。要理解的是,本发明并不限 于上述实施方案并且涵盖对于本领域技术人员显而易见的修改,所述修改在后附的权利要 求的精神和范围内。
19
权利要求
一种鉴定在蛋白的氨基酸序列中的一个或多个在折叠的蛋白中被预测促进聚集的区域的方法,所述方法包括对于沿所述序列的氨基酸位置(i),确定在所述氨基酸位置的局部聚集倾向(Ai),所述局部聚集倾向通过组合关于所述氨基酸位置的疏水性值、α 螺旋倾向值、β 折叠倾向值、电荷值和模式值来确定;确定关于所述氨基酸位置的局部结构稳定性值,所述局部结构稳定性值包括在所述氨基酸位置的局部结构稳定性的量度;以及组合在所述氨基酸位置的所述确定的局部聚集倾向和在所述氨基酸位置的所述局部结构稳定性值从而鉴定所述氨基酸序列中一个或多个在所述折叠的蛋白质中被预期促进聚集的区域。
2.如权利要求1所述的方法,其中所述组合包括使用在所述氨基酸位置的所述局部结 构稳定性值来改变在所述氨基酸位置的所述确定的局部聚集倾向从而确定限定关于所述 折叠蛋白的聚集倾向模式的改变的局部聚集倾向,所述聚集倾向模式包括限定所述改变的 局部聚集倾向随所述序列的氨基酸位置变化的数据;所述方法还包括在所述氨基酸序列中 鉴定所述一个或多个在所述折叠的蛋白中被预期从所述聚集倾向模式促进聚集的区域。
3.如权利要求2所述的方法,所述方法还包括为所述鉴定,仅选择具有超过局部聚集 倾向阈值的所述聚集倾向模式的区域。
4.如权利要求2或3所述的方法,其中所述改变在所述氨基酸位置的所述确定的局部 聚集倾向包括通过对数?1调节在所述氨基酸位置的所述确定的局部聚集倾向,其中Pi包括 关于在所述序列中的位置i的氨基酸的结构保护因子。
5.权利要求1-4任一项所述的方法,其中在所述氨基酸位置的所述局部结构稳定性的 量度包括在所述氨基酸位置的所述折叠蛋白保持折叠状态的倾向的量度。
6.权利要求1-5任一项中所述的方法,其中从所述蛋白的所述氨基酸序列确定在所述 氨基酸位置的每个所述局部结构稳定性值。
7.如前述权利要求中任一项所述的方法,其中在所述氨基酸位置的所述局部结构稳定 性值包括取决于在对于所述氨基酸位置的任一侧的窗口内的总局部电荷的电荷门控值。
8.—种在蛋白质的氨基酸序列中鉴定一个或多个在折叠的蛋白质中被预测促进聚集 的区域的方法,所述方法包括关于沿所述序列的多个位置i,确定/ ,agg的值,其中外agg代 表在位置i的氨基酸的固有聚集倾向并且包括ph,Ps, Phyd和P。的函数,并且ph,ps, Phyd和 P。分别是在沿所述序列的所述位置i的氨基酸的α-螺旋倾向值,β-折叠倾向值,疏水性 值,和电荷值;关于沿所述序列的多个位置i,确定J/7值,其中J/7由下式确定Σ Pr ^ ^p Jr^cxzkIf窗口 ιV其中L表示在关于所述位置i的任一侧的第一窗口内的氨基酸位置的第一总和,jpat窗口 1A是代表在位置i的亲水性和疏水性氨基酸中一种或两种的模式的模式值,是代表侧邻所 述模式或在其内部的电荷的电荷值,并且其中Q1, Qpat和α gk是比例因子;并且从关于沿所述序列的所述多个位置i的d广值确定关于所述蛋白的聚集倾向模式,所述 聚集倾向模式包括鉴定相关聚集倾向关于沿所述序列的位置的变化的数据。
9.如权利要求8所述的方法,其中所述确定所述电荷值,助包括关于Σ的确定J/窗口 2值,其中Σ 表示在位置i的任一侧的第二窗口内的氨基酸位置的第二总和,所述总和窗口 2包括在所述第二窗口内的所述氨基酸位置的电荷的总和。
10.如权利要求8或权利要求9所述的方法,其中所述确定所述聚集倾向模式包括从 JiP的每个值确定关于所述位置i的Z/^值,其中通过将取决于Ai的值乘以( 对数Λ α2--VJ来确定,其中%和α3是比例因子并且?1包括关于位置i的结构保护因子,所述结构 保护因子取决于在其折叠状态,所述蛋白在位置i的结构被保护不聚集的程度。
11.如权利要求10所述的方法,其中所述取决于Ai的值包括关于所述位置i的Z/^的 值,其中Z^代表关于位置i的标准化的固有聚集倾向。
12.一种确定蛋白的聚集倾向的方法,所述方法包括使用前述任一项权利要求的方法 来鉴定在蛋白的氨基酸序列中的一个或多个在折叠的蛋白中被预测促进聚集的区域,并且 接着总计由所述局部聚集倾向确定的聚集倾向数据或Ai的值,其中所述总计包括基本上仅 在所述鉴定区域内总计。
13.一种确定折叠蛋白的总聚集倾向的方法,所述方法包括在蛋白的氨基酸序列中鉴定一个或多个在折叠的蛋白中被预测促进聚集的区域,其中 考虑局部氢交换和局部电荷对诱导聚集的氨基酸模式的抑制中的一个或两个;并且接着 总计由沿所述序列的多个氨基酸位置(i)的局部聚集倾向值(Ai)确定的聚集倾向数据;其中所述总计包括基本上仅在所述鉴定的区域内总计。
14.一种制备具有氨基酸序列的蛋白的方法,所述方法的特征在于使用前述权利要求 中任一项的方法来鉴定蛋白的氨基酸序列中的所述一个或多个在折叠的蛋白中被预测促 进聚集的区域,或鉴定所述蛋白的总的所述聚集倾向。
15.一种确定蛋白的毒性数据的方法,所述方法包括使用权利要求1-13中任一项的方 法来鉴定蛋白的氨基酸序列中一个或多个在折叠的蛋白中被预测促进聚集的区域,或所述 蛋白的总所述聚集倾向,并接着使用所述蛋白的所述鉴定的区域或所述总的所述聚集倾向 来确定所述毒性数据。
16.一种鉴定蛋白中的药物靶标的方法,所述药物靶标包括所述蛋白的氨基酸序列的 靶部分,所述方法包括使用权利要求1-11中任一项的方法来鉴定蛋白的氨基酸序列中的 一个或多个在折叠的蛋白中被预测促进聚集的区域,,和接着使用所述鉴定的区域来鉴定 所述氨基酸序列被药物靶向的所述靶部分。
17.一种鉴定与蛋白相互作用的药物的方法,所述方法包括使用权利要求16的方法 来鉴定所述蛋白中的药物靶标,和接着鉴定与所述氨基酸序列的所述靶部分相互作用的药物。
18.如权利要求17所述的方法,其中所述鉴定包括筛选针对所述药物靶标的候选药物。
19.一种携带计算机程序代码的载体,所述计算机程序代码在运行时,执行前述权利要 求任一项的方法。
20.自动实验室设备,其包括权利要求19的载体,所述设备被构造从而在所述计算机 程序代码的控制下执行权利要求1-18任一项所述的方法。
21.—种控制自动多肽合成装置来制备多肽的方法,所述方法包括控制所述装置来根 据权利要求12或13确定蛋白的聚集倾向,使用所述确定的聚集倾向来选择用于合成的多 肽,和接着控制所述自动多肽合成装置来制备所述选择的多肽。
22.如权利要求1-18任一项所述的方法,其中所述方法是计算机化的,所述方法还包 括将至少一个步骤的结果输出到显示器和存储器中的至少一个中。
全文摘要
本发明涉及用于鉴定结构化(折叠)的蛋白中的易于聚集的区域的方法,涉及确定蛋白的聚集倾向的相关方法,涉及用于执行所述方法的计算机程序代码和设备,涉及鉴定新的药物和药物靶标以及蛋白毒性的相关方法。一种鉴定在蛋白氨基酸序列中的一个或多个在折叠的蛋白中被预测促进聚集的区域的方法,所述方法包括对于沿所述序列的氨基酸位置(i),确定在所述氨基酸位置的局部聚集倾向(Ai),所述局部聚集倾向通过组合关于所述氨基酸位置的疏水性值、α-螺旋倾向值、β-折叠倾向值、电荷值和模式值来确定;确定关于所述氨基酸位置的局部结构稳定性值,所述局部结构稳定性值包括在所述氨基酸位置的局部结构稳定性的量度;以及组合在所述氨基酸位置的所述确定的局部聚集倾向和在所述氨基酸位置的所述局部结构稳定性值从而鉴定所述氨基酸序列中一个或多个在所述折叠的蛋白中被预测促进聚集的区域。
文档编号G06F19/22GK101925902SQ200880125569
公开日2010年12月22日 申请日期2008年11月13日 优先权日2007年11月28日
发明者克里斯托夫·多布森, 吉安·加埃塔诺·塔尔塔利亚, 塞巴斯蒂安·佩奇曼, 米凯莱·文德鲁斯科洛 申请人:剑桥企业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1