不使用模板从头设计蛋白质的方法

文档序号:28276490发布日期:2021-12-31 20:51阅读:290来源:国知局
1.本发明属于蛋白质设计领域,具体涉及一种对蛋白质的部分或全部进行从头设计的方法。该方法能够用预先指定的特征作为约束条件生成待设计蛋白的主链空间结构,进而确定待设计蛋白的氨基酸序列,使待设计蛋白具有预先指定的特征;该方法生成待设计蛋白主链空间结构时不需要用已知的具体蛋白质局部片段作为结构模板去拼接产生待设计蛋白结构,而是用计算机优化从大量天然蛋白结构学习得到的数学模型(统计能量函数模型)。
背景技术
::2.现有技术中存在多种蛋白质设计方法,但均有其自身的缺点。3.给定主链结构自动设计氨基酸序列4.该技术以使用者给定的多肽主链空间结构为目标,自动选择氨基酸序列,使得具有该氨基酸序列的蛋白质分子能自发稳定地折叠成目标空间结构。最早报道成功自动设计氨基酸序列的文献为dahiyat等,science278,82‑87(1997)。该工作和后来由美国华盛顿大学baker和合作者开发的rosettadesign(kuhlman等,science302,1364‑1368(2003))都通过优化主要基于物理模型的能量函数实现自动序列设计。本发明主要发明人之一和合作者提出、验证并公开发表了基于统计能量函数的abacus方法(xiong等,naturecommunications5,5330(2014)以及bioinformatics36,136‑144(2020),用于为给定主链结构自动设计氨基酸序列。5.应用以上技术自动设计氨基酸序列,需要使用者先提供具有高可设计性的主链空间结构。所谓主链空间结构的“高可设计性”,是指能够自发稳定折叠成该结构的氨基酸序列真实存在。理论和实验研究表明,在所有化学上合理(键长、键角和二面角等内坐标合理、原子间无空间位阻冲突等)的海量可能主链空间结构中,只有极少比例的结构具有高可设计性。以上
背景技术
:只为蛋白质从头设计中如何设计氨基酸序列的问题提供解决方案,并没有考虑如何生成具有高可设计性的主链空间结构。6.用已有蛋白质结构片段拼接生成新主链结构7.目前已公开的、被实验验证过的从头产生高可设计性主链结构的方法,都需要用已知蛋白结构主链片段作为局部结构模板,利用不同片段间拼装组合,来产生可能有高可设计性的主链结构。8.由于片段结构只能离散地代表可能的多肽局部结构空间,设计结果受到既有片段集合分辨率、精确性、完备性等的限制,使得从头设计蛋白结构过于单一,过于偏好理想化局部结构,缺乏天然蛋白结构的丰富多样性,在实际应用中不能充分搜索可设计主链结构空间,得到符合设计需求的最优结构。9.基于连续优化主链结构的统计能量函数来设计主链结构的理论方法10.这是本发明主要发明人及合作者提出的,理论模型和初步计算验证在预印本论文biorxiv2019,673897,doi:10.1101/673897中公开发表。在该论文中,我们公开了一种从天然蛋白结构数据学习高维、连续、解析的神经网络统计能量函数的理论方法,初步验证表明,用该方法得到的统计能量函数scuba可用于驱动对主链空间结构的连续优化采样。该论文验证了天然主链结构在scuba驱动的分子动力学模拟中是稳定的。此外,用scuba对人工构建的初始主链结构进行模拟退火优化,得到的主链结构可以有与天然蛋白高度类似的二级结构堆积结构。技术实现要素:11.本发明解决如何对蛋白质的部分或全部进行从头设计的问题,即如何指定待设计蛋白质的部分或全部氨基酸序列,使该蛋白能自发折叠成稳定空间结构,在该结构中各氨基酸残基具有预期的空间排列方式,从而使该蛋白能够用于满足某些功能要求。12.本发明提供了完整的蛋白质计算从头设计工具链(包括设计工作流程、流程中使用的计算机程序化模型、使计算结果具有物理意义的模型参数。该工具链的主要环节包括在序列待定条件下从头产生物理上可设计的主链空间结构(主链结构物理上可设计的含义是:自发折叠成该结构的氨基酸序列是实际存在的),然后用自动序列设计算法为该结构初步选择氨基酸序列,根据序列进一步优化目标主链结构后再重新选择序列,经若干轮迭代后获得能自发稳定折叠成目标结构的最终氨基酸序列。在以上结构和序列优化过程中,算法可以让自动生成的空间结构和序列符合使用者提出的特定约束条件,以使设计蛋白满足某些使用者规定的功能要求。13.本发明的蛋白质从头设计方法把蛋白质全部或局部的从头设计分为两个阶段,第一阶段为产生可设计性高的高精度主链结构,第二阶段为序列选择和主链修正迭代阶段。14.在高精度主链结构设计阶段,采用聚焦主链(backbone‑centered)的统计能量函数scuba为目标函数,在序列待定的情况下,用计算方法对主链结构进行优化,找到scuba总能量极小的稳定主链结构。15.scuba中的能量项是使用近邻计数‑神经网络(nc‑nn)方法、对非冗余天然蛋白结构数据进行训练得到的连续解析函数。因此,可以使用随机动力学模型、模拟退火等优化技术,经过有限计算时间,在初始主链结构的一定范围内找到scuba能量面上的能量极小主链。16.在主链结构优化阶段,可以通过控制优化算法的参数(比如,模拟退火的温度变化范围、模拟时间长度等)改变对构象的搜索范围。优化过程中,可以加入用户定义的约束能量项,使得产生的主链结构符合特定的用户需求。17.由于能量面的复杂性,仅经过连续模拟优化得到的主链结构中的环区(连接二级结构的区域)仍然可能处于局部高能量,降低主链结构的可设计性。可以通过用计算方法重新产生大量闭合的环区结构(closedloop),分别以其为初始结构优化scuba能量,选择能量低的优化后的主链。18.在上述主链优化过程中,氨基酸序列是未知的。由于优化scuba能量得到的主链构象对氨基酸残基侧链类型不敏感,在优化主链结构scuba能量时,模型可以包括侧链结构简单的残基如亮氨酸、缬氨酸等,行使侧链空间占位作用。19.在序列选择和主链结构修正迭代阶段,本发明先使用第一阶段产生的主链结构,使用
背景技术
:中给定主链结构设计氨基酸序列的方法(例如,abacus方法)确定氨基酸序列。用设计序列替换侧链后,优化整体结构的scuba能量,产生根据特定序列修正后的主链结构,再用修正后的主链结构重新设计序列。可进行多轮的序列设计-主链结构修正迭代,按某种或某几种有意义标准(例如abacus序列能量最低)筛选此过程中产生的最优序列,作为最终设计结果,用于后续实验分析。20.本发明提供如下技术方案:21.一方面,本发明提供蛋白质从头设计方法,其特征在于,所述方法包括:22.a.产生可设计性高的主链结构;23.b.氨基酸序列选择和主链修正迭代。24.在一些实施方案中,产生可设计性高的主链结构包括:采用聚焦主链的统计能量函数scuba为目标函数,在序列待定的情况下,用计算方法对主链结构进行优化,找到scuba总能量极小的稳定主链结构。25.在一些实施方案中,scuba中的能量项是使用邻近计数‑神经网络方法对非冗余天然蛋白质结构数据进行训练得到的连续解析函数,然后使用随机动力学模型、模拟退火,经过有限计算时间,以初始主链结构为出发点找到scuba能量面上极小点所代表的优化主链。26.在一些实施方案,通过控制优化算法的参数(例如模拟退火的温度变化范围、模拟时间长度)改变对构象的搜索范围。27.在一些实施方案中,在优化过程中,加入用户定义的约束能量项,使得产生的主链结构符合特定的用户需求。28.在一些实施方案中,进行局部重采样和优化,针对连续模拟优化得到的主链结构中的环区,用计算方法重新产生大量闭合的环区结构,优化scuba能量,选择能量低的优化主链。29.在一些实施方案中,优化主链结构scuba能量时的模型包括侧链结构简单的残基(例如亮氨酸、缬氨酸),行使侧链空间占位作用。30.在一些实施方案中,使用步骤a产生的主链结构,设计氨基酸序列,设计氨基酸的序列优选采用abacus方法。31.在一些实施方案中,用设计的氨基酸序列替换侧链后,优化整体结构的scuba能量,产生根据特定序列修正后的主链结构。32.在一些实施方案中,用修正后的主链结构重新设计氨基酸序列,进行多轮氨基酸序列设计‑主链结构修正迭代后,筛选最优氨基酸序列,优选基于abacus序列能量最低选择最优氨基酸序列。33.另一方面,本发明提供蛋白质从头设计装置,其特征在于,所述装置包括:34.主链结构产生模块,用于产生可设计性高的主链结构;35.氨基酸序列选择和主链修正迭代模块,用于对氨基酸序列进行选择并对主链进行修正迭代。36.在一些实施方案中,所述主链结构产生模块包括计算模块,所述计算模块采用聚焦主链的统计能量函数scuba为目标函数,在序列待定的情况下,用计算方法对主链结构进行优化,找到scuba总能量极小的稳定主链结构。37.在一些实施方案中,所述计算模块还包括第一存储模块,所述存储模块存储有scuba中的能量项,所述scuba中的能量项是使用邻近计数‑神经网络方法对非冗余天然蛋白质结构数据进行训练得到的连续解析函数,所述计算模块使用随机动力学模型、模拟退火算法,经过计算,以初始主链结构为出发点找到scuba能量面上极小点所代表的优化主链。38.在一些实施方案中,所述计算模块还包括参数设置模块,用于通过控制优化算法的参数(例如模拟退火的温度变化范围、模拟时间长度)改变对构象的搜索范围。39.在一些实施方案中,所述主链结构产生模块还包括局部重采样和优化模块,用于针对连续模拟优化得到的主链结构中的环区,用计算方法重新产生大量闭合的环区结构,优化scuba能量,选择能量低的优化的主链。40.在一些实施方案中,所述氨基酸序列选择和主链修正迭代模块包括第二存储模块,所述第二存储模块存储有abacus程序,用于使用产生的主链结构,设计氨基酸序列。41.在一些实施方案中,所述氨基酸序列选择和主链修正迭代模块包括还包括优化模块,所述优化模块用于用设计的氨基酸序列替换侧链后,优化整体结构的scuba能量,产生根据设计的氨基酸序列修正后的主链结构,并用修正后的主链结构重新设计氨基酸序列,进行多轮氨基酸序列设计‑主链结构修正迭代后,筛选最优氨基酸序列,优选基于abacus序列能量最低选择最优氨基酸序列。42.定义43.abacus:一套基于统计能量函数的固定主链氨基酸序列设计算法和程序。用于对给定的蛋白质主链,为每个残基位点选择合适的氨基酸类型,使得设计出的氨基酸链可以在合适的理化环境中自发折叠为给定的蛋白质主链结构。44.scuba:一套基于统计能量以及神经网络的聚焦主链且不依赖特定氨基酸侧链的蛋白质主链优化和设计算法及程序。可以在不依赖特定侧链类型情况下,对不具有可设计性的蛋白质主链进行采样和优化,得到具有可设计性的蛋白质主链结构,结合固定主链的蛋白质序列设计程序,可以实现不依赖模板的蛋白质从头设计。45.有益效果46.在本发明技术内容中,与
背景技术
:rosettadesign的最主要区别特征如下:首先,rosettadesign需要用既有蛋白质结构片段为模板,采用片段拼接的方法才能产生可设计性高的主链结构。本发明中基于发明人独创的聚焦主链的统计能量函数scuba,不使用既有结构片段拼接,而是对主链结构连续优化采样,从头产生可设计性高、可用于氨基酸序列自动选择的主链结构。其次,本发明使用了完全不同于rosettadesign能量模型原理来构建的统计能量模型,可以在序列待定的情况下,通过自动优化总能量得到高精度、可用于后续氨基酸序列自动选择的主链结构。47.本发明与发明人已通过预印本公开的scuba方法的理论背景和初步计算验证的主要区别包括以下方面:48.(1)
背景技术
:只包括了scuba算法原理,没有包括神经网络能量项的各个具体参数。使用了具体参数的scuba模型是本发明独有的。49.(2)用
背景技术
:中算法进行一轮模拟退火优化得到的主链结构尽管二级结构堆积具有高可设计性,在局部区域如环区等,大概率仅处于能量面上的局部高能量区而没有得到充分采样优化,导致整体结构不具有可设计性。因此,需要经过本发明提出的对局部进行重采样和优化的环节,才能真正获得整体可设计性高的主链。50.(3)
背景技术
:只比较了计算产生的主链结构与天然结构的相似性,没有描述如何进一步进行序列设计得到可实验验证为实际可折叠的真实氨基酸序列。本发明指出,在序列待定条件下优化主链后需要用如abacus等计算方法进行基于主链结构的氨基酸序列选择、再用scuba进行带侧链的主链优化,进一步提高主链结构和序列设计精确度,多轮迭代,获得最终氨基酸序列。因此,本发明公布的技术方案是一个完整的蛋白质设计工具链,经过实验证明可以获得最终能自发折叠成目标结构的氨基酸序列。51.相对于本发明之外唯一公开验证能从头设计主链的
背景技术
:rosettadesign,本发明使用独创的统计学习方法,得到的统计能量项可以高保真地刻画可设计性主链结构中的高维关联,从而可以在不确定氨基酸序列的前提下,连续、广泛地搜索主链结构空间,产生可设计性高的主链结构。在实际应用中,本发明提供的主链设计算法,有利于产生最大程度符合特定应用需求(可以通过优化过程中的约束条件或对已优化的主链的筛选条件定义)的高可设计性主链。52.通过采用本发明的方法,已从头设计多个不同结构类型的人工蛋白,其中六个具有自然界不存在的全新整体拓扑构造。这些蛋白的高分辨晶体结构与设计模型在原子水平一致。53.(4)蛋白质是生命功能的主要执行者,是由不同类型的氨基酸按照特定顺序串联成的长链状生物大分子。每种蛋白质中的氨基酸排列顺序即氨基酸序列决定了该蛋白是否能形成稳定的三维空间结构、会形成怎样的三维空间结构以及最终行使何种功能。随机排列的氨基酸序列难以折叠成稳定的三维结构。目前能够折叠成稳定三维结构的蛋白质几乎全部是天然蛋白质,其氨基酸序列是长期自然进化形成的。本发明则可以从头设计全新的蛋白质结构,其氨基酸序列能够折叠成稳定的蛋白质结构并能成功表达。附图说明54.图1示出设计蛋白草图以及初始结构的构建。结构草图中,蓝色箭头和橙色圆柱分别表示预期的β链和α螺旋片段及其位置,黑体数字表示其预设的残基数目,半透矩形表示二级结构片段所处平面。双箭头表示点或平行线之间的距离,黑色×指示二级结构片段端点的位置。55.图2示出scubasd模拟优化蛋白主链结构,用模拟退火优化scuba总能量获得高可设计性主链结构的流程示例。56.图3示出根据本发明实施方案的主链优化‑序列设计迭代流程。流程图中所列m、n、c、s为可设置参数,在实施例α+β蛋白的设计中,m=5(每个初始优化主链在sd中使用不同的随机初始速度得到5个松弛后的主链结构),n=10(每个主链结构得到10个不同的环区优化后结构),c=3(三次主链优化‑侧链设计迭代),s=1(每个主链结构挑选一条能量最低的设计氨基酸序列)。57.图4示出天然蛋白部分结构改造设计结果。左图表示天然结构改造设计蛋白extd‑3的晶体结构(蓝色)与设计结构(灰色与绿色)的叠合效果中间标注其被精确设计的h3‑h4环区h4环区右上图标示出设计结构的初始模型中h3和h6螺旋,在后续主链优化中h3螺旋自发形成一段完整的螺旋;右下图表示与设计蛋白晶体结构(蓝色)最相似的天然蛋白(紫色)。58.图5示出α+β蛋白从头设计结果。上半部分图的左右分别表示从头设计蛋白xm2h(左)和am2m(右)晶体结构(蓝色)与设计结构(绿色)的叠合效果,rmsd分别为(xm2h)和(am2m)。每个图形中间的几何图形表示该α+β蛋白二级结构的拓扑连接,⊙(△)和⊕(▽)分别指示向外和向里的螺旋(β链),箭头指示连接相邻片段环区的方向(c端指向n端)。下半部分图的左右分别表示xm2h(左)和am2m(右)蛋白环区的晶体结构(蓝色)及其电子密度与设计结构(绿色)的叠合图,显示出环区的结构被精确设计;下半部分图的中间显示xm2h(蓝色)与am2m(棕色)晶体结构的叠合图,显示其二级结构区域高度重合,但环区结构差异很大。59.图6示出all‑α蛋白从头设计结果。上半部分图分别表示从头设计蛋白h4a1r(左)、h4a2s(中)和h4c2r(右)晶体结构(蓝色)与设计结构(绿色)的叠合效果,rmsd分别为(h4a1r)、(h4a2s)和(h4c2r)。每个图形中间的几何图形表示该all‑α蛋白的α螺旋片段的拓扑连接,⊙和⊕分别指示向外和向里的α螺旋,箭头指示连接相邻片段环区的方向(c端指向n端)。下半部分图分别表示h4a1r(左)、h4a2s(中)和h4c2r(右)蛋白环区的晶体结构(蓝色)及其电子密度与设计结构(绿色)的叠合图,显示出环区的结构被精确设计。60.图7示出随机摆放螺旋结构蛋白设计结果。上半部分图分别表示从头设计随机摆放螺旋蛋白d12(左)、d22(中)和d53(右)晶体结构(蓝色)与设计结构(绿色)的叠合效果,rmsd分别为(d12)、(d22)和(d53)。上半部分图分别表示设计蛋白d12(左)、d22(中)和d53(右)的设计结构(绿色)和与其结构最相似的天然蛋白结构(紫色)的叠合效果。具体实施方式61.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。62.实施例scuba能量函数的构建以及应用本发明成功从头设计的蛋白63.1.scuba能量函数64.1.1.能量项65.整体scuba能量被定义为共价项、空间排斥项和统计项的总和,66.etotal(r)=ecovalent(r)+esteric(r)+estatistical(r),ꢀꢀꢀ(s1)67.其中r代表主链非氢原子的坐标。共价键能量项ecovalent(r)是谐波函数的总和,取决于单个键长、键角或非恰当二面角。对于主链原子,空间排斥能量项esteric(r)是原子对lenard‑jones势的总和,去除了吸引项的尾部。统计能量项estatistical(r)是使用邻近计数‑神经网络(nc‑nn)方法得出的不同类型统计能量的总和。在12465个非冗余天然蛋白质结构的数据集上进行训练,每个nc‑nn能量类型描述了不同类型的相互作用对给定的一组顺序或空间局部结构变量的相关分布的影响总和,68.69.其中[0070][0071]这里表示项所依赖的结构变量的第i个子集。如果能量类型取决于顺序局部变量,则指标i在所有主链位置上都变化,或者如果能量类型取决于空间局部变量,则在主链位置对上变化。nc‑nn能量函数类型和它们所依赖的结构变量在表1中示出,全面涵盖以与侧链类型无关或不敏感的方式确定主链可设计性相互作用。我们注意到,与和相比,能量项本质上带有关于局部主链构象的冗余信息。然而,项明确依赖于原子间距离,因此可以改善螺旋中的主链氢键距离分布。如果在scuba中只考虑扭转角相关的和能量项,则螺旋中的主链氢键距离分布将会有点过于宽泛。[0072]表1scuba中的nc‑nn统计能量类型[0073][0074][0075]一开始,scuba能量函数是在没有考虑任何明确侧链的情况下定义的。但我们发现在这种只包含主链的能量面上优化的主链原子位置对于随后的氨基酸序列设计来说太“模糊”了(此类主链上的太多位置选择了丙氨酸或甘氨酸)。因此,我们包括了明确的侧链,除了通常的共价键能量外,还有两个额外的能量项。一个是表1中列出的项的总和,另一个是侧链堆积项esc‑packing(r),侧链堆积项是侧链‑侧链和侧链‑主链项的总和,每个原子对项只与简单的原子间距离相关,由lennard‑jones形式的排斥部分和倒高斯形式的吸引项的部分组成。由此产生的单势阱距离相关函数有两个可调参数。第一个是最小能量距离,它与最佳堆积距离有关,已被视为特定于原子类型并取自先前的abacus序列设计模型。第二个是阱深,为简单起见,所有原子对都将其视为相同,并合并到权重参数wsc‑packing中,以便将此侧链堆积项与其他能量项结合起来。在序列设计之前的主链采样和优化中,明确的侧链相关项要么不被考虑,要么使用相对无特征的侧链类型(例如lvg序列)计算。后面的这些侧链用于对影响主链结构的物理合理性或可设计性的各种侧链相关因素进行平均建模。这些因素包括侧链的手性共价结构、依赖主链的侧链构象偏好以及主链‑侧链和侧链‑侧链堆积中的侧链排除体积。[0076]1.2.构建nc‑nn能量函数[0077]1.2.1.总体思路[0078]对于给定的一组结构变量,nc‑nn能量函数是从两个阶段的训练结构集中学习的。在第一阶段或nc阶段,在高维结构变量空间中使用简单的非参数、基于核密度估计获得统计能量的单点估计。在第二阶段或nn阶段,将统计能量表示为结构变量的分析函数的神经网络在大量nc估计的单点能量上进行训练。[0079]1.2.2.将统计能量定义为概率密度之间的比率[0080]为了正式描述单点能量的nc估计,对于一组相关的结构变量q,从观测数据中学习的有效能量函数定义为[0081][0082]其中ρobserved(q)是分布在q空间中的观测数据的概率密度,而ρreference(q)是同一组变量的概率密度,与前者的区别在于,ρreference(q)。的数据点来自于一个理想的参考系统,数据点之间不存在由e(q)描述的相互作用。由表1给出了scuba的nc‑nn能量函数所使用的各类探测点qprobe的各自参考系统的分布。[0083]1.2.3.基于邻近计数的统计能量单点估计[0084]在q空间中,可以通过计算从数据中得到的单点估计,其中代表落在qprobe邻近的观测数据点的数量,而代表落在qprobe邻近的参考数据点的数量,所有的参考数据点根据参考分布ρreference(q)计算获得。实际上,给定观察数据点和参考数据点,可以在核函数的帮助下近似计算为[0085][0086]因为观察到的和参考的邻近点数是用相同的核函数估计的,所以只要核函数具有以下通用性质,则比率对核函数的确切选择不敏感,[0087][0088]如有必要,可以自适应地选择式s6中的相似性标准(或核的半径),对观测数据密集区域的qprobe更严格,对松散区域的qprobe更松弛。一方面,核函数的半径越小,所得模型的分辨率越高;另一方面,由于较少的点被计数为邻近点,因此所得模型伴随着更大的统计不确定性。因此,自适应内核可以根据观察到的数据在分辨率和统计不确定性之间取得平衡。[0089]1.2.4.训练神经网络来表示统计能量函数[0090]scuba中的每个神经网络都包括一个输入层、一个隐藏层和一个单节点输出层,相邻层之间的节点完全连接。隐藏层的节点使用逻辑函数进行激活。在数学上,每个网络执行以下从输入到输出的转换,[0091][0092]其中n1是输入层的输入维度大小或节点数,n2是隐藏层的节点数,和分别是第一层到第二层和第二层到第三层的连接的权重,和b2→3分别是第二层和第三层节点的偏差。[0093]一般来说,输入向量x编码q中包含的有效能量所依赖的结构变量,方式如下:每个角度变量θ用一系列三角函数值编码为(sinkθ,coskθ,k=1,2,4);每个原子间距离变量d转化为一系列以ci为中心、标准偏差为σi的高斯函数[0094]正如在许多机器学习实践中一样,用于编码输入的方案和参数以及神经网络中的节点数是通过反复试验手动选择的,而权重和偏差参数是从大量上述nc估计的单点编码及其能量值中学习的。[0095]对于每个最终训练的nc‑nn能量函数,我们已经验证了nn模型不仅可以令人满意地再现nc估计的能量,而且根据计算采样的数据点的分布可以密切模仿观察到的数据点在q空间中的相应分布。[0096]1.3.校准能量权重参数[0097]为了在scuba能量面上采样或优化蛋白质结构,我们应用了随机动力学(sd)模拟,其中整合了朗之万运动方程以获得在给定温度下,原子在摩擦介质中运动的时间轨迹。从天然x射线晶体结构开始进行的天然蛋白质测试集的模拟已被用于校准整个scuba能量函数(即式s2中的wtype)中少数未确定的能量权重参数。校准的目标是稳定天然构象状态。此外,我们希望整体相互作用强度尽可能弱,只要天然结构可以在tr=1的温度下保持其稳定性即可。[0098]我们使用在概念上类似于在构象空间中使用热力学循环进行力场细化的方法进行校准。简而言之,为了细化一组试验参数,对测试蛋白进行了两组试验参数的模拟。一组包括无限制的模拟,其中根据未校准的能量函数,允许结构自由偏离起始天然结构。另一组包括受限制的模拟,其中构象空间中的采样局限于天然状态邻近的区域(这里我们将二级结构主链原子与天然结构的rmsd限制为小于)。然后比较在两组模拟中采样的构象上平均的各种能量项。如果具有较大rmsd的构象中的能量项系统地较低,则在下一轮测试模拟中降低其权重。否则,其权重可以保持不变或试验性地增加。[0099]我们通过首先仅考虑两个小的球状测试蛋白,估计了一组初始权重,一个全是α(pdbid3132),另一个是α+β(pdbidla6j,a链)。然后通过使用33种手动选择的测试蛋白质,进一步细化得到的权重。这33个蛋白的结构相对较小,均为可溶性球状蛋白,不含二硫键,并且属于不同的折叠类型。另外这33个蛋白的pdb结构均为分辨率相对较高的x射线晶体结构。[0100]在获得一组校准后的能量权重(wsite‑pair=0.32,wlocal‑hb=0.6,wrotamer=2.4,wsc‑packing=3.1)后,我们在tr=1时进行了无约束的sd模拟,每个权重单独并系统地按0.2到2.0之间的值进行放缩,其他权重固定,或者模拟总能量按0.25到2.5之间的值放缩。结果证实,大多数(33种中的26种)测试蛋白质的天然结构接近scuba能量的极小值点(在scubasd模拟中从每个天然结构采样的结构的平均主链rmsd小于),所选择的权重提供了足够强的相互作用,以在tr=1时保持天然结构的稳定性。[0101]在上述使用具体的天然侧链校准蛋白质的权重后,我们进行了另一组模拟,其中使用lvg序列(即α螺旋上使用亮氨酸、β链上使用缬氨酸以及环区使用甘氨酸)改变侧链类型,以此检验在scubasd模拟中天然主链是否能与非天然侧链保持稳定。测试结果表明,使用lvg序列(也就是非天然侧链)情况下,天然主链结构在scubasd模拟中仍然能够保持相对稳定。[0102]2.从头主链设计[0103]2.1.构建初始结构[0104]使用scuba从头设计主链的基本策略是从一组用户定义结构草图构建的初始结构开始进行scubasd模拟,通过使用与草图一致的初始结构,搜索与给定草图相关的构象空间部分以寻找物理上合理的主链。[0105]在目前的工作中,草图是按照taylor等人(w.r.taylor,a“periodictable”forproteinstructure.nature416,657‑662(2002))描述的蛋白质结构的“周期表”模型描述的。在该模型中,折叠良好的蛋白质被抽象成二级结构元素,组织成大致平行的层,每个层包含多个β折叠或近似平行或反平行的螺旋。对于每个草图,我们预定义了二级结构片段的数量、它们的近似大小以及它们在不同抽象层中的顺序和方向。根据草图,我们首先在近似相对位置在螺旋或β链的局部构象生成肽段,然后构建环以连接它们(参见图1)。[0106]二级结构片段以两种方式之一放置。第一种方法是将每个片段的起始或结束原子放置在二维平面网格的交叉点,然后垂直于网格平面(垂直于二级结构层的平面)生长整个片段。相同二级结构层中片段的端点落在同一条直线上,不同层对应的直线平行且间隔同一层内相邻螺旋之间的距离约为相邻β链之间的距离约为为了生长每个片段,根据片段的指定二级结构类型随机取样内部主链扭转角。放置二级结构片段的第二种方法是使用计算机图形系统以交互方式将理想化的螺旋或β链段放置在近似位置处。在我们的实施例中,h2e4蛋白的初始结构由第一种方法生成,extd和h4蛋白的初始结构由第二种方法生成。[0107]为了生成环区结构来连接两个预先放置的二级结构片段,我们首先使用根据蛋白质螺旋的ramachandran主链角分布随机选择的主链扭转角生成未闭合的环区结构,然后尝试用运动学环闭合算法来闭合环(e.a.coutsias,c.seok,m.p.jacobson,k.a.dill,akinematicviewofloopclosure.journalofcomputationalchemistry25,510‑528(2004))。首先将环区长度设置为3,然后逐渐增加,直到在给定环区长度的1000次环生成尝试中可以找到闭合环区的解。注意,草图中定义的α螺旋和β链片段的大小只是近似的,因为预定义的二级结构片段的延伸或收缩可以在随后的结构采样和优化中自发进行。[0108]2.2通过模拟优化主链结构[0109]在构建初始主链后,在两个子阶段中使用scuba驱动的sd模拟对主链进行了优化,子阶段1中使用了仅主链模型,而子阶段2中使用了lvg序列。[0110]在子阶段1中,指定的螺旋或β链片段的局部构象受到二级结构类型约束,涉及环区原子的空间相互作用乘以0.01倍。这些处理简化了整体能量图并缩小了搜索空间,因此可以有效地定位符合用户定义草图的近似scuba能量极小点。子阶段1中的模拟包括在低温(相对温度tr=0.1)和大摩擦系数(摩擦系数γ=5ps‑1)下的初始10ps模拟。该模拟用于去除初始主链中任何可能的应力。然后通过60ps模拟退火模拟优化前步所得主链,在6个循环中,相对温度在2.0和0.5之间变化,每个循环包括tr=2.0的4ps,接着是tr从2.0逐渐减小到0.5的1ps,然后是tr=0.5的5ps。为了补偿模拟退火中较高温度的热膨胀效应,整个结构回转半径被限制。使用上述方案,大多数模拟从为同一草图构建的不同初始结构开始,可以产生满足草图限定的主链结构。此外,scuba能量通常在最后几个模拟退火循环中收敛。[0111]在主链优化的子阶段2中,去除了局部构象二级结构类型限制,并将涉及环残基的相互作用恢复到完全强度。该子阶段的sd模拟包括4ps弛豫(γ=5ps‑1,tr=0.2),然后是10个循环共120ps的模拟退火,在10个循环中,温度在2.0和0.5之间变化,同时应用回转半径约束。最终通过另一个10个循环共120ps的模拟退火sd(温度在0.5和0.2之间循环)对主链结构进行细化。在大多数最终的sd模拟中,主链结构和scuba总能量都以相对较小的幅度波动,表明达到了scuba能量表面的稳定极小值(参见图2)。[0112]2.3.环区重采样和优化[0113]设计的主链经过进一步广泛的环区重采样和优化后产生可设计的主链。环区重采样和优化是在整体结构的上述两个子阶段优化的基础上进行的。[0114]在环区重采样过程中,规则的二级结构区域已经固定。每个环区的起始和结束位置在两端二级结构片段的前方或后方三个残基区间内系统地变化。对于h2e4主链,环区长度从3残基逐渐增加到重采样前的环区长度。对于h4主链,我们考虑了可以找到环区闭合方案的最小环区长度,环区长度比各自的最小长度长一个残差。对于每个环区,使用scubasd模拟(tr=0.5)单独优化了1000个随机生成和闭合的起始环构型,直到能量波动变小。[0115]从环区采样结果中,为每个环区选择一组候选环区结构。对于h2e4蛋白的设计,这组环区结构包括最佳环区长度的10个最低能量非冗余结构(意味着该环区长度的最低能量结构的每个残基scuba能量低于其它环区长度的相应能量)。随后从环区长度比最佳环区长度短一个残基的环区采样结果的非冗余环区结构中,选出单残基scuba能量低于最佳环区长度那组中挑选出的10个最低能量结构之中最高能量的环区结构,一并作为该环区结构的候选结构。为了获得包括所有环区的的完整主链结构,对不同环区的候选结构组合进行采样,并比较不同组合之间的最终scuba总能量。对于每个用于环区重采样和优化的主链,挑选10个能量最低的最终主链结构用于随后的序列选择。最终得到500个h2e4主链结构用于随后的序列选择(从不同的初始结构优化的50个主链×10个环区重新优化的结构)。[0116]对于h4蛋白的设计,从30个不同拓扑的初始主链优化的116个主链结构进行环重采样和优化。对于每个包含3个环区的h4蛋白主链,每个环区由10个候选环区结构的系统组合产生1000个环区优化的完整主链结构。从所得的总共116000个主链结构中,选取了3382个具有较低主链相互作用能量的结构(根据环区残基的总能量)用于随后的序列选择。[0117]3.使用abacus2进行氨基酸序列选择并使用rosettabiasedforwardfolding方法进行筛选[0118]3.1.主链松弛与序列选择迭代[0119]使用lvg序列优化的主链(以及对最终实验测试的h2e4和h4蛋白进行环区重采样后)在第一次迭代中用于abacus2序列选择。然后通过scuba驱动的sd模拟和abacus2设计的具体氨基酸序列松弛主链。[0120]在反复应用这种主链松弛与序列选择迭代的过程中,我们发现除了第一次迭代中选择的序列,在不同的后期迭代中为主链松弛选择的序列具有超过50%的氨基酸序列相似度以及相似的abacus2能量。另一方面,在选定的序列中,丙氨酸和甘氨酸的频率随着迭代次数的增加而逐渐增加。该现象很可能是由于迭代过程的早期引入的小侧链残基可能导致相应位置的侧链占用空间在随后的主链松弛中被压缩,然后在以后的迭代中不再能为该位置选择较大的残基。[0121]由于随着迭代次数的增加会引入越来越多的小侧链残基,而且由于不同迭代中选择的序列具有相对较高的相似性,我们将主链松弛与序列选择迭代的次数限制为两次到三次。[0122]更具体地说,用于生成h2e4序列的方案如下:给定优化的目标主链,先使用abacus2进行一轮氨基酸序列设计,在这轮序列设计中,abacus2的侧链原子半径参数被乘以0.9,这个操作的目的是向蛋白结构中引入相比正常来说较大的氨基酸侧链。然后用scuba驱动的sd模拟松弛主链,模拟过程分为两步,第一步是4ps的低温sd模拟(tr=0.2,γ=5ps‑1),然后是20ps的模拟退火sd(tr从1.0下降到0.2,γ=0.5ps‑1)。每一个主链的sd模拟使用了5组不同的随机初始速度,以此来产生5种不同的松弛主链结构。每个结构分别进行两次abacus2序列选择迭代(原子半径参数没有缩小),然后是前述相同方案的主链松弛(但只使用1组随机初始速度)。得到的5个主链用于最终的abacus2序列选择,每个主链选择20条序列,保留其中能量最低的一条(流程参见图3)。在使用标准的abacus2参数集进行的迭代设计中,我们发现β链上靠近溶剂的表面区域有过多的位点被选择为苏氨酸,而α螺旋上有过高比例的位点被选择为丙氨酸,这可能会增加设计蛋白的聚集趋势。为了测试这个猜测,我们设计了额外的序列,其中abacus2残基类型特异性参考能量参数以三种不同的方式调整,以增加在这些位置选择其他极性残基的概率。因为不同的abacus2参考能量设计的序列仅在规则二级结构元素的溶剂暴露位置不同,我们认为不同选择的序列在随后的计算筛选和实验表征中同样合理。[0123]生成extd和h4序列的具体方案如下:给定优化的主链,使用abacus2(标准参数)设计10个序列,保留最低能量的一个。然后通过一个4ps模拟退化循环松弛主链,降低温度从1.0降到0.2。然后用相同的sd方案重复主链松弛序列选择迭代3次。对于每个设计的主链,所有迭代中保留最低的abacus2能量序列(不一定来自最后一次迭代)。[0124]3.2.计算筛选设计的序列[0125]在实验表征为环区重新优化的h2e4和h4主链设计的序列之前,通过rosettabiasedforwardfolding(有偏折叠模拟)方法进行计算筛选。在这些筛选过程中,基于序列预先预测的片段构象被组装成整体结构,以预测给定的序列是否可能折叠成特定的目标结构,每个片段仅使用3个预测构象,这3个预测构象具有预测的所有构象中与目标结构相应片段的最低rmsd。由于对可能的片段构象的这种有限选择,只需要生成少量的整体结构,并且可以将来自目标的这些结构的最低rmsd用作判断标准。对于h2e4(h4)结构蛋白的每个abacus2选择的序列,生成50(200)个折叠模拟结构。与rosettabiasedforwardfolding的最低rmsd和最低rmsd模型的rosetta能量分数被认为是最终实验测试的筛选标准。对于h2e4结构蛋白,2000条选定的序列(通过使用不同的abacus2参考能为500个主链结构中的每一个选择4条序列)通过折叠模拟进行计算筛选。从使用不同abacus2参考能设计的每组序列中,经过折叠模拟筛选,选择6或9条序列用于实验鉴定。从覆盖四种不同h4结构草图的3382条abacus2设计序列中,经折叠模拟筛选出8条序列(每个草图2条序列)用于实验表征。[0126]3.3.设计新型结构的螺旋蛋白[0127]首先,根据以下方式生成10000个初始的螺旋片段排列:对ramachandra图中螺旋区域二面角进行随机采样,随机产生6个10至25个残基长度的多肽片段,经过随机旋转,后随机平移,使其质心落在半径为的球体内。[0128]接下来通过两个阶段的scuba驱动的模拟退火优化每个上述初始结构,使用以下方案获得多种较为合理堆积的螺旋排列:第1阶段是50ps的sd模拟,温度在1.0和0.5之间变化。在这个阶段,仅包括主链原子,由于初始结构中包含许多原子之间的碰撞,故关闭scuba中的空间排斥项。第2阶段是50ps的sd模拟,温度在2.0到0.5之间变化,这个阶段中所有残基的氨基酸类型被设置为亮氨酸。[0129]由此获得的6段螺旋排列被用来构建可设计主链的新折叠类型的蛋白质。对于给定的构型,我们依次考虑该构型中的每两个螺旋段,并尝试找到将它们连接到具有3个或4个残基的环区结构的方式,过程中任一片段都允许被截短。这是通过考虑一个螺旋上的n侧连接(截断)点与另一个螺旋上的c侧连接(截断)点的所有可能组合来实现的。[0130]一对连接(截断)点的合理性按以下方式凭经验评分。我们从非冗余pdb结构中提取了3到4个环残基的所有螺旋‑环‑螺旋基序,并收集了以下一组六个原子坐标:如果i是在螺旋a上开始环的残基,j是在螺旋b上结束环的残基,那么我们从螺旋a中收集了残基i、i‑2和i‑4和螺旋b的残基j、j+2和j+4的六个cα原子的坐标。我们应用核密度估计方法来得到六个原子之间相对几何空间中的局部密度。对天然环的局部密度进行估计、排序,然后用作对连接点进行评分的参考值。[0131]通过保留导致局部密度高于天然环的50%的所有配对连接点,我们在scuba优化构型中的螺旋段之间建立了合理配对连接点池。然后我们列举了所有可能的从n端到c端的段排序方案,以便尽可能多的组合可以通过保留的连接点对顺序连接。对于每个排序和连接方案,我们通过scuba构建了3到4个残基的闭环和优化的环区主链,获得了单条链的主链构型,并通过50ps的scubasd模拟退火进一步松弛主链构型,温度在l.0和0.5之间变化,所有螺旋上的残基都是亮氨酸,环上残基没有侧链。然后将abacus2序列设计应用于主链,然后是两次scuba主链松弛迭代,abacus2序列重新选择。最后将abacus2能量最低的序列作为设计结果。[0132]在上述过程中,各个阶段的筛选标准如下:连接的单链应包括至少五个(截短的)螺旋,所有连接的螺旋必须形成单一的紧凑结构,估计的daliz‑score必须低于6.0以保证结构新颖性,平均每残基abacus2能量必须低于‑0.5,并且rosettaforwardfolding结果应与设计模型一致(rmsd低于)。[0133]最后,我们基于对结构新颖性、abacus2序列能量和rosettaforwardfolding结果的综合考虑,选择了13个设计结果用于实验鉴定。[0134]4.实验方法[0135]4.1.重组蛋白的制备[0136]由擎科生物技术公司和通用生物技术公司合成编码设计蛋白的dna序列并克隆到pet‑22b(+)的ndei和xhol位点。d12、d22和d53亚克隆到mbp表达载体v28e2或v28e4中,n‑末端残基稍作修改用于结晶。将质粒转化到大肠杆菌bl21(de3)中,并在od600大约为0.8时用0.5mmiptg在16℃下诱导20小时。对于1h‑15nhsqcnmr,通过在无机培养基(24g/lkh2po4、5g/lnaoh、0.5g/l15nh4cl、2.2mmmgso4、0.1mmcacl2和2.5g/l葡萄糖)中培养大肠杆菌来制备均匀的15n标记的蛋白质,使用15nh4cl作为同位素来源,在含有20mmtris和500mmnacl(ph7.8)的缓冲液中收集细胞并进行超声处理。使用sds‑page评估设计蛋白质的表达水平和溶解度。可溶性上清通过ni2+亲和层析使用500mmnacl、20mmtris‑hcl和350mm咪唑进行纯化。洗脱的蛋白质在含有20mmtris、300mmnacl和1mmedta,ph7.8的缓冲液中浓缩,并在superdex75柱中用纯化系统(gehealthcare)进行凝胶过滤。收集单体组分进行结构表征。[0137]4.2nmr数据采集[0138]所有nmr数据均在配备三重共振、自屏蔽z轴梯度探针的brukerdmrx500光谱仪上在298k下采集。nmr样品通常含有0.35mm15n标记的蛋白质、20mmnah2po4、50mmnacl、1mmedta(ph6.2)和10%(v/v)d2o,使用nmrdraw/nmrpipe和sparky处理核磁数据。[0139]4.3.结晶和x射线衍射分析[0140]结晶筛选是在289k下进行的,应用坐滴蒸汽扩散法和商业化的筛选试剂(hamptonresearch)。将10‑20mg/ml的纯化蛋白质加入相应的结晶缓冲液中。所用晶体在补充有15%甘油(v/v)的储液溶液中短暂浸泡,然后在液氮中快速冷冻。衍射数据在rigakuxtalabpro007hf上以收集并使用crysalispro软件套件(crysalispro软件系统,版本l.171.39.35c,rigaku)进行处理。设计的结构用作用phenix进行分子置换的搜索模型。模型重建在coot中进行,最终结构由phenix精修。[0141]4.4.圆二色性[0142]圆二色性(cd)数据是在appliedphotophysicschirascantmv100分光光度计上使用lmm光程石英比色皿收集的。在20mmna2hpo4缓冲液(ph8.0)中制备蛋白质样品,并在测量前将蛋白质浓度调节至0.6‑0.8mg/ml。在远紫外范围(200‑260nm)中扫描cd光谱,并在λ=218nm从20℃到95℃每升高5℃的温度测量椭圆率来获得热变性cd数据。处理cd光谱数据,二级结构含量分别用内置软件套件pro‑dataviewerv4.5和deconvolutionv2.1估计。[0143]经过上述步骤,本发明获得了以下成功的人工设计蛋白及其氨基酸序列:[0144]1)对于天然蛋白部分改造设计,获得了编号为extd‑3的人工设计蛋白。该蛋白使用天然蛋白(pdbid5wd2,为all‑α螺旋蛋白)作为结构基础,通过延伸其h3、h6螺旋并人工构建设计另一个全螺旋超二级结构,通过使用scuba优化结构并使用abacus2设计氨基酸序列,最终得到成功表达并解析了晶体结构的人工设计蛋白。设计蛋白的晶体结构与设计目标之间的结构偏差较小(主链原子位置的均方根偏差为)(参见图4)。extd‑3蛋白的氨基酸序列见表2。[0145]2)α+β蛋白从头设计获得了编号为xm2h和am2m的两个成功的人工设计蛋白,通过x射线晶体衍射解析了其晶体结构,与设计目标的结构偏差很小(主链原子位置的均方根偏差分别为和)(参见图5)。另外,圆二色谱数据显示,xm2h的热变性温度在95℃以上,表明这个从头设计的蛋白具有很高的热稳定性。这两个人工设计蛋白的氨基酸序列见表2。[0146]3)all‑α蛋白从头设计获得了编号为h4a1r、h4a2s以及h4c2r的三个成功的人工设计蛋白,通过x射线晶体衍射解析了其晶体结构,与设计目标的结构偏差很小(主链原子位置的均方根偏差分别为以及)(参见图6)。另外,圆二色谱数据显示,h4a1r的热变性温度在95℃以上,表明这个从头设计的蛋白具有很高的热稳定性。这三个人工设计蛋白的氨基酸序列见表2。[0147]4)随机摆放螺旋蛋白从头设计获得了编号为d12、d22以及d53的三个成功的人工设计蛋白,使用mbp蛋白标签辅助蛋白结晶,然后通过x射线晶体衍射解析了其晶体结构,与设计目标的结构偏差较小(主链原子位置的均方根偏差分别为以及)(参见图7),其中mbp标签与设计蛋白肽链的n端刚性连接增加了结构偏差。这三个人工设计蛋白的氨基酸序列见表2。[0148]表2.人工设计蛋白的氨基酸序列[0149][0150][0151]以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1