一种由蛋白质的一级结构序列确定蛋白质三维结构的方法

文档序号：6471452阅读：2381来源：国知局

专利名称：一种由蛋白质的一级结构序列确定蛋白质三维结构的方法
技术领域：
本发明与用计算方法确定蛋白同源关系领域相关。
背景技术：
虽然人类基因组测序是基因组研究中一个很大的成就，但它也产生了下一个巨大的挑战，即对人类基因组编码的每个蛋白建立精确的结构模型。因为对所有编码蛋白结构的实验测定将需要几十年，因此如果结构基因组研究将迅猛发展的话，用计算方法测定三维结构将变得尤其重要。见S.K.Burley、S.C.Almo、J.B.Bonanno等，《自然基因》(Nature Gen.)23，151-157(1999)。这篇文献和本说明书引用地所有其他文献结合于此作为参考文献。
蛋白是氨基酸的直链多聚体。天然存在的蛋白最多有20种不同类型的氨基酸残基，每种氨基酸残基有不同的侧链。蛋白中氨基酸残基的特定线性序列定义为蛋白的一级序列或一级结构。蛋白的一级结构可以用熟知的方法相对容易地确定。
蛋白折叠成三维结构。所述折叠取决于氨基酸序列和蛋白的环境。许多天然蛋白三维结构的研究已经揭示了一些重复模式。常见的有α螺旋、平行折叠、和反平行折叠几种模式。R.E.Dickerson等在《蛋白的结构与功能》(“The Structure and Action of Proteins”)(W.A.Benjamin公司，California(1969))一书中描述了这些常见结构模式。每个氨基酸残基经分配组成其中的一种模式并以此来确定蛋白的二级结构。
蛋白的生物属性直接取决于其三维(3D)构象。所述三维构象决定酶活性、结合蛋白的活性和特异性、以及受体分子的结构属性。因为蛋白分子的三维结构是如此重要，所以人们很早就期待一种能从已知的蛋白氨基酸序列容易地确定该蛋白三维结构的方法的出现。然而，已经证明，在没有实验数据的情况下很难确定蛋白的三维结构。
过去，我们已经用许多不同的实验方法来测定蛋白的三维结构。也许公认的蛋白结构测定方法涉及使用X射线晶体衍射法技术。关于该技术的综述可参见《物理生物化学》(PhysicalBio-chemistry)，Van Holde，K.E.(Prentice-Hall，New Jersey 1971)，pp.221-239，或《物理化学及在生命科学中的应用》(PhysicalChemistry with Applications to the Life Science)，D.Eisenberg & D.C.Crothers(Benjamin Cummings，Menlo Park 1979)。应用该技术使精确说明三维结构成为可能。此外，蛋白结构也可以用中子衍射技术或核磁共振(NMR)来测定。参见，如W.J.Moore的《物理化学》(Physical Chemistry)，第4版，(Prentice-Hall，New Jersey 1972)和K.Wuthrich的《蛋白和核酸的核磁共振技术》(NMR of Proteinsand Nucleic Acids)(Wiley-Interscience，New York 1986)。
这些实验技术都至少有一个很大的缺陷。即它们的劳动量很大，因此费时和价格昂贵。现代测序技术使一级序列的数据库不断增长，而这些一级序列需要转化成三维蛋白结构。实际上，在包括人类基因组在内的500以上的基因组已经得到完全测序情况下，大约只有2％的这些序列确定了三维结构。已经预测的三维结构量与一级序列量的比率每天都在变小。
为了更快地由一级序列预测三维结构，生化学家开始转向无需繁重和复杂的实验技术的各种计算方法，所述方法允许通过计算机和软件来确定结构。在这些计算方法中最有希望的方法之一是比较需要测定三维结构的一级序列(全文都称为待查序列或待查肽)和一个或多个一级序列(通常是这类序列组成的数据库，全文都称为模板序列或模板肽，其三维结构是已知的)的相似性。这是一级序列同源模拟的一个方面。
从较高的层次上分，许多一级序列同源模拟方法都能分为两步。在第一步，又称为配对步，将需要确定三维结构的待查序列与数据库中的一个或多个模板序列配对。每个模板序列的三维结构全部或大部分已知。在待查肽和模板肽之间每个配对比较后，该方法会给出一个分数。在数据库中的每个比较都进行后，分数最高的配对(alignment pair)反映最优配对的待查序列/模板序列。该最优序列配对可用来产生关于待查序列的最精确的结构测定。而且，待查/模板配对产生一个次最优分数，该次最优分数可用来产生有关待查序列的有用的结构信息。
在第二步，又称为模拟步，基于结构信息(对应于在模板序列中配对的序列或亚序列)可预测待查肽的结构信息。最常用的一级序列同源方法是在配对模板序列的三维结构基础上用序列同源性来预测待查序列的三维结构。此外，基于配对模板序列的一级序列，其他的一级序列同源模拟技术试图确定一个或多个待查序列之间的一级序列同源关系。
本发明涉及一种进行所述第一步的改进方法，即，一种确定待查序列和模板序列之间最优配对的改进方法。
当前的、现代化的的一级序列同源模拟技术例如MODELLER(参见
和T.L.Blundell，《分子生物学杂志》(J.Mol.Biol.)234，779-815(1993))，需要待查肽和模板肽之间至少有30％-40％的序列等同性才能得到准确的三维结构。R.Sánchez和
《美国国家科学院院报》(Proc.Natl.Acad Sci.USA)95，13597-13602(1998)。采用当前的、现代化的方法，只有不足20％的Brewer酵母(啤酒酵母)基因组编码的可溶性蛋白残基能够得到可信的结构模型。同上。
MODELLER采用一种动态编程方法来确定待查序列和模板序列之间的优选配对，其是序列配对技术领域中许多动态编程方法的典型方法。接着MODELLER利用所述序列配对来构建待查序列的三维结构。
自从Needleman和Wunsch第一次采用动态编程方法以来，动态编程方法已用于确定序列同源性。S.B.Needleman和C.D.Wunsch，《分子生物学杂志》(J.Mol.Biol.)48，443-453(1970)；T.F.Smith和M.S.Waterman，《高等应用数学》(Adv.Appl.Math.)，2，482-489(1981)；[M.Gribskov，A.D.McLachlan和D.Eisenberg，《美国国家科学院院报》(Proc.Natl.Acad Sci.U.S.A.)，84，4355(1987)；M.Gribskov，M.Homyak，J.Edenfield，和D.Eisenberg，CABIOS4，(1988)；M.Gribskov，D.Eisenberg，《蛋白化学技术》(Techniques in Protein Chemistry)(T.E.Hugli编辑)，p.108，Academy Press，San Diego，Calif，1989；M.Gribskov，R.Luthy，和D.Eisenberg，《酶方法》(Meth.in Enz.)183，146(1990)]。一般而言，确定序列配对的动态编程方法包括(1)产生一个由相似性分数组成的矩阵，所述相似性分数由两个序列中每对残基的匹配得到(一个和矩阵)；和(2)通过使用动态编程构建和矩阵来确定两个序列间的最优配对。在Needleman-Wunsch动态编程范例的基础上已经开发出许多方法(variations)来检测蛋白序列相似性。
在最初的Needleman-Wunsch工作中，在产生和矩阵时只考虑两个蛋白间的残基等同性。更多同期的方法采用残基替换记分系统例如点突变(PAM)矩阵(见“蛋白进化变化的模型”(“A Modelof Evolutionary Change in Proteins”)，M.O.Dayhoff所编《蛋白序列和结构图》(Atlas of Protein Sequence and Structure)Vol.5，Suppl.3，pp.345-352，1979)、或BLOSUM矩阵(见S.″Henikoff和J.G.Henikoff，《美国国家科学院院报》(Proc.Natl.Acad.Sci.USA)89，10915-10919(1992))，来产生一个配对和矩阵。可以用来产生配对分数矩阵的另外的信息包括来自多重序列配对、残基周围环境描述(所谓的profile threading技术)、二级结构预测、和溶剂可进入性预测的信息，这里仅列举几个。S.F.Altschul，T.L.Madden，A.A.Schaffer等，《核酸研究》(Nucl.Acids Res.)25，3389-3402(1997)；J.U.Bowie，R.Lüthy和D.Eisenberg，《科学》(Science)253，164-170(1991)；B.Rost，R.Schneider和C.Sander，《分子生物学杂志》(J.Mol.Biol.) 270，471-480(1997)。
虽然Needleman-Wunsch只是应用一个很简单的和矩阵，但他们工作的最基本的贡献在于利用动态编程来确定两个具有给定分数和空隙等级的蛋白之间的最优整体配对(空隙用在最后配对中不和另一个残基配对的残基来表示，这里“整体”(“global”)意思是与一个序列完全匹配并且所有可能的前缀与另一条链的子链接近)。已经开发了很多同时期的方法，但它们一般都涉及通过和矩阵来寻找最优整体、局部、或整体-局部配对途径(path)，所述和矩阵是从相似性分数连同空隙得分(对不和另一个残基配对的残基来说)一道计算获得。D.Fisher和D.Eisenberg，《蛋白科学》(ProteinSci.)5，947-955(1996)。T.F.Smith和M.S.Waterman，“普通分子亚序列的确证”(“Identification of Common MolecularSubsequences，”)《分子生物学杂志》(J.Molecular Biology)，147，pp.195-197(1981)，通过引入一个“零技巧”(zero trick)解决了局部配对问题。如果动态编程表的入口处是负的，那么最优局部配对就不能通过这个入口，因为第一部分降低了分数；因而可以通过将它替换成零的方式来消除前缀的影响。(这个简单的技巧就是计算领域熟知的最大子向量方法)。O.Gotoh在“生物序列匹配的改进算法”(“An Improved Algorithm for Matching BiologicalSequence”)，《分子生物学杂志》(J.Molecular Biology)，162，pp.705-708(1982)中表明仿射空隙处罚(空隙的数量和长度的分离处罚)能象线性空隙处罚一样得到有效解决。M.S.Waterman和M.Eggert成功确证了多重相似区段，见“一种最佳序列配对的新算法并应用于tRNA-rRNA比较”(“A New Algorithm for BestSubsequence Alignments With Application to tRNA-rRNAComparison”)，《分子生物学杂志》(J.Molecular Biology)，197，pp.723-728(1987)。
在MODELLER应用标准动态编程程序进行配对的同时，MODELLER还应用各种增强作用去改善最后配对。首先，用不同的空隙处罚执行动态编程多次来确定共同配对。其次，根据特定空隙的环境不同改变空隙处罚，例如，所述空隙是否在模板二级结构处(高处罚)或环形区域处(低处罚)。即使有这种附加的技术，MODELLER一般仍需要至少30％的同源性才能获取一个高质量的配对以此来产生一个待查蛋白序列的精确的结构模型。这些同源性模拟方法的另一个局限在于对于模板结构中没有长环形区域来说，通常需要用不可靠的从头开始方法(ab initio)或数据库搜索的方法来模拟这类环形区域。正是因为在当前的同源性模拟技术中存在这些局限性，所以我们需要改进的蛋白结构预测方法。
除了用来预测三维蛋白结构的一级序列同源性模拟程序(如MODELLER)之外，还有一些一级序列同源性模拟程序例如PSIBLAST和HMM也使用序列配对方法，因此在预测三维蛋白结构时它们具有和一级序列同源性模拟程序相同的局限性。S.F.Altschul，T.L.Madden，A.A.Schaffer等，《核酸研究》(Nucl.AcidsRes.)25，3389-3402(1997)；K.Karplus，C.Barrett和R.Hughey，《生物信息学》(Bioinformatics)14，846-856(1998)。如果待查序列和模板序列之间至少有30％的序列同源性，PSI BLAST和HMM中现在使用的配对方法就能可靠地确定待查序列和模板序列之间的科同源性和结构关系。这对许多科同源性的确定是不够的。趋异进化使得许多在同一结构科的蛋白具有的序列等同性小于30％，S.A.Teichmann，C.Chothia和M.Gerstein，《当今结构生物学观点》(Curr.Opin.Struct.Biol)9，390-399(1999)，并且有许多序列等同性远低于20％的蛋白有非常相似的结构。据估计在蛋白库中大约有三分之二的认为没有任何结构同系物的蛋白实际上具有结构同系物。S.E.Brenner，C.Chothis，和T.Hubbard，《当今结构生物学观点》(Curr.Opin.Struct.Biol)7，369-376(1997)。如果要确定这些结构同源性和科关系，就需要在低水平序列同源的情况下具有较高准确性的序列配对方法。
因此，本发明的一个方面是一种改进的一级序列同源性模拟方法，所述方法在低于30％序列同源性的情况下同样有效。与其他在相似性确定过程中不包含任何结构信息的序列比较方法不同，根据本发明的方法利用来自多重参考序列配对的信息和实验上确定的结构，从而显著增加了测试序列和比较序列之间的配对准确性。与本领域中现有的序列比较方法相比，这种配对准确性的增加大大增强了我们对远源相关结构同系物的检测，并且能够对与已知结构序列的序列等同性远小于30％的序列建立精确的结构模型。
如在其他配对方法中一样，根据本发明的确定优选配对的方法，是把我们感兴趣的蛋白序列(待查序列)和已知结构的对照序列或模板序列组成的数据库相比较，由此获取序列相似性并接着构建待查序列的结构。然而，与所有以前的配对方法不同，在根据本发明的方法中，参考序列的数据库经过预先分析以确定每个模板中配对空隙的位置(全文都称为桥或凸出)。在优选具体实施例中，所述桥或凸出信息是从蛋白结构数据库(例如，蛋白数据银行(PDB))中所有或大体上所有参考序列组成的多重序列配对中得出的。用来确定桥/凸出的参考序列数据库可以和用来确定优选序列配对的模板序列数据库含有同样的序列。确定成对方式结构配对(在两个蛋白结构之间)的方法已经为本领域技术人员所熟知并且包括，例如，Holm和Sander开发的Dali方法。Holm，L.和Sander，C.《分子生物学杂志》(J.Mol.Bio1.)233123-138(1993)；Holm，L.和Sander，C.，《科学》(Science)273，595-602(1996)。根据本发明的方法应用桥和凸出信息来确定待查序列的可能配对序列和模板序列之间的配对分数。接着这些配对分数经计算(在待查序列和多个模板序列之间)以确定待查序列和多个模板序列间的最佳配对。
由根据本发明的方法产生的配对可以与大家所熟知的从序列配对构建三维结构的技术联合使用。一个优选具体实施例用根据本发明的配对方法产生一个优选的序列配对，接着在所述优选序列配对的基础上用比较模拟数据包MODELLER，A.
和T.L.Blundell，《分子生物学杂志》(J.Mol.Biol.)234，779-815(1993)，以获取待查序列的预测的三维结构。MODELLER可以看作是两步合并而成1)首先MODELLER在由已知三维结构的模板序列组成的数据库中确定与待查序列产生优选序列配对的一个或多个模板序列；和2)然后，MODELLER根据第一步结果构建一个待查序列的三维结构。因此，本发明的优选方法可以用来替代MODELLER的序列配对方法并且和它的三维结构构建方法联合使用从而得到一种基于同源性模拟的可用于预测待查序列的三维结构的改进的联合方法。发明简述
本发明的优选具体实施例是一种确定在待查序列和至少一个模板序列之间的优选序列配对的方法，该方法包括以下步骤(1)配对两个或更多参考序列以确定一个或多个BRIDGE/BULGE空隙；(2)根据待查序列和每个模板序列之间的一给定的序列配对是否产生BRIDGE/BULGE空隙，来确定待查序列的每个可能的配对和每个模板序列之间的配对分数；和(3)基于待查序列和每个模板序列之间的配对分数确定优选的序列配对。优选序列配对包括任何能够用来获取待查序列有用结构信息的序列配对。最优序列配对是得分最高的配对。尽管最优序列配对可以用来产生待查序列的最精确的结构信息，但其他次优序列配对经常也能提供有用的结构信息和一级序列同源性关系。
本发明的另一个具体实施例是一种确定待查序列与模板序列之间的优选配对的方法，该方法包括以下步骤1)配对两个或更多参考序列以确定一个或多个参考配对空隙(称作BRIDGE/BULGE空隙)；2)由待查序列和一个或多个模板序列产生一个序列配对相似矩阵；3)基于待查序列和每个模板序列组成的序列配对是否产生BRIDGE/BULGE空隙，来对每个序列配对相似矩阵进行动态变换，从而得到一个序列配对和矩阵；和4)从每个和矩阵的动态变换得到待查序列和每个模板序列之间的优选配对。
本发明的另一个具体实施例是一种确定待查序列的三维结构的方法，该方法基于和一个或多个模板序列间的一级序列同源模拟并使用本发明的确定最优序列配对的方法。当根据本发明的优选配对方法和一级序列同源模拟方法结合使用，来预测待查序列的三维结构或确定一些待查序列之间的一级序列同源关系时，可以在更低的配对同源性(低于本领域现有技术所允许的配对同源性)下得到待查序列的精确结构模型。因此，本发明的另一个具体实施例是一种使用一级序列同源模拟方法预测待查序列三维结构的方法，其中所述待查序列与模板序列含有10-20％的同源性残基。本发明的又一个具体实施例是一种应用一级序列同源模拟方法来确定至少两个待查序列之间的一级序列同源关系的方法，其中所述待查序列与模板序列含有10-20％的同源性残基。附表和附图简要描述

图1显示通过程序clustal W找到的待查序列LVAFADFG-SVTFTNAEATSGGSTVGPSDATVMDIEQDGSVLTETSVSGDS-VTV的七个同源序列。
图2表示可由以下两个文本链“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”产生的序列配对组成的相似矩阵。
图3表示根据当前本领域内序列配对方法从图2中相似矩阵得到的部分完成的和矩阵。
图4表示图3中和矩阵进一步完成的阶段。
图5显示图4中灰色方格的空隙处罚数量。
图6表示根据当前本领域内序列配对方法，由以下两个文本链“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”产生的序列配对组成的完全和矩阵。
图7表示PIR格式中从图6得到的最高得分配对。
图8表示根据本发明的方法所需输入数据。
图9表示两个文本链“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”中假设的桥/凸出设定。
图10表示基于图9中的桥/凸出设定，两个文本链“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”中允许的配对空隙。
图11表示根据本发明的方法，由图2中相似矩阵产生的部分完全和矩阵。
图12表示图11中和矩阵进一步完成的阶段。
图13显示图12中灰色方格的空隙处罚数量。
图14表示根据本发明的方法，由以下两个文本链“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”产生的序列配对组成的完全和矩阵。
图15表示在PIR格式中从图14得到的最高得分配对。
图16表示用根据本发明的方法产生的MG001带状结构。
图17表示根据本发明的方法确定的，PIR格式下，在8C001和1b4kA之间的最优序列配对。
图18显示根据本发明的方法预测的1aw5晶体结构(左)和SC001结构(右)。
图19显示从油酸中一起晶体出的1dkf的链A的空间充填图。
图20显示根据本发明的方法，1dkf(命名为gi7766906)和结构1a28的链A序列的PIR配对。
图21显示1dkf链A的预测结构和晶体结构之间的彩虹带状重叠图。
图22显示根据本发明的方法预测的结构1dkf和形成油酸结合口袋的22个关键残基的晶体结构的重叠图。
图23显示1a252(PDB代码)和雌二醇一起晶体出的插入图。雌二醇配体用空间填充格式显示。
图24显示根据本发明的方法，PIR格式下，雌激素受体序列(表示为gi3659931)和结构1a28的链A序列(表示为1a28A)之间的配对。
图25显示根据本发明的方法，雌激素受体的预测结构和1a52链A的晶体结构之间的彩虹带状重叠图。
图26显示根据本发明的方法预测的雌激素受体结构和形成雌二醇结合口袋的19个关键残基的晶体结构的重叠图。
图27显示根据本发明的方法，PIR格式下，嗜盐菌紫质(halorhodopsin)序列(表示为1e12A)和细菌视紫红质序列(表示为1c3wA)之间的配对。
图28显示由图27中所述配对得到的三维结构和嗜盐菌紫质(PDB代码1e12的链A)的晶体结构相比较的彩虹带状重叠图。
图29显示根据本发明的方法，PIR格式下，细菌视紫红质序列(表示为1c3wA)和视紫红质序列(rhodopsin)(PDB结构1f88的链A，表示为1f88A)之间的配对。
图30显示由图29中所述配对得到的三维结构和细菌视紫红质(PDB代码1c3w的链A)的晶体结构相比较的彩虹带状重叠图。
图31显示根据本发明的方法，PIR格式下，光合成反应中心跨膜链的序列(表示为6prcM)和光合成反应中心另一条不同链的序列(PDB结构6prc的链L，表示为6prcL)之间的配对。
图32显示由图31中所述配对得到的三维结构和PDB编码6prc的链M的晶体结构相比较的彩虹带状重叠图。
图33显示根据本发明的方法，PIR格式下，ompA序列(表示为1bxwA)和ompX序列(PDB结构1qj8的链A，表示为1qj8A)之间的配对。
图34显示由图33中所述配对得到的三维结构和ompA(PDB代码1bxw的链A)晶体结构相比较的彩虹带状重叠图。
图35显示根据本发明的方法，PIR格式下，ompK36序列(表示为1osmA)和膜孔蛋白2por序列之间的配对。
图36显示由图35中所述配对得到的三维结构和ompK36(PDB代码1osm的链A)晶体结构相比较的彩虹带状重叠图。
图37显示根据本发明的方法，PIR格式下，蔗糖特异性膜孔蛋白序列(表示为1a0tP)和麦芽糖膜孔蛋白序列(PDB结构2mpr的链A，表示为2mprA)之间的配对。
图38显示由图37中所述配对得到的三维结构和蔗糖特异性膜孔蛋白(PDB代码1a0tP的链P)晶体结构相比较的彩虹带状重叠图。
表1列出结构域1ovaA和1by7A之间的结构配对。
表2提供结构域1ovaA的桥和凸出的BRIDGE/GAP空隙清单，其来自1ovaA和蛋白结构域1ova、1ovaC、1azxI、和1by7A之间的DALI结构配对。
表3提供了本发明的方法与本领域现有方法相比较而言具有的优点。
表4显示针对SCOP数据库中27个序列而言本发明和PSI Blast的配对方法在科、总科、Fold、和类各个层次确认序列同源性关系的相对能力。
表5显示根据本发明的配对方法对34个以前未模拟的支原体genitalium序列正确模拟的残基数目。
表6显示根据本发明的配对方法对支原体genitalium基因组中前180个序列进行结构预测并与ModBase数据库比较。能构建成可靠结构模型的残基数目在每列中显示。将含有至少80％总序列长度的基本完全模型突出显示。每种方法所得结构都通过相同的可靠性测试。所述测试已经公开发表(Sanchez和Sali1998)，并且表明这些结构正确折叠的置信限度大于95％的阈分数。
表7提供用有空隙的(gapped)-BLAST方法找到的和SC001具有序列相似的PDB结构。
表8提供结构域1ovaA的桥和凸出的部分清单，其来自1ovaA和列出的蛋白结构域之间的DALI结构配对。发明详述
本发明的优选具体实施例是一种确定在待查序列和一个或多个模板序列之间的优选序列配对的方法，该方法包括以下步骤(1)配对两个或更多参考序列以确定一个或多个参考配对空隙(称作BRIDGE/BULGE空隙)；(2)根据待查序列和每个模板序列之间的一给定的序列配对是否产生BRIDGE/BULGE空隙，来确定待查序列的每个可能的配对和每个模板序列之间的配对分数；和(3)基于待查序列和每个模板序列之间的配对分数确定优选的序列配对。
确定参考配对空隙-BRIDGE/BULGE空隙的优选方法
在本发明的一种优选方法中，通过将参考序列数据库中每一个参考序列与其他所有参考序列进行配对，则得到参考配对空隙清单，又称为BRIDGE/BULGE清单。优选地，这类参考序列数据库包括所有已知蛋白序列或已知蛋白序列的统计显著的交叉部分(cross section)，例如不断发展变化的PDB。这些结构比较技术已经为本领域技术人员所熟知，其包括，例如，Holm和Sander开发的Dali方法、组合扩展法(CE)(Combinatorial Extension Method)、和VAST。Holm，L.和Sander，C.《分子生物学杂志》(J.Mol.Biol.)233，123-138(1993)；Holm，L.和Sander，C.，《科学》(Science)273，595-602(1996)；Shindyalov，L.N.，和Bourne，P.E.，《蛋白工程》(Protein Eng.)11，739-747(1998)；Gibrat，J-F.，Madei，T.和Bryant，S.H.，《当今结构生物学观点》(Curr.Opin.Struct.Biol)6，377-385(1996)。
表1
表1表明用Dali程序产生的蛋白结构域1ovaA和1by7A之间的结构配对(所述配对的C端(羧基末端)在1ovaA的189位残基处切断)。正如表1显示的那样，当两个序列配对时，两个序列中的大区域经常是等同的并且被氨基酸残基不同的区域所分隔。特别是，当1ovaA和1by7A配对时，两个序列中最前的63个和最后的91个残基相匹配。在较短的序列长度，插入区域交替地配对和不配对。例如，1ovaA中的残基69-78不与1by7A中任何残基配对，尽管空隙两侧的结构相似。这样，相对1by7A而言，1ovaA在这个区域内有一个9-残基凸出。相反地，相对1ovaA而言，结构1by7A在1ovaA的这个区域内跨越了9个残基(bridges 9 residues)。
众所周知，可以为每个蛋白相对于整个数据库建构结构比较数据库。参见，例如，FSSP数据库，Holm，L.和Sander，C.，《科学》(Science)273，595-602(1996)。如果已知一套序列配对，我们就能够得到与所给结构相关的各种各样序列配对中的所有桥和凸出的清单。一般而言，根据本发明的方法得到的结果会随着数据库中用来确定BRIDGE/BULGE信息的序列和基因组数目的增长而改善。表2显示桥和凸出信息的部分清单，其可从配对PDB中的各种序列而获得。F.C.Bernstein，T.F.Koetzle，G.J.B.Williams等《分子生物学杂志》(J.Mol.Biol.)112，535-542(1977)；H.M.Berman，J.Westbrook，Z.Feng，G.Gilliland，T.N.Bhat，H.Weissig，I.N.Shindyalov，P.E.Bourne《核酸研究》(Nucl.Acids Research)，28235-242(2000)；WWW地址http//www.rcsb.org/pdb]。在表1中来自1ovaA和1by7A配对得到的桥用灰色突出显示。表2
另一种确定BRIDGE/BULGE信息的优选方法是使用算法(例如BLAST，S.F.Altschul，W.Gish，W.Miller，E.W.Meyers，和D.J.Lippman，《分子生物学杂志》(J.Mol.Biol.)215，403-410(1990))来确定待查序列和取自任何大的序列数据库的模板序列的一套同源序列，所述序列数据库包含统计上具有代表性的跨越多种基因组的许多序列的交叉部分(cross section)。根据本优选具体实施例用来确定BRIDGE/BULGE信息的数据库最好包括所有已知的、与待查序列和模板序列同源性至少为45％的序列。NIH的非多余性蛋白序列银行是一个适合的数据库，所述银行现在有从多于100种不同有机体中获取的多于600,000的序列。可以用任何本领域人员所熟知的多重序列配对算法，对由待查序列和模板序列组成的序列同源组合进行处理得到BRIDGE/BULGE清单，例如clustal W，J.D.Thompson，D.G.Higgins，T.J.Gibbon，《核酸研究》(Nucl.AcidsRes.)22，4673-4680(1994)。图1显示用clustal W找到的以下序列的7个同源序列
LVAFADFGSVTFTNAEATSGGSTVGPSDATVMDIEQDGSVLTETSVSGDSVTV。
就待查序列而言，多重序列配对包含两个不同的一残基凸出区域，所述区域在待查序列中用“G-S”和“S-V”表示。图1中多重配对也含有一个桥区域，在所述桥区域内待查序列中的“STVGPSD”残基为序列4中的一个空隙区域跨越。注意，如果同源序列的三维模型存在，则可以证明发现的每一个桥和凸出都遵守三维结构所施加的物理限制。
BRIDGE/BULGE清单的另一个来源是服从三维蛋白结构所施加的物理限制的桥和凸出空隙的清单。例如，我们可以得到模板序列中每个残基的起始碳(C-alpha carbon)之间的残基内距离的清单。残基内距离在一定值范围内就可能成为适当的BRIDGE/BULGE空隙的候选者。例如，两个相距大约5的残基就可能被一个残基很好的分隔。在所述结构中在该点的一残基桥将不会破坏整个折叠，并且可以认为是BRIDGE/BULGE空隙组合中的包含体(如果在待查序列中实际存在多于一个的残基将这些残基分隔)。这样，一套不破坏模板序列三维结构的BRIDGE/BULGE组合也可以用在BRIDGE/BULGE空隙组合中。
全部或部分位于细胞膜内的膜内蛋白的结构有许多独特的特质，这些特性使它们与其可溶性蛋白配对物区别开来。这样的一个特性是蛋白膜内区域的膜蛋白具有高度的结构同源性。相反，在这些蛋白中细胞内和细胞外的环形结构具有相当的柔性并且几乎不具有结构保守性。本发明的方法独特地适用于模拟这些序列。如果已知一个膜蛋白模板的结构，就可以确证细胞内和细胞外的环形区域，并且能够扩充膜模板的BRIDGE/BULGE空隙清单，使得所有可能的环形结构长度都包含在候选配对组合之中。进一步来讲，可以将破坏蛋白高度保守膜内结构的BRIDGE/BULGE空隙从BRIDGE/BULGE组合中剔除，以便在最优配对的确定过程中只考虑保持高度保守结构的序列配对。与可溶性蛋白无关，膜蛋白的标准空隙及BRIDGE/BULGE空隙的打开和延长参数都应独立确定。
桥和凸出列表包含关于空隙类型的有价值的信息，并且人们知道对于给定序列比较所述空隙在自然界中存在。在本发明的优选方法中，BRIDGE/BULGE组合中每个空隙都给予参与确定待查序列和模板序列间最优配对的机会。本领域现有方法在确定待查序列和模板序列之间的最优序列配对时并没有考虑提出的配对空隙是否在自然界中其他地方被发现。
本领域熟练的技术人员会很快明白为何这种考虑是重要的。当比较两个序列时，随着序列同源性的相对降低，配对空隙的频率和大小通常会增加。在不考虑所述空隙是否有物理基础的情况下，最优配对的确定将与序列三维结构的物理真实性相脱离。
计算序列配对的优选方法-和矩阵
确定待查序列和模板序列之间的最优序列配对的优选方法包括依据一种算法将序列相似性矩阵进行动态变换以计算和矩阵，其中所述算法会考虑提出的配对空隙是否产生一已知的BRIDGE/BULGE空隙。尽管相似性矩阵和动态编程广泛应用于现有的配对技术中，现有的配对技术在确定最优配对时并没有将提出的BRIDGE/BULGE空隙是否物理存在这个因素考虑进去。
实施例1
实施例1显示确定最优序列配对的现有方法，所述方法通过相似性矩阵的动态变换来计算和矩阵。图2显示为(校留意)“ BIGTOWNSOWN”和“BIGBROWNTOWNOWN”两个序列构建的用来作为示范的相似性矩阵，该过程中使用了一种非常简单的计分方法，如Si，j＝2，如果矩阵中i和j的位置的字母相同；以及Si，j＝0，如果矩阵中i和j的位置的字母不同。
在动态编程中，可以通过动态变换相似性矩阵计算得到和矩阵。联系相似性矩阵sij元素和和矩阵Sij元素的示范性变换方案显示在方程1中。
Sij＝sij+Max{
Si+1，j+1，[对角线的，向下和向右]
Si+1，j+2 to jmax-GAP，[i+1行向后，所有可能的空隙]
Si+2 to imax，j+2-GAP，[j+1列向后，所有可能的空隙]
}， (1)
其中Si，j表示相似性矩阵中单元格(i，j)的分数，Max表示括号里三项之中的最大值。GAP表示所提出的空隙打开和延长的空隙处罚。空隙得分处罚的示例显示在方程2中
GAP＝Open-k(extension)，(2)
其中“Open”表示打开一个空隙的处罚常数，并且“k(extension)”表示延长空隙“k”个残基的处罚常数。
一种典型的动态编程算法从和矩阵最底部一行开始填充，并且沿矩阵向上从右至左填充每行中每个单元格的分数。图3显示正在构建的和矩阵，其中空隙打开和延长的处罚分别是2和1。在这个实施例中由相似性分数矩阵得到的Si，j＝2分数已经转化到和矩阵中。在图3中，和矩阵的底部两行已经完成，并且从底部算第三行正在完成。灰色阴影矩阵元素表示当确定黑色矩阵元素的分数时被考虑的矩阵元素。沿对角线上最暗的灰色阴影矩阵元素是对黑色矩阵元素的值有贡献的矩阵元素。
图4显示处于进一步变换阶段的和矩阵，此时底部有9行已经完成。和上述一样，灰色阴影矩阵元素是确定黑色矩阵元素的分数时需要考虑的矩阵元素。在这种情况下，最高分数来自最暗的灰色阴影元素，该元素离黑色单元格有两列远。
图5显示方程(1)中所用的灰色单元格的空隙处罚，所述灰色单元格是图4中黑色阴影单元格的配对候选者。紧邻黑色阴影单元格下方和右方的单元格的空隙＝0。有两个空隙＝2的单元格，其中所述空隙第一次打开但没有延长。由黑色阴影单元格进一步得到的单元格也有大小为1的延长处罚，所以它们总的空隙处罚随着延长长度的增加而增加一个单位(从方程1中得到的k)。
图6显示通过对相似性矩阵中矩阵元素sij(同上面的定义)的动态变换得到的完全和矩阵。一旦和矩阵完成，我们就可以在和矩阵的最顶部一行和最左边一列中找到分数最高的单元格，并且接着追溯那些产生所述最高得分单元格的单元格，从而找到最优配对。在这个实施例中，所述左上最优配对从左上角的单元格开始并且突出显示。图7用广泛使用的PIR格式、在和矩阵背景之外显示最高得分配对。
目前的动态编程方法(如上述所披露和用方程2来代表的)在将相似性矩阵进行变换以计算和矩阵时并没有考虑BRIDGE/BULGE信息。这样，现有的确定待查序列和模板序列之间最优序列配对的方法在进行确定时没有考虑到所提出BRIDGE/BULGE是否在自然界有物理基础。这在低序列同源性的两个序列之间进行序列比较时有很重要的意义，并且能够解释为什么现有配对技术不适用于低同源性的情况。当比较两个序列时，随着相对序列同源性的降低，相对空隙的大小和频率会增加。在不考虑所述空隙是否在自然界中有任何先例的情况下，最优配对的确定将与序列三维结构(alignment)的物理真实性相脱离。
本发明的方法是建立在以下认识的基础上如果要在低序列同源性的情况下通过相似性矩阵的动态编程得到精确的和矩阵，动态编程就必须考虑到所提出的配对是否在自然界中存在先例。本发明的优选方法，和现有的确定待查序列和模板序列之间最优序列配对的方法一样，利用动态编程从一个输入相似性矩阵输出一个和矩阵。然而，本发明的方法在确定最优序列配对时还考虑一个输入变量，也就是在所提出的配对中的任何BRIDGE/BULGE是否在自然界中有任何物理基础。图8图示本发明的方法所需的两个基本输入量。
在根据本发明的一个优选方法中，可以通过方程3动态变换相似性矩阵(矩阵元素sij)以计算和矩阵(矩阵元素Sij)。
Sij＝sij+Max{
Si+1，j+1，[对角线的，向下和向右]
Si+1，j+2 to jmax-GAP，[i+1行向后，所有可能的j]
Si+2 to imax，j+2-GAP，[j+1列向后，所有可能的i]
Sm，n-BRIDGE/BULGE[结束和矩阵元素i，j的桥和
凸出]
}，(3)
方程3中的术语和方程2中定义的一样，其中有一个额外术语BRIDGE/BULGE。BRIDGE/BULGE对应于一个始于和矩阵的矩阵元素m，n，并结束于和矩阵的矩阵元素i，j的已知桥或凸出的处罚。Max{Si+1，j+1，Si+1，j+2 to jmax-GAP，Si+2 to imax，j+2-GAP，Sm，n-BRIDGE/BULGE}表示括号里四项之中的最大值。所述相似性矩阵可以用本领域熟知的任何方法得到。
实施例2
实施例2说明，在图2的相似性矩阵和图9的BRIDGE/BULGE组合的基础上，包含BRIDGE/BULGE信息(来自方程3描述的优选方法)将如何影响在“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”之间的优选配对的确定。为了这个计算目的，不存在于已知BRIDGE/BULGE组合中的空隙的空隙打开和延长处罚分别为3和2，存在于已知BRIDGE/BULGE组合中的空隙的空隙打开和延长处罚分别为1和0。图10显示由图9中BRIDGE/BULGE空隙组合允许的桥和凸出空隙。这样，图10显示BRIDGE/BULGE组合怎样控制相似性矩阵到和矩阵的动态变换。
本发明的优选方法从和矩阵最底部一行开始填充，并且沿矩阵向上、在行的每个单元格中从右至左填充分数。
在图11中，和矩阵的底部三行已经完成，并且从底部算起第四行正在完成。再一次，当确定黑色矩阵元素的分数时，灰色阴影矩阵元素是被考虑的可能的矩阵元素，并且最暗的灰色阴影矩阵元素是实际上对黑色矩阵元素的分数有贡献的矩阵元素。正如图10中最粗的箭头所示，从深灰色矩阵元素到黑色矩阵元素的变换是图9中所示的BRIDGE/BULGE组合所允许的。
图12显示处于进一步变换阶段的和矩阵，此时底部12行已经完成。同上所述，当确定黑色单元格的分数时，灰色阴影矩阵单元格是要考虑的位置。在这种情况下，最高分数来自在BRIDGE/BULGE空隙组合中的深灰色阴影单元格。
图13显示方程2中所用的灰色单元格的空隙处罚，所述灰色单元格是图12中黑色阴影单元格的配对候选者。从深灰色单元格到黑色单元格的变换是在BRIDGE/BULGE空隙组合范围内，因此具有大小为1的空隙处罚。
图14显示根据本发明的优选方法产生的“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”的假设配对和矩阵。一旦该和矩阵完成，我们就可以在和矩阵的最顶部一行和最左边一列的所有单元格中找到分数最高的单元格，并且接着追溯那些产生所述最高得分单元格的单元格，从而可找到最优配对。对该实施例来说，最优配对从左上角的单元格开始，并且突出显示。图中箭头用来标明列在BRIDGE/BULGE空隙组合中的最优配对的空隙。注意，在这种情况下得到的整体最优配对与图6中得到的标准动态编程配对不同。图15用广泛使用的PIR格式、在和矩阵背景之外显示最高得分配对。从图15可以明显看到，在本实施例中获得的最高得分配对并不连续配对来自待查序列或模板序列的残基，因为在最后配对中存在的凸出空隙省去了两个序列中的部分残基。
确定BRIDGE/BULGE处罚的优选方法
在动态编程中确定空隙打开和延长处罚的方法已经为本领域所熟知。一种优选方法是针对很大数量的蛋白序列(其中最优配对已知)经验调节这些参数以获取最佳结果。一般的进程是先汇集许多不同的空隙打开和延长处罚结合的结果，然后选出在测试组合中表现最佳的参数。关于该程序参见，例如，B.Rost，R.Schneider和C.Sander，《分子生物学杂志》(J.Mol.Biol.)270，471-480(1997)。当为了优化序列配对以参数表示标准动态编程程序时，两个必须参数化的变量是空隙打开和空隙延长处罚。在根据本发明的方法中，除了标准的空隙打开和空隙延长处罚参数之外，BRIDGE/BULGE组合的空隙打开和延长处罚(校原文多一个“penalties”)也必须参数化。这些参数可以用与动态编程中用来确定标准空隙打开和延长处罚的相同的方法来进行调节。
确定三维结构和科同源性的优选组合方法
一旦待查序列和蛋白结构模板或多个模板之间的配对构建完成，就可以用本领域熟知的各种序列同源性模拟方法进行待查序列的三维结构的构建。一种广泛应用的方法是刚性结构(rigid-body)装配，其中模板蛋白骨架残基的精确坐标作为待查蛋白中相应配对残基的坐标。K.Brew，T.C.Vanaman，和R.C.Hill，《分子生物学杂志》(J.Mol.Biol.)42，65-86(1969)；T.L.Blundell，B.L.Sibanda，M.J.E.Sternberg，和J.M.Thornton，《自然》(Nature)326，347-352(1987)；W.J.Browne，A.C.T.North，D.C.Philips，J.Greer，《蛋白》(Proteins)7，317-334(1990)。另一套本领域熟知的方法是片段配对法，所述方法是依靠模板蛋白中原子的大致坐标。T.H.Jones，S.Thirup，EMBO J.5，819-822(1986)；M.Claessens，E.V.Cutsem，I.Lasters，S.Wodak，《蛋白工程》(Protein Eng.)4，335-345(1989)；R.Unger，D.Harel，S.Wherland，J.L.Sussman，《蛋白》(Proteins)5，355-373(1989)；M.Levitt，《分子生物学杂志》(J.Mol.Biol.)226，507-533(1992)。还有另一组方法并不明确使用模板蛋白的坐标，而是用这些模板来产生一套残基内距离限制条件，并用其来产生待查结构。在一套限制条件下，可用如距离几何学或能量优化技术等方法来获得满足所有限制条件的待查序列的结构。T.F.Havel和M.E.Snow，《分子生物学杂志》(J.Mol.Biol.)217，1-7(1991)；S.M.Brockelhurst，R.N.Perham，《蛋白科学》(Prot.Science)2，626-639(1993)；A.Sali和T.Blundell，《分子生物学杂志》(J.Mol.Biol.)234，779-815(1993)；S.Srinivasan，C.J.March，和S.Sudarsaman，《蛋白工程》(Protein Eng.)6，501-512(1993)；A.Aszodi和W.R.Taylor，《折叠设计》(Folding Design)1，325-34(1996)]。对于给定的待查序列和模板序列配对而言，三种类型的算法的准确性和精度是相似的，其已经为本领域人员所熟知。
本发明的方法也可以用来确定多个待查序列之间的相对同源性关系。确定多个待查序列之间的相对同源性关系的优选方法包括确定每个待查序列和一个或多个模板序列之间的最优配对分数，并且通过比较优选的配对分数来确定待查序列之间的相对同源性。与一个或多个相同模板序列具有配对分数的待查序列可以认为比具有更分散的配对分数的待查序列具有更紧密的关系。
本发明优选方法相对于现有方法的优点
在优选方法中，待查序列和模板序列之间的最优序列配对的确定参考了所提出的桥或凸出是否在自然界中有先例。因为在构建配对时所使用的每个桥和凸出空隙都在三维数据库中存在，所以众所周知，三维蛋白模型能够满足所有的空隙条件而不违背分子几何学(即空隙是实际存在的(physical))。
进一步来讲，因为优选方法使用已知结构的桥和凸出信息，因此长的桥和凸出空隙的适当构象已经存在于PDB中的序列中。这与现有方法相比较有很大的好处。例如，在由MODELLER程序产生的配对中，要使待查序列中所有残基都有一个结构模板的唯一方法是包括足够数量的结构模板从而考虑到所有不同环形长度的变化。用本发明的方法，在最后的一致性配对过程开始之前，完成这项任务所需要的结构模板是预先确定的。这使得对空隙区域的预测更准确，因为很少需要通过从头开始方法(ab initio)或数据库搜索的方法来构建环形区域(这些方法通常导致模拟性很差或错误导向的结构区域)。这些改进总结在表3中。表3
在下面的实施例中，本发明的方法将与本领域现有配对技术进行比较，以解决各种结构同源性模拟问题。
实施例3
实施例3是相对于PSI-BLAST算法，针对序列相差较大的结构类似物的检测，测试本发明的方法，S.F.Altschul，T.L.Madden，A.A.Schaffer等，《核酸研究》(Nucl.Acids Res.)25，3389-3402(1997)。PSI-BLAST目前代表同源性模拟程序的现有水平。E.Lindahl和A.Elofsson，《分子生物学杂志》(J.Mol.Biol.)，295，613-625(2000)。在本实施例中，用Lindahl和Elofsson概述(outlined)的测试方法和27个已知的蛋白序列，对每种算法进行测试以确定其确认结构邻居的相对能力，其中所述结构邻居，在结构相似性的科、总科、Fold、和类层次上(科关系最近，Fold关系最弱)，其序列同源性小于25％，如在SCOP蛋白数据库中所定义，A.G.Murzin，S.E.Brenner，T.Hubbard和C.Chothia，《分子生物学杂志》(J.Mol.Biol.)，247，536-540(1995)。测试组中的所有结构相似性在FSSP数据库中同样存在，Holm和Sander，《科学》(Science)，273，595-602(1996)，因此即使在Fold和类这样的相似性层次，高结构同源性的区域也能保证其存在。总的来讲，所述测试中共有99个科、171个总科、184个Fold、和1931个类关系。优选方法和PSI-BLAST方法确认这些关系的能力在表4的1、5和10(即0、4和9是假阳性)中有一个总的排列。这些结果表明用本发明的方法，在总科、Fold和、类相似性层次上，序列确认能力有很大的提高。表4
实施例4
实施例4说明本发明的方法和广泛可获得的同源性模拟数据包联合使用，可用来预测待查序列的三维结构。在本实施例中，对来自支原体genitalium基因组的54个待查序列，用本领域现有配对技术在MODELLER中无法单独进行正确结构模拟，A.
和T.L.Blundell，《分子生物学杂志》(J.Mol.Biol.)，234，779-815(1993)，而联合使用本发明的配对方法和MODELLER的三维结构构建部分，则可以进行结构模拟。实验结果总结在表5中。表5表明当用本发明的方法确定优先序列配对并基于这些优选配对用MODELLER获取三维蛋白结构时，能成功模拟54个序列中的35个(65％)，这相当于8800个以前未模拟的残基，如按照pG测试所判断的，R.Sánchez和A.
“酿酒酵母基因组的大规模蛋白结构模拟”《美国国家科学院院报》(Proc.Natl.Acad.Sci.USA)，95，13597-13602(1998)]，其中使用PROSAII的Z计分方法，M.J.Sippl，《蛋白》(Proteins)，17，355-362(1993)。表5
这些结果表明本发明的方法比现有的配对技术有明显的改善，因为对于这35个成功模拟序列的每一个，本领域现有技术MODELLER程序失败了。如果将这些结果外推到整个支原体genitalium基因组，本发明的方法将能正确地、在结构上模拟大约40000个残基，这相当于30％以上的可溶性蛋白残基。因为本发明的方法能同样应用于任何基因组，因此，本发明的方法应能改善对所有基因组的类似模拟，包括人类基因组。
实施例5
实施例5说明本发明的方法针对支原体genitalium基因组的前l80个序列能提供比R.Sánchez和A.
的方法和ModBASE方法更好的三维结构。R.Sánchez和A.
《生物信息学》(Bioinformatics)，15，1060-1061(1999)。在本实施例中，联合使用本发明的优选配对技术和MODELLER的三维结构构建能力来确定支原体genitalium基因组的前180个序列的三维结构。这个实验的结果和Sánchez和
方法的结果列在表6中。表6的第一列表示每个序列的实际残基数。剩下的两列显示用本发明的方法正确模拟的残基数目(从左数第3列)和用Sánchez和
方法正确模拟的残基数目(最右边的一列)。含有至少80％的总序列长度的基本完全模型突出显示。用每种方法产生的结构经过同样的可靠性测试。这些测试结果已经公开发表(Sanchez和Sali 1998)，并且提供这些结构正确折叠的置信限大于95％的阈分数(thresho1d)。表6
或许，确定一种配对方法的有效性的唯一的、最重要的标准是所述方法用来预测大体上完全结构模型的能力-即至少正确模拟80％的残基。本发明的方法对180个支原体genitalium序列的模拟正确率至少为80％的比率约为27％，然而ModBASE在相同正确率前提下仅达到13％。因此，本发明的配对方法与本领域现有的配对方法相比有至少两倍的提高。
测量配对方法的有效性的另一种重要的标准是所述方法用来正确预测完全结构域结构的能力。又一次，当本发明的方法用来构建三维模型时，180个序列的完全结构域中能正确模拟106个(59％)，而ModBASE只有48个(27％)。
测量配对方法的有效性第三个标准是所述方法用来预测结构模型中任何一个残基的空间位置的能力。再一次，当本发明的方法用来构建三维模型时，在估计约50000个可溶性蛋白残基中，将近22000个残基的坐标可以精确定位，而ModBASE只能对小于前者一半，也就是约21％的残基进行适当定位。
图16是联合使用本发明的方法和MODELLER产生的MG001带状结构图。而MODBASE对相同的序列只能提供不完整的结构片段。实施例6
实施例6说明本发明的方法和广泛可获得的同源性模拟数据包联合使用，可用来预测低序列同源类似物的正确三维结构。在这个实施例中我们基于一个低同源性模板序列来确定啤酒酵母(Saccharomyces cerevisiae，酿酒酵母)中SC001(orf YGL040C)的三维结构。为了构建一个BRIDGE/BULGE清单，用空隙-BLAST方法来确定PDB中与待查序列SC001具有相似序列的蛋白结构清单。已找到的8个PDB相似结构列在表7中。
表7
为了进一步说明所述优选配对方法在低序列同源性的情况下产生准确结构的能力，用序列1b4kA(示于表7中)作为模板序列并产生BRIDGE/BULGE清单。SC001和1b4kA之间的结构配对具有35％的序列同源性，并且MODBASE中不存在从1b4kA建立的序列SC001的可靠的结构模型。结构1b4kA长为326个残基；在FSSP中有211个与1b4kA结构上配对的蛋白。这些配对为该结构产生3444个可能的桥和凸出，其中部分列于下面的表8中。
表8
根据本发明的方法，在PIR格式下，SC001和1b4kA之间的最优序列配对显示在图17中。为该配对使用的空隙处罚为空隙打开和延长处罚，分别是10.0和1.5，其中桥和凸出打开和延长处罚分别是1.0和0.3。这些空隙处罚是通过对已知结构组合中得到的配对进行优化而确定。
接着，把PIR格式的配对作为MODELLER同源性模拟软件的配对输入项。在图18中(1aw5在左边，预测结构在右边)，将MODELLER用该配对模拟的结构与SC001的实际晶体结构1aw5比较。326个匹配残基的起始碳CRMS(alpha-carbon CRMS)为2.11，这再一次说明所述优选方法在和同源性模拟程序联合使用时，能得到现有方法得不到的准确结构模型。
实施例7
实施例7说明本发明的方法和广泛可获得的同源性模拟数据包一道，可用来在序列同源性远低于25％的情况下预测准确的三维结构。
考察类视黄醇核受体视黄酸受体(RXR retinoic acid receptor)，PDB代码1dkf的链A的三维结构。蛋白和油酸一起结晶，得到所述结构。图19显示油酸配体的空间充填带状结构图。图20显示1dkf(命名为gi7766906)序列和结构1a28的链A(命名为1a28A)序列之间的STRUCTFAST配对(PIR格式)。总体上讲，197个残基和模板配对，序列等同性只有19％。图21显示1dkf链A的预测结构和晶体结构之间的彩虹带状重叠图。配对最佳的158个残基(全部197个残基的80％)的起始碳CRMS为1.6。图22显示形成油酸结合口袋的22个关键残基的预测结构(较暗)和晶体结构(较亮)的重叠图。在这些22个残基中的骨架原子重叠至1.7，并且残基中所有的重原子，包括侧链原子，都重叠至2.2。
考虑雌激素受体，PDB代码1a52的链A的三维结构。蛋白作为和雌二醇的二聚体一起结晶，得到所述结构。图23显示所述结构的插入图，其中雌二醇配体用空间填充格式显示。图24显示根据本发明的方法，PIR格式下，雌激素受体(表示为gi3659931)序列和结构1a28的链A(表示为1a28A)序列之间的配对。总体上讲，241个残基和模板配对，序列等同性为23％。图25显示雌激素受体的根据本发明的方法预测的结构和1a52链A的晶体结构之间的彩虹带状重叠图。配对最佳的193个残基(全部241个残基的80％)的起始碳CRMS为1.9。图26显示形成雌二醇结合口袋的19个关键残基的预测结构(较暗)和晶体结构(较亮)的重叠图。在这些19个残基中的骨架原子重叠至0.8，并且残基中所有的重原子，包括侧链原子，都重叠至1.8。
实施例8
实施例8说明本发明的方法和广泛可获得的同源性模拟数据包一道，可用来在低序列同源性的条件下预测细胞膜内蛋白的准确的三维结构。
图27显示根据本发明的方法，在PIR格式下，嗜盐菌视紫红质(halorhodopsin)序列(表示为1e12A)和细菌视紫红质序列(表示为1c3wA)之间的配对。总体上讲，233个残基和模板配对，序列等同性为32％。图28显示用图27中的配对得到的三维结构和嗜盐菌视紫红质(PDB代码1e12的链A)的晶体结构相比较时获得的彩虹带状重叠图。配对最佳的187个残基(全部233个残基的80％)的起始碳CRMS为0.91。
图29显示根据本发明的方法，在PIR格式下，细菌视紫红质序列(表示为1c3wA)和视紫红质序列(rhodposin)(PDB结构1f88的链A，表示为1f88A)之间的配对。总体上讲，214个残基和模板配对，序列等同性只有13％。图30显示用图29中的配对得到的三维结构和细菌视紫红质(PDB代码1c3w的链A)的晶体结构相比较时获得的彩虹带状重叠图。配对最佳的172个残基(全部214个残基的80％)的起始碳CRMS为5.24。
图31显示根据本发明的方法，在PIR格式下，光合成反应中心的跨膜链序列(表示为6prcM)和光合成反应中心的一条不同链的序列(PDB结构6prc的链L，表示为6prcL)之间的配对。总体上讲，259个残基和模板配对，序列等同性为28％。图32显示用图31中的配对得到的三维结构和PDB代码6prc的链M的晶体结构相比较时获得的彩虹带状重叠图。配对最佳的207个残基(全部259个残基的80％)的起始碳CRMS为1.00。
图33显示根据本发明的方法，在PIR格式下，ompA序列(表示为1bxwA)和ompX序列(PDB结构1qj8的链A，表示为1qj8A)之间的配对。总体上讲，153个残基和模板配对，序列等同性只有21％。图34显示用图33中的配对得到的三维结构和ompA(PDB代码1bxw的链A)晶体结构相比较时获得的彩虹带状重叠图。配对最佳的172个残基(全部214个残基的80％)(校有道理)的起始碳CRMS为2.59。
图35显示根据本发明的方法，在PIR格式下，ompK36序列(表示为1osmA)和膜孔蛋白2por序列之间的配对。总体上讲，323个残基和模板配对，序列等同性只有12％。图36显示用图35中的配对得到的三维结构和ompK36(PDB代码1osm的链A)的晶体结构相比较时获得的彩虹带状重叠图。配对最佳的259个残基(全部323个残基的80％)的起始碳CRMS为3.11。
图37显示根据本发明的方法，在PIR格式下，蔗糖特异性膜孔蛋白序列(表示为1a0tP)和麦芽糖膜孔蛋白序列(PDB结构2mpr的链A，表示为2mprA)之间的配对。总体上讲，410个残基和模板配对，序列等同性为21％。图38显示用图37中的配对得到的三维结构和蔗糖特异性膜孔蛋白(PDB代码1a0tP的链P)的晶体结构相比较时获得的彩虹带状重叠图。配对最佳的328个残基(全部410个残基的80％)的起始碳CRMS为2.26。
虽然本发明已经参考其特定的具体实施例而加以描述，但是对于本领域技术人员来说，可以对上述实施方案进行做多种修改和改变，而不偏离本发明的精神和范围。因此，本说明书只是通过实施例加以描述，而不是对本发明专利申请权利要求范围的限制。
权利要求
1.一种确定待查序列和至少一个模板序列之间的优选配对的方法，包括以下步骤
a.配对至少两个参考序列以确定一个或多个BRIDGE/BULGE空隙；
b.在所述待查序列的可能配对和每个所述模板序列之间确定至少一个配对分数；其中每个所述配对分数反映所述待查序列和每个所述模板序列之间的所述配对是否产生一个BRIDGE/BULGE空隙；以及
c.基于所述配对分数确定所述待查序列和每个所述模板序列之间的优选配对。
2.根据权利要求1所述的方法，其中所述优选配对是最优配对。
3.根据权利要求1所述的方法，其中所述步骤b包括以下步骤
a.为所述待查序列和每个所述模板序列形成一个序列配对相似性矩阵，矩阵元素为sij；以及
b.从每个所述序列配对相似性矩阵的动态变换确定一个矩阵元素为Sij的序列配对和矩阵，其中每个所述和矩阵的所述矩阵元素反映任何可能的配对空隙是否产生BRIDGE/BULGE空隙，其中所述配对空隙可由所述待查序列和每个所述模板序列的配对而形成。
4.根据权利要求3所述的方法，其中所述步骤b包括以下步骤
a.依据如下方程Sij＝sij+Max{Si+1，j+1，Si+1，j+2 to jmax-GAP，Si+2 to imax，j+2-GAP，Sm，n-BRIDGES/BULGE}，从每个所述序列配对相似性矩阵的所述动态变换，计算所述序列配对和矩阵，其中GAP表示所述待查序列和每个所述模板序列之间的配对空隙的空隙处罚，BRIDGES/BULGE表示一个已知桥或凸出的处罚，其中所述已知桥或凸出始于所述和矩阵的矩阵元素m，n，结束于所述和矩阵的矩阵元素i，j，并且Max{Si+1，j+1，Si+1，j+2 to jmax-GAP，Si+2 to imax，j+2-GAP，Sm，n-BRIDGES/BULGE}表示括号里四项之中的最大值。
5.一种确定待查序列和至少一个模板序列之间的优选配对的方法，包括以下步骤
a.配对至少两个参考序列以确定至少一个BRIDGE/BULGE空隙；
b.由所述待查序列和每个所述模板序列组成一个序列配对相似性矩阵；
c.从每个所述序列配对相似性矩阵的动态变换确定一个序列配对和矩阵，其中每个所述和矩阵的矩阵元素反映任何可能的配对空隙是否产生BRIDGE/BULGE空隙，其中所述配对空隙可由所述待查序列和每个所述模板序列的配对而形成；以及
d.从每个所述和矩阵的所述动态变换确定所述待查序列和每个所述模板序列之间的优选配对。
6.根据权利要求5所述的方法，其中所述优选配对是最优配对。
7. 一种确定待查序列和至少一个模板序列之间的优选配对的方法，包括以下步骤
a.配对至少两个参考序列以确定至少一个BRIDGE/BULGE空隙；
b.为所述待查序列和每个所述模板序列计算矩阵元素为sij的序列配对相似性矩阵；
c.依据如下方程Sij＝sij+Max{Si+1，j+1，Si+1，j+2 to jmax-GAP，Si+2 to imax，j+2-GAP，Sm，n-BRIDGES/BULGE}，从每个所述序列配对相似性矩阵的动态变换，计算矩阵元素为Sij的序列配对和矩阵，
其中GAP表示所述待查序列和每个所述模板序列之间的配对空隙的空隙处罚，BRIDGES/BULGE表示一个已知桥或凸出的处罚，其中所述已知桥或凸出始于所述和矩阵的矩阵元素m，n，结束于所述和矩阵的矩阵元素i，j，并且Max{Si+1，j+1，Si+1，j+2 to jmax-GAP，Si+2 to imax，j+2-GAP，Sm，n-BRIDGE/BULGE}表示括号里四项之中的最大值；以及
d.从所述和矩阵的所述动态变换确定所述待查序列和每个所述模板序列之间的优选配对。
8.根据权利要求7所述的方法，其中所述优选配对是最优配对。
9.一种确定至少一个待查序列和至少一个模板序列之间的优选配对的方法，所述方法用于一级序列同源性模拟方法中，包括以下步骤
a.配对至少两个参考序列以确定一个或多个BRIDGE/BULGE空隙；
b.确定每个所述待查序列和每个所述模板序列之间的可能配对的至少一个配对分数；其中每个所述配对分数反映每个所述待查序列和每个所述模板序列之间的所述配对是否产生BRIDGE/BULGE空隙；以及
c.基于所述配对分数确定每个所述待查序列和每个所述模板序列之间的优选配对，其中所述优选配对含有约10％至约20％的同源残基。
10.根据权利要求9所述的方法，其中所述优选配对是最优配对。
11.根据权利要求9所述的方法，其中所述一级序列同源性方法是一种确定所述待查序列的三维结构的方法。
12.根据权利要求10所述的方法，其中所述一级序列同源性模拟方法是一种确定所述待查序列的三维结构的方法。
13.根据权利要求9所述的方法，其中所述一级序列同源性模拟方法是一种确定至少两个待查序列之间的一级序列同源性关系的方法。
14.根据权利要求10所述的方法，其中所述一级序列同源性模拟方法是一种确定至少两个待查序列之间的序列同源性关系的方法。
15.一种确定至少一个待查序列和至少一个模板序列之间的优选配对的方法，所述方法用于一级序列同源性模拟方法中，包括以下步骤
a.配对至少两个参考序列以确定至少一个BRIDGE/BULGE空隙；
b.为每个所述待查序列和每个所述模板序列形成一个序列配对相似性矩阵；
c.从每个所述序列配对相似性矩阵的动态变换确定一个序列配对和矩阵，其中每个所述和矩阵的矩阵元素反映任何可能的配对空隙是否产生BRIDGE/BULGE空隙，其中所述配对空隙可由每个所述待查序列和每个所述模板序列的配对而形成；以及
d.从每个所述和矩阵的所述动态变换确定每个所述待查序列和每个所述模板序列之间的优选配对，其中所述优选配对含有约10％至约20％的同源残基。
16.根据权利要求15所述的方法，其中所述优选配对是最优配对。
17.根据权利要求15所述的方法，其中所述一级序列同源性方法是一种确定所述待查序列的三维结构的方法。
18.根据权利要求16所述的方法，其中所述一级序列同源性模拟方法是一种确定所述待查序列的三维结构的方法。
19.根据权利要求15所述的方法，其中所述一级序列同源性模拟方法是一种确定至少两个待查序列之间的一级序列同源性关系的方法。
20.根据权利要求16所述的方法，其中所述一级序列同源性模拟方法是一种确定至少两个待查序列之间的一级序列同源性关系的方法。
21.一种确定至少一个待查序列和至少一个模板序列之间的优选配对的方法，所述方法用于一级序列同源性模拟方法中，包括以下步骤
a.配对至少两个参考序列以确定至少一个BRIDGE/BULGE空隙；
b.为每个所述待查序列和每个所述模板序列计算矩阵元素为sij的序列配对相似性矩阵；
c.依据如下方程Sij＝sij+Max{Si+1，j+1，Si+1，j+2 to jmax-GAP，Si+2 to imax，j+2-GAP，Sm，n-BRIDGE/BULGE}，从每个所述序列配对相似性矩阵的动态变换，计算矩阵元素为Sij的序列配对和矩阵，
其中GAP表示所述待查序列和每个所述模板序列之间的配对空隙的空隙处罚，BRIDGE/BULGE表示一个已知桥或凸出的处罚，其中所述已知桥或凸出始于所述和矩阵的矩阵元素m，n，结束于所述和矩阵的矩阵元素i，j，并且Max{Si+1，j+1，Si+1，j+2 to jmax-GAP，Si+2 to imax，j+2-GAP，Sm，n-BRIDGE/BULGE}表示括号里四项之中的最大值；以及
d.从所述和矩阵的动态变换确定每个所述待查序列和每个所述模板序列之间的优选配对，其中所述优选配对含有约10％至约20％的同源残基。
22.根据权利要求21所述的方法，其中所述优选配对是最优配对。
23.根据权利要求21所述的方法，其中所述一级序列同源性模拟方法是一种确定所述待查序列的三维结构的方法。
24.根据权利要求22所述的方法，其中所述一级序列同源性模拟方法是一种确定所述待查序列的三维结构的方法。
25.根据权利要求21所述的方法，其中所述一级序列同源性模拟方法是一种确定至少两个待查序列之间的一级序列同源性关系的方法。
26.根据权利要求22所述的方法，其中所述一级序列同源性模拟方法是一种确定至少两个待查序列之间的一级序列同源性关系的方法。
27.一种基于对至少一个模板序列的一级序列同源性模拟来确定待查序列的三维结构的方法，其中所述待查序列和所述模板序列之间的所述配对由根据权利要求2、权利要求6、权利要求8、权利要求12、权利要求20、和权利要求24所述的方法来确定。
28.一种基于对至少一个模板序列的一级序列同源性模拟来确定至少两个待查序列之间的一级序列同源性关系的方法，其中所述待查序列和所述模板序列之间的所述配对由根据权利要求2、权利要求6、权利要求8、权利要求14、权利要求22、和权利要求26所述的方法来确定。
全文摘要
本发明的优选具体实施例是一种确定在待查序列和一个或多个模板序列之间的优选序列配对的方法，该方法包括以下步骤(1)配对至少两个参考序列以确定一个或多个BRIDGE/BULGE空隙；(2)根据待查序列和每个模板序列之间的一给定的序列配对是否产生BRIDGE/BULGE空隙，来确定待查序列的每个可能的配对和每个模板序列之间的配对分数；和(3)基于待查序列和每个模板序列之间的配对分数确定优选的序列配对。
文档编号G06F19/16GK1447862SQ0181446
公开日2003年10月8日申请日期2001年7月12日优先权日2000年7月12日
发明者德里克·A·戴比申请人:加州理工学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：德里克.A.戴比
技术所有人：加州理工学院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。