描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置的制作方法

文档序号:6476325阅读:2042来源:国知局

专利名称::描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置的制作方法
技术领域
:本发明涉及生物技术,具体涉及描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置。
背景技术
:虽然蛋白质的三维结构在原子水平上能够通过晶体结构X-射线衍射、核磁共振光谱或者计算机模拟方法得到原子坐标,然而描述蛋白质的折叠形状仍然是一个具有挑战性的课题。在蛋白质折叠结构中,部分片段的构形是由氢键形成的a螺旋和(3折叠片。然而,蛋白质其它片段的构形通常是那些很难确认和描述的无规则的盘绕、巻曲以及其它构形。迄今为止,关于蛋白质结构比较的各种方法都是采用二级结构对齐方法。例如,Dali(参阅HolmL,SanderC.,J.Mol.Biol.,1993a;233:123-138),STRUCTAL(参阅GersteinM,Levitt,M.InProc.FourthInt.Conf.onIntell.Sys.forMol.Biol.MenloPark,CA:AAAIPress.1996.p59-67.),VAST(参阅GibratJF,MadelT,BryantSH.Curr.Opin.Struct.Biol.1996;6:377-385.),LOCK(参阅SinghAP,BrutlagDL.InProc.FifthInt.Conf.onIntell.Sys.forMol.Biol.MenloPark,CA:AAAIPress.1997.p284-293.),3DSearch(参阅SinghA,BrutlagD.3dSearchhttp:〃gene.stanford.edu/3dSearch.),CE(参阅ShindyalovIN,BournePE.ProteinEng.1998;11(9):739-47.),SSM(参阅KrissinelE,HenrickK,ActaCrystallogrDBiolQystallogr.2004;60(Pt12Pt1):2256-2268.),PALI(参阅BalajiS,SujathaS,KumarSSC,Srinivasan,N.PALI,NucleicAcidsRes.2001;29:61-65.)。上述方法均列于参考文献中。另外,蛋白质的结构分类和存储已由SCOP和CATH数据库实现(参阅ParkJH,RyuSY,KimCL,ParkIKJ.,GenomeInformatics2001;12:350~351;andHadleyC,JonesDT.Structure1999;7(9):1099-112)。蛋白质折叠研究中颇具有挑战性的是要求描述和比较所有可能的折叠片段。目前估计有四千种可能的蛋白质折叠类型,其中大约二千种已经知道存在于天然蛋白质(参阅GovindarajanS,RecabarrenR,GoldsteinRA.,Proteins.1999;35(4):408-414)。由于大量的非天然蛋白质和较少出现的折叠类型存在,想要得到一个能够包容全部蛋白质折叠类型的数据库是困难的。对蛋白质折叠与构象的缺乏了解激发了许多技术方法的研发。例如,Skolnick等人的美国专利USPat.No.5,265,030,是应用氨基酸序列来确定蛋白质三级结构的一种方法。该项专利的专门考虑用非制约片段的支链,并且追踪其从非折叠状态到完全折叠的状态。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。Rose等人的美国专利No.5,680,319,是应用计算机方法从氨基酸序列来预测蛋白质片段的三维结构。该方法从一个确定的多肽链出发推演到整个构形,采用理想化的几何构形和极为简单的能量公式来折叠蛋白质,达到预测二级和超二级结构的目的。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。Edgecombe等人的美国专利No.6,345,235和6,516,277,是直接从一个体积中确定实际的多维拓扑表述。该方法专门利用范德华(vanderWaals)表面、静电势能和电子密度来得到分子形状和蛋白质的结构信息。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。Eisenberg等人的美国专利No.6,512,981,是利用计算机的方法探索氨基酸序列和己知三维结构关系。该方法特别之处是利用氨基酸序列,氨基酸序列衍生的二级结构和溶剂亲合力性能计算出结构对齐的分数。该项专利并没有釆用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。Hansen等人的美国专利No.6,792,355,是一种利用分解多肽片段的方法,通过氨基酸规则序列比较来构建一个距离排列,依此决定两个氨基酸序列的规则。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。Floudas等人的美国专利No.6,832,162,是采用力场模型以从头算方法预测蛋白质的二级和三级结构。该方法计算每五个肽的低能构象,然后调整体系自由能。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。McRee等人的美国专利No.7,158,888,是利用晶体结构X-射线衍射数据来确定象蛋白质这样的生物分子结构。该方法特别之处在于通过多个分子替换和X-射线数据比对来确定目标分子的结构。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。Harbury等人的美国专利No.7,288,382,是一个描述配位体结合点以及蛋白质和蛋白质相互作用的分析方法。该项专利特别采用掺入半胱氨酸来修饰蛋白质作为判断。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。综上所诉,这些传统的方法还无法令人满意的描述蛋白质折叠和构象。所以,确实需要一种方法能够描述蛋白质所有可能的折叠类型。同时也需要一个新的数学模型来比较不同蛋白质的折叠或同一蛋白质的不同构象。
发明内容本发明提供了关于蛋白质及其片段的构象的分析、预测和描述的一个完整系统方法,数学模型和应用。本发明的系统方法可以具体表达在计算机和任何一种可以运作该方法步骤的仪器中。系统方法涵盖单个或者多个蛋白质片段,单个或者多个完整的蛋白质,一对或者多对蛋白质的比较,以及理论预测或者实验测试的蛋白质。因此,本发明的数学模型的可以应用于任何计算机和计算机芯片来执行有关蛋白质及其片段的构象的分析、预测和描述。通常对于蛋白质序列的公认表述是从N-端到C-端。然而,本发明的数学模型也可以实际从C-端到N-端描述蛋白质序列。具体来说,本发明的方法中有五个重要步骤。这五个步骤具体表述如下。步骤A,取蛋白质中每五个连续的氨基酸作为一个基本单元。这里只考虑每个氨基酸的ct-碳原子。步骤B,计算每一个基本单元中的第一个二面角,该二面角是第一,第二和第三个氨基酸决定的第一个平面以及第二,第三和第四个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于&,a2或者a3所确定的角度范围之一。步骤C,计算每一个基本单元中的第二个二面角,该二面角是第二,第三和第四个氨基酸决定的第一个平面以及第三,第四和第五个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于bpb2或者b3所确定的的角度范围之一。步骤D,计算由第一和第五个氨基酸之间决定的的伸张距离。该伸张距离的大小数值一定属于d,C2或者C3所确定的的距离范围之一。步骤E是依据步骤B,步骤C和步骤D所得到的数值确定需要描述的五个连续的氨基酸的基本单元的向量。本发明的方法实质就是连续执行蛋白质折叠码的数学模型推演出来的有关各步骤。本发明的一个显著的特点是每两个连续的五个连续的氨基酸的基本单元有四个氨基酸是相互重叠的。因此,本发明的运算规则是依次地计算每五个连续的氨基酸的基本单元,得到蛋白质的构象。值得注意的要点是,每两个相邻的五个连续的氨基酸的基本单元共有一个平面。第一基本单元的第二个平面和第二基本单元的第一个平面共面。在本发明的数学模型和应用中,考虑到五个连续的氨基酸中的第三氨基酸的碳原子位于每一个基本单元的中心,因此,每一个基本单元的功能性质被指派给这个中心碳原子。在本发明的数学模型和应用中,因为中间氨基酸代表每五个连续的氨基酸的基本单元,因此第一个a-碳原子标记为(n-2),第二个a-碳原子标记为(n-l),第三个a-碳原子标记为(n),第四个a-碳原子标记为(n+l),第五个a-碳原子标记为(n+2)。依据本发明的数学模型的特点,本发明的方法依次序评估分析和描述蛋白质中每五个连续的氨基酸的基本单元。具体地说,依次定义每五个连续的氨基酸的基本单元是该方法中的步骤F。定义第二个基本单元就是重复前面第一步骤。在第二个基本单元中的第一个氨基酸实质是在第一个基本单元中的第二个氨基酸,在第二个基本单元中的第二个氨基酸实质是在第一个基本单元中的第三个氨基酸,在第二个基本单元中的第三个氨基酸实质是在第一个基本单元中的第四个氨基酸,在第二个基本单元中的第四个氨基酸实质是在第一个基本单元中的第五个氨基酸,在第二个基本单元中的第五个氨基酸实质是向前移动一位的氨基酸。采取类似其它以前步骤,计算每一个氨基酸的a-碳原子。接着是本发明的步骤G。其实质是重复步骤B来计算第二个五个连续的氨基酸的基本单元的第一个二面角。该二面角是第二个基本单元的第一,第二和第三个氨基酸决定的第一个平面以及第二,第三和第四个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于ai,a2或者a3所确定的角度范围之一。然后是步骤H,其实质是重复步骤C来计算第二个五个连续的氨基酸的基本单元的第二个二面角。该二面角是第二个基本单元的第二、第三和第四个氨基酸决定的第一个平面以及第三、第四和第五个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于h,b2或者b3所确定的的角度范围之一。然后是步骤I,其实质是重复步骤D来计算第二个的基本单元的中由第一和第五个氨基酸之间决定的的伸展距离。该伸展距离的大小数值一定属于Cl,C2或者C3所确定的的距离范围之一。然后是步骤J,其实质是重复步骤E,依据步骤G,步骤H和步骤I所得到的数值确定需要描述的第二个五个连续的氨基酸的基本单元的向量。本发明的方法和过程可以运用于整个蛋白质。因此,连续重复步骤A,B,C,D和E,可以使每一个相邻的基本单元相互重叠,进而将得到一组向量来描述蛋白质构形。重复运用步骤A,B,C,D和E结果使蛋白质构形得到完全描绘。本发明的方法数学模型,以一组向量描述蛋白质的所有可能的构象。无论蛋白质结构是实际存在的还是理论计算得到的都可以用本方法来描述。在本发明中所指的蛋白质构象是指蛋白质的三维结构。本发明的方法就是采用连续的基本单元来描述蛋白质,因此得到一组向量来表述蛋白质构形。本发明中一个明显的考虑是如何定义两个二面角的范围的重叠性和排他性。例如,第一个二面角的范围的第一区域是从0。到130°,第二区域从+130°到-130°,第三区域从-130°到0°。在另外考虑中,第一区域是从O。到130°,第二区域从+130°到-130°,第三区域从-130°到0°。第二个二面角的范围的第一区域是从0°到130°,第二区域从+130°到-130。,第三区域从-130°到0°。在另外考虑中,第一区域是从O。到130°,第二区域从+130°到-130°,第三区域从-130°到0°。本发明中对于定义伸展距离的范围三个区域也有所考虑。例如,第一区域是从零到7.0入,第二区域是从7.0入到17.0人,第三区域大于17.0入。在另外考虑中,第一区域是从零到5.5人,第二区域是从5.5人到14.0A,第三区域大于14.0A。本发明的方法和数学模型根据已知数据库的计算来划分两个二面角和伸展距离的区域范围。根据本发明的方法和数学模型,蛋白质中的基本重叠构形可以用本发明的的二十七个蛋白质折叠形状码的其中一个来描述。在图6的模型显示,向量D的三个分量是al5h和c1;向量A的三个分量是ai,和c2;向量H的三个分量是ai,和c3;向量W的三个分量是ai,b2和d;向量V的三个分量是ai,b2和C2;向量U的三个分量是a!,b2和C3;向量Z的三个分量是^,b3和d;向量Y的三个分量是&,1>3和c2;向量X的三个分量是a!,b3和c3;向量K的三个分量是a2,^和c1;向量J的三个分量是a2,&和c2;向量I的三个分量是a2,h和c3;向量G的三个分量是a2,b2和c1;向量B的三个分量是a2,h和c2;向量E的三个分量是a2,h和c3向量T的三个分量是a2,b3和c1;向量S的三个分量是a2,b3和c2;向量R的三个分量是a2,b3和c3;向量Q的三个分量是a3,h和c1;向量P的三个分量是a3,h和c2;向量O的三个分量是a3,h和c3;向量N的三个分量是a3,b2和c1;向量M的三个分量是a3,b2,和c2;向量L的三个分量是a3,h和c3;向量$的三个分量是a3,13和c1;向量C的三个分量是a3,b3和c2;向量F的三个分量是a3,b3和c3。本发明的方法和数学模型各步骤可以采用计算机系统来描述蛋白质构形。例如步骤A,B,C,D和E可以用来处理各种数据库。本发明可以连接任何能提供满足本数学模型所需参数的数据库。这些数据库包括各种全球公开的共享蛋白质数据库和专有蛋白质数据库。本发明的方法和数学模型有关的各A,B,C,D和E步骤可以提供固定格式,采用数字化运作过程或者存储存于媒介中。例如,本发明的方法和数学模型各步骤可以整体地或者分别用计算机处理和存储其有关数据。具体来说,本发明的方法和数学模型的应用可以通过计算机模型来表示。进一步,本发明的方法和数学模型各步骤可以通过计算机网络或网页来执行。本发明的方法和数学模型以及计算过程中的另外一个特点是提供了一个按照蛋白质氨基酸序列描述的折叠形状。显著的特点是,在步骤A中,描述的蛋白质被分割为基本单元,每一个基本单元由五个连续的氨基酸构成,每一个氨基酸由一个a-碳原子组成。在步骤B中,计算第一个二面角,第一个二面角是由五个连续的氨基酸的基本单元初始的四个a-碳原子决定的两个平面确定的。该二面角的角度大小一定属于A,a2或者a3所确定的角度范围之一。在步骤C中,计算第二个二面角,第二个二面角是由五个连续的氨基酸的基本单元末了的四个a-碳原子决定的两个平面确定的。该二面角的角度大小一定属于bi,b2或者b3所确定的角度范围之一。在步骤D中,计算第一a-碳原子和第五a-碳原子之间的伸展距离。该伸展距离大小一定属于^,C2或者C3所确定的距离范围之一。在步骤E中,依据步骤B,C和D计算出的数值定义该五个连续的氨基酸的向量。重复运用本发明的方法可以也得到第二个,第三个以及接下来的各个基本单元,进而得到描述整个蛋白质的一组向量。任何蛋白质或者蛋白质片段都可以运用这些向量来描述。本发明的数学模型用一组向量来决定所要描述蛋白质的结构构形。本发明中一个明显的考虑是如何定义两个二面角的范围的重叠性和排他性。例如,第一个二面角的范围的第一区域是从O。至U130。,第二区域从+130°到-130°,第三区域从-130°到0°。在另外考虑中,第一区域是从0。到130°,第二区域从+130°到-130°,第三区域从-130°到0°。第二个二面角的范围的第一区域是从0°至U130。,第二区域从+130°至U-130°,第三区域从-130。至U0°。在另外考虑中,第一区域是从0。到130°,第二区域从+130°到-130°,第三区域从-130°至U0。。本发明中对于定义伸展距离的范围三个区域也有所考虑。例如,第一区域是从零到7.0入,第二区域是从7.0人到17.0入,第三区域大于17.0入。在另外考虑中,第一区域是从零到5.5人,第二区域是从5.5A到14.0人,第三区域大于14.0人。本发明的方法和数学模型根据已知数据库的计算来划分两个二面角和伸展距离的区域范围。本发明的方法和数学模型和体系包括运用计算机方法来描述蛋白质的折叠构形。计算机方法由下列步骤组成。(l)选择要描述的蛋白质或者其片段,(2)将蛋白质或者其片段的三维结构参数从数据库中输入计算机,(3)将蛋白质或者其片段分割为每五个氨基酸组成的基本单元,(4)按照氨基酸顺序确定每一个基本单元中的五个a-碳原子,即第一a-碳原子,第二a-碳原子,第三a-碳原子,第四a-碳原子和第五ct-碳原子,(5)计算机按照运算规则计算两个相关的二面角和伸展距离。这里第一二面角是第一个平面和第二个平面决定的平面角。第一个平面是由第一,第二和第三a-碳原子决定。第二个平面是由第二,第三和第四a-碳原子决定。这里第二二面角是第二个平面和第三个平面决定的平面角。第二个平面是由第二,第三和第四a-碳原子决定。第三个平面是由第三,第四和第五a-碳原子决定。这里的伸展距离是由第一和第五a-碳原子距离决定。(6)在计算机中依据运算规则确定两个相关的的二面角和伸展距离所属地范围。第一二面角一定是属于al5a2,和a3的三个区域之一。第二二面角一定是属于h,b2和b3的三个区域之一。伸展距离一定是属于ChC2和C3的三个区域之一。(7)计算机依据运算分配规则将按照基本单元的实际分量a,b和c,决定其所属的向量。本发明的方法和数学模型和体系提供一个新方法比较两个或者多个蛋白质或者其片段。该蛋白质结构比较方法可以揭示蛋白质的结构特征。本发明方法包括蛋白质结构比对方法,可以比较两个蛋白质可能的构象,以及比较蛋白质的实际结构和理论预测结构。有关图形图解是申报资料的部分说明,可以按照图解编号结合相关部分内容阅读。图1显示一个典型的由五'个a-碳原子组成的从N-端到C-端的基本单元;图2显示本发明在基本单元中定义的两个二面角;图3显示本发明在基本单元中定义的伸展距离;图4显示本发明对基本单元所定义的两个二面角以及伸展距离区域的分割;a隱helix:a隱螺旋、?helix:y.螺旋、丌-helix:n-螺旋、S-helix:S隱螺旋、3i0-helix:310-螺旋、2.2rhelix:2.27-螺旋、(3-strand:p-折叠在一次具体实现中,第一二面角和第二二面角被划分到三个区间中,如0°到130°、>130°到180°和-180°到-130°,以及-130°到0°;伸展距离划分到三个区间中,如0A至U5.5A、〉5.5A到14.0A,以及M4.0A到20A。两个二面角和伸展距离的分区导致了对应不同蛋白质折叠形状码(PFSC)向量的不同折叠基元的确认。例如,折叠基元a-螺旋、P-折叠、,螺旋和n-螺旋、S-螺旋,以及31()螺旋和2.27螺旋对应到五个不同的区域中。图5显示本发明定义的二十七个蛋白质折叠形状码;二十七个蛋白质折叠形状码(PFSC)向量包含三个块,每个块有九个向量。这三个块表示三个伸展距离值的区间,每个块中的九个向量表示九个折叠形状模式。每个向量可同时表现为一个字符、一个折叠形状模式和一个箭头,以象征N-端和C-端的折叠特征。使用箭头标志,"a"表示末端的一个ct-螺旋的折叠特征,"P"表示末端的一个p-折叠的折叠特征,"*"表示末端的一个随机盘绕的折叠特征。图6显示本发明定义的二十七个蛋白质折叠形状码之间的相互关系。三个水平层表示代表三个伸展距离值的区间,每个水平层的九个向量表示每个第一、第二二面角划分到三个区间。因此,每个垂直层的九个向量属于同一个二面角区间。这里a,指示第一二面角,h指示第二二面角,Q指示一个单元中第一和第五a-碳原子之间的伸展距离。图7对本发明的蛋白质折叠形状码和蛋白质数据库对二级结构认定进行比较,这是对用PFSC和PDB数据作者(PDB方法)进行二级结构认定的两种方法的比较。(A)为对用于蛋白质lECA四个片段a-螺旋认定结果的比较;(B)为对用于蛋白质1AAJ四个片段P-折叠认定结果的比较。每个片段标以氨基酸编号。PFSC结果显示为大写字母,而PDB方法的结果显示为小写字母。有下划线的PFSC向量表示二级结构中的断裂,这在PDB方法中并未见到。图8显示20个大肠杆菌(E.coli)谷氧还蛋白(1EGO)氧化形式的蛋白质同构体的三维结构重叠。这些结构通过对齐多肽骨架上的氮原子、a-碳原子和羧碳原子而进行叠加。图9展示二十七个蛋白质折叠形状码在SALIGN基准数据库测试中出现的频率;横轴表示二十七个PFSC向量,每个纵轴条状图上的数值表示对应的SALIGN基准数据库的268个蛋白质链PFSC向量出现的频率。图10展示对于蛋白质IDOI,利用本发明的提供的可及蛋白质折叠表面码;APSC通过使用一个半径为7.0A的球体而得来,纵坐标为APSC:7、8、9表示朝向球面外的突出部,4、5、6表示球体表面,2和3表示球面以内,0和1表示不可及区域。图11展示蛋白质1DOI的突出表面的氨基酸;箭头表示半径为7.0A的球体表面的突出部的位置。图12展示引起老年痴呆症的淀粉样蛋白肽(1-42)多肽的三维结构重叠;(A)和(B)是PDB码为lzOq的蛋白质的条带视图和碳骨架视图。(C)和(D)是liyt的蛋白质的条带视图和碳骨架视图。三维结构由核磁共振光谱确定。lzOq的结构是六氟异丙醇(HFIP)/水30:70(体积比)混合水溶液中30个构象异构体的结果,而liyt的结构则是HFIP/水80:20(体积比)混合水溶液中IO个构象异构体的结果。图13展示30个1Z0Q蛋白质同构体的蛋白质折叠形状通用统计映象;PFSC:蛋白质折叠形状码、Sequences:蛋白质序列、Fragment:片段UPFSM显示了蛋白质lzOq在六氟异丙醇(HFIP)/水30:70(体积比)混合水溶液中30个构象异构体的PFSC向量的分布。图14展示10个1IYT蛋白质同构体的蛋白质折叠形状通用统计映象。PFSC:蛋白质折叠形状码、Sequences:蛋白质序列、Fragment:片段UPFSM显示了蛋白质liyt在六氟异丙醇(HFIP)/水80:20(体积比)混合水溶液中30个构象异构体的PFSC向量的分布。本发明的详细说明关于测定和预测蛋白质结构的各种方法,主要集中在理解蛋白质和其片段的折叠组合构形。尽管这些方法相互关联,它们仍可分为五个方面。(l)热力学表述,涉及能量计算、动力学模拟计算及其他类似方法;(2)结构的几何构形表述,通过晶体结构X-射线衍射,核磁共振及其他类似方法测定的;(3)结构的几何构形预测,通过氨基酸序列的同系物特征来预测类似已知或未知的蛋白质结构;(4)采用几何表述方法分析和比较蛋白质结构;(5)利用数据库和相关算法来分析研究蛋白质结构与生化功能的关系。本发明的蛋白质折叠形状码的方法和数学模型一般来说涉及到上述各种方法。更主要的是该项新方法和数学模型注重根据蛋白质或其片段的氨基酸序列的几何分析和描述方面。蛋白质折叠形状码的方法和数学模型的另外一个优势是其可以应用到蛋白质以外体系。这里提出的方法和数学模型可以用来描述预测其他生物分子,例如核酸,碳水化合物和糖蛋白分子的三维折叠结构。本项发明的的优点就是它的方法可以作为一个描述很多有机分子的工具。本发明主要应用于和各种药物设计和药物开发有关的生物分子和其它有机分子。这些分子作为配位体和蛋白质的相应立体空间相结合。本发明的方法、过程和数学模型直接应用于分析和描述蛋白质的折叠构形,包括蛋白质的二级和三级折叠构形。本项发明的方法过程提供了27个向量来描述蛋白质的形状。这27个向量即是蛋白质折叠形状码。本项发明的方法称为蛋白质折叠形状码方法,本项发明的过程称为蛋白质折叠形状码过程,据其运算规则设计的计算机软件程序和算法称为蛋白质折叠形状码运算程序和蛋白质折叠形状码算法。根据本发明的方法,二十七个蛋白质折叠形状向量可以对每五个连续的a-碳原子的可能折叠形状提供了一个完整的描述。对于任何蛋白质,只要提供已知a-碳原子的坐标,蛋白质折叠形状码运算程序就可以产生对应的蛋白质折叠形状码来描述该蛋白质的折叠构形。和迄今为止的各种方法相比,本发明的方法、过程和数学模型对于蛋白质折叠构形的描述有很大改进。本项发明具有几个独特的特性。首先,二十七个蛋白质折叠形状向量是通过对一个封闭空间的严格数学推导得到的结果,因此二十七个蛋白质折叠形状向量具有所有可能的折叠模式,而且对蛋白质的折叠构形可以提供无间隙的描述。本发明的方法、过程和数学模型提供了一个无间隙地描述蛋白质主链a-碳原子折叠构形的方法。第二点,二十七个蛋白质折叠形状码向量代表五个连续的a-碳原子的可能折叠图形模式。每一个蛋白质折叠形状码不仅仅是折叠形状图形,而且是一个在N-端和C-端分别具有独特的折叠特征的数学向量。本发明的二十七个蛋白质折叠形状码能够对蛋白质结构的认定提供一个有意义描述。第三点,本发明的方法、过程和数学模型的二十七个蛋白质折叠形状码不是一组彼此孤立的折叠图形,而是一组互相关联的折叠图形。这些折叠形状码在空间中重叠并且共享某些向量特征。因此,本发明的方法、过程和数学模型能够运用相邻向量关系来分析和描述蛋白质三维折叠结构的逐渐变化和突变。这就为蛋白质或者其片段的三维结构变化提供了一个有意义的解释。第四点,本发明的方法,过程和数学模型可以应用于蛋白质和其片段结构构形的分析。本发明适用于描述不同蛋白质的相似或者非相似,以及描述同一个蛋白质的相似或者非相似。与传统方法的采用三维结构迭代和根均方差(rmsd)进行蛋白质的测量相比较,本发明的方法和数学模型提供了一个非常有用的补充工具来分析蛋白质的构形,包括对局部折叠结构的详细分析。第五点,本发明的方法,过程和数学模型将蛋白质复杂的三维结构简化为一维的蛋白质折叠形状码表述。蛋白质折叠形状码方法对按照蛋白质主链的折叠形状给出一个数学向量描述,这就可以充分地采用计算机和数据库技术来详细描述蛋白质的折叠结构。第六点,本发明的方法对蛋白质主链的折叠形状提供一个完整和可靠的描述。由于对局部和整体蛋白质的描述具有精确和灵敏的特征,蛋白质折叠形状码实际上提供了一个可以用来鉴定蛋白质三维折叠结构的指纹。第七点,本发明的蛋白质折叠形状码方法数学模型可以应用于分析能够引起各种疾病的蛋白质错误折叠。从蛋白质折叠形状码进一步产生的蛋白质折叠形状通用统计映象(UPFSM)能够解释从蛋白质晶体X-射线衍射和核磁共振光谱数据有关的蛋白质折叠和错误折叠。通用统计映象首先能够简单地将来源于不同实验的蛋白质复杂三维结构数据用一维的字母串来进行对齐,然后用二维的统计映象进行比较。采用通用统计映象可以揭示与实验条件相关的错误折叠片段的位置和类型。第八点,本发明的方法、过程和数学模型能够确定和揭示蛋白质中由于折叠而引发的具有活性的氨基酸。将蛋白质折叠形状码向量和可及表面码序列进行对齐,可以按照蛋白质主链a-碳原子预测具有潜在活性的氨基酸。第九点,依据本发明,所有蛋白质的已知三维结构都可以转换为一维的蛋白质折叠形状码,并且形成一个新的蛋白质折叠形状码数据库。进一步,依据本发明的方法、过程和数学模型可以构建另外一个数据库用来分析和表征任意五个氨基酸的序列和其折叠结构之间的关系。表征五个连续氨基酸的a-碳原子的二十七个蛋白质折叠形状码传统上五个连续氨基酸的a-碳原子的三维结构分别是用笛卡尔坐标(x,y,z)表述的。因此,表述一组五个连续氨基酸的a-碳原子需要15个变量。为了表征折叠构形,本发明的方法、过程和数学模型的采用坐标变换的过程来突出表征那些对描述五个连续氨基酸的a-碳原子的三维结构的折叠形状具有关键作用的向量分量,然后通过将整个空间分割得到二十七个蛋白质折叠形状码。蛋白质折叠形状码提供了一个全新、简易而有效的计算方法来表述蛋白质三维折叠结构。两个关键因素决定了为什么选择五个连续氨基酸的a-碳原子来代表蛋白质折叠形状码的基本单元。首先,蛋白质典型的二级结构是由确定数目的氨基酸形成的重复构形单元。每一个二级结构重复构形的单元含有一定数目的氨基酸。这些二级结构单元的氨基酸数目是已知的。例如,(3-折叠片含有两个a-碳原子,右旋或者左旋a-螺旋含有3.6个a-碳原子,2.27螺旋含有两个a-碳原子,31()螺旋三个01-碳原子,S-螺旋含有4.3个a-碳原子,Ti-螺旋含有4.4个a-碳原子,Y-螺旋含有5.1个a-碳原子。蛋白质折叠形状码的基本单元向量的长度应该至少跨越二级结构的重复构形单元。其次,五个连续a-碳原子氨基酸片段含有两个相互重叠的二面角。这两个二面角可以充分表征重复或者断续的折叠模式。而且,五个连续a-碳原子氨基酸片段具有简单特点和利用较少数目的变量就可以描述连续的形状。因此,本发明的方法,过程和数学模型采用五个连续氨基酸的a-碳原子作为基本单元来评估可能的折叠形状构形。对于蛋白质的折叠形状以及构形特征,五个连续氨基酸的a-碳原子作为基本单元将能够提供具有适当精确的描述和预测。蛋白质折叠形状码的形状特征为了描述像蛋白质和其片段的结构构形,本发明的蛋白质折叠形状码的方法,过程和数学模型考虑到运用几何学,形态学和拓扑学来表述各种可能的形状。蛋白质折叠形状码的方法实际地运用图形描述的关键方面,强调广度、唯一性、稳定性、敏感度、有效性、放大尺度和局部解读等等。因此,蛋白质折叠形状码的方法、过程和数学模型非常有益于分析蛋白质的二级和三级结构,包括有规则片段和无规则的弯曲部分。另外,本发明的蛋白质折叠形状码的方法、过程和数学模型能够提供丰富和有价值的信息来综合地描述可能的蛋白质折叠结构。在本发明的方法和体系中,二十七个蛋白质折叠形状码是通过严格数学推演从一个封闭的空间得到的。二十七个蛋白质折叠形状码中的任何一个向量代表五个连续氨基酸的a-碳原子可能的折叠形状模式。二十七个蛋白质折叠形状码通过二十六个大写字母和1"来表示。每一个向量实际表示一个从N-端开始到C-端结束的向量。蛋白质结构和其形状通过一个完全封闭的三维空间中的折叠结构和形状来描述蛋白质或者其片段具有许多优势。一个物体的客观形状具体地代表了其几何信息,而其在空间的位置、测量尺度和旋转都不会影响这个客观的形状,在形状描述中无需考虑这些因素(Kendall,DQAdvancesinAppliedProbability,1977,9:428430)。一个几何物体的客观形状的信息对于欧几里得空间转换是不变的(IyerN,JayantiS,LouKY,KalyanaramanY,RamaniK.,ProceedingsoftheTMCE2004,April12-16,2004,Lausanne,Switzerland,EditedbyHorv她andXirouchakis,@2004Millpress,Rotterdam)。一个物体的客观形状可以用变量,&,来表示,这个变量是表示形状属性的集合.这里)是形状属性''的分量。两个物体的客观形状、和^的相似性可以表示为这里《和《代表蛋白质的坐标,"~"符号代表进行两个形状比较的运算。这里相似性应该是通过比较每一个分量的属性的结果后得到的集合。进一步,一个形状能够通过不同的表象来表示。这里不同的表象可以包括几何表象、形态表象和拓扑表象。从蛋白质数据库中得到的三维坐标已经含有蛋白质在一个空间的完整和精确的几何信息。这些几何信息是一组点的集合。<formula>formulaseeoriginaldocumentpage23</formula>这里几何信息^eW是一组原子集合点的形状,y是原子集合的脚标。然而,原子的坐标不能够直接地描述蛋白质的折叠结构。为了进一步表征蛋白质折叠结构和形状特征,这里可以运用形态学方法来考虑蛋白质的类似的弯曲片段。在形态学中,蛋白质形状SM可以运用一组点的集合(ZJ表示,其分量^是一组点的集合^,因此它可以表示为<formula>formulaseeoriginaldocumentpage23</formula>这里&是家族集合的脚标,y是原子集合的脚标。很多方法基于二级结构片段来研究蛋白质结构的相似,这些方法实际上是运用形态学方法来描述蛋白质折叠结构(HolmL,SanderC,J.Mol.Biol"1993a;233:123-138;GersteinM,Levitt,M,InProc.FourthInt.Conf.onIntell.Sys.forMol.Biol.MenloPark,CA:AAAIPress.1996.p59-67;GibratJF,MadelT,BryantSH,Curr.Opin.Struct.Biol.1996;6:377-385;SinghAP,BrutlagDL,InProc.FifthInt.Conf.onIntell.Sys.forMol.Biol.MenloPark,CA:AAAIPress.1997.p284-293;SinghA,BrutlagD,http:〃gene.stanford.edu/3dSearch:ShindyalovIN,BournePE.ProteinEng.1998;11(9):739陽47;KrissinelE,HenrickK,ActaCrystallogrDBiolCrystallogr.2004;60(Pt12Pt1):2256國2268;BalajiS,SujathaS,KumarSSC,Srinivasan,N,NucleicAcidsRes.2001;29:61-65;ParkJH,RyuSY,KimCL,ParkIKJ,GenomeInformatics2001;12:350~351;HadleyC,JonesDT,Structure.1999;7(9):1099-112;KabschW,SanderC,Biopolymers.1983,22:2577—2637;RidchardsFM,KundrotCE.Proteins.1988,3:71—84;FrishmanD,ArgosP,Proteins.1995,23:566~579;SklenarH,EtchebestC,Lavery艮Proteins.1989,6:46-60;LabesseGColloc'hN,PothierJ,MornonJP,Comput.Appl.Biosci.1997;13(3):291-5;andMartinJ,LetellierQMarinA,TalyJF,deBrevernAGGibratJF,BMCStruct.Biol.2005;5:17。上述文章已收入参考文献列表)。另外,鉴于蛋白质主链是一个拓扑客体对象,蛋白质形状可以运用拓扑学来表述。因此,蛋白质主链可以表示。由于每一个a-碳原子和其它a-碳原子具有特定的邻里关系,它是一个Hausdorff空间(IyerN等人)。蛋白质的拓扑形状Sr是同拓扑的集合^eST,表述如下,这里U")20,并且它是某一个点f,邻里关系的数量值。实际上很多方法采用拓扑学方法来描述蛋白质结构(Kabsch,W,ActaCrystallogr.A1978;34:827-828;HolmL,SanderC,JMolBiol.1993;5;233(l):123-38;FlowerDR,ProteinEng.1998;11(9):723隱7;Murzin,A.,Conte,L.L.,Andreeva,A.,Howorth,D.,Ailey,B.,Brenner,S.,Hubbard,T.,andChothia,C,http:〃scop.mrc-lmb.cam.ac.uk/scop/intro.html:PedroA.De-Alarco'n,AlbertoPascual-Montano,AmarnathGupta,andJoseM.Carazo,BiophysicalJournal83(2),2002,619~632;Lindorff-LarsenK,VendruscoloM,PaciE,DobsonCM,NatureStructural&MolecularBiology,2004:11,443—449;S皿yaevSR,BogopolskyGA,OleynikovaNV,VlasovPK,FinkelsteinAV,RoytbergMA,Proteins,2004:54,569-582;CarugoO,PongorS,J.Mol.Biol.2002;315,887—898;JungJ,LeeJ,MoonHT,Proteins.2005;58:389-95。以上文章已收入参考文献列表)。总体上,最通常的方式是根据蛋白质的精确的几何信息,即其三维坐标,将蛋白质的三维结构图像展现出来。某些传统的方法运用形态学方法,通过研究二级结构和相似片段在蛋白质的重复来表征蛋白质的三维结构。其它传统的方法采用a-碳原子相连接关系,按照蛋白质的主链每一个a-碳原子所围绕的邻里环境来表征蛋白质的结构。同上述各类方法相比较,本发明的方法,过程和数学模型蛋白质折叠形状码优化地整合上述方法的各种优点,提供一个全新而简单的方法,按照蛋白质a-碳原子主链来描述蛋白质三维构形的所有可能的折叠形状。有关表征形状的数学标准对于研究和比较复杂的形状,一个高品质的形状描述必须满足许多研究推荐的标准。一个好的形状描述必须同时考虑如下因素尺度,唯一性,稳定性,敏感性,有效性,尺度伸缩性和局部认定。本项发明的方法、过程和数学模型蛋白质折叠形状码方法创立了一个新的运算规则并且在数学上满足这些判断标准。范畴一个形状的表象必须能够描述所有可能的各种蛋白质折叠形状。蛋白质折叠形状码运用数学规则的方法提供了一个涵盖蛋白质a-碳原子主链上实际所有可能出现的折叠构形,因此蛋白质折叠形状码对于蛋白质全部折叠形状提供了一个完善描述。唯一性一个形状的表象应该给出唯一蛋白质形状描述,这样任何两个蛋白质具有不同氨基酸序列将不会有相同表象。本发明的方法、过程和数学模型蛋白质折叠形状码方法的目的就是要给出每一个蛋白质结构一个唯一蛋白质折叠形状码作为其结构指纹。稳定性对于每一个蛋白质,形状表象对于形状微小的变化必须是稳定的,这样轻微的变化在形状描述中也是仅仅反映微小的变化。本发明的方法,过程和数学模型蛋白质折叠形状码方法对于蛋白质构形的变化允许一定程度的偏差,因此蛋白质结构的相似性可以被识别。敏感性形状表象必须具有适当的敏感性来捕获蛋白质形状的适当变化。本发明的方法,过程和数学模型蛋白质折叠形状码方法具有仔细地检测即使非常相似的氨基酸序列的蛋白质的有关非相似性的能力。有效性形状的表象应该能够有效地被计算和分析。本发明的方法,过程和数学模型蛋白质折叠形状码方法采用一个简化的数学模型来有效地计算全部可能的蛋白质折叠形状构形。并且,本发明的方法、过程和数学模型蛋白质折叠形状码方法运用一个简单的方法来标记和比较蛋白质折叠形状。各异范畴形状的表象应该能够描述形状各异的范畴。首先,本发明的方法、过程和数学模型蛋白质折叠形状码方法定义的二级结构和通过晶体结构x-射线衍射和核磁共振测试的结果一致。其次,本发明的方法、过程和数学模型蛋白质折叠形状码方法提供了对所有无规则的三级结构旋转和弯曲形状的实际描述。最后,无论对蛋白质和其片段进行计算,对于同一蛋白质片段的描述结果应该一致。局部认定形状的表象必须能够描述蛋白质的局部结构。首先,本发明的方法,过程和数学模型蛋白质折叠形状码方法能够不依赖整个蛋白质来计算其任何片段。其次,本发明的方法,过程和数学模型蛋白质折叠形状码方法提供了具体分析蛋白质相邻片段相互影响和制约的手段。向量的空间转换按照本发明的模型,对于蛋白质主链的折叠形状,每五个连续氨基酸的a-碳原子形成一个基本单元。这个基本单元显示于图1。众所周知,氨基酸是蛋白质的基本结构单元。每一个氨基酸含有一个a-碳原子,该原子和一个氨基、一个羧基、一个氢原子和一个支链连接。在两个氨基酸的双肽中,第一氨基酸的羧基和第二个氨基酸的氨基结合形成肽键。因此,在双肽中,第一氨基酸具有氨基的N-端,第二氨基酸具有羧基的C-端。在多肽中,第一氨基酸具有氨基的N-端,第二氨基酸具有羧基的C-端。本项发明的方法、过程和数学模型中的蛋白质的a-碳原子主链是从N-端到C-端。本发明的基本单元是由蛋白质主链的从N-端到C-端的一组五个连续氨基酸的a-碳原子组成。每一个基本单元标记为"n-2"是第一个a-碳原子,"n-l"是第二个a-碳原子,"n"是第三个a-碳原子,"n+l"是第四个a-碳原子,"n+2"是第五个a-碳原子。基本单元的中心是第三个a-碳原子。当需要从"n-2"a-碳原子到"n+2,,a-碳原子的向量来排列比对时,采用中间第n个a-碳原子为基准来排列对齐。依据本发明的体系,相邻的的向量基本单元有四个氨基酸是重叠的。以十个氨基酸的蛋白质片段为例,十个氨基酸标记为1-10。第一个向量单元由l-5氨基酸组成,第二向量单元由2-6氨基酸组成,第三向量单元由3-7氨基酸组成,第四向量单元由4-8氨基酸组成,第五向量单元由5-9氨基酸组成,第六向量单元由6-10氨基酸组成。每五个连续氨基酸的a-碳原子的向量的形状是由每个a-碳原子的三维坐标产生的十五维分量决定的。v-(Wi,Zi"J"^,Z5)虽然向量在不同坐标体系转换中向量本身不变,但是在不同的坐标体系中,向量分量的大小发生变化。在新的坐标体系中,五个连续氨基酸的a-碳原子的向量本身不变并且保持相同数目的分量。选择新的坐标体系是为了揭示五个连续氨基酸的a-碳原子的折叠形状特征。在新的坐标体系中,五个连续氨基酸的a-碳原子的向量由十五维的独立分量组成。三个分量是该向量的在空间的绝对位置,两个分量是该向量在空间的取向,四个分量是该向量中相邻的两个a-碳原子之间的距离,三个分量是该向量中相邻的三个a-碳原子之间的角度,两个分量是该向量中的二面角,四个分量是该向量中伸展距离。该向量在新坐标中表示为,卩=03,..工13,2"14,7"15)新的向量是从正坐标的转换得到的,《11f12…VVf22……~.少l=,T2.Jl51......"5〉z5T15,这里tij是坐标变换矩阵的一个元素。坐标变换使描述形状的每一个向量组份的分量的权重重新分配。反映一个形状特征,向量的在空间的绝对位子和在空间的取向对于蛋白质的折叠形状没有直接贡献。向量中相邻的两个a-碳原子之间的距离和相邻的三个a-碳原子之间的角度是相对稳定的,它们对蛋白质的折叠形状没有太大的贡献。然而,在十五维的向量中,剩下的三个向量组份的分量对于蛋白质的折叠形状具有实质的贡献。这三个向量组份的分量分别是相邻的四个a-碳原子形成的两个二面角和由两个终端a-碳原子决定的一个伸展距离。图1显示五个连续氨基酸的a-碳原子从(n-2),(n-l),n,(n+l)到(n+2的安排。相邻四个a-碳原子决定的两个二面角是r("-2,"-l,","+l)和T(w-l,","+l,"+2)。两个二面角的结合描述五个连续氨基酸的a-碳原子的折叠。本发明中的二面角是由四个连续氨基酸的a-碳原子决定的。每一个二面角是由起始的三个a-碳原子的第一平面以及后面三个a-碳原子的第二平面决定的。因此,五个连续氨基酸的a-碳原子的基本单元有两个二面角。第一二面角是由第一,第二,第三和第四a-碳原子决定,第二二面角是由第二,第三,第四和第五a-碳原子决定。如图2(A)显示,第一二面角是由第一,第二,第三和第四a-碳原子决定。如图2(B)显示,第二二面角是由第二、第三、第四和第五a碳原子决定。如图3显示,伸展距离是由第一和第五a-碳原子决定的。伸展距离是第一和第五a-碳原子决定的距离,单位是埃(A)。在每一个基本单元中,两个二面角描述了该基本单元的形状或构象。当两个二面角给具有连续的模式,这种贡献应该和a-螺旋或者P"折叠片有关。当两个二面角的模式是非连续的,这种贡献可能和无规则的转角和巻曲形状有关。另外,两个终端a-碳原子决定的一个伸展距离f(w-2,w+2)也表述五个连续氨基酸的a-碳原子单元的形状或构象。本发明的特点是仅仅利用三个参数来表征五个连续氨基酸的a-碳原子单元的构象。这三个参数是一个三维向量,该向量代表了五个连续氨基酸的a-碳原子的空间折叠形状。由于该三维向量,对蛋白质折叠形状的描述就变得非常简单。这个三维向量表述如下,6,c)=r(4眠cC)=W+M+cC这里A,B和C代表每一个组份分量,a,b和c代表每一个组份分量权重的大小。依据向量的性质,每一个组份分量是不相关的。^4x5^0,5xC#0,^xC^0按照蛋白质折叠形状码方法,每五个连续氨基酸的a-碳原子单元中的两个二面角和伸展距离是独立的组份分量。根据的a-碳原子的坐标,能够计算出每一个组份分量权重。每五个连续氨基酸的a-碳原子单元中的两个二面角和伸展距离可以表示如下"=rO—2,G—1,^,^+1)=1^1F(X,.,,,Z,.)<formula>formulaseeoriginaldocumentpage29</formula>这里a和Jb是五个连续氨基酸的a-碳原子的二面角,c是原子之间的伸展距离。F代表依据a-碳原子的坐标计算二面角和伸展距离的多项式。从蛋白质数据库可以得到有关a-碳原子的坐标。rn代表第n个原子的坐标。十分明显的是,原本五个a-碳原子具有十五维坐标,现在仅仅采用三维空间向量就可以表述其折叠形状。向量空间的分割一个完美的蛋白质折叠形状描述应该能够帮助认定蛋白质结构的相似性,同时也能区分蛋白质结构的不同。在分子原子水平上,一个向量可以在空间描述无穷小的连续变化,它也是一种蛋白质结构的可靠表象。蛋白质结构的任何区别都可以通过这个表象反映出来。然而想要描述蛋白质的相似性,必须在数量上允许一定偏差。由于这个因素,向量空间就要被分割为从连续变化空间到不连续的变化空间,变化的大小从无穷小到限定大小。依据本发明的方法、过程和数学模型蛋白质折叠形状码方法,将每五个连续氨基酸的a-碳原子基本单元中的两个二面角和一个伸展距离分别分割为三个区域。这些分割区域的相互组合对应于相应的向量。因此,蛋白质主链上的每五个连续氨基酸的a-碳原子基本单元将对应于27个向量之一。这27个向量由下列公式衍生得到<formula>formulaseeoriginaldocumentpage29</formula>蛋白质二级结构的四个连续a-碳原子的伸展距离已经知道(参阅GhelisC,YonJ.MolecularBiology:ProteinFolding.NewYork,London:AcademicPress;1982;LabesseGColloc'hN,PothierJ,MomonJP,Comput.Appl.Biosci.1997,13(3):291-5;andMartinJ,LetellierQMarinA,TalyJF,deBrevemGibratJR,BMCStructBiol.2005,5:17。以上文章已收入参考文献列表。),因此本发明中五个连续氨基酸的a-碳原子从Ca(n.2)原子到C咖+2)原子的伸展距离的范围就很容易定义。依据本发明方法,两个二面角和一个伸展距离都有自己的不同分割区域。利用这些不同区域的数值的组合可以帮助描述蛋白质或者其片段的形状和构形。具体来说,第一二面角将要选择a,,a2和a3这三个区域之一,这里ai是0。到130°,a2是+130°到-130°,a3是-130°到0。类似地,第一二面角将要选择bl5b2和b3这三个区域之一,这里bi是0。到130。,1)2是+130°到-130°,13是-130。到0。伸展距离要选择q,C2和C3这三个区域之一,这里d是0到5.5人,c2是5.5入到14.0入,C3是大于14.0A。本发明方法的两个二面角和一个伸展距离分割展示在图4。具体的区域分割要避免将已知的蛋白质折叠片段分割到不同区域。这样,二面角区域分割a;和67是0°到130。;*和62是>130°到180°和-180°到-130°;"3和^是>-130°到0°。伸展距离区域分割为c7<5.5A,5.5A<c2<14.0A和c3>M.0A。在这个分割方法中,a-螺旋,卩-折叠片,y-螺旋,兀-螺旋,S-螺旋,31()螺旋和2.27螺旋被划分到五个不同区域。综上所述,以蛋白质三维结构为出发点,通过数学推导所得到的本发明的二十七个蛋白质折叠形状码可以很好地表征蛋白质的构形。蛋白质折叠形状码在蛋白质折叠形状码方法中,这27个向量由26个大写英文字母和"$"符号表示。一个字母为一个向量,代表骨架上五个连续a-碳原子集合的中心原子。这27个向量表示了可能的折叠形状,每一个向量反映了作为向量起点、终点的N-端和C-端的特定折叠特征。图5显示了蛋白质折形状叠码方法中这27个向量的折叠形状模式和相关的特征。三个区块表示三个伸展距离的区域,每个区块中的九个向量表示九个折叠形状模式,它们是两个二面角变换为不同区域的结果。一个向量能够同时表示为三种格式一个字母、一个折叠形状模式和一个箭头。在蛋白质折叠形状码方法中,与每一个向量所关联的折叠特征列于表一中。一个向量可以有多个特征,而一个特征可以关联多个向量。例如,在表一中,向量"J"在N-端有a-螺旋特征,而在C-端则有p-折叠特征,对a-螺旋和P-折叠都属于"类似"向量,覆盖a-螺旋的C-端或p-折叠的N-端,位于伸展距离区域c2内。另一方面,C-端的a-螺旋特征与九个向量相关,它们是"A","D","H","U","V","W","X","Y,,和"Z"。表一,蛋白质折叠形状码(PFSC)方法的27个向量特征矩阵<table>tableseeoriginaldocumentpage31</column></row><table>1.第一行列出了PFSC方法的27个向量。2.最左列是这些向量的角色。3."X"表示与各个向量相关的特征。4.有关伸展距离。的定义参见图6。蛋白质折叠形状码方法中的27个向量的关系如图6所示。以三维的方式显示了它们的整体的关系。a,b,c三个坐标轴表示三个分量,即两个二面角和一个伸展距离。每个分量被划分为三个区间,而这些区间就产生了这27个向量。每个向量在水平和垂直方向上与其他向量相关。并且,一个向量也与它周围的向量共享某些折叠特征。另外,水平层或垂直层根据相同的特征将这些向量分组。因此,这27个向量就不再是彼此孤立的折叠模式,而是在空间上以图6中相关图所示的方式紧密关联在一起。在本发明的方法中,用于描述一个蛋白质基本单元(包含五个氨基酸)的一个向量是由对应于这个单元中五个a-碳原子的三个输入量决定的。这三个输入量与第一和第五个a-碳原子之间的第一、第二二面角和伸展距离值有关。在本发明的方法中,任意给定的五氨基酸基本单元的三维构象都可以进行近似的描述,即,组合这三个输入量以得出这27个向量(它们都可能会出现)中的一个。每一个向量都可以根据这三个输入量的区间加以确定。这样,没有两个向量含有相同的三个分量,而这两个向量却可能有一个或两个具有相同区间的分量。从一方面来看,在同一个区间中有一或二个分量反映了这两个向量的相似程度。这种相似性可通过图6三维矩阵的方式直观的显示出来。在图6中,每一个水平层上的九个向量有一个相同的区间,即在三维空间上具有相同的的伸展距离。例如,在中间水平层上的向量"Y","V","A","S","B","J","C","M"和"P"全部具有相同的伸展距离^区间块。另外,图6矩阵还显示了这些向量的其他共同点,例如在任意垂直层上的九个向量具有同一个分量,它们属于一个或两个二面角的相同区间,如图所示,向量"X","U","H","Y","V","A","Z","W"和"D"在同一个垂直层上,都有第一二面角区间fl/。更高的相似性标示为"类似"。在三个输入量中,如果第一个向量有两个与第二个向量相同的分布区间,则这两个向量就是"类似"的。例如,图6矩阵中,向量"A"由三个输入量分量A,Z^和Q确定,从而它有六个类似向量"J"、"P"、"V"、"Y"、"H"和"D"。向量"V"和"Y"与"A"类似,因为"V"或"Y"都部分的由两个输入量Q和w确定;同样的,向量"J"和"P"也与"A"类似,因为它们都有输入量c2和"H"和"D"与"A"类似,它们都有两个输入量"7和6/。同样的道理,向量"B"有六个类似向量"V"、"M"、"S"、"J"、"E"和"G","V"和"M"都有q和62,"S"和"J"都有c2和化,"E"和"G"都有"和&,因此它们分别都与向量"B"是"类似"的。从相关联的方面来看,中间层上的每一个向量都有六个"类似"向量;而在顶层和底层上的每个向量则有五个"类似"向量。蛋白质折叠形状码方法中通过一个箭头两端的向量起点和终点的折叠特征分别表示N-端和C-端的特征。在每个向量端点的三种类型的折叠特征(它们与a-螺旋、P-折叠和不规则盘绕相似)分别被标志为"a"、"p"和""',各自表示沿着向量方向的折叠角分布。例如,向量"A"在N-端和C-端都有a-螺旋特征,向量"B"在N-端和C-端都有|3-折叠特征,向量"J"在N-端有a-螺旋特征而在C-端有P-折叠特征,向量"V"在C-端有a-螺旋特征而在N-端有P-折叠特征,向量"H"在N-端和C-端都有a-螺旋特征。因此,PFSC折叠模式不仅由27个字母和符号进行区别,也由向量特征加以区别。蛋白质折叠形状码(PFSC)方法的27向量通过共享某些特征而相互关联。例如,表示a-螺旋的"A"是伸展距离区间值的区域-2(即区间c》、第一二面角区间值的区域-1(即区间"》和第二二面角区间值的区域-1(即区间6;)中的一个向量;表示P-折叠的"B"是伸展距离区间值的区域-2(即区间c》、第一二面角区间值的区域-2(即区间和第二二面角区间值的区域-2(即区间中的一个向量。向量"J"与"A"和"B"都相邻,因为"J"在N-端有a-螺旋特征而在C-端有P-折叠特征。向量"V"也同时与"A"和"B"相邻,因为它在N-端有l3-折叠特征而在C-端有a-螺旋特征。向量"H"与"A"相邻,因为,与"A"—样,它在N-、C-端都有a-螺旋特征。但是,"H"有一个更大的伸展距离。这样,每一个PFSC向量都易于描述折叠和构象的特征,因为N-、C-两端的特征都能够被鉴定出来。蛋白质折叠形状码提供了一个可以对蛋白质结构的所有弯曲进行连续描述的方法,它能够覆盖到100冗的沿蛋白质a-碳原子骨架的折叠形状,包括规则的二级结构片段、不规则或者很少观察到的结构片段,甚至那些从蛋白结构稳定性来说并不有利的片段。蛋白质结构中有许多不规则的弯曲(bend)、盘绕(coil)、转角(turn)或巻曲(loop),很难对它们进行清楚的描述和区分。特别是对于很少出现的巻曲现象,发现并得到一个统计调査结果是非常困难的事情。另外,描述a-螺旋与卩-折叠中不规则的片段与规则的二级结构片段如何互联也是非常复杂的。而根据本发明,蛋白质折叠形状码算法同等的对待所有可能的折叠,并对蛋白质a-碳原子骨架上各个折叠之间的关系进行描述,因此,蛋白质折叠形状码方法能够描述并归类蛋白质折叠形状的不规则片段。计算机实现蛋白质折叠形状码算法的代码采用Java程序(J2SEv丄5.007)进行编写,版权为MicrotechNano,LLC所拥有。如果需要计算认定蛋白质的折叠形状码,请发送电子邮件到info@proteinshape.com,或者访问网站http:〃www.proteinshape.com。蛋白质折叠形状码方法能够根据蛋白质的三维结构或坐标来描述它的折叠基它甚至可以处理从晶体X-射线衍射和核磁共振光谱得到的低分辨率的数据。多数的蛋白质三维结构存储到蛋白质数据库(ProteinDataBank,PDB)并公布给大众使用。世界蛋白质数据库(TheWorldwideProteinDataBank,wwPDB,http:〃www.wwpdb.orgA)提供了到美国RCSBPDB(http:〃www.rcsb.org/pdb/home/home.do),欧洲MSD-EBI(http:〃www.ebi.ac.uk/msdO,日本PDBj(http:〃www.pdbi.org/),和美国生物磁共振数据库(BiologicalMagneticResonanceDataBank,BMRB,http:〃www.bmrb.wisc.e涵的入口。另夕卜,美国国家生物技术信息分子建模数据库中心(theNationalCenterforBiotechnologyInformationMolecularModelingDatabase,NCBIMMDB)也提供蛋白质的计算结构(http:〃www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml)0根据本发明,对于一个蛋白质或其一部分的三维数据,运行PFSC算法即可生成此蛋白质或其一部分的向量或PFSC编码。PFSC算法包含以下步骤A.将此蛋白质分割成一系列有重叠的基本单元,从第一个单元起,每一个单元含有五个氨基酸;B.确定第一二面角的区间值;C.确定第二二面角的区间值;D.确定伸展距离的区间值;E.组合步骤B、C、D中得到的区间以获得第一个单元的向量。对于第二个单元,蛋白质折叠形状码算法继续进行以下的步骤F.对第二个单元重复步骤A;G.对第二个单元重复步骤B;H.对第二个单元重复步骤C;I.对第二个单元重复步骤D;J.组合步骤G、H、I中得到的区间以获得第二个单元的向量。然后继续以下步骤K.对此蛋白质的最少一个部分重复步骤F、G、H、I和J;L.对整个蛋白质重复步骤F、G、H、I和J。然后继续以下步骤M.对前述得到的向量集应用一个或多个算法,以确定蛋白质的一个或多个方向的构象。蛋白质折叠形状码方法提供了一个描述蛋白质从二级结构到三级结构的折叠的新工具,提供了一个系统描述蛋白质骨架上的折叠形状的方法。另外,PFSC方法还从形状过渡的细节上给出揭示蛋白质折叠结构的信息,并用于验证蛋白质二级结构的长度、边界以及变形。现己开发出一个计算机程序,输入一个蛋白质的三维结构,生成并输出描述其折叠形状的蛋白质折叠形状码(PFSC)。本节将举出一个使用蛋白质折叠形状码的实例,并与其他已成熟的方法进行比较。首先,对从蛋白质数据库(PDB)中随机选出的一系列蛋白质结构计算出折叠形状码,包括不同种类的蛋白质结构和属于同一个蛋白质但有多个构象的结构。然后将分配到蛋白质结构的折叠形状码根据已建立的SALIGN基准数据库(Marti-RenomMA,MadhusudhanM,SaliA.Alignmentofproteinsequencesbytheirprofiles.ProteinSci2004;1071-1087)进行评估。最后,将蛋白质折叠形状码结果与PDB中己有数据,以及其他方法所得到的二级结构认定进行比较。具体实施方式下面的例子仅仅用于说明本发明的某些实施,并比较根据本发明所产生的组分或方法与现有技术或未根据本发明的实施。如附后的权利要求中的陈述,下面的例子并不意味着对本发明的范围有所限制。蛋白质折叠形状码(PFSC)与PDB的比较以下蛋白质结构,PDB编号为1ECA,1AAJ,2RN2和8DFR,分别随机的从四种结构类型a,p,a+p和a/卩中选出作为例子。对结构认定的PFSC结果和PDB中的数据的比较显示于表二中,并列出了在PDB中根据数据作者、DSSP和STRIDE所做的结构认定和PFSC所得到的描述。为了清楚的描述二级结构的认定,此处的蛋白质折叠形状码认定(PFSCA)只是表二中蛋白质折叠形状码的简单表述。结果显示了PFSC方法的三个特点,第一,PFSC和PDB(作者、DSSP和STRIDE)对于二级结构认定的结果大体上是一致的;第二,PFSC方法能够完全的描述蛋白质骨架上的折叠形状,包括规则的片段、不规则的巻曲和盘绕;第三,PFSC能够发现蛋白质结构折叠特征并加以有实际意义的解释。表二,对蛋白质1ECA,1AAJ,2RN2和8DFR结构分配的PFSC结果与PDB数据<table>tableseeoriginaldocumentpage35</column></row><table><table>tableseeoriginaldocumentpage36</column></row><table>1、左侧一列为蛋白质a-碳骨架结构、名称和分类。2、Seq:氨基酸序列。3、Athr:PDB数据作者所做的结构认定,"a"表示a-螺旋,"b"表示P-折叠,"c"表示转角,"-"表示未定义的巻曲。4、DSSP:在PDB库中使用DSSP所做的结构认定,"H"为a-螺旋,"E"为|3-折叠,"T"为转角,"S"为弯曲,"G"为3u)螺旋,"B"为独立P-桥,"-"表示未定义的巻曲。5、STRIDE:在PDB库中使用STRIDE所做的结构认定,"H"为a-螺旋,"E"为(5-折叠,"T"为转角,"C"为盘绕,"G"为3K)螺旋,'T,为兀-螺旋,"B"为独立P-桥,"-"表示未定义的巻曲。6、PFSC:使用蛋白质折叠形状码方法所做的结构认定,"A"为a-螺旋,"B"为P-折叠,其他字母的定义参见图5和图6。7、PFSCA:由蛋白质折叠形状码得到的二级结构认定,""为a-螺旋,"」'为P-折叠,"〈"和,"为二级结构N-端或C-端的"类似"向量,其他字母代表不规则的三级结构,定义参见图5和图6。(注在本发明的实际结果中,可用颜色进行对照红色表示a-螺旋,蓝色表示P-折叠,紫色表示二级结构的PFSC"类似"向量。)二级结构与蛋白质折叠形状码向量的关系蛋白质折叠形状码(PFSC)向量经数学推导得出,在封闭空间中用27个向量表示27个折叠模式,以此描述蛋白质折叠形状。所观察到的大多数二级结构可以关联到特定的PFSC向量。图4显示了PFSC空间被划分为九个区域,它们关联三个二面角区域和三个伸展距离区域。在不同的PFSC空间区域中可以发现不同的二级结构P-折叠、a-螺旋、y-螺旋、兀-螺旋、S-螺旋、31()-螺旋以及2.27-螺旋。图4也显示了二级结构和PFSC向量之间的关系,对应的向量符号见图5和图6。例如,向量"A"所表示的a-螺旋位于二面角区间为0°到130°、伸展距离区间为5.5A到14.0A的区域;向量"B"所表示的P-折叠位于二面角区间为130°到180°和-130°到-180°、伸展距离区间为5.5A到14.0A的区域;向量"D"所表示的S-螺旋位于二面角区间为0°到130°、伸展距离区间为小于5.5A的区域;向量"H"所表示的31()-螺旋和2.27-螺旋位于二面角区间为0°到130°、伸展距离区间为大于14.0A的区域;向量"$"所表示的Y-螺旋和兀-螺旋位于二面角区间为0°到-130°、伸展距离区间为小于5.5A的区域。二级结构片段的边界表二中蛋白质折叠形状码方法的结果显示了二级结构片段是如何连接或扩展的。与PDB数据作者、DSSP方法、STRIDE方法和PFSC方法所得到的结构分配结果稍有不同,这些不同主要体现在二级结构的长度、相关位置方面。但是,在使用PFSC方法的结果中,a-螺旋、(3-折叠二级结构的大多数边界被"类似"向量所终结,表现出了折叠形状的过渡。例如,对于蛋白质1ECA,"类似"向量"V","J","Y"和"H"出现在a-螺旋的末端,包括氨基酸及片段[3]、[19-20]、[31-32]、[38]、[45-46]、[72]和[76]。对于蛋白质1AAJ,"类似"向量"V","J"和"S"出现在卩-折叠的末端,包括氨基酸及片段[3]、[6-8]、[12-13]、[26]、[33-34]、[48]、[66]、[71]、[75]、[83]、[97]和[91]。这些"类似"向量显示出a-螺旋和(3-折叠片段末端平滑的形状过渡。另一方面,如果在二级结构片段末端没有出现"类似"向量,可能预示着边界上发生了急剧的变化,例如,蛋白质2RN2,急剧变化发生在片段[28]和[114-115];而蛋白质8DFR的急剧变化则发生在片段[48]和[117-118]。转角和巻曲各个蛋白质二级结构片段之间由转角、盘绕或巻曲连接着。PDB数据库中未提供二级结构片段之间的各片段基元时,PFSC却可以描述它们。例如,在表二中,蛋白质1ECA的[36-46]片段由PDB数据作者完成的结果是"aaa-—-—aa",DSSP的结果是"TT-TTTTTT—",STRIDES的结果是"HHTTTTTTT-H"。但PFSC的结果则是"AAJVAAAAHJV"。蛋白质1AAJ的[47-60]片段由数据作者完成的结果是"bb——bbbbbccc",DSSP的结果是"E-——E—EE-TT",STRIDES的结果是"E-——B—EETTT"。但PFSC的结果则是"BVAHHBBUIBBWYA"。表二显示出,PDB库中蛋白质1ECA、1AAJ、2RN2和8DFR的二级结构片段之间的所有缺口都被PFSC向量填补上。这样,PFSC对从二级到三级结构的折叠形状提供了连续完整的描述,这种结构认定的完整性应该可以更准确、更有效的比较和分析蛋白质结构。二级结构片段的变形蛋白质折叠形状码(PFSC)方法能够揭示方式在规则二级结构片段内部的变形。图7显示了用PFSC码指示蛋白质1EAC和1AAJ中变形的片段。例如,在1EAC中,序列19-38的折叠结构在PDB数据作者的认定仅仅是一个典型的a-螺旋片段;然而,在片段[31-32],PFSC方法却认定为"类似"向量"JV",而不是"AA",从而引起典型的a-螺旋片段的断裂。使用DSSP和STRIDE方法也可看到在氨基酸[31]处同样的断裂。图7(A)的左上图显示了a-碳原子骨架的a-螺旋片段的断裂。作为比较,1ECA的三个典型的a-螺旋也显示在图7(A)中。另外一个例子是如图7(B)左上图所示的蛋白质结构1AAJ的P-折叠序列[2-13]处的变形。这里的一段PFSC描述"VJVAJWSV"表明了|3-折叠序列[6-13]的断裂部分。PDB数据作者所做的结构认定结果只是一个P-折叠,但PFSC表明它并非一个典型的平展的P-折叠。由DSSP和STRIDE的结果也看到发生在1AAJ片段[2-13]同样的断裂[2-13]的a-碳原子骨架图中显示了在后半段中的断裂部分。在图7(B)中可看到这个断裂部分与1AAJ的三个典型的P-折叠片段的比较。这些例子表明,对于结构描述来说,PFSC方法具有与DSSP和STRIDE方法非常相像的灵敏度。PFSC能够完全的暴露存在于蛋白质二级结构片段内部的断裂。蛋白质折叠形状码方法与其他方法的比较至今已经发展出不同的方法用字母认定二级甚至三级结构以描述三维蛋白质折叠结构。第一,DSSP、STRIDE、DEFINE、PCURVE、PSEA,包括PDB数据作者做的结构认定,这些方法主要是提供蛋白质二级结构的描述。凭借以理想的二级结构的知识作为标准,这些方法中的大多数都是从三维坐标数据中提取信息以找到氢键作用模式、围绕a-碳原子的二面角或a-碳原子的距离,诸如此类。例如,使用氢键作用模式,DSSP方法试图识别八种类型的二级结构,如a-螺旋、3u)螺旋、兀螺旋、P-折叠、P-桥、随机盘绕,等等。PFSC方法采用不同的构思,力图得出对空间中的任意可能的折叠形状的连续完整的描述和向量分配。但是,PFSC向量仍然能够相关于各种不同的二级结构类别。图4显示了不同类型的二级结构如何通过特定的角度和伸展距离与PFSC空间区域进行关联。特别是,那些试图重建氢键作用模式的方法总是需要通过高分辨率结构测试取得氢原子的位置。而PFSC方法只需要确定好a-碳原子即可,因此PFSC也可以描述由低分辨率数据得来的蛋白质结构。第二,SBB和PB方法能够用字母认定蛋白质二级和三级结构。SBB方法根据97个蛋白质链和19438个七氨基酸片段定义了六个最优化的结构砌块作为折叠模式;PB方法从342个蛋白质和86628个五氨基酸片段中选取了16个蛋白质块。使用SBB或PB的折叠模式是统计分析的结果。而且,所有的折叠模式也不需要有所联系。而二十七个PFSC折叠模式则是天然的相互联系,因为每一个折叠模式很明确的表示一个封闭空间中的一个区域。因此,有含义的PFSC向量就能够连续完整的描述蛋白质骨架上的折叠形状。还有两个蛋白质的结果可作为例子比较使用PFSC和其他方法进行结构认定。来源于嗜热脂肪芽孢杆菌(5flc说iis^eflra狄wm叩Ai7"s)的核糖体蛋白S15(PDB码为IM2)的数据已由PB研究者发表,用于比较六种不同的方法(40)。来源于3地衣芽孢杆菌(^K77/鄉丄/cA柳i;/brin&)的p-内酰胺酶蛋白链A(PDB码为4BLM)的数据由SBB研究者发表,以与DSSP的结果进行比较。在已公布的蛋白质1A32和4BLM的这些数据的基础上,使用PFSC和其他各个方法所得到的结果列于表三和表四中。表三,使用蛋白质折叠形状码方法和其他各个方法对嗜热脂肪芽孢杆菌(5flC说U55teflra狄eriwfl!pW/iis)核糖体蛋白S15(PDB码为1A32)进行结构认定~TT^i1555^SS§5IA32iiiiiiiiiSEQLTQERKREIIEQFKVHENDTGSPEVQIAILTEQI柳LNEHLRVHKKD朋S鹏LLKMVGKRRRLLAYLRNKDVARY战IVEKLGIiPDB---貼SSad33站—一——"■---->—333333333333833333333—-—一333S3站33333站333S33站S—a33S33dAS3d—DSSPCCH朋HHHHH朋CCCCCO:CCC冊朋HH朋H朋HHHH冊HHHHCCCCCHHHHHHH[l朋HH朋HHHHHHHHHCH朋HHH朋HFlHCCSTRIDECCHHHHHHHHHHHCCCCCCCCCHHHHHH朋HHHHH朋HHHH冊CCCCCH朋H朋冊H朋冊HEHHKHHHHHCHHHHHHHHKHHCCPCSACCHHHHHHHHHHHEEEECCCCC朋HHHHHHH朋冊HHHHHHHHHCCCCCC冊HHHHH朋HKHHHHHHHHHHCHHIIHHHHHHHHCCPCURVECCH朋HHHHH朋HCCCCCCCCCCHHHHHHHH朋HH朋HHHHHHHCCC朋HHimHHH朋HH朋HHHHH朋HHCHH朋HHHHHHCC:CPBZZfclTnmmnaamm:nmgcehiopftf)clmnMnmnimnuiimLu训uuHuiuuuiuuiuwubmklHiHmu加uuiuumumimmnPOTmananniniminmlinmKuinunamoZZPFSC_RARAAflAAAAAJVPYHBBVJVAAARAAAAAARAAAAAARAAJVABVAAARAAAAAAAAAAAAAARAflAQSVRAARAAAAAA1、1A32:嗜热脂肪芽孢杆菌核糖体蛋白S15。2、SEQ:S15蛋白质结构1A32的氨基酸序列。3、PDB:PDB数据作者得出的二级结构认定。"a"为a-螺旋,"-"为未定义的巻曲。4、DSSP、STRIDE、PSEA、DEFINE和PCURVE:这些方法分别得出的结构认定结果。"H"为a-螺旋,"E"为P-折叠,"C"为盘绕。5、PB:蛋白质区块法(ProteinBlock)的结果。"m"为a-螺旋,"d"为卩-折叠,"k"、T、"n"、"o"和"p"为类巻曲的a-螺旋,"a"、"b"、"c"、"e"和"f,为类巻曲的p-折叠,"h"、'T'和"j"为盘绕,ZZ为未认定的末端。6、PSFC:蛋白质折叠形状码方法得到的结果。"A"为a-螺旋,"B"为P-折叠,其他向量的定义见图5和图6。(注在本发明的实际结果中,可用颜色进行对照红色字符表示a-螺旋,蓝色字符表示p-折叠,紫色字符表示二级结构的PFSC"类似"向量。)表四,使用蛋白质折叠形状码方法和其他各个方法对地衣芽孢杆菌(fifl"7/附"c/^myiwm&)p-内酰胺酶蛋白(PDB码4BLM,链A)进行结构认定<table>tableseeoriginaldocumentpage41</column></row><table>叠的PFSC"类似"向量。这两个表的结果表明PFSC和其他各方法得到的二级结构认定总体上是一致的。而且,很明显不同的方法并未得到完全相同的二级结构片段的长度与边界。实际上,二级结构片段的末端形状多数情况下并不会突然的终止,而是会以某种方式发生变形或扩展以准备向临近基元进行形状过渡。不同的方法采用不同的算法、参数和公差标准,容易造成二级结构片段长度和位置的模糊性。而二十七个PFSC向量覆盖了折叠模式的一个封闭空间,因此能够描述不同的折叠形状和形状改变。使用PFSC描述结构认定的优点体现在如下三个方面(1)用于描述折叠变换时平滑过渡的"类似"向量每个蛋白质折叠形状码向量周围有一个"类似"向量集合。例如,图6中,向量"A"有六个"类似"向量"V"、"J"、"Y"、"P"、"H"和"D";向量"B"有六个"类似"向量"V"、"J"、"S"、"M"、"E"和"G"。这些"类似"向量可以在结构分配中认定给形状过渡。把局部结构分配连接起来就可得到PFSC结构描述结果,换句话说,沿着蛋白质主链的一个接一个a-碳原子的移动向量就可得到PFSC结构描述结果。当二级结构片段的末端开始扭转时,a-螺旋或p-折叠的折叠形状过渡就可以用PFSC"类似"向量来表达。得益于"类似"向量,蛋白质折叠形状码方法有能力反映在二级结构片段末端的渐变。表三中,"类似"向量出现在蛋白质IA12A的多数a-螺旋片段的末端,比如"JVPYH"出现在a-螺旋[3-13]的C-端,"VJV"出现在N-端,"JV"出现在a-螺旋[23-43]的C-端,"V"出现在a-螺旋[48-70]和a-螺旋[74-83]的N-端。同样的情况也发生在表四中。"类似"向量出现在蛋白质4BML的a-螺旋和P-折叠的末端,比如,"JHH"出现在a-螺旋[33-39]的C-端,"Y"出现在a-螺旋[71-86]的N-端,"JVHH"出现在N-端,"DD"出现在a-螺旋[119-126]的C-端,"S"出现在N-端,"V"出现在P-折叠[243-251]的C-端,"J"出现在P-折叠[259-267]的N-端。使用PFSC,并不需要定义明显的长度和边界,因为二级结构片段末端的渐变能够被描述。更重要的是,使用更好的结构认定来描述蛋白质结构可以反映二级结构的本质。PFSC"类似"向量的概念提供了很好的描述二级结构边界的灵活性。(2)终端二级结构的趋向蛋白质折叠形状码(PFSC)的结果也显示了终端二级结构的趋向。使用"类似"向量,终端二级结构片段体现了PFSC方法进行结构认定的特点,参见表三、表四以及表二。这里的"终端"是指二级结构片段的N-端和C-端的一个额外的PFSC向量。为了展示如何将PFSC向量分配到a-螺旋和P-折叠的N-端和C-端,我们把蛋白质1A32和4BLM的所有二级结构片段都列在表五中。表中的结果显示了终端二级结构片段分配的趋向。这个趋向很好的符合了图6中27个向量的图示方向。a-螺旋的N-端被区域1中fl,二面角的向量"V"、"Y"或"Z"终结,C-端被区域1中6,二面角的向量"J"、"P"、"D"或"Q"终结。p-折叠的N-端被区域2中aj二面角的向量"J"、"S"或'T,终结,C-端被区域2中6,二面角的向量"V"、"W"或"U"终结。并且,向量"H"在a-螺旋和M斤叠的N-端和C-端都可以出现,向量"B"可以直接与a-螺旋的N-端和C-端相连,而向量"A"则可以直接与p-折叠的N-端和C-端相连。很显然,这些结果告诉我们,a-螺旋和P-折叠的N-端和C-端分别存在着明确的特征,也就是说,终端二级结构片段很好的体现了结构认定的趋向。这种趋向可以由图5中向量的特征进行解释。连接在每个向量的N-端和C-端的折叠形状箭头具有二面角折叠的特征。如果两个向量连接在一起,则一个向量的C-端必定连着下一个向量的N-端。为了进行平滑的折叠过渡,从N-端和C-端开始的折叠应该是相配的,即"a"连"a","p"连"p","*"连"*"。因此,向量"V"、"Y"或"Z"倾向于从a-螺旋的C-端连向a-螺旋的N-端,向量"J"、"P"、"D"或"Q"倾向于从a-螺旋的N-端连向a-螺旋的C-端,向量"J"、"S"或'T,倾向于从P-折叠的C-端连向卩-折叠的N-端,向量"V"、"W"或"U"倾向于从P-折叠的N-端连向(3-折叠的C-端。这些结果显示了向量耦合时的选择性,从而决定了终端二级结构的趋向。类似的终端二级结构趋向现象也可以在SSB和BP方法得到的结果中看到。在表六中我们可以很容易的看到蛋白质折叠形状码(PFSC)方法与SSB和BP方法在终端二级结构认定上的对比。PFSC方法能够用向量特征来解释终端二级结构的认定。表五,蛋白质1A32和4BLM-链A的蛋白质折叠形状码终端二级结构片段<table>tableseeoriginaldocumentpage43</column></row><table><table>tableseeoriginaldocumentpage44</column></row><table><table>tableseeoriginaldocumentpage45</column></row><table>1、第一列为二级结构的类型。2、第二列为蛋白质PDB码1A32和4BLM-链A。3、第三列为片段的氨基酸编号。4、第四列为二级结构片段的氨基酸序列。5、第五列为使用蛋白质折叠形状码方法在N-和C-端的一个终端向量所做的二级结构认定的结果。(注在本发明的实际结果中,可用颜色进行对照红色字符表示a-螺旋,蓝色表示卩-折叠,紫色表示二级结构的PFSC"类似"向量。)<table>tableseeoriginaldocumentpage45</column></row><table>1、N-Cap是a-螺旋或P-折叠N-端的终端结构;2、C-Cap是a-螺旋或p-折叠N-端的终端结构;3、第2、3、4列是二级结构认定的字符,第6、7、8列是使用SBB、PB和蛋白质折叠形状码等方法得到的终端结构认定的字符。(3)转角和巻曲的结构认定利用27个向量,蛋白质折叠形状码(PFSC)方法能够从细节上描述规则的二级结构片段之间的转角或巻曲,相比其他方法,具有较大的优势。大多数方法,比如PDB数据作者做的结果、DSSP、STRIDE、PESA、DEFINE、PCURVE和KAKSI等,主要关注二级结构的认定;PB和SBB方法可以认定蛋白质二级和三级结构。而PFSC的27个向量则可以连续完整的描述蛋白质的a-碳骨架,因为它们对结构认定提供了有实际意义的解释。表七列出了蛋白质折叠形状码(PFSC)方法与其他方法(PDB数据作者所做结果、DSSP、STRIDE、DB和SSB)对转角或巻曲的结构认定的比较结果。结果显示,除了片段之间的缺口以外,它们有某种程度的一致,然而也有明显的不同。第一,PDB数据作者、DSSP和STRIDE、PFSC方法对巻曲的不规则片段的表示是不一样的。对于转角和巻曲,PDB数据作者做的结果中几乎没有结构认定,DSSP和STRIDE则给出了多一些的基元,但留下了未确定的缺口。而且它们对同一个氨基酸的描述做出了不同的描述,例如,DSSP和STRIDE方法得到的4BLM的氨基酸片段[91-110]、[153-169]、[169-181]、[193-203]、[212-222]和[266-278]的认定是不一致的。而蛋白质折叠形状码方法则不但提供完全的结构认定,而且提供有关转角和巻曲的结构折叠信息的详情。第二,与PB和SSB方法一样,蛋白质折叠形状码(PFSC)方法可以完整的描述转角和巻曲结构。大体而言,从结构特征的对齐性来看,PFSC方法得到的结构认定与SSB的结果更一致些,比如,4BLM的氨基酸片段[49-57]、[91-110]、[153-169]、[212-222]和[266-278]的P-折叠特征在PFSC方法和SSB方法是一致的。而PB方法和PFSC方法得到的结构特征有些相像,如1A32的片段[12-24]和[43-51],但结构特征的相对位置却有些漂移。第三,蛋白质折叠形状码(PFSC)方法还能提供对蛋白质折叠结构的向量描述。使用向量分配的PFSC(PFSCV)方法天然的能够表现折叠形状的特征和变化。PFSCV是对PFSC字符描述的补充,以显示结构分配的详情。例如,对于表七中的蛋白质1A32的[12-24]片段,PDB数据作者所做结果、DSSP和STRIDE方法都没有给出详细的描述,PB方法给出了较为详细的结果"mmgcehiopafld",而PFSC方法不但给出这个片段的PFSC字符描述"AJVPYHBBVJVA",而且给出了PFSCV向量描述"a-aa-aa-pp-aa-"-aa-a卩-卵-即-aa-卵-aa-a"。PFSC结果表明在这个片段内部存在着短的、非典型的P-折叠,这与表三中PSEA、DEFINE和PB等方法的结果是一致的。对于蛋白质4BLM-链A的[91-110]片段,PFSC结果不仅填补了所有缺口,而且给出了PFSC字符描述"AAHBBBBWYAAJWYJBVDAA"和向量描述"a-aa國aa-ap-pp-卩卩陽pp-a、aa-a-aa匿卩卩-a、aa-l3p-卩卩-aa陽aa隱aa-a,,。同DSSP、STRIDE和SSB等方法一样,PFSC方法的结果表明这个片段包含一段短的P-折叠和一段短的a-螺旋,然而,PFSCV结果更进一步从细节上揭示了这段短的P-折叠、a-螺旋和巻曲是如何在这个不规则的片段内相连的。这些例子显示出PFSC方法完全有能力描述一个复杂的蛋白质片段,并向我们揭示其中转角或巻曲的结构特征。表七,PFSC与其他方法对转角和巻曲的结构认定的比较<table>tableseeoriginaldocumentpage47</column></row><table><table>tableseeoriginaldocumentpage48</column></row><table>1、Sequence:蛋白质1A32和4BLM-链A的氨基酸序列。2、PDB:PDB数据作者所做二级结构认定,"a"为a-螺旋,"b"为P-折叠,"-"为定义的巻曲。3、DSSP:蛋白质二级结构库方法,"H"为a-螺旋,"E"为(3-折叠,"T"为转角,"S"为弯曲,"G"为3u)螺旋,"B"为独立p-桥,"-"为未定义的巻曲。4、STRIDE:STRIDE方法处理的PDB数据,"H"为a-螺旋,"E"为p-折叠,"T"为转角,"C"为盘绕,"G"为3u)螺旋,T为7T-螺旋,"B"为独立p-桥,"-"为未定义的巻曲。5、PB:蛋白质区块法(ProteinBlock)得到的结构认定,"m"为a-螺旋,"d"为p-折叠,"k"、'T、"n"、"o"和"p"为类巻曲a-螺旋,"a"、"b"、"c"、"e"和"f,为类巻曲P-折叠,"h"、T和"j,,为盘绕,"ZZ"为未认定的端点。6、SBB:结构砌块(StructuralBuildingBlocks)法得到的结构认定,"a"为a-螺旋,"b"为P-折叠,"z"和"h"为a-螺旋的N-和C-端,、"和"i"为p-折叠的N-和C-端。7、PSFC:蛋白质折叠形状码方法得到的结构认定,"A"为a-螺旋,"B"为p-折叠,其他向量定义见图5和图6。8、PFSCV:使用向量认定的PFSC得到的结果,27个向量描述参见图5中定义的他;i(注在本发明的实际结果中,可用颜色进行对照红色字符表示a-螺旋,蓝色表示p-折叠,紫色字符表示二级结构的PFSC"类似"向量。)使用蛋白质折叠形状码进行蛋白质确认分析蛋白质构象异构体是蛋白质折叠和折叠发生变化的结果。蛋白质构象分析非常重要,这是因为它用于研究各种条件下可能的蛋白质折叠结构,并用于鉴定那些可能与疾病治疗和预防有关的蛋白质错误折叠现象。蛋白质折叠形状码(PFSC)方法是一个强有力的蛋白质构象分析的工具,因为它能够详细的展示局部结构折叠的特征。通常,将蛋白质构象异构体进行比较的做法是叠加全部的三维结构,然后得到根均方差(rmsd),以此作为一个数值测量的结果。然而,使用PFSC方法,则可以将向量分配到蛋白质骨架的折叠形状上,然后就可以把获得的折叠码对齐,从而实现构象分析。对一个包含大肠杆菌(£icAeWcA/flctf/z')谷氧还蛋白(PDB码为IEGO,参见文献XiaTH,BushwellerJH,SodanoP,BilleterM,BjornbgerO,HolmgrenA,WuthrichK.NMRstructureofoxidizedEscherichiacoliglutaredoxin:ComparisonwithreducedE.coliglutaredoxinandfunctionallyrelatedproteins.Prot.Sci.1992;1:310-321)的20个构象异构体的数据集使用PFSC方法进行了分析。1EGO的这20个构象异构体为在水溶液中进行核磁共振光谱得到的PDB数据。蛋白质结构1EGO由一个四折叠的P-片层和三个a-螺旋构成。在多肽骨架上,根据不同的重原子(氮原子、a-碳原子和羧碳原子)从这20个异构体各自的构象转变到它们的平均坐标的根均方差(rmsd)值约l.lA。lEGO的这20个构象异构体的a-碳原子骨架的叠加视图显示在图8中。1EGO的这20个构象异构体很相像,它们之间的区别仅仅是局部折叠形状的细微差别。为了成功的比较蛋白质的各个构象异构体,结构分配必须准确的表达局部结构片段,同时很灵敏的区分细小的差别。1EGO的20个构象异构体的折叠结构的对齐结果列在表八中。使用蛋白质折叠形状码方法,蛋白质折叠形状的对齐结果就能够显示这些异构体的相似和非相似。为了得到一个简单明了的分析结果,本发明在实际中将对齐的结构片段着为相同的颜色。构象的相似性在表八中,结果显示1EG0的这20个构象异构体的八个结构基元具有完全相同的蛋白质折叠形状码(PFSC)向量编码。这八个片段中有相似结构折叠的序列[3陽5]、[13-25]、[32-40]、[43]、[46-50]、[61-64]、[73-79]和[81]在实际中被标记为红色。尽管它们具有相似的折叠结构,20个异构体其他剩余部分的PFSC向量编码却不相同。不过,有几个异构体的剩余部分中仍然存在着一定程度的相似性。我们可以通过对PFSC描述的分析来了解更详细的情况。构象的非相似那些不具有对20个构象异构体都相同的PFSC向量编码认定的部分包含了1EGO的20个异构体非相似性的信息。首先,可以通过把这20个异构体分组来解析部分的非相似性。例如,[26-31]段没有对20个异构体都相同的PFSC向量认定,但存在着在一些异构体中相同的结构认定,有五个组对应于[26-31]片段。构象异构体l、2、8、14、18和20构成的组都有PFSC向量"AAJVAJ";类似的,异构体3和6的组有"ADJVHJ",4、7和9的组有"AAAAB",10和15的组有"AAJVAB",11和17的组有"AAAAJB"。我们也注意到,异构体5、12、13、16和19并不属于任何的组,因此它们在这个序列段的折叠形状与其他异构体不同。对于序列[26-31]段,同组的构象异构体保持着相似性,但非相似性也根据分组而加以区分。实际操作时,表八中同组的构象异构体标示为相同的颜色。其次,可以通过把一个氨基酸段分割成更短的片来进一步解析某些非相似性。例如,[6-12]段更加变化多端,对20个构象异构体都无法直接分组。而将其分割成短片后,在部分异构体中就可以看到一些相似的短片(实际操作中在表八里标示为相同的颜色)。对于在[6-8]段的短片,异构体2和5有相同的短片"BBW",10和16有"BHH",11、13和17有"BBH";对于[9-12]段的短片,异构体10和20有"SBA",5、12、13、17和18有"AJV"。尽管对[6-12]段在20个构象异构体中并没有一对是完全相同的,蛋白质折叠形状码(PFSC)方法仍然能够在细节上揭示氨基酸段内的相似性和非相似性。这些结果显示了PFSC方法能够对齐蛋白质折叠认定并从细节上对蛋白质构象进行比较。构象分析的工具使用结构叠加的方法,将1EG0的20个构象异构体的三维结构进行叠加后得到了便于比较的视觉图像,均方根差(rrnsd)作为一个整体的衡量值。蛋白质折叠形状码(PFSC)方法可以作为蛋白质构象分析的补充工具。通过PFSC描述,所有的构象异构体都可以通过一维字符串的对齐加以比较。从而能够发现一个蛋白质内局部折叠结构之间的不同。PFSC在辅助进行蛋白质构象分析,其使用不论是实验数据还是动态模拟的计算结果的过程中扮演非常重要的角色。表八,使用蛋白质折叠形状码(PFSC)方法对大肠杆菌(£".谷氧还蛋白(PDB码为1EG0)的氧化形式的20个构象异构体进行构象分析<table>tableseeoriginaldocumentpage51</column></row><table>1、左列为20个构象异构体的标号,最上一行为其氨基酸序列(SEQ)。2、在实际分析时,以红色字符表示使用PFSC确认的在20个构象异构体中都完全相同的折叠结构认定。3、在实际分析时,不同片段标记为不同的颜色,在各列中具有结构相似性的构象异构体标记为相同的颜色。讨论二十七个蛋白质折叠形状码(PFSC)向量通过数学方法获得,它们能够系统的覆盖一个封闭空间。首先,PFSC拥有对形状对象的通常的理解,这些向量很容易应用于蛋白质折叠的描述。特定的PFSC空间区域和PFSC字符与各种类型的蛋白质二级结构相关,已经显示了与其他方法的结构认定的结果在大体上是一致的。其次,对给定的蛋白质三维坐标,二十七个PFSC向量能够完整的描述发生在蛋白质骨架上的折叠形状和折叠变化。这个特点使得二十七个PFSC字符提供很有用的数字描述,从而促进蛋白质结构的比较。第三,通过使用向量特征,二十七个PFSC向量在空间上的组合显示出在蛋白质折叠形状描述上的优势,即提供有实际意义的蛋白质结构认定。蛋白质折叠形状码(PFSC)向量的特征PFSC向量的联合图示二十七个PFSC向量集合不是随机顺序的蛋白质折叠模式的组合,而是根据三个分量(两个二面角和一个伸展距离)的分布所做系统排列的结果。图6中二十七个PFSC向量的排布实际上是一个联合图示,从中可以观察到不同方向的关系。从图上可以看到这些向量根据水平层、竖直层或围绕邻接关系而彼此联合。这些向量的联合能够很好的解释蛋白质结构的认定。PFSC的向量特征:对二十七个PFSC向量的特征的定义参见图5,并概括在表一中,图6则显示了它们的整体的关系。除了27个PFSC字符以外,从PFSC得到的向量特征也可以由PFSC向量(PFSCV)的一个额外的格式表示。这二十七个PFSC向量能够显示它们如何耦合以进行结构认定,从而提供详细的结构信息来分析和比较蛋白质结构。PFSC向量的连结蛋白质结构认定可由PFSC向量的连结加以阐明。在结构认定时,相连的两个向量共享四个a-碳原子,每个向量只在每一端留下一个不同的a-碳原子。中间共享的四个a-碳原子起着向量连结的作用。结构认定的过程使得向量依次相连,但是,一个向量的C-端必须与下一个向量的N-端连结。而且,两个向量的相连可采取适当的折叠形状以便于连结。这27个PFSC折叠形状模式可由作为向量的箭头来表示,箭头的两端代表N-或C-端。比如,向量"A"代表"a-a","B"代表"卩-卩","J"代表"a-p","V"代表"l3-a","P"代表"a-","(:"代表"*-*",这样可以得到如图5所示的全部27个PFSC向量。折叠形状特征连在箭头的两端。规则的a-螺旋或P-折叠二级结构要求相同的折叠模式扩展到蛋白质骨架的下一个a-碳原子上,因此在向量的两端需有相同的折叠特征。向量"H"、"A"和"D"在N-和C-端都有一个a-螺旋,因而它们可以作为表示a-螺旋的候选者;向量"E"、"B"和"G"在N-和C-端都有一个P-折叠,因而它们可以作为表示P-折叠的候选者。采用适当的伸展距离,向量"A"代表典型的a-螺旋,向量"B"代表典型的P-折叠。为了实现平滑的结构过渡,两个向量的连结倾向于具有相同的折叠形状特征,即,在两个相连的向量之间形成"-aa-"、"-郎-"或"-**-"的形式。因此,向量"V"倾向于在C-端用a-螺旋与向量"A"相连,但向量"J"倾向于在N-端用a-螺旋与向量"A"相连。如果出现一个不规整的连结,比如"-a、"、"-『-"或"-ap-",结构过渡就会变得急剧。另外,向量连结也可解释终端二级结构的认定。很显然,向量连结可以对理解结构认定提供一个补充解释。根据向量连结所提供的信息,就有可能确定蛋白质的活性位点,辅助蛋白质和肽的结构设计。PFSC向量用于不规则的巻曲和转角尽管对蛋白质结构能够做到完整的描述,仍然很难以解释不规则的巻曲、盘绕和转角是怎样形成的。使用二十七个PFSC向量可以看到,不规则的巻曲和转角由两个因素产生的。第一,不规则的片段是由二十七个PFSC向量中一些具有不规则折叠特征的向量形成,即图5中箭头末端有"*"标志的向量。15个向量有不规则折叠特征标志"*",它们是"X,R,F,L,O,Y,S,C,M,P,Z,T,$,N,Q"。特别是当这些向量相连并出现在结构认定的时候,它们就会生成不规则的巻曲和盘绕。第二,不规则片段也会形成于任一对PFSC向量的不规整连接,即使它们有a-螺旋和P-折叠的折叠特征。如果两个向量不以相似的折叠形状特征连结,相连时就会产生急剧的过渡,例如向量"A"以"a-a(3-P"方式直接连接向量"B";向量"V"在N-端以"a-ap-a"方式与"A"相连,或者向量"J"在C-端以"a-卩a-a"方式与"A"相连。因此,利用二十七个PFSC向量就可以分析和探测不规则的巻曲和转角。总之,PFSC方法的27个向量不但是蛋白质局部结构折叠模式的原型,而且是以明确的空间走向进行蛋白质折叠描述的向量,同时这27个FPSC向量的联合在揭示蛋白质折叠认定方面发挥着非常重要的作用。向量的数目本发明中的蛋白质折叠形状码(PFSC)向量实际上是由一个连续封闭空间推导得出。这个空间原本包含无数个向量,经过划分,得到了二十七个PFSC向量,每个向量代表一个特定的折叠形状模式。一般而言,增加折叠形状模式的数目可以提高折叠的描述能力,但会使分析过程愈加复杂。将更多的a-碳原子包含进来或设置更多的分区分量来改进PFSC向量可以增加折叠形状模式的数目。例如,在相同的空间划分方式下,包含连续的a-碳原子的数目是6、7或8时,就分别有81、243或729个折叠空间模式。一个更简单些的获取更多折叠模式的方法是组合两个连续的PFSC向量。有六个连续a-碳原子的两个相连的PFSC向量就可以产生729个折叠基元模式或向量。在这种方式下,可能的折叠形状模式的总数目将是27(n—4),其中n是a-碳原子的总数目。增加折叠形状模式的数目是可能的,但除非是复杂性得到了显著的改善,否则没有太大的必要性。本发明的研究中,二十七个PFSC向量已经显示了描述蛋白质折叠结构的非常重要的结果。向量的使用蛋白质折叠形状码(PFSC)方法已经过SALIGN基准数据库提供的蛋白质结构检验。SALIGN基准数据库是一个有200个成对蛋白质的测试集合,这些蛋白质平均每对有20%的序列同一性和65%的叠加均方根差(rmsd)不超过3.5人的a-碳原子等价结构。根据SALIGN基准数据库的268个蛋白质链的PFSC向量出现的频率总结在图9中。首先,这个结果符合如下事实二十七个PFSC向量设计用于全面描述所有可能的折叠形状,包括常见或罕见类型的折叠。其次,二十七个PFSC向量的产生是等比重的,但使用却是不均匀的。结果显示二十七个向量中的大多数在268个蛋白质链中用到了,但数据也显示,用于a-螺旋和P-折叠的向量"A"和"B"出现的次数最多,分别是38274和20361。总体而言,a-螺旋和(3-折叠占到了大约67%的局部结构认定;二级结构的三个"类似"向量"V"、"J"和"H"据观察出现的次数较高,分别是7176、6697和3888,并且占到大约21%的局部结构认定;四个向量"W"、"S"、"Y"和"P"出现的次数也相对较高,超过IOOO,占到约9%的局部结构认定;八个向量"D"、"Z"、"C"、"Q"、'T,、"$,,、"U,,和"R",出现次数超过100;向量"M"出现的次数为0,即从未被用过。其他的九个向量出现的频率非常低。总之,二十七个向量中的九个,"A"、"B"、"V"、"J"、"H"、"W"、"S"、"Y"和"P",占到了总共97%的局部结构认定。并不奇怪单个向量并不经常被采用,这是源于蛋白质结构本质的限制;但所有的向量都被保留着占用封闭空间,以备提供完整连续的描述。PFSC向量的优势在于,PDB数据库中超过46000个蛋白质的五个连续a-碳原子的任何局部结构都会有一个根据PFSC方法得到的结构认定。图9中显示的二十七个向量出现的频率能够明确的映射到图6。表示a-螺旋和P-折叠的向量"A"和"B"以及环绕的"类似"向量"V"、"J"和"H",在结构认定中有较高的出现频率,图6中它们五个集中在右上角。而且很明显,在中间一层的多数向量和围绕"H"、"A"和"D"的多数向量都有较高的出现频率。映射在图6中的这种分布反映了蛋白质结构的本质,也就是说,局部结构认定中的大多数是由于蛋白质骨架的优先选择形成的,即氢键作用模式和三维空间限制条件等等。PFSC的应用蛋白质折叠形状码(PFSC)方法作为一个简化的工具用于描述蛋白质折叠形状。PFSC使用一维字母表字符串解释折叠形状的三维本质,有如下的优点第一,很容易跟踪和探测蛋白质中的不规则结构;第二,通过把蛋白质的线性氨基酸序列对齐而就有可能理解蛋白质中以每五个连续a-碳原子进行递增的折叠形状。蛋白质折叠形状码(PFSC)方法提供了对蛋白质a-碳原子骨架上从二级结构到三级结构的折叠形状的完整而连续的描述,当然,任何有三维结构数据的蛋白质也能够由PFSC进行描述。蛋白质折叠形状码(PFSC)方法能够比较蛋白质三维结构,揭示局部和整体的相似性和非相似性。使用折叠结构对齐,PFSC给出了对比蛋白质分组的相似性的评分,因而PFSC的结果会提高用于蛋白质结构预测的选取参考蛋白质或片段的质蛋白质折叠形状码(PFSC)方法能够把所有三维蛋白质结构认定到一维字符串并保存到数据库中;而且,五个连续的氨基酸序列和折叠结构特征之间的相互关系能够生成一个通用数据库用于氨基酸序列和折叠结构关系的基因组学研究。蛋白质折叠形状码向量认定(PFSCV)是一种详细描述蛋白质折叠形状特征和变化的的结构认定方法。在蛋白质a-碳原子骨架的折叠形状的基础上,发展了可及蛋白质表面编码(APSC)方法以评价蛋白质表面和空腔。把PFSCV和APSC以及沿蛋白质骨架的氨基酸的不同性质进行排列对齐,就能够预测蛋白质活性位点,活性位点在药物设计和蛋白质与多肽突变的研究中非常有意义;也能够预测蛋白质相互作用。我们来看蛋白质1DOI的分析结果,图10显示了蛋白质1DOI的APSC结果,图11为1D0I的蛋白质结构的截图,箭头表示蛋白质表面上的残基。表九为蛋白质lDOI氨基酸[50-75]片段的氨基酸序列、PFSC、PFSCV、APSC和氨基酸亲水性的对齐排列。结果表明,[59-60]片段处有不平滑的向量连结|3-01*-^且围绕残基59有一个口袋空间。另外,氨基酸的性质也与序列做了对齐。所有这些信息都会帮助分析和预测蛋白质的活性位点。表九,蛋白质lDOI片段[50-75]的氨基酸序列、PFSC、PFSCV、APSC和氨基酸亲水性质的对齐排列<table>tableseeoriginaldocumentpage56</column></row><table>PFSC:蛋白质折叠形状码;PFSCV:蛋白质折叠形状码向量认定;APSC:可及蛋白质表面编码。其数字越大,则蛋白质相对某个尺寸的探测球体的可及表面越多。根据APSC,它们近似的分割为不同的区域数字9、8和7为突出部;6、5和4为扁平区域;4、3和2为口袋部;1和0为不可及区域。这里的APSC结果根据半径为7.0A的球体得到。蛋白质折叠形状码(PFSC)方法可用于理解一些蛋白质结构折叠起关键作用的生物现象(参阅Pietzsch,ProteinFoldingandDisease,HorizonSymposia,NaturePublishingGroup,October3-5,2002,也在参考文献列表中)。有蛋白质结构折叠发生错误的疾病主要分为两类(a)与错误折叠蛋白质数量过多有关的疾病,如老年痴呆症(Alzheimer症);(b)与基因错误所致蛋白质不完全折叠有关的疾病,如癌症中的p53蛋白质。PFSC方法可用于解释晶体X-射线衍射或核磁共振光谱得到的实验数据,从而能够(l)提供与这些疾病有关的不同实验数据的综合视角;(2)侦査与这些疾病有关的蛋白质错误折叠的发生;(3)辅助设计对这些疾病的治疗方法。因此,PFSC方法在理解涉及蛋白质折叠现象的疾病方面非常有作用,如神经变性疾病、新陈代谢疾病、遗传疾病,以及和癌症和衰老有关的疾病,等等,都属于这类疾病。根据本发明,蛋白质折叠形状码(PFSC)方法可用于研究与蛋白质折叠或错误折叠有关的疾病,做法是创建蛋白质折叠形状通用统计映象(UPFSM),以作为一个对个别蛋白质或一组蛋白质都能显示其折叠形状信息的平台。UPFSM能够简化的描述复杂的蛋白质折叠形状,并从细节上揭示折叠属性。它提供了可以査看不同数据的独特而恒定的方法,在研究有关老年痴呆症以及其他疾病的所有蛋白质折叠数据方面非常有帮助。蛋白质折叠形状通用统计映象(UPFSM)括两个要素对齐部分和分布部分。对齐部分将蛋白质序列的蛋白质折叠形状码(PFSC)显示为一串编码。UPFSM将复杂的三维结构解释为一维字符串,从而简化了多个构象异构体的比较。对于分析相似蛋白质结构,包括同一蛋白质的多个构象异构体,传统的方法是,比较不同的结构或构象异构体时,把它们的全部三维结构进行叠加,然后测量均根方差(rmsd)的值。这样很难从视觉上形象的表现出如何把一个结构与另一个结构区分开。相比之下,以UPFSM的对齐部分来分析多个结构和构象异构体则是另辟蹊径。UPFSM的对齐部分把蛋白质序列的所有PFSC进行了对齐,就可以避免人为选择片段的长度和位置做重点关注。另外,因为避免了叠加数据的混淆,UPFSM能够以简单而全面的方式判定结构或构象异构体之间的相似性或非相似性。所以,UPFSM的对齐部分是一个进行蛋白质比较和构象分析的强有力的工具。蛋白质折叠形状通用统计映象(UPFSM)的另一要素分布部分,则是用于分析蛋白质构象的新方法。分布部分显示蛋白质序列到一个水平线,显示二十七个蛋白质折叠形状码(PFSC)向量到垂直列。对于一个特定的蛋白质结构,分布部分将认定蛋白质序列的PFSC,因此分布映射就会把复杂的三维折叠形状转化为相对简单的PFSC二维分布映射。分布部分能够显示单个的构象,或者一个构象异构体集合,或者蛋白质或构象异构体的多个集合。蛋白质折叠形状通用统计映象(UPFSM)方法提供了一个新的途径用以分析阿尔茨海默病淀粉样蛋白l3-肽(1-42)多肽的错误折叠。淀粉样蛋白是不溶的纤维蛋白聚合体,在引起老年痴呆症(阿尔茨海默病)以及其他一些疾病的过程中发挥着作用。为了更好的理解在淀粉样蛋白中P-折叠是怎样形成的,在淀粉样蛋白肽的周围建立了多种有影响的溶剂或环境,并且用核磁共振光谱精确的测定了有关的折叠结构。不但描述淀粉样蛋白肽的单个构象是困难的,在相同或不同的条件下比较这些结构也是困难的。蛋白质lz0q的结构是在六氟异丙醇(HFIP)/水30:70(v/v)混合水溶液中的30个构象异构体的结果,而蛋白质结构liyt则是HFIP/水80:20(v/v)混合水溶液中的10个构象异构体的结果。这些三维结构都由核磁共振光谱确定。此处显示了UPFSM作为比较和分析折叠结构的有力工具,从图12、图13和图14可以看到详细的解释。通过UPFSM,可以看到错误折叠的结构特征,如图13和图14所示。而且,在不同实验中折叠结构的不同也在图13和图14中做了清楚的揭示。权利要求1、一种分析或表达由一个连续序列的氨基酸链构成的蛋白质或其部分的构象的方法,其特征在于,该方法包括以下步骤A、把所述蛋白质或其最少一个部分分解成多个基本单元,每个单元包含五个连续的氨基酸;所述五个连续的氨基酸包括一个第一氨基酸、一个第二氨基酸、一个第三氨基酸、一个第四氨基酸和一个第五氨基酸,其中每一个氨基酸都含有一个α-碳原子;B、对第一单元确定第一二面角的区间值,其中,第一二面角根据第一平面和第二平面来确定,其中,第一平面由第一、第二和第三氨基酸的α-碳原子确定,第二平面由第二、第三和第四氨基酸的α-碳原子确定,第一二面角在第一平面和第二平面之间;C、对第一单元确定第二二面角的区间值,其中,第二二面角根据第二平面和第三平面来确定,其中,第三平面由第三、第四和第五氨基酸的α-碳原子确定,第二二面角在第二平面和第三平面之间,其中,第二二面角的区间值从区间b1、b2和b3所构成的区间组选取;D、对第一单元确定伸展距离的区间值,其中,伸展距离是第一氨基酸的α-碳原子与第五氨基酸的α-碳原子之间的距离,其中,伸展距离区间值从区间c1、c2、和c3所构成的区间组选取;E.组合从步骤B、C和D得到的区间值获得第一单元向量。2、如权利要求l的方法,其中步骤E由蛋白质折叠形状码算法完成。3、如权利要求l的方法,其中蛋白质的取向是从N-端到C-端。4、如权利要求2的方法,其中蛋白质的每个后继单元重叠其前一单元的四个氨基酸。5、如权利要求1的方法,其中第一二面角在第一平面和第二平面之间,第二二面角在第二平面和第三平面之间。6、如权利要求l的方法,其中,所述五个a-碳原子的中心碳原子的第一a-碳原子是第n-2个a-碳原子,第二ct-碳原子是第n-l个a-碳原子,第三a-碳原子是中心a-碳原子,也是第n个a-碳原子,第四a-碳原子是第n+l个a-碳原子,第五a-碳原子是第n+2个a-碳原子。7、如权利要求3的方法,其进一步包含以下步骤F、对蛋白质的第二单元重复步骤A,其中第二单元包括五个连续的氨基酸;所述五个连续的氨基酸包括第二单元的第一氨基酸,第二单元的第二氨基酸,第二单元的第三氨基酸,第二单元的第四氨基酸和第二单元的第五氨基酸,并且其中每个氨基酸包含一个a-碳原子;G、对蛋白质的第二单元重复步骤B,以对第二要素确定第一二面角的区间值,其中,第二单元的第一二面角由第二单元的第一平面和第二单元的第二平面确定,其中,第二单元的第一平面由第二单元的第一、第二和第三氨基酸的ct-碳原子确定,第二单元的第二平面由第二单元的第二、第三和第四氨基酸的a-碳原子确定,第一二面角处于第二单元的第一平面和第二平面之间;其中,第二单元的第一二面角的区间值从区间&、32、和&所构成的区间组选取;H、对蛋白质的第二单元重复步骤C,以确定第二单元第二二面角的区间值,其中第二二面角由第二单元的第二平面和第二单元的第三平面确定,其中,第三平面由第二单元的第三、第四和第五氨基酸确定,第二二面角位于第二单元的第二平面和第三平面之间,其中,第二单元的第二二面角从区间bi、b2、和b3所构成的区间组选取;I、对蛋白质的第二单元重复步骤D,以确定伸展距离的区间值,其中伸展距离是第一和第五氨基酸的a-碳原子之间距离,其中,伸展距离的区间值从区间Cl、c2、和C3所构成的区间组选取;J、组合从步骤G、H和I中得到的区间值以获取第二单元的向量。8、如权利要求4的方法,其进一步包含步骤K:对蛋白质的连续单元重复步骤-F、G、H、I和J,以得到向量的第一集合,这个第一集合对应着此蛋白质的最少一个部分。9、如权利要求4的方法,其进一步包含步骤L:对蛋白质的连续单元重复步骤F、G、H、I和J,以得到一个向量集合,所述集合对应整个的蛋白质。10、如权利要求4的方法,其进一步包含步骤M,对向量集合应用一次或多次算法以确定蛋白质构象的一个或多个方面。11、如权利要求l的方法,其中,所述区间a,从0°到130°、区间&从+130°到-130。、区间33从-130°到0°。12、如权利要求1的方法,其中,所述区间a,从0°到130°、区间a2从130°到180。和从-180°到-130°、区间a3从-130°到0°。13、如权利要求1的方法,其中,所述区间h从0°到130°、区间b2从+130°到-130°、区间b3从-130°到0°。14、如权利要求1的方法,其中,所述区间h从0°到130°、区间b2从130°到180。和从-180。到-130°、区间b3从-130。到0°。15、如权利要求1的方法,其中,所述区间Cl从0到7.OA、区间c2从4.OA到17.0A、区间C3大于12.0A。16、如权利要求1的方法,其中,所述区间Cl从0到5.5A、区间c2从5.5A到14.0A、区间C3大于14.0A。17、如权利要求l的方法,其中,所述区间a"&2和33,区间h、b和b3,区间Cl、C2和C3的有些值从数据库中得到,而有些值则由计算得来。18、如权利要求l中的方法,其中每一个单元经受一次蛋白质折叠形状码算法,导出那个单元的一个向量,此向量从二十七个向量的矩阵中选取。19、如权利要求1的方法,其中向量"D"的三个分量是&、b,和c1;其中向量"A"的三个分量是&、b,和c2;其中向量"H"的三个分量是a,、h和c3;其中向量"W"的三个分量是&、b2和c1;其中向量"V"的三个分量是a,、1)2和c2;其中向量"U"的三个分量是&、b2和c3;其中向量"Z"的三个分量是&、h和c1;其中向量"Y"的三个分量是&、b3和C2;其中向量"X"的三个分量是a,、b3和C3;其中向量"K"的三个分量是32、b^卩c1;其中向量"J"的三个分量是a"h和c2;其中向量"I"的三个分量是&、bi禾nc3;其中向量"G"的三个分量是&、b2禾卩c"其中向量"B"的三个分量是a"1)2和c2;其中向量"E"的三个分量是a2、b和c3;其中向量"T"的三个分量是32、&和c1;其中向量"S"的三个分量是a"比和c2;其中向量"R"的三个分量是a2、b3和C3;其中向量"Q"的三个分量是a"!^和d;其中向量"P"的三个分量是a"bjnC2;其中向量"0"的三个分量是a3、b,和C3;其中向量"N"的三个分量是a3、1)2和c1;其中向量"M"的三个分量是a"b和c2;其中向量"L"的三个分量是a"b和c3;其中向量"$"的三个分量是a"b和c1;其中向量"C"的三个分量是&、bs和C2;和其中向量"F"的三个分量是&、bjnc3。20、如权利要求l的方法,其中用于进行步骤A、B、C、D和E的一步或多步的蛋白质数据系从一个或多个数据库得到。21、如权利要求20的方法,其中,所述数据库为以下数据库中的一个或多个蛋白质数据库PDB、WWPDB、RCSB-PDB、MSD-EBI、PDBj、BMRB、NCBI腦B或私有数据库。22、如权利要求1的方法,其中用于运行步骤A、B、C、D和E的一步或全部的算法是以数字存储媒介的固定形式提供的。23、如权利要求l的方法,其中用于运行步骤A、B、C、D和E的一步或全部的算法以计算机网络如Internet或网站的方式提供。24、一种计算机辅助的方法,用于描述或表达蛋白质可能的排列,所述蛋白质含有顺序相连的氨基酸链,该方法包括如下步骤A、将蛋白质分割成多个单元,其中每个单元包含五个连续的氨基酸;所述五个连续的氨基酸由第一氨基酸、第二氨基酸、第三氨基酸、第四氨基酸和第五氨>基酸构成,每个氨基酸包含一个a-碳原子;B、对第一单元确定第一二面角的区间值,其中第一二面角由第一平面和第二平面确定;所述第一平面由第一、第二和第三氨基酸的a-碳原子确定,第二平面由第二、第三和第四氨基酸的ci-碳原子确定,并且第一二面角位于第一平面和第二平面之间;所述第一二面角的区间值从由区间&、32和£13构成的区间组中选取;C、确定第一单元第二二面角的区间值,其中第二二面角由第二平面和第三平面确定;所述第三平面由第三、第四和第五氨基酸的a-碳原子确定,并且第二二面角位于第二平面和第三平面之间;所述第二二面角的区间值^A由区间b!、b2和b3构成的区间组中选取;D、确定第一单元的伸展距离的区间值,其中伸展距离是第一氨基酸的a-碳原子与第五氨基酸的a-碳原子之间的距离;所述伸展距离的区间值从由区间Cl、"和c3构成的区间组中选取;E、组合从步骤B、C和D获得的区间值而得到第一单元的向量。25、如权利要求24的方法,所述步骤A、B、C、D和E由蛋白质折叠形状码算法完成。26、如权利要求24的方法,其中蛋白质的取向是从N-端到C-端。27、如权利要求25的方法,其中蛋白质的每一个后继单元重叠其前一单元的四个氨基酸。28、如权利要求24的方法,其中第一二面角位于第一平面和第二平面之间,第二二面角位于第二平面和第三平面之间。29、如权利要求24的方法,其中,所述五个ci-碳原子的中心碳原子,第一ci-碳原子是第n-2个a-碳原子,第二a-碳原子是第n-l个a-碳原子,第三a-碳原子是此中心碳原子,也是第n个a-碳原子,第四a-碳原子是第n+l个a-碳原子,第五a-碳原子是第n+2如个a-碳原子。30、如权利要求26的方法,进一步包含以下步骤F、对蛋白质的第二单元重复步骤A,其中第二单元包含五个连续的氨基酸,所述五个连续的氨基酸包括第二单元的第一氨基酸、第二单元的第二氨基酸、第二单元的第三氨基酸、第二单元的第四氨基酸和第二单元的第五氨基酸,其中每一个氨基酸包含一个a-碳原子;G、对蛋白质第二单元重复步骤B,以得到第二单元第一二面角的区间值,其中,第二单元第一二面角由第二单元第一平面和第二单元第二平面确定;所述第二单元第一平面由第二单元的第一、第二和第三氨基酸的a-碳原子确定,第二单元第二平面由第二单元的第二、第三和第四氨基酸的a-碳原子确定,且第一二面角位于第二单元的第一平面和第二平面之间;所述第二单元的第一二面角的区间值从由区间a,、&和&构成的区间组中选取;H、对蛋白质第二单元重复步骤C,以确定第二单元第二二面角的区间值,其中第二单元第二二面角由第二单元第二平面和第二单元第三平面确定;所述第二单元第三平面由第二单元的第三、第四和第五氨基酸的a-碳原子确定,且第二二面角位于第二单元的第三平面和第二平面之间;所述第二二面角的区间值从由区间b"b2和b3构成的区间组中选取;I、对蛋白质的第二单元重复步骤D,以确定伸展距离的区间值,其中伸展距离是第一、第五氨基酸的a-碳原子之间的距离;所述伸展距离的区间值从由区间Cl、c2和C3构成的区间组中选取;J、组合步骤G、H和I所得到的值以获得第二单元向量。31、如权利要求27的方法,进一步包含步骤K:对蛋白质的连续单元重复步骤F、G、H、I和J,以得到对应于此蛋白质的最少一个部分的第一向量集合。32、如权利要求27的方法,进一步包含步骤L:对蛋白质的连续单元重复步骤F、G、H、I和J,以得到对应于整个蛋白质的向量集合。33、如权利要求27的方法,进一步包含步骤M:对向量集合应用一次或多次PFSC算法,以确定蛋白质的一个或多个方面的构象。34、如权利要求24的方法,其中区间&是从0。到130°,其中区间&是从+130°到-130。,其中区间&是从-130°到0°。35、如权利要求24的方法,其中区间&1是从0°到130°,其中区间a2是从大于130。到180。和-180。到-130°,其中区间33是从-130°到0°。36、如权利要求24的方法,其中区间b,是从O。到130°,其中区间b2是从+130。到-130°,其中区间b3是从-130。到0°。37、如权利要求24的方法,其中区间bi是从(T到130°,其中区间b2是从+13(T到-130。,其中区间b3是从-130。到0°。38、如权利要求24的方法,其中区间d从0到7.0A,其中区间C2从4.0A到17.0A,其中区间C3大于12.0A。39、、如权利要求24的方法,其中区间d从0到5.5A,其中区间C2从5.5A到14.0A,其中区间C3大于14.0A。40、如权利要求24的方法,其中区间&、a2和a"区间b:、bjnb3,以及区间d、c2、和C3的部分值来源于一个数据库,部分值则由计算得到。41、如权利要求24的方法,其中每个单元经受一次蛋白质折叠形状码算法,以导出那个单元的一个向量,此向量从二十七个向量的矩阵中选取。42、如权利要求24的方法,其中向量"D"的三个分量是&、bi和d;其中向量"A"的三个分量是&、h和c2;其中向量"H"的三个分量是&、b,和c3;其中向量"W"的三个分量是&、bz和d;其中向量"V"的三个分量是&、b2和C2;其中向量"U"的三个分量是&、b2和C3;其中向量"Z"的三个分量是&、b3和d;其中向量"Y"的三个分量是a"b3和C2;其中向量"X"的三个分量是a"bs和C3;其中向量"K"的三个分量是&、bi禾卩C,;其中向量"J"的三个分量是&、!^和C2;其中向量"I"的三个分量是a"b,禾Qc3;其中向量"G"的三个分量是a"^和c1;其中向量"B"的三个分量是&、b2fBC2;其中向量"E"的三个分量是&、b2禾卩C3;其中向量"T"的三个分量是32、b和c1;其中向量"S"的三个分量是&、h和c2;其中向量"R"的三个分量是&、h和c3;其中向量"Q"的三个分量是a"!^和c1;其中向量"P"的三个分量是a"h和C2;其中向量"0"的三个分量是a"^和C3;其中向量"N"的三个分量是a"b2和d;其中向量"M"的三个分量是a"bjt]C2;其中向量"L"的三个分量是a"bjnC3;其中向量"$"的三个分量是a"b3和d;其中向量"C"的三个分量是a3、b3和C2;和其中向量"F"的三个分量是33、b3和C3。43、如权利要求24的方法,其中用于执行步骤A、B、C、D和E的一步或多步的蛋白质数据系从一个或多个数据库得到。44、如权利要求43的方法,其中所述数据库选自下列数据库中的一个或多个蛋白质数据库PDB、WWPDB、RCSB-PDB、MSD-EBI、PDBj、BMRB、NCBI固DB或私有数据库。45、如权利要求24的方法,其中用于执行步骤A、B、C、D和E的一步或多步的算法是以数字存储媒介的固定形式提供的。46、如权利要求24的方法,其中用于运行步骤A、B、C、D和E的一步或全部的算法以计算机网络如Internet,或网站的方式提供。47、一个计算机辅助的方法,用于描述或表达含有顺序相连的氨基酸链的蛋白质或其部分的可能的折叠构象,其特征在于,该方法包括如下步骤(a)选取要进行描述的蛋白质或其部分;(b)将从数据源获取的蛋白质或其部分的三维结构输入计算机,其中数据源是一个数据库;(c)将蛋白质或其部分分割成各个有重叠的基本单元,每个单元由五个连续的氨基酸构成;(d)确定每个单元中的五个a-碳原子为第一a-碳原子,第二a-碳原子,第三a-碳原子,第四a-碳原子和第五a-碳原子;(e)在计算机上执行算法以计算第一二面角、第二二面角和伸展距离,其中第一二面角是第一平面和第二平面的夹角;所述第一平面由第一、第二和第三a-碳原子确定,第二平面由第二、第三和第四a-碳原子确定;所述第二二面角是第三平面和第四平面之间的夹角,其中第三平面由第二、第三和第四a-碳原子确定,其中第四平面由第三、第四和第五a-碳原子确定;所述伸展距离由第一和第五a-碳原子之间的距离确定;(f)在计算机上执行区间值算法,以匹配第一二面角到第一二面角区间值,匹配第二二面角到第二二面角区间值,匹配伸展距离区间值,其中,第一二面角区间值是区间&、a2和a3构成的区间组中的一个,第二二面角区间值是区间b^b2和b3构成的区间组中的一个,所述伸展距离区间值是区间Cl、&和C3构成的区间组中的一个,并且在计算机上执行认定算法,以根据值&、a2、a3、b,、b2、b3、Cl、&和"将一个向量认定到单元。48、如权利要求45的方法,其中向量"D,,的三个分量是&、h和d;其中向量"A"的三个分量是&、^禾tlC2;其中向量"H"的三个分量是&、b,禾Pc3;其中向量"W"的三个分量是a,、b和c1;其中向量"V"的三个分量是a,、b和c2;其中向量"U"的:三个分量是&、b2和C3;其中向量'"z"的:三个分量是a^、b3和C2;其中向量'"X"的:三个分量是£l2、bi和Ci;其中向量'"J"的:三个分量是32、bi和C3;其中向量'"G"的:三个分量是32、'b2和C2;其中向量'"E"的.三个分量是32、bu和d;其中向量'"S"的:三个分量是32、b3和C3;其中向量'"Q"的:三个分量是33、bi和C2;其中向量'"0"的:三个分量是33、b2和Ci;其中向量'"M"的:三个分量是33、b2和C3;其中向量'的:三个分量是33、ba和C2;其中向量"F;的.三个分量是&、bs和c1;其中向量"Y"的.三个分量是&、ba和C3;其中向量'"K"的.三个分量是32、bi和C2;其中向量'"t,,的-三个分量是32、b2和C,;其中向量'"B"的.三个分量是32、b2和C3;其中向量'的.三个分量是32、b3和c2;其中向量'"R"的.三个分量是33、th和其中向量'"p,,的.三个分量是33、bi和C3;其中向量'"N"的.三个分量是33、b)2和C2;其中向量'"L"的.三个分量是33、bs和Ci;其中向量'"c"的三个分量是&、b3和C3。全文摘要本发明提供了描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置。本发明的系统方法可以具体表达在计算机和任何一种可以运作该方法步骤的仪器中。系统方法涵盖单个或者多个蛋白质片段,单个或者多个完整的蛋白质,一对或者多对蛋白质的比较,以及理论预测或者实验测试的蛋白质。因此,本发明的方法可以应用于任何计算机和计算机芯片来执行有关蛋白质及其片段的构象的分析,以及在制备用于与蛋白质折叠或错误折叠有关的疾病的检测或治疗药物中的应用。文档编号G06F19/00GK101647022SQ200880003164公开日2010年2月10日申请日期2008年1月30日优先权日2007年1月31日发明者杨家安申请人:桑迪亚医药技术(上海)有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1