蛋白质结构空间构象的全信息预测方法

文档序号:9506433阅读:1233来源:国知局
蛋白质结构空间构象的全信息预测方法
【技术领域】
[0001]本发明涉及一种蛋白质结构空间构象的全信息预测方法,属于生物信息学领域。
【背景技术】
[0002]蛋白质结构是开展基因组学,生物信息学,药物研发和生物技术研究的重要的信息1’2。然而,到目前为止,只有大约不到1%的蛋白质的三维结构通过X-射线晶体衍射或核磁共振等实验方法测量获得3。仍然还有大约超过五千二百万个蛋白质的序列尚没有三维结构的信息和数据4,生物医药研究迫切希望能确定这些蛋白的空间结构。长期以来,以计算机建模为基础,已经开发了许多关于蛋白质结构预测的方法和应用。从1994年起,每两年举办一次的“蛋白质结构预测的关键评估(CASP) ”活动成为世界各国蛋白质分子生物科学家的一个交流平台5’6。鉴于蛋白质结构的复杂性,以及指数数量级的可能折叠方式,预测蛋白结构的研究难题被列为21世纪现代科学的一百个大挑战性课题之一 7。
[0003]迄今为止,各种预测蛋白结构的方法基本上可分为三大类别。第一类是基于序列的建模方法8’9“°。该方法利用已知的蛋白结构来求解未知蛋白结构。这种方法需要依赖于序列之间的相似程度比对提取信息,关于预测结果的可靠程度一直是个疑问。第二类是采用折叠构型识别的拼接建模方法η’12’13’14’15。该方法采用统计方法从特定的蛋白数据库中筛选折叠片段和序列之间的相互关系。统计方法固然可以涵盖大多数折叠构型,但是频率较低的折叠构型往往就被忽略了。第三类是从头计算模型方法16’17’18。该方法运用计算机反复地迭代计算蛋白质中的氨基酸和原子之间的相互作用,直到最后整个构象体系趋于一个较低的能量状态。该方法消耗大量的计算机时间和资源,而且预测仅仅能得到相关蛋白质的一个可能空间结构。长期以来,生物学家期望通过预测方法获得可靠而且没有异议的蛋白质结构。以此为目标,各种研究试图改进蛋白质结构的预测方法,然而在这方面的进展是非常不理想的。究其根本原因,是由于蛋白质结构本身的复杂性和多变性。

【发明内容】

[0004]本发明所要解决的技术问题是提供一种蛋白质空间构象的全信息预测(CompletePredict1n for Protein Conformat1n, CPPC)方法。该方法运用数字化模型来简化蛋白结构的复杂性,同时运用全信息结构数据来认知蛋白结构的多变性。该方法能够快速预测蛋白质的结构,并提供所有可能的蛋白空间构象。
[0005]本发明的蛋白质空间构象的全信息预测方法是建立在发明人之前专利ZL200880003164.2公开的蛋白质折叠形状码(Protein Folding Shape Code, PFSC)基础上开发的预测蛋白结构的新方法19。通过严格推导得到的蛋白质折叠形状码(PFSC)能够完好地描述连续的5个氨基酸片段的折叠形状。5个氨基酸片段在蛋白质中的任意折叠形状可以通过27PFSC向量来描述,全部27PFSC向量采用了 26个英文字母加上$符号来表达。更重要的是,全部27个PFSC向量涵盖了一个完整的数学空间。而且,全部27个PFSC向量的折叠形状是高度密切相关联的。每个PFSC向量都可以从一个向量过渡转换为另一个向量。
[0006]从数学角度来看氨基酸,通过不同的排序,5个氨基酸可以形成不同的排列。从全部20个氨基酸中任意地提取5个氨基酸将可以形成总数为3,200, 000的不同排列。每一个排列的可能折叠构象可以从全球蛋白质数据库(TOB)获得,然后用蛋白折叠形状码(PFSC)表示。在此基础上,我们创建了一个数据库来收集上述三百二十万个排列的折叠构象。该全新的数据库被命名为5AAPFSC。在这个数据库中,和每个排列相关的折叠形状将完整地采用对应的PFSC码存储其中。
[0007]本发明的蛋白质结构空间构象的全信息预测方法,包括如下步骤:
[0008]1)从全部20个氨基酸中任意地提取5个氨基酸,形成总数为3,200, 000的不同排列,每一个排列的可能折叠构象从全球蛋白质数据库(roB)获得,然后用蛋白折叠形状码(PFSC)表示;创建了一个数据库来收集上述排列及其对应的蛋白折叠形状码,该数据库被命名为5AAPFSC,如图1所示;
[0009]2)对于任何一个待预测结构的蛋白质,沿着蛋白质的序列,从N-端开始,逐步移动向C-端,依次读取每5个连续的氨基酸,其可能具有的折叠构象从5AAPFSC数据库直接获得,用蛋白折叠形状码(PFSC)的字符表示;在蛋白质数据库中出现频率最高的折叠构象码的字符排在第一位,出现频率第二个高的折叠构象码字符排在第二位,从上到下依次形成一列,直至收集完全为止,每5个连续的氨基酸具有不同数目的折叠构象可能;
[0010]3)待测蛋白质的全部可能的折叠形状码形成一个阵列,称为蛋白折叠构象谱带,如图2所示,代表了沿着蛋白质的序列全部可能的折叠构象;对于每一个蛋白序列,通过其全部可能的局部折叠构象的相互替代,可以准确地得到所有可能的构象;可能构象的总数目是全部每5个氨基酸可能折叠构象数目的连续乘积;
[0011]对于任何一个待测蛋白,尽管全部可能空间构象的数目是巨大的,可能性高的空间构象通过出现频率高的局域折叠构象获得。举例来说,第一个空间构象是由出现频率最高的折叠构形状码构成;第二个空间构象是由出现频率第二高折叠形状码,在没有第二高频率构象位置,以频率最高的的折叠形状码作为补充构成;第三个空间构象是由出现频率第三高折叠形状码,在没有第三高频率构象位置,以频率最高的的折叠形状码作为补充构成;如此类推,形成可能性较高的一系列可能的预测构象。
[0012]因此,一连串由高频率构象组成的蛋白折叠形状码就是可能性较高的蛋白空间结构构象。依据蛋白折叠构象谱带,可以发现更多的局域变化和替代,进行修正形成更多有关可能的空间结构构象。
[0013]本分析方法得到的蛋白空间构象谱带对蛋白结构空间折叠构象提供了一个全信息的预测,同时揭示其可能的任何局部构象的微小变化。蛋白质空间构象的全信息预测(CPPC)方法的一个重要意义是为今后构建一个全新的蛋白基因结构综合数据库创造了必要的条件。蛋白质空间构象的全信息预测是预测蛋白结构的一个新的方法,该方法将会推动蛋白结构基因组学的发展。我们开发的蛋白质空间构象的全信息预测技术不仅仅对蛋白结构的预测提供了完整的折叠构象,而且对于全面理解从实验测定得到的蛋白结构具有十分重要意义。
【附图说明】
[0014]图1,5AAPFSC数据库的构建。
[0015]图2,蛋白折叠构象谱带的建立。
[0016]图3,人细胞质5’-核苷酸II蛋白的2XCW蛋白片段(残基3-62)已知构象和全信息预测结果的对比。表格第一行是该蛋白的氨基酸序列片段(3-62)。接着是8个已知结构的折叠构象,折叠构象用蛋白折叠形状码(PFSC)表示。表格中下半段是预测的9个可能的空间构象。
[0017]图4,海洋水生物银鲛(CallorhinchusMiliiX)提取物32个氨基酸的降钙素预测空间构象。
【具体实施方式】
[0018]对于任何蛋白质序列,运用蛋白质结构指纹技术(PSFT),直接通过对5AAPFSC数据库的高通量筛选,就会得到其对应的蛋白折叠构象。每一个折叠构象将由蛋白折叠形状码(PFSC)字母来表示,其中每一个字母都代表其专有的折叠结构的特性,这些折叠结构涵盖了二级结构和三级结构。全部可能的折叠形状码可以对齐形成一个列阵,生成一个PFSC蛋白空间构象谱带作为预测结果。通过对大量已知三维结构的蛋白质的测试,已经很好地验证了该方法的可靠性和有效性。
[0019]实施例一选用一个已经知道三维结构的蛋白质作为例子和预测结果进行对照。
[0020]人细胞质5’ -核苷酸II蛋白质是一个具有已知三维结构的蛋白分子,它的三维结构已经被X-射线晶体衍射实验确定。图3的上半部列出从X-射线晶体衍射实验测得的人细胞质5’ -核苷酸II蛋白质8个结构的空间构象。它的每一个三维空间结构可以从蛋白质数据库获得。然后,每一个构象用折叠码表达,并且对齐排成阵列。每一个空间构象代表实验测得的一个结构状态。图3的下半部列出本发明方法预测得到的9个最可能的空间构象。这些空间构象可以通过前面段落描述的步骤获得。第一个空间构象是由出现频率最高的折叠构象码的字符串构成;第二个空间构象是由出现频率第二高,再加上构成频率最高的的折叠构象码的字符串作为补充构成;第三个空间构象是由出现频率第三高,再加上构成频率最高的的折叠构象码的字符串作为补充构成;如此类推,形成可能性较高的9个构象。从表中可以看出,如果以2XCW蛋白片段60个氨基酸序列(3-62)的已知构象为参照,提取第一行预测的结果进行比对,全信息预测的结果构象有45个折叠构象相同,5个相似,10个不同。仅仅考虑第一行的预测结果,所谓的准确率达到大约80%。
[0021]另一方面,分子生物学家认识到,从X-射线晶体衍射实验测得的结构数据只是蛋白质的某一个静态结构状态,并不能反映出蛋白质的全部可能动态构象。表一上半段列出的蛋白质8个已知空间构象,这些空间构象显示了其结构的可变性。对照这些变化,全信息预测的预测谱带完全可以涵盖这些变化的折叠构型。表格的数据有力地说明我们开发的蛋白质空间构象的全信息预测技术不仅仅对蛋白结构的预测提供了完整的折叠构象,而且对于全面理解从实验测定得到的蛋白结构具有十分重要意义。
[0022]实施例二选择一个未知三维空间结构的蛋白作为例子,其三维空间构象可以通过全蛋白信息预测获得。图4展示了从海洋水生物银鲛(CallorhinchusMiliiX) 32个氨基酸构成的降钙素多肽的空间构象预测。这些空间构象可以通过前面段落描述的4个步骤获得。第一个空间构象是由出现频率最高的折叠构象码的字符串构成;第二个空间构象是由出现频率第二高,再加上构成频率最高的的折叠构象码的字符串作为补充构成;第三个空间构象是由出现频率第三高,再加上构成频率最高的的折叠构象码的字符串作为补充构成;如此类推,形成可能性较高的13个构象。预测得到的银鲛降钙素的蛋白空间构象谱带由13条蛋白折叠形状码(PFSC)字符码组成。该谱带是对银鲛降钙素空间构象的完整预测,并展示了其局部构象的可能变化。
[0023]本发明的蛋白质空间构象的全信息预测(CPPC)方法有下列四大特点和突破。
[0024]1.蛋白质空间构象的全信息预测(CPPC)以严密的数学推导为基础并且和蛋白结构特征相结合。首先,27PFSC蛋白折叠形状码完整地代表了一个有实质意义的完整封闭空间,这样就保证了预测结果不会产生缺失和遗漏。在5个氨基酸基础之上,通过建立20个氨基酸和和27个PFSC蛋白折叠形状码相关性。结合全球蛋白数据库,紧密联系蛋白质结构的特征,创建了 5AAPFSC数据库,囊括了 20个氨基酸中任意5个氨基酸的全部可能的数学排列。相对于传统的蛋白结构预测方法而言,依据这些排列和PFSC码之间的相关性建立的C
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1