一种蛋白质二级结构预测方法

文档序号：6331807阅读：902来源：国知局

专利名称：一种蛋白质二级结构预测方法
技术领域：
本发明属于蛋白质二级结构预测方法领域，尤其是一种基于三肽结构微环境下的氨基酸构象(或折叠)倾向因子数据库的建模方法以及基于此种数据库的蛋白质二级结构预测方法。
背景技术：
蛋白质结构预测是后基因组时代的一项重要任务，蛋白质二级结构预测是蛋白质结构、功能预测的关键步骤。尽管上世纪50年代初，Anfinsen就提出了蛋白质特定的空间结构是由其氨基酸排列顺序所决定的假说，即蛋白质的一级结构决定其空间结构，并因此获得了诺贝尔奖。但是目前人们试图从蛋白质一级序列直接预测其空间结构时，仍遇到了种种困难，预测准确率一直不高。在这种情况下，蛋白质二级结构预测就显得尤为重要。它不仅成为联系蛋白质一级结构和三级结构的纽带，而且也是从一级结构预测其三维空间结构的关键步骤。另外在实际工作中蛋白质二级结构预测也具有广泛用途。如可用于全新蛋白质的设计或蛋白质突变的设计；有助于确定蛋白质空间结构与功能的关系；有助于多维核磁共振中二级结构的指认以及晶体结构的解析等。
蛋白质二级结构预测始于20世纪60年代中期，至今已有30多年的历史，其发展过程大致可分为三个阶段。第一阶段是以单残基、单一序列的分析为重点，以Chou-Fasman方法和GOR等方法为代表。但是预测准确率普遍较低，大致在50％-59％之间。第二阶段则考虑了局部残基的相互影响，预测准确率有所提高，尤其是使用了神经网络方法以后预测准确率首次提高到了70％以上。第三个阶段是在前两个阶段的基础上，进一步提出了结合多重序列比对的思想，使预测准确率较以往又有了明显的提高，大致在72％-80％之间。近期，我国学者也在蛋白质二级结构预测方面做出了一些有意义的工作。

发明内容
本发明的目的是建立一种基于三肽结构微环境下的氨基酸构象(或折叠)倾向因子数据库，提供一种基于此种数据库的蛋白质二级结构预测方法。
实现本发明目的而采取的技术方案概括如下提供一种基于三肽结构微环境下的氨基酸构象(或折叠)倾向因子数据库的建模方法，包括采用下列步骤首先，根据STRIDE判据，收缩构象或伸展构象二面角(φ，ψ)的范围分别取螺旋或折叠存在的最大角度范围；由于肽键基本单元涉及相邻的三个氨基酸，因此采用移框法将PDB数据库中蛋白质按三肽结构单元进行分类取样，计算出中间氨基酸残基的构象二面角(φ，ψ)；然后统计所有三肽结构单元的构象角结构分布，得到三肽结构单元中间氨基酸处于特定三肽微环境下的三种构象所占的比例Ai(i为收缩构象，伸展构象和其他构象，分别用Ac，Ae和Ao表示)，并除以以上三种构象所占平均分数Bi，即收缩构象、伸展构象和其他构象所占比例分别为48.93％、44.84％和6.23％，最后得到氨基酸残基构象的倾向因子fi。这样构建了三肽结构微环境下的氨基酸构象的倾向因子数据库。一共得到7999个三肽结构单元的构象倾向因子数据，其中三肽结构单元Trp-Cys-Trp没有出现。
Ai=mi×1M;]]>Bi=(Σ1NAi)×1N;]]>fi＝Ai/Bi基于上述氨基酸构象的倾向因子数据库，提供一种基于PDB数据库的蛋白质二级结构预测方法，包括采用下列步骤预测算法、评价指标和检验。预测算法包括螺旋规则、折叠规则、其他构象规则和重叠区规则。首先，螺旋规则，沿着蛋白质找，连续四个残基螺旋平均倾向因子大于0.9875，则为螺旋起始。然后向下延伸，直到四肽片段的平均倾向因子小于0.9875为止。并且Pro不允许出现在螺旋内部，但可以出现在N端或C端的前三位。最后，剩余部分如果长于4个残基，而且平均倾向因子大于0.9875，则预测为螺旋。其次，折叠规则，连续四个残基平均折叠倾向因子大于1.025，则为折叠起始。然后向下延伸，直到四肽片段的平均倾向因子小于1.025为止。最后，将折叠两端各去掉两个个残基，剩余部分如果长度大于4个，而且平均倾向因子大于1.1875，则预测为β-折叠。再次，其他构象规则，连续四个残基平均其他构象倾向因子大于1.0，则为起始。然后向下延伸，直到四肽片段的平均倾向因子小于1.0为止。最后，如果长度大于4个，而且平均倾向因子大于1.20，则预测为其他构象。最后，重叠区规则，对于重叠区，按平均倾向因子大小进行预测，若螺旋平均倾向因子大于折叠平均倾向因子，则预测为螺旋，反之预测为折叠。
为了更好的估计预测的准确率，我们使用了国际上通用的几个评价指标，包括三态准确率Qi和整体准确率Q3。
Qi＝Pi/(Pi+Oi) i∈(H，E，C)Q3＝(Pα+Pβ+Pc)/T在这里，Pi表示被正确预测为i态的残基个数，Oi表示被错误预测为i态的残基个数；Pα、Pβ和Pc分别表示被正确预测为螺旋、折叠和其他构象的残基个数，T表示蛋白质样本的氨基酸残基总数量。
采用了11个已知结构的蛋白质构成一个检验集，这些蛋白质均从PDB数据库中下载，PDB代码分别是1bc4，1cyf，1dj5，1dx7，1ec6，1fce，1gh8，1kq7，1jsa，1qk7，1st3。预测的整体准确率达到了64.66％，三态准确率分别为71.65％(螺旋)、67.50％(折叠)和60.70％(其他构象)，远高于基于单残基的预测方法(50％-59％)。
本发明的特点是将三肽结构微环境概念引入蛋白质结构预测，将氨基酸构象倾向因子数据库与PDB数据库中已知蛋白质的结构数据结合起来，尤其重视基于PDB数据库的氨基酸构象倾向因子数据库的建模方法，能解决现有蛋白质二级结构预测的具体问题，实现由序列模型向结构模型的转换。
本发明的有益效果是统计了PDB数据库中的24358个已知三维结构的蛋白质分子(去除了雷同数据)，建立了一套基于组成已知蛋白质结构的三肽微环境内部的氨基酸构象倾向因子数据库，并以此建立了一套蛋白质二级结构的预测系统，其预测的整体准确率达到了64.66％，远高于基于单残基的预测方法。
而且，本发明可用于蛋白质工程(全新蛋白质或蛋白质突变)的分子设计，有利于指导基于结构的全新药物设计，有助于开展功能基因组特别是蛋白质结构与功能关系的研究，有益于多维核磁共振中二级结构的指认和X-衍射晶体结构的解析等。同时，本发明原理清晰、思路新颖，方法简单、便于推广。
具体实施例方式
基于三肽结构微环境下的氨基酸构象倾向因子数据库(BFTT)蛋白质是线性多肽，其基本结构单元肽键是一个共振杂化体，具有刚性平面，只有与α-C原子连接的两个键(Cα-N和Cα-C)能够自由旋转，绕Cα-N所成的二面角(C’-N-Cα-C)称为φ角，绕Cα-C所成的二面角(N-Cα-C-N)称为ψ角。
二级结构是蛋白质中氨基酸的局部构象，主要由短程作用决定的，长程作用也有一定的影响。Kbasch和Sander对蛋白质的二级结构进行分类，主要分为螺旋、折叠和卷曲。蛋白质的二级结构偏好本质上是局部吸引和侧链位阻这两种因素互相作用的结果。收缩构象是由于主链与侧链、侧链与侧链中氢键的吸引作用大于侧链位阻作用，反之则为伸展构象。所以氨基酸的构象根据构象角大体上可以分为收缩构象、伸展构象和其他构象。连续的收缩构象被认为是螺旋，连续的伸展构象在有配对的情况下形成β-折叠。
首先，根据STRIDE判据，收缩构象或伸展构象二面角(φ，ψ)的范围分别取螺旋或折叠存在的最大角度范围；由于肽键基本单元涉及相邻的三个氨基酸，因此采用移框法将PDB数据库中蛋白质按三肽结构单元进行分类取样，计算出中间氨基酸残基的构象二面角(φ，ψ)；然后统计所有三肽结构单元的构象角结构分布，得到三肽结构单元中间氨基酸处于特定三肽微环境下的三种构象所占的比例Ai(i为收缩构象，伸展构象和其他构象，分别用Ac，Ae和Ao表示)，并除以以上三种构象所占平均分数Bi，即收缩构象、伸展构象和其他构象所占比例分别为48.93％、44.84％和6.23％，最后得到氨基酸残基构象的倾向因子fi。在这里，M和mi分别表示某种三肽结构单元出现的总次数和表现为某种构象(收缩构象、伸展构象和其他构象)的累加次数，N为PDB数据库中出现的全部三肽结构单元的种类的总数。由于三肽结构单元Trp-Cys-Trp没有出现过，故一共有7999种三肽结构单元。由此构建了三肽结构微环境下的氨基酸构象的倾向因子数据库(BFTT)，共包括7999种三肽结构单元的三种构象的倾向因子数据。
Ai=mi×1M;]]>Bi=(Σ1NAi)×1N;]]>fi＝Ai/Bi基于PDB数据库的蛋白质二级结构预测(PSSP)基于上述氨基酸构象的倾向因子数据库，提供一种基于PDB数据库的蛋白质二级结构预测方法，采用下列步骤包括预测算法、评价指标和检验。
预测算法包括螺旋规则、折叠规则、其他构象规则和重叠区规则。首先，螺旋规则，沿着蛋白质找，连续四个残基螺旋平均倾向因子大于0.9875，则为螺旋起始。然后向下延伸，直到四肽片段的平均倾向因子小于0.9875为止。并且Pro不允许出现在螺旋内部，但可以出现在N端或C端的前三位。最后，剩余部分如果长于4个残基，而且平均倾向因子大于0.9875，则预测为螺旋。其次，折叠规则，连续四个残基平均折叠倾向因子大于1.025，则为折叠起始。然后向下延伸，直到四肽片段的平均倾向因子小于1.025为止。最后，将折叠两端各去掉两个个残基，剩余部分如果长度大于4个，而且平均倾向因子大于1.1875，则预测为β-折叠。再次，其他构象规则，连续四个残基平均其他构象倾向因子大于1.0，则为起始。然后向下延伸，直到四肽片段的平均倾向因子小于1.0为止。最后，如果长度大于4个，而且平均倾向因子大于1.20，则预测为其他构象。最后，重叠区规则，对于重叠区，按平均倾向因子大小进行预测，若螺旋平均倾向因子大于折叠平均倾向因子，则预测为螺旋，反之预测为折叠。
为了更好的估计预测的准确率，我们使用选用了国际上通用的几个评价指标，包括三态准确率Qi和整体准确率Q3。
Qi＝Pi/(Pi+Oi) i∈(H，E，C)Q3＝(Pα+Pβ+Pc)/T在这里，Pi表示被正确预测为i态的残基个数，Oi表示被错误预测为i态的残基个数；Pα、Pβ和Pc分别表示被正确预测为螺旋、折叠和其他构象的残基个数，T表示蛋白质样本的氨基酸残基总数量。
进一步地，采用11个已知结构的蛋白质构成了一个检验集，这些蛋白质均从PDB数据库中下载，PDB代码分别是1bc4，1cyf，1dj5，1dx7，1ec6，1fce，1gh8，1kq7，1jsa，1qk7，1st3。预测的整体准确率达到了64.66％，三态准确率分别为71.65％(螺旋)、67.50％(折叠)和60.70％(其他构象)，远高于基于单残基的预测方法。
值得说明的是，在此基础上，我们设计并编写了一个计算机应用程序。使用方法如下在左边方框内输入蛋白质序列，大小写不限，中间不要有空格或非法字母。按预测控制键后，右边方框内出现的就是所预测的蛋白质二级结构的结果，并以H、E和C分别表示螺旋、折叠和卷曲。
权利要求
1.一种基于氨基酸构象或折叠倾向因子数据库的蛋白质二级结构预测方法，其特征是采用下列步骤包括预测算法、评价指标和检验集；预测算法根据螺旋规则、折叠规则、其他构象规则和重叠区规则，采用不同的规则进行计算；采用国际上通用的评价指标，即三态准确率Qi和整体准确率Q3进行评价；Qi＝Pi/(Pi+Oi) i∈(H，E，C)Q3＝(Pα+Pβ+Pc)/T；；在这里，Pi表示被正确预测为i态的残基个数，Oi表示被错误预测为i态的残基个数；Pα、Pβ和Pc分别表示被正确预测为螺旋、折叠和其他构象的残基个数，T表示蛋白质样本的氨基酸残基总数量。
2.根据权利1要求所述，基于三肽结构微环境下的氨基酸构象或折叠倾向因子数据库的建模方法，其特征是采用下列步骤首先，根据STRIDE判据，收缩构象或伸展构象二面角的范围分别取螺旋或折叠存在的最大角度范围；其次，采用移框法将PDB数据库中蛋白质按三肽结构单元进行分类取样，计算出中间氨基酸残基的构象二面角；然后，统计所有三肽结构单元的构象角结构分布，得到三肽结构单元中间氨基酸处于特定三肽微环境下的三种构象所占的比例Ai，并除以上述三种构象所占平均分数Bi；最后得到氨基酸残基构象的倾向因子fi；由此构建了三肽结构微环境下的氨基酸构象的倾向因子数据库BFTT，共包括7999种三肽结构单元的三种构象的倾向因子数据；Ai=mi×1M;]]>Bi=(ΣlNAi)×1N;]]>fi＝Ai/Bi；在这里，M和mi分别表示某种三肽结构单元出现的总次数和表现为收缩构象或伸展构象或其他构象的累加次数，N为PDB数据库中出现的全部三肽结构单元的种类的总数。
3.一个计算机应用程序PSSP，其特征是采用权利要求1和2所述氨基酸构象或折叠倾向因子数据库和在此基础上建立的蛋白质二级结构预测方法，采用C++语言编写。
全文摘要
本发明属于蛋白质二级结构预测方法领域。本发明涉及一种基于组成已知结构蛋白质的三肽结构微环境的构象(或折叠)倾向因子数据库的数据建模方法以及基于此种数据库的蛋白质二级结构预测方法。并在此基础上，我们设计并编写了一个计算机应用程序。本发明可用于全新蛋白质或蛋白质突变的分子设计，有利于指导基于结构的全新药物设计，有助于功能基因组特别是蛋白质结构与功能关系的研究，更有益于多维核磁共振中二级结构的指认以及晶体结构的解析等。
文档编号G06F19/00GK1632817SQ20041006592
公开日2005年6月29日申请日期2004年12月28日优先权日2004年12月28日
发明者杨洁, 董咸池申请人:南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨洁;董咸池
技术所有人：南京大学
我是此专利的发明人

上一篇：一种表达关系型在线分析处理系统元数据的方法
上一篇：犁体曲面的计算机辅助设计方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。