一种计算机预测蛋白功能的方法

文档序号:6530516阅读:890来源:国知局
专利名称:一种计算机预测蛋白功能的方法
技术领域
本发明涉及的是一种生物信息技术,具体的说是一种计算机预测蛋白功能的方法。
背景技术
预测蛋白功能的计算方法主要有四种一类是基于结构相似性的方法。这类方法利用三维结构的相似程度,分析目标蛋白最可能有功能的结构单元,在已知蛋白质数据库中搜索与这些结构单元相似的蛋白质的功能数据,从而达到预测目标蛋白功能的目标。有些算法可以不用考虑拓扑结构,而只考虑空间结构。一类是基于三维基序的方法。这些方法更多的是试图找到蛋白质中具有功能的结构元素,比如在很多DNA结合蛋白中都有发现的Helix-Turn-Helix(HTH)基序。这样,人们就可以通过类似的数据库近似得到具有这些基序的蛋白质的功能。比如用TESS算法在酶的活性位点建立起来的PROCAT数据库;直接利用蛋白质结构数据库(Protein Database Bank,简称PDB)文件中的site信息建立的PDBSite库等。一类是基于表面的方法。这类方法通常会根据各原子的三维坐标和互相之间的距离来产生蛋白质的表面,而认为这些表面的形状及相互之间吻合的程度是决定蛋白质功能的主要因素。当然,也有研究表明某些蛋白质的功能是由表面的疏水性质或者静电性质决定的。这类方法通常被叫做分子对接方法,在计算机辅助药物设计中有着广泛的应用。还有一类是基于学习的方法。这类方法包括数据挖掘、人工智能,各种方法层出不穷,比如使用支持向量机,决策树,人工神经网络等等等等。他们用各种方式试图找到蛋白质的功能信息和蛋白质的序列结构等信息之间的关联(显示的或隐式的),以达到预测的目的。基于知识的统计势函数是以已知稳定结构的一些特性统计平均为基础的势能函数,基本假设是,测到的稳定结构的势能最低。这样在稳定结构中统计到的各种特性数量, 并通过一些类似波尔兹曼分布函数的方法得到各种特性的势能,然后对其他结构进行打分。与传统的以物理为基础势能函数相比,它们不太关心计算势能时候的具体物理规律,而是更关心它们需要用来计算势能的特性是否能被统计平均。比如有的统计势以二面角做统计,有的以溶液的表面做统计,有以接触对做统计的,有以距离对做统计的。以距离对做统计的基于知识的统计势函数其基本计算方法如下对假定的目标蛋白对目标蛋白把所有原子在以r。ut为半径的球体内部分为很多的球壳(!·,!·+八幻,这样统计目标蛋白中原子类型土的球体中原子类型为j原子在不同球壳中出现的数量为N。bs(i,j,r)。通过它与期望的分布值比较,可以得到原子对i,j在(r,r+Ar)距离的能量值u(iJ,r)^-RT\n^:J:rl基于知识的统计势函数按照参照态Nexp(i,j, r)的不同而不同。
目前现有的能够同时在更大的序列和结构范围内寻找与目标蛋白可能结合的蛋白质、DNA和RNA片段方法主要有两类,一类是基于随机性的方法,比如蒙特卡洛、遗传算法等,另外一类是基于确定性的方法,例如dead-end-elimination,branch-and-bound等,但是它们都只能在给定的序列长度以及固定的蛋白质骨架下进行序列和构象搜索,而且不能够对DNA和RNA进行序列和构象搜索。分子碎片生长法是比较经典的计算机辅助药物设计的方法之一,被广泛用来进行小分子的全新设计和改造。分子碎片生长方法具备所有已有蛋白质序列和构象搜索方案所不具备的独特的优点。一个就是能够同时在序列的长度和组成以及结构空间进行搜索,另外一个优点就是完全不依赖于目标蛋白质的构象数目,克服了基于结构相似性分析的蛋白质功能预测方法的主要缺陷,而且蛋白质的构象可以是实验得到的,也可以是通过分子动力学模拟或者其他理论计算方法产生的。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。 基于网格的聚类方法首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。同源建模是利用序列相似的蛋白质(已知结构)的结构作为“模板”,以得到未知结构蛋白存在时比较可能的结构。如果能够获得比较好的所要预测结构的蛋白和已知蛋白序列的比对结果,则能够获得精确的结构模型。使用全原子的统计势能函数计算量大,不利于构象空间的搜索,而粗粒化的统计势能函数丢失的信息比较多。

发明内容
针对现有技术中预测蛋白功能的计算方法存在计算量大,不利于构象空间的搜索以及丢失的信息比较多等不足之处,本发明要解决的技术问题是提供一种减少计算量、将与分子碎片生长方法结合的更加紧密的计算机预测蛋白功能方法。为解决上述技术问题,本发明采用的技术方案是本发明计算机预测蛋白功能的方法包括以下步骤对生物大分子的原子之间的距离进行半粗粒化统计,得到生物大分子之间相互作用的半粗粒化统计势函数;利用半粗粒化统计势函数在目标蛋白周围空间找到相互作用的热点区域;结合分子碎片生长方法,在热点区域寻找可有与目标蛋白紧密结合的蛋白质、DNA 或RNA序列片段;计算蛋白质、DNA或RNA序列片段与目标蛋白结合的强度并排序;选取规定数量的序列片段及其结构,在相关的生物功能数据库中进行搜索,查找相应的生物功能,预测到目标蛋白可能具有的功能。所述半粗粒化统计势函数通过以下过程得到读入蛋白质三维结构,按照相应原子在其所在氨基酸残基或DNA碱基或RNA碱基类型上的拓扑位置给定其原子类型利用给定类型统计原子对之间的距离分布,通过与期望的分布值比较,得到半粗粒化统计势函数,通过以下公式将分布值转化成统计势函数
权利要求
1.一种计算机预测蛋白功能的方法,其特征在于包括以下步骤对生物大分子的原子之间的距离进行半粗粒化统计,得到生物大分子之间相互作用的半粗粒化统计势函数;利用半粗粒化统计势函数在目标蛋白周围空间找到相互作用的热点区域; 结合分子碎片生长方法,在热点区域寻找可有与目标蛋白紧密结合的蛋白质、DNA或 RNA序列片段;计算蛋白质、DNA或RNA序列片段与目标蛋白结合的强度并排序; 选取规定数量的序列片段及其结构,在相关的生物功能数据库中进行搜索,查找相应的生物功能,预测到目标蛋白可能具有的功能。
2.按权利要求1所述的计算机预测蛋白功能的方法,其特征在于 所述半粗粒化统计势函数通过以下过程得到读入蛋白质三维结构,按照相应原子在其所在氨基酸残基或DNA碱基或RNA碱基类型上的拓扑位置给定其原子类型利用给定类型统计原子对之间的距离分布,通过与期望的分布值比较,得到半粗粒化统计势函数,通过以下公式将分布值转化成统计势函数
3.按权利要求2所述的计算机预测蛋白功能的方法,其特征在于所述分子碎片生长方法为以构成天然蛋白质的20种氨基酸,构成DNA的4种脱氧核苷酸以及构成RNA的4种核苷酸做为片段前体;对片段前体进行修改后形成生长使用的片段;父代的一个分子选择一个片段,连接片段,调整新连接片段的构象,使每一个构象都对应一个子代分子;通过计算每个子代分子和目标蛋白质之间的结合能量,按照带权随机法选择一批子代进行下一代的繁殖。
4.按权利要求2所述的计算机预测蛋白功能的方法,其特征在于 在目标蛋白周围把空间划分为以立方体为结构单元的格点,以格点位置为假想各种粗粒化粒子的坐标,在每个格点上使用各种粗粒化类型并使用导出的半粗粒化统计势能函数评价格点和目标蛋白之间的能量,其中能量最低的值留做此格点的能量;使用能量阀值删掉能量比较低的点,再删掉相对孤立的点,对剩下的点进行聚类分析——将剩下的点按照空间位置关系分成彼此不相连的子集。能量最低的点集作为最优预测位点。以得到的最优预测位点为第一个种子片段的位置,对种子的空间取向进行搜索来找到能量最低的方向,然后指定生长分子的长度以及想要得到的最终生长出来的分子数量等信息,在目标蛋白周围长出所有可能的分子;分析长出来的分子的特征,通过已有生物功能数据库预测目标蛋白可能具有的功能。
全文摘要
本发明涉及一种计算机预测蛋白功能的方法,包括以下步骤对生物大分子的原子之间的距离进行半粗粒化统计,得到生物大分子之间相互作用的半粗粒化统计势函数;利用半粗粒化统计势函数在目标蛋白周围空间找到相互作用的热点区域;结合分子碎片生长方法,在热点区域寻找可有与目标蛋白紧密结合的蛋白质、DNA或RNA序列片段;计算蛋白质、DNA或RNA序列片段与目标蛋白结合的强度并排序;选取规定数量的序列片段及其结构,在相关的生物功能数据库中进行搜索,查找相应的生物功能,预测到目标蛋白可能具有的功能。本发明具有已有粗粒化统计势函数计算速度快的优点,而且也将与分子碎片生长方法结合的更加紧密、具有目前已有粗粒化统计势所不具备的准确性。
文档编号G06F19/10GK102479295SQ201010567278
公开日2012年5月30日 申请日期2010年11月30日 优先权日2010年11月30日
发明者张鼎林, 徐贝思, 李国辉 申请人:中国科学院大连化学物理研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1