基于综合算法的蛋白质折叠过程的计算机模拟方法

文档序号:6573603阅读:346来源:国知局
专利名称:基于综合算法的蛋白质折叠过程的计算机模拟方法
技术领域
本发明涉及的是一种模拟蛋白质折叠过程的方法,属于生物信息技术、计算方法与计算机虚拟现实技术。
背景技术
从蛋白质的氨基酸序列预测蛋白质的三维结构的理论方法有两类一类是基于知识的蛋白质结构预测,它根据模式匹配的原则,利用蛋白质数据库中现有的蛋白质结构数据建立适当的参数,在蛋白质一级结构的基础上采用这些参数进行评价,优化和预测。基于知识的预测方法相对简单,速度较快,但是需要找到同源性符合要求的模板。
另一类是基于模拟的蛋白质结构预测,用于研究折叠过程,即蛋白质从没有功能的、分散的、展开的蛋白质结构折叠成有功能的、自然态的蛋白质结构的过程,来进行蛋白质结构的预测。基于模拟的蛋白质结构预测需要大量的自由能方程,运算量较大。但在前者无法搜索到合适的模板时,它是唯一的选择。基于模拟的蛋白质结构预测所用的方法有遗传算法具有较强的全局搜索能力和求觖问题的能力,还具有简单、通用和鲁棒性强,适用于并行处理等特点,但是遗传算法容易形成早熟收敛得到的结果可能为非全局最优解以及在进化后期搜索效率较低,收敛速度较慢,近亲繁殖。
粒子群优化算法是一类新兴的随机优化技术,其思想来源于人工生命和演化计算理论。通过粒子追随个体位置和全局极值来完成优化。该算法一方面将粒子排序,每个粒子跟随其前面那个粒子飞行,保持了多样性;另一方面使每个粒子利用更多其他粒子的有用信息,加强粒子之间的合作与竟争。结果表明,该算法不仅具有更好的收敛精度和更快的收敛速度,而且能更有效地进行全局搜索,从而得到最优解。
模糊聚类属于模式识别中的无监督学习,它不需要训练样本,可以直接通过机器学习达到自动分类的目的。模式识别中最关键的技术就是特征提取,模糊聚类不但能从原始数据中提取特征,而且还能对特征进行优化选择和降维;在提取特征之后,模糊聚类还可以提供最近邻原型分类器,以及进行空间划分和模糊规则的提取,这有助于对多个极小值解进行分类,找到最优解。
在专利申请号为01814465.9,名称为“一种由蛋白质的一级结构序列确定蛋白质三维结构的方法”的专利文件中,用到的是基于知识的蛋白质结构预测的方法,这里要有已知的蛋白质三维结构作为参考模板。

发明内容本发明的目的在于提供一种基于知识的预测与基于模拟的预测相结合,能达到更高的准确度、大大提高了运算速度、适用于普通计算机的基于综合算法的蛋白质折叠过程的计算机模拟方法。
本发明的目的是这样实现的(3)非格点的蛋白质模型选择HPN非格模型,HPN非格模型把氨基酸分子分成H(hydrophobic,疏水类),P(Polar,亲水类),N(带电类),X(未知类),并由这四类分子按照一定的规则排列而成线形链,含有n个残基的构型是n-2个水平角qi(-p≤qi<p)]]>和n-3个垂直角(-p2≤bi<p2)]]>确的;由利用虚拟现实技术结合3DSMAX和OPENGL进行建模及优化,用小球代表氨基酸,用圆柱代表分子之间的键;(4)能量函数对每一个蛋白质分子,用两类作用力表示分子内的势能主链弯曲势(V1)和非共价键作用势(V2),能量函数为φ=Σi=2n-1Vi(αi)+Σi=1n-2Σj=i+2nV2(rij,ξi,ξj)]]>其中Vi(αi)=14(1-coaαi),]]>αi指相邻键间的夹角,i=2,...,n-1。
V2(rij,ξi,ξj)=4[rij-12+C(ξi,ξj)rij-16]C(ξi,ξj)=14(2-|ξi+ξj|)2+sign(|ξi+ξj|-4)]]>其中sign(x)=1x≥00x>0;]]>(3)搜索自由能最小的蛋白质三维结构由上面算出的每一种确定的三维空间结构的能量,结合遗传算法,粒子群算法和模糊算法对结构空间进行搜索,找出能量最小所对应的三维结构;(4)模拟折叠过程在搜索出自由能最小的天然蛋白质空间结构后,记录组成该蛋白质的每个氨基酸空间位置和属性,并记录下该蛋白质的自由能,然后根据取得的数据,结合VC++和OPENGL进行仿真,可对模拟的结果进行旋转,平移,缩放,并对蛋白质的折叠过程进行录制;(5)数据分析与改进将得出的结果,与PDB中现有的三维结构进行比对,利用预测构象与其天然结构的均方根偏差的计算公式,调整蛋白质结构,并对采用模型和算法进行改进。
本发明还可以包括这样一些特征1、所述的找出能量最小所对应的三维结构的具体步骤为第1步随机产生N个构象作为初始种群,并确定初始参数;第2步计算每个构象被选择进行遗传操作的概率,并约定依据这个概率进行随机选择;第3步用粒子群算法进交叉和变异算子的选取;第4步利用交叉算子和变异算子对选定的构象进行交叉和变异操作,并产生新的种群;第5步评价群体的适应度,保留适应度较高的个体;第6步若不满足停止准则,则重复第二步到第五步。否则,输出集团中能量值最小的构象;第7步对得出的多个极小值进行分类,找出极小值。
2、所述的均方根偏差的计算公式为RMSD=(1NΣi=1N(xi(a)-xj(b))2)12.]]>本发明主要采用理论研究预测方法,将基于知识的预测与基于模拟的预测相结合,以突破各自的局限性而达到更高的准确度。从计算机运算速度和存储容量出发,在保留折叠主要原因的情况下,忽略了折叠过程中的大量具体细节,从而大大提高了运算速度,成为适用于普通计算机的有效方法。
采用理论预测与计算机分子折叠模拟,确定一些中间构象,然后以这些构象为基础,逐步最终逼近构象。将现有的计算机虚拟现实技术建模理论和方法拓展到微观世界,实现蛋白质折叠过程的仿真。
这里把遗传算法、粒子群算法与模糊算法相结合起来,用遗传算法来优化种群和连接权值,再用粒子群算法求优化解搜索全局能量最小的空间结构,用模糊聚类算法对解进行分类和修改。
主要工作包括· 抽取影响分子空间结构形成过程的主要参数。
· 建立蛋白质分子空间结构形成过程的交互可视环境。
本发明在系统中设计了记录蛋白质折叠的动态工具。在得到蛋白质折叠的模拟结果后,可以启动该工具将折叠的动态过程再显示。
蛋白质从核糖体合成出来时的不具备生理活性的松散线团状态的氨基酸链折叠成具有生理活性的特定构象,这一过程所经历的时间是极其短暂的。以致无法观察其具体的动态过程。因此,用计算机模拟蛋白质折叠的动态过程,将有助于增加对蛋白质折叠机制的了解,从而为蛋白质分子设计提供有用的信息。
本发明也适用于对于未知的蛋白质三维结构预测,而且可对所预测的蛋白质的折叠动态过程进行模拟,录制。


图1是本发明的过程框图;图2是本发明的系统结构图。
具体实施方式
下面结合附图举例对本发明做更详细地描述结合图1和图2,本发明的方法是在图2所搭建的系统结构上实现的,其具体方法为1、非格点的蛋白质模型HPN非格模型把氨基酸分子分成H(hydrophobic,疏水类),P(Polar,亲水类),N(带电类),X(未知类),并由这四类分子按照一定的规则排列而成线形链,含有n个残基的构型是n-2个水平角qi(-p≤qi<p)]]>和n-3个垂直角(-p2≤bi<p2)]]>确的。由利用虚拟现实技术结合3DSMAX和OPENGL进行建模及优化,用的小球代表氨基酸,用圆柱代表分子之间的键。
2、能量函数对每一个蛋白质分子,用两类作用力表示分子内的势能主链弯曲势(V1)和非共价键作用势(V2),V1与序列自身无关,V2则随着序列的改变而改变,主链上每一对非直接接触的残基的变化都会影响到V2。,能量函数为φ=Σi=2n-1Vi(αi)+Σi=1n-2Σj=i+2nV2(rij,ξi,ξj)]]>其中Vi(αi)=14(1-coaαi),]]>αi指相邻键间的夹角,i=2,...,n-1。
V2(rij,ξi,ξj)=4[rij-12+C(ξi,ξj)rij-16]C(ξi,ξj)=14(2-|ξi+ξj|)2+sign(|ξi+ξj|-4)]]>其中sign(x)=1x≥00x>0;]]>3、搜索自由能最小的蛋白质三维结构由上面算出的每一种确定的三维空间结构的能量,结合遗传算法,粒子群算法和模糊算法对结构空间进行搜索,找出能量最小所对应的三维结构。
具体步骤如下第1步随机产生N个构象作为初始种群,并确定初始参数。
第2步计算每个构象被选择进行遗传操作的概率,并约定依据这个概率进行随机选择。
第3步用粒子群算法进交叉和变异算子的选取。
第4步利用交叉算子和变异算子对选定的构象(即染色体)进行交叉和变异操作,并产生新的种群。
第5步评价群体的适应度,保留适应度较高的个体。
第6步若不满足停止准则,则重复第二步到第五步。否则,输出集团中能量值最小的构象。
第7步,对得出的多个极小值进行分类,找出极小值。
4、模拟折叠过程在搜索出自由能最小的天然蛋白质空间结构后,记录组成该蛋白质的每个氨基酸空间位置和属性,并记录下该蛋白质的自由能,然后根据取得的数据,结合VC++和OPENGL进行仿真,可对模拟的结果进行旋转,平移,缩放,并对蛋白质的折叠过程进行录制。
5、数据分析与改进将得出的结果,与PDB中现有的三维结构进行比对,利用预测构象与其天然结构的均方根偏差的计算公式,调整蛋白质结构,并对采用模型和算法进行改进。均方根偏差的计算公式为RMSD=(1NΣi=1N(xi(a)-xj(b))2)12.]]>
权利要求
1.一种基于综合算法的蛋白质折叠过程的计算机模拟方法,其特征是(1)选择非格点的蛋白质模型选择HPN非格模型,HPN非格模型把氨基酸分子分成H、P、N、X四类,并由这四类分子按照一定的规则排列而成线形链,含有n个残基的构型是n-2个水平角 和n-3个垂直角(-p2≤bi<p2)]]>确的;由利用虚拟现实技术结合3DSMAX和OPENGL进行建模及优化,用小球代表氨基酸分子,用圆柱代表分子之间的键;(2)确定能量函数对每一个蛋白质分子,用两类作用力表示分子内的势能主链弯曲势(V1)和非共价键作用势(V2),能量函数为φ=Σi=2n-1V1(αi)+Σi=2n-2Σj=i-2nV2(rij,ξr,ξj)]]>其中V1(αi)=14(1-cosαi),]]>αi指相邻键间的夹角,i=2,...,n-1。V2(rij,ξi,ξj)=4[rij-12+C(ξi,ξj)rij-16]C(ξi,ξj)=14(2-|ξi+ξj|)2+sign(|ξi+ξj|-4)]]>其中sign(x)=1x≥00x<0]]>(3)搜索自由能最小的蛋白质三维结构由上面算出的每一种确定的三维空间结构的能量,结合遗传算法,粒子群算法和模糊算法对结构空间进行搜索,找出能量最小所对应的三维结构;(4)模拟折叠过程在搜索出自由能最小的天然蛋白质空间结构后,记录组成该蛋白质的每个氨基酸空间位置和属性,并记录下该蛋白质的自由能,然后根据取得的数据,结合VC++和OPENGL进行仿真,可对模拟的结果进行旋转,平移,缩放,并对蛋白质的折叠过程进行录制;(5)数据分析与改进将得出的结果,与PDB中现有的三维结构进行比对,利用预测构象与其天然结构的均方根偏差的计算公式,调整蛋白质结构,并对采用模型和算法进行改进。
2.根据权利要求1所述的基于综合算法的蛋白质折叠过程的计算机模拟方法,其特征是所述的找出能量最小所对应的三维结构的具体步骤为第1步随机产生N个构象作为初始种群,并确定初始参数;第2步计算每个构象被选择进行遗传操作的概率,并约定依据这个概率进行随机选择;第3步用粒子群算法进行交叉和变异算子的选取;第4步利用交叉算子和变异算子对选定的构象进行交叉和变异操作,并产生新的种群;第5步评价群体的适应度,保留适应度较高的个体;第6步若不满足停止准则,则重复第二步到第五步。否则,输出集团中能量值最小的构象;第7步对得出的多个极小值用模糊算法进行分类,找出极小值。
3.根据权利要求1或2所述的基于综合算法的蛋白质折叠过程的计算机模拟方法,其特征是所述的均方根偏差的计算公式为RMSD=(1NΣi=1N(xi(a)-xi(b))2)12]]>
全文摘要
本发明提供的是一种基于综合算法的蛋白质折叠过程的计算机模拟方法。它包括选择非格点的蛋白质模型、确定能量函数、搜索自由能最小的蛋白质三维结构、模拟折叠过程和数据分析与改进等步骤。本发明主要采用理论研究预测方法,将基于知识的预测与基于模拟的预测相结合,以突破各自的局限性而达到更高的准确度。从计算机运算速度和存储容量出发,在保留折叠主要原因的情况下,忽略了折叠过程中的大量具体细节,从而大大提高了运算速度,成为适用于普通计算机的有效方法。
文档编号G06F19/00GK101082944SQ20071007229
公开日2007年12月5日 申请日期2007年6月1日 优先权日2007年6月1日
发明者张菁, 于杨, 陈杰, 李艳波, 单颖, 赵明, 王海玲, 王立伟, 于思亮 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1