基于混合并行方式的蛋白质热力学分析高效随机模拟方法

文档序号:6523603阅读:154来源:国知局
基于混合并行方式的蛋白质热力学分析高效随机模拟方法
【专利摘要】本发明涉及生物信息分析【技术领域】,提供了一种基于混合并行方式的蛋白质热力学分析高效随机模拟方法,包括:步骤A:确定蛋白质能量模型和能量区间;步骤B:确定所述蛋白质能量区间的分段方式;步骤C:模拟及计算蛋白质系统态密度。采用本发明提供的方法,可以高效地分析和研究蛋白质折叠的整个热力学过程,进而对蛋白质折叠过程进行探索和研究。
【专利说明】基于混合并行方式的蛋白质热力学分析高效随机模拟方法【【技术领域】】
[0001]本发明涉及生物信息分析【技术领域】,特别是涉及一种基于混合并行方式的蛋白质热力学分析高效随机模拟方法。
【【背景技术】】
[0002]蛋白质折叠主要研究蛋白质如何在短时间内从一维多肽链折叠为天然三维结构,形成具有生命功能的大分子。生物体的遗传信息(DNA)通过RNA转录和翻译过程传递给蛋白质(即中心法则),因此蛋白质折叠也被称为第二遗传密码,它的研究可以帮助揭示生命遗传信息的表达和功能传递的奥秘。在从一维多肽链到天然三维结构的折叠过程中,蛋白质可发生误折叠或聚集,其结构和功能因此受到破坏,从而引起‘折叠病’,比如老年痴呆症等。因此蛋白质折叠 研究对探索多种‘折叠病’机理意义重大。
[0003]目前,研究蛋白质折叠的算法大多数都在分子动力学模拟和随机模拟中实现。一般而言,分子动力学模拟常用于研究蛋白质系统的动力学过程;而随机模拟则可以研究蛋白质系统的整个热动力学过程。针对使用高精确度的全原子蛋白质模型的模拟,需要计算成千上万个原子之间的多种相互作用力,对于分子动力学模拟只能模拟纳秒级的蛋白质折叠过程,故其在微秒到毫秒时间内的蛋白质折叠研究中具有很大的局限性;此外,分子动力学模拟也受一个初始实验构型的影响。而随机模拟不但能用于微秒到毫秒时间内的蛋白质折叠研究,而且不依赖于一个具体的初始构型,可以更广泛地搜索构型空间。
[0004]经典的WangLandau算法就是随机模拟领域最吸引人最有发展情景的新算法,它能解决生物信息学、统计物理学等多个领域的很多复杂问题。比如在蛋白质折叠研究中,该算法有两个最显著的优点:第一,蛋白质模拟不会局限在局部最小能量状态,因而能较好地在整个能量区间进行自由行走;第二,通过该算法可模拟和计算出蛋白质系统态密度,因而就能进一步求解得到宽广温度范围内的很多热动力学量如比热等,这样就能高效地分析和研究蛋白质折叠的整个热力学过程。但WangLandau算法在计算精度和速度上还有待于进一步提升。
[0005]鉴于此,克服该现有技术所存在的缺陷是本【技术领域】亟待解决的问题。

【发明内容】

[0006]本发明要解决的技术问题是提供一种基于混合并行方式的蛋白质热力学分析高效随机模拟方法。
[0007]本发明采用如下技术方案:
[0008]一种基于混合并行方式的蛋白质热力学分析高效随机模拟方法,包括:
[0009]步骤A:确定蛋白质能量|旲型和能量区间;
[0010]步骤B:确定所述蛋白质能量区间的分段方式;
[0011]步骤C:模拟及计算蛋白质系统态密度。
[0012]进一步地,所述步骤A进一步包括:[0013]采用ECEPP蛋白质能量模型,ECEPP能量力场的表达形式为:
[0014]EECEPP-Ec+ELj+EHB+ETor[0015]其中,
【权利要求】
1.一种基于混合并行方式的蛋白质热力学分析高效随机模拟方法,其特征在于,包括: 步骤A:确定蛋白质能量|吴型和能量区间; 步骤B:确定所述蛋白质能量区间的分段方式; 步骤C:模拟及计算蛋白质系统态密度。
2.如权利要求1所述的方法,其特征在于,所述步骤A进一步包括: 采用ECEPP蛋白质能量模型,ECEPP能量力场的表达形式为:
EECEPP_Ec+ELJ+EHB+ETor其中,
3.如权利要求1所述的方法,其特征在于,所述步骤A进一步包括: 对所使用的蛋白质能量区间进行离散化处理,若取k个能量bin区间值,则对[Efflin, EfflaJ平均划分k个bin区间,用每个bin区间中间的一个能量值代表能量区间值。
4.如权利要求3所述的方法,其特征在于,所述步骤B进一步包括: 步骤B1:对能量区间平均分为M段,设相邻子能量区间之间的重合度等于△个bin区间,则每一段含有
5.如权利要求1所述的方法,其特征在于,所述步骤C进一步包括: 通过MPI的主从进程模式和OpenMP的多线程并行模式,模拟及计算蛋白质系统态密度。
6.如权利要求5所述的方法,其特征在于,在所述主从进程模式的N个分进程中,分进程I为主进程,其余分进程均为子进程。
7.如权利要求6所述的方法,其特征在于,所述主进程包括如下步骤: 步骤Sll:初始化蛋白质系统态密度函数的对数S(E)=Ing(E)=O,直方图H(E)=O(Emin ≤ E ≤ Emax),修正因子 df=l (=Inf=Ine);
步骤 S12:s=l ; 步骤S13:依照所确定的蛋白质能量区间的分段方式将能量区间(Emin≤E≤Emax)分成M段,并分配到M个分线程中,t=l ; 步骤S14:在每个分线程中,对原来的构型限制在相应的子能量区间里进行随机变动,产生新的构型,计算能量Enew,根据Metropolis准则确定新构型被接受的概率,t=t+l ;所述步骤S14循环tmax次; 步骤S15:所有线程间相互通信,综合得到整个区间的S(E)和H(E),s=s+l ; 所述步骤S14和S15循环smax次; 步骤S16:所有进程间相互通信,主进程收集所有从进程的Stmp(E)和Htmp (E)并累加计算出全局的S (E)和H (E),即全局的S (E) =S (E) +所有从进程的Stmp (E),全局的H (E) =H (E) +所有从进程的Htmp(E),将全局的S(E)和H(E)的广播给所有从进程,判断直方图平缓条件:
8.如权利要求7所述的方法,其特征在于,在所述步骤S14中,根据Metropolis准则确定新构型被接受的概率进一步包括:
9.如权利要求6所述的方法,其特征在于,所述从进程包括如下步骤: 步骤S21:初始化蛋白质系统态密度函数的对数S(E)=Ing(E)=O, Stmp(E)=Ingtmp(E)=O,直方图 H(E)=O, Htmp(E)=O (Emin ≤ E ≤ Emax),修正因子 df=l (=Inf=Ine);
步骤 S22:s=l ; 步骤S23:依照所确定的蛋白质能量区间的分段方式将能量区间(Emin≤E≤Emax)分成M段,并分配到M个分线程中,t=l ; 步骤S24:在每个分线程中,对原来的构型限制在相应的子能量区间里进行随机变动,产生新的构型,计算能量Enew,根据Metropolis准则确定新构型被接受的概率,t=t+l ; 所述步骤S24循环tmax次; 步骤S25:所有线程间相互通信,综合得到整个区间的Stmp(E)和Htmp(E),s=s+l ; 所述步骤S24和S25循环smax次; 步骤S26:所有进程间相互通信,从进程将Stmp (E)和Htmp (E)发送给主进程,然后接收经主进程计算得出的全局的S(E)和H(E)更新原来的S(E)和H(E),将Stmp(E)和Htmp(E)初始化为0,判断直方图平缓条件:
10.如权利要求9所述的方法,其特征在于,在所述步骤S24中,根据Metropolis准则确定新构型被接受的概率进一步包括:

11.如权利要求7或9所述的方法,其特征在于,在所述步骤S17和S27中,改变修正因子f的方式为: 先连续进行N次迭代的f=f° (0< α〈I),再进行I次迭代的
【文档编号】G06F19/18GK103729577SQ201310683507
【公开日】2014年4月16日 申请日期:2013年12月12日 优先权日:2013年12月12日
【发明者】彭丰斌, 魏彦杰, 张慧玲, 弓英瑛 申请人:深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1