一种局部增强的多模态差分进化蛋白质结构从头预测方法与流程

文档序号:12125405阅读:575来源:国知局

本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种局部增强的多模态差分进化蛋白质结构从头预测方法。



背景技术:

蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。

蛋白质结构预测问题自上世纪50年代以来就一直备受关注,尤其是从头预测构象空间优化方法,是生物信息学和计算生物学领域的热点研究课题,因为蛋白质的三维空间结构决定了它所承载的生物功能,想要了解其功能进而对许多由蛋白质结构改变而引起的疾病进行有效的控制和预防,就必须获得其三维结构。从头预测方法直接从蛋白质的氨基酸序列出发,根据Anfinsen原则,以计算机为工具,运用适当算法,通过计算得到蛋白质的天然构象,适用于同源性小于25%的大多数蛋白质。而制约从头预测方法预测精度的瓶颈因素主要有两个方面:第一,蛋白质构象空间的高维复杂性以及能量表面的粗糙性,使其成为一个难解的NP-Hard问题;第二,力场模型的不精确性也使得预测结果难以达到较高的精度。设计有效的算法增强对构象空间的采样是解决蛋白质结构从头预测瓶颈问题的有效途径。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。

因此,现有的蛋白质结构预测方法存在不足,需要改进。



技术实现要素:

为了克服现有蛋白质结构预测方法的构象空间搜索维数较高、收敛速度较慢、预测精度较低的不足,本发明基于差分进化算法,提出一种构象空间搜索维数较低、收敛速度较快、预测精度较高的局部增强的多模态差分进化蛋白质结构从头预测方法,在差分进化算法框架下,采用Rosetta score3粗粒度知识能量模型来降低构象空间维数;将构象种群划分为多个模态,以保持种群多样性,采用片段组装技术来提高预测精度,同时采用蒙特卡洛算法对种群做增强;在种群进化后期,使用抽象凸估计技术,建立模态的下界估计模型,构建广义下降方向,对模态内个体做局部增强,以得到更为优良的局部构象;结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的搜索。

本发明解决其技术问题所采用的技术方案是:

一种局部增强的多模态差分进化蛋白质结构从头预测方法,包括以下步骤:

1)给定输入序列信息;

2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,变异因子MU,片段的长度L,模态数量N;

3)种群初始化:由输入序列产生popSize个种群个体Pinit

4)模态建立:将种群平均划分为N个模态;

5)开始迭代,执行种群进化过程:

5.1)设i=1,j=1,其中i∈{1,2,3,…,N},j∈{1,2,3,…,Nmodal};令Ptarget=Pij,其中i,j为序号,Nmodal表示模态中个体的数目,Ptarget表示目标个体;

5.2)针对个体Ptarget做变异操作:从L=3的片段库中随机选择片段进行片段组装,得到中间个体Ptrial′;

5.3)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,...,Nmodal},rand1≠j,rand2∈{1,2,…,Length},rand3∈(0,1),其中Length为序列长度;

5.4)若随机数rand3<=CR,针对Ptrial’做交叉操作:令l=rand1;k=rand2;令即:将Ptrial′的第k个氨基酸所对应的二面角替换为Pl相同位置氨基酸对应的二面角

5.5)令Ptrial=Ptrial′,得到测试个体Ptrial

5.6)执行更新操作:根据Rosetta Score3能量函数计算Ptarget和Ptrial的能量:E(Ptarget),E(Ptrial);若E(Ptarget)>E(Ptrial)令Ptarget=Ptrial,否则保持种群不变;

5.7)得到更新后的种群Pupdate

5.8)针对种群Pupdate中的每一个模态做模态增强:

5.8.1)选择模态中能量最低的两个个体Pdes1,Pdes2,构建当前模态的下界支撑面,得到模态区域最小估计值xmin

5.8.2)根据构建广义下降方向Ddes,其中为个体Pdes1的二面角表示;

5.8.3)根据生成增强个体Penhance,其中为个体Pdes2的二面角表示,λ为步长调整因子;

5.8.4)根据Rosetta Score3能量函数计算增强个体的能量:E(Penhance),并与当前模态中能量最高的个体Pmax进行比较,若能量下降,则用增强个体替换当前能量最高个体;

6)迭代运行步骤5)至达到终止条件。

进一步,所述步骤6)中,终止条件为迭代次数T达到最大迭代次数Tmax

本发明的有益效果为:在差分进化算法框架下,采用Rosetta score3粗粒度知识能量模型来降低构象空间维数;将构象种群划分为多个模态,以保持种群多样性,采用片段组装技术来提高预测精度,同时采用蒙特卡洛算法对种群做增强;在种群进化后期,使用抽象凸估计技术,建立模态的下界估计模型,构建广义下降方向,对模态内个体做局部增强,以得到更为优良的局部构象;结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的搜索。

附图说明

图1是蛋白质2L0G预测结构和实验室测定结构最接近的构象三维示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1,一种局部增强的多模态差分进化蛋白质结构从头预测方法,包括以下步骤:

1)给定输入序列信息;

2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,变异因子MU,片段的长度L,模态数量N;

3)种群初始化:由输入序列产生popSize个种群个体Pinit

4)模态建立:将种群平均划分为N个模态;

5)开始迭代,执行种群进化过程:

5.1)设i=1,j=1,其中i∈{1,2,3,…,N},j∈{1,2,3,…,Nmodal};令Ptarget=Pij,其中i,j为序号,Nmodal表示模态中个体的数目,Ptarget表示目标个体;

5.2)针对个体Ptarget做变异操作:从L=3的片段库中随机选择片段进行片段组装,得到中间个体Ptrial′;

5.3)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,...,Nmodal},rand1≠j,rand2∈{1,2,…,Length},rand3∈(0,1),其中Length为序列长度;

5.4)若随机数rand3<=CR,针对Ptrial’做交叉操作:令l=rand1;k=rand2;令即:将Ptrial′的第k个氨基酸所对应的二面角替换为Pl相同位置氨基酸对应的二面角

5.5)令Ptrial=Ptrial′,得到测试个体Ptrial

5.6)执行更新操作:根据Rosetta Score3能量函数计算Ptarget和Ptrial的能量:E(Ptarget),E(Ptrial);若E(Ptarget)>E(Ptrial)令Ptarget=Ptrial,否则保持种群不变;

5.7)得到更新后的种群Pupdate

5.8)针对种群Pupdate中的每一个模态做模态增强:

5.8.1)选择模态中能量最低的两个个体Pdes1,Pdes2,构建当前模态的下界支撑面,得到模态区域最小估计值xmin

5.8.2)根据构建广义下降方向Ddes,其中为个体Pdes1的二面角表示;

5.8.3)根据生成增强个体Penhance,其中为个体Pdes2的二面角表示,λ为步长调整因子;

5.8.4)根据Rosetta Score3能量函数计算增强个体的能量:E(Penhance),并与当前模态中能量最高的个体Pmax进行比较,若能量下降,则用增强个体替换当前能量最高个体;

6)迭代运行步骤5)至达到终止条件.

进一步,所述步骤6)中,终止条件为迭代次数T达到最大迭代次数Tmax

本实施例以序列长度为32的蛋白质2L0G为实施例,一种局部增强的多模态差分进化蛋白质结构从头预测方法,其中包含以下步骤:

1)给定输入序列信息;

2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,变异因子MU,片段的长度L,模态数量N;

3)种群初始化:由输入序列产生popSize个种群个体Pinit

4)模态建立:将种群平均划分为N个模态;

5)开始迭代,执行种群进化过程:

5.1)设i=1,j=1,其中i∈{1,2,3,…,N},j∈{1,2,3,…,Nmodal};令Ptarget=Pij,其中i,j为序号,Nmodal表示模态中个体的数目,Ptarget表示目标个体;

5.2)针对个体Ptarget做变异操作:从L=3的片段库中随机选择片段进行片段组装,得到中间个体Ptrial′;

5.3)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,...,Nmodal},rand1≠j,rand2∈{1,2,…,Length},rand3∈(0,1),其中Length为序列长度;

5.4)若随机数rand3<=CR,针对Ptrial’做交叉操作:令l=rand1;k=rand2;令即:将Ptrial′的第k个氨基酸所对应的二面角替换为Pl相同位置氨基酸对应的二面角

5.5)令Ptrial=Ptrial′,得到测试个体Ptrial

5.6)执行更新操作:根据Rosetta Score3能量函数计算Ptarget和Ptrial的能量:E(Ptarget),E(Ptrial);若E(Ptarget)>E(Ptrial)令Ptarget=Ptrial,否则保持种群不变;

5.7)得到更新后的种群Pupdate

5.8)针对种群Pupdate中的每一个模态做模态增强:

5.8.1)选择模态中能量最低的两个个体Pdes1,Pdes2,构建当前模态的下界支撑面,得到模态区域最小估计值xmin

5.8.2)根据构建广义下降方向Ddes,其中为个体Pdes1的二面角表示;

5.8.3)根据生成增强个体Penhance,其中为个体Pdes2的二面角表示,λ为步长调整因子;

5.8.4)根据Rosetta Score3能量函数计算增强个体的能量:E(Penhance),并与当前模态中能量最高的个体Pmax进行比较,若能量下降,则用增强个体替换当前能量最高个体;

6)迭代运行步骤5)至达到终止条件,终止条件为迭代次数T达到最大迭代次数Tmax

以序列长度为32的蛋白质2L0G为实施例,运用以上方法得到了该蛋白质的近天然态构象,预测结构和实验室测定结构最接近的构象三维示意图如图1所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1