本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种群体爬山迭代蛋白质构象空间优化方法。
背景技术
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。据估计,生命体的细胞中蛋白质含量高达15%~20%,是含量最高的有机物。蛋白质的功能十分丰富,对机体的正常运行起着至关重要的作用。而蛋白质的三维结构决定着蛋白质的功能,蛋白质只有正确的折叠成特定的三维结构才能产生特有的生物功能。疯牛病、老年痴呆症等病症就是由于蛋白质错误折叠所引起的。因此,要了解蛋白质的功能、治愈与蛋白质有关的多种疾病,就必须获得蛋白质的三维结构。
不同的蛋白质拥有不同的氨基酸序列,了解蛋白质的三维结构是研究其生物功能的基础。测定蛋白质三级结构的主流实验方法包括x射线晶体衍射和核磁共振等。x射线晶体衍射能够获得高精度的蛋白质结构,但是很多蛋白质难以制备用于用于结构解析的晶体;而核磁共振方法一般仅能测定长度不超过300个氨基酸的小蛋白。最近冷冻电镜技术发展迅速,其主要优势在于能够测定大蛋白质的结构。由于蛋白质结构实验测定的速度远远跟不上序列测定的速度,因此,通过计算机技术结合生物信息学的方法模拟蛋白质从氨基酸序列折叠成特定的空间结构的过程,从而预测蛋白质的三维结构就显得尤为重要。anfinsen等人的实验证明:在一般情况下,蛋白质能够自发折叠成特定的结构构象。也就是说,蛋白质的结构信息蕴含于其氨基酸序列之中。因此,根据蛋白质的氨基酸序列预测其三维结构是可行的。
蛋白质结构预测方法主要分为同源建模法、规范法和从头预测法。其中从头预测法不依赖已知的结构数据库,具有发现新的结构类型的可能性。目前比较成功的从头蛋白质结构预测方法有davidbaker及其团队设计的rosetta方法、张阳及其团队开发的quark方法等。但是至今还没有一种非常完善的蛋白质三维结构预测方法。现有的构象空间优化方法存在搜索效率低、收敛速度慢等问题,甚至陷入局部最优,出现过早收敛的现象,从而影响预测精度。
因此,目前的构象空间优化方法在搜索效率和预测精度上存在不足,需要改进。
技术实现要素:
为了克服现有的构象空间优化方法在搜索效率和预测精度上存在不足,本发明提供一种预测精度较高的群体爬山迭代蛋白质构象空间优化方法。首先,利用rosetta协议的第一、二、三、四阶段对种群进行初始化;然后利用迭代爬山搜索方法对构象空间进行进一步的探索,在提高构象空间搜索效率的同时有效避免陷入局部最优。
本发明解决其技术问题所采用的技术方案是:
一种群体爬山迭代蛋白质构象空间优化方法,所述方法包括以下步骤:
1)输入目标蛋白质的序列信息;
2)设置参数:种群规模np,迭代次数gmax,交叉迭代次数hc,变异迭代次hm;
3)种群初始化:迭代rosetta协议第一、二、三、四阶段,产生具有np个个体的种群p={p1,p2,...,pnp};
4)迭代爬山搜索,过程如下:
4.1)设g=1,其中g∈{1,2,...,gmax};
4.2)从种群p中随机选择两个个体p1,p2,并选择p1,p2中rosettascore3能量最低的个体作为交叉阶段最优个体
4.3)迭代交叉阶段,过程如下:
4.3.1)设hc=1,其中hc∈{1,2,...,hc};
4.3.2)生成均匀随机整数rand1,rand1∈[1,l],其中l表示目标蛋白质的序列的长度;
4.3.3)以第rand1号残基为交叉点,交换p1,p2交叉点前后的结构,生成交叉后的个体
4.3.4)根据metropolis准则决定个体
4.3.4.1)用rosettascore3能量函数计算
4.3.4.2)按如下公式计算替换概率p,
其中kt为温度参数,默认设置为2;
4.3.4.3)生成随机均匀小数rand2,rand2∈[0,1];
4.3.4.4)若rand2≤p,用
4.3.5)hc=hc+1;
4.3.6)若hc≤hc,转至步骤4.3.2);否则,结束迭代交叉阶段,进入迭代变异阶段;
4.4)迭代变异阶段,过程如下:
4.4.1)令
4.4.2)设hm=1,其中hm∈{1,2,...,hm};
4.4.3)对
4.4.3.1)设片段窗口号hw=1,其中hw∈{1,2,...,l-2},l表示预测蛋白质的序列的长度;
4.4.3.2)从第hw号窗口对应的片段库中随机选择一个片段,用该片段替换第hw号窗口的片段,生成变异个体
4.4.3.3)根据metropolis准则决定是否用个体
4.4.3.4)hw=hw+1;
4.4.3.5)若hw≤l-2,转至步骤4.4.3.2);否则,转至步骤4.4.4);
4.4.4)若在步骤4.4.3)中
4.4.5)hm=hm+1;
4.4.6)若hm≤hm,转至步骤4.4.3);否则,结束迭代变异阶段,进入选择阶段;
4.5)选择阶段,过程如下:
4.5.1)根据rosettascore3能量函数从种群p中选择能量最高的两个个体
4.5.2)分别用
4.6)g=g+1;
4.7)若g≤gmax,转至步骤4.2);否则,结束迭代爬山搜索;
5)根据rosetta聚类算法对种群p中的个体聚类,选出最大类的类心构象个体作为最终预测结果。
本发明的有益效果为:首先利用rosetta协议进行大范围的构象搜索,然后利用迭代爬山搜索方法对构象空间进行进一步的探索,在提高构象空间搜索效率的同时有效避免陷入局部最优,形成更接近天然蛋白质的三维结构,从而提高蛋白质结构预测的精度。
附图说明
图1是群体爬山迭代蛋白质构象空间优化方法对蛋白质1hz6进行结构预测时的构象更新示意图。
图2是群体爬山迭代蛋白质构象空间优化方法对蛋白质1hz6进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种群体爬山迭代蛋白质构象空间优化方法,包括以下步骤:
1)输入目标蛋白质的序列信息;
2)设置参数:种群规模np,迭代次数gmax,交叉迭代次数hc,变异迭代次hm;
3)种群初始化:迭代rosetta协议第一、二、三、四阶段,产生具有np个个体的种群p={p1,p2,...,pnp};
4)迭代爬山搜索,过程如下:
4.1)设g=1,其中g∈{1,2,...,gmax};
4.2)从种群p中随机选择两个个体p1,p2,并选择p1,p2中rosettascore3能量最低的个体作为交叉阶段最优个体
4.3)迭代交叉阶段,过程如下:
4.3.1)设hc=1,其中hc∈{1,2,...,hc};
4.3.2)生成均匀随机整数rand1,rand1∈[1,l],其中l表示目标蛋白质的序列的长度;
4.3.3)以第rand1号残基为交叉点,交换p1,p2交叉点前后的结构,生成交叉后的个体
4.3.4)根据metropolis准则决定个体
4.3.4.1)用rosettascore3能量函数计算
4.3.4.2)按如下公式计算替换概率p,
其中kt为温度参数,默认设置为2;
4.3.4.3)生成随机均匀小数rand2,rand2∈[0,1];
4.3.4.4)若rand2≤p,用
4.3.5)hc=hc+1;
4.3.6)若hc≤hc,转至步骤4.3.2);否则,结束迭代交叉阶段,进入迭代变异阶段;
4.4)迭代变异阶段,过程如下:
4.4.1)令
4.4.2)设hm=1,其中hm∈{1,2,...,hm};
4.4.3)对
4.4.3.1)设片段窗口号hw=1,其中hw∈{1,2,...,l-2},l表示预测蛋白质的序列的长度;
4.4.3.2)从第hw号窗口对应的片段库中随机选择一个片段,用该片段替换第hw号窗口的片段,生成变异个体
4.4.3.3)根据metropolis准则决定是否用个体
4.4.3.4)hw=hw+1;
4.4.3.5)若hw≤l-2,转至步骤4.4.3.2);否则,转至步骤4.4.4);
4.4.4)若在步骤4.4.3)中
4.4.5)hm=hm+1;
4.4.6)若hm≤hm,转至步骤4.4.3);否则,结束迭代变异阶段,进入选择阶段;
4.5)选择阶段,过程如下:
4.5.1)根据rosettascore3能量函数从种群p中选择能量最高的两个个体
4.5.2)分别用
4.6)g=g+1;
4.7)若g≤gmax,转至步骤4.2);否则,结束迭代爬山搜索;
5)根据rosetta聚类算法对种群p中的个体聚类,选出最大类的类心构象个体作为最终预测结果。
本实施例以序列长度为72的蛋白质1hz6为实施例,一种群体爬山迭代蛋白质构象空间优化方法,其中包含以下步骤:
1)输入目标蛋白质1hz6的序列信息;
2)设置参数:种群规模np=200,迭代次数gmax=1000,交叉迭代次数hc=20,变异迭代次hm=20;
3)种群初始化:迭代rosetta协议第一、二、三、四阶段,产生具有np个个体的种群p={p1,p2,...,pnp};
4)迭代爬山搜索,过程如下:
4.1)设g=1,其中g∈{1,2,...,gmax};
4.2)从种群p中随机选择两个个体p1,p2,并选择p1,p2中rosettascore3能量最低的个体作为交叉阶段最优个体
4.3)迭代交叉阶段,过程如下:
4.3.1)设hc=1,其中hc∈{1,2,...,hc};
4.3.2)生成均匀随机整数rand1,rand1∈[1,l],其中l表示目标蛋白质的序列的长度;
4.3.3)以第rand1号残基为交叉点,交换p1,p2交叉点前后的结构,生成交叉后的个体
4.3.4)根据metropolis准则决定个体
4.3.4.1)用rosettascore3能量函数计算
4.3.4.2)按如下公式计算替换概率p,
其中kt为温度参数,默认设置为2;
4.3.4.3)生成随机均匀小数rand2,rand2∈[0,1];
4.3.4.4)若rand2≤p,用
4.3.5)hc=hc+1;
4.3.6)若hc≤hc,转至步骤4.3.2);否则,结束迭代交叉阶段,进入迭代变异阶段;
4.4)迭代变异阶段,过程如下:
4.4.1)令
4.4.2)设hm=1,其中hm∈{1,2,...,hm};
4.4.3)对
4.4.3.1)设片段窗口号hw=1,其中hw∈{1,2,...,l-2},l表示预测蛋白质的序列的长度;
4.4.3.2)从第hw号窗口对应的片段库中随机选择一个片段,用该片段替换第hw号窗口的片段,生成变异个体
4.4.3.3)根据metropolis准则决定是否用个体
4.4.3.4)hw=hw+1;
4.4.3.5)若hw≤l-2,转至步骤4.4.3.2);否则,转至步骤4.4.4);
4.4.4)若在步骤4.4.3)中
4.4.5)hm=hm+1;
4.4.6)若hm≤hm,转至步骤4.4.3);否则,结束迭代变异阶段,进入选择阶段;
4.5)选择阶段,过程如下:
4.5.1)根据rosettascore3能量函数从种群p中选择能量最高的两个个体
4.5.2)分别用
4.6)g=g+1;
4.7)若g≤gmax,转至步骤4.2);否则,结束迭代爬山搜索;
5)根据rosetta聚类算法对种群p中的个体聚类,选出最大类的类心构象个体作为最终预测结果。
以氨基酸序列长度为72的蛋白质1hz6为实施例,运用以上方法得到了该蛋白质的近天然态构象,其构象更新示意图如图1所示,最小均方根偏差为
以上阐述是本发明给出的一个实施例表现出来的预测效果,显然本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。