本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于构象多样性策略的蛋白质三维结构预测方法。
背景技术:
蛋白质分子是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。蛋白质的功能十分丰富,对机体的正常运行起着至关重要的作用。而蛋白质的三维结构决定着蛋白质的功能,蛋白质只有正确的折叠成特定的三维结构才能产生特有的生物功能。由于蛋白质错误折叠引起的疾病并不少见。因此,要了解蛋白质的功能、治愈与蛋白质有关的多种疾病,就必须获得蛋白质的三维结构。
二十世纪末以来,生命科学领域飞速发展,作为生物体内分布最广、功能最复杂的一类大分子,蛋白质受到尤为广泛的关注和研究。蛋白质的三维结构预测是生物信息学的一个重要任务。不同的蛋白质拥有不同的氨基酸序列,所有蛋白质都会在其一维序列的基础上折叠形成特定的三维结构,了解蛋白质的三维结构是研究其生物功能的基础。目前蛋白质的三维结构主要通过x射线晶体衍射和核磁共振成像技术得到,但这两种通过实验的方法获取蛋白质结构的成本均不菲,并且有各自的应用局限。因此,通过计算机技术结合生物信息学的方法模拟蛋白质从氨基酸序列折叠成特定的空间结构的过程,从而预测蛋白质的三维结构就显得尤为重要。从头蛋白质结构预测方法得尤为重要。从头蛋白质结构预测方法不依赖任何已知结构,而是从蛋白质的氨基酸序列出发,根据anfinsen原则,通过构象搜索方法搜寻目标蛋白质的天然结构。从头蛋白质预测方法的发展也是对“第二遗传密码”的探索过程,具有非凡的物理意义。
目前比较成功的从头蛋白质结构预测方法有davidbaker及其团队设计的rosetta方法、张阳及其团队开发的quark方法等。但是至今还没有一种非常完善的蛋白质三维结构预测方法。目前主要的技术难点来源于两个方面,一方面是现有的构象空间采样方法的采样能力不够强,另一方面在于能量函数的不精确使得仅以能量值作为构象更新的选择标准并不能产生十分令人满意的结果。
因此,目前的蛋白质三维结构预测方法存在不足,需要改进。
技术实现要素:
为了克服蛋白质构象空间采样方法的采样能力不够强和能量函数不精确带来的不利影响,本发明基于遗传算法的框架,提出了一种基于多样性保留策略的蛋白质三维结构预测方法,在遗传算法的框架下,采用rosetta标准协议;利用遗传算子对构象的loop区域进行操作,增强对loop区域的空间搜索;引入基于蛋白质二级结构信息的多样性指标,结合构象的能量值作为种群更新的选择标准,增强种群多样性的同时降低能量函数不精确带来的不利影响。
本发明解决其技术问题所采用的技术方案是:
一种基于多样性保留策略的蛋白质三维结构预测方法,所述预测方法包括以下步骤:
1)给定预测蛋白质序列信息;
2)设置系统参数:种群规模n,种群的进化次数gmax,重组概率pc,变异概率pm;
3)第一阶段,种群初始化:迭代rosetta协议第一阶段的片段组装,产生具有n个个体的初始种群
4)第二、三、四阶段基于相应的rosetta协议,分别执行步骤5)至步骤9);
5)开始迭代,设g=1,其中种群代数g∈{1,2,...,gmax};
6)对种群pnew中的每一个个体pinew,其中i∈{1,2,...,n},使用rosetta协议相应阶段的片段组装进行构象搜索,产生下一代种群p={p1,p2,...,pn},g=g+1;
7)对种群p中的个体执行遗传算子操作和局部搜索,产生新的种群p*,过程如下:
7.1)对种群p中的个体随机两两配对,生成n/2对父本<pi,pj>,其中i,j均∈{1,2,...,n},且i≠j;
7.2)执行重组操作:对每一对父本,生成随机数rand1∈[0,1];当rand1≤pc,随机交换pi和pj的一个loop区域的残基二面角值,产生对应的新构象个体pi′,pj′,所有父本执行完重组操作后形成新的种群p′;
7.3)执行变异操作:对种群p′中的每一个个体pi′,其中i∈{1,2,...,n},进行变异,过程如下:
7.3.1)检测个体pi′的每一个滑动窗口wik中是否含有二级结构为loop的残基,其中k∈{1,2,...,l-f+1},l表示蛋白质序列的长度,f∈{3,9}表示片段的长度,第二、三阶段f=9,第四阶段f=3;
7.3.2)若wik中含有二级结构为loop残基:生成随机数rand2∈[0,1];rand2≤pm,执行一次片段插入,对该窗口中的loop残基进行变异;
7.3.3)遍历完所有窗口后,产生新的个体pi″;
7.3.4)所有个体执行完变异操作后形成新的种群p″;
7.4)执行局部搜索操作:对种群p″中的每一个个体pi″,其中i∈{1,2,...,n},使用rosetta协议相应阶段的片段组装进行局部搜索,产生新的个体pi*;所有个体执行完局部搜索操作后形成新的种群p*;
8)生成候选个体集合
8.1)候选个体的能量
8.2)候选个体的多样性
9)从候选个体集合中选择优秀个体进入下一代,过程如下;
9.1)根据构象的能量和多样性对候选个体进行排序;执行m次循环排序,每次循环执行步骤9.2);
9.2)设h=1,其中h∈{1,2,...,m-1},过程如下:
9.2.1)生成随机数rand3∈[0,1];
9.2.2)若
9.2.3)若
9.2.4)若
9.2.5)若rand3≤0.5且
9.2.6)若rand3>0.5且
9.2.7)h=h+1,若h≤m-1,转至9.2.1);否则,结束本次循环;
9.3)执行完m次循环排序后,生成有序的候选个体集合
9.4)选择集合
9.5)g=g+1,若g≤gmax,转至步骤7);否则,结束本阶段循环;
10)根据rosetta协议输出预测结果。
本发明的有益效果为:在遗传算法的框架下,采用rosetta标准协议;利用遗传算子对构象的loop区域进行操作,增强对loop区域的空间搜索;引入基于蛋白质二级结构信息的多样性指标,结合构象的能量值作为种群更新的选择标准,增强种群多样性的同时降低能量函数不精确带来的不利影响,从而预测出精度更高的近天然态构象。
附图说明
图1是基于构象多样性策略的蛋白质三维结构预测方法对蛋白质1c8ca进行结构预测时的构象更新示意图。
图2是基于构象多样性策略的蛋白质三维结构预测方法对蛋白质1c8ca进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于构象多样性策略的蛋白质三维结构预测方法,包括以下步骤:
1)给定预测蛋白质序列信息;
2)设置系统参数:种群规模n,种群的进化次数gmax,重组概率pc,变异概率pm;
3)第一阶段,种群初始化:迭代rosetta协议第一阶段的片段组装,产生具有n个个体的初始种群
4)第二、三、四阶段基于相应的rosetta协议,分别执行步骤5)至步骤9);
5)开始迭代,设g=1,其中种群代数g∈{1,2,...,gmax};
6)对种群pnew中的每一个个体pinew,其中i∈{1,2,...,n},使用rosetta协议相应阶段的片段组装进行构象搜索,产生下一代种群p={p1,p2,...,pn},g=g+1;
7)对种群p中的个体执行遗传算子操作和局部搜索,产生新的种群p*,过程如下:
7.1)对种群p中的个体随机两两配对,生成n/2对父本<pi,pj>,其中i,j均∈{1,2,...,n},且i≠j;
7.2)执行重组操作:对每一对父本,生成随机数rand1∈[0,1];当rand1≤pc,随机交换pi和pj的一个loop区域的残基二面角值,产生对应的新构象个体pi′,pj′,所有父本执行完重组操作后形成新的种群p′;
7.3)执行变异操作:对种群p′中的每一个个体pi′,其中i∈{1,2,...,n},进行变异,过程如下:
7.3.1)检测个体pi′的每一个滑动窗口wik中是否含有二级结构为loop的残基,其中k∈{1,2,...,l-f+1},l表示蛋白质序列的长度,f∈{3,9}表示片段的长度,第二、三阶段f=9,第四阶段f=3;
7.3.2)若wik中含有二级结构为loop残基:生成随机数rand2∈[0,1];rand2≤pm,执行一次片段插入,对该窗口中的loop残基进行变异;
7.3.3)遍历完所有窗口后,产生新的个体pi″;
7.3.4)所有个体执行完变异操作后形成新的种群p″;
7.4)执行局部搜索操作:对种群p″中的每一个个体pi″,其中i∈{1,2,...,n},使用rosetta协议相应阶段的片段组装进行局部搜索,产生新的个体pi*;所有个体执行完局部搜索操作后形成新的种群p*;
8)生成候选个体集合
8.1)候选个体的能量
8.2)候选个体的多样性
9)从候选个体集合中选择优秀个体进入下一代,过程如下:
9.1)根据构象的能量和多样性对候选个体进行排序;执行m次循环排序,每次循环执行步骤9.2);
9.2)设h=1,其中h∈{1,2,...,m-1},过程如下:
9.2.1)生成随机数rand3∈[0,1];
9.2.2)若
9.2.3)若
9.2.4)若
9.2.5)若rand3≤0.5且
9.2.6)若rand3>0.5且
9.2.7)h=h+1,若h≤m-1,转至9.2.1);否则,结束本次循环;
9.3)执行完m次循环排序后,生成有序的候选个体集合
9.4)选择集合
9.5)g=g+1,若g≤gmax,转至步骤7);否则,结束本阶段循环;
10)根据rosetta协议输出预测结果。
本实施例以序列长度为62的蛋白质1c8ca为实施例,一种基于多样性保留策略的蛋白质三维结构预测方法,其中包含以下步骤:
1)给定预测蛋白质序列信息1c8ca;
2)设置系统参数:种群规模n=100,种群的进化次数gmax=10,重组概率pc=0.1,变异概率pm=0.1;
3)第一阶段,种群初始化:迭代rosetta协议第一阶段的片段组装,产生具有n个个体的初始种群
4)第二、三、四阶段基于相应的rosetta协议,分别执行步骤5)至步骤9);
5)开始迭代,设g=1,其中种群代数g∈{1,2,...,gmax};
6)对种群pnew中的每一个个体pinew,其中i∈{1,2,...,n},使用rosetta协议相应阶段的片段组装进行构象搜索,产生下一代种群p={p1,p2,...,pn},g=g+1;
7)对种群p中的个体执行遗传算子操作和局部搜索,产生新的种群p*,过程如下:
7.1)对种群p中的个体随机两两配对,生成n/2对父本<pi,pj>,其中i,j均∈{1,2,...,n},且i≠j;
7.2)执行重组操作:对每一对父本,生成随机数rand1∈[0,1];当rand1≤pc,随机交换pi和pj的一个loop区域的残基二面角值,产生对应的新构象个体pi′,pj′,所有父本执行完重组操作后形成新的种群p′;
7.3)执行变异操作:对种群p′中的每一个个体pi′,其中i∈{1,2,...,n},进行变异,过程如下:
7.3.1)检测个体pi′的每一个滑动窗口wik中是否含有二级结构为loop的残基,其中k∈{1,2,...,l-f+1},l表示蛋白质序列的长度,f∈{3,9}表示片段的长度,第二、三阶段f=9,第四阶段f=3;
7.3.2)若wik中含有二级结构为loop残基:生成随机数rand2∈[0,1];rand2≤pm,执行一次片段插入,对该窗口中的loop残基进行变异;
7.3.3)遍历完所有窗口后,产生新的个体pi″;
7.3.4)所有个体执行完变异操作后形成新的种群p″;
7.4)执行局部搜索操作:对种群p″中的每一个个体pi″,其中i∈{1,2,...,n},使用rosetta协议相应阶段的片段组装进行局部搜索,产生新的个体pi*;所有个体执行完局部搜索操作后形成新的种群p*;
8)生成候选个体集合
8.1)候选个体的能量
8.2)候选个体的多样性
9)从候选个体集合中选择优秀个体进入下一代,过程如下:
9.1)根据构象的能量和多样性对候选个体进行排序;执行m次循环排序,每次循环执行步骤9.2);
9.2)设h=1,其中h∈{1,2,...,m-1},过程如下:
9.2.1)生成随机数rand3∈[0,1];
9.2.2)若
9.2.3)若
9.2.4)若
9.2.5)若rand3≤0.5且
9.2.6)若rand3>0.5且
9.2.7)h=h+1,若h≤m-1,转至9.2.1);否则,结束本次循环;
9.3)执行完m次循环排序后,生成有序的候选个体集合
9.4)选择集合
9.5)g=g+1,若g≤gmax,转至步骤7);否则,结束本阶段循环;
10)根据rosetta协议输出预测结果。
以序列长度为62的蛋白质1c8ca为实施例,运用以上方法得到了该蛋白质的近天然态构象,其构象更新示意图如图1所示;最小均方根偏差为
以上阐述是本发明给出的一个实施例表现出来的预测效果,显然本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。