一种基于全局和局部策略协作的群体蛋白质结构预测方法与流程

文档序号:16906688发布日期:2019-02-19 18:23阅读:179来源:国知局
一种基于全局和局部策略协作的群体蛋白质结构预测方法与流程

本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于全局和局部策略协作的群体蛋白质结构预测方法。



背景技术:

1965年,nirenberg和khorana等发现三联体遗传密码(即第一遗传密码),dna以三个核苷酸为一组的密码子转译为蛋白质氨基酸序列(即蛋白质一级结构);而蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能。相对于第一遗传密码,蛋白质序列一级结构与其三级结构之间的对应关系(即第二遗传密码或称折叠密码)仍为未解之谜。为了解决蛋白质折叠这一“世纪之问”,越来越多的具有不同学科背景的研究者参与其中,特别是针对蛋白质折叠过程的终点—蛋白质结构预测,受到了科学界广泛的关注和研究。相对蛋白质折叠而言,蛋白质结构预测具有更强的实用性,只有获得蛋白质的三维结构,才能真正实现基因诊断,并最终达到基因治疗的目的。

目前,测定蛋白质三维结构的实验方法包括x射线晶体衍射、多维核磁共振(nmr)和冷冻电镜等。x射线晶体衍射是目前测定蛋白质结构最有效的方法,所达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;nmr方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。其次,这些实验测定方法价格昂贵,测定一个蛋白质的三维结构需要几十万美元,然而,测定一个蛋白质的一级氨基酸序列仅需1000美元左右,从而导致蛋白质序列和三维结构测定之间的鸿沟越来越大。因此,如何以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种重要的研究课题。

构象空间优化(或称采样)方法是目前制约蛋白质结构从头预测精度最关键的因素之一。差分进化算法(differentialevolution,de)作为进化算法中最强大的算法,是price和storn在1995年提出的一种随机性算法。de算法由于结构简单、收敛速度快、鲁棒性强等优点,在蛋白质构象空间优化领域有了广泛的应用。sudha等提出一种基于局部策略的差分进化蛋白质结构预测方法;custodio等提出一种局域基于相似度代理模型的群体蛋白质结构预测预测方法;shehu研究小组基于de算法,提出一系列有效的蛋白质构象空间优化方法,如多尺度混合进化算法hea和多目标构象空间优化方法moea等。实验结果表明,上述算法可以有效的预测得到一些小规模的蛋白质结构。然而,随着蛋白规模的增大,构象搜索空间也随之上升,由于de算法全局探测能力较强,而局部搜索能力较弱,从而导致后期搜索效率较低;其次,能量曲面极其复杂,包含上千个局部搜索区域,导致算法容易陷入局部最优,从而影响预测精度。

因此,现有的蛋白质结构预测方法在预测精度和搜索效率方面存在着缺陷,需要改进。



技术实现要素:

为了克服现有蛋白质结构预测方法的预测精度和搜索效率较低的不足,本发明提出一种预测精度和搜索效率均较高的基于全局和局部策略协作的群体蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是:

一种基于全局和局部策略协作的群体蛋白质结构预测方法,所述方法包括以下步骤:

1)输入待测蛋白质的序列信息,并从robetta服务器(http://www.robetta.org/)上得到片段库;

2)参数设置:设置种群规模np,交叉概率cr,片段长度l,温度因子kt,最大迭代次数gmax,并初始化迭代次数g=0;

3)从对各残基位对应的片段库中随机选择片段组装生成初始构象种群p={c1,c2,...,cnp},其中,ci,i={1,2,…,np}为种群p中的第i个构象个体;

4)对种群中的每个构象ci,i∈{1,2,…,np}执行全局策略,过程如下:

4.1)将构象ci看作目标构象,从当前种群中随机选择四个互不相同且与目标构象不同的构象ca、cb、cc和cd;

4.2)分别从构象ca和cb中随机选择一个残基位不同的片段替换构象cc中对应位置的片段,生成第一个变异构象

4.3)分别从ca、cb和cc中随机选择一个残基位不同的片段替换目标构象ci中对应位置的片段,生成第二个变异构象

4.4)分别从ca、cb和cc中随机选择一个残基位不同的片段替换目标构象cd中对应位置的片段,生成第三个变异构象

4.5)随机生成一个0和1之间的小数r,如果r<cr,则从构象ci中随机选取一个长度为l的片段分别替换变异构象中对应位置的片段,并进行一次随机片段组装,从而生成测试构象否则直接将变异构象进行一次随机片段组装生成测试构象

4.6)根据rosettascore3能量函数分别计算测试构象和ci的能量值,并将中能量值最低的构象看作最优测试构象ctrial;

4.7)如果ctrial的能量值小于ci的能量值,则ctrial替换ci,否则根据玻尔兹曼概率用ctrial替换ci,其中δe为ctrial的能量值与ci的能量值误差的绝对值;

5)对步骤4)得到的新种群中的每个构象ci,i∈{1,2,…,np}执行局部策略,过程如下:

5.1)找出种群中能量值低于构象ci的所有构象如果这些构象的数量m>1,则继续步骤5.2),否则转到步骤5.6);

5.2)从中随机选择一个构象并从整个种群中随机选择三个互不相同的,且与和ci也不同的构象ce、cf和cg;

5.3)分别从构象ce和cf中随机选择一个残基位不同的片段替换构象中对应位置的片段,生成变异构象

5.4)分别从构象ce和中随机选择一个残基位不同的片段替换构象ci中对应位置的片段,生成变异构象

5.5)分别从构象ce、cf和cg中随机选择一个残基位不同的片段替换构象中对应位置的片段,生成变异构象

5.6)根据步骤4.1)~4.4)生成变异构象

5.7)将分别看作根据步骤4.5)~4.7)更新种群;

6)g=g+1,如果g>gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤4)。

本发明的技术构思为:在差分进化算法框架下,针对每个构象,首先执行全局变异策略,实行对构象空间的全局探测,从而得到有潜力的区域;然后执行局部变异策略,对探测得到的区域进行局部搜索,从而得到较优的构象。在全局探测过程中,通过随机选择的构象进行片段交换同时生成测试多个构象,并选择能量最低的测试构象;在局部搜索过程中,选择比目标构象较优的构象与随机选择的构象进行片段交换生成多个测试构象,并选择能量较低的构象。通过全局策略和局部策略的写作达到平衡多样性和收敛速度之间的关系。本发明提供一种预测精度和搜索效率均较高的基于全局和局部策略协作的群体蛋白质结构预测方法。

本发明的有益效果表现在:通过全局策略指导变异,保持种群多样性;通过局部策略指导变异,加快收敛速度;因此,全局策略和局部策略协作,既可以提高搜索效率,又可以提高预测精度。

附图说明

图1是基于全局和局部策略协作的群体蛋白质结构预测方法对蛋白质1i6c进行结构预测时的构象更新示意图。

图2是基于全局和局部策略协作的群体蛋白质结构预测方法对蛋白质1i6c进行结构预测时得到的构象分布图。

图3是基于全局和局部策略协作的群体蛋白质结构预测方法对蛋白质1i6c进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1~图3,一种基于全局和局部策略协作的群体蛋白质结构预测方法,包括以下步骤:

1)输入待测蛋白质的序列信息,并从robetta服务器(http://www.robetta.org/)上得到片段库;

2)参数设置:设置种群规模np,交叉概率cr,片段长度l,温度因子kt,最大迭代次数gmax,并初始化迭代次数g=0;

3)从对各残基位对应的片段库中随机选择片段组装生成初始构象种群p={c1,c2,...,cnp},其中,ci,i={1,2,…,np}为种群p中的第i个构象个体;

4)对种群中的每个构象ci,i∈{1,2,…,np}执行全局策略,过程如下:

4.1)将构象ci看作目标构象,从当前种群中随机选择四个互不相同且与目标构象不同的构象ca、cb、cc和cd;

4.2)分别从构象ca和cb中随机选择一个残基位不同的片段替换构象cc中对应位置的片段,生成第一个变异构象

4.3)分别从ca、cb和cc中随机选择一个残基位不同的片段替换目标构象ci中对应位置的片段,生成第二个变异构象

4.4)分别从ca、cb和cc中随机选择一个残基位不同的片段替换目标构象cd中对应位置的片段,生成第三个变异构象

4.5)随机生成一个0和1之间的小数r,如果r<cr,则从构象ci中随机选取一个长度为l的片段分别替换变异构象中对应位置的片段,并进行一次随机片段组装,从而生成测试构象否则直接将变异构象进行一次随机片段组装生成测试构象

4.6)根据rosettascore3能量函数分别计算测试构象和ci的能量值,并将中能量值最低的构象看作最优测试构象ctrial;

4.7)如果ctrial的能量值小于ci的能量值,则ctrial替换ci,否则根据玻尔兹曼概率用ctrial替换ci,其中δe为ctrial的能量值与ci的能量值误差的绝对值;

5)对步骤4)得到的新种群中的每个构象ci,i∈{1,2,…,np}执行局部策略,过程如下:

5.1)找出种群中能量值低于构象ci的所有构象如果这些构象的数量m>1,则继续步骤5.2),否则转到步骤5.6);

5.2)从中随机选择一个构象并从整个种群中随机选择三个互不相同的,且与和ci也不同的构象ce、cf和cg;

5.3)分别从构象ce和cf中随机选择一个残基位不同的片段替换构象中对应位置的片段,生成变异构象

5.4)分别从构象ce和中随机选择一个残基位不同的片段替换构象ci中对应位置的片段,生成变异构象

5.5)分别从构象ce、cf和cg中随机选择一个残基位不同的片段替换构象中对应位置的片段,生成变异构象

5.6)根据步骤4.1)~4.4)生成变异构象

5.7)将分别看作根据步骤4.5)~4.7)更新种群;

6)g=g+1,如果g>gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤4)。

本实施例序列长度为39的β折叠蛋白质1i6c为实施例,一种基于全局和局部策略协作的群体蛋白质结构预测方法,其中包含以下步骤:

1)输入待测蛋白质的序列信息,并从robetta服务器(http://www.robetta.org/)上得到片段库;

2)参数设置:设置种群规模np=100,交叉概率cr=0.5,片段长度l=9,温度因子kt=2,最大迭代次数gmax=1000,并初始化迭代次数g=0;

3)从对各残基位对应的片段库中随机选择片段组装生成初始构象种群p={c1,c2,...,cnp},其中,ci,i={1,2,…,np}为种群p中的第i个构象个体;

4)对种群中的每个构象ci,i∈{1,2,…,np}执行全局策略,过程如下:

4.1)将构象ci看作目标构象,从当前种群中随机选择四个互不相同且与目标构象不同的构象ca、cb、cc和cd;

4.2)分别从构象ca和cb中随机选择一个残基位不同的片段替换构象cc中对应位置的片段,生成第一个变异构象

4.3)分别从ca、cb和cc中随机选择一个残基位不同的片段替换目标构象ci中对应位置的片段,生成第二个变异构象

4.4)分别从ca、cb和cc中随机选择一个残基位不同的片段替换目标构象cd中对应位置的片段,生成第三个变异构象

4.5)随机生成一个0和1之间的小数r,如果r<cr,则从构象ci中随机选取一个长度为l的片段分别替换变异构象中对应位置的片段,并进行一次随机片段组装,从而生成测试构象否则直接将变异构象进行一次随机片段组装生成测试构象

4.6)根据rosettascore3能量函数分别计算测试构象和ci的能量值,并将中能量值最低的构象看作最优测试构象ctrial;

4.7)如果ctrial的能量值小于ci的能量值,则ctrial替换ci,否则根据玻尔兹曼概率用ctrial替换ci,其中δe为ctrial的能量值与ci的能量值误差的绝对值;

5)对步骤4)得到的新种群中的每个构象ci,i∈{1,2,…,np}执行局部策略,过程如下:

5.1)找出种群中能量值低于构象ci的所有构象如果这些构象的数量m>1,则继续步骤5.2),否则转到步骤5.6);

5.2)从中随机选择一个构象并从整个种群中随机选择三个互不相同的,且与和ci也不同的构象ce、cf和cg;

5.3)分别从构象ce和cf中随机选择一个残基位不同的片段替换构象中对应位置的片段,生成变异构象

5.4)分别从构象ce和中随机选择一个残基位不同的片段替换构象ci中对应位置的片段,生成变异构象

5.5)分别从构象ce、cf和cg中随机选择一个残基位不同的片段替换构象中对应位置的片段,生成变异构象

5.6)根据步骤4.1)~4.4)生成变异构象

5.7)将分别看作根据步骤4.5)~4.7)更新种群;

6)g=g+1,如果g>gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤4)。

以序列长度为39的β折叠蛋白质1i6c为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为平均均方根偏差为预测结构如图3所示。

以上说明是本发明以蛋白质1i6c为实例所得到的结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1