一种基于距离相似度的蛋白质构象空间搜索方法与流程

文档序号:13542509阅读:253来源:国知局

本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于距离相似度的蛋白质构象空间搜索方法。



背景技术:

蛋白质是生命体的重要组成部分和生命活动的主要执行者。据估计,生命体的细胞中大约15-20%是蛋白质,是含量最高的有机物。蛋白质是由氨基酸以肽键相连而成的一条蛋白质序列,这些伸展链只有在折叠成特定的结构之后方能行使特定的生物学功能,因此了解蛋白质的三维结构是研究其生物功能及活性机理的基础。然而至今为止,人们仍不清楚蛋白质究竟如何由其一维序列折叠形成具有特定生物功能的三维结构。相对于翻译过程中的三联体遗传密码,蛋白质序列与其空间结构的对应关系常被称之为第二遗传密码。

目前蛋白质结构数据库pdb中所存储的蛋白质三维结构主要通过x射线晶体衍射、核磁共振成像和三维电镜重构技术得到。尽管上述三种研究方法已经比较成熟,但这些实验方法代价太高,且有各自的应用局限。因此在理论探索和应用需求的双重推动下,根据anfinsen法则,以序列为起点利用计算机技术设计适当的算法发展起来的蛋白质三级结构预测方法中,同源建模和穿线方法可以统称为基于模板的结构预测方法。不同于同源建模以及穿线方法,从头预测方法不依赖于任何已知结构,而是以第一性原理构建蛋白质折叠力场,再通过相应的构象搜索优化方法搜寻目标蛋白的天然结构。

蛋白质构象空间优化的本质复杂性,使其成为蛋白质从头预测领域中一个极具挑战性的研究课题。目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面由于能量函数不精确,所以在获得能量最优的构象时,并不能挑选出好的构象。

因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。



技术实现要素:

为了克服现有的蛋白质结构预测构象空间优化方法存在采样效率较低、预测精度较低的不足,本发明提出一种采样效率较高、预测精度高的基于距离相似度的蛋白质构象空间搜索方法。

本发明解决其技术问题所采用的技术方案是:

一种基于距离相似度的蛋白质构象空间搜索方法,所述方法包括以下步骤:1)给定输入序列信息;

2)参数初始化:设置种群规模pop_size,最大迭代次数gmax,交叉因子cr,初始种群搜索轨迹长度iteration,交叉片段长度fragment,变异计数器counter,变异计数器的最大计数值counter_max,每个个体xi,i∈{1,2,...,pop_size}的能量计算选用rosettascore3函数即e(xi),温度常数t,序列间隔num,先验知识中目标蛋白残基间的空间距离构成的初始特征向量v={v1,1+num,…,vk,k+num},k∈[1,length-num],其中vk,k+num是第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离,length为序列长度,选择概率ps;

3)初始化种群:启动pop_size条montecarlo轨迹,每条轨迹搜索iteration次,即生成pop_size个初始个体;

4)对每个目标个体xi,i=1,.2..,pop_size进行如下操作:

4.1)随机选取个体xj,j∈{1,2,...,pop_size}且j≠i,随机生成rand∈[0,1],若,rand≤cr则对个体xi和xj进行如下操作:

4.1.1)随机生成整数begin∈[1,length-fragment]作为交叉起始点,进而得到交叉区间[begin,end],其中begin+fragment=end为交叉终止点;

4.1.2)在交叉区间[begin,end]内依次交换交个体xi和xj相应的扭转角度,生成新个体x′i,x′j;

否则x′i=xi,x′j=xj,转至步骤4.2);

4.2)对个体x′i,x′j进行如下的变异操作生成变异个体x″i,x″j:

4.2.1)对个体x′i进行片段组装,利用rosettascore3函数e(xi)分别计算组装前后的能量值ei和e′j;

4.2.2)利用montecarlo机制即根据公式p(δe)=min{1,e-δe/t}>random判断是否接收该片段的插入,其中random∈[0,1]的随机数,δe是个体x′i的在组装前后的能量变化值即δe=e′j-ei;

4.2.3)如果接受则转至步骤4.2.5),否则转至4.2.4);

4.2.4)变异计数器counter开始计数;若counter≤counter_max则依次执行步骤4.2.1)、4.2.2)和4.2.3)直到成功变异生成个体x″i为止;否则执行步骤4.2.1)生成变异个体x″i;最后,计数器counter清零;

4.2.5)对个体x′j依次执行步骤4.2.1)、4.2.2)和4.2.3),生成变异个体x″j;

4.3)根据目标个体xi和变异个体x″i、x″j的能量和距离相似度进行选择,选出优势个体并更新种群,过程如下:

4.3.1)依次计算出目标个体xi的第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离进而得出目标特征向量

4.3.2)计算目标个体xi的距离相似度其中

4.3.3)对个体x″i执行步骤4.3.1)得出个体x″i对应的变异特征向量并根据计算出个体x″i相应的距离相似度sim_mutation_1;

4.3.4)对个体x″j依次执行步骤4.3.1)得出个体x″j对应的特变异征向量并根据计算出个体x″j对应的距离相似度sim_mutation_2;

4.3.5)根据rosettascore3函数分别计算出目标个体xi和个体x″i、x″j的能量值分别为energy_object,energy_mutation_1,energy_mutation_2;

4.3.6)在个体xi和个体x″i、x″j中,如果某一个体y∈{xi,x″i,x″j}的能量值和距离相似度均小于其他两个个体的能量值和距离相似度,则该个体为优势个体;如果某一个体y′∈{xi,x″i,x″j}能量值小于其他两个个体的能量值,则随机生成rand_pro1∈(0,1),如果rand_pro1≤ps则将该个体设为优势个体;同理,如果某一个体y″∈{xi,x″i,x″j}的对应相似度是最小的,则随机生成rand_pro2∈(0,1),如果rand_pro2≤ps则将该个体设为优势个体;最后,优势个体替代目标个体,更新种群;

5)判断是否达到最大迭代代数gmax,若达到,则输出结果,否则转至步骤4)。

本发明的技术构思为:在遗传算法的基本框架下,对每个目标个体完成交叉和变异操作;计算出目标个体残基间的空间距离值,并由这些空间距离值构成目标特征向量;然后,求出目标个体的特征向量与先验知识中目标蛋白的初始特征向量的manhattan距离;同理,计算得到变异个体对应的变异特征向量以及对应的manhattan距离;最后,根据manhattan距离值和能量值选出优势个体,更新种群。

本发明的有益效果表现在:一方面通过加入残基间的空间距离信息指导种群更新,降低了由于能量函数不精确带来的误差,进而大大提高了预测精度;另一方面,在遗传算法的框架下,通过个体间的信息交互,有效地加快了收敛速度。

附图说明

图1是基于距离相似度的蛋白质构象空间搜索方法的基本流程图。

图2是基于距离相似度的蛋白质构象空间搜索方法对蛋白质1ail进行结构预测时的构象更新示意图。

图3是基于距离相似度的蛋白质构象空间搜索方法对蛋白质1ail进行结构预测得到的三维结构图。

下面结合附图对本发明作进一步描述。

参照图1,一种基于距离相似度的蛋白质构象空间搜索方法,所述方法包括以下步骤:

1)给定输入序列信息;

2)参数初始化:设置种群规模pop_size,最大迭代次数gmax,交叉因子cr,初始种群搜索轨迹长度iteration,交叉片段长度fragment,变异计数器counter,变异计数器的最大计数值counter_max,每个个体xi,i∈{1,2,...,pop_size}的能量计算选用rosettascore3函数即e(xi),温度常数t,序列间隔num,先验知识中目标蛋白残基间的空间距离构成的初始特征向量v={v1,1+num,…,vk,k+num},k∈[1,length-num],其中vk,k+num是第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离,length为序列长度,选择概率ps;

3)初始化种群:启动pop_size条montecarlo轨迹,每条轨迹搜索iteration次,即生成pop_size个初始个体;

4)对每个目标个体xi,i=1,.2..,pop_size进行如下操作:

4.1)随机选取个体xj,j∈{1,2,...,pop_size}且j≠i,随机生成rand∈[0,1],若rand≤cr,则对个体xi和xj进行如下操作:

4.1.1)随机生成整数begin∈[1,length-fragment]作为交叉起始点,进而得到交叉区间[begin,end],其中begin+fragment=end为交叉终止点;

4.1.2)在交叉区间[begin,end]内依次交换交个体xi和xj相应的扭转角度,生成新个体x′i,x′j;

否则x′i=xi,x′j=xj,转至步骤4.2);

4.2)对个体x′i,x′j进行如下的变异操作生成变异个体x″i,x″j:

4.2.1)对个体x′i进行片段组装,利用rosettascore3函数e(xi)分别计算组装前后的能量值ei和e′j;

4.2.2)利用montecarlo机制即根据公式p(δe)=min{1,e-δe/t}>random判断是否接收该片段的插入,其中random∈[0,1]的随机数,δe是个体x′i的在组装前后的能量变化值即δe=e′j-ei;

4.2.3)如果接受则转至步骤4.2.5)否则转至4.2.4);

4.2.4)变异计数器counter开始计数;若counter≤counter_max则依次执行步骤4.2.1)、4.2.2)和4.2.3)直到成功变异生成个体x″i为止;否则执行步骤4.2.1)生成变异个体x″i;最后,计数器counter清零;

4.2.5)对个体x′j依次执行步骤4.2.1)、4.2.2)和4.2.3),生成变异个体x″j;

4.3)根据目标个体xi和变异个体x″i、x″j的能量和距离相似度进行选择,选出优势个体并更新种群,过程如下:

4.3.1)依次计算出目标个体xi的第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离进而得出目标特征向量

4.3.2)计算目标个体xi的距离相似度其中

4.3.3)对个体x″i执行步骤4.3.1)得出个体x″i对应的变异特征向量并根据计算出个体x″i相应的距离相似度sim_mutation_1;

4.3.4)对个体x″j依次执行步骤4.3.1)得出个体x″j对应的特变异征向量并根据计算出个体x″j对应的距离相似度sim_mutation_2;

4.3.5)根据rosettascore3函数分别计算出目标个体xi和个体x″i、x″j的能量值分别为energy_object,energy_mutation_1,energy_mutation_2;

4.3.6)在个体xi和个体x″i、x″j中,如果某一个体y∈{xi,x″i,x″j}的能量值和距离相似度均小于其他两个个体的能量值和距离相似度,则该个体为优势个体;如果某一个体y′∈{xi,x″i,x″j}能量值小于其他两个个体的能量值,则随机生成rand_pro1∈(0,1),如果rand_pro1≤ps则将该个体设为优势个体;同理,如果某一个体y″∈{xi,x″i,x″j}的对应相似度是最小的,则随机生成rand_pro2∈(0,1),如果rand_pro2≤ps则将该个体设为优势个体;最后,优势个体替代目标个体,更新种群;

5)判断是否达到最大迭代代数gmax,若达到,则输出结果,否则转至步骤4)。

本实施例序列长度为73的α折叠蛋白质1ail为实施例,一种基于距离相似度的蛋白质构象空间搜索方法,其中包含以下步骤:

1)给定输入序列信息;

2)参数初始化:设置种群规模pop_size=200,最大迭代次数gmax=2000,交叉因子cr=0.2,初始种群搜索轨迹长度iteration=2000,交叉片段长度fragment=10,变异计数器counter=0,变异计数器的最大计数值counter_max=180,每个个体xi,i∈{1,2,...,pop_size}的能量计算选用rosettascore3函数即e(xi),温度常数t=1.0,序列间隔num=12,先验知识中目标蛋白残基间的空间距离构成的初始特征向量

v={17.1464,19.129,18.6282,17.9766,18.5772,18.7352,18.3429,18.3492,18.6279,18.8569,18.5884,18.3507,18.7652,19.0128,15.4944,13.0087,16.5593,16.7067,12.3491,9.90485,13.2189,11.1662,11.5657,16.0647,18.3544,17.7165,15.4455,19.0615,18.6153,17.9831,18.5417,18.9288,18.5712,17.75,18.3225,18.973,18.6613,17.6526,14.6372,14.5429,11.9636,11.586,13.0452,13.7966,13.2067,14.0456,17.2461,18.133,19.1153,16.4519,18.455,18.2959,18.9458,19.005,18.3367,18.6687},选择概率ps=0.5;

3)初始化种群:启动pop_size条montecarlo轨迹,每条轨迹搜索iteration次,即生成pop_size个初始个体;

4)对每个目标个体xi,i=1,.2..,pop_size进行如下操作:

4.1)随机选取个体xj,j∈{1,2,...,pop_size}且j≠i,随机生成rand∈[0,1],若rand≤cr则对个体xi和xj进行如下操作:

4.1.1)随机生成整数begin∈[1,length-fragment]作为交叉起始点,进而得到交叉区间[begin,end],其中begin+fragment=end为交叉终止点;

4.1.2)在交叉区间[begin,end]内依次交换交个体xi和xj相应的扭转角度,生成新个体x′i,x′j;

否则x′i=xi,x′j=xj,转至步骤4.2);

4.2)对个体x′i,x′j进行如下的变异操作生成变异个体x″i,x″j:

4.2.1)对个体x′i进行片段组装,利用rosettascore3函数e(xi)分别计算组装前后的能量值ei和e′j;

4.2.2)利用montecarlo机制即根据公式p(δe)=min{1,e-δe/t}>random判断是否接收该片段的插入,其中random∈[0,1]的随机数,δe是个体x′i的在组装前后的能量变化值即δe=e′j-ei;

4.2.3)如果接受则转至步骤4.2.5)否则转至4.2.4);

4.2.4)变异计数器counter开始计数;若counter≤counter_max则依次执行步骤4.2.1)、4.2.2)和4.2.3)直到成功变异生成个体x″i为止;否则执行步骤4.2.1)生成变异个体x″i;最后,计数器counter清零;

4.2.5)对个体x′j依次执行步骤4.2.1)、4.2.2)和4.2.3),生成变异个体x″j;

4.3)根据目标个体xi和变异个体x″i、x″j的能量和距离相似度进行选择,选出优势个体并更新种群,过程如下:

4.3.1)依次计算出目标个体xi的第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离进而得出目标特征向量

4.3.2)计算目标个体xi的距离相似度其中

4.3.3)对个体x″i执行步骤4.3.1)得出个体x″i对应的变异特征向量并根据计算出个体x″i相应的距离相似度sim_mutation_1;

4.3.4)对个体x″j依次执行步骤4.3.1)得出个体x″j对应的特变异征向量并根据计算出个体x″j对应的距离相似度sim_mutation_2;

4.3.5)根据rosettascore3函数分别计算出目标个体xi和个体x″i、x″j的能量值分别为energy_object,energy_mutation_1,energy_mutation_2;

4.3.6)在个体xi和个体x″i、x″j中,如果某一个体y∈{xi,x″i,x″j}的能量值和距离相似度均小于其他两个个体的能量值和距离相似度,则该个体为优势个体;如果某一个体y′∈{xi,x″i,x″j}能量值小于其他两个个体的能量值,则随机生成rand_pro1∈(0,1),如果rand_pro1≤ps则将该个体设为优势个体;同理,如果某一个体y″∈{xi,x″i,x″j}的对应相似度是最小的,则随机生成rand_pro2∈(0,1),如果rand_pro2≤ps则将该个体设为优势个体;最后,优势个体替代目标个体,更新种群;

5)判断是否达到最大迭代代数gmax,若达到,则输出结果,否则转至步骤4)。

以序列长度为73的α折叠蛋白质1ail为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为平均均方根偏差为预测结构如图3所示。

以上说明是本发明以1ail蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1