一种基于副本交换的群体构象空间优化方法

文档序号:8543930阅读:350来源:国知局
一种基于副本交换的群体构象空间优化方法
【技术领域】
[0001] 本发明设及生物信息学、计算机应用领域,尤其设及的是一种基于副本交换的群 体构象空间优化方法。
【背景技术】
[0002] 生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究 成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因 表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。目前, 根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,捜索分子 系统的最小能量状态,从而高通量、廉价地预测肤链的天然构象,已经成为生物信息学最重 要的研究课题之一。对于序列相似度低或多肤(<1〇个残基的小蛋白)来说,从头预测方法 是唯一的选择。从头预测方法必须考虑W下两个因素;(1)蛋白质结构能量函数;(2)构象 空间捜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白 质结构对应的能量值。目前已经存在一些有效的结构能量函数,如简单网格模型HP及更实 际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上 属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速捜索,得到与某一 全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。 2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精 度的一个瓶颈因素。
[0003] 因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足, 需要改进。

【发明内容】

[0004] 为了克服现有的构象空间优化方法存在采样效率较低、复杂度较高、预测精度较 低的不足,本发明提出一种基于副本交换的群体构象空间优化方法;在基本差分进化算法 值巧的框架下,首先在每个温度层通过对查询序列进行随机的折叠和变换生成一个初始种 群;在种群更新中,WRosettaScore3为优化目标函数,基于Anfinsen提出的蛋白质天然 态结构时自由能最低的结构,在每一个温度层中依次将种群中的每个个体作为目标个体, 然后随机选取和目标个体不一样的两个个体进行变异交叉产生变异个体,再将另一个个体 随机选取一段与变异个体进行交换产生测试个体,再将测试个体与目标个体进行能量值比 较,根据能量值判断是否接受测试个体。在更新完种群后,将相邻两个温度层之间种群个体 进行副本交换来增加种群的多样性,通过不断更新种群W及副本交换获得一系列亚稳态构 象。本发明提供了一种预测精度较高、复杂度较低的构象空间优化方法。
[0005] 本发明解决其技术问题所采用的技术方案是:
[0006] 一种基于副本交换的群体构象空间优化方法,所述优化方法包括W下步骤:
[0007] 1)初始化;设置群体规模popSize,变异因子F,交叉概率CR,8个温度层T,迭代次 数iteration,能量函数选用RosettaScore3,首先在每个温度层通过对查询序列随机的折 叠和变换,生成一个规模为popSize的初始种群,初始群体为Pt={x11iG1},计算目标函 数值fT(xi),iGI,并设八=n_l;n./'(y),其中i为种群个体编号,I为种群个体编号集合,I ={1,2,. . .,popSize},克为对应温度层目标函数值中的最小值,T为温度层;
[000引 2)变异、交叉生成测试个体X' 1;对每个目标个体XI(i= 1, 2,…,popSize) 作如下处理:
[0009] 2. 1)令i= 1 ;
[0010] 2. 2)任意选取S个个体{x。,yb,X。Ia,b,CG(1, 2, . . . ,popSize},a声b声C声i}; [OCm] 2.3)根据公式(1)对{xa,xb,xe}执行变异操作,生成变异个体
[0012]
【主权项】
1. 一种基于副本交换的群体构象空间优化方法,其特征在于:所述优化方法包括以下 步骤: 1) 初始化:设置群体规模popSize,变异因子F,交叉概率CR,8个温度层T,迭代次数 iteration,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折叠 和变换,生成一个规模为popSize的初始种群,初始群体为P t= {x 11 i e 1},计算目标函数 值心〇0,1 e I,并设其中i为种群个体编号,〗为种群个体编号集合J = {1,2,. . .,popSize},/j*为对应温度层目标函数值中的最小值,T为温度层; 2) 变异、交叉生成测试个体X' %对每个目标个体X 1E I Q = 1,2,…,popSize)作如 下处理: 2. 1)令 i = 1 ; 2. 2)任意选取三个个体{xa, xb, xc I a, b, c e {1,2, · · ·,popSize},a 辛 b 辛 c 辛 i}; 2.3) 根据公式(1)对{χ3,Λχε}执行变异操作,生成变异个体史; .Vi=x·' +F-ix^-x1) (I) 2.4) 根据公式⑵对目标个体Xi和变异个体史执行交叉操作,生成测试个体X' S其 中,randb(0, 1)表示为产生0到1之间的随机小数,rnbr(k)表示随机产生1到N之间的整 数; 其中k为累引編兮;
2. 5) i = i+Ι ;如果 i〈popSize 转至 2. 2); 3) 根据Anfinsen提出的天然构象的蛋白质处于热力学最低的能量状态,比较测试个 体X' 1和目标个体X 1G I Q = 1,2,…,popSize)的能量函数值,选择能量函数值较低的 个体从而更新种群; 4) 在每个温度层都进行变异、交叉和选择更新完种群后,将相邻的温度层的对应个体 进行副本交换: 4. 1)首先选择种群中第i个个体,i e I Q = 1,2,…,popSize); 4. 2)选择两个相邻的温度层Tj和T J+1,j = 1,2,…,7 ; 4. 3)产生一个随机数randl e (〇, 1),和判别数judge
其中/(.<) (/ = UnopSize)为种群个体4,的能量值,Tj (j = 2,…,7)为第j个温 度层的开尔文温度,j为索引编号; 4. 4)若randl < judge,将相邻温度层中的4,+1和4,个体进行交换;
6) 判断是否满足终止条件到达迭代次数iteration,如不满足则转至2); 7) 如满足终止条件,则输出结果。
【专利摘要】一种基于副本交换的群体构象空间优化方法,首先在每个温度层通过对查询序列进行随机的折叠和变换生成一个初始种群;在种群更新中,以Rosetta Score3为优化目标函数,在每一个温度层中依次将种群中的每个个体作为目标个体,然后随机选取和目标个体不一样的两个个体进行变异、交叉产生变异个体,再将另一个个体随机选取一段与变异个体进行交换产生测试个体,再将测试个体与目标个体进行能量值比较,根据能量值判断是否接受测试个体。在更新完种群后,将相邻两个温度层之间种群个体进行副本交换来增加种群的多样性,通过不断更新种群以及副本交换获得一系列亚稳态构象。本发明提供了一种预测精度较高、复杂度较低的构象空间优化方法。
【IPC分类】G06F19-18
【公开号】CN104866733
【申请号】CN201510157605
【发明人】张贵军, 俞旭锋, 郝小虎, 周晓根, 陈凯, 徐东伟
【申请人】浙江工业大学
【公开日】2015年8月26日
【申请日】2015年4月3日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1