一种基于距离谱的群体构象空间优化方法

文档序号:9235644阅读:612来源:国知局
一种基于距离谱的群体构象空间优化方法
【技术领域】
[0001] 本发明设及生物信息学、计算机应用领域,尤其设及的是一种基于距离谱的群体 构象空间优化方法。
【背景技术】
[0002] 生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究 成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因 表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。目前, 根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,捜索分子 系统的最小能量状态,从而高通量、廉价地预测肤链的天然构象,已经成为生物信息学最重 要的研究课题之一。对于序列相似度低或多肤(<1〇个残基的小蛋白)来说,从头预测方法 是唯一的选择。从头预测方法必须考虑W下两个因素;(1)蛋白质结构能量函数;(2)构象 空间捜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白 质结构对应的能量值。目前已经存在一些有效的结构能量函数,如简单网格模型HP及更实 际的经验力场模型MM3, AMBER, CHARMM,GROMOS,DISCOVER, ECEPP/3等;第二个因素本质上 属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速捜索,得到与某一 全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。 2005年,D. Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精 度的一个瓶颈因素。
[0003] 因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足, 需要改进。

【发明内容】

[0004] 为了克服现有的构象空间优化方法存在采样效率较低、复杂度较高、预测精度较 低的不足,本发明提出一种基于距离谱的群体构象空间优化方法,在基本差分进化算法框 架下,引入表示空间中各个位置上残基的相互距离的距离谱来提高构象空间优化算法的有 效性,距离谱根据查询序列中残基和模板中残基的序列谱、二级结构类型、溶剂可达性、中 屯、原子二面角等构建得到。首先初始化构象,在每个温度层对查询序列进行随机的折叠和 变换生成一个初始化种群;在每个温度层中依次将种群中每个个体作为目标个体,随机选 取和目标个体不一样的两个个体进行变异,根据距离谱来判断是否接受变异个体,然后再 将另一个个体与变异个体产生测试个体,根据能量判断是否接受构象。在更新完种群后,将 相邻两个温度层之间种群个体进行副本交换来增加种群的多样性,通过不断更新种群W及 副本交换获得一系列亚稳态构象。本发明提供了一种预测精度较高、复杂度较低的构象空 间优化方法。
[0005] 本发明解决其技术问题所采用的技术方案是:
[0006] 一种基于距离谱的群体构象空间优化方法,所述优化方法包括W下步骤:
[0007] 1)初始化;设置群体规模popSize,变异因子F,交叉概率CR,8个温度层T,迭代次 数iteration,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折 叠和变换,生成一个规模为popSize的初始种群,初始群体为Pt= {xi|i G I},计算目标函 数值W,i E I,并设二|皆、/(.、.'),其中1为种群个体编号,I为种群个体编号集合,I ={1, 2,. . . , popSize},为对应温度层目柄;函数值中的最小值,T为温度层;
[000引 2)变异、交叉生成测试个体X'1;对每个目标个体XI (i=1, 2,…,popSize) 作如下处理:
[0009] 2. 1)令 i = 1 ;
[0010] 2. 2)任意选取S个个体{x。, yb, X。I a, b, C G (1, 2, . . . , popSize}, a 声 b 声 C 声 i}; [ocm] 2.3)根据公式(1)对{xa,A xl执行变异操作及片段组装,生成变异个体若;
[0012]义=_Y"+F.(y-x) (n
[0013] 2. 4)对变异个体i'?进行片段组装生成组装个体皆,,根据距离谱对组装个体為, 进行判断,接受概率Accept_prob油ility为;
[0014]
[001引残基i到残基j之间的距离为FA_i j,距离谱中i到j之间的距离Profile_i j,则 在公式(2)中06¥131:;[0]1 =油3(。4_。'斗1'〇^16_。')。随机产生一个0到1之间的随机数 rand_Acc巧t,若Accept_prob油ility〉rand_Acc巧t,则用组装个体卷J代替变异个体文'。
[0016] 2.5)根据公式(3)对目标个体xi和变异个体义执行交叉操作,生成测试个体 X' 1,其中,ran化化1)表示为产生0到1之间的随机小数,rnbr(k)表示随机产生1到N 之间的整数;
[0017]
[001引其中k为索引编号;
[0019] 2. 6) i = i+1 ;如果;KpopSize 转至 2. 2);
[0020] 3)根据Anfinsen提出的天然构象的蛋白质处于热力学最低的能量状态,比较测 试个体X' i和目标个体I(i = 1,2,…,popSize)的能量函数值,选择能量函数值较 低的个体从而更新种群;
[0021] 4)在每个温度层都进行变异、交叉和选择更新完种群后,将相邻的温度层的对应 个体进行副本交换:
[0022] 4. 1)首先选择种群中第i个个体,i G I (i = 1,2,…,popSize);
[002引 4.。选择两个相邻的温度层Tj和T W,j = 1,2,…,7 ;
[0024] 4. 3)产生一个随机数randl G (0, 1),和判别数化dge
[0025]
[0026] 其中/(4)(,' = 1,2....,口〇?化6)为种群个体奇的能量值,1'^〇 = 1,2,...,7)为第^- 个温度层的开尔文温度,j为索引编号;
[0027] 4. 4)若randl<化dge,将相邻温度层中的嗦,和而个体进行交换;
[0028] 5)置/* = 1加1/(.\:;); i&I
[0029] 6)判断是否满足终止条件到达迭代次数iteration,如不满足则转至2);
[0030] 7)如满足终止条件,则输出结果。
[0031] 本发明的有益效果为:距离谱是根据查询序列中残基和模板中残基的序列谱、二 级结构类型、溶剂可达性、中屯、原子二面角等等构建出的空间中各个位置上残基的相互距 离。蛋白质结构预测是基于差分进化算法值巧的框架。首先初始化构象,在每个温度层对 查询序列进行随机的折叠和变换生成一个初始化种群;在每个温度层中依次将种群中每个 个体作为目标个体,随机选取和目标个体不一样的两个个体进行变异,根据距离谱来判断 是否接受变异个体,然后再将另一个个体与变异个体产生测试个体,根据能量判断是否接 受构象。在更新完种群后,将相邻两个温度层之间种群个体进行副本交换来增加种群的多 样性,通过不断更新种群W及副本交换获得一系列亚稳态构象。本发明提供了一种预测精 度较高、复杂度较低的构象空间优化方法。
【附图说明】
[0032] 图1是测试序列在种群更新过程中MSD和能量值的关系示意图。
【具体实施方式】:
[0033] 下面结合附图对本发明作进一步描述。
[0034] 参照图1,一种基于距离谱的群体构象空间优化方法,所述构象空间优化方法包括 W下步骤:
[0035] 1)初始化;设置群体规模popSize,变异因子F,交叉概率CR,8个温度层T,迭代次 数iteration,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折 叠和变换,生成一个规模为popSize的初始种群,初始群体为Pt= {xi|i G I},计算目标函 数值fT(xi),i E I,并设/;' = 11;1^尸八〇'其中1为种群个体编号,1为种群个体编号集合,1 ={1, 2,. . . ,popSize},.片为对应温度层目柄;函数值中的最小值,T为温度层;
[0036] 。变异、交叉生成测试个体X'1;对每个目标个体XlE I (i = 1, 2,…,popSize) 作如下处理:
[0037] 2. 1)令 i = 1 ;
[0038] 2. 2)任意选取S个个体{x。, yb, X。I a,b,CG (1, 2, . . . , popSize}, a 声b声C声 i};
[0039] 2. 3)根据公式(1)对{x。,xb,xl执行变异操作及片段组装,生成变异个体方;
[0040] 义.=-Y"+F.(a-''-yC) (2)
[0041]2. 4)对变异个体;进行片段组装生成组装个体柏4,根据距离谱对组装个体起, 进行判断,接受概率Accept_prob油ility为;
[0042]
[0043] 残基i到残基j之间的距离为FA_ij,距离谱中i到j之间的距离Profile_ij,则 在公式(2)中06¥131:;[0]1 =油3(。4_。'斗1'〇^16_。')。随机产生一个0到1之间的随机数 拘11(1_4。。巧1:,若4。。日91:_91'〇13油;[1;[17〉拘]1(1_4。。巧1:,则用组装个体我4代替变异个体若。
[0044] 2.5)根据公式(3)对目标个体xi和变异个体义执行交叉操作,生成测试个体 X' 1,其中,ran化化1)表示为产生0到1之间的随
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1