一种基于副本交换的变步长蛋白质构象空间搜索方法

文档序号:9217469阅读:577来源:国知局
一种基于副本交换的变步长蛋白质构象空间搜索方法
【技术领域】
[0001] 本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于副本交换的变 步长蛋白质构象空间搜索方法。
【背景技术】
[0002] 蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和 生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结 构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结 构。
[0003] 蛋白质三级结构预测是生物信息学的一个重要任务。目前,蛋白质结构预测方法 大致可以分为两类,基于模板的方法和不基于模板的方法。其中,不基于模板的从头预测 (Ab-inito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质,仅从序列产 生全新结构,对蛋白质分子设计及蛋白质折叠的研宄等具有重要意义。当前有以下几种比 较成功的从头预测方法:张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/ Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法 等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的 预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面 在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术 对构象的更新精度仍然不足。
[0004] 因此,现有的构象空间搜索方法存在不足,需要改进。

【发明内容】

[0005] 为了克服现有蛋白质结构预测方法的构象更新精度较低、搜索能力较差的不足, 本发明提出在低能量引导的树搜索框架下,利用基于副本交换的变步长蛋白质构象空间搜 索方法,增强了构象跳出局部极小点的能力,同时保持了个体的多样性,进而增强对构象空 间中近天然态构象搜索的能力。
[0006] 本发明解决其技术问题所采用的技术方案是:
[0007] -种基于副本交换的变步长蛋白质构象空间搜索方法,所述搜索方法包括以下步 骤:
[0008] 1)给定输入的氨基酸序列;
[0009] 2)按照能量对构象空间分层,划分成一维网格,能量值以SE为间隔,从最低能量 到最高能量分层,表示为GEG ;
[0010] 3)按照温度对构象空间分层,划分成一维网格,由起始温度逐步非等间隔的到最 低温度,表不为[T max,Tmin];
[0011] 4)在每一个能量层中再按照超速形状识别方法(USR)刻度对能量层进行细分得 到"构象室",记为cell ;
[0012] 5)对给定的氨基酸序列进行一次完全的片段组装得到一个初始构象;
[0013] 6)调用Rosetta Score3能量函数,计算得到的初始构象的能量值,并根据能量值 将此构象放入相应的能量层中;
[0014] 7)由超速形状识别(USR)判别将该构象置入指定cell;
[0015] 8)按照〇>(/) = £:^(/)对能量层分配权重,其中1表示能量层,表示该层平均 能量的平方,《 (1)表示权重值;
[0016] 9)按照
设置片段组装(FA)步长,其中N为序列长度,M 为常数;
[0017] 10)按照
1设置Monte Carlo扰动(MC)步长,其中N为序 列长度,Q为常数,由以上公式反向分配步长值;
[0018] 11)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表
[T-,Tmin];
[0019] 12)设置迭代次数;
[0020] 13)构象空间搜索过程:
[0021]13. 1)按照能量权重值_;) = ,依概率
随机的反向选能量层 1 ;
[0022] 13. 2)按照概率1/[ (1+nsel) confs]选定"构象室"cell,其中,nsel表示当前cell 被选择的频次,confs表示当前cell中构象的数目;
[0023] 13. 3)选定cell后,随机选择一个构象,用于下一步的扩展;
[0024] 13.4)按照步骤9)设定的FA步长,对选定构象进行片段组装,生成新的构象;
[0025] 13. 5)按照步骤10)设定的MC步长,对构象进行Monte Carlo扰动,使用设定的相 应温度参数,按照玻尔兹曼概率'AE接受新生成的构象,其中AE为当前构象与上一步产 生的构象之间的能量差,0为温度因子,0 =_l/kBT,kB为玻尔兹曼常数,T为温度参数;
[0026] 13. 6)如果当前新生成的构象被接受,则将其存入构象系综;
[0027] 13. 7)按照en AE判断是否需要进行副本交换,其中A 0为新生成的构象与前 一构象的温度参数差值,0 =-l/kBT,若发生副本交换,则交换两个构象在构象空间中的位 置,若不发生副本交换,则直接进行下一次迭代;
[0028] 14)迭代的运行步骤13),直至达到设置的迭代次数。
[0029] 本发明的有益效果为:在低能量引导的树搜索框架下,采用变步长和副本交换的 策略搜索蛋白质构象空间,依据所分能量层的权重在不同能量层赋予不同的片段组装(FA) 步长和Monte Carlo扰动(MC)步长,在构象空间能量较高的区域,使用大的FA步长和较小 的MC步长,迫使算法更快的向低能量区域搜索,随着构象搜索逐步向低能量区域靠近,改 变FA、MC步长,在能量较低的区域使用较小的FA步长和较大的MC步长,避免对天然态构象 的采样不足导致算法有效性降低。同时在构象空间对温度分层,在不同的温度层采用相应 的Metropolis准则来判断是否接收当前构象,以增强构象跳出局部极小点的能力,g[J本交 换的引入能够进一步增强构象空间中采样的多样性,从而增强了对构象空间中近天然态构 象采样的能力。
【附图说明】
[0030] 图1是蛋白质1VII构象系综中构象更新示意图。
【具体实施方式】
[0031] 下面结合附图对本发明作进一步描述。
[0032] 参照图1,一种基于副本交换的变步长蛋白质构象空间搜索方法,包括以下步骤:
[0033] 1)给定输入的氨基酸序列;
[0034] 2)按照能量对构象空间分层,划分成一维网格,能量值以SE为间隔,从最低能量 到最高能量分层,表示为Geg ;
[0035] 3)按照温度对构象空间分层,划分成一维网格,由起始温度逐步非等间隔的到最 低温度,表不为[T max,Tmin];
[0036] 4)在每一个能量层中再按照超速形状识别方法(USR)刻度对能量层进行细分得 到"构象室",记为cell ;
[0037] 5)对给定的氨基酸序列进行一次完全的片段组装得到一个初始构象;
[0038] 6)调用Rosetta Score3能量函数,计算得到的初始构象的能量值,并根据能量值 将此构象放入相应的能量层中;
[0039] 7)由超速形状识别(USR)判别将该构象置入指定cell ;
[0040] 8)按照《(/) = £^(/)对能量层分配权重,其中1表示能量层,£^.g(/)表示该层平均 能量的平方,《 (1)表示权重值;
[0041] 9)按照
设置片段组装(FA)步长,其中N为序列长度,M 为常数;
[0042] 10)按照
设置Monte Carlo扰动(MC)步长,其中N为序 列长度,Q为常数,由以上公式反向分配步长值;
[0043] 11)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表
[T-,Tmin];
[0044] 12)设置迭代次数;
[0045] 13)构象空间搜索过程:
[0046] 13. 1)按照能量权重值《(/) = £;%(/),依概率
随机的反向选能量 层1 ;
[0047] 13. 2)按照概率1/[ (1+nsel) confs]选定"构象室"cell,其中,nsel表示当前cell 被选择的频次,confs表示当
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1