一种构象空间动态步长搜索方法

文档序号:6621480阅读:332来源:国知局
一种构象空间动态步长搜索方法
【专利摘要】一种构象空间动态步长搜索方法,包括以下步骤:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化;随机扰动氨基酸序列得到一个初始构象,通过Rosetta?Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化;对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte?Carlo扰动(MC)步长,同时设置温度参数列表,完成系统参数初始化;按权重依次随机选中能量层、构象室、构象,进行构象扩展,按照相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新;迭代的进行上一步骤,直至到达设置的迭代次数。本发明提供了一种有效的构象空间增强采样方法。
【专利说明】 一种构象空间动态步长搜索方法

【技术领域】
[0001]本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种构象空间动态步长搜索方法。

【背景技术】
[0002]蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。
[0003]蛋白质三级结构预测是生物信息学的一个重要任务。目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和不基于模板的方法。其中,不基于模板的从头预测(Ab-1nito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质,仅从序列产生全新结构,对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。当前有以下几种比较成功的从头预测方法:张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。
[0004]因此,现有的构象空间搜索方法存在不足,需要改进。


【发明内容】

[0005]针对上述问题,我们提出在低能量引导的树搜索框架下,利用动态步长搜索蛋白质构象空间的方法,增强了构象跳出局部极小点的能力,进而增强对构象空间中近天然态构象搜索的能力。
[0006]本发明解决其技术问题所采用的技术方案是:
[0007]一种构象空间动态步长搜索方法,所述搜索方法包括以下步骤:
[0008]I)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:
[0009]1.1)对构象空间按照能量分层,划分成一维网格,能量值以δΕ为间隔,从最低能量到最高能量分层,表示为[Emin, EmaJ ;
[0010]1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表不为[Tmax,Tmin];
[0011]1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell ;
[0012]2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:
[0013]2.1)输入一个氨基酸序列;
[0014]2.2)由蛋白质结构数据库(PDB库)生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;
[0015]2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;
[0016]2.4)依据能量值选定该构象所在的能量层;
[0017]2.5)由超速形状识别(USR)判别将该构象置入指定cell ;
[0018]3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:
[0019]3.1)对能量层分配权重,权重值由以下公式给出#(/)= £_,^(/),其中I表示能量层,式L(0表示该层平均能量的平方,ω (I)表示权重值;
[0020]3.2)设置动态片段组装(FA)步长,由以下公式给出:Μ(Λ/-2)[ω(/)/Ι; oj(I')],
其中N为序列长度,M为常数;
[0021]3.3)设置动态Monte Carlo扰动(MC)步长,由以下公式给出:0{N-2)[o,{l)! I;、"」(/')],其中N为序列长度,Q为常数,由以上公式反向分配步长值;
[0022]3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Τ—,Tmin];
[0023]3.5)设置迭代次数;
[0024]4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:
[0025]4.1)按照能量权重值= ,依概率?(0/随机的反向选能量层I ;
[0026]4.2)按照概率1/[ (1+nsel) confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;
[0027]4.3)选定cell后,随机选择一个构象,用于下一步的扩展;
[0028]4.4)对选定构象进行片段组装,生成新的构象;
[0029]4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率Θ_0‘ΛΕ接受新生成的构象,其中ΛE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β = -l/kBT, kB为玻尔兹曼常数,T为温度参数;
[0030]4.5)如果当前新生成的构象被接受,则将其存入构象系综;
[0031]5)迭代的运行步骤4),直至达到设置的迭代次数。
[0032]本发明的技术构思为:基于蛋白质结构从头预测FeLTr算法,在低能量引导的树搜索框架下,采用动态步长搜索蛋白质构象空间,依据所分能量层的权重在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,在构象空间能量较高的区域,使用大的FA步长和较小的MC步长,迫使算法更快的向低能量区域搜索,随着构象搜索逐步向低能量区域靠近,改变FA、MC步长,在能量较低的区域使用较小的FA步长和较大的MC步长,避免对天然态构象的采样不足导致算法有效性降低。同时在构象空间对温度分层,在不同的温度层采用相应的Metropolis准则来判断是否接收当前构象,以增强构象跳出局部极小点的能力,进而增强了对构象空间中近天然态构象采样的能力。

【专利附图】

【附图说明】
[0033]图1是动态步长搜索过程示意图。
[0034]图2是构象系综更新示意图。
[0035]图3是蛋白质IVII构象系综中构象更新示意图。
[0036]图4是蛋白质IVII预测结构和实验室测定结构最接近的构象三维示意图。

【具体实施方式】
[0037]下面结合附图对本发明作进一步描述。
[0038]参照图1?图4,一种构象空间动态步长搜索方法,包括以下步骤:
[0039]I)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:
[0040]1.1)对构象空间按照能量分层,划分成一维网格,能量值以δΕ为间隔,从最低能量到最高能量分层,表示为[Emin, EmaJ ;
[0041]1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表不为[Tmax,Tmin];
[0042]1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell ;
[0043]2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:
[0044]2.1)输入一个氨基酸序列;
[0045]2.2)由PDB库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;
[0046]2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;
[0047]2.4)依据能量值选定该构象所在的能量层;
[0048]2.5)由USR判别将该构象置入指定cell ;
[0049]3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:
[0050]3.1)对能量层分配权重,权重值由以下公式给出:οφ = EiAl),其中I表示能量层,表示该层平均能量的平方,ω (I)表示权重值;
[0051]3.2)设置动态片段组装(FA)步长,由以下公式给出:Μ(/ν-2)[ω(/)/Ι^(., w(/%
其中N为序列长度,M为常数;
[0052]3.3)设置动态Monte Carlo扰动(MC)步长,由以下公式给出:Q(N-1^oiI)I ζ,; ο ω(--],其中Ν为序列长度,Q为常数,由以上公式反向分配步长值;
[0053]3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Tmax, Tmin] ;3.5)设置迭代次数;
[0054]4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:
[0055]4.1)按照能量权重值ω(/) =《.“/),依概率》(/)/随机的反向选能量层I ;
[0056]4.2)按照概率1/[ (1+nsel) confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;
[0057]4.3)选定cell后,随机选择一个构象,用于下一步的扩展;
[0058]4.4)对选定构象进行片段组装,生成新的构象,如图3所示;
[0059]4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率Θ_0‘ΛΕ接受新生成的构象,其中ΛE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β = -l/kBT, kB为玻尔兹曼常数,T为温度参数;
[0060]4.5)如果当前新生成的构象被接受,则将其存入构象系综,否则丢弃当前构象,如图2所示;
[0061]5)迭代的运行步骤4),直至达到设置的迭代次数。
[0062]本实施例以序列长度为36的蛋白质IVII为实施例,一种构象空间动态步长搜索方法,其中包含以下步骤:
[0063]I)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:
[0064]1.1)对构象空间按照能量分层,划分成一维网格,能量值以δΕ为间隔,这里取2kcal/mol,从最低能量到最高能量分层,表示为[0,200];
[0065]1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表不为[64,36];
[0066]1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell ;
[0067]2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:
[0068]2.1)输入一个氨基酸序列:
[0069]MLSDEDFKAVFGMTRSAFANLPLffKQQNLKKEKGLF ;
[0070]2.2)由PDB库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;
[0071]2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;
[0072]2.4)依据能量值选定该构象所在的能量层;
[0073]2.5)由USR判别将该构象置入指定cell ;
[0074]3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:
[0075]3.1)对能量层分配权重,权重值由以下公式给出:0>(" = EiAI),其中I表示能量层,表示该层平均能量的平方,ω (I)表示权重值;
[0076]3.2)设置动态片段组装(FA)步长,由以下公式给出:Μ(Λ;-2)[μ(/)/ ζ,; ^ ,其中N为序列长度,M= I ;
[0077]3.3)设置动态Monte Carlo扰动(MC)步长,由以下公式给出:
⑴(O],其中N为序列长度,Q = 2,由以上公式反向分配步长值;

I
[0078]3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[64,32];
[0079]3.5)设置迭代次数为10000 ;
[0080]4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:
[0081]4.1)按照能量权重值= E2arg(I),依概率随机的反向选能量层I ;
[0082]4.2)按照概率1/[ (1+nsel) confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;
[0083]4.3)选定cell后,随机选择一个构象,用于下一步的扩展;
[0084]4.4)对选定构象进行片段组装,生成新的构象;
[0085]4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率Θ_0‘ΛΕ接受新生成的构象,其中ΛE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β = -l/kBT, kB为玻尔兹曼常数,T为温度参数;
[0086]4.5)如果当前新生成的构象被接受,则将其存入构象系综;
[0087]5)迭代的运行步骤4),直至达到设置的迭代次数。
[0088]以序列长度为36的蛋白质IVII为实施例,运用以上方法得到了该蛋白质的近天然态构象,构象系综中构象更新图如图3所示,预测结构与实验室测定结构最为接近的构象三维展示如图4所示。
[0089]以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
【权利要求】
1.一种构象空间动态步长搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤: .1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下: . 1.1)对构象空间按照能量分层,划分成一维网格,能量值以SE为间隔,从最低能量到最高能量分层,表示为Ge e [Emin, EmaJ ; . 1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表不为[Tmax,Tmin]; . 1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell ; . 2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过RosettaScore3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:. . 2.1)输入一个氨基酸序列; . 2.2)由蛋白质结构数据库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象; . 2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值; . 2.4)依据能量值选定该构象所在的能量层; . 2.5)由超速形状识别判别将该构象置入指定cell ; . 3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装步长和Monte Carlo扰动步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下: .3.1)对能量层分配权重,权重值由以下公式给出:0)(1) = EU、,其中I表示能量层,^(/)表示该层平均能量的平方,ω (I)表示权重值; . 3.2)设置动态片段组装步长,由以下公式给出:M(;V-2)[w(/)/ ζ,; ω(/')],其中N为序列长度,M为常数; . 3.3)设置动态Monte Carlo扰动步长,由以下公式给出:(?(~-2)[w(/)/⑴C)],其中N为序列长度,Q为常数,由以上公式反向分配步长值; . 3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Tmax,TmiJ ; . 3.5)设置迭代次数; . 4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下: .4.1)按照能量权重值ω(/) = ,依概率ω(/)/ ω (I')随机的反向选能量层I ; . 4.2)按照概率1/[ (1+nsel) confs]选定“构象室” cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目; .4.3)选定cell后,随机选择一个构象,用于下一步的扩展; . 4.4)对选定构象进行片段组装,生成新的构象;. . 4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率e_e ' ΔΕ接受新生成的构象,其中ΛΕ为当前构象与上一步产生的构象之间的能量差,β为温度因子,β = -l/kBT, kB为玻尔兹曼常数,T为温度参数; .4.5)如果当前新生成的构象被接受,则将其存入构象系综; . 5)迭代的运行步骤4),直至达到设置的迭代次数。
【文档编号】G06F19/16GK104200132SQ201410362507
【公开日】2014年12月10日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】张贵军, 郝小虎, 秦传庆, 周晓根, 程正华, 陈铭, 明洁 申请人:浙江工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1