一种基于副本交换的变步长蛋白质构象空间搜索方法

文档序号：9217469阅读：577来源：国知局

一种基于副本交换的变步长蛋白质构象空间搜索方法
【技术领域】
[0001] 本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于副本交换的变步长蛋白质构象空间搜索方法。
【背景技术】
[0002] 蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此，要了解蛋白质的功能，就必须获得其三维空间结构。
[0003] 蛋白质三级结构预测是生物信息学的一个重要任务。目前，蛋白质结构预测方法大致可以分为两类，基于模板的方法和不基于模板的方法。其中，不基于模板的从头预测 (Ab-inito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质，仅从序列产生全新结构，对蛋白质分子设计及蛋白质折叠的研宄等具有重要意义。当前有以下几种比较成功的从头预测方法：张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/ Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构，即使获得了很好的预测结果，但也只是针对某些蛋白质而言的，目前主要的技术瓶颈在于两个方面，第一方面在于采样方法，现有技术对构象空间采样能力不强，另一方面在于构象更新方法，现有技术对构象的更新精度仍然不足。
[0004] 因此，现有的构象空间搜索方法存在不足，需要改进。

【发明内容】

[0005] 为了克服现有蛋白质结构预测方法的构象更新精度较低、搜索能力较差的不足，本发明提出在低能量引导的树搜索框架下，利用基于副本交换的变步长蛋白质构象空间搜索方法，增强了构象跳出局部极小点的能力，同时保持了个体的多样性，进而增强对构象空间中近天然态构象搜索的能力。
[0006] 本发明解决其技术问题所采用的技术方案是：
[0007] -种基于副本交换的变步长蛋白质构象空间搜索方法，所述搜索方法包括以下步骤：
[0008] 1)给定输入的氨基酸序列；
[0009] 2)按照能量对构象空间分层，划分成一维网格，能量值以SE为间隔，从最低能量到最高能量分层，表示为GEG ;
[0010] 3)按照温度对构象空间分层，划分成一维网格，由起始温度逐步非等间隔的到最低温度，表不为[T max，Tmin];
[0011] 4)在每一个能量层中再按照超速形状识别方法（USR)刻度对能量层进行细分得到"构象室"，记为cell ;
[0012] 5)对给定的氨基酸序列进行一次完全的片段组装得到一个初始构象；
[0013] 6)调用Rosetta Score3能量函数，计算得到的初始构象的能量值，并根据能量值将此构象放入相应的能量层中；
[0014] 7)由超速形状识别（USR)判别将该构象置入指定cell;
[0015] 8)按照〇>(/) = ￡：^(/)对能量层分配权重，其中1表示能量层，表示该层平均能量的平方，《 (1)表示权重值；
[0016] 9)按照
设置片段组装（FA)步长，其中N为序列长度，M 为常数；
[0017] 10)按照
1设置Monte Carlo扰动（MC)步长，其中N为序列长度，Q为常数，由以上公式反向分配步长值；
[0018] 11)初始温度值根据区间分半搜索方法来确定，从而非等间隔的建立温度列表
[T-，Tmin];
[0019] 12)设置迭代次数；
[0020] 13)构象空间搜索过程：
[0021]13. 1)按照能量权重值_；) = ，依概率
随机的反向选能量层 1 ;
[0022] 13. 2)按照概率1/[ (1+nsel) confs]选定"构象室"cell，其中，nsel表示当前cell 被选择的频次，confs表示当前cell中构象的数目；
[0023] 13. 3)选定cell后，随机选择一个构象，用于下一步的扩展；
[0024] 13.4)按照步骤9)设定的FA步长，对选定构象进行片段组装，生成新的构象；
[0025] 13. 5)按照步骤10)设定的MC步长，对构象进行Monte Carlo扰动，使用设定的相应温度参数，按照玻尔兹曼概率'AE接受新生成的构象，其中AE为当前构象与上一步产生的构象之间的能量差，0为温度因子，0 =_l/kBT，kB为玻尔兹曼常数，T为温度参数；
[0026] 13. 6)如果当前新生成的构象被接受，则将其存入构象系综；
[0027] 13. 7)按照en AE判断是否需要进行副本交换，其中A 0为新生成的构象与前一构象的温度参数差值，0 =-l/kBT，若发生副本交换，则交换两个构象在构象空间中的位置，若不发生副本交换，则直接进行下一次迭代；
[0028] 14)迭代的运行步骤13)，直至达到设置的迭代次数。
[0029] 本发明的有益效果为：在低能量引导的树搜索框架下，采用变步长和副本交换的策略搜索蛋白质构象空间，依据所分能量层的权重在不同能量层赋予不同的片段组装（FA) 步长和Monte Carlo扰动（MC)步长，在构象空间能量较高的区域，使用大的FA步长和较小的MC步长，迫使算法更快的向低能量区域搜索，随着构象搜索逐步向低能量区域靠近，改变FA、MC步长，在能量较低的区域使用较小的FA步长和较大的MC步长，避免对天然态构象的采样不足导致算法有效性降低。同时在构象空间对温度分层，在不同的温度层采用相应的Metropolis准则来判断是否接收当前构象，以增强构象跳出局部极小点的能力，g[J本交换的引入能够进一步增强构象空间中采样的多样性，从而增强了对构象空间中近天然态构象采样的能力。
【附图说明】
[0030] 图1是蛋白质1VII构象系综中构象更新示意图。
【具体实施方式】
[0031] 下面结合附图对本发明作进一步描述。
[0032] 参照图1，一种基于副本交换的变步长蛋白质构象空间搜索方法，包括以下步骤：
[0033] 1)给定输入的氨基酸序列；
[0034] 2)按照能量对构象空间分层，划分成一维网格，能量值以SE为间隔，从最低能量到最高能量分层，表示为Geg ;
[0035] 3)按照温度对构象空间分层，划分成一维网格，由起始温度逐步非等间隔的到最低温度，表不为[T max，Tmin];
[0036] 4)在每一个能量层中再按照超速形状识别方法（USR)刻度对能量层进行细分得到"构象室"，记为cell ;
[0037] 5)对给定的氨基酸序列进行一次完全的片段组装得到一个初始构象；
[0038] 6)调用Rosetta Score3能量函数，计算得到的初始构象的能量值，并根据能量值将此构象放入相应的能量层中；
[0039] 7)由超速形状识别（USR)判别将该构象置入指定cell ;
[0040] 8)按照《(/) = ￡^(/)对能量层分配权重，其中1表示能量层，￡^.g(/)表示该层平均能量的平方，《 (1)表示权重值；
[0041] 9)按照
设置片段组装（FA)步长，其中N为序列长度，M 为常数；
[0042] 10)按照
设置Monte Carlo扰动（MC)步长，其中N为序列长度，Q为常数，由以上公式反向分配步长值；
[0043] 11)初始温度值根据区间分半搜索方法来确定，从而非等间隔的建立温度列表
[T-，Tmin];
[0044] 12)设置迭代次数；
[0045] 13)构象空间搜索过程：
[0046] 13. 1)按照能量权重值《(/) = ￡；%(/)，依概率
随机的反向选能量层1 ;
[0047] 13. 2)按照概率1/[ (1+nsel) confs]选定"构象室"cell，其中，nsel表示当前cell 被选择的频次，confs表示当

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张贵军;郝小虎;俞旭锋;周晓根;陈凯;徐东伟;
技术所有人：浙江工业大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。