一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法

文档序号:9708629阅读:589来源:国知局
一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法
【技术领域】
[0001 ]本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于Bolzmann概率 密度函数的蛋白质残基间距离模型构建方法。
【背景技术】
[0002] 蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和 生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结 构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结 构。
[0003] 蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面 临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子 体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其 粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能 够找到蛋白质稳定结构的机理是,大量的蛋白质亚稳定结构构成了低能量区域,所以能否 找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构,即增加算法 的种群多样性。因此,针对更加精确的蛋白质力场模型,选取有效的构象空间优化算法,使 新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦 点问题。
[0004] 目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和不基于模板的 方法。其中,不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于 25%的大多数蛋白质,仅从序列产生全新结构,对蛋白质分子设计及蛋白质折叠的研究等 具有重要意义。当前有以下几种比较成功的从头预测方法:张阳与Jeffrey Skolnick合作 的TASSER(Threading/Assembly/Refinement)方法、David Baker及团队设计的Rosetta方 法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的 三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术 瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面 在于构象更新方法,现有技术对构象的更新精度仍然不足。
[0005] 因此,现有的构象空间搜索方法存在不足,需要改进。

【发明内容】

[0006] 为了克服现有构象空间搜索方法的对构象空间采样能力不强、精度较低的不足, 本发明提出一种增强构象空间采样能力、提升精度的基于Bolzmann概率密度函数的蛋白质 残基间距离模型构建方法,
[0007] 本发明解决其技术问题所采用的技术方案是:
[0008] -种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,所述模型构 建方法包括以下步骤:
[0009] 1)构建非冗余模板库;
[0010] 1.1)从蛋白质数据库网站上下载分辨率小寸2.0A的高精度蛋白质,其中A为距离 单位,lA=l〇-1Q 米;
[0011] 1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列 相似度,去除相似度大于30%的冗余多肽链;
[0012] 1 .3)将余下的多肽链两两求序列相似度Imn,统计每一条链的累计相似度 廣" ,其中m,n为多肽链的序号,N为剩余所有链的总数;
[0013] 1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与 其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;
[0014] 2)输入查询序列;
[0015] 3)生成片段库;
[0016] 3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;
[0017] 3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项Pq(i,k), 其中i为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;
[0018] 3.1.2)Lq(i,k)和Lt( j,k)是通过PSI-BLAST得到的查询序列和模板序列对数谱;
[0019] 3.1.3)通过PSSpred计算得到模板结构的二级结构预测sst;
[0020] 3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标 SSq;
[0021 ] 3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;
[0022] 3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标saq;
[0023] 3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的 二面角
[0024] 3.1.8)质心原子二面角可以通过查询蛋白质字典得到約,ih为模板结构;
[0025] 3.1.9)SPt(j,k)为模板结构中每一个残基相对20个残基类型的频率矩阵。
[0026] 3.1.10)结构相似度函数
[0027]
[0028] 其中《^,《^,《^,《^,《^为权重值;
[0029] 3.2)通过无间隙穿线法以3个残基为单体单元,将非冗余模板库中的片段结构与 查询序列进行匹配,根据结构相似度函数f(i,j)对片段结构打分;
[0030] 3.3)在查询序列与模板片段结构匹配时使用一个滑动窗口,比对查询序列i个位 置和第j个片段的相似度得分f( i,j ),选出每个位置上得分最高的前K个片段构成片段库;
[0031] 4)得到距离谱;
[0032] 4.1)遍历查询序列残基位置上K个相似度较高的片段,〇 = 1,...,幻是查询序列第 i个位置上的片段,尽(/ = 1,....〃)是查询序列第j位置上的片段;
[0033 ] 4.2)用aik和a j 1表不i和j上选出的来自于同一模板结构的片段结构;
[0034] 4.3)计算aik和aji在原模板结构中的距离dij;
[0035] 4.4)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于9.A 的残基对之间距离(残基对间作用力随着距离增大而减小),画出直方图得到距离谱,直方 图横坐标的距离间隔为0.5A,当模板中残基对之间的距离在某个区间内,则该区间总数就 加1;
[0036] 5)根据Bolzmann概率密度函
十算目标个体的接收概率,其 中X为残基对间的距离序号,k为玻尔兹曼常数,T为温度,AD(x)为目标个体残基间欧式距 离与距离谱的差值;
[0037] 6)算出蛋白质折叠过程中构象的残基对之间距离,通过概率密度函数得到基于残
基距离的接受概率 其中h为距离谱中记录项序号,Μ为记录项总和。 ,
[0038]本发明的技术构思为:一种基于Bolzmann概率密度函数的蛋白质残基间距离模型 构建方法,首先,下载蛋白质数据库中结构已知的蛋白质文件,通过比较序列相似度去除同 源性大于30%的序列构成非冗余模板库;其次,通过一个滑动窗口对模板库中的蛋白质结 构与查询序列进行相似度比较,选出查询序列每个位置中得分最高的前200个片段构成片 段库文件;然后选取查询序列两个位置上片段库中来自于同一模板片段结构的距离构成距 离谱;最后根据Bolzmann概率密度函数计算距离谱中残基对的概率密度统计,利用残基间 的概率密度统计有效的加强了对蛋白质构象空间的采样,得到精度更高的近天然态构象。 [0039]本发明的有益效果为:构象空间采样能力较强、精度较高。
【附图说明】
[0040]图1是蛋白质1VII中第13个残基和第18个残基间的距离谱。
[00411图2是蛋白质1VII中第13个残基和第18个残基间距离的Bolzmann概率密度统计 图。
【具体实施方式】
[0042]下面结合附图对本发明作进一步描述。
[0043]参照图1和图2,一种基于蛋白质残基间距离的概率密度函数约束条件构建方法, 包括以下步骤:
[0044] 1)构建非冗余模板库;
[0045] 1.1)从蛋白质数据库(PDB)网站上下载分辨率小于2.0A的高精度蛋白质,其中A 为距离单位,1:Α=10·1()米;
[0046] 1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列 相似度,去除相似度大于30%的冗余多肽链;
[0047] 1 .3)将余下的多肽链两两求序列相似度Imn,统计每一条链的累计相似度 也《. = ,其中m,n为多肽链的序号,N为剩余所有链的总数;
[0048] 1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与 其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;
[0049] 2)输入查询序列;
[0050] 3)生成片段库;
[0051] 3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;
[0052] 3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项Pq(i,k), 其中i为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;
[0053] 3.1.2)Lq(i,k)和Lt( j,k)是通过PSI-BLAST得到的查询序列和模板序列对数谱;
[0054] 3.1.3)通过PSSpred计算得到模板结构的二级结构预测sst;
[0055] 3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标 ssq;
[0056] 3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;
[0057] 3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标saq;
[0058] 3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的 二面角心,%;
[0059] 3.1.8)质心原子二面角可以通过查询蛋白质字
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1