配体特异性蛋白质-配体绑定区域预测方法

文档序号:6513636阅读:795来源:国知局
配体特异性蛋白质-配体绑定区域预测方法
【专利摘要】本发明提供一种两阶段配体特异性蛋白质-配体绑定区域预测方法,包括以下步骤:步骤1:基于输入的蛋白质序列信息,基于多视角特征的抽取与组合,利用配体特异性预测模型,预测出蛋白质序列中的蛋白质-配体绑定残基;步骤2:将步骤1所得到绑定残基进行空间聚类,使用空间聚类算法,进行空间聚类,进而得到一个或是多个绑定区域。本发明的优点在于:一是使用配体特异性的模块化预测模型,可以有效提高预测精度;二是使用空间聚类算法,可以从预测出的绑定残基进一步得到绑定区域,从而真正实现蛋白质-配体绑定区域预测。
【专利说明】配体特异性蛋白质-配体绑定区域预测方法
【技术领域】
[0001]本发明涉及蛋白质与配体相互作用预测领域,具体而言涉及一种配体特异性蛋白 质-配体绑定区域预测方法。
【背景技术】
[0002]蛋白质在生命活动过程中不是孤立存在的,需要和其他生物分子互相作用来完成 特定的功能,这种相互作用在生命过程中普遍存在并且不可或缺。蛋白质通过绑定其他的 生物分子来加强或是抑制其生物功能。蛋白质所绑定的生物分子称为配体,它们可以是金 属离子、小的有机/无机分子、大分子(例如蛋白质)或核酸等等。在和配体相互作用时, 蛋白质中一些关键的残基形成一个口袋形状区域,以完成对特定配体的识别及绑定。这些 关键残基称为绑定残基,形成的口袋形状区域又称为绑定区域。
[0003]从一个蛋白质中识别出这些关键残基以及这些残基所形成的区域,对于理解蛋白 质的功能、药物设计、分析生物分子之间的相互作用,进而指导进一步的生化实验具有重要 意义。虽然说,通过生物学实验来测定蛋白质-配体绑定区域是最为准确的方法,但由于使 用实验方法所固有的困难性,远远不能满足后基因时代蛋白质测序工作飞速发展的要求, 这就对通过使用生物计算技术来对蛋白质-配体绑定区域进行预测提出了极大的需求。
[0004]已有预测方法可以大致分为三种类型:基于结构的方法、基于序列的方法以及基 于结构和序列的混合方法。
[0005]在早期阶段,基于结构的方法占据主导地位,比较著名的方法有:LIGSITE,CASTp, SURFNET, POCKET, fpocket, Q-SiteFinder,以及 SITEH0UND 等等。通常,这些方法基于某种 几何测度,结合蛋白质的3D结构,来定位目标蛋白质的配体绑定区域。
[0006]随后,研究人员发现直接从蛋白质的序列出发也可以有效地进行蛋白质-配体绑 定区域的预测。例如,ConSurf和Rate4Site使用多序列联配技术获取蛋白质的进化信息, 然后基于进化信息特征识别出该蛋白质和配体可能的热点绑定区域;Llpred综合八种基 于蛋白质序列的得分函数,使用Ll-1ogreg分类器来预测酶蛋白中的接触反应残基。
[0007]最近,集成蛋白质结构与序列信息的混合方法受到密切关注,期望进一步提高蛋 白质-配体的预测性能。例如,通过引入蛋白质表面残基的进化信息保留度,基于结构的 LIGSITE被进一步扩展为LIGSITEese;ConCavity集成了蛋白质序列的进化保留信息和基于 结构的方法来预测蛋白质表面的pocket; SURFNET-ConSurf同样也是在基于结构的方法中 加入了蛋白质残基的进化信息来进一步提高预测性能。
[0008]然而,综合分析以上预测模型,可以发现:一方面,现有的方法通常是在一般意义 上来进行预测,而没有充分考虑配体类型之间的差异性,从而降低了预测结果的可靠性;另 一方面,现有方法中的绝大多数只是一种绑定状态预测,他们将序列中的每个残基判定为 绑定或是非绑定两种状态之一,只是绑定残基预测,而不是真正意义上的绑定区域预测。 我们相信,如果能从预测出的绑定残基出发,进一步判定哪些残基会构成绑定区域,对于理 解蛋白质-配体的相互作用意义将更为明显。
【发明内容】

[0009]本发明旨在提供一种配体特异性蛋白质-配体绑定区域预测方法,可克服上述现有技术中传统的蛋白质-配体预测方法存在的两个基本问题,预测速度快、预测精度高。
[0010]为达成上述目的,本发明所采用的技术方案如下:
[0011]一种配体特异性蛋白质-配体绑定区域预测方法,包括以下步骤:
[0012]步骤1:基于输入的蛋白质序列信息,使用配体特异性预测模型,预测出蛋白质序列中的蛋白质-配体绑定残基,过程如下:
[0013]步骤1.1:多视角特征的抽取与组合
[0014]使用PS1-BLAST算法抽取蛋白质序列的进化信息,使用PSIPRED算法抽取蛋白质序列的二级结构信息,以及统计20种基本氨基酸在不同配体上的绑定倾向性;再利用滑动窗口方式,将蛋白质序列中的每个残基进行多视角特征表示;
[0015]步骤1.2:绑定残基预测
[0016]使用事先训练好的配体特异性预测模型对蛋白质序列中的每个残基配体的概率进行预测,概率高于指定阈值的残基被预测为绑定残基,其中:配体特异性预测模型使用标准的支持向量机模型;
[0017]步骤2:将步骤I所得到绑定残基进行空间聚类,使用空间聚类算法,进行空间聚类,进而得到一个或是多个绑定区域。
[0018]进一步的实施例中,如果输入的蛋白质序列信息为PDB文件格式的3D结构,则在所述步骤I进行配体特异性特征抽取时,需要先从3D结构中提取出蛋白质序列。
[0019]进一步的实施例中,在所述步骤2进行空间聚类时,如果用户输入的蛋白质序列信息是蛋白质序列而不是PDB文件格式的3D结构,则需要将其进行3D建模得到3D结构后方可进行空间聚类。
[0020]进一步的实施例中,对用户输入的蛋白质序列信息进行建模以获得3D结构的方法包括MODELLER算法或者1-TASSER算法。
[0021]进一步的实施例中,在所述步骤1.1中,按照下述步骤进行多视角特征的抽取与
组合:
[0022]①使用PS1-BLAST算法抽取蛋白质序列的进化信息,进化信息特征是一个nX20 的位置特异性得分矩阵(Ppssm):
【权利要求】
1.一种配体特异性蛋白质-配体绑定区域预测方法,其特征在于,包括以下步骤:步骤1:基于输入的蛋白质序列信息,使用配体特异性预测模型,预测出蛋白质序列中的蛋白质-配体绑定残基,过程如下:步骤1.1:多视角特征的抽取与组合使用PS1-BLAST算法抽取蛋白质序列的进化信息,使用PSIPRED算法抽取蛋白质序列的二级结构信息,以及统计20种基本氨基酸在不同配体上的绑定倾向性;再利用滑动窗口方式,将蛋白质序列中的每个残基进行多视角特征表示;步骤1.2:绑定残基预测使用事先训练好的配体特异性预测模型对蛋白质序列中的每个残基配体的概率进行预测,概率高于指定阈值的残基被预测为绑定残基,其中:配体特异性预测模型使用标准的支持向量机模型;步骤2:将步骤I所得到绑定残基进行空间聚类,使用空间聚类算法,进行空间聚类,进而得到一个或是多个绑定区域。
2.根据权利要求1所述的配体特异性蛋白质-配体绑定区域预测方法,其特征在于,如果基于输入的蛋白质序列信息为PDB文件格式的3D结构,则在所述步骤I进行配体特异性特征抽取时,需要先从3D结构中提取出蛋白质序列。
3.根据权利要求1所述的配体特异性蛋白质-配体绑定区域预测方法,其特征在于,在所述步骤2进行空间聚类时,如果用户输入的蛋白质序列信息是蛋白质序列而不是PDB文件格式的3D结构,则需要将其进行3D建模得到3D结构后方可进行空间聚类。
4.根据权利要求3所述的配体特异性蛋白质-配体绑定区域预测方法,其特征在于, 对用户输入的蛋白质序列信息进行建模以获得3D结构的方法包括MODELLER算法或者 1-TASSER 算法。
5.根据权利要求1所述的配体特异性蛋白质-配体绑定区域预测方法,其特征在于,在所述步骤1.2中,所述指定阈值取值范围为0~1,该指定阈值满足以下条件:使得预测结果的马氏相关系数最大化。
6.根据权利要求1所述的配体特异性蛋白质-配体绑定区域预测方法,其特征在于,在所述步骤1.1中,按照下述步骤进行多视角特征的抽取与组合:①使用PS1-BLAST算法抽取蛋白质序列的进化信息,进化信息特征是一个nX20的位置特异性得分矩阵:
7.根据权利要求1所述的配体特异性蛋白质-配体绑定区域预测方法,其特征在于,在所述步骤2中,空间聚类算法对空间上紧邻的绑定残基簇进行聚类,对于两个绑定残基之间的空间距离大于指定分割阈值的,进行空间聚类,进而预测出的绑定残基聚类为一个或是多个绑定区域。
【文档编号】G06F19/18GK103500292SQ201310450715
【公开日】2014年1月8日 申请日期:2013年9月27日 优先权日:2013年9月27日
【发明者】於东军, 胡俊, 戚湧, 唐振民, 杨静宇 申请人:南京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1