基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法

文档序号:8299336阅读:450来源:国知局
基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
【技术领域】
[0001] 本发明属于生物计算领域,尤其涉及基于随机森林预测a跨膜蛋白的螺旋相互 作用关系的方法。
【背景技术】
[0002] 目前已知的或正在研宄的药物靶点中,膜蛋白约占60%。膜蛋白的三维结构很大 程度上决定了其生理功能,而膜蛋白的生理功能往往决定了其药理功能。因此,为了加快膜 蛋白靶点药物的研宄,对膜蛋白的三维结构的测定十分重要。目前,解析蛋白质三维结构的 生物学实验方法主要有X-RAY和NMR法,但这些方法不仅较为复杂,耗时,而且花费较高。有 鉴于此,通过计算生物学的方法来获得新的结构显得尤为重要。
[0003] 目前用于蛋白质三维结构预测的计算方法主要有同源模建法、折叠识别法和从头 预测法。这些方法不仅计算速度较慢,且精度和覆盖度仍有待提高,因此,膜蛋白三维结构 的确认工作进展缓慢。
[0004] 有学者证明了将残基作用关系应用到从头预测法中,不仅可以大大节约三维结构 的预测时间,还可以提高预测的精度(所谓残基作用关系是指那些在蛋白质的一级序列中 不相邻而在三级结构中邻近的残基对。当两个a螺旋上存在相互作用的残基对时,就认为 这两个残基所在的a螺旋存在相互作用关系)。代表性膜蛋白残基作用关系预测方法有 Nugent与Jones提出的MEMPACK和Lo等人提出的TMhit。
[0005] 在基因组数据中,有20 % -30 %的产物被预测为跨膜蛋白,而实验测定的限制,导 致PDB数据库中的跨膜蛋白仅占跨膜蛋白总数的1%左右。鉴于已知的膜蛋白结构十分有 限,而目前用于蛋白质残基作用对的预测方法少、且具有准确率低、速度慢耗时长等缺点的 现状,寻求一种高效、准确的a跨膜蛋白三维结构的预测方法显得尤为重要。

【发明内容】

[0006] 本发明的目的在于提供一种基于随机森林预测a跨膜蛋白的螺旋相互作用关系 的方法,旨在解决现有a跨膜蛋白三维结构的预测方法少、速度慢耗时长、且准确率低的 问题。
[0007] 本发明是这样实现的,一种基于随机森林预测a跨膜蛋白链的螺旋相互作用关 系的方法,包括下述步骤:
[0008] 收集具有确定三维结构的a跨膜蛋白链构建训练集;
[0009] 基于所述的训练集,分别提取所述a跨膜蛋白中螺旋上相互作用的残基对和非 相互作用的残基对特征信息,使用随机森林算法构建预测模型;
[0010] 收集用于测试的、具有确定一级结构的目标a跨膜蛋白,提取其a螺旋中的残基 对特征信息,基于所述预测模型进行预测;
[0011] 根据预测结果判断所述目标a跨膜蛋白中的螺旋是否存在相互作用的残基对。
[0012] 本发明基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,不仅方法方 便快捷,且预测得到的a跨膜蛋白中残基对的相互作用关系可直接用于判断a跨膜蛋白 中a螺旋的相互作用关系,即膜蛋白三维结构预测,并大大减少三维结构预测中算法对蛋 白质构象的搜索空间,使得a跨膜蛋白三维结构预测的准确性得到提高。
【具体实施方式】
[0013] 为了使本发明要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合 实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解 释本发明,并不用于限定本发明。
[0014] 随机森林法是一个包含多个决策树的分类器,用随机的方式建立一个森林,森林 由众多决策树组成,随机森林的每一棵决策树之间是无关联的。得到森林之后,每当输入 一个新的样本,就让森林中的每一棵决策树分别判断该样本应该属于哪一类(对于分类算 法),然后根据哪一类被选择最多,就预测这个样本为哪一类。
[0015] 基于上述理论,本发明实施例提供了一种基于随机森林预测a跨膜蛋白的螺旋 相互作用关系的方法,包括下述步骤:
[0016] S01.收集具有确定三维结构的a跨膜蛋白构建训练集;
[0017] S02.基于所述的训练集,分别提取所述a跨膜蛋白中螺旋上的相互作用的残基 对和非相互作用的残基对特征信息,使用随机森林算法构建预测模型;
[0018] S03.收集用于测试的、具有确定一级结构的目标a跨膜蛋白,提取其a螺旋中的 残基对特征信息,基于所述预测模型进行预测;
[0019] S04.根据预测结果判断所述目标a跨膜蛋白中的螺旋是否存在相互作用的残基 对。
[0020] 蛋白质残基作用对的定义有多种,例如基于原子的范德华距离的定义,基于CA-CA 原子距离的定义以及基于CB-CB原子距离的定义。本发明实施例中,将位于跨膜蛋白a螺 旋上的CA-CA原子距离对作为界定残基对相互作用关系的标准,具体的,将所述a跨膜蛋 白a螺旋中CA-CA原子距离 <丨4人的残基对设置为相互作用的残基对,将CA-CA原子距 离;5: 14A的残基对设置为非相互作用的残基对。a跨膜蛋白中,当两个a螺旋上存在相 互作用的残基对时,就认为这两个残基所在的a螺旋存在相互作用关系。
[0021] 本发明实施例旨在通过研宄a跨膜蛋白螺旋上的残基对信息,获取相互作用的 残基对,进而获得残基所在的a螺旋存在的相互作用关系信息,达到预测a螺旋相互作用 关系的目的。
[0022] 对于任何一个基于机器学习的方法,高质量的训练集和验证集都至关重要。上 述步骤S01中,需要收集高质量的a跨膜蛋白链构建训练集。本发明实施例本中的训练 集数据集来自于F*DBTM(ProteinDataBankofTransmembraneProteins)中非冗余数据 集,该数据集包含405个a跨膜蛋白链。为了进一步减少冗余性,上述蛋白质列表被输入 到PISCES在线工具中进行进一步限定,PISCES的限定参数输入为:maximumpercentage identity-35%;skipnon-X-rayentries?-No;skipCA-〇nlyentries?-No;其它参数 选用默认值。经PSICES处理后得到168个a跨膜蛋白链。由于残基作用对只存在于包含 2个及以上的a螺旋的膜蛋白中,因此对其进一步筛选获得116个a螺旋个数在2及其以 上的跨膜蛋白链。本发明实施例优选选用116个符合标准的膜蛋白链中,2012年及之前解 析的95个结构作为用于训练的跨膜蛋白集合。也就意味着,所述构建训练集的步骤中,选 取TOBTM中,a螺旋蛋白链a螺旋个数在2以上、序列相似度小于35%、分辨率小于3. 0、 且已于2012年或之前三维结构得到确认的95个a跨膜蛋白链作为训练集。
[0023] 本发明实施例中,将跨膜蛋白a螺旋上的所有残基对都标记为相互作用或非作 用,从而产生了一个相互作用与非相互作用数量比为1 :6的数据集。为了平衡训练集中两 类数据的数量,并节约训练时间,以20%的抽样率随机抽样,保留了 1/5的相互作用残基 对,并以20%的抽样率随机选取了非相互作用的残基对,最终使得所述训练集中,所述相互 作用的残基对和非相互作用的残基对的数量比为1 :6。
[0024] 上述步骤S02中,本发明实施例采用特定特征来区分相互作用的残基对和非相互 作用的残基对。具体的,所述a跨膜蛋白链中的残基对特征,包括下述六类特征:
[0025] (l)PSSM(Position-SpecificScoringMatrix)特征:PSSM中的每个残基都由一 个20维的向量表示,表示20种氨基酸在PSSM相应位置出现的频率;PSSM特征分为两类: 第一类是以残基对(i,j)中的残基i和残基j分别为中心取一个大小为7的滑动窗口,即 对每个残基对可得到2X7X20 = 280个PSSM特征;第二类是以残基对(i,j)的中间位置 (i+j)/2为中心取一个大小为3的滑动窗口,即可获得3X20 = 60个PSSM特征,两类PSSM 特征的总数为280+60 = 340个;
[0026] 进一步的,所述PSSM特征是通过运行PSI-BLAST程序获得,运行所述PSI-BLAST 程序时采用的数据库位UNIREF90数据库。
[0027] (2)残基在a螺旋中相对距离特征:假设p为残基对中的一个残基在长度为1的 螺旋上的相对位置,那么残基在a螺旋中相对距离特征就定义为p/1,对于每个残基对可 以提取2个该特征;
[0028] (3)序列间隔特征:根据a跨膜蛋白中a螺旋一级序列中氨基酸个数,将其划分 为九个区间,即< 25、25-50、50-75、75-100、100-125、125-150、150-175、175-200 和> 200, 分析残基对在的位置间隔分别位于哪个区间,形成序列间隔特征,对于每个残基对而言,序 列间隔特征共9个;
[0029] (4)残基类型特征:组成蛋白质的氨基酸共20种,根据氨基酸R基的极性性质可 分为酸性氨基酸、碱性氨基酸和中性氨基酸,其中,中性氨基酸又可分为极性氨基酸和非极 性氨基酸,根据这4种不同的氨基酸类型,一个残基作用对对应两个氨基酸,可以产生10种 不同的组合,即非极性/非极性,非极性/极性,非极性/酸性,非极性/碱性,极性/极性, 极性/酸性,极性/碱性,酸性/酸性,酸性/碱性以及碱性/碱性,计为10个残基类型特 征;
[0030] (5)a螺旋个数特征:根据a跨膜蛋白中所包含的a螺旋个数,可分为2-4、5-7、 8-1、> 10这4个区间,每个残基对特征向量包含4个该类特征;
[0031] (6)序列长度特征:根据a跨膜蛋白中一级序列的长度,可分为〈100、100_400、 400-800、> 800这4个区间,每个残基对特征向量包含4个该类特征;
[0032] 综上所述,本发明实施例含有340个PSSM特征、2个a螺旋中相对距离特征、9个 序列间隔特征、10个残基类型特征、4个a螺旋个数特征以及4个序列长度特征,共计369 个特征。
[0033] 所述构建预测模型的步骤中,提取所述a螺旋蛋白链中残基对的特征信息时, 将所述a跨膜蛋白链中相互作用的残基对和非相互作用的残基对的序列间隔特征、残基 类型特征、a螺旋个数特征、序列长度特征以二进制码分别设置0或1,其中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1