基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法_2

文档序号:8299336阅读:来源:国知局
,1表示含有对 应的特征,〇表示不含有对应的特征。
[0034] 具体的,所述序列间隔特征中,可将相应的序列间隔特征000000000置0或置1来 表示该特征,0表示不在该区间,1表示在该区间。
[0035] 所述残基类型特征中,20种氨基酸R基的极性性质可分为酸性氨基酸(谷氨酸及 天冬氨酸)、碱性氨基酸(赖氨酸、精氨酸及组氨酸)和中性氨基酸,其中中性氨基酸又可分 为极性氨基酸(甘氨酸、丝氨酸、半胱氨酸、苏氨酸、酪氨酸、天冬酰胺及谷氨酰胺)和非极 性氨基酸(丙氨酸、亮氨酸、异亮氨酸、苯丙氨酸、甲硫氨酸、色氨酸、缬氨酸及脯氨酸)。根 据这4种不同的氨基酸类型,一个残基作用对(对应两个氨基酸)可以产生10种不同的组 合,以二进制码〇〇〇〇〇〇〇〇〇〇分别置0或置1来代表不同的组合类型,计为10个残基类型特 征。
[0036] 所述a螺旋个数特征中,以二进制向量0000置〇或置1来表示该特征,即〇表示 不在该区间,1表示在该区间。
[0037] 所述序列长度特征中,以二进制向量0000置0或置1来表示该特征,即0表示不 在该区间,1表示在该区间。
[0038] 本发明实施例使用随机森林算法构建预测模型,所述随机森林算法使用R语言 中随机森林(randomForest)算法程序包来实现。对所述随机森林算法的参数进行设置, 其中,随机森林算法中决策树的数量(ntree)设置为100,内部节点随机选择属性的个数 (mtry)采用默认值。
[0039] 上述步骤S03中,根据所述目标a跨膜蛋白的一级结构,使用MEMSAT3软件确定 所述a跨膜蛋白的二级结构。将所述目标a跨膜蛋白的一级结构、二级结构分别进行输 入,并获取a螺旋中的残基对特征信息,其中,所述PSSM特征信息调用PSI-BLAST软件完 成。然后,将所述a跨膜蛋白螺旋上所有的残基对分别按特征矩阵编号为相应的行,将特 征信息构建成特征矩阵相应的列,形成特征矩阵。然后使用所述预测模型中生成的特征矩 阵中的各行所表示的残基对进行二分类,将符合预测模型中相互作用的残基对信息的所 述残基对作为一类,将符合预测模型中非相互作用的残基对信息的所述残基对作为另一 类。
[0040] 上述步骤S04中,所述预测结果经预测模型进行预测后,对所述目标a跨膜蛋白 链中的各残基对进行二分类,并输出相互作用的残基对,根据输出的预测结果,从而判断所 述残基对所在的a螺旋的相互作用关系。
[0041] 对于一个一级结构序列已知,但三维结构序列未知的蛋白质,可靠的残基作用关 系可以有效地提高a螺旋相互作用以及三维结构等预测的效率和精度。本发明实施例提 供的基于随机森林算法基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,预测 a螺旋上的残基作用关系,继而得到a螺旋_a螺旋相互作用关系。预测结果可直接用于 膜蛋白三维结构预测,并大大减少三维结构预测中算法对蛋白质构象的搜索空间。
[0042] 本发明实施例中,所述a跨膜蛋白即指a螺旋跨膜蛋白,所述a跨膜蛋白的螺 旋即指a螺旋跨膜蛋白中的a螺旋;此外,所述英文缩写及其意思表达如下:
[0043] :收录蛋白质和核算三维结构资料的数据库;
[0044] PDBTM:-个从PDB蛋白数据库中选择的跨膜蛋白数据库;
[0045] PISCES:AProteinSequenceCullingServer服务器;
[0046] PSSM:位置特异性得分矩阵;
[0047] PSI-BLAST:NCBI上的对比搜索工具一蛋白质的数据库搜索程序;
[0048] MEMSAT3 :膜蛋白二级结构和跨膜区域预测软件。
[0049] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,包括下述步骤: 收集具有确定三维结构的a跨膜蛋白链构建训练集; 基于所述的训练集,分别提取所述a跨膜蛋白链中螺旋上相互作用的残基对和非相 互作用的残基对特征信息,使用随机森林算法构建预测模型; 收集用于测试的、具有确定一级结构的目标a跨膜蛋白,提取其a螺旋中的残基对特 征信息,基于所述预测模型进行预测; 根据预测结果判断所述目标a跨膜蛋白中的螺旋是否存在相互作用的残基对。
2. 如权利要求1所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法, 其特征在于,所述a跨膜蛋白链和所述a跨膜蛋白螺旋中的残基对特征,包括下述六类特 征: (1) PSSM特征:PSSM中的每个残基都由一个20维的向量表示,表示20种氨基酸在PSSM 相应位置出现的频率;PSSM特征分为两类:第一类是以残基对(i,j)中的残基i和残基j 分别为中心取一个大小为7的滑动窗口,即对每个残基对可得到2X7X20 = 280个PSSM 特征;第二类是以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为3的滑动窗口,即 可获得3X20 = 60个PSSM特征,两类PSSM特征的总数为280+60 = 340个; (2) 残基在a螺旋中相对距离特征:假设p为残基对中的一个残基在长度为1的螺旋 上的相对位置,那么残基在a螺旋中相对距离特征就定义为p/1,对于每个残基对可以提 取2个该特征; (3) 序列间隔特征:根据a跨膜蛋白中a螺旋一级序列中氨基酸个数,将其划分为九 个区间,即< 25、25-50、50-75、75-100、100-125、125-150、150-175、175-200 和> 200,分析 残基对在的位置间隔分别位于哪个区间,形成序列间隔特征,对于每个残基对而言,序列间 隔特征共9个; (4) 残基类型特征:组成蛋白质的氨基酸共20种,根据氨基酸R基的极性性质可分为 酸性氨基酸、碱性氨基酸和中性氨基酸,其中,中性氨基酸又可分为极性氨基酸和非极性氨 基酸,根据这4种不同的氨基酸类型,一个残基作用对对应两个氨基酸,可以产生10种不同 的组合计为10个残基类型特征; (5) a螺旋个数特征:根据a跨膜蛋白中所包含的a螺旋个数,可分为2-4、5-7、8_1、 > 10这4个区间,每个残基对特征向量包含4个该类特征; (6) 序列长度特征:根据a跨膜蛋白中一级序列的长度,可分为〈100、100_400、 400-800、> 800这4个区间,每个残基对特征向量包含4个该类特征。
3. 如权利要求1所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,其 特征在于,所述训练集中,所述相互作用的残基对和非相互作用的残基对的数量比为1 :6。
4. 如权利要求1所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,其 特征在于,所述使用训练集构建预测模型的步骤中,对所述随机森林算法的参数进行设置, 其中,决策树的数量设置为1〇〇。
5. 如权利要求1所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,其 特征在于,所述使用预测模型对目标a跨膜蛋白进行预测的步骤中,由所述目标a跨膜蛋 白的一级结构使用软件获取其二级结构,将所述目标a跨膜蛋白的一级结构、二级结构分 别进行输入,并获取a螺旋中的残基对特征信息后,将所述a跨膜蛋白螺旋上所有的残基 对分别按特征矩阵编号为相应的行,将特征信息构建成特征矩阵相应的列,形成特征矩阵; 然后使用所述预测模型中生成的特征矩阵中的各行所表示的残基对进行二分类,将符合预 测模型中相互作用的残基对信息的所述残基对作为一类,将符合预测模型中非相互作用的 残基对信息的所述残基对作为另一类。
6. 如权利要求1所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,其 特征在于,所述构建训练集的步骤中,选取TOBTM中,a跨膜蛋白中a螺旋个数在2以上、 序列相似度小于35%、分辨率小于3. 0、且已于2012年或之前三维结构得到确认的95个a 跨膜蛋白作为训练集。
7. 如权利要求1所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法, 其特征在于,所述构建预测模型的步骤中,根据所述目标a跨膜蛋白的一级结构,使用 MEMSAT3确定所述a跨膜蛋白的二级结构。
8. 如权利要求2所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,其 特征在于,所述构建预测模型的步骤中,将所述a跨膜蛋白链中螺旋上相互作用的残基对 和非相互作用的残基对的序列间隔特征、残基类型特征、a螺旋个数特征、序列长度特征以 二进制码分别设置〇或1,其中,1表示含有对应的特征,〇表示不含有对应的特征。
9. 如权利要求2所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法,其 特征在于,所述PSSM特征是通过运行PSI-BLAST程序获得,运行所述PSI-BLAST程序时采 用的数据库为UNIREF90数据库。
10. 如权利要求1所述的基于随机森林预测a跨膜蛋白的螺旋相互作用关系的方法, 其特征在于,所述预测结果经预测模型进行预测后,对所述目标a跨膜蛋白链中螺旋上的 各残基对进行二分类,并输出相互作用的残基对,从而判断所述残基对所在的a螺旋的相 互作用关系。
【专利摘要】本发明适用于生物计算领域,提供了一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法。该方法包括下述步骤:收集具有确定三维结构的α跨膜蛋白链构建训练集;基于所述的训练集,分别提取所述α跨膜蛋白链中螺旋上相互作用的残基对和非相互作用的残基对特征信息,使用随机森林算法构建预测模型;收集用于测试的、具有确定一级结构的目标α跨膜蛋白,提取其α螺旋中的残基对特征信息,基于所述预测模型进行预测;根据预测结果判断所述目标α跨膜蛋白中的螺旋对是否存在相互作用的残基对。该方法不仅计算速度快,且准确率高。
【IPC分类】G06F19-18
【公开号】CN104615910
【申请号】CN201410842077
【发明人】张慧玲, 贝振东, 魏彦杰
【申请人】中国科学院深圳先进技术研究院
【公开日】2015年5月13日
【申请日】2014年12月30日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1