基于采样学习的蛋白质-配体绑定位点预测方法

文档序号:9274825阅读:290来源:国知局
基于采样学习的蛋白质-配体绑定位点预测方法
【技术领域】
[0001] 本发明涉及生物信息学预测蛋白质-配体绑定位点领域,具体而言涉及一种基于 采样学习的蛋白质-配体绑定位点预测方法,特别是一种基于随机下采样、KNN动态采样学 习技术、支持向量机集成策略的具有高精度的蛋白质-配体绑定位点预测方法。
【背景技术】
[0002] 在生命活动中,大大小小的配体起到了不可或缺的作用,如三磷酸腺苷(ATP)、维 他命等;其中ATP是一种重要的生物大分子,对于生物体中的膜传输、肌肉收缩、信号传递、 细胞运动、DNA复制与转录以及其他生命活动具有重要意义。这些配体大多数是通过蛋白 质-配体绑定位点与蛋白质相互作用,通过借助蛋白质的运输、分解等功能执行各种各样 的生化功能。此外,蛋白质与一些配体的绑定位点也是抗菌与抗癌药物重要的靶点。因此, 快速、精确地定位蛋白质序列中的蛋白质-配体绑定位点具有重要意义。
[0003] 然而,通过生物实验的方法来确定蛋白质与配体之间的绑定位点需要耗费大量的 时间和资金,并且效率较低;而且,随着测序技术的飞速发展和人类结构基因组的不断推 进,蛋白质组学中已经累积了大量未进行蛋白质-配体绑定位点标定的蛋白质序列。因此 应用生物信息学的相关知识,研发能够直接从蛋白质序列出发进行蛋白质-配体绑定位点 快速且准确的智能预测方法有着迫切需求,且对于发现和认识蛋白质结构和生理功能有着 重要的意义。
[0004] 目前,针对基于序列信息的蛋白质-配体绑定位点的预测模型还很欠缺。通 过查阅相关文献,可以发现,目前专门设计来进行基于序列信息的蛋白质-配体绑 定位点预测的计算模型有:ATPint、ATPsite、GTPbinder、NsitePred、TargetATP、 TargetATPsite、Targets以及TargetSOS等。其中ATPint(J.S.Chauhan,N.K.Mishra,and G.P.Raghava,"IdentificationofATPbindingresiduesofaproteinfromits primarysequence,〃BMCBioinformatics,vol. 10,pp. 434, 2009)与ATPsite(K.Chen,M. J.Mizianty,andL.Kurgan,"ATPsite:sequence-basedpredictionofATP-binding residues,〃ProteomeSci,vol. 9Suppl1,pp.S4, 2011.)是两个较早的基于序列信息的 蛋白质-ATP绑定位点的预测模型。GTPbinder(Chauhan,J.S.,etal. (2010)Prediction ofGTPinteractingresidues,dipeptidesandtripeptidesinaproteinfrom itsevolutionaryinformation.BMCBioinformatics, 11, 301.)是专门设计用来 预测蛋白质-GTP绑定位点的计算模型。TargetATP(Dong-JunYu,JunHu,Zhen-Min Tang,Hong-BinShen,JianYang,andJing-YuYang.ImprovingProtein-ATPBinding ResiduesPredictionbyBoostingSVMswithRandomUnder-Sampling.Neurocomputi ng. 2013, 104:180-190.)与TargetATPsite(Dong-JunYu,JunHu,YanHuang,Hong-Bin Shen,YongQi,Zhen-MinTangandJing-YuYang:TargetATPsite:ATemplate-free MethodforATPBindingSitesPredictionwithResidueEvolutionImage SparseRepresentationandClassifierEnsemble,JournalofComputational Chemistry. 2013, 34:974-985.)也是专门设计用来预测蛋白质-ATP绑定位点的计算 模型°NsitePred(ChenK,MiziantyMJ,KurganL.Predictionandanalysisof nucleotide-bindingresiduesusingsequenceandsequence-derivedstructural descriptors.Bioinformatics,2012,28 (3):331-341.)与TargetSOS(JunHu,Xue He,Dong-JunYu*,Xi-BeiYang,Jing-YuYang,andHong-BinShen.ANewSupervised Over-SamplingAlgorithmwithApplicationtoProtein-NucleotideBindingResidues Prediction,PLOSONE. 2014, 9(9) :el07676)是设计用来预测蛋白质与核苷酸(ATP、ADP、 AMP、GTP与⑶P)绑定位点的预测模型。TargetS(Dong-JunYu,JunHu,JingYang,Hong-Bin Shen,JinhuiTang,andJing-YuYang.Designingtemplate-freepredictorfor targetingprotein-ligandbindingsiteswithclassifierensembleandspatial clustering,IEEE/ACMTransactionsonComputationalBiologyandBioinformati cs. 2013, 10(4) :994-1008.)是一个可以预测蛋白质与核苷酸(ATP、ADP、AMP、GTP与⑶P)、 与金属离子(〇&2+、1%2+、1^ 2+、?63+与2112+)绑定位点的计算模型。
[0005] 然而,配体的种类有很多,上面所述的预测蛋白质-配体绑定位点的计算模型都 没有考虑全面。而且蛋白质-配体绑定位点预测是传统的不平衡学习问题,虽然在一些计 算模型中使用随机下采样技术克服了一部分不平衡数据带来的影响,却没有对不同的待预 测样本进行区别对待,没有挖掘待预测样本之间的差异性。从而导致蛋白质-配体绑定位 点预测模型的可解释性较差的问题有待克服;且可以发现预测精度距离实际应用还有较大 差距,迫切需要进一步提高。

【发明内容】

[0006] 为了解决上述蛋白质-配体绑定位点预测问题中由于配体种类不齐全引发的通 用性不强、不同待预测样本之间差异性没有被充分考虑而导致预测精度距离实际应用差距 较大且可解释性较差的缺点,本发明的目的在于提出一种结合随机下采样、KNN动态采样学 习与集成技术的,具有预测精度高、模型可解释性强的基于采样学习的蛋白质-配体绑定 位点预测方法。
[0007] 为达成上述目的,本发明所采用的技术方案如下:
[0008] 一种基于采样学习的蛋白质-配体绑定位点预测方法,包括以下步骤:
[0009] 步骤1 :特征提取,将待预测蛋白质序列中的每个氨基酸残基转换为数值形式表 示。对于一个由n个氨基酸组成的蛋白质,通过PSI-BLAST程序可得到该蛋白质位置特异 性得分矩阵(PositionSpecificScoringMatrix,PSSM),该矩阵大小为nX20(n行 20 列);先使用sigmoid函数s(x) = 1八1+〇对该PSSM矩阵进行逐行标准化,然后使用 长度为winsize的滑动窗口得到每个氨基酸残基的进化信息矩阵;将进化信息矩阵拉成 长度为20Xwinsize的特征向量:= ,其中i表示蛋白质序列中的第 i个残基;将蛋白质序列输入到PSIPRED程序,可以得到蛋白质序列的二级结构预测概率 矩阵(PredictedSecondaryStructure,PSS),大小为nX3(n行 3 列),使用同样大小 的滑动窗口,得到每个氨基酸残基的二级结构信息矩阵;将二级结构信息矩阵拉成长度为 3Xwinsize的特征向量:f= 〇丨,_4,一,;^_&);最终,将两种信息的特征向量串行组合得 到最终用于预测的特征向量。
[0010] 步骤2 :使用随机下采样技术,对非绑定位点的样本进行随机下采样;将得到的非 绑定位点样本子集与绑定位点样本集构成一个训练集,在构建的训练集合上训练一个SVM。 通过这种方法构建的训练集中,能够保持正负样本的均衡性。然而,也会导致计算模型对不 同待预测样本之间的差异性不敏感。为此,将在下一步中利用KNN动态采样学习技术来进 行补偿。
[0011] 步骤3 :对于每个待预测样本,首先使用步骤1进行特征抽取,然后使用KNN动态 采样学习技术分别对绑定位点样本与非绑定位点样本进行采样,最后,将采样后的绑定位 点样本子集与非绑定位点样本子集合并后训练一个专门用来预测该待预测样本的SVM。确 保不同的待预测样本之间的差异性得到最大的保留。这样处理使得计算模型可以应对更多 的配体类型。
[0012] 步骤4 :采用基于阈值的集成技术进行SVM集成,对上述步骤2和步骤3中所训练 得到的两个个SVM,应用基于阈值的集成技术进行集成。对集成得到的输出结果,使用阈值 分割的方法,确定每个残基是否属于绑定位点。
[0013] 由以上本发明的技术方案可知,本发明的有益效果在于:
[0014] 1.提高模型的预测精度:使用了随机下采样与KNN动态采样学习技术相结合的策 略,使得计算模型同时具有不同待预测样本之间的统一性与差异性信息,可以进一步挖掘 更多有效的样本分布信息,提高了预测蛋白质-配体绑定位点的计算模型的预测精度;
[0015] 2.提升模型的可解释性:KNN动态采样学习技术的使用使得计算模型可以针对不 同的待预测样本训练专门的预测模型,在融入待预测样本差异性的同时,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1