基于查询驱动的蛋白质-配体绑定位点预测方法

文档序号:6519194阅读:415来源:国知局
基于查询驱动的蛋白质-配体绑定位点预测方法【专利摘要】本发明提供一种基于查询驱动的蛋白质-配体绑定位点预测方法,包括:步骤1、对于一条给定的查询输入,从可用数据库中查找出具有高同源性的蛋白质序列,构成基于查询驱动的训练数据集;步骤2、得到的训练数据集,所有的绑定残基提取为正样本集,所有的非绑定残基提取为负样本集;步骤3、从进化信息和二级结构视角抽取每个样本的特征向量,得到正负样本的特征向量集;步骤4、使用标准支持向量机算法,训练得到针对查询输入q的SVM预测模型;步骤5、对于查询输入,使用同样的特征抽取方法抽取每个残基的特征向量,输入SVM预测模型,再利用阈值分割方法预测。利用本发明可提高预测精度并防止在固定训练数据集上可能出现的过优化和过拟合的问题。【专利说明】基于查询驱动的蛋白质-配体绑定位点预测方法【
技术领域
】[0001]本发明涉及生物信息学蛋白质-配体相互作用领域,具体而言涉及一种基于查询驱动的动态蛋白质-配体绑定位点预测方法。【
背景技术
】[0002]蛋白质-配体之间的相互作用在生命活动中普遍存在并且不可或缺。通过生物实验的方法来确定蛋白质和配体之间的绑定位点耗时费力。随着测序技术的飞速发展和人类结构基因组的推进,已经累积了大量未进行绑定位点标定的蛋白质序列。因此,研发能够直接从蛋白质序列出发进行蛋白质-配体绑定位点预测的智能方法有着迫切需求。近年来,已经出现了多个基于序列的蛋白质-配体绑定位点预测方法,例如:(1)Chen,K.,Mizianty,M.J.andKurgan,L.(2011)ATPsite:sequence-basedpredictionofATP-bindingresidues,ProteomeScience,9SupplI,S4;(2)Chen,K.,Mizianty,M.J.andKurgan,L.(2012)Predictionandanalysisofnucleotide-bindingresiduesusingsequenceandsequence-derivedstructuraldescriptors,Bioinformatics,28,331-34I;(3)Yu,D.J.,etal.(2013)TargetATPsite:Atemplate-freemethodforATP-bindingsitespredictionwithresidueevolutionimagesparserepresentationandclassifierensemble,Journalofcomputationalchemistry,34,974-985等等。然而,现有的方法都是基于静态模型方法的:在一个固定的数据集上,训练出一个预测模型;对于待预测绑定位点的蛋白质序列均使用该预测模型进行预测。[0003]基于静态模型框架的计算模型不可避免地会存在以下几个方面的问题:[0004](I)可扩展性低(Lowscalability)[0005]静态模型方法通常在一个固定的数据集上训练得到预测模型,当有新的标定数据可用时,需要利用原有的数据及新的数据来重新训练。由于新的可用数据是持续出现的,因此,重新训练的过程亦需要不断重复,效率较低。换句话说,静态模型方法的可可扩展性低。[0006](2)过拟合/过优化(Over-fitting/Over-optimization)[0007]通常,研究人员提出一种新的计算模型后需要和其他已有的方法进行比较,以验证所提方法的有效性。这种对比往往基于某个(些)固定的标准测试数据集。为了追求正面的比较结果,有意识或是无意识地,研究人员所提出的方法可能会被过拟合到测试数据集或是在测试数据集上进行过优化。[0008](3)低可用性(Lowapplicability)[0009]当数据集非常大的时候,训练一个全局的静态模型很可能是不现实的,或是出于对于内存过多的要求,或是出于优化时间太长的原因。[0010]静态模型方法的上述不足,激发了研究人员研发新的策略来解决上述问题。人们希望在一个中小规模的数据集上训练得到一个初始的预测模型,然后,该模型可以利用新的可用数据来进行增量式增强。基础上述考虑,已经出现了很多增量式学习算法(He,H.B.,etal.(2011)IncrementalLearningfromStreamData,IEEETransactionsonNeuralNetworks,22,1901-1914.Wang,Z.L.,etal.(2012)AnIncrementalLearningMethodBasedonProbabilisticNeuralNetworksandAdjustableFuzzyClusteringforHumanActivityRecognitionbyUsingWearableSensors,IEEETransactionsoninformationtechnology,16,691-699),并成功应用到多个生物计算领域。增量式学习算法可以部分解决传统的静态方法所面临的一些问题。[0011]增量式学习模型可以随着新数据的出现而不断进化提高其性能。然而,一个不足之处在于:和静态模型一样,对于任意查询(待预测)数据,仍旧使用统一的模型来进行预测,而没有考虑查询数据的特异性。换句话说,增量式模型并未考虑查询数据的特性。我们相信,对于一个给定的查询数据,从训练数据集挑选出一部分来构建训练模型,要比使用统一的全局静态模型要优。【
发明内容】[0012]针对现有技术存在的缺陷或不足,本发明旨在提供一种基于查询驱动的动态蛋白质-配体绑定位点预测方法,解决现有技术中蛋白质-配体绑定位点预测方法存在的扩展性低、过拟合/过优化以及可用性低的问题。[0013]为达成上述目的,本发明所采用的技术方案如下:[0014]一种基于查询驱动的动态蛋白质-配体绑定位点预测方法,包括以下步骤:[0015]步骤1、对于一条给定的查询输入q、即待预测/待查询的蛋白质序列,从蛋白质-配体数据库D中查询与该查询输入q具有高同源性的蛋白质序列,构成一基于查询驱动的训练数据集Dq_spec;ifi。;[0016]步骤2、基于步骤I得到的训练数据集Dtrspeeifie,提取Dtrspeeifie中所有绑定残基组成正样本集,提取Dtrspecdfici中所有非绑定残基组成负样本集;[0017]步骤3、为每个样本从进化信息视角和二级结构视角抽取特征,从而得到正样本的特征向量集以及负样本的特征向量集;[0018]步骤4、依据正负样本的特征向量集,使用标准支持向量机算法,训练得到针对查询输入q的SVM预测模型;以及[0019]步骤5、对于查询输入q,使用与前述步骤3同样的特征抽取方法抽取每个残基的特征向量,然后依次将每个残基的特征向量输入所述SVM预测模型,所述SVM预测模型输出每个残基相应的绑定概率,最后利用阈值分割方法进行分割:概率大于或是等于阈值的残基被预测为绑定残基,概率小于阈值的残基被预测为非绑定残基。[0020]由以上本发明的技术方案可知,本发明提供的预测方法与现有基于序列的蛋白质-配体绑定位点预测技术相比,其显著优点在于:(I)动态得到基于查询驱动的训练数据集,在此基础上构建的预测模型更具有针对性,提高了预测精度;(2)本预测方法可以有效地防止在固定训练数据集上可能出现的过优化和过拟合等问题;(3)本预测方法可以有效地利用新数据:在新数据可用时,直接添加到基础数据集内。新数据是否被用于预测,取决于查询序列。[0021]以下将结合附图以举例方式对本发明的实施方式进行详细描述。【专利附图】【附图说明】[0022]图1为基于查询驱动的蛋白质-配体绑定位点预测方法的一个示例性实现示意图。[0023]图2为第k个残基的PSSM特征向量的示意图。[0024]图3为第k个残基的PSS特征向量的示意图。【具体实施方式】[0025]如图1所示,根据本发明的较优实施例,基于查询驱动的蛋白质-配体绑定位点预测方法,用于对一待预测/待查询的蛋白质序列(以下称为给定的查询输入q)进行预测,其分为两个阶段,即动态模型构造阶段以及预测阶段,下面结合图1所示,详细说明上述两个阶段的实现。[0026](I)动态模型构造阶段[0027]第一步、使用PS1-BLAST工具软件从可用数据集D、即图1中的蛋白质-配体数据库中查找与给定的查询输入q(即图1中的查询序列)具有较高同源性的蛋白质序列,构成一个基于查询驱动的并且规模较小的训练数据集Dq_SIrec;ifi。,如此动态地得到一个基于查询驱动的训练数据集,表示为:[0028]Dq-Specific一PS1-BLAST(q,D)。[0029]如图1所示,蛋白质-配体数据库还支持新可用数据的增量式输入,以更新该数据库,从而可以有效地利用新数据:在新数据可用时,直接添加到可用数据集中。新数据是否被用于预测,取决于查询序列,即查询输入q。[0030]进行本步操作时,得到的训练数据集Dq_spec;ifi。的规模大小取决于PS1-BLAST工具软件的运行参数E-value,Dtrspeeifi。规模与所述运行参数E_value的取值大小成正比:E-value取值大,得到的Dtrspeeifie规模大;反过来,E-value取值小,得到的Dtrspeeifie规模小。[0031]本实施例中,通过多次测试后,E-value取值0.002是一个较优的经验参数。[0032]显然,所得到的训练数据集Dtrspecdfie是一个查询驱动的训练数据集。较之于原始训练数据集,此数据集规模较小,并且由和查询输入序列同源的序列组成,因而更为致密。[0033]第二步、基于第一步得到的训练数据集Dtrspecdfic^提取Dtrspecdfie中所有绑定残基组成正样本集,提取Dtrspecdfici中的所有非绑定残基组成负样本集。[0034]第三步、为每个样本从进化信息视角(Position-SpecificScoringMatrixFeature)和二级结构视角(ProteinSecondaryStructureFeature)抽取特征,从而得到正样本的特征向量集以及负样本的特征向量集。[0035]本实施例中,对于训练数据集Dq_SIrec;ifi。中任一条给定的蛋白质序列P,本步骤的特征抽取实现方法如下:[0036]I)从进化信息视角抽取每个样本中蛋白质序列的特征[0037]首先,使用PS1-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM,表示为p;Tfl/,如下式所示:【权利要求】1.一种基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,包括以下步骤:步骤1、对于一条给定的查询输入q、即待预测/待查询的蛋白质序列,从蛋白质-配体数据库D中查询与该查询输入q具有高同源性的蛋白质序列,构成一基于查询驱动的训练数据集Dtrspeeific;步骤2、基于步骤I得到的训练数据集Dq_SIrec;ifi。,提取Dtrspecdfie中所有绑定残基组成正样本集,提取Dtrspecdfici中所有非绑定残基组成负样本集;步骤3、为每个样本从进化信息视角和二级结构视角抽取特征,从而得到正样本的特征向量集以及负样本的特征向量集;步骤4、依据正负样本的特征向量集,使用标准支持向量机算法,训练得到针对查询输入q的SVM预测模型;以及步骤5、对于查询输入q,使用与前述步骤3同样的特征抽取方法抽取每个残基的特征向量,然后依次将每个残基的特征向量输入所述SVM预测模型,所述SVM预测模型输出每个残基相应的绑定概率,最后利用阈值分割方法进行分割:概率大于或是等于阈值的残基被预测为绑定残基,概率小于阈值的残基被预测为非绑定残基。2.根据权利要求1所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述步骤I中,对于所述给定的查询输入q,使用PS1-BLAST工具软件从蛋白质-配体数据库D中查找与该查询输入q具有高同源性的蛋白质序列,构成所述基于查询驱动的训练数据集Dtrspecdfic^该训练数据集Dtrspecdfie的规模大小取决于PS1-BLAST工具软件的运行参数E-value,Dtrspeeifie规模与所述运行参数E-value的取值大小成正比。3.根据权利要求2所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述运行参数E-value取值为0.002。4.根据权利要求1或2所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述蛋白质-配体数据库D支持新可用数据的增量式输入,以更新蛋白质-配体数据库D,该新可用数据是否被用于预测,取决于查询序列、即查询输入q。5.根据权利要求4所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述步骤3的为每个样本从进化信息视角和二级结构视角抽取特征,并且其特征在于,对于训练数据集Dtrspecdfie中任一条给定的蛋白质序列P,特征抽取的具体步骤如下:O从进化信息视角抽取每个样本中蛋白质序列的特征首先,使用PS1-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM,表示为p;:r'表如下:0Ul°1,2…0UO气1°2,2...°2,20pongmal_.._Pssm~οο...ο.UkIuIcyA-,20,0La…0L^-OJlx2q然后,对Pp0Sfd进行归一化处?,用Uk和σk分别表示第k行中的20个得分的平均值和标准差,表达如下:6.根据权利要求5所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述步骤4中,使用标准的支持向量机算法,依据所述训练向量集Ftrspecdfie来初始化并优化一针对查询序列q的SVM预测模型,表示为:InitialSVM—IntializeSVM(Fq_specific);(DModel,PDModei)—OptimizeModel(InitialSVM,Fq—specific);其中,DModel是得到的基于查询驱动的动态预测模型,Pdms1则是该模型的优化参数。7.根据权利要求6所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述步骤5中的具体实现如下:首先,使用与前述步骤3同样的特征抽取方法,对所述查询输入q、即待预测/待查询的蛋白质序列中每个残基抽取维数为3.W+20.W的特征向量;然后,依次将每个残基的特征向量输入所述SVM预测模型,SVM预测模型输出残基相应的绑定概率;最后,使用阈值T作为判断基准,所有绑定概率大于等于T的残基预测为绑定残基,小于阈值的残基被预测为非绑定残基。【文档编号】G06F17/30GK103617203SQ201310573950【公开日】2014年3月5日申请日期:2013年11月15日优先权日:2013年11月15日【发明者】於东军,胡俊,何雪,李阳,沈红斌,唐振民,杨静宇申请人:南京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1