基于子空间融合的蛋白质-维他命绑定位点预测方法

文档序号:6544578阅读:198来源:国知局
基于子空间融合的蛋白质-维他命绑定位点预测方法
【专利摘要】本发明提供一种基于子空间融合的蛋白质-维他命绑定位点预测方法,包括:特征抽取与特征组合:分别利用PSI-BLAST、PSIPRED和蛋白质-维他命绑定位点倾向表抽取蛋白质的进化信息、二级结构信息以及绑定倾向性信息,使用滑动窗口与串行组合将蛋白质序列中的氨基酸残基转换为向量形式表示;使用多种特征选择算法分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,构建多个特征子空间;对所得的每个特征子空间,训练一个SVM分类器;使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。本发明的预测方法预测速度快、预测精度高。
【专利说明】基于子空间融合的蛋白质-维他命绑定位点预测方法
【技术领域】
[0001]本发明涉及生物信息学蛋白质-维他命相互作用领域,具体而言涉及一种基于子空间融合的蛋白质-维他命绑定位点预测方法。
【背景技术】
[0002]蛋白质与维他命之间的相互作用在新陈代谢中起到了至关重要的作用,是生命活动中普遍存在且不可或缺的。通过生物实验的方法来确定蛋白质与维他命之间的绑定位点需要耗费大量的时间和资金,并且效率较低。随着测序技术的飞速发展和人类结构基因组的不断推进,蛋白质组学中已经累积了大量未进行与维他命绑定位点标定的蛋白质序列。因此应用生物信息学的相关知识,研发能够直接从蛋白质序列出发进行蛋白质-维他命绑定位点快速且准确的智能预测方法有着迫切需求,且对于发现和认识蛋白质结构和生理功能有着重要的意义。
[0003]目前,针对预测蛋白质-维他命绑定位点的计算模型还很欠缺。目前仅仅发现一种专门设计用来进行蛋白质-维他命绑定位点预测的计算模型,即VitaPred。VitaPred是世界上第一个专门设计用来进行蛋白质-维他命绑定位点定位的预测器(B.Panwar, S.Gupta, and G.P.S.Raghava, “Prediction of vitamin interacting residues in avitamin binding protein using evolutionary information,,,BMC Bioinformatics, vo1.14, Feb7, 2013)。VitaPred是一种可以预测蛋白质与不同种类维他命(维他命A、维他命B、维他命B6等)的预测器。由于不同的维他命种类之间存在着差异性,所以VitaPred构造了 4个非冗余的数据集合,分别是:含有187条与维他命有绑定关系的蛋白质(这个数据集合没有区分维他命的种类)、含有31条与维他命A有绑定关系的蛋白质、含有141条与维他命B有绑定关系的蛋白质、以及含有71条与维他命B6有绑定关系的蛋白质。VitaPred通过抽取氨基酸残基的位置特异性得分矩阵所表示的进化信息特征,然后输入SVM分类模型来判定一个氨基酸残基是否属于蛋白质维他命绑定位点。此外在,VitaPred所对应的论文中还尝试其他的特征及其组合与SVM结合的方法去预测蛋白质-维他命绑定位点,但是其预测精度以及其扩展性都没有进化信息特征与SVM结合的方法好,所以VitaPred的方法就代表进化信息特征与SVM结合的预测方法。
[0004]然而,综合分析这个仅有的预测模型,其对蛋白质与不同种类维他命绑定位点预测问题都是用同一个特征子空间下的相同方法,从而导致的可解释性较差的问题有待克服;且可以发现预测精度距离实际应用还有较大差距,迫切需要进一步提高。

【发明内容】

[0005]为解决上述单个多维度特征空间中有互斥特征而导致预测精度距离实际应用差距较大且可解释性较差的缺点,本发明的目的在于提出一种预测速度快、预测精度高的基于子空间融合的蛋白质-维他命绑定位点预测方法。
[0006]为达成上述目的,本发明所采用的技术方案如下:[0007]—种基于子空间融合的蛋白质-维他命绑定位点预测方法,包括以下步骤:
[0008]步骤1、特征抽取与特征组合,即分别利用PS1-BLAST算法、PSIPRED算法抽取蛋白质的进化信息特征与二级结构信息特征,以及根据蛋白质-维他命绑定位点倾向表抽取蛋白质的绑定倾向性信息特征,前述三种特征组成原始特征空间;然后使用滑动窗口与串行组合方式将蛋白质序列中的氨基酸残基转换为向量形式表示;
[0009]步骤2、使用特征选择算法即 Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,从而构建多个特征子空间;
[0010]步骤3、对步骤2所得的每个特征子空间,训练一个SVM分类器;
[0011]步骤4:使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;以及
[0012]步骤5、基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。
[0013]进一步的实施例中,所述步骤I中,对于训练蛋白质的特征抽取和串行组合包括以下步骤:
[0014]步骤1-1、对于一个由I个氨基酸残基组成的蛋白质,通过PS1-BLAST算法获取其位置特异性得分矩阵,该矩阵为一个I行20列的矩阵,从而将蛋白质一级结构信息(即进化信息)转换为矩阵形式表示:
[0015]
【权利要求】
1.一种基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,包括以下步骤: 步骤1、特征抽取与特征组合,即分别利用PS1-BLAST算法、PSIPRED算法抽取蛋白质的进化信息特征与二级结构信息特征,以及根据蛋白质-维他命绑定位点倾向表抽取蛋白质的绑定倾向性信息特征,前述三种特征组成原始特征空间;然后使用滑动窗口与串行组合方式将蛋白质序列中的氨基酸残基转换为向量形式表示; 步骤2、使用特征选择算法即Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,从而构建多个特征子空间; 步骤3、对步骤2所得的每个特征子空间,训练一个SVM分类器; 步骤4:使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;以及 步骤5、基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。
2.根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,所述步骤I中,对于训练蛋白质的特征抽取和串行组合包括以下步骤: 步骤1-1、对于一个由I个氨基酸残基组成的蛋白质,通过PS1-BLAST算法获取其位置特异性得分矩阵,该矩阵为一个I行20列的矩阵,从而将蛋白质一级结构信息转换为矩阵形式表示:

3.根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,所述步骤2中,使用所述三种特征选择算法构建多个特征子空间的具体实现包括以下步骤: 步骤 2-1、利用 Joint Laplacian Feature Weights Learning 算法对步骤 I 产生的原始特征空间进行特征选择,其包括: 1)对于原始特征空间中的数据X=[X1, X2,-,xM] e Rnxm,使用下述式(10)和式(11)构造Laplacian矩阵Hmxm与对角矩阵Dmxm如下:
4.根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,在所述步骤3,根据前述原始样本在每一个特征子空间中的分布情况,分别使用LIBSVM中的SVC分类算法训练一个子空间SVM预测器;最终在三个特征子空间训练出了三个不同的SVM预测器。
5.根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,在所述步骤4中,使用加权平均方法对步骤3所训练得到的三个不同特征子空间的SVM预测器进行融合,其包括:令Co1和ω2分别表示绑定位点类和非绑定位点类,Sp S2和S3分别表示三个不同特征子空间下的SVM预测器,Dem=Ixi^yi匕表示评估样本集合,用于确定子空间对应的SVM模型的权重,其中评估样本集合的氨基酸残基是已知其类别的;对于每一个Xi所表示的样本特征,Sp &和S3将会输出三个2维的向量(Su(Xi)isiJ(Xi))' (Su(Xi)is^2(Xi))IP每个2维向量的两个元素分别表示Xi属于0^和《2的程度且两个元素和为1,故对于评估样本集合Ara =汰4 Kr分别可以得到在SpS2和S3上的预测结果矩阵:
6.根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,在步骤5中,使用融合后的SVM预测器对待预测的蛋白质进行蛋白质-维他命绑定位点预测: 对于待预测蛋白质中的每一个氨基酸残基,根据步骤I产生氨基酸残基在原始特征空间中的特征;然后对氨基酸残基的原始特征分别使用步骤2所述的三个特征选择算法产生三个子空间特征;再将三个子空间特征输入到步骤3所对应的三个SVM预测器Sp S2和S3得到三个以绑定维他命概率形式给出的预测结果,将这三个预测结果输入按照步骤4的加权平均方法集成后的SVM预测器中,输出氨基酸残基绑定或不绑定维他命的概率;最后以最大化马修斯相关性系数的阈值T作为判断基准进行绑定判断:所有绑定概率大于等于T的氨基酸残基预测为绑定残基;其他氨基酸残基即绑定概率小于阈值T的氨基酸残基则预测为非绑定残基 ,其中T e [O,I]。
【文档编号】G06F19/10GK103955628SQ201410164632
【公开日】2014年7月30日 申请日期:2014年4月22日 优先权日:2014年4月22日
【发明者】胡俊, 於东军, 何雪, 李阳, 沈红斌, 杨静宇 申请人:南京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1