一种蛋白质亚叶绿体多位置预测方法

文档序号:9687801阅读:754来源:国知局
一种蛋白质亚叶绿体多位置预测方法
【技术领域】
[0001] 本发明属于蛋白质亚细胞位置定位预测领域,尤其设及一种融合位置间关系与位 置相关特征的蛋白质亚叶绿体多位置预测方法。
【背景技术】
[0002] 叶绿体(Chloroplast)是大部分绿色植物细胞中的细胞器,也存在于某些真核生 物体中,如海藻。叶绿体的主要功能是执行光合作用,吸收存储太阳的光能,转化成化学能, 并且释放氧气。除了光合作用外,它们也负责合成植物所需的几乎所有脂肪酸和参与植物 的免疫反应。位于叶绿体中的蛋白质在运些生物过程中起到十分重要的作用,并且在不同 的生物过程中扮演不同的角色,具有不同的功能。由于运些叶绿体蛋白质的功能和它们的 亚叶绿体位置有十分密切的关系,因此首先识别出它们的亚叶绿体位置对于了解它们的功 能很有帮助。
[0003] 过去,研究人员主要专注于在细胞级别预测蛋白质的位置,提出了大量的方法。运 些方法分别从W下4个方面推进了该领域的发展:
[0004] (1)不断拓宽了细胞位置的覆盖范围,使亚细胞位置预测工具的实用性大大增强。 最早的一些工作仅覆盖很少的位置信息。例如,化kashima等人(Nakashima,H. ,Nishikawa, Κ.Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies. Journal of Molecular Biology,1994, 238(1): 54-61)的研究仅仅覆盖了2个位置信息,Cedano等人(Cedano,J.,Aloy,P.,P' erez-Pons,J.A.,et al.Relation between amino acid composition and cellular location of proteins.Journal of Molecular Biology, 1997,266:594-600)的工作覆盖了5个位置 信息。随着越来越多的蛋白质数据可用,位置数量已经增加到了 22个。
[0005] (2)大大提高了预测的准确率。研究人员主要从两个方面入手,一是从蛋白质序列 中提取具有高度判别能力的特征,二是选用和开发泛化能力强大的分类器。对于特征提取, 首先采用的是氨基酸组成,然后畑〇u(Chou,K.C.Prediction of protein cellular attributes using pseudo-amino acid composition.Proteins: Structure.Function, and Bioinformatics,2001,43(3): 246-255)又提出了伪氨基酸组成,加入了序列顺序影 响。此后,基于畑OU的伪氨基酸组成概念,大量的变体被开发出来,比如,考虑序列进化信 息,功能域组成,基因本体信息。除了提取特征W外,大量的机器学习方法被应用到该领域, 最常用的有kNN及其变体,SVM等。
[0006] (3)由于不同物种间蛋白质序列和细胞位置间的差异,比如,叶绿体只存在于植物 细胞中,而人类等其他动物细胞中却没有,因此,有必要为不同的物种开发专口的预测器, W避免得到无意义的预测结果。目前,已经出现不少的物种专有的预测器,W化OU和化en开 ^^tlCel l-Ploc(Chou ,Κ. C. , Shen ,Η. B . Cel 1-PLoc : a package of Web servers for predicting subcellular localization of proteins in various organisms.Nature Protocols ,2008,3(2) :153-162)最为著名。
[0007] (4)研究表明,有大量的蛋白质定位于多个细胞位置,参与执行不同的生物功能, 运些蛋白质对于制药工程和基础研究有很重要的意义。因此,开发出能够预测多个细胞位 置的方法将十分必要。已经有一些方法可W用于预测蛋白质的多亚细胞位置。
[0008] 随着对细胞中细胞器研究的深入,研究人员发现了大量的细胞器亚结构,比如,细 胞核中包含核染色质(chromatin)、异染色质化eterochromatin),核被膜(nuclear envelope)、核仁(nucleolus)等亚结构;线粒体中包含内膜(inner membrane)、外膜(outer membrane)等亚结构;叶绿体中包含基质(shoma)、类囊体(Thylakoid)等亚结构。为了更加 深入了解蛋白质的功能,很有必要确定蛋白质在细胞器级别的具体位置。从最近发布的 化1口'〇1邸/5*133斗'〇1数据库(的16日36 2013_05)了解到,共有14,408个叶绿体蛋白质,标 注有亚叶绿体位置的蛋白质有7,367个,占到总叶绿体蛋白质的7,367/14,408 = 51.1 %,而 运些亚叶绿体位置标注中,经过实验验证的共有6,955个,占到总叶绿体蛋白质的6,955/ 14,408 = 48.3%,也就是说,大概一半W上的叶绿体蛋白质都没有明确的亚结构信息标注。 细胞器是相对于细胞来说更微观的结构单位,因而实验确定蛋白质的亚细胞器位置将更加 困难和耗时。随着叶绿体蛋白组项目的快速发展,叶绿体蛋白质的数量和它们的功能之间 的差距将越来越大。为了弥补运一差距,同时由于实验测定亚细胞器级的位置更加困难,十 分有必要开发计算预测方法来预测蛋白质的亚叶绿体位置。
[0009] 近年来,已经有一些预测方法可W预测蛋白质的亚-亚细胞位置,比如,亚细胞核 位置的预测(Shen,H.B. ,Chou,K.C.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition.Biochemical and Biophysical Research Communications,2005,337(3): 752-756 ),亚线粒体位置的识别(Zeng,Y.H.,加 o,Y.Z.,Xiao, R.Q.,et al. Using the augmented chou's pseudo amino acid composition for predicting protein submitochondria locations based on auto covariance 曰ppro曰ch.Journ曰1 of Theoretical Biology,2009,259(2):366-372)。具体到亚叶绿体位置预测,第一个工作由 Du等人(Du,P. ,C曰o,S. ,Li,Y.SubChlo:predictin邑 protein subchloropl曰st locations with pseudo-amino acid composition and the evidence-theoretic K-nearest nei曲bo;r(ET-K順)algorithm. Journal of Theoretical Biology,2009,261(2) :330-335) 于2009年完成。他们开发了一个基于伪氨基酸组成和ET-K順算法的亚叶绿体位置预测器。 此后,又有一些其他的研究人员在该领域做了一定的工作。但是,现有的工作都存在W下一 个重大的缺点,即已有工作的预测方法只能对仅包含单亚叶绿体位置的蛋白质数据集进行 建模,无法对同时包含单亚叶绿体位置的蛋白质和多亚叶绿体位置的蛋白质数据集进行有 效地建模,进而导致已有工作的预测模型只能对待测蛋白质预测出一个亚叶绿体位置,而 目前已知存在大量的蛋白质同时有多个亚叶绿体位置,因此,迫切需要设计出能够同时预 测出蛋白质的多个亚叶绿体位置的预测方法。

【发明内容】

[0010] 本发明的目的在于克服现有技术中的无法同时预测蛋白质的多个亚叶绿体位置 的缺点,提出一种融合位置间关系与位置相关特征的蛋白质亚叶绿体多位置预测方法。
[0011] 本发明是运样实现的,一种融合位置间关系与位置相关特征的蛋白质亚叶绿体多 位置预测方法,包括w下步骤:
[0012] 步骤1、对于待预测的蛋白质序列和训练数据集,基于蛋白质的氨基酸序列信息, 采用伪氨基酸组成(PseAAC)方法,抽取出待预测的蛋白质序列和训练数据集中所有蛋白质 序列的特征向量,从而构成待预测样本集和训练样本集;
[0013] 步骤2、基于步骤1所构建的原始训练样本集,分别为每个亚叶绿体位置构建新的 训练样本集。在每个亚叶绿体位置所对应的新训练样本集中,把属于该亚叶绿体位置的蛋 白质标记为正样本,不属于该亚叶绿体位置的蛋白质标记为负样本;
[0014] 步骤3、基于步骤2所构建的针对每个亚叶绿体位置的新训练样本集,分别训练一 个支持向量机(SVM)预测器;
[0015] 步骤4、对于步骤2构建的每个亚叶绿体位置所对应的新训练样本集的每个蛋白质 样本,除了该新训练样本集所对应的亚叶绿体位置W外,把其他亚叶绿体位置对于该蛋白 质样本的归属值追加到该蛋白质样本的特征向量中,蛋白质样本属于某亚叶绿体位置,归 属值设为1,否则设为-1,W扩展蛋白质样本的特征空间,基于此规则,分别更新每个亚叶绿 体位
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1