基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法

文档序号:6623444阅读:461来源:国知局
基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法
【专利摘要】本发明公开了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。该方法基于相互作用蛋白质间的存在概率亦相互影响的现象,在鸟枪法蛋白质组学数据上融合蛋白质相互作用网络信息,定义了新的蛋白质鉴定图模型,利用图模型中蛋白质的存在概率及其所获得的邻居蛋白质结点的支持度来调整肽映射到蛋白质的概率,从而调整蛋白质的存在概率。该方法能识别大部分的蛋白质,与其它鉴定方法比较,具有较的高的精确度。为生物学家通过蛋白质组学数据推断和鉴定蛋白质的实验以及进一步研究提供有价值的参考信息。
【专利说明】基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法

【技术领域】
[0001] 本发明属于系统生物学领域,尤其涉及一种基于蛋白质相互作用网络和蛋白质组 学的蛋白质鉴定方法。

【背景技术】
[0002] 人类基因组测序的完成标志着后基因组时代的来临,而蛋白质组学是后基因组时 代中最重要的领域之一。蛋白质组学的目的是通过系统地、定量地研究蛋白质在细胞组织 中的表达情况,来揭示基因的功能、蛋白质之间的关系以及生命过程的运行机制。其主要任 务包括:蛋白质序列鉴定、蛋白质修饰鉴定、蛋白质定量分析、蛋白质结构预测和蛋白质功 能预测等问题,而确定出某种细胞器官或组织在一定条件下表达出了哪些蛋白质是其最基 本任务之一。
[0003] 目前,蛋白质鉴定主要是采用鸟枪法蛋白质组学研究方法,其步骤是先将标识生 物样本中的蛋白质混合物经过简单或不经过分离就被酶解为肽段混合物,肽段混合物经色 谱分离和离子化后,经串联质谱仪产生质谱数据用于肽段鉴定,最后再从鉴定的肽段推导 可能的蛋白质。该方法可在短时间内获得大量质谱数据并鉴定出蛋白质。
[0004] 目前,用于鸟枪法蛋白质组学中鉴定蛋白质的方法包括基于图模型、基于统计模 型、基于优化模型、基于节俭模型、基于多信息集成的分析方法。
[0005] 基于统计模型鉴定方法主要包括 ProteinProphet、PANORAMICS、MSBayesPro、 Fido、Qscore等方法。其主要思想是用肽鉴定软件得出的肽得分和相关信息,通过统计方 法估算出给定蛋白质存在的概率。基于统计模型方法可以分为非参数统计模型和参数统计 模型。非参数统计模式未考虑肽样本的概率分布,较参数统计模型而言,非参数统计模型 具有更高的鲁棒性。ProteinProphet是应用最广泛的蛋白质推断方法,该方法是采用一个 迭代过程来估计蛋白质概率,在迭代过程中不断调整蛋白质概率。PAN0RAMICS也是一个与 ProteinProphet类似的方法,它在迭代推断蛋白质过程中不断的调整肽和蛋白质概率,直 到收敛。针对一个肽映射多个蛋白质的情况,MSBayesPro、Fido应用贝叶斯方法推断蛋白 质存在概率。Qscore是一个参数统计模型来预测蛋白质概率,该方法应用一个类似于二项 式分布的统计算法,其参数使用如蛋白质大小、肽匹配质量、一个蛋白质匹配的肽数量、质 谱数据集大小等。PR0T_R0BE方法在蛋白质数据库搜索能得到适当肽的概率时,使用二项式 分布模型推断蛋白质概率,它还设计了一个多项式模型用于任何蛋白质数据库搜索的肽结 果。ComByne应用p值方法对偶然出现的肽的概率进行建模,并充分利用蛋白质长度、保留 时间和谱相关系数等信息,采用多重假设检验方法来评估蛋白质存在可信度。
[0006] 基于节俭模型鉴定方法主要包括IDPicker、DBParser、MassSieve、LDFA、 ProteinLasso等方法。这些方法的主要思想是将肽和蛋白质描述为二分图模型,使用最少 的蛋白质子集来解释所有被标识的肽,将问题规约为集合覆盖问题(NP难问题)。IDPicker 首先根据用户设定的假阳率过滤低可信度的肽集合,然后使用贪婪算法去选择候选的蛋白 质来覆盖所有保留的肽。该方法还支持把重复的肽标识归类。DBParser将蛋白质分成6个 层次,应用节俭模型分别得到每一个层次的蛋白质列表。该方法首先获得无二义的蛋白质 列表,然后得出不明确的蛋白质列表,最后对已推断的蛋白质去冗。LDFA是引入肽的可测 度,应用简单的贪婪算法解决蛋白质集合覆盖所有标识肽问题。ProteinLasso也引入了肽 的可测度,应用Lasso算法解决蛋白质集合覆盖所有标识肽问题。
[0007] 基于优化模型的主要思想是:在二分图的模型的基础上,应用优化模型获取所有 的满足一些简单标准的潜在蛋白质列表,这是基于蛋白质样本中有一大部分是同源蛋白质 的假设。DTASelect是经典的优化模型,该方法能推断出的包含充分数量肽的蛋白质。
[0008] 基于多元信息集成的分析方法的主要思想是引入一些额外已知信息,如原始的二 级质谱数据、一级质谱数据、mRNA表达数据、蛋白质相互作用网络、基因模型等,来提高蛋白 质鉴定的准确度,以及推断出一些未被肽识别的蛋白质。方法要包括PIPER、CEA、MSNet、 MSpresso、nested model、HSM、Barista、PSC、PeptideClassifier 等方法。HSM 融合了原 始的二级质谱数据,该方法构造了层次统计模型根据串联质谱数据来评估肽和蛋白质自信 度。Nested model也融合了质谱数据,提出了一个反馈机制用于同时估计蛋白质和肽的 概率,但该方法没有考虑一个肽映射多个蛋白质的情况。Barista应用三部图来描述蛋白 质鉴定问题,三部图中每层分别对应质谱、肽和蛋白质,三部图和一些肽谱匹配的特征作为 Barista的输入,用机器学习方法直接优化蛋白质总数,并发掘在已鉴定蛋白质中肽谱匹配 得分低的肽和谱。Scaffold采用了肽-谱-蛋白质图结构,该方法选择没有选择一个最优 的肽,还是选择了对应的多个可能的肽,然后构造肽组和蛋白质间的多对多的关系,最后采 用贪婪算法鉴定出最有可能的蛋白质。PIPER提出来源于相同蛋白质的肽具有相关的表达 谱的假设,融合肽表达谱信息来鉴定蛋白质,通过表达谱相关性过滤,该方法输出结果包含 差异表达蛋白质和假阳错误率的估计。CEA和MSNet在进行蛋白质鉴定后,通过融合蛋白质 相互作用网络信息推断出高自信的蛋白质列表。MSpresso基于mRNA的表达越高的蛋白质 存在可能性越大的假设,通过融合mRNA表达信息对鉴定出的蛋白质得分进行重新调整。
[0009] 上述各类方法从不同的角度解决了从肽推断蛋白质中存在的一些问题。其中,基 于二分图模型的方法因其建模简单而得到了广泛应用。之前提出的绝大多数的方法都是基 于二分图模型来设计的。但是,由于蛋白质推断问题本身的复杂性,如:一个肽映射不同蛋 白质的问题(即共享肽问题),基于二分图模型的方法无法准确推断出共享肽归属哪个蛋 白质。此外,当前的很多鉴定方法仍然处于"黑盒子"阶段,它们很少考虑共享肽,或者没有 对共享肽映射到蛋白质的关系进行解释,这不利于进一步的蛋白质鉴定和定量分析工作。 由于蛋白质并不是孤立地起作用,本发明从蛋白质之间相互作用的角度出发,借鉴融合多 元信息集成的分析方法,深层次使用蛋白质相互作用网络对以前构建的二分图模型(肽到 蛋白质模型)进行重新定义,在此基础上设计蛋白质鉴定方法,从而提高蛋白质定性的精 确度。蛋白质鉴定时,存在一个肽映射不同蛋白质的情况(即共享肽),而现有技术很少考 虑共享肽,或者没有对共享肽映射到蛋白质的关系进行解释,这不利于进一步的蛋白质鉴 定和定量分析。


【发明内容】

[0010] 本发明所要解决的技术问题是:基于相互作用蛋白质间的存在概率亦相互影响的 现象,提出了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,该方法识别 精度商。 toon] 本发明的技术方案为:
[0012] 一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,包括以下步骤:
[0013] 步骤一:通过质谱识别软件比较理论质谱图和实验质谱图,得到肽的存在概率 Probpep」,过滤概率小于0. 05的肽;
[0014] 步骤二:根据过滤后的肽建立肽映射蛋白质的二分图匕(队,1^,幻,其中附为肽结 点集合,M」为蛋白质结点集合,E为表示肽和蛋白质映射关系的边的集合;
[0015] 输入一组蛋白质相互作用数据,过滤掉其中的重复相互作用和自相互作用数据, 在二分图上蛋白质侧建立蛋白质相互作用无向图G U(NU,E'),其中Nu为蛋白质结点集合,Nu 结点集合与二分图中%结点集合相同,E'为表示蛋白质相互作用信息的边的集合;
[0016] 步骤三:计算Gv中蛋白质的存在概率ProbpM_j :
[0017]

【权利要求】
1. 一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,包括 以下步骤: 步骤一:通过质谱识别软件比较理论质谱图和实验质谱图,得到肽的存在概率Probpep i,过滤概率小于0. 05的肽; 步骤二:根据过滤后的肽建立肽映射蛋白质的二分图Gv(Ni,E),其中Ni为肽结点集 合,M」为蛋白质结点集合,E为表示肽和蛋白质映射关系的边的集合; 输入一组蛋白质相互作用数据,过滤掉其中的重复相互作用和自相互作用数据,在二 分图上蛋白质侧建立蛋白质相互作用无向图GU(NU,E'),其中Nu为蛋白质结点集合,N u结点 集合与二分图中%结点集合相同,E'为表示蛋白质相互作用信息的边的集合; 步骤三:计算G,,中蛋白质的存在概率Prob"" ;:
其中,ProbpM_j表示蛋白质j的存在概率,Proby表示肽i映射到蛋白质j的概率,根 据公式
十算得到,其中Probj^j表示肽i的存在概率,Deg(pep_i)表示二 分图Gv中i结点的度;Deg(pr〇_j)表示蛋白质j所包含的实际肽的匹配数,即为二分图G v 中j结点的度;Theory (pro_j)表示按某种酶切方式,蛋白质j所包含的理论肽的匹配数; 所述度是指和该结点相关联的边的条数; 步骤四:计算蛋白质j所获得的邻居蛋白质结点的支持度Support^」: Support.proj = ^ Probpro k * Weight(k, j) keGu;(k,i)eE, 其中ProbpM_k表示在Gu上蛋白质j的邻居蛋白质结点k的存在概率,Weight(k, j)表 示蛋白质k与蛋白质j的相互作用权值;如果步骤二中输入的蛋白质相互作用数据是加权 的,则Weight(k, j)依据蛋白质相互作用数据确定;如果步骤二中输入的蛋白质相互作用 数据是非加权的,贝!]令1618111:〇^」)=1 ; 计算蛋白质j的每个邻居蛋白质结点的贡献度,计算公式为:ProbpM_k*Weight(k, j), 判断其是否大于设置的阈值,若低于设置的阈值,认为该邻居蛋白质结点的贡献度为假阳 性,则在计算蛋白质j所获得的邻居蛋白质结点的支持度时,不考虑该邻居蛋白质; 步骤五:调整共享肽i映射到蛋白质j的概率Probi」:
其中,SumSuppori^pj表示共享肽i所映射到的所有的蛋白质所获得的支持度之和,计 算公式为:SumSupportpcp i = EiEGv;(i,j)EESupportproJ * ProbproJ; Supportpr。」表示蛋白质 j所获得的邻居结点的支持度,Prolvu表示第j个蛋白质的存在概率; 根据调整后共享肽i映射到蛋白质j的概率Pr〇bu,利用步骤三中的公式重新计算蛋 白质的存在概率ProbpM」; 步骤六:判断蛋白质的存在概率是否收敛,即检查本次计算得到的蛋白质的存在概率 与上一次计算得到的蛋白质存在概率有没有变化;如果没有变化,则输出蛋白质的存在概 率列表;否则转步骤四。
2. 根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法, 其特征在于,所述质谱识别采用Sequest、Mascot、X ! Tandem或PeptideProphet软件。
3. 根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法, 其特征在于,所述酶切采用胰蛋白酶或甲酸。
4. 根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法, 其特征在于,所述蛋白质相互作用数据来源于DIP数据库。
5. 根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法, 其特征在于,所述步骤四中阈值默认设置为0. 1。
【文档编号】G06F19/00GK104156603SQ201410399487
【公开日】2014年11月19日 申请日期:2014年8月14日 优先权日:2014年8月14日
【发明者】王建新, 钟坚成, 李敏 申请人:中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1