基于质荷比误差识别能力的蛋白质二级质谱鉴定方法

文档序号:6232208阅读:350来源:国知局
基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
【专利摘要】本发明公开了一种基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,包括如下步骤:虚拟酶解蛋白质数据库序列,根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引,根据待分析实验图谱中母离子去电荷后的质量数在建立的肽段数据库中找出符合要求的候选肽段,进行去同位素峰和选取有效峰处理,产生符合候选肽段理论图谱的实验标记图谱,统计不同离子的质量误差信息,计算出不同离子类型在不同区间内的质荷比误差识别能力,对每个候选肽段基于质荷比误差识别能力进行打分,选择得分最高的肽段作为此实验图谱的鉴定结果,对鉴定结果进行整体质量控制。该方法鉴定的有效图谱数量和肽段数量均高于目前算法,且可动态选峰,运行速度快。
【专利说明】基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
【技术领域】
[0001]本发明涉及蛋白质二级质谱鉴定领域,特别是涉及一种基于质荷比误差识别能力的蛋白质二级质谱鉴定方法。
【背景技术】
[0002]生物质谱技术的运用使得大规模自动化的蛋白质鉴定成为现实,生物实验和质谱技术相结合能在短时间内产生大量的实验质谱数据.因此,在蛋白质组学研究中,二级质谱数据处理是一项非常重要的研究内容,其目的是从带有噪声或者部分信息缺失的数据中推断样品蛋白质的组成。目前推断样品蛋白质组成的方法主要有两种:一是数据库搜索,二是DeNovo测序.其中数据库搜索是质谱数据处理中使用最为广泛的方法,其基本过程如图1所示:将实验所得图谱与数据库中理论酶切图谱进行比对并打分,将匹配分值最高的肽段作为候选肽段.[0003]蛋白质二级质谱鉴定主要包括以下几个方面内容:母离子价态的确定、有效质谱峰的选取、匹配打分模型的构建以及针对鉴定结果进行整体质量控制.其中对鉴定结果进行整体质量控制的方法多样,其中广泛采用的方法是应用随机数据库对整体鉴定结果进行发现率控制.其基本思想是:首先,对真实蛋白质数据库和实验数据集构建一个随机数据库;然后,同时或者分别搜索真实蛋白质数据库和新构建的随机数据库,通过随机数据库肽段匹配来模拟正常数据库中的随机匹配,从而估计正常数据库中随机匹配的特征分布,以确定不同的过滤标准,Kair s于2008年在Proteome上公开了一种方法,具体是采用如下公式来得到整体数据集的假发现率(FalseDiscoveryRate, FDR):
[0004]FDR =NR/NN
[0005]打分模型是蛋白质二级质谱鉴定算法的核心,目前主要可分为两类:解释型模型和概率统计模型.两者中最具代表的商业软件分别是SEQUEST和Mascot。另外还有一些免费的鉴定算法,例如基于超几何模型的X ! Tandem,基于泊松分布模型的OMSSA以及近期发表在Journal of Proteome Research上基于二项分布模型的ProVerB.综合目前蛋白质二级质谱鉴定算法,其打分过程中主要考虑以下三方面的特征信息:(I)峰的匹配(2)峰的连续匹配(3)峰强度的匹配。其中(I)、(2)已被广泛融入到算法构建中,而特征信息(3)却很少被考虑到,上述ProVerB通过将(3)融入到打分模型中,极大地提升了肽段鉴定量和有效图谱量,取得了优于Mascot和Sequest的效果。为蛋白质结构信息和功能域的研究提供了极为有力的工具,但是对于质荷比误差识别能力这个重要的特征信息,却均未涉及到。
[0006]因此,融入质荷比误差识别能力这个特征信息,继而研究一种能明显提高蛋白质有效质谱数量与蛋白质肽段数量的二级质谱鉴定方法具有很高的理论和实用价值。

【发明内容】

[0007]有必要提供一种能明显提高蛋白质有效质谱数量和蛋白质肽段数量的基于质荷比误差识别能力的蛋白质二级质谱鉴定方法。
[0008]一种基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,包括如下步骤:
[0009](I)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引;
[0010](2)根据待分析实验图谱中母离子去电荷后的质量数在步骤(1)所述的肽段数据库中找出符合要求的候选肽段;
[0011](3)对待分析实验图谱进行去同位素峰和选取有效峰处理;
[0012](4)产生符合候选肽段理论图谱的实验标记图谱;
[0013](5)统计不同离子的质量误差信息,并计算出不同离子类型在不同区间内的质荷比误差识别能力;
[0014](6)对每个候选肽段基于质荷比误差识别能力进行打分,选择得分最高的肽段作为此实验图谱的鉴定结果,并对鉴定结果进行整体质量控制。
[0015]在其中一个实施例中,步骤(4)具体包括如下步骤:
[0016]I)产生候选肽段可能产生的理论碎片b、y离子;
[0017]2)若步骤I)产生b、y离子中包含S、T、E和D四种氨基酸中的一种则产生对应的丢水碎片离子b-H20和y-H20 ;
[0018]3)若步骤I)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种则产生对应的丢氨碎片离子b-NH3和y-NH3 ;
[0019]4)若待分析二级质谱母离子价态是I价,则考虑产生一价碎片离子;
[0020]5)若待分析二级质谱母离子价态大于等于2,并且对应的碎片离子中包含R,K和H三种氨基酸其中一种时,则考虑二价碎片离子峰;
[0021]根据步骤I)~5)产生所有理论碎片离子的方法,得到候选肽段的理论图谱。
[0022]在其中一个实施例中,步骤(5)具体包括如下步骤:
[0023]I)统计实验峰质量误差信息以及实验峰与理论峰正确匹配与错误匹配峰数目,并将质量误差等划分为 10 个区间:[0,0.05], [0.05,0.1], [0.1,0.15], [0.15,0.2], [0.2,0.25],[0.25,0.3],[0.3,0.35],[0.35,0.4],[0.4,0.45],[0.45,0.5]
[0024]2)定义质荷比误差识别能力,并计算出不同离子类型在不同区间内的质荷比误差识别能力;
[0025]理论碎片离子与实验图谱质量误差区分度的计算:
[0026]Tij = N Crij) /N (e^-) (j = 1,2,...,10)
[0027]其中,j为第j个区间(j e [I, 12], j e Z+) ;i为第i种离子类型(i e b/b-H20/b-NH3/y/y-H20/y-NH3) ;Ν( ^.)为离子类型i在区间j中正确匹配峰的数目;N(eij)为离子类型i在区间j中错误匹配峰的数目;TU为离子类型i在区间j中的质荷比误差识别能力。
[0028]在其中一个实施例中,步骤(6)所述的打分过程包括:基于质荷比误差识别能力的匹配打分、基于质荷比误差识别能力的连续匹配打分以及基于质荷比误差识别能力的b、y离子匹配打分;
[0029]I)基于质荷比误差识别能力的匹配打分:
【权利要求】
1.一种基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,包括如下步骤: (1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引; (2)根据待分析实验图谱中母离子去电荷后的质量数在步骤(1)所述的肽段数据库中找出符合要求的候选肽段; (3)对待分析实验图谱进行去同位素峰和选取有效峰处理; (4)产生符合候选肽段理论图谱的实验标记图谱; (5)统计不同离子的质量误差信息,并计算出不同离子类型在不同区间内的质荷比误差识别能力; (6)对每个候选肽段基于质荷比误差识别能力进行打分,选择得分最高的肽段作为此实验图谱的鉴定结果,并对鉴定结果进行整体质量控制。
2.根据权 利要求1所述的基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(4)具体包括如下步骤: 1)产生候选肽段可能产生的理论碎片b、y离子; 2)若步骤I)产生b、y离子中包含S、T、E和D四种氨基酸中的一种则产生对应的丢水碎片尚子b_H20和y_H20 ; 3)若步骤I)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种则产生对应的丢氨碎片尚子b_NH3和y-NH3 ; 4)若待分析二级质谱母离子价态是I价,则考虑产生一价碎片离子; 5)若待分析二级质谱母离子价态大于等于2,并且对应的碎片离子中包含R,K和H三种氨基酸其中一种时,则考虑二价碎片离子峰; 根据步骤I)~5)产生所有理论碎片离子的方法,得到候选肽段的理论图谱。
3.根据权利要求1所述的基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(5)具体包括如下步骤: 1)统计实验峰质量误差信息以及实验峰与理论峰正确匹配与错误匹配峰数目,并将质量误差等划分为 10 个区间:[0, 0.05], [0.05,0.1], [0.1,0.15], [0.15,0.2], [0.2,0.25],[0.25,0.3],[0.3,0.35],[0.35,0.4],[0.4,0.45],[0.45,0.5] 2)定义质荷比误差识别能力,并计算出不同离子类型在不同区间内的质荷比误差识别能力; 理论碎片离子与实验图谱质量误差识别能力的计算:
Tij = NCrij)/NGij) (j = I, 2,..., 10) 其中,j为第j个区间(j e [I, 10], j e Z+) ;i为第i种离子类型(i e b/b-H2O/b-NH3/y/y-H20/y-NH3) ;Ν(Y^.)为离子类型i在区间j中正确匹配峰的数目;N(eij)为离子类型i在区间j中错误匹配峰的数目;TU为离子类型i在区间j中的质荷比误差识别能力。
4.根据权利要求1所述的基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(6)所述的打分过程包括:基于质荷比误差识别能力的匹配打分、基于质荷比误差识别能力的连续匹配打分以及基于质荷比误差识别能力的b、y离子匹配打分; I)基于质荷比误差识别能力的匹配打分:
5.根据权利要求4所述的质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,所述质量控制具体包括如下步骤: 。1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分的最小值和最大值; 。2)统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和随机库中肽段的个数,并计算每个分值为阈值时FDR的值; 。 3)按得分值从小到大寻找每个分值,直到找到FDR〈= 0.01时,此分值为待分析图谱的整体阈值; 。4)根据步骤3)找到整体阈值,以此阈值过滤待分析图谱的鉴定结果,过滤掉小于此阈值的结果,其结果作为待分析图谱的最终鉴定结果。
6.根据权利要求1所述的基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(3)所述的去同位素峰过程具体包括如下步骤: 。 1.D进行初始化,比较三个峰的m/z值及其强度,全部设为0,设三个峰m/z值分别是:m/z_l = O, m/z_2 = O, m/z_3 = O,其峰强对应为 m/z_l_in = O, m/z_2_in = O, m/z_3_in=0,并设置保留峰的容器,已知测量质量误差m ; 。 1.2)读取一个峰的信息,将目前的峰放入第三个峰的位置,即m/z_3,m/z_3_in,将第三个峰与第一个峰和第二个峰比较,判断是否是前两个峰的同位素峰, .1.2.1)若以下三个条件的任意一个条件成立,则认为是同位素峰,
a.1 m/z_3_m/z_2_l < = m 并且 m/z_2_in>m/z_3_in ;
b.1 m/z_3_m/z_l_l < = m 并且 m/z_l_in>m/z_3_in ; c.1 m/z_2_m/z_l I〈 = m并且m/z_2_in>m/z_3_in,此为相同峰信息,记录误差, 执行三个峰向前平移一位,空出第三个峰的位置,即:
m/z_l = m/z_2, m/z_l_in = m/z_2_in ;
m/z_2 = m/z_3, m/z_2_in = m/z_3_in ; . 1.2.2)如果步骤1.2.1)中的三个条件均不成立,则认为目前进入第三位置的峰不是同位素峰,将其作为保留峰存入保留峰容器中,并把三个峰向前平移一位,空出第三个峰的位置,BP:m/z_l = m/z_2, m/z_l_in = m/z_2_in ; .1.3)逐个读取下一个峰的信息,重复步骤1.2)直到处理完一张二级质谱图所用的峰信息,其保留峰容器中的峰即为去同位素峰之后的非同位素峰。
7.根据权利要求1所述的基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(2)所述的候选肽段的筛选方法具体包括如下步骤: .1)加载database,index文件信息到内存数组index,读取待分析二级质谱母离子的m/z值和电荷信息,并计算其母离子去电荷后的质量数; .2)根据容许的质量误差查找index数组记录并读取相应肽段信息,查找index数组找到其在文件database, ind中的起始位置和行数,由此位置开始顺序读取相应的行数,并加入内存中,即加载了该区间内的所有肽段信息。 .3)对内存加载肽段进行逐步地精细筛选,并作为此待分析二级质谱的候选肽段。
8.根据权利要求1所述的基于质荷比误差识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(3)所述的选取有效峰处理具体包括如下步骤: .1)寻找实验图谱m/z的最大值与最小值,分别记为maxm/z与minm/z,以及最高峰强度对应的m/z值; .2)将实验图谱划分为k 个窗口其中 k = max (round([ (maxm/z-m/z) /50, (m/z-minm/z)/50]+0.5)); .3)以最闻峰强度对应的m/z为基准,并向左右延伸,每次分别开启50Da的窗口(即以.10Da为I个窗口),直到窗口数等于k结束; .4)对每一窗口的峰进行归一化,即用每个峰除以该窗口的最高峰,选择该窗口中最强的前6个峰作为有效峰。
【文档编号】G01N27/62GK104034792SQ201410298404
【公开日】2014年9月10日 申请日期:2014年6月26日 优先权日:2014年6月26日
【发明者】陈晓舟, 肖传乐, 朱思敏, 李华梅, 郑凯, 李慧敏 申请人:云南民族大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1