基于峰强度识别能力的蛋白质二级质谱鉴定方法

文档序号:6232253阅读:1113来源:国知局
基于峰强度识别能力的蛋白质二级质谱鉴定方法
【专利摘要】本发明公开了一种基于峰强度识别能力的蛋白质二级质谱鉴定方法,该方法首先虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引,接着根据待分析实验图谱中母离子去电荷后的质量数在建立的肽段数据库中找出符合要求的候选肽段,再对待分析实验图谱进行去同位素峰和选取有效峰,产生符合要求的候选肽段的理论图谱,统计不同离子的峰强度信息,并计算出不同离子类型在不同区间内峰强度识别能力,对每个候选肽段基于峰强度识别能力进行打分,选择最高得分的肽段作为此实验图谱鉴定结果,最后对鉴定结果进行质量控制。该方法鉴定有效质谱的数量和蛋白质肽段数量均高于目前现有算法,且可动态选峰,运行速度快。
【专利说明】基于峰强度识别能力的蛋白质二级质谱鉴定方法

【技术领域】
[0001]本发明涉及蛋白质二级质谱鉴定领域,特别是涉及一种基于峰强度识别能力的蛋白质二级质谱鉴定方法。

【背景技术】
[0002]多维色谱与质谱技术联用构成的生物质谱技术大规模应用于蛋白质组学,尤其基质辅助激光解吸 (matrix-assisted laser desorpt1n 1nizat1n, MALDI)和电喷雾(Electrospray 1nizat1n, ESI)两种软电离技术的出现,使生物质谱能较少的引入杂质并保持肽段分子的完整性,为蛋白质的质量信息和结构信息的研究开启了新的一页。质谱数据处理技术对蛋白质组的研究具有重要的作用,其主要任务是从带有复杂噪声或者部分信息缺失的数据中推断样品的蛋白质组成。数据库搜索是质谱数据处理的主要方法,其基本过程如图1所示,即将实验图谱和数据库中产生的理论图谱进行比对、打分,选择分值最高的匹配作为搜索结果的候选肽段。
[0003]蛋白质二级质谱鉴定涉及诸多方面的内容,其主要包括母离子价态的确定、有效质谱峰的选取、匹配打分模型构建以及整体鉴定结果的假阳性率控制。目前随机数据库方法是针对整体鉴定结果假阳性率控制的主要方法。基本思想是:先给定的蛋白质数据库和实验数据集构建一个随机数据库,然后同时或者分别搜索真实蛋白质数据库和新构建的随机数据库,进而通过随机数据库肽段匹配来模拟正常数据库中的随机匹配,最终估计正常数据库中随机匹配的特征分布,确定不同过滤标准。目前求取整体数据集假阳性率(FalsePositive Rate, FPR)的方法多样。其中Kail’ s在Proteome上公开的计算假阳性率的方法被广泛采用,计算公式如下:

【权利要求】
1.一种基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,包括如下步骤: (1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引; (2)根据待分析实验图谱中母离子去电荷后的质量数在步骤(1)所述的肽段数据库中找出符合要求的候选肽段; (3)对待分析实验图谱进行去同位素峰和选取有效峰; (4)产生符合要求的候选肽段的理论图谱; (5)统计不同离子的峰强度信息,并计算出不同离子类型在不同区间内峰强度识别能力; (6)对每个候选肽段基于峰强度识别能力进行打分,选择最高得分的肽段作为此实验图谱鉴定结果,并对鉴定结果进行质量控制。
2.根据权利要求1所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(3)所述的 去同位素峰过程具体包括如下步骤: 1.D进行初始化,三个比较峰的m/z值及其强度,全部设为O,设三个峰m/z值分别是:m/z_l = O, m/z_2 = O, m/z_3 = O,其峰强对应是 m/z_l_in = O, m/z_2_in = O, m/z_3_in=0,并设置保留峰的容器,已知测量质量误差m ; 1.2)读取一个峰的信息,把目前的峰放入第三个峰的位置,即m/z_3,m/z_3_in,把第三个峰与第一个峰和第二个峰比较,判断是否是前两个峰的同位素峰, 1.2.1)如果以下三个条件的任意一个条件成立,则认为是同位素峰,
a.1 m/z_3_m/z_2_l < = m 并且 m/z_2_in>m/z_3_in ;
b.1 m/z_3_m/z_l_l < = m 并且 m/z_l_in>m/z_3_in ; c.1 m/z_2-m/z_l I〈 = m并且m/z_2_in>m/z_3_in,此为相同峰信息,记录误差,执行三个峰向前平移一位,空出第三个峰的位置,即:
m/z_l = m/z_2, m/z_l_in = m/z_2_in ;
m/z_2 = m/z_3, m/z_2_in = m/z_3_in ; 1.2.2)如果步骤1.2.1)中的三个条件均不成立,则认为目前进入第三位置的峰不是同位素峰,将其作为保留峰存入保留峰容器中,并把三个峰向前平移一位,空出第三个峰的位置,BP:m/z_l = m/z_2, m/z_l_in = m/z_2_in ; 1.3)逐个读取下一个峰的信息,重复步骤1.2)直到处理完一张二级质谱图所用峰信息,其保留峰容器中的峰即为去同位素峰之后的非同位素峰。
3.根据权利要求1所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(4)具体包括如下步骤: 1)产生候选肽段可能产生的理论碎片b、y离子; 2)如果步骤I)产生b、y离子中包含S、T、E和D四种氨基酸中的一种,则产生对应的丢水碎片离子b-H20和y-H20 ; 3)如果步骤I)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种,则产生对应的丢氨碎片离子b-NH3和y-NH3 ; 4)待分析二级质谱母离子价态是I价,则考虑产生一价碎片离子;5)若待分析二级质谱母离子价态大于等于2,并且对应的碎片离子中包含R,K和H三种氨基酸其中一种时,则考虑二价碎片离子峰; 根据步骤I)~5)产生所有理论碎片离子的方法规则,得到候选肽段的理论图谱。
4.根据权利要求1所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(5)具体包括如下步骤: 1)将峰强度归一化,并将归一化后峰强度所在区域根据不同离子类型划分为12个区间,仅考虑b、b_H20、b_NH3、y、y-H20> y-NH3六种尚子类型; 2)统计每一实验质谱峰不同离子类型在不同的强度区间内正确匹配与错误匹配上候选肽段的数量,并定义该离子类型在该区间上的强度识别能力。计算公式如下:
其中,j代表第j个区间(j e [I, 12], j e Z+) ;i代表第i种离子类型(i e {b, b-H20,b-NH3, y, y-H20, y-NH3}) ;TU代表离子类型i在区间j中的强度识别能力;N(ru)代表离子类型i在区间j中正确匹配峰的数目;N(eu)代表离子类型i在区间j中错匹配峰的数目。
5.根据权利要求1所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(6)所述的打分过程包括:基于强度识别能力匹配打分,基于强度识别能力连续匹配打分以及基于强度识别能力b,y离子匹配打分,具体如下: 1)基于强度识别能力离子匹配打分:
其中,1?是实验图谱与理论图谱匹配峰的数目;%是理论图谱峰数目C是匹配峰离子强度识别能力之和;0.1811为随机匹配概率值,等于随机肽段实验图谱匹配峰数目除以理论图谱峰数目; 2)基于强度识别能力连续匹配打分:
其中,多个离子的连续匹配将转化成多个两个离子的连续匹配屯是实验图谱连续匹配峰数目卟是理论图谱连续匹配峰数目,D是第m和P个峰构成了一个连续匹配,两个连续匹配峰强度识别能力之和;0.0828为随机匹配概率值,随机肽段实验图谱连续匹配峰数目除以理论连续峰数目; 3)基于强度识别能力b,y离子匹配打分:
其中,!^是比y离子实验图谱与理论图谱匹配峰数目;n2是理论图谱b,y峰数目;
是匹配b,y离子峰对应的强度识别能力之和;0.0604是随机匹配概率值,等于随机肽段b、y离子匹配峰数目除以其理论b、y离子峰数目 4)基于强度识别能力总分函数: Sp = 0.0MSfS^S2)。
6.根据权利要求1所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(6)所述的鉴定结果采用F DR〈〈0.01进行质量控制,得出最终鉴定结果。
7.根据权利要求6所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,所述质量控制具体包括如下步骤: 1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值; 2)统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和随机库肽段的个数,并计算每个分值为阀值时的FDR的值; 3)按得分值从小到大寻找每个分值,直到找到FDR〈= 0.01时,此分值为待分析图谱的整体阀值; 4)根据步骤3)找到整体阀值,以此阀值过滤待分析图谱的鉴定结果,也就是说小于此阀值的结果被过滤掉,其结果作为待分析图谱的最终鉴定结果。
8.根据权利要求1所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(2)所述的候选肽段的筛选方法如下步骤: 1)加载database,index文件信息到内存数组index,读取待分析二级质谱的母离子的m/z值和电荷信息,并计算其母离子去电荷后的质量数; 2)根据容许的质量误差查找index数组记录并读取相应肽段信息,查找index数组找到其在文件database, ind中的开始位置和行数,由此位置开始顺序读取相应的行数加入内存中,即加载了此区间内的所有肽段信息; 3)对内存加载肽段进行逐步的精细筛选,作为此待分析二级质谱的候选肽段。
9.根据权利要求1所述的基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,步骤(3)所述的选取有效峰的方法如下步骤: 1)寻找实验图谱m/z的最大值和最小值分别为maxm/z和minm/z,以及峰强度的最大值max_intensity和对应的m/z值; 2)将实验图谱划分为k 个窗口,其中 k = max (round ([ (maxm/z-m/z) /50, (m/z-minm/z)/50]+0.5)); 3)以max_intensity对应的m/z为基准,并向左右延伸,每次分别开启50Da的窗口,直到窗口数等于k结束; 4)对每一窗口的峰进行归一化,也即用每个峰除以该窗口的最强峰,并选择该窗口下最强的6个峰作为有效峰。
【文档编号】G01N30/86GK104076115SQ201410299214
【公开日】2014年10月1日 申请日期:2014年6月26日 优先权日:2014年6月26日
【发明者】陈晓舟, 肖传乐, 郑凯, 李华梅, 李慧敏 申请人:云南民族大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1