基于正反库特征信息匹配的蛋白质二级质谱鉴定方法_5

文档序号:9764983阅读:来源:国知局
骤(2)所述的肽段质量数据 库中找出符合要求的候选肽段,并按规则产生相应的理论图谱; (5) 统计不同离子类型在不同质量误差范围及强度区间的匹配信息,对获取的统计信 息进行合理的数学定量; (6) 将步骤(5)中获取的定量信息融入至打分算法,选择得分最高的候选肽段作为此实 验图谱的匹配结果,最后对所有实验图鉴定结果进行整体质量控制。2. 根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,其特 征在于,步骤(2)所述的候选肽段的筛选方法包括如下步骤: ① 加载database. index文件信息到内存数组index,读取待分析二级质谱母离子的m/z 值和电荷信息,并计算其母离子去电荷后的质量数; ② 根据容许的质量误差查找index数组记录并读取相应肽段信息,查找index数组找到 其在文件database. ind中的起始位置和行数,由此位置开始顺序读取相应的行数,并加入 内存中,即加载了该区间内的所有肽段信息; ③ 对内存加载肽段进行逐步地精细筛选,并作为此待分析二级质谱的候选肽段。3. 根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,其特 征在于,步骤(3)所述的去同位素峰过程具体包括如下步骤: ①去同位素峰 a. 进行初始化,比较三个峰的m/z值及其强度,全部设为O,具体叙述如下: I ·三个峰m/z值分别是:m/z_l = O,m/z_2 = O,m/z_3 = O; II.三个峰的峰强度对应为:m/z j_in = 0,m/z_2_in = 0,m/z_3_in = 0;并设置保留峰 的容器,已知测量质量误差h b. 读取一个峰的信息,将目前的峰放入第三个峰的位置,即m/z_3,m/z_3_in,将第三个 峰与第一个峰和第二个峰比较,判断是否是前两个峰的同位素峰,若以下三个条件的任意 一个条件成立,则认为是同位素峰: I · |m/z_3_m/z_2-l I < =,并且m/z_2_in>m/z_3_in; II · |m/z_3_m/z_l-l I < =,并且m/z_l_in>m/z_3_in; III · Im/z_2_m/z_l I < = δ,并且m/z_2_in>m/z_3_in; 此为相同峰信息,记录误差,执行三个峰向前平移一位,空出第三个峰的位置,即: m/z_l =m/z_2,m/z_l_in=m/z_2_in m/z_2=m/z_3,m/z_2_in=m/z_3_in c. 如果步骤(b)中的三个条件均不成立,则认为目前进入第三位置的峰不是同位素峰, 将其作为保留峰存入保留峰容器中,并把三个峰向前平移一位,空出第三个峰的位置,即: m/z_l =m/z_2,m/z_l_in=m/z_2_in d.逐个读取下一个峰的信息,重复步骤(b)直到处理完一张二级质谱图所用的峰信息, 其保留峰容器中的峰即为去同位素峰之后的非同位素峰; ②选取有效质谱峰 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法在选取有效质谱峰方面与以前 的鉴定方法有很大不同,此算法采用以下选取有效峰的方法: a·找出实验图谱m/z的最大值与最小值,分别记为maxm/z与minm/z,以及最高峰强度对 应的m/z值; b.将实验图谱划分为k个窗口 : k=max(round([(maxm/z-m/z)/50,(m/z-minm/z)/50]+0.5)); c .以最高峰强度对应的m/z值为基准,向左右延伸,每次分别开启50Da的窗口(即以 IOODa为1个窗口),直到窗口数等于k结束; d.对每一窗口的峰进行归一化,也即用每个峰除以该窗口的最高峰,并选择该窗口下 最强的6个峰作为有效峰。4. 根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,其特 征在于,步骤(4)具体包括如下步骤: a. 将所得候选肽段产生可能的理论b、y碎片离子; b. 步骤(a)产生的b、y碎片离子中若包含S、T、E和D四种氨基酸的任意一种,则分别产生 对应的丢水碎片离子,即b-H20和y-H 20; c. 步骤(a)产生的b、y碎片离子中包含R、K、Q和N四种氨基酸中的任意一种,则分别产生 对应的丢氨碎片离子,即b-NH 3和y-NH3; d. 若待分析二级质谱母离子价态是1价,则考虑产生一价理论碎片离子; e. 若待分析二级质谱母离子价态大于等于2,并且对应的碎片离子中包含R,K和H三种 氨基酸任意一种时,则考虑二价碎片离子。5. 根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,其特 征在于,步骤(5)具体包括如下步骤: ① 将不同碎片峰类型下的质量误差及峰强度分别划分为10个及5个区间,具体操作如 下: a. 质量误差区间: [0,0.05],[0.05,0.1],[0.1,0.15],[0.15,0.2],[0.2,0.25],[0.25,0.3],[0.3, 0.35],[0.35,0.4],[0.4,0.45],[0.45,0.5] b. 峰强度区间:c. 碎片峰类型: b, b-NH3, b-H20, y, y-NH3, y-H20 ; ② 统计不同碎片峰类型在不同质量误差范围及强度区间下基于正反库下的匹配信息, 即匹配个数; ③定义不同碎片峰类型在不同质量误差及强度区间下基于正反库匹配的特征信息,并 进行数学定量; 不同碎片峰类型在不同质量误差及强度区间下权重计算公式如下:其中:NTarget =正库中匹数数,NDecoy =反库中的匹配数,Weight =权重值,它是不同碎片 峰类型在不同质量误差范围及强度区间下理论碎片峰与实验碎片峰识别非随机匹配造成 的能力度量;j为第j个区间(j e [ 1,10],j EZ+),i为第i种离子类型(i Eb/b-H20/b-NH3/y/ y-H20/y-NH3),N(rij)为离子类型i在区间j中正确匹配峰的数目,N(明)为离子类型i在区间 j中错误匹配峰的数目。6.根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,其特 征在于,步骤(6)所述的打分过程包括: 基于正反库特征信息的匹配打分、基于正反库特征信息的连续匹配打分以及基于正反 库特征信息的b、y离子匹配打分; ① 基于正反库特征信息的匹配打分,公式如下:其中:Ko =实验图谱与理论图谱匹配数;No =理论图谱匹配数;Weight1 =权重分值,是关于离 子类型,质量误差范围及强度区间的函数;So =实验图谱与理论图谱匹配分值;0.1992 =随 机匹配参数;反映了实验图谱与理论图谱之间非随机匹配产生的可靠性度量,的标准化,使得不同水平下的实验图谱匹配得分具有可比性; ② 基于正反库特征信息的连续匹配打分,公式如下: 其中:K i =实验图谱与理论图谱连续匹配个;N i =实验图谱与理论图谱理论匹配个数;'=实验图谱与理论图谱连续匹配的总权重,它是关于离子类型,质量误差区间及 强度区间的函数,假设碎片峰i和碎片峰j是连续匹配的两个峰,则Weighti ' =Weighti+ Weightj5S1 =实验图谱与理论图谱连续匹配总分值;0.0885 =连续匹配随机参数;反映了实验图谱与理论图谱之间连续匹配非随机匹配产生的可靠性度量,的标准化,使得不同水平下实验图谱的连续匹配得分具有可比性; ③ 基于正反库特征信息的b、y离子匹配打分,公式如下:其中: K2 = b/y离子匹配总个数;N2 = b/y离子理论匹配总个数;Weighti" =b/y离子匹配的权是已匹配的b/y离子权重总和;S2 = b/y离子匹配所得总分值;0.0604 =离 子匹配随机的参数;反映了实验图谱与理论图谱之间b/y离子匹配是由正确匹配所产生的可靠的标准化,使得不同水平下的b/y离子匹配得分具有可比性; ④ 基于正反库特征信息匹配的肽段总得分: Score_Pep = S0+S1+S2 其中:Sc〇re_Pep是肽段最终得分值; ⑤ 根据总打分函数选择得分最高的肽段作为此实验图谱的鉴定结果; 对不同候选肽段下的得分进行排序,将得分最高的候选肽段作为该实验图谱对应最佳 匹配结果; ⑥ 对鉴定结果采用FDR〈〈0.01进行质量控制,并生成最终鉴定结果。7.根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,其特 征在于,步骤(6)所述的质量控制包括如下步骤: ① 统计待分析图谱所有二级图谱中的鉴定结果肽段得分的最小值和最大值; ② 统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和诱饵库中肽 段的个数,并计算每个分值为阈值时FDR的值; ③ 按得分值从小到大寻找每个分值,直到找到n)R〈 = 0.01时,此分值为待分析图谱的 整体阈值; ④ 根据步骤③找到整体阈值,以此阈值过滤待分析图谱的鉴定结果,过滤掉小于此阈 值的结果,其结果作为待分析图谱的最终鉴定结果。
【专利摘要】本发明申请公开了一种基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,该算法主要通过统计不同类型实验峰与正反库理论峰在不同误差范围及强度区间下的匹配情况,进而提取出串联图谱的新特征信息并进行数学定量,最后将已被定量的新特征信息融入至蛋白质二级质谱鉴定算法打分模型。为了验证PepFind算法的可靠性,我们将利用不同质谱平台下产生的数据集对该算法进行测试,并与目前被广泛应用的商业及相关开源蛋白质二级质谱鉴定软件在FDR为1%的条件下所得鉴定结果进行对比分析,结果表明PepFind对实验图谱具有更好的鉴定量及灵敏度。本发明申请涉及的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,能明显提高蛋白质有效质谱数量和蛋白质肽段数量。
【IPC分类】G01N30/72
【公开号】CN105527359
【申请号】CN201510799926
【发明人】陈晓舟, 肖传乐, 李华梅, 陈君华
【申请人】云南民族大学
【公开日】2016年4月27日
【申请日】2015年11月19日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1