基于正反库特征信息匹配的蛋白质二级质谱鉴定方法

文档序号:9764983阅读:1071来源:国知局
基于正反库特征信息匹配的蛋白质二级质谱鉴定方法
【技术领域】
[0001] 本发明设及蛋白质二级质谱鉴定领域,特别是设及一种基于正反库特征信息匹配 的蛋白质二级质谱鉴定方法。
【背景技术】
[0002] 串联质谱技术化C-MS/MS)被广泛应用于复杂蛋白质混合物的鉴定及定量研究中。 在一次传统的LC-MS/MS实验中,酶解后得到的多肤混合物经强阳离子交换色谱及反相色谱 后分离后,所得肤段根据自身疏水性不同依次流入生物质谱,利用电喷雾技术或激光解吸 技术使进入质谱仪的肤段电离并碎裂,同时测定相应碎片离子的质量信息,然后选择峰强 度最高的前几个碎片离子产生相应的MS/MS图谱,所得MS/MS图谱(参见图1所示)将被蛋白 质二级质谱鉴定算法解析,推测出该实验图谱对应的肤段序列。
[0003] 由于一次蛋白质组实验能产生大量的MS/MS图谱,所获图谱数据具有如下特点:① 实验图谱中碎片峰信息丰富且复杂:首先,生物质谱仪器本身可产生大量的噪声;其次,碎 片峰类型具有多样性,肤段在生物质谱中碎裂的过程是随机的,碎片峰的类型与肤段碎裂 位置有关,不同的碎裂位点可产生不同类型的碎片峰;最后,峰强度的复杂性,一张实验图 谱中有效碎片峰数约占30%,其峰强度的高低能很好的反应碎片峰的可靠性,大量统计表 明,峰强度越高,其对应碎片峰的有效性则越好。但是,低峰度且有效的碎片峰在实验图谱 中不可避免的存在,极大影响了图谱数据的精确解析。②同位素峰的普遍存在:MS/MS图谱 中单电荷与多电荷共存,是不同离子的同位素峰之间存在着复杂重叠的情况。③生物质谱 仪器本身的误差:不同的误差精度可较大程度上影响数据库捜索的效率和精度。因此,如何 快速且有效的解析海量图谱信息是后续生物学分析研究的前提,蛋白质二级质谱鉴定算法 为准确、快速推测MS/MS氨基酸序列构成开启了新的篇章。
[0004] 目前,大多数蛋白质二级质谱鉴定算法都是针对于诱导碰撞解离(Collision-induced Dissociation, 简称乂1护 ) 下产生的MS/MS 图谱而设计的 。在质谱实验中, 带上电 荷的肤段通过质谱仪可W检测到其质荷比,然而为了更为准确的鉴定肤段,通常还需要对 肤段进行碰撞碎裂,对肤段碎裂而产生的碎片离子进行二级质谱扫描。肤段的碎裂一般是 利用能量较低的惰性气体诱导碰撞,基于诱导碰撞解离方式的生物质谱仪在内部有一个空 腔,在运里利用电场可W捕获特定质荷比的肤段,然后通过改变射频电压使得特定的质荷 比肤段离子跟碎裂腔中的惰性气体进行碰撞,从而使肤段离子中的化学键断裂,产生碎片 离子,再通过质量分析仪器可W得到串联质谱,也就是二级质谱。一般来说肤段的碎裂位置 会在化学能量键较低的位置断裂,产生N端b离子W及C端y离子,同时也会产生部分附属的 亚离子,b-也0,b-N也,y-也0及y-N也。因此,正确的认识和理解碎片离子的结构和相应的理 化性质是构建蛋白质二级质谱鉴定算法的前提。
[000引由于生物质谱技术的应用使得碎片离子的质荷比信息是可知的。因此,实验肤段 序列信息可通过实验图谱与理论图谱之间的匹配进行重构(见图3)。在很长一段时间内,M/ Z值常被作为主要的信息而融入到蛋白质二级质谱鉴定算法中,并W此对肤段数据库或被 翻译后的核酸数据库进行捜索,获取可能的候选肤段。其中代表算法软件有:Sequest, Mascot和X!化ndem。数据库捜索的核屯、思想是:首先将实验图谱与产生的理论图谱进行比 对,从而获取可能的候选肤段,并对产生的候选肤段基于相似度或概率打分,得分最高且与 其他候选肤段得分有显著差异的候选肤段作为最终的匹配结果(见图2)。
[0006] 打分函数是蛋白质二级质谱鉴定算法的核屯、,不同的算法会结合不同的MS/MS特 征信息,提出不同的打分模型,并W此提升算法的可靠性和灵敏度。近来算法文献报道可W 看出,模型构建过程中原有特征信息的单一性已被改善,即除考虑M/Z特征信息外,其他相 关图谱特征信息也会被融入算法构建及打分函数中,比如:碎片峰的匹配个数、碎片峰的强 度特性、匹配氨基酸的理化性质、碎片离子区分度等,运些隐含在图谱中的特征信息在最近 发表的鉴定算法ProVerB, Dispec, SQID,MassWiz中有着不同程度的体现。但是基于正反库 前提下,探究不同类型碎片离子在不同质量误差范围及强度区间下基于正反库匹配特性在 现有蛋白质二级质谱鉴定算法中均被忽略。

【发明内容】

[0007] 基于此,有必要提供一种能明显提高蛋白质有效质谱数量和蛋白质肤段数量的基 于正反库特征信息匹配的蛋白质二级质谱鉴定方法。
[0008] 一种基于正反库特征信息匹配的蛋白质二级质谱鉴定方法,包括如下步骤:
[0009] (1)下载蛋白质参考序列数据库,并将蛋白质参考序列反转,得到包含正库及反库 的蛋白质序列数据库;
[0010] (2)虚拟酶解步骤(1)得到的所述蛋白质数据库序列,并根据酶解后肤段的质量数 建立肤段质量数据库和肤段质量数据库索引;
[0011] (3)对待分析实验图谱进行去除同位素峰处理,并合理的选取有效峰,提升实验图 谱本身的信噪比;
[0012] (4)根据待分析实验图谱中母离子去电荷后的质量数在步骤(2)所述的肤段质量 数据库中找出符合要求的候选肤段,并按规则产生相应的理论图谱;
[0013] (5)统计不同离子类型在不同质量误差范围及强度区间的匹配信息,对获取的统 计信息进行合理的数学定量;
[0014] (6)将步骤(5)中获取的定量信息融入至打分算法,选择得分最高的候选肤段作为 此实验图谱的匹配结果,最后对所有实验图鉴定结果进行整体质量控制。
[0015] 在其中一个实施例中,步骤(2)所述的候选肤段的筛选方法包括如下步骤:
[0016]①加载database, index文件信息到内存数组index,读取待分析二级质谱母离子 的m/z值和电荷信息,并计算其母离子去电荷后的质量数;
[0017] ②根据容许的质量误差查找index数组记录并读取相应肤段信息,查找index数组 找到其在文件database. ind中的起始位置和行数,由此位置开始顺序读取相应的行数,并 加入内存中,即加载了该区间内的所有肤段信息;
[0018] ③对内存加载肤段进行逐步地精细筛选,并作为此待分析二级质谱的候选肤段。
[0019] 在其中一个实施例中,步骤(3)所述的去同位素峰过程具体包括如下步骤:
[0020] ①去同位素峰
[0021 ] a.进行初始化,比较S个峰的m/z值及其强度,全部设为0,具体叙述如下:
[0022] I. S个峰m/z值分别是:m/z_l = 0,m/z_2 = 0,m/z_3 = 0;
[0023] 11.^个峰的峰强度对应为:111八_1_111 = 0,111八_2_111 = 0,111八_3_111 = 0;并设置保 留峰的容器,已知测量质量误差S;
[0024] b.读取一个峰的信息,将目前的峰放入第立个峰的位置,即m/z_3,m/z_3_in,将第 =个峰与第一个峰和第二个峰比较,判断是否是前两个峰的同位素峰,若W下=个条件的 任意一个条件成立,则认为是同位素峰:
[00巧]I. |m/z_3-m/z_2-l I < =,并且m/z_2_in>m/z_3_in;
[0026] II. |m/z_3-m/z_l-l I < =,并且m/z_l_in>m/z_3_in;
[0027] III. |m/z_2-m/z_l I < = S,并且m/z_2_in>m/z_3_in
[0028] 此为相同峰信息,记录误差,执行=个峰向前平移一位,空出第=个峰的位置,即:
[0029] m/z_l =m/z_2 ,m/z_l_in=m/z_2_in
[0030] m/z_2=m/z_3,m/z_2_in=m/z_3_in
[0031] C .如果步骤(b)中的=个条件均不成立,则认为目前进入第=位置的峰不是同位 素峰,将其作为保留峰存入保留峰容器中,并把=个峰向前平移一位,空出第=个峰的位 置,即:
[0032] m/z_l =m/z_2,m/z_l_in=m/z_2_in
[0033] d.逐个读取下一个峰的信息,重复步骤(b)直到处理完一张二级质谱图所用的峰 信息,其保留峰容器中的峰即为去同位素峰之后的非同位素峰;
[0034] ②选取有效质谱峰
[0035] 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法在选取有效质谱峰方面与 W前的鉴定方法有很大不同,此算法采用W下选取有效峰的方法:
[0036] a.找出实验图谱m/z的最大值与最小值,分别记为maxm/z与minm/z,W及最高峰强 度对应的m/z值;
[0037] b.将实验图谱划分为k个窗口 :
[003引 k=max(;round( [ (maxm/z-m/z)/50, (m/z-minm/z)/50]+0.5))
[0039] c. W最高峰强度对应的mA值为基准,向左右延伸,每次分别开启50化的窗口(即 W IOODa为1个窗口),直到窗口数等于k结束;
[0040] d.对每一窗口的峰进行归一化,也即用每个峰除W该窗口的最高峰,并选择该窗 口下最强的6个峰作为有效峰。
[0041] 在其中一个实施例中,步骤(4)具体包括如下步骤:
[0042] a.将所得候选肤段产生可能的理论b、y碎片离子;
[0043] b.步骤(a)产生的b、y碎片离子中若包含S、T、E和D四种氨基酸的任意一种,则分别 产生对应的丢水碎片离子,目化-出0和y-出0;
[0044
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1