一种利用高能碰撞诱导电离碎裂技术鉴定蛋白的方法

文档序号:6161640阅读:1904来源:国知局
一种利用高能碰撞诱导电离碎裂技术鉴定蛋白的方法
【专利摘要】本发明公开了一种利用高能碰撞碎裂技术(high?collision?induced?dissociation)鉴定蛋白的方法。本发明提供了一种利用高能碰撞碎裂技术鉴定未知目的蛋白的方法,包括主要步骤如下:用搜索引擎对获得的二级HCD质谱图进行候选肽段搜索并生成理论谱;再匹配所述实验谱与所述理论谱,输出鉴定结果;所述生成理论谱为同时进行生成理论b离子单一同位素峰质荷比、生成理论y离子单一同位素峰质荷比和对y离子增加第一同位素峰离子的质荷比。本发明的方法简单有效,可在不更改数据库搜索引擎数据结构和匹配打分算法下显著提升肽段鉴定灵敏度。
【专利说明】一种利用高能碰撞诱导电离碎裂技术鉴定蛋白的方法
【技术领域】
[0001]本发明涉及生物信息学领域,尤其涉及一种利用高能碰撞诱导电离碎裂技术鉴定蛋白的方法。
【背景技术】
[0002]随着质谱技术的发展,高能碰撞碎裂技术(HCD, high-energy collisioninduced dissociation)被广泛用于蛋白质组表达谱和修饰谱的定性和定量鉴定中(Olsen, Macek et al.2007 ;Nagaraj, D' Souza et al.2010;Savitski, Mathieson etal.2010;de Graaf, Altelaar et al.2011;Frese, Altelaar et al.2011)? 新一代的高精度质谱仪LTQ-OrbiTrap Velos的HCD 二级图谱产出灵敏度与CID (collisioninduceddissociation)接近或相当,均高于电子转移碎裂(ETD, electron transferdissociation)图谱,但HO)图谱质量更佳,具有更高的鉴定成功率(Frese, Altelaar etal.2011),这是因为HCD质谱数据具有以下特点:
[0003](I) 二级质量分辨率可达15000,质量精度可达ppm级别(Olsen, Macek etal.2007),可有效减少子离子错误匹配,从而显著提高肽段打分和图谱鉴定率。例如,Frese等人使用Hela细胞样品,系统比较了不同上样量条件下CID、HCD和ETD等三种裂解模式CID、HCD和ETD的MASCOT鉴定结果,发现HCD质谱数据具有最高的图谱匹配打分(ionscore)以及最高的图谱鉴定成功率(>50%) (Frese, Altelaar et al.2011) ? Shen等人将高质量精度的二级离子信息用于肽段鉴定质控的特征参数,比常规的搜索引擎多过滤出20%-40% 的肽段鉴定结果(Shen, T0Iicet al.2011)。
[0004](2)肽段碎裂充分,二级谱的离子连续性好。针对HCD图谱进行从头测序(denovo)效果较好。Shen Y等人详细比较了相同方法下CID、HCD和电子转移碎裂(ETD)图谱得到的连续碎片离子长度,发现7个氨基酸以上的肽段鉴定结果中,HCD图谱具有最高的肽段鉴定数(Shen,Tolic et al.2`011)。中科院计算所发展了专门针对HCD的质谱数据从头测序软件PN0V0,利用了二级碎裂离子高质量精度、低质量区域离子丰富、存在内部碎片(internal)和亚氨(immonium)离子等特点对HCD图谱从头测序,与常规搜索引擎鉴定结果重叠率达到80%以上,并可寻找脱酰胺基修饰和氨基酸突变(Chi,Sun et al.2010)。
[0005](3)低质量区域碎片离子丰富,可提高iTRAQ报告离子碎裂峰强从而提高定量精度(McAlister, Phanstiel et al.2010)。
[0006](4)可产生internal离子和immonium离子,某些immonium离子是修饰鉴定的重要特征离子(Olsen, Macek et al.2007; Nagaraj, D' Souza et al.2010)。
[0007]尽管HCD图谱质量更好,但现有的HCD数据搜索引擎和质量控制方法仍沿用CID数据的分析策略,未能充分利用HCD数据特点,相对于硬件的发展,HCD的数据分析算法和工具面临发展相对滞后的状态。
[0008]国际上专门针对HCD数据的分析方法非常有限,仅有的集中在HCD数据的预处理、鉴定结果质控和从头测序上。如Savitski等人设计了 H-score,通过对HCD图谱进行去同位素峰(de-1sotope) (Nielsen, Savitski et al.2005)和解卷积(de-convolution)(Zhang, Ficarro et al.2009),以及对MASCOT鉴定结果重打分来提高了肽段鉴定灵敏度(Savitski, Mathieson et al.2010)。另一方面,使用蛋白质序列数据库搜索策略进行图谱鉴定时(其基本原理是产生肽段的理论碎裂图谱,并与实际图谱进行匹配,通过匹配相似性的好坏来鉴定序列),现有的数据库搜索引擎如MASCOT、SEQUEST和X!Tandem等仍产生较为简单的序列理论图谱,未充分利用HCD图谱特征,例如对碎片离子的相对峰强进行简单的模拟(Li,Arnold etal.2010),不考虑高精度二级碎片离子的同位素峰信息及其它离子类型等,造成了 HCD图谱鉴定灵敏度的损失。
[0009]综上所述,现有HCD数据解析面临以下问题:
[0010](1)常规搜索引擎如MASCOT、SEQUEST和X!Tandem等并未针对HCD设计相应的理论图谱和匹配打分,对HCD的处理仍沿用与CID相同的理论谱和打分方法;
[0011](2)肽段鉴定质控方法未充分利用HCD数据特征。如Η-score并未将高质量精度、internal和immonium离子类型考虑在内,并且仅针对富含修饰的样品数据。MASCOTPercoIator 中也仅考虑了 b、y 离子匹配(Brosch, Yu et al.2009)。
[0012](3)现有针对HCD图谱的从头测序算法考虑修饰类型有限,目前尚未见针对HCD数据的修饰类型预筛方法。
[0013](4)在图谱库搜索方面,目前尚未出现针对HCD数据优化的图谱库构建方法和图谱库搜索引擎(Lam 2011)。
[0014]随着HCD技术的不断进步,其在表达谱、修饰谱构建及蛋白质定量研究领域会发挥越来越重要的作用。了解和充分利用HCD数据特征,发展相应的鉴定、质控和定量算法,开发HCD质谱数据的深度解析平台是当务之急。

【发明内容】

[0015]本发明旨在利用HCD图谱二级碎裂离子具有丰富的同位素峰信息以及高质量精度特点,通过在理论谱中增加同位素峰信息来提高肽段鉴定的准确度、灵敏度和成功率。
[0016]本发明的目的是建立一种利用高能碰撞碎裂产生丰富的高精度二级同位素峰的高效鉴定未知目的蛋白的方法,尤其是提供一种利用高能碰撞碎裂鉴定待测蛋白的方法。
[0017]本发明提供的方法,包括如下步骤:
[0018]1)将待测蛋白酶解得到肽段;
[0019]2 )将所述肽段经液相色谱质谱串联检测,得到二级HCD质谱图,记作实验谱;所述液相色谱-质谱串联中的二级质谱产生模式采用高能碰撞碎裂;检测采用高分辨质量检测器,由此产生二级HCD质谱图;
[0020]3)将所述二级HCD质谱图转换成数据库搜索引擎可读格式;
[0021]4)用搜索引擎先对经过3)处理的二级HCD质谱图进行候选肽段搜索并生成理论谱;再匹配所述实验谱与所述理论谱,输出鉴定结果;
[0022]所述生成理论谱为同时进行生成理论b离子单一同位素峰质荷比、生成理论y离子单一同位素峰质荷比和对y离子增加第一同位素峰离子的质荷比;
[0023]将所述生成理论y离子的单一同位素峰质荷比记作m/zyi述对y离子增加其第一同位素峰离子的质荷比记作m/Zyi’,且m/Zyi' =m/zyi+l.003355/z, yi代表候选肽段从C端开始数第i个肽键位置断裂后形成的I离子;yi’表示代表候选肽段从C端开始数第i个肽键位置断裂后形成的I离子的第一同位素峰,其中i=l,2,3,...L-1 ;L为候选肽段的长度;
[0024]5)将所述鉴定结果进行质量控制和错误发现率(false discovery rate, FDR)计算,得到待测蛋白中肽段的序列和数目,实现鉴定待测蛋白之目的。
[0025]上述方法中,步骤I)中,所述酶为蛋白质组学研究中常用的蛋白酶,包括但不限于胰蛋白酶(trypsin);也可以为赖氨酸蛋白酶C (Lys-C)或者精氨酸蛋白酶C (Arg-C)等。这些酶都可以特异性切割蛋白质,而且都在强碱性氨基酸K或者R后面断裂,生成带有碱性氨基酸的肽段。
[0026]步骤4)中,所述候选肽段搜索为根据实验谱的母离子质量(酶解后肽段的质量),在目的蛋白质序列数据库中搜索出实验谱对应的候选肽段。
[0027]步骤3)中,所述转换采用的软件为质谱仪原始格式常用转换软件,包括但不局限于msconvert ;所述数据库搜索引擎可读格式为二级质谱图格式,二级质谱图格式包括但不局限于mzXML、mgf、dta等;
[0028]步骤4)中,所述搜索引擎为常用蛋白质序列数据库搜索引擎,包括但不局限于X!Tandem、MASCOT、SEQUEST等;所述匹配实验谱与理论谱采用的公式包括但不局限于HyperScore 公式(X!Tandem 自带的);
[0029]步骤5)中,所述质量控制采用的软件为TPP ;所述质量控制采用的算法为TPP软件中的PeptideProphet算法。
[0030]上述方法中,所述待测蛋白来源于酵母细胞;所述目的蛋白质序列数据库为酵母S⑶数据库。
[0031]上述的方法在定性或定量鉴定蛋白质组表达谱或修饰谱中的应用也是本发明保护的范围。
[0032]本发明的实验证明,使用同位素峰添加后的理论谱进行肽段鉴定可显著提高肽段鉴定灵敏度。本发明通过一组实测数据分析,分别比较了仅考虑b离子、仅考虑y离子和b、y离子同时考虑三种类型,以及与不考虑同位素峰、仅考虑第一同位素峰、考虑第一和第二同位素峰、以及考虑第一、第二和第三同位素峰四种情况共12种组合,比较了高可信的肽段鉴定数,以最高的肽段鉴定数对应的离子类型和同位素峰个数作为最优组合。通过比较发现,仅考虑y离子和仅考虑第一同位素峰的组合获得最多的肽段鉴定数。本发明方法的优势在于简单有效,可在不更改现有数据库搜索引擎的数据结构和打分算法前提下实现鉴定灵敏度的提升和鉴定成功率的提闻,鉴定更多的蛋白质。
【专利附图】

【附图说明】
[0033]图1为X!Tandem在不同离子类型和同位素峰个数条件组合下生成理论谱后高可信肽段鉴定数比较
【具体实施方式】
[0034]下述实施例中所使用 的实验方法如无特殊说明,均为常规方法。
[0035]下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0036]实施例1、利用HCD串联二级质谱图数据分析鉴定肽段序列[0037]1、酶解获得肽段
[0038]酿酒酵母菌株ATCC 201388 (BY4741,MATa his3deltal Ieu2delta0metl5delta0ura3delta)购自美国典型菌种培养物保藏中心(American Type CultureCollection)。
[0039]菌株培养:使用YPD培养基培养酵母ATCC 201388、30°C恒温摇床培养至0D600为
1.5,5000rpm离心5分钟收集菌体,将上清液倒出,0.1%的叠氮钠磷酸盐缓冲液漂洗沉淀,离心去上清后收集菌体,置于-80°C冰箱冷冻保存。
[0040]菌体裂解:将尿素裂解液(SM尿素,50mM的碳酸氢铵,50mM的碘乙酰胺)加入到酵母菌体沉淀,再加入等菌体体积的玻璃珠,置于涡旋混合仪上最大转速涡旋裂解5min、13000rpm离心2min,收集上清液,即得到酵母蛋白样品。
[0041]蛋白酶解:将酵母蛋白样品用聚丙烯酰胺凝胶电泳富集,电泳时,待蛋白样品进入胶内0.5cm时停止电泳,考马斯亮蓝染色,脱色。将富集了样品的胶条切下,切成Imm3的胶粒,对胶粒进行脱色,干燥。加入酶解液(IOng/ μ L胰蛋白酶,50mM碳酸氢铵,5%乙腈),37度恒温培养箱过夜消化。
[0042]样品提取:消化后,加入酸溶液(5%甲酸,5%乙腈)终止酶解反应,离心取出上清液,加入乙腈进一步提取肽段样品,合并上清液并真空干燥,获得肽段干粉样品,置于-20度冰箱冷冻保存。
[0043]2、LC-MS检测获得HCD串联二级质谱图
[0044]液相采用Waters超高压高效液相色谱仪(nanoAcquity UltraPerformanceLC, Waters),分析柱为C18填料(3μηι,200Α)自制毛细管分析柱(75um*150mm).流动相A:2%乙腈,0.1%甲酸水溶液,流动相B:0.1%甲酸的乙腈溶液。洗脱条件:5-32min,流动相比例由5%B线性升至45%B,32_50min,流动相比例由45%线性升至50%。最后用80%流动相B冲洗lOmin。流动相流速为300nL/min,进样体积为3 μ L.[0045]质谱仪为LTQ-Orbitrap Velos (美国,Thermo Fisher)。使用纳喷离子源(Nanospray ion source),喷雾电压2kV,毛细管温度为250度,质谱分析采用数据依赖的二级质谱扫描模式(Data Dependent MS/MS Scan)。一级质谱全扫描在Orbitrap中进行,分辨率为30000,质荷比范围为m/z300-1600。二级质谱检测在Orbitrap中进行,分辨率为7500。采用串联质谱扫描的动态排除功能(dynamic exclusion),排除时间为30s。依次选取一级质谱中离子丰度最强的前10个离子进行高能碰撞碎裂(HCD)分析。HCD碰撞室的碰撞气为高纯氦气(99.999%),最大累计时间为100ms,动态排除列表大小设置为150。归一化碰撞能量为40%。用于打二级碎裂的离子排除+1价离子和价态不确定的离子。
[0046]将上述肽段干粉样品按照上述条件进行LC-MS检测,得到肽段HCD质谱图组成的原始Raw文件,即为二级HCD质谱图,记作实验谱。
[0047]3、格式转换
[0048]从原始Raw文件中提取二级谱图(16,479张),用质谱文件格式转换工具msconvert (Kessner, Chambers et al.2008)转换成数据库搜索引擎可读格式mzXML文件。
[0049]转换不引入去同位素峰(de-1sotope)过程,即保留HCD 二级图谱中的同位素峰信
肩、O
[0050]4、搜索、生成理论谱并进行匹配打分[0051 ] 对上述格式为mzXML文件的二级HCD质谱图使用X! Tandem搜索引擎在酵母SGD 数据库(http://downloads.yeastgenome.0rg /sequence /S288C_reference /orf_protein/)进行候选多肽搜索;并将mzXML文件中每一张二级HCD质谱图中的每一个长度为L的候选肽段生成理论b离子的单一同位素峰质荷比m/zb1、生成理论y离子单一同位素峰质荷比m/zyi和对y离子增加第一同位素峰离子的质荷比m/zyi’ ;得到理论谱;
[0052]候选肽段搜索为根据实验谱的母离子质量(酶解后肽段的质量),在目的蛋白质序列数据库中搜索出实验谱对应的候选肽段;
[0053]上述搜索参数设为母离子质量误差=20ppm,子离子质量误差=0.1Da,全酶切搜库,固定修饰为半胱氨酸烷基化,可变修饰为甲硫氨酸氧化修饰,正反库混合搜索,反库由正库理论酶切肽段序列直接反转构成。
[0054]上述bi代表候选肽段从N端开始数第i个肽键位置断裂后形成的b离子,一共有L-1个b离子,其中i=l,2,3,...L-1 ;z为子离子电荷,m为子离子质量,bi放在m/z的下标,表示该bi离子的质荷比;
[0055]yi代表候选肽段从C端开始数第i个肽键位置断裂后形成的y离子,其中i=l, 2,3,…L-1 ;
[0056]yi’表示代表候选肽段从C端开始数第i个肽键位置断裂后形成的y离子的第一同位素峰,其中i=l,2,3,...L-1 ;
[0057]其中m/zyi’ 满足:m/zyi’=m/zyi+l.003355/z,其中 i=l,2,3,...L-1 ;
[0058]再将实验图谱和生成的理论图谱的相似度进行匹配打分,公式采用HyperScore (Fenyo and Beavis 2003),输出鉴定结果。其中每张图谱挑选HyperScore最高的肽段作为该图谱的鉴定结果,HyperScore的计算由X ! Tandem内嵌函数自动实现。
[0059]HyperScore的具体计算公式为:
[0060]
【权利要求】
1.一种利用高能碰撞碎裂鉴定待测蛋白的方法,包括如下步骤: I)将待测蛋白酶解得到肽段; 2 )将所述肽段经液相色谱质谱串联检测,得到二级HCD质谱图,记作实验谱;所述液相色谱质谱串联中的中的二级质谱产生模式采用高能碰撞碎裂; 3)将所述二级HCD质谱图转换成数据库搜索引擎可读格式; 4)用搜索引擎先对经过3)处理的二级HCD质谱图进行候选肽段搜索并生成理论谱;再匹配所述实验谱与所述理论谱,输出鉴定结果; 所述生成理论谱为同时进行生成理论b离子单一同位素峰质荷比、生成理论I离子单一同位素峰质荷比和对y离子增加第一同位素峰离子的质荷比; 将所述生成理论I离子的单一同位素峰质荷比记作m/zyi,所述对y离子增加其第一同位素峰离子的质荷比记作m/zyi’,且m/zyi’ =m/zyi+l.003355/z, yi代表候选肽段从C端开始数第i个肽键位置断裂后形成的I离子;yi,表示代表候选肽段从C端开始数第i个肽键位置断裂后形成的I离子的第一同位素峰,其中i=l,2,3,...L-1 ;L为候选肽段的长度; 5)将所述鉴定结果进行质量控制和错误发现率计算,得到待测蛋白中肽段的序列和数目,实现鉴定待测蛋白。
2.根据权利要求1所述的方法,其特征在于: 步骤I)中,所述酶是蛋白酶,所述蛋白酶具体为胰蛋白酶、赖氨酸蛋白酶C或精氨酸蛋白酶C ; 步骤4)中,所述候选肽段搜索为根据所述实验谱的母离子质量,在目的蛋白质序列数据库中搜索出实验谱对应的候选肽段。
3.根据权利要求1或2所述的方法,其特征在于: 步骤3)中,所述转换采用的软件为质谱仪原始格式转换软件,所述质谱仪原始格式转换软件具体为msconvert ;所述数据库搜索引擎可读格式为二级质谱图格式,二级质谱图格式具体为mzXML、mgf或dta ; 步骤4)中,所述搜索引擎为蛋白质序列数据库搜索引擎,所述蛋白质序列数据库搜索引擎具体为X!Tandem、MASCOT或SEQUEST ;所述匹配实验谱与理论谱匹配采用的公式为HyperScore 公式; 步骤5)中,所述质量控制采用的软件为TPP ;所述质量控制采用的算法为TPP软件中的 PeptideProphet 算法。
4.根据权利要求1-3中所述的方法,其特征在于: 所述待测蛋白来源于酵母细胞;所述目的蛋白质序列数据库为酵母SGD数据库。
5.权利要求1-4中任一所述的方法在定性或定量鉴定蛋白质组表达谱或修饰谱中的应用。
【文档编号】G01N30/86GK103698447SQ201210367352
【公开日】2014年4月2日 申请日期:2012年9月28日 优先权日:2012年9月28日
【发明者】徐平, 李宁 申请人:中国人民解放军军事医学科学院放射与辐射医学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1