一种自动快速鉴定蛋白磷酸化位点的数据处理方法

文档序号:6124397阅读:1048来源:国知局
专利名称:一种自动快速鉴定蛋白磷酸化位点的数据处理方法
技术领域
本发明涉及蛋白磷酸化位点的检测和鉴定,特别涉及生物生命活动中 的调控环节以及疾病发病机理研究中,运用液相色谱一多级串联质谱自动 快速的鉴定高可信度磷酸化位点的方法。
背景技术
蛋白质磷酸化是生物界最普遍,也是最重要的一种蛋白质翻译后修饰。
在哺乳动物细胞生命周期中,大约有1/3的蛋白质发生过磷酸化修饰,在人 类基因组中,大约有2%的基因编码了 500种激酶和100种磷酸酶。蛋白质磷 酸化和去磷酸化是原核和真核生物细胞表达调控的关键环节,对许多生物的 细胞功能起开关调控作用,是一种普遍的重要调节机制。蛋白质的磷酸化和 去磷酸化这一可逆过程几乎调节着包括细胞的增殖、发育、分化、信号转 导、细胞凋亡、神经活动、肌肉收縮及肿瘤发生等过程在内的所有生命活 动,目前已经知道有许多人类疾病是由于异常的磷酸化修饰所引起,而有些 磷酸化修饰却是某种疾病所导致的后果。鉴于磷酸化修饰在生命活动中所 具有的重要意义,探索磷酸化修饰过程的奥秘及其对功能的影响已成为众多 生物化学家及蛋白组学家所关心的内容。
在质谱技术产生前,蛋白磷酸化位点的鉴定一般应用Edman降解法,通 过磷酸丝氨酸向S2乙基半胱氨酸或磷酸苏氨酸向|32甲基S2乙基半胱氨酸 的转化,获得磷酸丝氨酸和磷酸苏氨酸存在的证据。随着质谱技术的产生和 蛋白质组学的发展,串联质谱技术逐渐被广泛的应用于蛋白质磷酸化位点的 分析。在串联质谱仪的前体离子扫描、中性丢失扫描等阴、阳离子模式下, 磷酸肽经碰撞诱导解离(CID)产生的特异性片段,分别丢失80Da(HPO3)和 98Da (H3P04)的子离子,检测所产生的全部碎片离子,根据碎片离子质量数 通过数据库检索来推断肽段序列和磷酸化位点。运用质谱进行磷酸化位点 鉴定的优点是高选择性、高灵敏度。
但是,由于磷酸化肽段在串联质谱分析过程中容易丢失磷酸(98Da) 形成很强的中性丢失碎片离子峰,因而难以进一步碎裂形成可以运用于数 据库匹配的碎片信息,齿此所获得的二级谱图的质量比较差,不利于磷酸 化肽段的鉴定。而且由于数据库匹配过程时理论肽段中磷酸化肽段的数目 要远远高于非磷酸化肽段(可变修饰造成了理论磷酸化肽段数目的剧增), 由于随机匹配造成的错误鉴定的肽段中磷酸化肽段的数目要远远高于非磷 酸化肽段,因此,相同的筛选条件下鉴定得到的磷酸肽的假阳性率也要远 远高于非磷酸化肽段。针对这种情况,目前常用手工校正的方法来确定最 终的磷酸化肽段,以控制假阳性结果的产生,蛋白磷酸化位点鉴定的准确性和通量都受到了很大的限制。最近,Beausoleil等人运用高质量精度的傅立 叶变换离子回旋共振质谱仪通过精确的母离子质量数的测定直接利用假阳 性率的限定分别对二级谱和三级谱进行了单独的大规模鉴定Beausoleil, S.A,A^/.所ofec/z"o/., 2006,24(10), 1285-1292,但是由于高精度质谱仪器价 格昂贵,而普通的质谱仪器往往难以达到如此高的质量精度,因此该方法 的应用范围得到了很大的限制。而普通的离子阱质谱仪相对比较便宜,是 大多数实验室进行蛋白质组分析的主要仪器。利用离子阱质谱仪可以很方 便的将二级谱中的中性丢失峰再破碎形成三级谱图(MS/MS/MS)。三级谱图 含有比较丰富的碎片离子峰,三级谱图所鉴定的磷酸肽结果是二级谱图鉴 定结果的验证和补充。以往利用二级谱图和三级谱图进行磷酸化肽鉴定时, 对二级谱图和三级谱图的检索结果分别筛选,并且仅对各自排名第一的磷 酸肽段进行匹配,结果不尽理想。本发明提出了一种主动匹配的数据处理 方法,将二级谱图和三级谱图的检索结果中所有符合条件的磷酸肽的鉴定 进行匹配,在实现磷酸化肽的高可信鉴定的同时提高了鉴定的灵敏度;并 且本方法与混合数据库检索相结合还能给出鉴定磷酸化肽的假阳性率。

发明内容
本发明的目的在于提供一种自动快速鉴定蛋白磷酸化位点的数据处理 方法,其提高了磷酸肽鉴定的准确性和可信度,克服了目前磷酸肽鉴定时 为了提高鉴定结果的准确性而采用的手工校正的繁杂性。该方法通过主动 匹配二级谱和对应的三级谱的鉴定结果,有效的减少了随机匹配的数目, 提高了鉴定的可信度;不仅仅使用谱图匹配中排名第一的序列, 一定程度 上克服了由磷酸化肽段特性造成的骨架碎片少而不利于鉴定的问题,提高 了检测的灵敏度;与混合数据库结合使用,可以得到最终鉴定结果的可信 度,方便了鉴定结果的评估。
为实现上述目的,本发明通过调节门槛值主动匹配肽段的二级谱图 (MS2)和由其丢失磷酸(98Da)所形成的特征中性丢失离子得到的三级 谱图(MS3)的数据库搜索所产生的磷酸肽的序列,得到高可信度磷酸化 位点鉴定结果的方法。利用包含蛋白质真序列和伪序列的组合数据库进行 检索获得磷酸肽鉴定假阳性率的方法。本发明采用技术方案为
一种自动快速鉴定蛋白磷酸化位点的数据处理方法,
1) 以蛋白酶解液为上样样品,上样样品为磷酸肽混合物,磷酸肽混合 物经毛细管反相液相色谱—质谱联用分析,利用纳米电喷雾离子源直接进 入质谱进行分析;质谱采用数据依赖扫描模式,中性丢失核质比设为 98,49,32.7,质谱的扫描范围为M/z400—2000;获得色谱和质谱谱图数据;
2) A.谱图筛选及磷酸肽的数据库搜索首先利用MS2和MS3的母 离子的m/z的差值,确定离子所带的电荷数,进而去除价态不符的谱图; 然后根据蛋白样品的来源选择对应的数据库搜索,对质谱的每一个MS2和 MS3谱图数据分别进行匹配,得到样品氨基酸序列信息;或者B.磷酸肽的数据库搜索及氨基酸序列信息筛选首先根据蛋白
样品的来源选择对应的数据库搜索,对质谱的每一个MS2和MS3谱图数据 分别进行匹配,得到样品氨基酸序列信息;然后利用MS2和MS3的母离子 的m/z的差值,确定离子所带的电荷数,进而去除价态不符的氨基酸序列;
3) 将MS3以及其对应的MS2匹配得到的样品氨基酸序列信息进行比 较,选择同时出现的样品氨基酸序列信息;并且从中选择一个相互加和打 分最高的MS3以及其对应的MS2匹配得到的样品氨基酸序列信息;获得一 系列的样品氨基酸序列信息;
4) 根据所获得的一系列样品氨基酸序列信息中反映的假阳性率依次提 高数据筛选的门槛值,得到假阳性率30%的氨基酸序列信息,较好为假阳 性率3%的氨基酸序列信息,最好为假阳性率2%的氨基酸序列信息,假阳 性率采用反向数据库检索的方式确定,根据氨基酸序列信息即可确定蛋白 的磷酸化位点。
所述质谱可为离子阱质谱,磷酸肽混合物中磷酸肽的氨基酸序列长度 通常为6-35个。
具体为蛋白样品经蛋白酶酶解以后的肽段混合物,经富集除盐后,
在毛细管液相色谱—串连质谱联用的分析条件下,根据磷酸肽容易发生丢
失磷酸(H3P04,98Da),生成特征性的中性丢失碎片的原理,利用二级谱,
与其对应的中性丢失碎片离子得到的三级谱的数据库鉴定结果的匹配,通
过价态的筛选,门槛值的设定,进而得到高可信度的磷酸化位点的鉴定结
果。假阳性率按照反向数据库搜索的方法确定Peng JM,J /V她謹ei 仏2(1)
43-50
。数据搜索过程中的数据库采用混合数据库来代替常规的只包含正常
序列的数据库,该混合数据库是有正确序列与其反向序列(伪序列)组合
在一起构成的。伪序列在最终鉴定结果中出现的比例(随机匹配的几率)
指示了检索结果的可信度。门槛值的设定根据具体样品和可信度的不同而 确定。
参见附图1所示,具体操作流程如下,
(1) 蛋白样品经毛细管反相液相色谱一串联质谱分析,在中性丢失扫 描的条件下,采集二级谱,并对由母离子丢失了98, 49或32.7质量形成的 中性碎片进行三级谱扫描。
(2) 利用二级谱和三级谱的母离子的M/z的差值对质谱数据进行筛选。 通常条件下,磷酸化肽段只能丢失一个磷酸(98Da),因此根据该M/z的差
与磷酸分子量的比值,可以确定离子所带的电荷数,进而去除与母离子价 态不符的导出数据结果。
^ (3)使用数据库^索软件进行数据库的检索,然后对检索结果进行排名 (Rank)的重排对于连续的序列相同但是磷酸化位点不同的肽段,将它 们的排名归为最小的排名值。
(4)选取对应的二级谱和三级谱中的所有鉴定序列进行匹配。序列,磷
5酸化位点的数目,位置完全相同的肽段为有效匹配,对于同一二级谱、三 级谱匹配下多于一个有效匹配序列的情况,只选用匹配结果中打分之和最 大的肽段。
(5)对匹配结果进行门槛值筛选,得到确定可信度下的磷酸化肽段。通 过门槛值的筛选,控制根据伪序列的比例计算得到的假阳性率,得到最终 鉴定结果及其可信度。
本发明具有如下优点
1. 由于绝大部分磷酸丝氨酸,磷酸苏氨酸以及小部分的磷酸酪氨酸在
质谱碰撞过程中都会丢失磷酸形成特征的中性丢失碎片DeGnore JP et al. / j附.Maw Spec/ram. 9(11) 1175-1188,并且三种氨基酸在真核生物中的 比例大约为1800: 200: Venter JC et al. 5We"ce 291(5507) 1304-1351,
因此该方法可以适用于大多数的磷酸化肽段,并且由于采用了结合匹配的 原则,只有同时能匹配二级谱和三级谱的肽段才能够被认为是有效匹配, 极大的提高了磷酸化肽段鉴定的可信度。
2. 通过门槛值调节来控制结果的可信度,避免了手工校正的繁杂性, 快速,准确的获得高可信度的鉴定结果。
3. 所有二级谱和对应的三级谱的鉴定结果都应用于匹配。由于磷酸化 肽段丢失中性碎片后骨架碎片很少,容易造成的其它噪声匹配排名靠前, 该方法克服了常规的只考虑排名第一的匹配造成的遗漏问题,提高了鉴定
4. 鉴定结果的可信度通过假阳性率的评估得到,有效的避免了手工校 正过程中的人为因素。


图1为本发明鉴定蛋白磷酸化位点的流程图。
图2为实施例1中,利用本发明对a酪蛋白酶解以后磷酸化肽段的鉴 定时,在门槛值的筛选过程中,筛选条件以及在该条件下得到的磷酸化肽 段的数目。
具体实施例方式
下面结合具体实施例对本发明加以进一步的说明.但它们不对本发明 作任何限制。
通用方法
实施例1和实施例2中样品的制备和数据采集相同,具体过程如下 蛋白的酶解条件缓冲液为pH8.5磷酸盐缓冲液,尿素浓度为8mol/L。 蛋白样品溶解到缓冲液中以后,首先于37。C下使用二硫苏糖醇还原其中的 二硫键,反应时间为2h。再使用碘乙酰胺封闭巯基,反应为闭光2h。然后 使用胰蛋白酶按l: 50于37。C下酶解反应过夜。
磷酸肽的质谱检测条件磷酸肽混合物经毛细管液相色谱一离子阱质
谱联用分析,其中毛细管液相色谱采用内径为75pmC18毛细管柱,流动相为(A)0.P/。甲酸水溶液(B)0.1。/。甲酸水溶液/乙腈,通过梯度洗脱,梯度为35 分钟内从100%的A溶液逐渐变化为35%的B溶液,利用纳米电喷雾 (nano-ESI)离子源直接进入离子阱质谱进行分析。质谱采用数据依赖扫描 (Data Dependant Neutral Loss MS3)模式,中性丢失核质比(M/z)设为 98,49,32.7,中性丢失产生的碎片离子必须是二级谱中强度居于前三位的离 子之一。质谱的扫描范围为M/z400—1800。
磷酸肽的数据库搜索和鉴定条件数据库搜索算法采用Sequestv2.7, 母离子的容忍度为士2amu,碎片离子的容忍度为士lamu,均使用单同位素质 量。假阳性率采用反向数据库检索的方式确定。匹配鉴定方法首先利用MS2 和MS3的母离子的m/z的差值,确定离子所带的电荷数,进而去除价态不 符的谱图。对经过价态筛选以后的数据进行数据库的搜索,然后对检索结 果进行排名(Rank)的重排对于连续的序列相同但是磷酸化位点不同的 肽段,将它们的排名归为最小的排名值,选取对应的MS2和MS3中排名为 前5的序列进行匹配。序列,磷酸化位点的数目,位置完全相同的肽段为 有效匹配,对于同一MS2、 MS3匹配下多于一个有效匹配的情况,只选用 匹配结果中Xcorr之和最大的肽段,然后对匹配结果进行门槛值筛选,得到 确定可信度下的磷酸化肽段。
数据筛选的门槛值条件采用多个门槛值条件,首先采用重排以后的 排名(Rank), —般情况下排名小于5。然后利用数据库搜索中MS2和MS3 谱图匹配该序列的Xcorr值之和,按照Keller的方法计算Xcorr'值Keller A et al. Anal. Chem. 74(20) 5383-5392,消除肽段序列长度对Xcorr值的影响, Rsp最大值为MS2和MS3谱图匹配时的Rsp的最大值,通过调节Xcorr, 和Rsp最大值,得到指定可信度下的磷酸化肽段的鉴定结果。
实施例l应用于单个蛋白的磷酸化位点的鉴定
a酪蛋白(a-Casein)经胰蛋白酶于37'C酶解以后,SPE除盐,冻干, 0.1%甲酸水溶液复溶,取2pmo1直接进行毛细管液相色谱一 串联质谱分析。 检索数据库采用a酪蛋白跟酵母总蛋白的混合数据库。搜索结果匹配以后, 使用最大排名值为l, Xcorr'值大于0.57进行筛选,可以将错误匹配的肽段 (来自酵母蛋白的肽段)有效的分开,最终得到鉴定结果。
如图2所示,通过匹配得到的肽段中,假阳性结果(匹配为酵母蛋白 的肽段)仅为30%左右,当使用排名筛选,和利用Xcorr'筛选以后,可以 将假阳性结果完全排除,而来自a酪蛋白的肽段绝大多数都得到了保留, 可以看出该方法可以有效的分辨磷酸化肽段鉴定中的假阳性结果,进而可 以对假阳性结果进行有效的筛除。并且与常规的直接设定门槛值来控制结 果的可信度的方法相比,本方法得到的鉴定结果中,磷酸化肽段的数目得 到了很大的提高。比较结果见表一。
表1本发明与常规筛选方法鉴定得到的a酪蛋白中磷酸化肽段的数目比较常规
磷酸化位本发筛选No.MH+/(Da)点的数目明方法
PI769.351々
P2954.411々 々
P31979.841々
P41660.791V 々
P51951.951
P61466.611V
P7927.692々
P81847.691々
P92619.044々
P101411.502
Pll3008.014
P122720.915々
实施例2 应用于蛋白组样品中磷酸化位点的鉴定
提取肝癌病人的肝脏癌旁组织蛋白,考马斯亮兰定量法检测提取以后 的蛋白浓度为2pg/pL,取lmg经胰蛋白酶酶解37'C酶解16h以后,酶解肽 段直接上样到SAX色谱柱富集,溶剂A (40 mM NH4C1 / 30%乙腈,pH 4.0) 平衡5min,然后利用梯度洗脱。洗脱溶剂为溶剂A和溶剂B(1M NH4C1 / 30%乙腈,pH 4.0);梯度设置为0—10min,洗脱液组成由100%溶剂A 线性增加到100%溶剂B,然后使用1000/^溶剂B等度洗脱。每2分钟收集 一个流分,分成8个流分分别收集,样品除盐后,冻干复溶,取每组分1/4 进行毛细管液相 一 串联质谱分析。
使用混合数据库进行数据库检索,该数据库包含人总蛋白数据库(IPI Human v3.17)和其反方向数据库(伪序列)。搜索结果进行匹配以后,使用 最大排名不大于5, Xcorr'大于0.594,进行筛选,最终得到可信度>99%的 磷酸肽的鉴定结果。总共鉴定了 138条磷酸化肽段,其中103条为单磷酸 化肽段,35条为多磷酸化肽段。总共确定了 125个高可信度的磷酸化位点。
权利要求
1.一种自动快速鉴定蛋白磷酸化位点的数据处理方法,其特征在于1)以蛋白酶解液为上样样品,磷酸肽混合物经毛细管反相液相色谱-质谱联用分析,利用纳米电喷雾离子源直接进入质谱进行分析;质谱采用数据依赖扫描模式,中性丢失核质比设为98,49,32.7,质谱的扫描范围为M/z400-2000;获得色谱和质谱谱图数据;2)A.谱图筛选及磷酸肽的数据库搜索首先利用MS2和MS3的母离子的m/z的差值,确定离子所带的电荷数,进而去除价态不符的谱图;然后根据蛋白样品的来源选择对应的数据库搜索,对质谱的每一个MS2和MS3谱图数据分别进行匹配,得到样品氨基酸序列信息;或者B.磷酸肽的数据库搜索及氨基酸序列信息筛选首先根据蛋白样品的来源选择对应的数据库搜索,对质谱的每一个MS2和MS3谱图数据分别进行匹配,得到样品氨基酸序列信息;然后利用MS2和MS3的母离子的m/z的差值,确定离子所带的电荷数,进而去除价态不符的氨基酸序列;3)将MS3以及其对应的MS2匹配得到的样品氨基酸序列信息进行比较,选择同时出现的样品氨基酸序列信息;并且从中选择一个相互加和打分最高的MS3以及其对应的MS2匹配得到的样品氨基酸序列信息;获得一系列的样品氨基酸序列信息;4)根据所获得的一系列样品氨基酸序列信息中反映的假阳性率依次提高数据筛选的门槛值,得到假阳性率≤10%的氨基酸序列信息,假阳性率采用反向数据库检索的方式确定,根据氨基酸序列信息即可确定蛋白的磷酸化位点。
2. 按照权利要求1所述的数据处理方法,其特征在于所述质谱为离 子阱质谱。
3. 按照权利要求1所述的数据处理方法,其特征在于所述磷酸肽混 合物中磷酸肽的氨基酸序列长度为6-35个。
4. 按照权利要求1所述的数据处理方法,其特征在于所述步骤4)根 据所获得的一系列样品氨基酸序列信息中反映的假阳性率依次提高数据筛 选的门槛值,得到假阳性率3%的氨基酸序列信息。
5. 按照权利要求1所述的数据处理方法,其特征在于所述步骤4)根 据所获得的一系列样品氨基酸序列信息中反映的假阳性率依次提高数据筛 选的门槛值,得到假阳性率^1%的氨基酸序列信息。
全文摘要
本发明涉及蛋白磷酸化位点的检测和鉴定,特别是一种自动快速鉴定蛋白磷酸化位点的数据处理方法,其通过纳喷毛细管液相色谱—多级串联质谱高通量鉴定生物样品中蛋白磷酸化位点。该方法根据磷酸化肽段离子在质谱中容易丢失磷酸形成特征性的中性丢失碎片离子,进而可以利用多级质谱对碎片离子进行三级谱分析的原理,结合假阳性率评估,利用MS3与其对应的二级谱数据库搜索结果的匹配,通过门槛值的设定方便的实现特定可信度下的蛋白磷酸化位点的鉴定。与目前常用的手工校正的方法相比,本发明的优点是无需手工校正,简单,快速的得到高可信度磷酸化肽段的鉴定结果,适合于大通量分析和大规模鉴定。
文档编号G01N30/00GK101290305SQ200710011040
公开日2008年10月22日 申请日期2007年4月20日 优先权日2007年4月20日
发明者叶明亮, 江新宁, 邹汉法, 韩广辉 申请人:中国科学院大连化学物理研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1