一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法

文档序号:6524710阅读:2295来源:国知局
一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法
【专利摘要】本发明公开了一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法,本发明首先进行乙酰化修饰肽段的数据库检索,即利用开源软件将质谱采集的原始数据转化为可视化格式的数据,并利用MASCOT或pFind检索程序进行数据库检索,筛选假阳性概率FDR值小于1%的乙酰化修饰肽段;其次,对鉴定获得的蛋白质乙酰化修饰位点重新定位及评估;最后,提取蛋白质乙酰化修饰位点对应的高分辨率的质谱图。本发明具有操作简单,修饰位点定位信息可信度高以及提取的质谱图分辨率高等优点,在蛋白质组学研究领域具有良好的应用前景。
【专利说明】一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法
【技术领域】
[0001]本发明涉及生物信息领域,具体涉及一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法。
【背景技术】
[0002]蛋白质乙酰化是生物界最普遍,也是最重要的一种蛋白质翻译后修饰。在细胞中,乙酰化修饰广泛存在并具有较高的保守性。可逆的蛋白质乙酰化修饰介导的信号转导通路在细胞代谢过程中具有重要的作用,这种可逆、保守且高度调控的蛋白质翻译后修饰,参与调控代谢,转录活性,蛋白质稳定性,信号通路及病原微生物的感染等众多重要的生理功能,几乎参与了所有的生命活动。因此,蛋白质乙酰化的分析以及乙酰化位点的鉴定已成为目前众多生物化学家以及蛋白质组学家所关心的内容。
[0003]运用蛋白质组学的理念和分析方法研究蛋白质乙酰化修饰,可以从整体上观察细胞或组织中乙酰化修饰的状态以及蛋白质中乙酰化修饰位点。随着生物质谱的灵敏度、精确度,以及高通量的不断发展,其在蛋白质组学研究中扮演着越来越重要的角色,它在蛋白质鉴定及翻译后修饰位点鉴定等方面已得到了较广泛的应用。在液相-质谱仪中,乙酰化肽段经碰撞诱导解离(Collision Induced dissociation,CID)产生碎片离子,相比于不含修饰的肽段,带有乙酰化修饰的肽段质量会发生42Da的质量偏移,通过检测所产生的全部碎片离子,并根据其质量数通过数据库检索来推断肽段序列和乙酰化位点。
[0004]运用质谱鉴定蛋白乙酰化修饰位点具有高选择性,高灵敏度的特点。但是,在进行数据库检索时,由于将乙酰化修饰选择为可变修饰,数据库匹配过程时理论肽段中乙酰化肽段的数目要远高于非乙酰化肽段,导致乙酰化肽段的错误鉴定数目要远高于非乙酰化肽段,即乙酰化肽段鉴定的假阳性概率较高,蛋白质乙酰化位点鉴定的准确性和通量都受到了很大的限制。因此,数据库检索得到的蛋白质乙酰化修饰位点的数据需要再进行评估。目前,针对蛋白磷酸化修饰位点评估的软件较多,包括MaxQuant中PTMScore,Ascore以及PhosphoRS等,而针对蛋白乙酰化位点修饰位点评估的软件只有MaxQuant中的PTMScore,但其局限性较高,仅试用于Thermo公司质谱仪器产生的数据。本发明提出一种基于串联质谱鉴定蛋白乙酰化修饰位点的方法,实现了蛋白质乙酰化位点的重新定位及可信度评估,并且本方法可自动导出重新定位的蛋白质乙酰化位点对应的高分辨质谱图。由于不同类型质谱仪器产生的原始数据,都可以通过现有的开源免费软件ProteoWizard,将质谱原始数据转化为mgf格 式数据,而本方法主要基于mgf格式数据(mascot genericfile),并根据文献 Jesper V.0lsen, BlagoyBlagoev, Florian Gnad, Boris Macek,ChanchalKumar,Peter Mortensen, and Matthias Mann, “Global, In Vivo, andSite-Specific Phosphorylation Dynamics in Signaling Networks”, 2006, 127 (3),635-48.中的打分算法公式:
p_ value= (k!/ (n! (n_k) !) * pk* (1-p)(n_k) = (k!/(n! (n_k) !) * 0.04k * 0.96(n_k)
Score = _10*Log10(p)对乙酰化修饰位点进行重新定位、可信度评估以及谱图自动导出,因此,本发明方法兼容所有质谱的数据分析。

【发明内容】

[0005]本发明的目的是在于提供了一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法,方法易行,操作简便,对蛋白质乙酰化修饰位点重新定位以及可信度评估,从而提高了乙酰化修饰鉴定的准确性和可信度;并且能够自动导出乙酰化修饰可信位点的质谱图。
[0006]为了达到上述目的,本发明采用如下技术方案。
[0007]—种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法,步骤如下:
I)乙酰化修饰肽段的数据库检索:
步骤1、利用开源免费软件ProteoWizard将质谱采集的原始数据转化为可视化的mgf格式的数据(mascot generic file);
步骤2、利用本地MASCOT数据库以及pFind数据库进行检索,筛选假阳性概率FDR(False Discovery Rate)值小于1%的乙酰化修饰肽段。
[0008]2)蛋白质乙酰化修饰位点重新定位及评估:
步骤1、有效质谱峰选择:使用Perl语言程序编写的程序,处理质谱标准数据格式文件(mascot generic file, mgf格式数据),选择质谱有效峰,过滤噪音基线;在二级质谱数据(MS2)中,采取每100个质荷比(m/z)区间,选取四个最高的二级质谱峰策略,过滤数据(过滤后数据含有质荷比与峰强度)。
`[0009]步骤2、蛋白质乙酰化修饰位点重新定位及可信度评估:使用peri语言程序编写的蛋白质乙酰化修饰位点重新定位与可信度评估程序,处理MASCOT以及pFind数据库检索结果文件,通过解析MASCOT以及pFind数据库检索结果文件,获取所有乙酰化肽段信息,包括乙酰化肽段谱图名称,乙酰化肽段序列及分子量,乙酰化修饰位点数,乙酰化肽段价态等。根据文献中报道的评估乙酰化修饰位点方法(Jesper V.0lsen, BlagoyBlagoev,Florian Gnadj Boris Macekj ChanchalKumarj Peter Mortensen, and Matthias Mann,“Global, In Vivo, and Site-Specific Phosphorylation Dynamics in SignalingNetworks", 2006,127 (3),635-48.),结合上一步过滤的数据以及乙酰化肽段信息,重新计算匹配的b或y系列离子,并采用以下公式对修饰位点进行新的打分计算:
p_ value= (k!/ (n! (n_k) !) * pk* (1-p)(n_k) = (k!/(n! (n_k) !) * 0.04k * 0.96(n_k)
Score = _10*Log10(p)
其中n为乙酰化肽段所有匹配的b或y系列离子数,k为所有匹配的有乙酰化修饰的b或y系列离子数'p_value为重新定位后的乙酰化修饰位点可信度值,Score即为重新定位后乙酰化修饰位点对应的得分;对数据库鉴定到的蛋白质乙酰化修饰位点(假阳性概率FDR值小于1%的乙酰化修饰肽段)进行重新定位和可信度评估。
[0010]3)蛋白质乙酰化修饰位点对应谱图的提取:
步骤1、采用上述步骤2)中相同方法选择有效质谱峰,使用peri语言程序编写程序,处理质谱标准数据格式文件(mascot generic file, mgf格式数据),选择质谱有效峰,过滤噪音基线;在二级质谱数据(MS2)中,采取每100个质荷比(m/z)区间,选取四个最高的二级质谱峰策略,过滤数据(过滤后数据含有质荷比与峰强度)。[0011]步骤2、蛋白质乙酰化修饰位点对应谱图的提取:使用peri语言程序编写的蛋白质乙酰化修饰位点谱图提取程序,利用乙酰化修饰位点定位方法,将重新匹配的b或y系列离子以及重新定位的乙酰化修饰位点注释谱图,并自动提取重新定位的蛋白质乙酰化修饰位点对应的谱图,最终获得到高分辨率的质谱图。
[0012]与现有技术相比,本发明的优点在于:
I)本发明中所需质谱数据为mgf格式,所有质谱产生的原始数据,均可通过开源软件Proteoffizard转化为mgf格式数据,并适用于本发明中。
[0013]2)本发明中采用的算法是基于数据库检索程序MASCOT以及pFind的检索结果,其中MASCOT是目前使用最广泛的数据库检索程序之一,pFind是最新开发的数据库检索程序,也具有很好的鉴定效果,本发明可极大地提高两种数据库检索结果可信度。
[0014]3)相对于数据库检索鉴定到的乙酰化修饰位点,本发明通过对乙酰化修饰位点重新定位与评估,使乙酰化修饰位点的鉴定更准确、更可信。
[0015]4)本发明基于重新定位的乙酰化修饰位点,能够自动提取高分辨的质谱图。
[0016]5)本发明是唯一一种适用于所有类型质谱产生的原始数据,对乙酰化修饰位点进行重新定位与评估以及自动提取高分辨的质谱图的方法。
[0017]【专利附图】

【附图说明】
图1为一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法的流程图。
[0018]其中:1 一质谱数据采集、数据转化为mgF格式、MASCOT或pFind数据库检索、提取FDR < 0.01的乙酰化肽段,2 —数据库检索结果文件解析、数据预处理、乙酰化肽段上修饰位点重新定位及可信度评估,3—重新定位修饰位点质谱图批量导出。
[0019]【具体实施方式】
下面结合附图和【具体实施方式】对本发明做进一步的说明。
[0020]实施例1:
一种基于Bruker公司离子讲质谱(amazon)数据的蛋白乙酰化修饰位点鉴定的方法,步骤如下:
I)乙酰化肽段的数据库检索:
本发明的是基于MASCOT以及pFind数据库检索结果,因此,需要先进行数据库检索。本实施例使用的质谱数据来自Bruker公司的离子阱质谱amazon ETD0质谱采集到的原始数据为yep”格式数据,使用该公司的软件DataAnalysis 4.0软件,进行标峰转化,导出结果并保存为mgf格式文件,再使用开源免费软件ProteoWizard将数据转化为统一的mgf格式文件。
[0021 ] 打开本地数据库检索软件MASCOT或pFind,导入mgf格式数据文件,并设定相关检索参数:胰蛋白酶消化(trypsin),半胱氨酸烧基化(carbamidomethylation (Cys)),赖氨酸乙酰化(acetylation (K)),甲硫氨酸氧化(oxidation (M)),天冬酰胺与谷氨酰胺脱酰胺(deamidation (NQ)),胰蛋白酶漏切位点为4个(two missed cleavages),母离子质量偏差为±0.4Da,子尚子质量偏差为±0.6Da。
[0022]MASCOT以及pFind检索结果通过假阳性概率FDR值计算,获取假阳性概率FDR小于1%的乙酰化肽段,选取乙酰化肽段对应的谱图名称,保存为文本文档,为下一步位点评估以及谱图自动导出做准备。[0023]2)乙酰化修饰位点重新定位及评估:
首先,需要选择有效的质谱峰。本领域技术人员应当了解,质谱mgf格式数据包含二级质谱图信息,在二级质谱数据(MS2)中,采取每100个质荷比(m/z)区间,选取四个最高的二级质谱峰策略,过滤数据。
[0024]然后对修饰位点进行重新定位与可信度评估:
a)通过MASCOT以及pFind数据库检索,获得相应的检索结果文件,比如MASCOT的“F001001.dat” 或是 pFind 的 “001001.txt” 检索结果文件;
b)解析MASCOT与pFind检索结果文件,根据假阳性概率FDR值小于1%的乙酰化肽段谱图名称,提取每个乙酰化肽段对应的二级谱图鉴定的结果信息,包括乙酰化肽段谱图名称,乙酰化肽段序列及分子量,乙酰化修饰位点数,乙酰化肽段价态等;
c)根据鉴定到的乙酰化肽段信息,重新计算每张谱图理论碎片离子(b离子、b-H20离子、b-NH3离子、y离子、Y-H2O离子、Y-NH3离子);
d)计算得到的理论碎片离子与本步骤中预处理过的mgf数据进行匹配:由于乙酰化肽段含有可能的乙酰化修饰位点不止一个(含有多个赖氨酸),因此,肽段中的每个赖氨酸都可能是乙酰化位点,对每种可能的情况进行排列组合,即可得到含有不同乙酰化位点的肽段;
e)针对上述乙酰化肽段每种可能的修饰位点,在0.6Da的误差范围内,进行b、y离子匹配,统计每 种可能的乙酰化位点对应的匹配的全部b、y离子数(η)以及含有乙酰化修饰的b、y离子数(k);
f)通过公式计算修饰位点得分:
p_ value= (k!/ (n! (n_k) !) * pk* (1-p)(n_k) = (k!/(n! (n_k) !) * 0.04k * 0.96(n_k)
Score = _10*Log10(p)
g)上述乙酰化肽段每种可能的修饰位点均可得到重新计算的得分,最低得分比最高得分小于5,则认为其可能性较小,舍弃该种可能性,剩下每种可能的修饰位点均含有对应的得分以及可信值/?_value。
[0025]h)通过位点重新定位与评估,乙酰化修饰位点具有更高的可信度得分。
[0026]3)蛋白质乙酰化修饰位点对应谱图的提取:
首先,采用上述步骤2)中相同方法选择有效的质谱峰。本领域技术人员应当了解,mgf格式数据包含二级质谱图信息,在二级质谱数据(MS2)中,采取每100个质荷比(m/z)区间,选取四个个最高的二级质谱峰策略,过滤数据。
[0027]采用采用上述步骤2)中修饰位点重新定位相同算法,首先对每种可能修饰位点进行评估,选择可信度较高的乙酰化肽段对应的修饰位点,将匹配的一系列b或y离子注释到谱图中,并利用Perl语言编程中GD语言包,进行谱图绘制,批量导出注释的含有乙酰化修饰位点的高分辨谱图。
[0028]应用本实施例,在Bruker离子阱质谱(amazon)上采集的质谱数据采用MASCOT与PFind软件检索,共鉴定到106个乙酰化肽段(含冗余乙酰化肽段),含有25个唯一的乙酰化位点,采用本发明方法对鉴定结果进行处理,通过位点重新定位与评估以及高分辨质谱图的筛选,最终得到19个高可信度的乙酰化肽段(非冗余的乙酰化肽段),以及所有的25个乙酰化修饰位点信息。本领域技术人员应当了解,25个乙酰化位点中,19个乙酰化位点重新定位后,确定了乙酰化修饰位点的准确位置,6个乙酰化位点无法准确预测其位置信息(SP同一个肽段上可能含有多个赖氨酸,基于数据库检索的信息以及位点重定位信息,无法确定乙酰化修饰赖氨酸的位置)。经过本方法处理后,有效的去除了数据库检索软件带来的假阳性概率,使鉴定到的乙酰化肽段以及位点可信度更高。
[0029]实施例2:
基于Thermo公司LTQ Orbitrap XL质谱数据的蛋白乙酰化修饰位点的鉴定,其步骤
是:
在该实施例中,LTQ Orbitrap XL质谱采集的数据格式为RAW”,可直接使用开源免费软件ProteoWizard将数据转化为标准的mgf格式文件。再进行MASCOT以及pFind数据库检索,并对乙酰化修饰位点进行重新定位,可信度评估以及谱图批量自动导出。
[0030]其它实施步骤与实施例1相同。
[0031]应用本实施例,对Thermo公司LTQ Orbitrap XL质谱采集的数据进行乙酰化位点评估,同样得到高可信度的乙酰化肽段及位点,有效的去除了数据库检索软件带来的假阳性概率。
[0032]最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当了解,本发明适用于所有类型质谱数据,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围中。
【权利要求】
1.一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法,步骤如下: . 1)乙酰化修饰肽段的数据库检索: 步骤1、利用开源软件ProteoWizard将质谱采集的原始数据转化为可视化的mgf格式的数据; 步骤2、利用MASCOT以及pFind检索程序进行数据库检索,筛选假阳性概率FDR值小于1%的乙酰化修饰肽段; .2)蛋白质乙酰化修饰位点重新定位及评估: 步骤1、质谱峰选择:使用peri语言程序编写的程序,处理质谱标准数据格式文件,选择质谱有效峰,过滤噪音基线;在二级质谱数据中,采取每100个质荷比区间,选取四个最高的二级质谱峰策略,过滤数据; 步骤2、蛋白质乙酰化修饰位点重新定位及评估:使用peri语言程序编写的蛋白质乙酰化修饰位点重新定位与评估程序,处理MASCOT以及pFind数据库检索结果文件,通过解析MASCOT以及pFind数据库检索结果文件,获取所有乙酰化肽段信息,包括乙酰化肽段谱图名称,乙酰化肽段序列及分子量,乙酰化修饰位点数,乙酰化肽段价态,根据文献中报道的评估乙酰化修饰位点方法,结合上一步过滤的数据以及乙酰化肽段信息,重新计算匹配的b或y系列离子,采用以下公式对修饰位点进行新的打分计算:
p_ value= (k!/ (n! (n_k) !) * pk* (1-p)(n_k) = (k!/(n! (n_k) !) * 0.04k * 0.96(n_k)
Score = _10*Log10(p) 其中n为乙酰化肽段所有匹配的b或y系列离子数,k为所有匹配的有乙酰化修饰的b或I系列离子数'p_value为重新定位后的乙酰化修饰位点可信度值,Score为重新定位后乙酰化修饰位点对应的得分;对数据库鉴定到的蛋白质乙酰化修饰位点进行重新定位和评估; 3)蛋白质乙酰化修饰位点对应谱图的提取: 步骤1、采用上述步骤2)中相同方法选择有效质谱峰,使用peri语言程序编写程序,处理质谱标准数据格式文件,选择质谱有效峰,过滤噪音基线;在二级质谱数据中,采取每100个质荷比区间,选取四个最高的二级质谱峰策略,过滤数据; 步骤2、蛋白质乙酰化修饰位点对应谱图的提取:使用peri语言程序编写的蛋白质乙酰化修饰位点谱图提取程序,利用乙酰化修饰位点定位方法,将重新匹配的b或y系列离子以及重新定位的乙酰化修饰位点注释谱图,并自动提取重新定位的蛋白质乙酰化修饰位点对应的谱图,最终获得到高分辨率的质谱图。
【文档编号】G06F19/10GK103646190SQ201310710562
【公开日】2014年3月19日 申请日期:2013年12月20日 优先权日:2013年12月20日
【发明者】杨明坤, 张珈, 葛峰, 熊倩, 莫然, 王炎 申请人:中国科学院水生生物研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1