用串联质谱中碎片离子的同位素峰预测离子分子式的方法

文档序号:6438266阅读:1061来源:国知局
专利名称:用串联质谱中碎片离子的同位素峰预测离子分子式的方法
技术领域
本发明涉及一种蛋白质组分析方法,具体地说,涉及一种预测肽序列碎裂后产生的碎片离子的分子式的方法。
背景技术
在目前利用肽指纹质谱及串联质谱技术和数据库搜索及直接解序(de novo)方法鉴定肽序列和蛋白质的研究中,质谱数据的预处理以及鉴定结果的后处理非常重要。
被鉴定的多肽在质谱仪中被碎裂为碎片离子,这些碎片离子的质量和丰度被质谱仪器测量出来,形成串联质谱。每一个碎片离子以及其同位素离子都在串联质谱中形成对应的谱峰。考虑到碎片离子的同位素峰会给肽或蛋白质的鉴定过程造成混淆,比如某些氨基酸残基之间的质量差约为0.34,1和1.5da,而同一个碎片离子的一价,二价,三价的同位素峰之间的质荷比(m/z)差分别为1、0.5和0.333,这些氨基酸残基质量差值与同位素峰的m/z差值重叠,导致在鉴定过程中需要判断串联质谱中的一个谱峰是某个碎片离子峰还是另一个碎片离子的同位素峰;此外,多个氨基酸质量求和后与某个碎片离子的同位素峰的重叠现象会更多。因此,传统的数据预处理任务之一是识别出一个碎片离子的同位素峰并予以剔除。
然而,事实上,质谱中表现出的碎片离子的同位素峰的分布模式与该碎片离子的原子组成(即分子式)是密切相关的。因此就需要有一种方法能够利用碎片离子的同位素峰来预测该碎片离子的分子式,这样,预测出的碎片离子的分子式一方面可以为肽鉴定的数据库搜索及de novo方法提供更多更准确的信息,另一方面,为鉴定结果进行后处理提供更多的依据。

发明内容
本发明的目的在于提供一种利用串联质谱中的碎片离子的同位素峰来预测该碎片离子的分子式的方法。
为了实现上述目的,本发明提供一种用串联质谱中碎片离子的同位素峰预测离子分子式的方法,包括步骤1)从串联质谱中获取一碎片离子的单同位素及其至少一个同位素的谱峰,计算所述碎片离子的单同位素的质量、所述碎片离子的单同位素的谱峰和所述碎片离子的至少一个同位素的谱峰之间的相对丰度;步骤2)提供碎片离子的一通用分子式,所述通用分子式中各元素的原子个数待定;步骤3)用所述通用分子式得到碎片离子的理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素的相对丰度;所述理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素离子的相对丰度为所述通用分子式中待定的原子个数的函数;步骤4)将步骤3)中得到的质量和相对丰度与步骤1)中从串联质谱质量和相对丰度做匹配,以获得所述通用分子式中待定的各元素的原子个数的非负整数解,从而得到所述碎片离子的分子式。
在上述技术方案中,步骤1)和步骤3)中所述的碎片离子的至少一个同位素包括碎片离子的第一同位素和第二同位素。
在上述技术方案中,将步骤1)中得到的所述碎片离子的单同位素的质量、所述碎片离子的单同位素的谱峰和所述碎片离子的至少一个同位素的谱峰之间的相对丰度构成一实验的同位素分布向量;将步骤3)中得到的碎片离子的理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素的相对丰度构成一理论的同位素分布向量;步骤4)中的所述匹配是用所述实验的同位素分布向量与所述的理论的同位素分布向量之间的欧氏距离作为匹配分数。
在上述技术方案中,还包括用使获得的分子式符合化学意义的化学规则约束条件约束所述匹配。
在上述技术方案中,通过所述匹配获得的所述通用分子式中待定的各元素的原子个数的非负整数解包括通过所述匹配获得所述通用分子式中待定的各元素的原子个数的实数解;在所述实数解的领域内搜索得到所述通用分子式中待定的各元素的原子个数的非负整数解。
在上述技术方案中,还包括对步骤4)中得到的所述通用分子式中待定的各元素的原子个数的非负整数解进行过滤的步骤。所述过滤包括平均同位素分布模式方法,该方法用碎片离子的理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素的相对丰度之间的统计关系过滤所述非负整数解。所述过滤包括用使获得的分子式符合化学意义的化学规则约束条件过滤所述非负整数解。所述过滤包括用两个碎片离子的非负整数解进行交叉验证以过滤所述两个碎片离子的非负整数解。
本发明的优点在于1)本方法是对串联质谱中碎片离子的同位素谱峰信息的充分利用;2)本方法能通过串联质谱碎片离子的同位素谱峰的模式,快速准确地计算此碎片离子对应的分子式(准确程度与质谱的精度相关,精度越高,计算出的分子式越可靠);3)本方法可以提供碎片离子的准确的分子式信息,可对鉴定多肽序列的数据库搜索方法提供的候选序列进行鉴别;4)本方法计算出的离子分子式可以指导求解多肽序列的de novo方法产生高可靠的候选的序列。
具体实施例方式
下面结合附图
具体实施方式
对本发明作进一步详细描述。
将一个碎片离子的单同位素记为P,此碎片离子的第一同位素记为P1,第二同位素碎片离子记为P2,依此类推,第N同位素离子记为PN。在这里,碎片离子单同位素P是指在该离子的各种组成元素均为单同位素(即质子数和中子数相同)。而碎片离子的同位素是指与单同位素碎片离子具有相同的分子式、但是比单同位素带有更多额外中子的离子,例如碎片离子的第一同位素P1比碎片离子的单同位素P多带有一个额外的中子,第二同位素P2比单同位素P多带有两个额外的中子,依此类推。在本发明中,碎片离子的同位素是在整体上比碎片离子的单同位素带有额外的中子的离子。
肽序列进入质谱仪被离子化,且在质谱仪中,具有特定质荷比(m/z)的肽离子(这些肽离子通常也有相同的氨基酸序列)在碰撞-诱导的分离(Collision-InducedDissociation,CID)作用下裂解为多个碎片离子。这些碎片离子的m/z被检测量出来从而形成串联质谱,在一个串联质谱中,其横坐标表示碎片离子的质荷比(m/z),其纵坐标为检测到的碎片离子的丰度。
在串联质谱中,挑选出一个碎片离子的单同位素P以及其同位素P1~PN中至少一个对应的谱峰,本发明的目标则是通过这些同位素峰的分布情况来预测碎片离子的单同位素P对应的分子式。在本发明的一个实施例中,从串联质谱中仅挑选出该碎片离子的单同位素P以及其第一同位素P1和第二同位素P2。从后面的描述中本领域的技术人员很容易理解,在本发明的其它实施例中,对于同位素碎片离子,也可以仅挑选出碎片离子的一个同位素的谱峰——例如第一同位素碎片离子P1,或者也可以挑选出更多的同位素的谱峰,不同数目同位素碎片离子的选取都可以实现本发明的方法,但是会影响到本发明实施时计算的复杂度和精度。
从串联质谱中还可以得到单同位素碎片离子P的离子质量Me,这是本领域的技术人员所熟知的。
为了方便于下面的计算,首先定义一实验的同位素分布向量eIPV=(Me,I1,I2),其中,Me为从串联质谱中获得的碎片离子的单同位素P的离子质量,I1和I2分别对应碎片离子的第一同位素P1和第二同位素P2的谱峰相对于单同位素P的谱峰的相对丰度,这些数据均可从串联质谱中获得。
然后,再定义一理论的同位素分布向量tIPV=(M,T1,T2),该理论同位素分布向量tIPV可从碎片离子的通用分子式获得。设碎片离子的通用分子式为Cn1Hn2Nn3On4Sn5,其中该分子式中表示各原子组成个数的n1~n5为待定参数。这样,在理论同位素分布向量tIPV中,M为从通用分子式获得的碎片离子的质量,T1和T2分别为从通用分子式获得的第一同位素碎片离子和第二同位素碎片离子关于单同位素碎片离子相对丰度。理论同位素分布向量tIPV可具体可通过公式得到M=V×X (1)T1=n1qC+n2qH+n3qN+n4qO1+n5qS1(2)T2=n4qO2+n5qS2+12T12-12(n1qC2+n2qH2+n3qN2+n4qO12+n5qS12)---(3)]]>其中V=[12,1,14,16,32],V中的数字为各元素的原子量,X=[n1,n2,n3,n4,n5]T;qC、qH和qN分别是自然界中13C相对于12C、D相对于H、14N相对于15N的相对丰度,q01和q02则分别是自然界中17O相对于18O、18O相对于16O的相对丰度,qs1和qs2是自然界中33S相对于32S、34S相对于32S的相对丰度,这些相对丰度均为已知数值。
可见,对于理论的同位素分布向量tIPV=(M,T1,T2),其中的M、T1和T2均为X=[n1,n2,n3,n4,n5]的函数。
在本发明中,将理论的同位素分布向量tIPV=(M,T1,T2)与实验同位素分布向量eIPV=(Me,I1,I2)做匹配,以便获得与实验的同位素分布向量最匹配的分子式,也即通用分子式中的原子组成向量X=[n1,n2,n3,n4,n5]的一个非负整数解。
在本发明的一个实施例中,用理论的同位素分布向量tIPV和实验的同位素分布向量eIPV之间的欧氏距离E作为tIPV与eIPV的匹配分数
E=δm2+δ12+δ22=(M-Me)2+(T1-I1)2+(T2-I2)2---(4)]]>将公式(1)~(3)代入(4),得到δm=n1*12+n2*1+n3*14+n4*16+n5*32-Me1,(5)δ1=n1*qC+n2*qH+n3*qN+n4*qO1+n5*qs1-I1,(6)δ2=n4*qO2+n5*qS2-12(n1*qC2+n2*qH2+n3*qN2+n4*qO12+n5*qS12)]]>+(n1*qC+n2*qH+n3*qN+n4*qO+n5*qS)*I1-12I12-I2+12δ12.---(7)]]>忽略公式(7)中的 项,则有[δmδ1δ2]=AX+B,得到Q(X)=E2=δmδ1δ2δmδ1δ2=XTATAX+2BTAX+BTB,---(8)]]>则有E=Q(X)=XTATAX+2BTAX+BTB---(9)]]>这里在公式(9)中,X=[n1,n2,n3,n4,n5]T是待定的碎片离子的原子组成向量,A和B是由已知量构成的常数矩阵,这里已知量包括从串联质谱中获得的Me、I1和I2,和V=[12,1,14,16,32]以及公式(2)和(3)中的各同位素的相对丰度。
将公式(9)所描述的欧氏距离E最小化,即可得到X的一个解。通常,为了使获得的分子式符合化学意义,优选还要对公式(9)设置一些化学规则约束条件,例如●用X获得的分子式对应的碎片离子质量一定要在范围[Me-δ,Me+δ]内,δ是m/z误差的最大范围,δ可由质谱仪的测量精度来确定。也就是要满足|VX-Me|≤δ。
●对于碎片离子分子式中的某种元素,用离子的m/z除以这种元素质量最低的同位素的质量数,取所得结果的整数部分就是此元素个数的上限。例如元素O的原子量为16,若离子的质荷比为m/z,则碎片离子中O元素的个数的上限为 即在X中 类似地,对于碎片离子中其它元素也可获得相似的约束条件。
●在碎片离子中,C的个数一定小于H的个数(即在X中n1<n3)、O和N的个数一定小于C的个数(即在n4<n1和n3<n1)等等。这些约束条件隐含在氨基酸残基的分子组成方式和主要离子类型的组成方式中,本领域的技术人员很容易根据它们的特点总结出来。
●在带一个电子的离子中,H和N的个数之和为奇数。原因是如果离子带有一个电荷,那么就有一个不饱和化学键存在,并且,H和N都有奇数个化合价而C、O、S都有偶数个化合价。
应当理解,本领域的技术人员也可从使碎片离子的分子式符合化学意义的目的出发构造出其它的约束条件。
上述约束条件或者其它约束条件中的一部分或者全部可表示为一个线性不等式DX≤G。这样,结合公式(9),可以通过标准的二次规划方法来解决欧氏距离E的这个最小化问题,如公式(10)所示 从公式(10)用二次规划方法求出的X的最优解为一个实数域内的解XR,为了寻找真正的分子式,可以将XR当作起始点,然后在它的邻域内局部搜索X的非负整数候选解。确切地说,就是对每一个与XR存在一个距离d的范围内的非负整数候选候选解分子式进行打分,或者说用公式(9)评价这些非负整数候选解的匹配度。d的值是与离子质量范围相适应的。这样避免了枚举所有可能的分子式,能够在大质量范围内预测离子分子式并且确保较高的可靠性和运行效率。
经过局部搜索,仍会产生一定数量的候选分子式,其中包括一些不合法的和与实验串联质谱不匹配的分子式(可分别称为无效的和不可能的分子式),为了提高预测的精确度,优选需要尽可能多的排除它们。在本发明中可利用包括平均同位素分布模式、化学规则约束和交叉验证中的一种或者多种方法来过滤候选分子式。这些方法具体描述如下A.平均的同位素分布模式所说的平均的同位素分布模式是理论同位素分布向量tIPV=(M,T1,T2)中的组成部分M、T1和T2之间的统计关系。为了寻找碎片离子的理论平均同位素分布模式,发明人计算了现有的蛋白质数据库中所有蛋白质的trypsin水解对应的多肽的理论碎片离子的同位素的平均分布和标准差,揭示了tIPV的组成部分M、T1和T2之间的关系。具体地说,发明人首先将SWISS-PROT中的蛋白质进行理论酶切计算得到多肽;然后选择质量在(60u~3000u)内的多肽,这个范围对应着Q-TOF MS/MS实验质谱的标准范围。另外,值得注意的是S的同位素+2S在自然界中的含量很高(出现的几率是0.04210,大约是18O的20倍),而多数情况下能够包含五个以上的S的多肽十分少见。因此,我们可以将上述分子式分成六类S0,S1,S2,S3,S4和S5+,分别对应所含S的个数为0,1,2,3,4和5个及5个以上的肽段。发明人按这六个类别对做了统计。统计结果显示T1与质量M呈线性关系,T2则与M呈二次关系,而T2随着T1增加而增加并且与T1成二次函数关系。
这样,通过T1、T2与M的上述分布关系可以对候选分子式进行过滤,以排除那些无效的和/或不可能的分子式。
B.化学规则约束这里的化学规则约束与公式(10)中的约束条件DX≤G相类似,其区别在于在公式(10)中,约束条件DX≤G用于约束公式E=Q(X)=XTATAX+2BTAX+BTB]]>以便得到在此约束条件下X的一个实数域内的解XR。而在这里,这些约束条件用于约束在XR的领域内搜索得到的非负整数解候选分子式,以便对这些候选分子式进行过滤。
C.交叉验证特别地,一个肽段的b系列的碎片离子都是同源的,包括b-,a-,b*-,a*-,b°-,a°型离子,它们共享一个相同的原始氨基酸序列,由此可推测它们的同位素分布模式很相似。y系列离子也是这样。如果质谱中某两个碎片离子的Me相差28、17或18,并且这两个碎片离子的I1和I2很接近,就可认为两个碎片离子对应的eIPV同源的。而后,我们就可以使用同源的eIPV对预测结果进行交叉验证。例如对于同源的两个碎片离子,在一个碎片离子中的候选分子式列表中有Ca1Ha2Na3Oa4Sa5,如果Ca1-1Ha2Na3Oa4-1Sa5没有出现在另一个碎片离子的候选分子式列表里,那么就可以认为候选分子式Ca1Ha2Na3Oa4Sa5是随机匹配上的结果而将它排除。
权利要求
1.一种用串联质谱中碎片离子的同位素峰预测离子分子式的方法,包括步骤1)从串联质谱中获取一碎片离子的单同位素及其至少一个同位素的谱峰,计算所述碎片离子的单同位素的质量、所述碎片离子的单同位素的谱峰和所述碎片离子的至少一个同位素的谱峰之间的相对丰度;步骤2)提供碎片离子的一通用分子式,所述通用分子式中各元素的原子个数待定;步骤3)用所述通用分子式得到碎片离子的理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素的相对丰度;所述理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素离子的相对丰度为所述通用分子式中待定的原子个数的函数;步骤4)将步骤3)中得到的质量和相对丰度与步骤1)中从串联质谱质量和相对丰度做匹配,以获得所述通用分子式中待定的各元素的原子个数的非负整数解,从而得到所述碎片离子的分子式。
2.根据权利要求1所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,步骤1)和步骤3)中所述的碎片离子的至少一个同位素包括碎片离子的第一同位素和第二同位素。
3.根据权利要求1所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,将步骤1)中得到的所述碎片离子的单同位素的质量、所述碎片离子的单同位素的谱峰和所述碎片离子的至少一个同位素的谱峰之间的相对丰度构成一实验的同位素分布向量;将步骤3)中得到的碎片离子的理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素的相对丰度构成一理论的同位素分布向量;步骤4)中的所述匹配是用所述实验的同位素分布向量与所述的理论的同位素分布向量之间的欧氏距离作为匹配分数。
4.根据权利要求1所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,还包括用使获得的分子式符合化学意义的化学规则约束条件约束所述匹配。
5.根据权利要求1所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,通过所述匹配获得的所述通用分子式中待定的各元素的原子个数的非负整数解包括通过所述匹配获得所述通用分子式中待定的各元素的原子个数的实数解;在所述实数解的领域内搜索得到所述通用分子式中待定的各元素的原子个数的非负整数解。
6.根据权利要求1所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,还包括对步骤4)中得到的所述通用分子式中待定的各元素的原子个数的非负整数解进行过滤的步骤。
7.根据权利要求6所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,所述过滤包括平均同位素分布模式方法,该方法用碎片离子的理论上的单同位素的质量、碎片离子的单同位素和其至少一个同位素的相对丰度之间的统计关系过滤所述非负整数解。
8.根据权利要求6所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,所述过滤包括用使获得的分子式符合化学意义的化学规则约束条件过滤所述非负整数解。
9.根据权利要求6所述的用串联质谱中碎片离子的同位素峰预测离子分子式的方法,其特征在于,所述过滤包括用两个碎片离子的非负整数解进行交叉验证以过滤所述两个碎片离子的非负整数解。
全文摘要
本发明公开了一种用串联质谱中碎片离子的同位素峰预测离子分子式的方法,该方法从串联质谱和从各元素的原子个数待定的通用分子式中分别获取碎片离子的单同位素的质量以及各同位素谱峰相对于单同位素的相对丰度;将分别获取的质量和相对丰度做匹配以获得所述通用分子式中待定的各元素的原子个数的非负整数解,得到碎片离子的分子式。本发明的方法利用串联质谱中碎片离子的同位素谱峰信息,通过串联质谱碎片离子的同位素谱峰的模式计算此碎片离子对应的分子式。本发明的方法可以提供碎片离子准确的分子式信息,可对鉴定多肽序列的数据库搜索方法提供的候选序列进行鉴别;以及为求解多肽序列的de novo方法产生高可靠候选序列提供依据。
文档编号G06F19/00GK1773276SQ20041009080
公开日2006年5月17日 申请日期2004年11月12日 优先权日2004年11月12日
发明者高文, 张京芬, 蔡津津, 贺思敏, 曾嵘, 陈润生, 王海鹏 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1