一种基于hcd与etd质谱图的肽段从头测序方法及系统的制作方法

文档序号:6163444阅读:594来源:国知局
一种基于hcd与etd质谱图的肽段从头测序方法及系统的制作方法
【专利摘要】本发明提供一种基于HCD与ETD质谱图的肽段从头测序方法及系统,该方法包括:步骤1,将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;步骤2,根据所述有效谱峰构建有向无环图;步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。本发明弥补了单种碎裂类型引起的谱峰不全的缺点,结合HCD与ETD谱图各自的优点,提高从头测序的准确度。同时在从头测序之前进行预处理,去除大量同位素谱峰与噪音谱峰,避免其对从头测序算法造成干扰。并利用更加有区分度的打分算法,提高了从头测序的性能。
【专利说明】一种基于HCD与ETD质谱图的肽段从头测序方法及系统
【技术领域】
[0001]本发明涉及生物信息领域,特别是涉及一种基于HCD与ETD质谱图的肽段从头测序方法及系统。
【背景技术】
[0002]利用串联质谱进行肽段和蛋白质鉴定已经成为当前蛋白质组学的核心技术。目前基于串联质谱技术的蛋白质鉴定主要有两条技术路线:数据库搜索(database searching)和肽段从头测序(denovo peptide sequencing)。由于蛋白质数据库的迅速发展与完善,数据库搜索成为了目前蛋白质鉴定的主要技术。然而,从头测序方法不依赖现有的数据库,根据肽段有规律碎裂的特点,直接从图谱中推导出肽段的序列,能够分析新物种或者基因组未测序物种的串联质谱数据,具有数据库搜索方法不可替代的优势。
[0003]但肽段从头测序方法并没有像数据库搜索方法一样得到广泛使用,主要原因有两点:(I)质谱碎裂信息不完整,相当多的谱图无法使用从头测序方法获取完整肽段,比如连续没有碎裂信息的氨基酸数目太多;(2)从头测序方法相当于在所有满足母离子质量误差范围内的氨基酸组合里搜索正确肽段,搜索空间大,以致计算速度非常慢。另外,一般认为一根谱峰只能匹配一种类型的离子,因此在质谱图中搜索路径需要考虑反对称约束,而在有向无环图中搜索反对称路径是NP-hard问题。
[0004]针对这两点原因,本发明米用HCD(higher-energy collisional dissociation,高能碰撞裂解)与ETD (Electron Transfer Dissociation,电子转移裂解)互补谱图对来增加肽段碎裂信息,并在此基础上设计一种新的从头测序方法。由于使用两种不同类型的谱图联用,一种谱图中缺失的碎裂信息可能在互补的谱图中找到。另外,HCD谱图的内部离子以及ETD的氢重排现象在pNovo+中都被考虑,使得本发明提出的方法,在精度上较同类算法有较大提高。同时,本发明不依赖于反对称约束的限制,设计并实现了快速的前k路径搜索算法,提高了从头测序方法的精度。

【发明内容】

[0005]本发明的目的是利用HCD与ETD谱图的优点,提高从头测序的准确度。同时在从头测序之前进行预处理,去除大量同位素谱峰与噪音谱峰,避免其对从头测序算法造成干扰。并利用更加有区分度的打分算法,提高从头测序的性能。
[0006]为了实现上述目的,本发明提供一种基于HCD与ETD质谱图的肽段从头测序方法,其特征在于,包括:
[0007]步骤1,将HCD与ETD的质谱图对应起来,形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
[0008]步骤2,根据所述有效谱峰构建有向无环图;
[0009]步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;[0010]步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
[0011]所述步骤I包括:
[0012]步骤11,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值;
[0013]步骤12,判断谱峰的电荷状态,并挑选单同位素谱峰。
[0014]步骤13,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰;
[0015]步骤14,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
[0016]所述步骤2包括:
[0017]步骤21,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等;
[0018]步骤22,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和;
[0019]步骤23,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
[0020]所述步骤3包括:
[0021]步骤31,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径;
[0022]步骤32,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
[0023]所述步骤4包括:
[0024]步骤41,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列;
[0025]步骤42,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
[0026]为实现上述目的,本发明还提供一种基于HCD与ETD质谱图的肽段从头测序系统,其特征在于,包括:
[0027]预处理模块,用于将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
[0028]构建模块,根据所述有效谱峰构建有向无环图;
[0029]候选肽段生成模块,用于在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
[0030]排序输出模块,用于将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
[0031 ] 所述预处理模块包括:
[0032]设置模块,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值;
[0033]判断模块,判断谱峰的电荷状态,并挑选单同位素谱峰。
[0034]第一删除模块,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰,并根据所述自然对数值删除与肽段母离子对应的谱峰;
[0035]第二删除模块,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
[0036]所述构建模块包括:
[0037]结点生成模块,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等;
[0038]结点合并模块,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和;
[0039]关联图生成模块,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
[0040]所述候选肽段生成模块包括:
[0041]计算权重模块,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径;
[0042]搜索序列模块,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
[0043]所述排序输出模块包括:
[0044]筛选排序模块,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列;
[0045]匹配打分模块,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
[0046]本发明的有益效果在于:
[0047]1.联用HCD与ETD谱图,可以较好地弥补单种碎裂类型引起的谱峰不全的缺点,结合二者自身的优点,提高从头测序的准确度。
[0048]2.在从头测序之前进行预处理,去除大量同位素谱峰与噪音谱峰,避免其对从头测序算法造成干扰。
[0049]3.利用更加有区分度的打分算法,提高了从头测序的性能。
[0050]以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
【专利附图】

【附图说明】
[0051]图1为本发明的基于HCD与ETD质谱图的肽段从头测序方法流程图;
[0052]图2为本发明的基于HCD与ETD质谱图的肽段从头测序系统示意图;
[0053]图3是本发明的不同离子类型的区别示意图。
【具体实施方式】
[0054]下面结合附图和具体实施例对本发明技术方案进行详细的描述,以更进一步了解本发明的目的、方案及功效,但并非作为本发明所附权利要求保护范围的限制。
[0055]图1是本发明的基于HCD与ETD质谱图的肽段从头测序方法流程图。如图所示,该方法包括:
[0056]步骤1,将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;[0057]步骤2,根据所述有效谱峰构建有向无环图;
[0058]步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
[0059]步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
[0060]该方法之前先设定必要的从头测序参数,包括母离子与碎片离子的误差、选用的离子类型、氨基酸的质量值、酶切类型、谱图文件路径、输出文件路径等。
[0061]步骤I中的操作方式为,按照指定的文件路径,读取质谱图信息,将来自于同一个HCD与ETD谱图文件对应起来。一般来讲,由于质谱仪的设置是固定的,因此同一个母离子碎裂形成的不同文件,它们的扫描号的差值是固定的。
[0062]步骤I包括:
[0063]步骤11,将谱图中的所有谱峰权重设置为谱峰强度的自然对数值。
[0064]步骤12,判断谱峰的电荷状态,并挑选单同位素谱峰。
[0065]步骤13,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰;
[0066]步骤14,将所述新质谱图中的对应母离子附近的谱峰,以及其中性丢失,如失去水分子及氨分子的谱峰删除。这是由于母离子相关谱峰强度通常比较大,它们对肽段从头测序没有帮助反而有误导作用,其中谱图中没有碎裂的整个肽段离子称为母离子。
[0067]步骤12的操作方式为,假设母离子电荷为e,对于一根谱峰,若它在同位素峰序列中,依此按e,e-l,e-2,e-3,..., 2+, I+,找出最适合该同位素峰序列的价态。再选取同位素峰序列中质荷比最小的谱峰P以及比P强度大的所有谱峰。保留强度比谱峰P强度大的谱峰一是避免删除部分有效峰,二是在ETD谱图中还包含大量的c-H离子和z+H离子。对于那些不在同位素峰序列中的谱峰,ETD只考虑1+,而HCD既考虑1+又考虑2+,然后,把所有峰谱根据它们可能的电荷状态转换成单电荷谱峰。
[0068]步骤2包括:
[0069]步骤21,将谱图的谱峰按照不同离子的假设,生成不同的结点。结点的质荷比与权重和原谱峰相等。
[0070]步骤22,步骤21中产生的所有结点中,如果有质量非常接近的,则将它们合并为一个结点,新结点的质荷比等于它们质荷比的平均值,而权重等于它们的权重之和。
[0071]步骤23,添加起始结点和终止结点,它们的质荷比分别为O和母离子质量M减一个水分子(H2O)的质量,权重均设置为O。
[0072]步骤24,对任意两个结点,如果它们的质荷比相差δ等于一个或者两个氨基酸质量之和,则它们之间连接一条边。这样,就根据谱峰及其质量之间的关系,得到了一张谱峰关联图。特别地,由于其自身的特征,它是一张有向无环图。
[0073]步骤21的具体操作方式为,对于HCD谱图,考虑y,b,a, y-NH3, y_H20,bH20和bNH3离子。对于ETD谱图,考虑c,Z,c-H和z+H离子。离子类型的获得也可以使用离子类型发现算法进行独立的处理与发现,然后在本步骤内指定。之后,把每根谱峰按离子类型转化成对应碎裂位置的单电荷的b离子。最后,把HCD与ETD所有的谱峰合并构成一个新谱图。
[0074]如图3所示,图3是不同离子类型的区别示意图。图中的肽段序列由4个氨基酸组成。对于不同氨基酸之间的肽键连接(以粗线标记),断裂后形成的N端和C端离子分别称为b离子和y离子。类似的,在肽键的两侧断裂可以分别形成a离子和X离子,c离子和z离子。离子的下标值代表了该离子含有氨基酸的个数。例如y3代表了该肽段的一种具体的碎片离子,含有3个氨基酸。碎片离子可以发生中性丢失,例如y离子丢失氨分子或水分子可分别表示为yNH3和yH20。由于在各种不同类型的谱图中离子的强度不同,对于HCD谱图,主要考虑1,b,a, y-NH3, y-H20, b_H20和b_NH3离子。对于ETD谱图,则考虑c,z,c_H和z+H离子。
[0075]步骤22的具体操作方式为,扫描所有的谱峰,如果发现两根谱峰的间距小于等于设定的阈值d,则将它们合并为一个结点,新结点的质荷比等于它们质荷比的平均值,权重则等于它们的权重之和。阈值d可以为预先设置的碎片离子误差值,如0.0lDa (Dalton)。
[0076]步骤23的具体操作方式为,将所有的结点按照质荷比的大小按照从小到大排序,然后,在该序列的首尾分别加入两个结点,它们的质荷比分别为O和母离子质量M减一个水分子(H2O)的质量,权重均设置为O。这里,权重也可以置为任意数值,由于每条路径都会经过这两个结点,因此它们的权重值对算法的精度没有影响。
[0077]步骤24的具体操作方式为,首先计算所有氨基酸的质量值以及两种氨基酸组合的质量值,并将所有的质量值进行排序,生成有序表D。然后,计算任意两个结点之间的质荷比差值。由于在上述步骤中,所有结点均对应了一个单电荷的b离子,因此,这个差值即为质量差值。将此差值在D中寻找与其对应的氨基酸或氨基酸组合,并把这两个结点的边标记为这些氨基酸或氨基酸组合。例如,如果两个结点之间的差值为129.06,这是氨基酸Q的质量,同时也是氨基酸组合AG的质量,因此,这条边被标记为[Q/AG/GA],代表这条边对应的氨基酸可能有以上三种排列情况。
[0078]在步骤24中,如果事先指定了某些可能的修饰质量,比如在氨基酸M上增加15.99Da。如果所有的M均要求增加,则直接在步骤24执行之前改变M的质量。另一种情况,是M增加15.99Da或不增加任何质量,这两种情况同时存在。这时候,本发明使用一个未被氨基酸表不利用的字母,如J,表不M增加15.99Da的质量,M仍然表不其原始质量。
[0079]步骤3包括,
[0080]步骤31,使用图论中的前k长路径搜索算法,得到上述有向无环图中权重最高的部分路径。需要设置保存路径数的最大限制P。在算法运行过程中,利用最大优先队列随时保存该图中权重最高的不超过P条路径。路径的权重定义为路径经过结点的所有权重之和。
[0081]步骤32,对上述获得的路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
[0082]步骤32的具体操作方式为,对于每条路径,考虑其中的每条边对应的所有可能氨基酸的排列,生成对应的肽段序列。例如,对于某条路径P,它对应的所有边的标记依次为 A、E、H、V、[Q/AG/GA]、T、[N/GG]、K,则共有六条肽段被生成:AEHVQTNK、AEHVQTGGK、AEHVAGTNK、AEHVAGTGGK、AEHVGATNK、AEHVGATGGK。生成方式为采用宽度优先搜索,对每一条路径从左至右依次扫描生成所有合适的肽段序列。
[0083]步骤4包括:
[0084]步骤41,对于候选肽段进行粗筛选,使用简单规则进行排序,并筛选出排名较高的部分序列。[0085]步骤42,对筛选出的若干结果,进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名靠前的部分结果。
[0086]步骤43,将得到的序列结果信息输出到指定的文件。
[0087]步骤41的【具体实施方式】为,首先定义变量GAPpep如下:
[0088]
【权利要求】
1.一种基于HCD与ETD质谱图的肽段从头测序方法,其特征在于,包括: 步骤1,将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰; 步骤2,根据所述有效谱峰构建有向无环图; 步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段; 步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
2.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤I包括: 步骤11,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值; 步骤12,判断谱峰的电荷状态,并挑选单同位素谱峰。 步骤13,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰; 步骤14,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
3.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤2包括: 步骤21,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等;` 步骤22,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和;步骤23,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
4.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤3包括: 步骤31,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径; 步骤32,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
5.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤4包括: 步骤41,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列; 步骤42,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
6.一种基于HCD与ETD质谱图的肽段从头测序系统,其特征在于,包括: 预处理模块,用于将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰; 构建模块,根据所述有效谱峰构建有向无环图; 候选肽段生成模块,用于在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段; 排序输出模块,用于将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
7.如权利要求6所述的肽段从头测序系统,其特征在于,所述预处理模块包括: 设置模块,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值; 判断模块,判断谱峰的电荷状态,并挑选单同位素谱峰。第一删除模块,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰,并根据所述自然对数值删除与肽段母离子对应的谱峰; 第二删除模块,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
8.如权利要求6所述的肽段从头测序方法,其特征在于,所述构建模块包括: 结点生成模块,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等; 结点合并模块,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和; 关联图生成模块,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
9.如权利要求6所述的肽段从头测序方法,其特征在于,所述候选肽段生成模块包括: 计算权重模块,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径; 搜索序列模块,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
10.如权利要求6所述的肽段从头测序方法,其特征在于,所述排序输出模块包括: 筛选排序模块,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列; 匹配打分模块,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
【文档编号】G01N27/62GK103852513SQ201210501813
【公开日】2014年6月11日 申请日期:2012年11月29日 优先权日:2012年11月29日
【发明者】迟浩, 陈海丰, 孙瑞祥, 董梦秋, 贺思敏 申请人:中国科学院计算技术研究所, 北京市生命科学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1