多级质谱生物大分子结构鉴定方法

文档序号:9248424阅读:884来源:国知局
多级质谱生物大分子结构鉴定方法
【技术领域】
[0001] 本发明设及生物信息技术和计算技术领域,具体地说,本发明设及一种使用多级 质谱技术进行生物大分子结构鉴定的方法。
【背景技术】
[0002] 本发明中,生物大分子主要是指核酸、蛋白质、脂类和糖类化合物等作为细胞的主 要成分的大分子。在生物信息领域,对生物大分子结构的鉴定在细胞周期调控、调亡衰老、 细胞表面的相互作用等生命过程的研究中起到十分重要的作用。
[0003] 在各种生物大分子的鉴定中,由于糖类化合物W多种结构构型存在于细胞中,因 此其复杂性通常也相对较高。例如:对蛋白质数据库SWISS-PROT的分析表明;超过一半的 蛋白质W糖基化形式存在。此外,糖类还常常与脂类化合物连接形成糖脂。另外,糖类化合 物通常由多个单糖通过糖巧键连接而成,并呈现出树形的分枝结构。因此,糖类化合物结 构鉴定包括对糖类分子组成、单糖的连接顺序与分枝位置等信息的分析。图1示出了N糖 GlcNAc2Man9糖结构的多种经典表示方式,虽然表示方式不同,但它们都是二维的树形结 构,其中根节点位于结构的最右边,子节点向左逐步延伸;每一个节点代表一个单糖;每一 条边代表连接两个单糖的糖巧键。图2示出了糖结构中典型的糖巧键的表示方式。在上述 图中,一个单糖可W通过糖巧键跟另外一个或多个单糖相连接,该种分枝结构的复杂性导 致了糖类化合物结构构型的多样性。
[0004] 现有的基于质谱的糖类化合物鉴定大多是基于一级质谱或二级质谱数据的策略。 一级质谱只能得到母离子质量,不能给出糖类化合物的详细信息,例如支链信息、结构信息 和链接位点信息等。二级质谱是将糖在质谱仪中进一步打碎成碎片进行分析,现有技术中 的基于二级质谱的糖结构鉴定策略主要包括W下几种:
[0005] (1)结构库捜索策略;对糖结构库中的每个已知糖结构,首先预测其理论质谱;然 后将待鉴定质谱与理论质谱逐一进行比较,返回相似度最高的理论谱所对应的糖结构作为 鉴定结果。其缺陷是;糖结构库捜索策略依赖于理论质谱的预测,而目前对于质谱形成机制 认识仍然有局限,导致理论质谱预测的精度不高,从而影响了鉴定结果的准确性。
[0006] (2)DeNovo结构鉴定策略:它的基本思想是通过谱图中谱峰间的m/z差值,来推 断可能的糖结构。与糖结构库捜索策略不同,DeNovo结构鉴定策略不依赖于已知的糖结 构数据库,而是直接对质谱数据进行分析,然而DeNovo策略的鉴定准确度严重依赖于质谱 谱图数据质量。在高质量的质谱数据中,每一个糖巧键都会有相应的碎裂离子出现;而在低 质量的质谱中,部分离子的缺失导致DeNovo策略无法得出准确的鉴定结果。此外,由于要 枚举所有可能的糖结构,DeNovo策略通常速度较慢。
[0007] (3)谱库捜索策略:该种策略的基本思想是将已知鉴定结果的二级质谱质 谱-结构对"的映射形式收录于数据库中,然后将待鉴定质谱与质谱数据库中的真实谱进行 比较,返回相似度最高的糖结构作为鉴定结果。该种策略的优点是:与糖结构库捜索策略相 比,谱库捜索策略使用已知的真实谱,而不是预测出的理论谱进行比较,从而使得鉴定结果 更可信。然而,原则上来说,谱库捜索策略仅适用于已鉴定过的谱,对于未收录的质谱则无 法鉴定;此外,在收录"质谱-结构对"数据库时的误差,将会影响候选鉴定结果的准确度。 [000引总而言之,相对于糖类化合物复杂的结构来说,二级质谱仅提供了有限的信息,从 而导致基于二级质谱的糖类化合物鉴定策略准确度不高。基于此,有些研究者使用多种质 谱联合的方式,W期提高鉴定结果的准确度。其中一种方案是;使用多种质谱仪对同一样品 进行多次实验,从而获得多种类型的质谱,期望利用更多的碎裂信息实现糖结构的鉴定。例 如,对同一糖样品分别使用CID质谱仪和ETD质谱仪进行碎裂,产生两张包含不同碎裂信息 的质谱,然后综合利用两张质谱的碎裂信息进行糖结构鉴定。然而,多糖化合物结构往往十 分复杂,两次实验所提供的碎裂信息,通常远远达不到准确鉴定各种同分异构体的需求;而 如果对同一糖样品进行大量的实验,虽然能够提供足够的碎裂信息,但该种鉴定方案的开 销过大,尤其是需要借助多台不同型号的质谱仪,导致鉴定过程复杂同时也增加了鉴定成 本。
[0009] 有研究者进一步提出另一种方案;多级质谱捜索策略,即使用超过二级质谱的多 级质谱能够提供更多的断裂信息,来实现同分异构体的逐步区分。一种已有的使用多级质 谱鉴定方法是将多级质谱与谱库捜索策略相结合,使用已知糖结构的二级和=级质谱构建 "质谱-结构对"数据库。此方法在一定程度上提高了鉴定准确度,但是由于其谱库中谱数 据量少、物种单一,且多级质谱数据仅局限于S级质谱,所W对于某些糖类化合物的同分异 构体依然无法准确区分。
[0010] 综上所述,当前迫切需要一种能够W较小的开销实现高准确度的多级质谱鉴定的 解决方案。

【发明内容】

[0011] 因此,本发明的任务是克服现有技术的上述缺陷,提供一种多级质谱鉴定的解决 方案。
[0012] 本发明提供了一种多级质谱生物大分子结构鉴定方法,包括下列步骤:
[0013] 1)对生物大分子样品进行二级质谱分析,将所获得的二级质谱作为当前质谱;
[0014] 2)在当前质谱中,选择产生下一级质谱的离子,基于所选择的离子进行质谱实验 获得所述下一级质谱;
[0015] 3)使用层次贝叶斯模型将所述当前质谱的后验概率W先验概率的方式代入所述 下一级质谱,进而对每个候选结构对应的理论质谱进行谱谱比对打分,其中,所述候选结构 根据当前质谱的母离子质量进行结构库捜索得出;
[0016] 4)如果无法根据当前的谱谱比对打分结果得出唯一的匹配结构,则将所述下一级 质谱作为当前质谱,重复步骤2)进行下一级的质谱分析,直至得出唯一的匹配结构。。
[0017] 其中,所述步骤2)中,所述产生下一级质谱的离子根据各候选离子对应的信息滴 选出。
[0018] 其中,所述步骤2)中,所述产生下一级质谱的离子的选择方法如下:
[0019] 21)根据当前的质谱的谱峰,选择产生下一级质谱的候选离子;
[0020] 22)计算各候选离子对应的信息滴;其中,对于每一个候选离子,模拟生成其所有 可能形成的下一级可能质谱;然后每个可能质谱存在的条件下,更新每个候选结构的后验 概率,计算得到后验概率的信息滴作为该可能质谱的信息滴;对于每一个候选离子,计算该 候选离子所有可能质谱的平均信息滴,将该个平均信息滴作为该候选离子对应的信息滴;
[0021] 23)根据所述各候选离子对应的信息滴选择产生下一级质谱的离子。
[0022] 其中,所述步骤23)还包括:选择各候选离子中对应信息滴最小的作为产生下一 级质谱的离子。
[0023] 其中,所述步骤23)还包括:结合各候选离子的丰度和的对应信息滴选择产生下 一级质谱的离子;其中,根据丰度筛除部分候选离子,然后在剩余的候选离子中,选择对应 信息滴最小的作为产生下一级质谱的离子。
[0024] 其中,所述步骤21)还包括:从候选谱峰离子中,排除在所有的候选结构中对应于 相同的子结构的离子。
[0025] 其中,所述步骤22)中,候选离子对应的信息滴的计算方法包括下列步骤:
[0026] 221)对于当前实验质谱中的候选离子i,分析其再次碎裂后可能产生的各个碎片 离子,得到每个碎片离子所对应的理论峰,每个理论峰在谱中出现或者不出现构成所有理 论谱的集合…,Sw,…,Si,。},其中Sw表示第i个离子产生的第j种可能的质 谱;
[0027] 222)然后计算每一个候选结构在下一级质谱实验中产生质谱Sw的概率P(Si, JIGk,si,…sM),其中M表示当前已得到的实验谱的个数;进一步地,计算各个可能质谱 分别存在的情况下,各个候选结构是正确结构的概率,并计算该概率集合的信息滴H(sw); 进而计算第i个离子产生的所有可能质谱sw得到的信息滴的均值H(Si)。
[002引其中,所述步骤3)还包括:根据概率P(Gi|Si)和理论谱中的每个峰在实验谱中出 现的概率
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1