质量分析系统的制作方法

文档序号:5832921阅读:280来源:国知局
专利名称:质量分析系统的制作方法
技术领域
本发明涉及一种通过质量分析来收集数据并且分析处理该数据的质量分析系统, 特别是,涉及一种适合于使用通过对包含肽混合物的被检试样进行质量分析而得到的质谱 数据来估计各肽的氨基酸序列的氨基酸序列分析的系统。
背景技术
近年来,作为后基因组研究,蛋白质结构、功能的分析迅速发展。作为这种蛋白质 结构/功能分析方法(蛋白质组(proteomo)分析)之一,广泛进行利用了质量分析的蛋 白质的表现分析、一级结构分析,通过四极离子捕获、碰撞诱导分解(CID)等来捕获特定的 峰值和进行裂解的所谓MSn分析(η是2以上的整数)正在发挥威力。通常,在MS2 ( = MS/ MS)分析中,首先,从来源于分析对象试样的各种离子中挑选具有特定质量(严格地说是质 荷比m/z)的离子作为前体离子,通过CID来使该前体离子裂解。之后,通过对由于裂解而 生成的离子(产物离子或者碎片离子)进行质量分析,能够得到目的离子的质量、与化学结 构有关的信息。在利用上述那样的MSn分析来估计蛋白质的氨基酸序列时,首先,在利用适当的酶 消化蛋白质而使蛋白质成为肽碎片的混合物之后对该肽混合物进行质量分析。此时,由于 构成各肽的元素中存在质量不同的稳定同位素,因此即使是由同一氨基酸序列构成的肽, 由于其同位素组成的不同而产生质量不同的多个峰值。这些多个峰值由以下峰值构成仅 由自然存在比最大的同位素构成的离子(主离子)的峰值和包含除自然存在比最大的同位 素以外的同位素的离子(同位素离子)的峰值,它们形成由以IDa为间隔排列的多个峰值 构成的同位素峰值群。接着,从上述那样的肽混合物的质谱数据中选择来源于单一肽的一组同位素峰值 群作为前体离子,对使该前体离子裂解而得到的离子进行质量分析(MS2分析)。另外,也存 在在通过一次裂解操作未成为足够小的碎片的情况下多次进行裂解操作来进行MSn分析的 情形。根据以上那样得到的产物离子的质谱图、上述前体离子的质谱图,例如利用由 Matrix Science社(卜1J ?夕7寸4工> 7社)提供的MASCOT ( 7 二 7卜)等搜索引 擎来执行氨基酸序列识别用数据库搜索,由此能够确定被检肽的氨基酸序列。或者,通过在 计算机上执行被称为De Novo( # )序列的各种分析用软件来进行基于质谱图的数学 运算,由此也能够估计被检肽的氨基酸序列。作为上述那样的利用了 De Novo序列的氨基酸序列估计方法之一,以往已知在非 专利文献1中记载的方法。该方法利用通过MS2分析得到的质谱和通过进行了进一级裂解 的MS3分析得到的质谱。简单进行说明,利用通过MS2分析和MS3分析两者观测到的离子是 具有相同末端(C末端或者N末端中的某一个)的产物离子的情况来估计肽的部分序列,将 几个通过MS3分析求出的部分序列键合来估计肽整体的氨基酸序列。但是,通过MS2分析和 MS3分析两者观测到的离子实际上仅是肽裂解而产生的产物离子的一部分,相应地用于分析的信息不充分。因此,也尝试通过利用互补性谱(Complimentary Spectrum)来增加所收 集的产物离子峰值的种类,其中,上述互补性谱是以MS3分析时的前体离子的位置(质量) 为基准,将通过MS3分析得到的质谱(下面仅称为MS3谱)左右反转而求出的谱。另外,在专利文献1中记载了将多个MSn谱合成为一个质谱来增加产物离子峰值 的情况。然而,在该方法中,不仅在所合成的质谱中存在包含噪声的很多峰值,而且在通过 η为3以上的MSn分析而被测量到的产物离子中包含同一肽的两个以上的键被切断而得到 的离子。因此,随着η的数增加而合成质谱图变得非常复杂。其结果是,即使利用出现在这 种合成质谱中的峰值来估计肽的氨基酸序列,不仅花费时间而且可靠性也较低。针对上述那样的问题,本发明的申请人在专利文献2中提出了新的氨基酸序列分 析方法。即,收集如下等峰值在MS2谱和MS3谱中共同存在的峰值,在使MS3谱移位与前体 离子的质量差相应的量而得到的质谱和MS2谱中共同存在的峰值,或者在以前体离子的质 量为中心折回MS3谱而得到的质谱和MS2谱中共同存在的峰值(具有互补性的峰值)。然 后,将这些多个峰值分类为属于相同末端系列、即C末端系列和N末端系列的峰值并汇总, 由此排除噪声峰值并且收集很多峰值。这样,将按每个b系列、y系列汇总的峰值表提供给 De Novo序列等分析软件,来估计氨基酸序列。由此,能够改善肽的氨基酸序列的估计准确 性。然而,即使使用该方法,由于成为对象的肽的种类等不同,存在提供给分析软件的 数据本身的可靠性降低而氨基酸序列的估计准确性降低的情况。其理由可举出以下等情 况与即使在增加了裂解操作次数的MSn谱中也未发现质量的共同性、互补性的峰值对应的 离子没有被利用于估计氨基酸序列;以及在将具有质量的共同性、互补性且被挑选的离子 分类为C末端/N末端中的某一个时也有时错误判断。专利文献1 美国专利第66244087号说明书专利文献2 日本特开2007-278712号公报非专利文献1 夕 Y > (Z. Zhang) ( 1 名、「尹· 乂 # ·《7° f F . ν — ^ > ν >
夕’· K彳·卜>y——·〒.4 J ^夕彐于A · 7,夕.’乂父卜· 3 ij 4 ν彐^ · ^ ·叉 夕卜口
乂卜 1J 一 (De NovoPeptide Sequencing by Two-Dimensional Fragment CorrelationMass Spectrometry) J > 了于1JrJ 力 夂笑 7 卜'J 一 (Analytical Chemistry)、Vol. 72、 No. IUJune 12000、pp. 2337-2350

发明内容
发明要解决的问题本发明是为了解决这种问题而完成的,其目的在于提供一种能够根据质谱数据容 易地估计蛋白质、肽的氨基酸序列并且与以往相比进一步提高其估计精确度的质量分析系 统。用于解决问题的方案为了解决上述问题而完成的本发明是一种质量分析系统,利用通过MSn分析(η是 3以上的任意整数)得到的数据来估计氨基酸序列,其特征在于,具备a)质量分析单元, 其对被检试样执行MSm分析(m = 2以上整数)和MSm+1分析来获取质谱数据,其中,在上述 MSm+1分析中将通过上述MSn分析的结果所得到的质谱峰值中的至少一个挑选为前体离子;b)峰值信息收集单元,其分别提取出现于由上述质量分析单元得到的MSm谱中的峰值和出 现于MSm+1谱中的峰值,并且根据需要也提取使MSm+1谱移位与前体离子的质量差相应的量 而得到的峰值,收集与这些峰值对应的离子的质量信息来制作峰值表,上述峰值表是通过 将所收集的这些质量信息分类为能够判断为与前体离子的末端系列相同的信息、能够判断 为与前体离子的末端系列不同的信息以及无法判断氨基酸序列末端系列的信息中的某一 个并汇总来得到的;c)峰值提取单元,其使用由上述峰值信息收集单元汇总的质量信息, 根据基于MSm谱、MSm+1谱各谱中的质量的互补性、MSm谱与MSm+1谱之间的质量的共同性以及 互补性的基准来挑选峰值并进行分类,并且求出每个分类的峰值的出现频率;d)评价值算 出单元,其根据按上述每个分类预先算出的该分类所包含的可靠度信息和由上述峰值提取 单元得到的每个分类的峰值的出现频率信息,分别算出表示与所挑选出的各峰值对应的离 子是产物离子的概率的评价指标值以及与该离子的末端系列有关的评价指标值,其中,上 述可靠度信息包括表示与峰值对应的离子是产物离子的概率的可靠度和与该离子的末端 系列有关的可靠度;以及e)序列估计单元,其使用由上述峰值提取单元挑选出的峰值的质 量信息和由上述评价值算出单元得到的各峰值的评价指标值来估计被检试样的氨基酸序 列。不特别限制上述“质量分析单元”的形式、方式,作为典型的一例,能够设为具备了 三维四极离子捕获器的质谱仪,在该离子捕获器内部进行前体离子的裂解。特别是,为了选 择单一峰值来执行MSn分析,需要能够以较高分离能力选择前体离子来进行MSn分析的质谱 仪,组合了三维四极离子捕获器和飞行时间型质量分离部的IT-TOF型结构适合于这种条 件。另外,最好将质谱仪的离子源例如设为通过基质辅助激光解析电离(Matrix Assisted Laser Desorption/Ionization :MALDI)法对试样进行电离而得到的离子。另外,关于上述“按每个分类预先算出的该分类所包含的可靠度信息,其中,上述 可靠度信息包括表示与峰值对应的离子是产物离子的概率的可靠度和与该离子的末端系 列(即C末端或者N末端)有关的可靠度”,例如根据对氨基酸序列已知的肽进行分析而得 到的结果来预先求出。另外,在本发明所涉及的质量分析系统中,峰值信息收集单元、峰值提取单元、评 价值算出单元以及序列估计单元能够通过在通用计算机上执行规定的程序,根据被提供的 谱数据进行运算处理来估计氨基酸序列。在此,氨基酸序列的估计例如举出几个氨基酸序 列候选,能够从该估计的可靠性高的氨基酸序列起按顺序设为候选,或者将附加并提示表 示可靠性的信息的氨基酸序列设为候选。另外,上述序列估计单元也可以利用现有的数据 库搜索、De Novo序列。另外,能够将与离子的末端系列有关的可靠度例如设为表示与所选择的峰值对应 的离子属于与前体离子相同的末端系列的可能性的可靠度、表示属于不同的末端系列的可 能性的可靠度等,或者设为表示分别属于C末端、N末端的可能性的可靠度等。在本发明所涉及的质量分析系统中,将m设为2以上的适当的整数,也能够设为m =2,但是为了提高氨基酸序列的估计精确度要收集很多峰值信息,因此优选将m设为3以 上。在将m设为3以上的情况下,期望按照m= 2、3、…的顺序来执行上述那样的由各单元 进行的处理。另外,为了收集更多的峰值信息,最好上述质量分析单元在多个不同的裂解条件
5下对某一个前体离子执行MSm+1分析,峰值信息收集单元收集在通过多个MSm+1分析而分别 得到的MSm+1谱中出现的峰值。在此,裂解条件可举出施加到前体离子的能量(激励电压 等)、用于碰撞诱导分解的气压(供给流量)等。即使前体离子相同,当裂解条件不同时,前 体离子的键被切断的部位等也不同,因此质谱图不同。因而,在MSm+1谱上出现不同质量的 峰值,利用共同性、互补性而被选择的峰值的数也变多。另外,可以的话,最好也利用执行如下的MSm+1分析而收集到的数据,在该MSm+1分 析中将从上述前体离子中脱水(H2O)、氨(NH3)等而派生出的脱水离子、脱氨离子等被考虑 为来源于相同的肽的离子设定为前体离子。另外,优选峰值提取单元还获取在使MSm+1谱向高质量侧移位与MSm分析和MSm+1分 析的前体离子的质量差相应的量而得到的质谱中出现的峰值信息,根据该峰值信息和在原 来的MSm+1谱中得到的峰值信息来判断与MSm谱之间的峰值的共同性、互补性。此外,这种移 位处理具有切换出现于质谱中的与峰值对应的产物离子的末端系列(使C末端反转为N末 端、N末端反转为C末端)的作用。由此,利用共同性、互补性而被选择的峰值数也变多,峰 值频率信息的准确度提高,进而有助于提高氨基酸序列估计的可靠性。发明的效果以往,以峰值是来源于作为被检试样的未知肽的产物离子的峰值为前提,对最终 提供给数据库搜索、De Novo序列等氨基酸序列估计软件的峰值信息(离子的质量信息)进 行处理。另外,对各峰值附加表示属于C末端/N末端中的哪一个的信息,在能够将该信息 利用于估计氨基酸序列的情况下,也是以该末端信息是可靠的信息为前提进行处理。与此相对,在本发明所涉及的质量分析系统中,对从质量分析结果中提取出的各 峰值附加表示其是产物离子的概率的评价指标值和表示与末端的种类等有关的判断概率 的评价指标值,因此,例如通过从产物离子、末端判断的可靠性高的峰值起优先提供给氨基 酸序列估计,与以往相比,能够进一步提高其估计精确度。另外,例如如果收集出现于在不同的裂解条件下对同一前体离子进行MSm+1分析而 分别得到的MSm+1谱中的峰值,则与以往相比,能够收集更多来源于同一未知肽的峰值。由 此,根据质量的共同性、互补性等而挑选的峰值的数也能够增加,能够提高每个分类的峰值 的出现频率的准确度。其结果是,能够提高氨基酸序列的估计精确度。


图1是作为本发明的一个实施例的质量分析系统的概要结构图。图2是表示在本实施例的质量分析系统中估计肽的氨基酸序列的过程的流程图。图3是表示通过MS2分析、MS3分析而收集到的峰值表的一例的图。附图标记说明10 质量分析部;11 :电离部;12 离子捕获部;13 质量分离部;14 离子检测器; 20 控制/处理部;21 控制部;22 谱数据处理部;23 峰值提取部;24 可靠度信息存储 部;25 评价指标值算出部;26 识别用数据库(DB) ;27 序列估计处理部。
具体实施例方式下面,参照

本发明所涉及的质量分析系统的一个实施例。该系统是将肽设为被检试样来估计其氨基酸序列的氨基酸序列分析系统。图1是本实施例的质量分析系统的概要结构图。本实施例的系统大致由质量分析 部10和控制/处理部20构成。质量分析部10具备电离部11,其通过MALDI法使包含肽 混合物的被检试样电离;三维四极离子捕获部12,其挑选具有规定质量(严格地说是质荷 比m/z)的离子作为前体离子,并且通过碰撞诱导分解来使该前体离子裂解而生成各种产 物离子;飞行时间型质量分离部13,其与从离子捕获部12放出的各种离子各自的质量相应 地在时间方向上分离它们;以及离子检测器14,其依次检测与质量相应地被分离出的离子 并输出与离子量相应的检测信号。在该质量分析部10中,通过在离子捕获部12中反复交替地进行前体离子的挑选 操作和裂解操作,能够进行MSn分析(η是3以上的整数)。该MSn分析中的η理论上没有 的上限,但是由于存在实际上前体离子的挑选效率、裂解效率等不会成为100%这种限制, 通常将η的最大值抑制为5 7左右。控制/处理部20包含控制部21,其控制质量分析部10的各部来执行MSn分析; 谱数据处理部22,其将由离子检测器14得到的检测信号变换为数字数据并进行处理来制 作MS1^f ;峰值提取部23,其使用对于一个被检试样得到的多个MS1Hf,通过实施后述那样 的处理来挑选峰值并进行分类,并且按每个分类来调查峰值的出现频率;可靠度信息存储 部24,其预先存储成为基准的可靠度信息;评价指标值算出部25,其根据所存储的可靠度 信息和由峰值提取部23得到的出现频率信息,按每个峰值来计算评价指标值;序列估计处 理部27,其根据每个峰值的评价指标值和峰值信息来估计被检试样的氨基酸序列;以及识 别用数据库26,其在估计被检试样的氨基酸序列时被使用,其中,序列估计处理部27的估 计结果从输出部28输出。在上述控制/处理部20中,除了控制部21的一部分以外的其它功能,通过执行装 载于通用计算机中的专用的控制/处理软件来实现。另外,使用对氨基酸序列已知的标准的肽进行分析处理而得到的结果来预先制作 存储在可靠度信息存储部24中的可靠度信息。在此,可靠度信息是指就附加给后述的所有 峰值挑选种类的编号i而言的概率(i)、概率w2 (i)以及概率w3 (i),其中,概率wl (i)表 示与其峰值对应的离子是产物离子的可靠度,概率(i)表示与其峰值对应的离子属于与 前体离子相同的末端系列的可靠度,概率w3(i)表示与其峰值对应的离子属于与前体离子 不同的末端系列的可靠度。按照图2的流程图来说明使用上述质量分析系统来估计未知肽的氨基酸序列时 的过程的一例。首先,在控制部21的控制下,由质量分析部10进行不带有裂解的通常的质量分 析,将由此得到的质谱( = MS1谱)上的某个特定的峰值设定为前体离子,执行MS2分析,获 取MS2谱。此时,优选对于同一前体离子,例如改变离子捕获部12内部气体压力、对前体离 子施加的能量(激励电压)等裂解条件来分别得到MS2谱。当这样改变裂解条件时,键的 切断位置改变,因此即使同样在MS2谱中,峰值的出现位置、即质量也不同,因此对于MS2谱 能够得到更多的峰值。另外,在存在被认为是从前体离子脱水、氨等的脱水离子、脱氨离子 等被考虑为来源于相同肽的峰值的情况下,最好将与其峰值对应的离子设定为前体离子来 执行MS2分析。这样,通过获取多个MS2谱,能够显著增加在后述的步骤S2中通过MS2分析而收集的峰值数。如果得到了 MS2谱,则选择该质谱上的某个特定的峰值作为前体离子而执行MS3分 析,获取MS3谱。此时也与MS2分析时同样地,最好改变裂解条件或者将来自前体离子的脱 水、氨的离子设定为前体离子来获取多种MS3谱。并且,根据需要,将该MS3谱上的某个特定 的峰值设定为前体离子,执行MS4分析来获取MS4谱。这样,执行伴随裂解操作的MSn分析直 到预先决定的级数P为止(步骤Si)。另外,在此,作为一例设为ρ = 4,执行MS1分析、MS2 分析、MS3分析、MS4分析。接着,将变量m初始设定为2 (步骤S2),分别收集在MSm谱和MSm+1谱中得到的峰 值的质量信息,制作峰值表(步骤S3)。此外,此时最好通过计算求出使MSm+1谱向高质量 侧移位与MSm分析和MSm+1分析的前体离子的质量差相应的量而得到的质谱,也收集出现于 该质谱中的峰值的质量信息。在这样收集峰值的质量信息来制作峰值表时,判断各峰值具 有与前体离子相同的末端系列,还是具有与前体离子不同的末端系列,或者末端系列不明 (无法判断),制作三个峰值表。具体地说,例如如果MS3分析的前体离子为y离子(C末端 碎片离子),则出现于MS3质谱中的峰值是与该前体离子相同的系列(即C末端)的离子。 另外,通过上述那样的移位处理而末端系列切换、即C末端成为N末端、N末端成为C末端。接着,使用上述那样收集到的峰值的质量信息来提取有用的(认为有用的)峰值, 在按每个峰值挑选种类将这些峰值分类之后,按该每个种类调查峰值的出现频率(次数) (步骤S4)。在此,作为具体例,根据在如下情况下得到的理论上的产物离子来进行说明,所 述情况为以氨基酸序列[KVPQVSTPTLTLVEVSR]的肽为测量对象,进行了将前体离子的质量 PCms2设为1639. 938的MS2分析和将前体离子的质量PCms3设为1412. 775的MS3分析。图 3是表示此时的理论上的产物离子的质量信息的图。此外,在此将满足互补性(两个峰值质 量之和等于前体离子质量)的离子称为b/y对。在MS2谱中提取出的y离子(C末端系列产物离子)和b离子(N末端系列产物离 子)的组即b/y对(记为byO)、在MS3谱中提取出的y离子和b离子的组即b/y对(记为 byOO)是产物离子的可能性较高。因此,将by0、by00分别设为峰值挑选种类。但是,无法 区分这些离子是N末端系列还是C末端系列。在图3的例子中,提取具有如下质量的峰值 作为 by0、by00。[byO] :1465. 827+175. 1195 = PCms2+H[byOO] :1238.663+175. 1195 = PCms3+H对于任何一个都不清楚是与前体离子相同的末端系列的离子还是与前体离子不 同的末端系列的离子。在MS2谱和MS3谱中共同出现(即质量相同)的峰值(共同峰值、记为coml)是具 有与前体离子相同的末端系列的碎片系列。另一方面,当使出现于MS3谱中的各峰值的位 置向高质量侧移位与MS2谱的前体离子的质量PCms2和MS3谱的前体离子的质量PCms3的 质量差(PCdiff)相应的量时,在该质谱与MS2谱中共同出现的峰值(共同峰值,记为com2) 是具有与前体离子不同的末端系列的碎片系列。将该coml、com2分别设为峰值挑选种类。 在图3的例子中,提取具有如下质量的峰值作为COml、COm2。[coml] 262. 1515 = 262. 1515[com2] :1279·726 = (1052. 563+PCdiff)
8
com 1是在MS2、MS3中都具有与前体离子相同的末端系列的离子,另一方面,com2 是在MS2、MS3中都具有与前体离子不同的末端系列的离子。从MS2谱和MS3谱的各谱中求出与前体离子的质量PCms2、PCms3相等的b/y对。 将从MS2谱中求出的b/y对记为by2,将从MS3谱中求出的b/y对记为by3。这些能够区分 具有与前体离子相同或者不同的末端。按每个by2、by3并且具有与前体离子的末端相同的 末端或者具有不同的末端的离子分开来分别设为峰值挑选种类。在此,将是by2且在MS2中 具有与前体离子相同的末端而在MS3中具有与前体离子不同的末端的离子设为by2+,将是 b/y2且在MS2中具有与前体离子不同的末端而在MS3中具有与前体离子相同的末端的离子 设为by2-,将是b/y3且在MS2中具有与前体离子相同的末端而在MS3中具有与前体离子不 同的末端的离子设为by3+,将是b/y3且在MS2中具有与前体离子不同的末端而在MS3中具 有与前体离子相同的末端的离子设为by3-。在图3的例子中,提取具有如下质量的峰值作为by2+、by2-、by3+、by3-。[by2+] 589. 3309+(824. 4518+PCdiff) = PCms2+H[by2-] :1150.684+490. 2625 = PCms2+H[by3+] (702. 415-PCdiff) + (711. 3677+PCdiff) = PCms3+H[by3-] (1051.605-PCdiff)+589. 3309 = PCms3+H此外,在上述那样使用相同的前体离子、通过改变裂解条件来获取多个MSn谱的情 况下,与上述同样地能够提取共同峰值、b/y对,但是无法区别这些是N末端系列还是C末 端系列。另外,在将中性丢失峰值作为前体离子而得到的MSn谱和将未产生丢失的峰值作 为前体离子而得到的MSn谱之间也能够提取共同峰值、b/y对,但是这些也无法区分是N末 端还是C末端。这些在图3中未记载,但是能够将这些设为峰值挑选种类。如上所述那样,能够将出现于在步骤S2中得到的质谱中的多个峰值分类为多个 峰值挑选种类。因此,求出按该每个峰值挑选种类而被分类的峰值数、即出现频率。此外, 将此时没有被提取的峰值视作噪声峰值,通过处理来去除。对上述那样的峰值挑选种类按从1起的顺序附加连续编号。在上述例子中,明确 示出[byO]、[byOO]、[coml]、[com2]、[by2+]、[by2_]、[by3+]、[by3-]这八种峰值挑选种 类,但是实际上进行十六种峰值挑选,对它们附加连续编号。然后,对于所有的峰值挑选种 类的编号Ui =0、1、…、16),对表示实际上是产物离子的概率的可靠性wl (i)和在步骤 S4中求出的频率nl(i)进行乘法运算,通过求出其总和来求出用于评价所提取的峰值是产 物离子的评价分数值fl。艮口,fk =Σ wk(i) · nk(i),其中,Σ 为在 i = 1 至 16 的总和,k = 1。另外,同样地,根据表示所提取的峰值具有与前体离子相同的末端的概率的可靠 率w2(i)和实际上峰值被区分为具有与前体离子相同的末端的频率n2(i)求出挑选峰值具 有与前体离子相同的末端的评价分数f2,并且,根据表示所提取的峰值具有与前体离子不 同的末端的概率的可靠率w3(i)和实际上峰值被区分为具有与前体离子不同的末端的频 率n3(i)求出挑选峰值具有与前体离子不同的末端的评价分数f3(步骤S5)。之后,将m仅增加1,如果m+1未达到预先决定的最大值(步骤S6、S7),则返回到 步骤S3,再次执行步骤S3 S5的处理。S卩,设为m = 3,分别收集在MS3谱和MS4谱中得到 的峰值的质量信息,对这些峰值的质量信息进行峰值的提取/分类以及频率的算出,求出评价分数。反复进行这种处理直到m+1达到预先决定的最大值为止。利用上述那样分别提取出的峰值的质量信息、即峰值表,通过数据库搜索来估计 几个肽序列候选(步骤S8)。或者,也可以通过De Novo序列来估计几个候选。在从输出 部28输出该几个序列候选时,利用在步骤S5中求出的评价分数fl、f2、f3。例如,将用于 识别/估计肽序列候选的峰值的评价分数Π较高、或评价分数Π的识别/估计时的假定 与关于末端系列的评价分数f2、f3—致的序列优先设为候选。因此,对各序列候选,算出参 照了评价分数Π f3等的序列估计的可靠分数,优先提示该可靠分数较高的序列或者在 提示序列的同时提示可靠性分数。此外,在通过数据库搜索、De Novo序列来估计序列候选时,也可以利用对于峰值 的评价分数。作为最简单的方法,例如可考虑如下等利用方法评价分数低于某个固定基准 值的峰值不利用于序列估计。这种方法在出现于质谱中的峰值数过多的情况下特别有效。如上所述,在本实施例的质量分析系统中,能够以较高的可靠性提示作为被检试 样的肽混合物的氨基酸序列的候选。此外,上述实施例只不过是本发明的一例,即使在本发明的宗旨的范围内适当地 进行变形、修改、追加等也当然包含在本申请的权利要求的范围内。
10
权利要求
一种质量分析系统,利用通过MSn分析(n是3以上的任意整数)得到的数据来估计氨基酸序列,其特征在于,具备a)质量分析单元,其对被检试样执行MSm分析(m是2以上的整数)和MSm+1分析来获取质谱数据,在该MSm+1分析中将通过上述MSm分析的结果所得到的质谱峰值中的至少一个挑选为前体离子;b)峰值信息收集单元,其分别提取出现于由上述质量分析单元得到的MSm谱中的峰值和出现于MSm+1谱中的峰值,并且根据需要也提取使MSm+1谱移位与前体离子的质量差相应的量而得到的峰值,收集与这些峰值对应的离子的质量信息来制作峰值表,上述峰值表是通过将所收集的这些质量信息分类为能够判断为与前体离子的末端系列相同的信息、能够判断为与前体离子的末端系列不同的信息以及无法判断氨基酸序列末端系列的信息中的某一个并进行汇总来得到的;c)峰值提取单元,其使用由上述峰值信息收集单元汇总的质量信息,根据基于MSm谱、MSm+1谱各谱中的质量的互补性、MSm谱与MSm+1谱之间的质量的共同性以及互补性的基准来挑选峰值并进行分类,并且求出每个分类的峰值的出现频率;d)评价值算出单元,其根据按每个上述分类而预先算出的该分类所包含的可靠度信息和由上述峰值提取单元得到的每个分类的峰值的出现频率信息,分别算出表示与所挑选出的各峰值对应的离子是产物离子的概率的评价指标值以及与该离子的末端系列有关的评价指标值,其中,上述可靠度信息包括表示与峰值对应的离子是产物离子的概率的可靠度以及与该离子的末端系列有关的可靠度;以及e)序列估计单元,其使用由上述峰值提取单元挑选出的峰值的质量信息和由上述评价值算出单元得到的各峰值的评价指标值来估计被检试样的氨基酸序列。
2.根据权利要求1所述的质量分析系统,其特征在于, m为3以上,按照m = 2、3、…的顺序执行由上述各单元进行的处理。
3.根据权利要求1所述的质量分析系统,其特征在于,上述峰值信息收集单元收集出现于在多个不同的裂解条件下对某一个前体离子进行 MSm+1分析而分别得到的MSm+1谱中的峰值。
4.根据权利要求1所述的质量分析系统,其特征在于,上述峰值提取单元还获取在使MSm+1谱向高质量侧移位与MSm分析和MSm+1分析的前体 离子的质量差相应的量而得到的质谱中出现的峰值信息,根据该峰值信息和在原来的MSm+1 谱中得到的峰值信息来判断与MSm谱之间的峰值的共同性、互补性。
全文摘要
提供一种质量分析系统,对肽混合物依次执行MS分析、MS2分析、…、MSP分析来分别获取质谱(S1)。此时,汇总在通过变更前体离子或者对同一前体离子设定不同的裂解条件来进行多次分析而分别得到的质谱中出现的峰值。在这样增加峰值数之后,利用MSm谱和MSm+1谱的峰值的共同性、互补性等来提取有用的峰值,按每个峰值挑选种类来进行分类并按每个分类来求出峰值的出现频率(S3、S4)。然后,根据出现频率和预先求出的可靠率来计算所提取的峰值是产物离子的评价分数、与末端有关的评价分数(S8)。在使用所提取的峰值进行序列估计时利用评价分数,例如决定输出序列候选的优先顺序(S8、S9)。
文档编号G01N27/62GK101918826SQ200780101939
公开日2010年12月15日 申请日期2007年12月20日 优先权日2007年12月20日
发明者姚精文, 梶原茂树, 马修·凯利 申请人:株式会社岛津制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1