用于确定复杂混合物中的化学成分的组成的系统、方法和计算机可读介质的制作方法

文档序号:5863567阅读:289来源:国知局
专利名称:用于确定复杂混合物中的化学成分的组成的系统、方法和计算机可读介质的制作方法
技术领域
本文描述的主题涉及用于确定复杂混合物中的化学成分的组成的系统和方法。
背景技术
确定复杂混合物中化学成分的组成的能力具有很多非常有用的应用,包括回答传 统化学分析提出的问题,诸如“该物质是由什么构成的? ”,并且使得能够进行更复杂的生 物过程分析,诸如“健康细胞如何与病变细胞区分? ”,“该药物如何影响细胞过程? ”,“如何 能够优化培养基中的细胞的生长?,,以及“该生物过程的限制因素是什么? ”。传统上用于分析复杂混合物的技术包括色谱分析和质谱分析。色谱分析是将复杂 混合物分成各部分的技术。质谱分析是这样一种技术,即包含很多不同化学成分的样品被 离子化,且离子化的化学成分受到电磁场的作用,该电磁场根据化学成分的质荷(m/z)比 来分离这些化学成分。虽然色谱分析和质谱分析都将复杂混合物分离成组成部分,但任何 一种技术都不提供对化学成分的直接识别;必须基于化学成分的被测量特性的分析来确定 化学成分的身份。如本文所用,术语“分离”指的是将复杂混合物分离成其组分分子或代谢物的过 程。普通实验室分离技术包括电泳和色谱分析。如本文所用,术语“色谱分析”指的是物理分离方法,其中将要分离的组分(即化 学成分)分布在两种物相中,一种物相是静止的(静止相)而另一种(流动相)沿明确的 方向移动。色谱输出数据可以用于由本文所述主题的实施例来操作。如本文所用,术语“保留时间”指的是从将样品引入分离设备起的色谱分析过程中 流逝的时间。样品的成分的保留时间指的是将样品注入分离设备中的时刻与样品的成分洗 脱(例如流出)包含静止相的分离设备部分的时刻之间的色谱分析过程中流逝的时间。如本文所用,术语样品组分的“保留指数”指的是通过内插(通常是对数内插)获 得的数目,该数目使得样品组分的保留时间或保留因子与在样品组分的峰之前或之后洗脱 的标准品的保留时间相关联,这是利用已知标准品的分离特性去除系统误差的机制。如本文所用,术语“分离指数”指的是与由分离技术分离的化学成分相关联的衡量 标准。对于色谱分离技术,该分离指数可以是保留时间或保留指数。对于非色谱分离技术, 该分离指数可以是化学成分行进的物理距离。如本文所用,术语“分离信息”和“分离数据”指的是相对于分离指数指示存在或 不存在化学成分的数据。例如,分离数据可以指示存在在特定时间洗脱的具有特定质量的化学成分。该分离数据可以指示随着时间洗脱的化学成分的量上升、达到峰值且然后下降。 随着分离指数(例如时间)绘制的化学成分的存在的图可以显示图形峰。因此,在分离数 据的背景下,术语“峰信息”和“峰数据”与术语“分离信息”和“分离数据”是同义的。如本文所用,术语“质谱分析”(MS)指的是用于测量和分析分子的技术,其涉及将 目标分子离子化或者将目标分子离子化并片段化,然后基于它们的质量/电荷比分析这些 离子以产生用作“分子指纹”的质谱。确定对象的质量/电荷比可以通过确定该对象吸收 电磁能时的波长来完成。存在一些确定离子的质荷比的常用方法,一些方法测量离子轨迹 与电磁波的相互作用,其他方法测量离子行进给定距离所花费的时间,或者二者的组合。可 以对照着数据库搜索来自这些片段质量测量的数据以获得对目标分子的识别。质谱分析也 广泛用于其他化学领域,例如石油化学或制药质量控制等。如本文所用,术语“质量分析器”指的是质谱仪中通过离子的质荷比分离离子混合 物的设备。如本文所用,术语“源”指的是质谱仪中离子化将要分析的样品的设备。如本文所用,术语“检测器”指的是质谱仪中检测离子的设备。如本文所用,术语“离子”指的是含有电荷的任何对象,其可以例如通过向该对象 添加电子或从该对象去除电子来形成。如本文所用,术语“质谱”指的是由质谱仪产生的数据的绘图,其通常包含χ轴上 的m/z值以及y轴上的强度值。如本文所用,术语“m/z”指的是通过由离子的质量数除以其电荷数所形成的无量 纲量。它长期以来被称为“质荷”比。如本文所用,术语“扫描”指的是与特定分离指数相关联的质谱。例如,利用色谱 分离技术的系统可以产生多个扫描,每个扫描处于不同的保留时间。如本文所用,术语“样品”以其最广泛的意义被使用,并且可以包括自然或合成起 源的标本或培养基。如本文所用,术语“生物样品”指的是植物、菌类或动物(包括人类)、流体、固体 (例如粪便)或组织,以及细胞培养基和培养及发酵媒介、液体和固体食物与饲料产品以及 配料如奶制品、谷物、蔬菜、肉及肉类副产物和废物。生物样品可以从所有不同种类的家畜 以及野生动物或野兽获得,其包括但不限于诸如有蹄类、熊类、鱼类、兔类、啮齿类动物等动 物。生物样品可以包含任何生物材料,并且可以包括来自对象的细胞和/或非细胞材料。 该样品可以独立于任何适当的生物组织或流体诸如前列腺组织、血液、血浆、尿液或脑髓液 (CSF)。如本文所用,术语“环境样品”指的是环境材料诸如表面物质、土壤、水和工业样 品,以及从食品和奶制品处理仪器、装置、设备、器具、一次性和非一次性物件获得的样品。 这些示例不应解读为限制适用于本文所述主题的样品类型。存在将液相或气相色谱仪的输出耦合到质谱仪的输入的系统,从而色谱仪将样品 分离成化学成分,这些化学成分被送入到质谱仪的离子源中。常规系统通过对照质谱数据 库执行所记录质谱的最佳适配分析来分析所得到的质谱。然而,这种方案存在一些缺陷。首先,化合物库匹配通常不考虑分离数据,诸如保留时间或保留指数。因此,该系 统通常必须通过比较在质谱中观测的化合物和库中的每种化合物来尝试识别所观测的化合物,不管库化学实体是否有可能具有与所分析化合物相同的分离特性。在一些情况下,两 种不同的化学成分具有相同的质量,因此在没有色谱分析数据的情况下是不可区分的。当 所用的分离技术不足以分离具有相同质量的两种化学成分时,这一问题更加复杂。在这种 情况下,即使该系统确实考虑分离数据,这两种成分也将共同表现为单一峰而不是两个峰, 并且同样是彼此不可区分的。其次,质谱数据库可能是合成的。如本文所用,术语“合成库”指的是在另一系统上 生成的库或者在电脑上(in silico)即基于假设或计算结果而非经验结果产生的库。因为 合成库并不反映实际用于执行分析的方法和仪器的独特特性,所以合成库可能引入误差。第三,具有高精确度的常规系统如高精确度质谱仪(通常被称为“精确质量”系 统)是昂贵的,且很多都具有比它们的标准对应物更低的占空比。因此,在常规系统中,精 确度与通量之间可能存在折中。此外,对于化学成分的高可信度识别来说仅有精确质量是 不够的。例如,氨基端亮氨酸和异亮氨酸具有相同的质量,因为它们具有相同的原子组合, 但是布置在各自分子上稍微不同的位置。仅有精确质量不能区分它们。精确质量对化学成 分的精确识别来说既不是先决条件也不是保证。第四,一些常规系统执行“靶向”分析,意味着它们被配置为寻找并识别特定的化 学成分。这类系统不能执行“非靶向”分析,即尝试检测和识别样品的所有化学成分,包括 迄今未知的实体。非靶向分析是具有众多潜在应用和益处的方案。例如,分析细胞过程的 代谢物或副产物的新陈代谢分析对于以非靶向方式(即广泛地)监控新陈代谢曲线相对年 龄、性别或其他因素(例如健康和疾病状态)的变化是有用的,并且可以延伸到检测饮食代 谢物以及存在于样品基质中的毒品、药物和其他宾主共栖生物(在有机体中发现的但并非 正常产生或预期存在于有机体中的化学物质)。以非靶向方式确定复杂混合物中化学成分 的组成的能力在多种其他背景下可能是有用的。一种这类背景是生物过程,其为产生药物、 酶、化学品、添加剂和其他有用产品的细胞生长。其他背景包括生物样品和环境样品的分 析。因此,需要提供以非靶向方式更精确地确定复杂混合物中化学成分的组成的系统 和方法。

发明内容
根据一个方面,一种非靶向地确定复杂混合物中化学成分的组成的方法包括利用 分离技术和质谱仪产生样品的分离数据和质谱分析数据,其中该分离数据包括峰信息且其 中该质谱分析数据包括一级和二级质谱分析数据。包括所产生的分离数据和质谱分析数据 的分析结果被收集并存储。通过比较该分析结果和指示化学实体的特性的信息库来确定样 品的化学成分,这些特性包括分离数据和质谱分析数据。该比较是基于分离数据和质谱分 析数据的。该信息库包括由该分离技术和质谱仪产生的数据,且还包括已识别和未识别的 化学实体的分离数据和质谱分析数据。以人类可访问的形式使得该样品的化学成分的指示 可用。如本文所用,术语“已识别的化学实体”指的是已经以高可信度识别的化学实体, 而术语“未识别的化学实体”指的是已经被检测为复杂混合物中的化学成分但尚未如此识 别的化学实体。
如本文所用,应用于未识别的化学实体的术语“认出(recognition) ”指的是基于 比较分析结果和信息库中记录的未识别的化学实体的特性确定未识别的化学实体是复杂 混合物中的成分。认出与识别(identification)不是同义的。认出的一个示例是确定存 在具有特定保留指数和质荷比的化学成分,之前已经检测到其存在且其条目已经被添加到 信息库中,该条目包括与该实体相关联的色谱分析数据和质谱分析数据。如本文所用,应用于化学实体的术语“识别”指的是高可信度地确定化学实体的身 份。识别的一个示例是确定具有7个碳原子、7个氢原子、1个氮原子和2个氧原子的分子 是邻氨基苯甲酸而不是水杨酰胺,二者具有相同的化学式C7H7NO2。如本文所用,术语“使得以人类可访问的形式可用”包括可视地、可听地或通过触 摸(例如利用Braille)向用户呈现信息,且包括在屏幕上显示信息、创建包括该信息的打 印材料以及以能够利用计算机应用程序如文字处理软件、电子制表软件、文本编辑器等访 问的形式存储该信息。根据另一方面,一种用于非靶向地确定复杂混合物中化学成分的组成的系统包括 用于分离样品的化学成分并产生分离数据的分离工具,以及用于对样品的被分离化学成分 的部分执行质谱分析并产生质谱分析数据的质谱仪,其中该分离数据包括峰信息,且该质 谱分析数据包括一级和二级质谱分析数据。该系统包括指示化学实体的特性的信息库,该 特性包括分离数据和质谱分析数据。该信息库包括由分离工具和质谱仪产生的数据且包括 已识别和未识别的化学实体的分离数据和质谱分析数据。该系统还包括用于接收和收集分 离数据和质谱分析数据并将其存储为分析结果的分析模块。通过比较分析结果和信息库来 确定样品的化学成分,其中该质谱分析数据包括一级和二级质谱分析数据,且其中该比较 是基于分离数据和质谱分析数据的。该系统包括用户界面,该用户界面耦合到分析模块,用 于以人类可访问的形式使得样品的化学成分的指示可用。本文描述的用于非靶向地确定复杂混合物中化学成分的组成的主题可以在硬件、 软件、固件或其任何组合中实现。因此,本文所用的术语“功能”或“模块”指的是用于实现 所述特征的硬件、软件和/或固件。在一种示例性实现方式中,本文描述的主题可以利用包 括包含在计算机可读介质中的计算机可执行指令的计算机程序产品来实现。适于实现本文描述的主题的示例性计算机可读介质包括磁盘存储设备、芯片存储 设备、可编程逻辑设备以及专用集成电路。另外,适于实现本文描述的主题的计算机程序产 品可以位于单一设备或计算平台上或者可以分布在多个设备或计算平台上。


现在将通过参考附图解释本文描述的主题的优选实施例,其中相同的参考数字表 示相同的部件,其中图IA是图示说明根据本文描述的主题的实施例用于确定复杂混合物中化学成分 的组成的示例性系统的框图;图IB图示说明根据本文描述的主题的实施例由示例性系统收集的分析结果;图2A至2D图示说明根据本文描述的主题的实施例用于存储色谱分析和质谱分析 结果信息的示例性数据结构;图2E和2F图示说明根据本文描述的主题的实施例用于存储关于化学实体的信息的示例性数据结构;图3是图示说明根据本文描述的主题的实施例用于确定复杂混合物中化学成分 的组成的示例性过程的流程图;以及图4A至4G是根据本文描述的主题的实施例向系统的用户显示的信息的屏幕快 照。
具体实施例方式根据本文描述的主题,提供用于确定复杂混合物中化学成分的组成的系统、方法 和计算机可读介质。图IA是图示说明根据本文描述的主题的实施例用于确定复杂混合物中化学成分 的组成的示例性系统的框图。系统100包括用于执行分离技术来将待分析样品分离成化学 成分的部件。在一个实施例中,系统100包括用于执行分离的色谱仪102部分和用于对色 谱仪102的流出物(即洗脱的化学成分)执行质谱分析的质谱仪(MS) 104。在一个实施例 中,色谱仪102是超高压液相色谱仪(UHPLC)。作为替代,可以使用其他化学分离方法,这些 方法对于分析小分子(即具有小于2,000道尔顿的分子质量)是可修正的,该分析得到作 为给定化学种类的特性的参数,并且这些方法可以与任何大气压或软解吸附离子化技术兼 容。其他分离方法包括离子迁移率谱分析(IMS)、毛细区电泳(CZE)、高性能液相色谱分析 (HPLC)以及单液相色谱分析。在图1所示的实施例中,系统100包括流动相容器106和泵108,该泵用于迫使流 动相和样品经由样品输入110注入流动相中并在高压下通过柱112。样品的各种化学成分 将以不同速度通过柱112洗脱并且因此在不同时刻流出柱112。样品的化学成分行进通过 并流出柱112所花费的时间被称为化学成分的保留时间。柱112的输出被送入离子发生器114中。针对利用液相色谱仪的系统,离子发生 器114也可以将从柱112流出的流出物转换成离子化气体。例如,离子发生器114可以是 电喷射离子化设备(ESI)、大气压化学离子发生器(APCI)或其他大气压或软解吸附离子化 技术。离子化气体经过聚焦环116并且进入MS 104的质量分析部分。在图1所示的实施 例中,MS 104的质量分析部分是耦合到检测器120的四极离子阱118。可替代的实施例可 以采用飞行时间质谱仪、不带离子阱的四极质谱仪以及带有其他类型离子阱的质谱仪。检测器120数据被收集并存储在用于存储分离数据和质谱分析数据的结果数据 库122中。作为替代,分离数据和质谱分析数据可以存储在表或其他数据结构中、在存储器 或其他存储设备中或者用本领域已知的其他数据存储装置存储。在图1所示的实施例中, 结果数据库122可以用于存储色谱分析数据和质谱分析数据。例如,结果数据库112可以 包括液相色谱分析和质谱分析(LC/MS)数据。在可替代的实施例中,其他类型的分离数据 可以存储在结果数据库112中。系统100还包括用于基于分析结果和列出各种化学实体的特性的信息库即化学 品库126的比较确定样品的组成的分析模块124。系统100可以包括用户界面UI 128,如 图形用户界面(GUI)。用户可以使用UI 128来例如指导系统执行分离和质谱分析步骤,观 察结果,指导系统执行额外的分离或质谱分析步骤,以及命令系统执行自动比较和识别例 程以基于与化学品库126中的实体的最佳匹配确定样品的组成。该用户还可以使用UI 128来访问化学品库126,手动比较库实体和分析结果,或者回顾/确认自动识别例程的结论。图IB图示说明根据本文描述的主题的实施例可以由示例性系统收集的分析结果 的图。图IB中所示的三维图显示X轴上的保留时间或保留指数、Y轴上的m/z以及Z轴上 的强度。在一个实施例中,随着化学成分流出柱112,质谱仪104产生在不同的保留时间的 一系列质谱或扫描。沿着图IB中所示的示例性扫描130的X轴的宽度为了清楚而被放大。 每个扫描130可以在质量轴示出图形峰(通常被称为“离子”),即使有可能单个图形峰表示 具有相同m/z比并在相同时间(即进行扫描的时间)洗脱的多个化学实体。在图IB所示 的示例中,扫描130包含若干峰,其包括质量峰132,其表示m/z比为283. 02且相对丰度为 100%的离子。在左边紧邻峰132的是m/z比为280. 02且相对丰度为大约75%的另一峰。 还示出了具有更小相对丰度(< 15% )的其他离子,其m/z比为200.07、362.92、385.01寸。图IC图示说明示例性扫描数据。一扫描可以示出与如图IC的面板A中所示的检 测出的具有特定m/z比的离子的相对数目对应的峰和谷。图IC的面板A中所示的质量峰 也可以用图IC的面板B中所示的“棒线(stick)”形式来表示。棒线表示被称为质心质量 峰数据,降低了数据文档的大小。针对使用诸如以电泳方式物理分离化学成分的技术的其 他分离技术的实施例,例如,每个扫描可以与距离或归一化距离而不是保留时间或归一化 保留时间(例如保留指数)相关联。当沿着表示分离(例如根据色谱分离技术的时间或根据物理分离技术的位置)的 轴线布置多个扫描时,可以观测到每个离子的强度值上升和下降,从而产生沿着X轴的色 谱峰,每个色谱峰与特定m/z比相关联。为了简化,将使用术语“色谱峰”来统指横跨表示 分离(例如时间、距离等)的轴线的表示存在或不存在一个或多个离子的峰。在图IB中, 二维图134示出针对注入的色谱分析数据,其中这些峰表示随时间变化的具有特定m/z的 离子的存在。在图IB所示的示例中,色谱图134示出m/z比在范围200. 00 200. 25内的 离子,且峰136表示存在m/z比为200. 06且从大约3. 0分钟至大约3. 1分钟洗脱并且峰最 大值在3. 02分钟处的离子。分离数据和质谱分析数据在此之后统称为“分析结果”。分析结果可以包括来自样 品的一个或多个分析运行的数据、来自样品的不同类型分析的数据以及来自不同样品的分 析的数据。存储在结果数据库122中的分析结果包括分离信息和质谱分析信息。分离信息 可以包括峰信息。针对使用色谱分析技术进行分离的系统,分离信息可以包括峰的保留信 息,诸如保留时间和/或保留指数。峰信息可以包括描述峰的信息,包括峰的强度;峰底部 的宽度;峰底部的起点和终点的保留时间;峰底部的起点和终点的强度;峰半高处的峰宽 度;峰的面积;峰的对称性;峰的噪声;与峰相关联的质量;与峰相关联的质荷比;峰与描 述离子之间的父子关系的离子树中的实体的关联;以及与峰相关联的扫描的列表。分析结果可以包括由串联MS产生的数据。如本文所用,术语“串联MS(tandem MS),,指的是这样一种操作,即其中执行第一 MS步骤,称其为“一级MS”,随后执行一个或多 个后续MS步骤,统称为“二级MS”。在一级MS中,在创建一级质谱的过程中检测并记录表 示一个(以及可能多于一个)化学成分的离子。由离子表示的物质经历二级MS,其中感兴 趣物质承受片段化以便促使该物质分成子组分,这些子组分被检测和记录为二级质谱。在 真实的串联MS中,一级MS中的感兴趣离子与在二级MS过程中创建的最终峰之间存在明确的关系。一级MS中的感兴趣离子对应于“父”离子或前体离子,而在二级MS过程中创建的 离子对应于父离子的子组分并且在此被称为“子”离子或“产物”离子。因此,串联MS允许产生表示复杂混合物中化学成分的父子关系的数据结构。这一 关系可以由图示说明父离子与子离子相互之间的关系的树状结构表示,其中子离子表示父 离子的子组分。可以对子离子重复进行串联MS以例如确定“孙”离子。因此,串联MS并不 限于两级片段化,而是用于统指多级MS,也被称为“MSn”。术语“MS/MS”与“MS2”是同义的。 为了简化,在此之后术语“子离子”指的是由二级或更高阶(即非一级)MS创建的任何离子。例如,一级质谱可能包含五个不同的离子,其可以表示为五个图形峰;一级MS中 的每个离子可以是父离子。每个父离子可以经历二级MS以产生示出该特定父离子的子离 子的质谱。在一个实施例中,可以为一级MS设定强度阈值,从而检测到具有高于该强度阈 值的强度的离子会自动触发执行二级MS。在这一示例中,物质可以通过色谱分析步骤来承 受分离,从而分成化学成分X、Y和Ζ,每种化学成分在不同时间洗脱。化学成分X进入质谱 仪的源中,并且被离子化(并且可能被片段化)成若干离子种类,例如Χ1、Χ2和Χ3,其被记 录为一级质谱中的若干离子。该一级质谱中的离子之一例如Χ2可以高于强度阈值,从而触 发二级MS的执行。在一个实施例中,在成分X承受一级MS的时间过程中,成分X可以继续从色谱仪 中洗脱,但是被质谱仪忽略。如果在触发二级MS时成分X仍然被洗脱,则MS源可以接收另 一样品,并且可以对成分X的第二样品执行二级MS。这一第二样品可以被离子化(并且可 能被片段化)成如前所述的X1、X2和X3,但是其中X2被离子阱捕获而Xl和X3被排斥出离 子阱。然后X2可以被片段化成例如子组分X2A和X2B。如果成分X仍然从色谱仪中洗脱, 则可以执行额外的二级MS,例如确定X3的子组分,或者甚至可以执行更高阶MS。例如,可 以对X2A执行第三MS以确定其组成部分X2Ai、X2Aii等等。这一示例图示说明了以下观点,即通过利用串联MS,父离子X2明确地与其子离子 X2A和X2B相关,且该关系包括关于父离子和子离子的相对质荷比的信息。明确地理解子离子和父离子的质荷比及相对强度的关系能够实现在此被称为“离 子计数”的强大技术,其中在分析运行中生成的所有离子被检查,并且尝试将它们分配给化 学实体。不能分配给化学实体的任何离子可能是混合物中的新型化学成分;在这种情况下, 根据需要可以对这些离子制作新的库条目。因此,可以检测迄今未知的化学成分,并且可以 存储描述它们的属性的信息,以便随后可以检测即认出该未知化学成分的存在,即使该成 分的身份是未知的。以这种方式,可以检测新的或未知的化学成分,随后认出并且最终识别 该化学成分。父/子关系也可以被扩展以描述被分离组分(例如从色谱分析阶段洗脱的组分) 和在一级MS中检测的离子之间的关系,以及甚至描述将要分析的样品与被分离组分之间 的关系。另外,结果数据库122中的分析结果可以包括描述分析结果或其他元数据的一般 性质的信息。示例包括在分析期间进行的一级扫描的数目;在分析期间进行的二级扫描 的数目;实际进行的二级扫描占本应进行的二级扫描的百分比;在已识别的化学实体的峰 内进行的二级扫描的数目;在已识别的化学实体的峰内进行的二级扫描的百分比;在分析 期间记录的峰的数目;已经进行二级扫描的峰的数目;已经进行二级扫描的峰的百分比;使得多于一个二级扫描与其相关联的峰的数目;使得多于一个二级扫描与其相关联的峰的 百分比;未执行二级扫描的最大峰的面积;以及执行了二级扫描的最小峰的面积。分析模块124可以基于样品的一个或多个特性和存储在化学品库126中关于化学 实体的信息的比较来确定样品的化学成分。在一个实施例中,该比较是基于保留信息和峰 信息的。存储在化学品库126中的信息可以包括保留时间、保留指数、在一级扫描中看到的 质量,包括加合物、同位素关系、内源片段化以及它们的相对强度。库条目可以用片段、子片 段和子子片段数据组织成树结构,该数据例如为对于任何离子来说可追踪的、由MSn生成的 父_子离子数据,且其中离子可以被识别为分子的化学成分,包括加合物或同位素。库条目 还可以包括结构信息、物理属性、物理原料的列表、至公共化学数据库的链接、至各种库条 目的链接以及至对原料化学品运行的实际仪器数据的链接。术语“经验证的库条目”指的 是包含关于已经利用实际仪器分析过的具有无异议身份的化学实体的信息的库条目。在一个实施例中,化学品库126可以用于存储关于样品内的未知或未识别的化学 成分的信息。关于未知离子的信息如它的保留时间、质荷比和其他信息可以被存储以便在 另一样品的分析期间进行后续比较。以这种方式,迄今未知的离子可以被检测并且随后通 过一系列分析运行被识别。与对照有限数目的已知化学成分来测试样品的常规化学测定不 同,本文描述的主题可以用于检测并最终识别复杂混合物的任何及所有化学成分,甚至以 前未知的化学实体。分析模块124被配置为基于来自三个信息源的一组或多组信息的比较来确定样 品的组成,这三个信息源是1)分离数据,诸如保留窗口(保留时间、保留指数);2) —级MS 扫描中的分子离子的质量;以及3) 二级MS扫描(即MS/MS或MSn)的片段化图案。在一个实施例中,关于化学实体的分析结果和信息可以存储在关系数据库结构 中。图2A至2D图示说明用于将结果信息存储在结果数据库122中的示例性数据结构,而 图2E和2F图示说明根据本文描述的主题的实施例用于将关于化学实体的信息存储在化学 品库126中的示例性数据结构。图2A图示说明用于存储特定扫描的结果的示例性表结构。表“MBZR_SCANS”中的 每个条目包括诸如保留时间、扫描数目、质量和强度数据阵列等信息。图2B图示说明用于用至扫描数据的链接为质谱分析树结构建模的示例性表结 构。表“CHR0_I0N_TREES”中的每个条目包括诸如父节点的身份、连接离子的质量、保留信 息以及对扫描数据的引用等信息。图2C图示说明用于存储峰信息的示例性表结构。峰表“MBZR_PEAK”可以包含由质 量、保留时间或保留指数、峰下的面积以及其他次要的峰特性如噪声表征的色谱峰。例如, 单一分析可以产生具有一定数目P的可检测峰的一组质谱,在这种情况下P个条目可以被 添加到峰表中,一个被检测峰一个条目。图2D图示说明用于组织多组色谱相关的峰的示例性表结构。表“MBZR_ COMPONENT”中的每个条目可以使化学成分与在一个或多个扫描中特定保留时间处检测到 的峰关联。图2E和2F图示说明根据本文描述的主题的实施例针对化学品库126中的条目的 示例性表结构。在一个实施例中,分子信息如名称、结构、化合物、熔点等可以与化学实体信 息如RT/RI、运行的类型(例如LC+/-、MS+/-、MSn)、质量(例如M+H、2M+H、离子片段、加合物)以及片段信息的指针分离地存储。如果被识别,化学实体可以指回到基准分子。图3是一流程图,其图示说明根据本文描述的主题的实施例用于确定复杂混合物 中化学成分的组成的示例性过程。在方框300处,利用色谱仪和质谱仪生成样品的色谱分析数据和质谱分析数据。 所生成的数据包括峰信息和保留信息。在图1所示的实施例中,注入到样品输入端口 110 中的样品将通过柱112洗脱。如果色谱仪102是液相色谱仪的形式,如UHPLC,则离子发生 器114可以是电喷射离子化(ESI)设备,其同时离子化流出物并将流出物从液相转换到气 相。因此经离子化的微粒进入质谱仪104。在一个实施例中,离子化微粒经过聚焦环116并 且进入质谱仪104的质量分析器部分,诸如穿过四极离子阱118并进入检测器120。在方框302处,收集并存储所生成的色谱分析数据和质谱分析数据。例如,峰信息 (如强度)以及保留信息(如保留时间和保留指数)可以被记录到结果数据库122中。可以对样品执行多个色谱分析和/或质谱分析运行,且收集并存储数据以便分 析。例如,样品可以经受酸性和碱性液相色谱分析,即利用有利于分别创建阳离子或阴离子 的流动相的液相色谱分析。样品可以经受阳离子和阴离子质谱分析。可以对同一样品执行 多个运行。所有上述数据可以存储在结果数据库122中。在一个实施例中,系统100被配置为执行串联MS。如本文所用,术语“串联MS”指 的是在其中质谱分析数据已知的父分子、离子或化学实体被进一步片段化并且收集这些片 段的质谱分析信息的任何技术。这包括任何技术,凭借该技术来自给定分子的所有片段通 过基于设备的内部工作方式发生的一些过程而被归属于该分子。如本文所用,术语“串联 MS”和“多级MS”是同义的。例如,系统100可以借助于离子阱执行真实的串联MS,或者它 可以通过利用三个一组的四极MS或通过允许隔离并进一步片段化个体物质的任何技术来 执行真实的串联MS的等价物。很容易意识到,可以对从柱112中洗脱的每一分离化学成分执行质谱分析(或串 联MS),而且根据由用户定义的且由系统100执行的分析目标,可以在样品的化学成分的子 集从柱112中出现时仅对该子集执行质谱分析。在方框304处,通过比较分析结果和指示化学实体的特性的信息库如化学品库 126来确定样品的化学成分。在一个实施例中,分析模块124可以基于上面列出的特性的匹 配做出关于由峰表示的化学实体的身份的最佳猜想。以这种方式,峰可以与化学品库126 中列出的实体相关联。在一个实施例中,与该峰相关联的实体可以是描述离子之间的父子 关系的离子树上的节点。在一个实施例中,该峰可以与扫描列表相关联,该扫描列表的数据 显示该峰。在方框306处,以人类可访问的形式使得样品的化学成分的指示可用。在一个实 施例中,用户界面128可以提供化学成分的可见指示。例如,UI 128可以显示分析结果,该 分析结果示出已经被检测或识别的化学成分。作为替代,用户界面128可以生成图形、文本 或Braille打印输出;可以生成音频如计算机生成的语音;或者可以生成电子邮件、文本消 息或计算机文件如文本文档、电子数据表、数据库等。上述系统和方法相对于常规系统和方法具有若干优点。首先,与试图识别仅利用 峰数据的、由峰表示的化学成分的常规色谱分析+质谱分析系统不同,分析模块124基于峰 信息和保留信息执行比较。通过考虑峰的保留时间/保留指数,分析模块124可以显著减小其搜寻空间,消除已知具有与针对正被讨论的峰所测量的保留信息不同的保留信息的分 子。此外,因为分子可以具有针对LC+运行的一个保留时间以及针对LC-运行的不同的保 留时间,如果样品针对不同类型的LC运行在预期位置示出峰,则样品含有正被讨论的分子 的可信度更高。类似地,因为分析模块124可以不仅考虑不同类型的多个分析运行,而且也执行 串联或多级质谱分析,由该分析运行产生的大量数据可以不仅匹配父分子,而且匹配子分 子或离子或其他片段等。这也引发样品内的化学成分已被正确识别的更高可信度。其次,信息库126包含验证数据,即由分离工具和质谱仪利用参考标准生成的数 据。与作为在电脑上例如基于假设或建模行为生成的数据的合成数据不同,验证数据基于 利用相同分析方法在用于分析样品的相同设备上记录的结果。因此,对于特定分子,该分子 的库信息将更接近地匹配含有该分子的样品的分析结果。这对于已经精细调谐它们的系统 的实验室和工作室来说特别重要,从而例如将一个定制流动相组成用于正LC而将另一定 制流动相组成用于负LC。再次,该信息库可以包括针对未识别的化学实体以及已识别的化学实体的色谱分 析数据和质谱分析数据。虽然在图1所示的实施例中,结果数据122被示出为与化学品库 126分离,但可替代的实施例可以利用单个数据库、表等来将结果数据和库数据存储在一 起。即使如图1所示地结果数据在概念上与库数据分离,分析模块124也可以被配置为检 测持续显示在结果数据库122中的未知且至今未识别的峰并且在化学品库126中为该神秘 分子创建条目。以这种方式,系统100能够报告存在或不存在这一神秘分子,即使该分子的 身份是未知的。系统100可以报告样品集上的离子对准,并且可以识别离子并将离子分类。 例如,分析模块124可以匹配离子与对所有离子进行的MSn层级的库,并且进行标记以便于 用户的随后回顾或者由系统100随后处理未考虑的任何离子。执行非靶向分析例如未知代谢物的初始检测和随后认出的能力具有很多益处。例 如,在具有或不具有癌症的细胞的新陈代谢分析中,如果分析结果示出癌细胞几乎总是包 含某一神秘分子而健康细胞不包含,则这给出研究检测或治疗该癌症的重要方向。在一个实施例中,确定样品的组成可以包括显示特定实体的库信息以及分析结 果,从而用户可以执行二者的可视比较,或者可视地确认由该系统执行的比较的正确性。UI 128可以允许用户执行样品的第一分析,并且观察该第一分析的结果。图4A-4G是根据本文描述的主题的实施例经由UI 128向用户显示的信息的屏幕 快照。在图4A-4G所示的实施例中,分离技术被假定为色谱分析的某种形式,且分离信息包 括保留时间和/或保留指数。预期这仅是说明性的示例性实施例,而不是对本文描述的主 题的限制。图4A是一屏幕快照,其示出经由UI 128向用户显示的关于化学品库126中的库 条目的信息。图4A示出标题为“Chemical Inventory (化学品库存)”的窗口 400,其包括 在左上部的搜索窗格402、在左下部的库浏览窗格404以及在窗口 400右侧的库条目窗格 406。用户可以使用搜索窗格402来搜索各种信息库。用户可以使用库浏览窗格402来浏 览各种数据库或信息库。在图4A所示的实施例中,库窗格406示出布置组成分层树结构的 化学品库126,其在该示例中被命名为“LIMS”。虽然化学品库126的结构在库窗格406中 被显示为包含子文件夹(子目录)和实体(文件)的分层文件夹(目录),但实际库结构并不局限于文件/目录实现方式,而是可以实现为存储在易失性或非易失性存储器、磁盘或 内存存储设备、小型磁盘或用于数据存储和/或组织的其他装置中的以任何组合形式的文 件、目录、数据库、数据。在图4A所示的实施例中,化学品库(LIMS) 126包括关于各化学品 (Chemicals)408的信息库、至公共数据库或从其精选的数据(PublicDB)410的链接以及已 验证的化学实体和关于已认出但尚未识别的化学实体的信息的库(Library)412。 在一个实施例中,化学品408可以包括关于不随着所用的分离或质谱分析技术变 化的每个个体化学实体的信息。这种信息可以包括分子结构、分子式、类别以及标准名称。 相反,库412可以包括关于随着所用的分离或质谱分析技术变化的每个个体化学实体的信 息,诸如其保留时间。例如,根据是使用气相色谱仪还是液相色谱仪、在分离步骤中使用的 流动相是酸性还是碱性等,相同的化学实体可以具有完全不同的保留时间。在这些实施例 中,设备专用数据可以存储在库412中,而化学实体的固有特性可以存储在化学品408中。 在一个实施例中,化学品408和库412中的条目可以彼此交叉引用,并且二者均可交叉引用 公共数据库410或LIMS 126的其他子部件中的条目。在图4A所示的实施例中,库412被组织成多个子库414、416和418,每个子库表示 一分析类型或设备组合。例如,子库414可以包含已经利用气相色谱分析分离的化学实体 的经验证的结果,而子库416可以包含已经利用超高压液相色谱分析分离的化学实体的经 验证的结果。子库418可以包含已经收集但是尚未验证的色谱分析信息和质谱分析信息, 等等。每个子库可以包含关于已知和未知的化学实体420的信息。在图4A中,已经选择了 一种已知的化学实体(+)_儿茶素,此后仅简单地称为“儿茶素”。在图4A所示的实施例中,库窗格406显示了所选择化学实体儿茶素的信息。可能 存在与化学实体420相关联的若干类信息,其可以可视地分组成大类,诸如关于化学实体 422的身份的信息、化学实体424的色谱分析信息以及该化学实体的质谱分析信息,均呈现 为表形式426和图形式428。在化学身份信息422中,化学实体的身份可以包括其化合物名称、库ID以及化合 物ID。在一个实施例中,库ID和化合物ID被用于明确地识别化学品库126中的化学实 体,而化合物名称根据易读性可以是非正式或通用名称。Set Compound Name (设定化合物 名称)字段以及Chemical Name (化学名称)字段被用于从潜在多个非正式名称中选择。 (Chemical ReportName)化学报告名称字段和Library Report Name (库报告名称)字段分 别允许用户选择在所生成的化学报告和库报告中提到实体时将使用哪个名称。化学实体的色谱分析信息424可以包括其保留时间(RT)和保留指数(RI),并且还 可以包括在识别过程中所使用的RT窗口和RI窗口。例如,儿茶素具有为2. 42的保留时间 (RT)以及为2的保留时间窗口,并且具有为2493的保留指数(RI)以及为25的保留指数 窗口。在图4A所示的实施例中,在Group Name (组名称)字段和Origin(原点)字段中指 示库条目的信息源。组名称识别生成数据的特定分析运行。一种分析运行在此被称为“注 入”,指的是将待分析物质的样品注入到色谱仪的输入端口内的动作。原点指代用于创建条 目的软件的类型,并且指示例如来自实际分析运行的数据。Confidence (可信度)字段指示 该化学实体确实是已经识别为的实体的相对可信度。例如,可信度值100表示由系统记录 并存储在库条目中的结果指示化学实体儿茶素是高度可信的。可信度值可以被设定为0, 在这种情况下化学品库126中的条目在匹配过程中将不被考虑,匹配过程即对照化学品库126中的潜在待选项匹配被分析物质的过程如上所述,本文描述的主题包括执行非靶向分析的能力。这意味着可以检测并随 后认出一化学成分,即使它可能未被识别。在这种情况下,库ID字段和化合物ID字段将包 含一值,但是化合物名称字段可能是空的。低于100的可信度值可能表示神秘化学实体已 经被明确地认出但尚未识别。质谱分析信息426可以被可视地组织成若干标签。在图4A所示的实施例中, “Mass (质量)”标签显示包含在一次或多次注入过程中收集的质谱分析信息的质量信息 表。“Public DB(公共数据库)”标签显示从公共数据库收集或可获得的信息,其可以包含 大量不同的信息。例如,公共数据库标签可以包括从公共MS数据库收集或可获得的质谱分 析信息,或者来自其他公共数据库的其他类型信息。质量信息表可以包括在一级扫描中看 到的质量列表,并且可以不仅包括一级离子的质量,而且还包括变体的质量,该变体诸如为 加合物(m+H、m+Na、2m+H)、含有同位素的分子(例如C_13、Cl-35、C1-37),并且是预期的或 一般发生在内源片段中。在图4A所示的实施例中,质量信息表包括儿茶素的多种变体的信 息,每行一种变体。图4A中显示的信息是一级MS数据,但是一行左端的加号(“ + ”)表示 二级MS数据也是可用的。下面在图4B中描述观察二级MS数据。变体使用以下命名惯例。小写字母“m”用符号表示化学实体,而“m+H”用符号表 示通过将质子(实际上为剥落了外部电子的氢原子(原子符号“H”))附到该化学实体所 产生的离子。大写字母“M”用符号表示该化学实体的片段或包括该化学实体的化合物。例 如,“M-151”指的是已经从其分子结构失去了 151个原子单位量的原子的化学实体的内源 片段,而“M+16”指的是包括已经向其分子添加了 16个原子单位量的原子的化学实体的化 合物。方括号中的符号指示分子内存在同位素。例如,“m+H[C13-l]”指的是其中一个碳原 子(原子数为12)已经被碳-13同位素取代的离子,而“m+H[C13-2]”指的是其中两个碳原 子已经被碳-13同位素取代的离子。每个离子的信息(显示为每一行中的多栏)可以包括示出变体的质量的质量栏 以及质量窗口栏。质量窗口是库实体中可允许的误差,其可以被视为与被检测化学成分的 潜在匹配。质量比栏指示具有一种或多种同位素的变体占整体群体的相对比例。“Qimnt_ mass”(量化质量)栏指示哪些变体将具有包括在化学实体(例如儿茶素)的信息摘要中 的质量。权重栏在匹配过程中被使用,以允许用户微调匹配过程的灵敏度。名称栏是用于 使得质量信息更易于人类阅读的描述字段。在库窗格406底部显示的是以图形式428示出的质量信息,其中离子的相对强度 在Y轴上,而从显示在426中的表式数据获得的质量在X轴上。图4B是一屏幕快照,其示出关于经由UI 128向用户显示的化学品库126中的库 条目的更多信息。在图4B中,具有质量为291. 1的离子的一级MS数据已经被扩展以显示 该离子的二级MS数据。在图4B所示的实施例中,行左端的加号已经变成减号(“-”)以指 示该一级MS数据已经被扩展。虽然图4B中仅示出了一层二级MS数据,但更高阶的MS数 据可能也是可用的并且可以被如此显示。质量信息图428现在示出二级MS数据,其中具有 高质量比的两种变体(一种变体质量为123. 1而另一种变体质量为139. 1)可以看出是图 中的两个最高峰。图4A和4B显示为库412中的条目存储的信息。图4C显示为化学品408中的条目存储的信息图4C是一屏幕快照,其示出与化学品库126中的分子相关联的结构信息和物理属 性。在一个实施例中,化学品408中的条目可以包括一般信息430如它的化学ID、化学名 称、国际理论和应用化学联合会(IUPAC)名称、类别、物理信息和物理属性以及化学细节如 分子式。化学品408可以包括用于交叉引用化学实体和库412及公共数据库410中的信息 的链接432。化学品408中的条目可以包括化学实体的同义名434,并且可以包含结构信息 436如分子的分子图。也可以向用户呈现其他细节438,诸如可以从其获得物质的物理原料 的列表、注释、可以用作搜索术语的关键词以及可以被包括作为附件的任何其他类型的信 肩、ο图4A至4C图示说明可以被用户观察和浏览的、存储在化学品库126中的各类信 息。图4D至4G示出用户可以如何在手动匹配步骤中或者为了回顾自动匹配算法的结果而 使用该系统来比较针对被分析样品所记录的数据与化学品库126的实体。图4D是一屏幕快照,其示出从一次或多次注入收集到的结果数据。在一个实施例 中,结果窗格440提供执行过的注入的滚动列表,其示出样品名称、采集数据的日期(例如 执行注入的日期)、包含与注入相关联的信息的文件的名称、客户ID以及与特定注入相关 联的其他信息。在图4D所示的实施例中,选择在列表中可见的顶行,且与该注入相关联的 数据被以表形式显示在细节窗格442中并以图形式显示在占据图4D下部3/4区域的图窗 格444中。随着用户滚动结果窗格440中的注入列表,显示在细节窗格442和图窗格444 中的数据将相应地改变,以显示与结果窗格440内当前选择的注入相关联的数据。在一个实施例中,细节窗格442可以包括一系列标签,以便组织与注入相关联的 数据并且以用户可理解的形式或以增强用户理解、吸收和使用该数据的能力的形式向用 户显示该相关联的数据。在图4D所示的实施例中,细节窗格442当前显示的是“Hits(击 中)”标签,其向用户呈现匹配算法已经确定与针对该注入所收集的色谱分析和质谱分析数 据(在此被称为“注入数据”)最佳匹配的化学实体的列表。换句话说,击中标签显示系统 关于被分析样品内的组分的身份的最佳猜想。在一个实施例中,可能组分的这一列表可以 以表形式呈现,列出化学实体的名称及其色谱分析和质谱分析数据。在一个实施例中,响应于选择结果窗格440中列出的注入之一,系统100可以在图 窗格444中显示注入数据。在一个实施例中,图窗格444可以显示所有或仅一部分注入数 据。例如,图窗格444可以仅显示注入数据的子集,匹配算法基于该注入数据的子集确定细 节窗格442内的所选择组分的身份。在图4D所示的实施例中,图窗格444包含三个分离的 图。顶部图446显示针对在结果窗格440中选择的注入的色谱分析数据的图,其中保 留时间或保留指数为X轴,强度为Y轴。顶部图446以组分的形式显示色谱分析数据。组 分是表示具有类似色谱属性的色谱峰的集合的棒线。例如,一种组分可以包含共同洗脱的 一种或多种不相关的物质。顶部图446并不显示在特定保留时间处洗脱的组分中包含的质 量的任何信息。在一个实施例中,用户可以选择以表形式448显示信息,如图4D所示。以 表形式呈现相同信息将允许用户更详细地查看峰信息,并且可以允许用户检测峰,否则这 些峰在图形式中太小而不能区分。虽然顶部图446将峰呈现为固定宽度的理想化柱,但是 原始色谱分析数据可以是具有形状的峰,包括高度、底部宽度和面积。这些细节可以包括在表形式448的数据中。顶部图446的标题指示已经选择了在RT = 0.6777处的组分。这也以表形式448来反映,其中在RT = 0. 68处的信息已经被选择。在图4D所示的实施例中,中间图450示出针对特定组分或保留时间窗口的一级MS 数据。如中间图450顶部显示的标题所示,中间图450示出第五组分的质谱分析数据。中 间图450显示该第五组成的一级MS数据,其中质量在X轴上且相对强度在Y轴上。随着用 户逐个组分地滚动顶部图446中所示的色谱分析数据,中间图450的内容将改变以显示顶 部图446中当前选择的组分的一级MS数据。这进而促使442显示“击中”以及452示出匹 配的库信息。在图4D所示的实施例中,底部图452示出针对化学品库126中的条目的一级MS 数据。与中间图450中显示的一级MS数据类似,底部图452显示具有质量在X轴上和相对 强度在Y轴上的图。在这一示例中,已经自动地或由用户选择了细节窗格442中列出的“击 中”之一,在该情况下是化学实体肉毒碱。在底部图452中,示出了针对化学实体肉毒碱的 MS数据,这可以从底部图452顶部显示的标题看出。肉毒碱可能已经被匹配算法选择为在 RT = 0. 6777处洗脱的物质的最可能待选项,或者用户可能已经手动选择了肉毒碱。用户因 此可以比较在中间图450中的注入过程中收集的数据与来自底部图452中的库条目的一级 数据,或者检验匹配结果的精确度,或者执行来自注入的一级MS数据和与化学品库126中 的实体相关的一级MS数据的手动匹配。虽然图4D中所示的实施例仅针对顶部图446以表形式示出了数据,但在一个实施 例中,可以针对任何图以表形式显示数据,包括中间图450和底部图452。此外,图窗格444 可以包含任何数目的图,而并不限于如图4D所示仅有三个图。在一个实施例中,中间图450中显示的一级MS数据中的峰数据可以被以色彩编码 以向用户指示二级MS数据是可用的。用户可以选择峰,例如通过点击中间图450中所示的 一级MS数据中的峰,从以表形式显示的数据中选择一个条目等。作为响应,系统100可以 显示与一级MS数据中的所选择峰相关联的二级MS数据。在图4D所示的实施例中,组分#5 的一级MS数据包括表示具有不同质量的物质的若干峰,由垂直条表示的组分具有的保留 时间为0.6777。在这一示例中,指示存在具有质量为162. 2的离子的峰与其二级MS数据 相关联。用户因此可以在这一峰上“向下钻取(drill down)”以示出该二级MS数据。在图 4E中示出一示例。图4E是一屏幕快照,其示出与注入相关联的二级MS数据。在一个实施例中,一级 MS峰的选择可以触发系统100显示已经针对该峰收集的二级MS数据。例如,用户可以使用 UI 128识别一峰,针对该峰用户期望看到来自化学品库126的信息。在图4E所示的实施例 中,中间图450显示与离子相关联的二级MS数据,该离子在一级MS中在保留时间0. 7046 处具有为162.2的质量,这可以在中间图450顶部的标题中看出。底部图452显示与从化 学品库126中选择的实体的对应离子(即具有质量为162. 2)相关联的二级MS数据。在一个实施例中,用户以此方式选择显示在顶部图444中的色谱峰,这导致该色 谱峰的一级MS数据被显示在中间图450中。用户然后可以选择中间图450中的一级MS峰, 这导致该一级MS峰的二级MS数据被显示在中间图450中。同时,系统100可以在底部图 452中显示化学品库126中的对应实体。当中间图450显示针对注入的一级MS数据时,底 部图452可以显示针对化学品库126中的条目的一级MS数据。当中间图450显示针对注入的二级MS数据时,底部图452可以显示针对化学品库126中的条目的二级MS数据。随 着用户滚动中间图450中的数据,底部图452中显示的数据改变。换句话说,在一个实施例 中,中间图450和底部图452是同步的,其中中间图450中的变化导致底部图452中的对应 变化。以这种方式,随着用户操纵注入数据,系统100可以自动显示来自库的有关数据虽然在图4D和4E中仅显示了两层MS数据,但是同样的概念可以被扩展以允许用 户产生和/或访问更高阶的MS数据,而并不仅局限于一级和二级MS数据。在一个实施例 中,用户可以通过鼠标、菜单或滚轮访问MSn数据。在一个实施例中,用户可以使用鼠标来点击任一结果图中的峰,促使系统100显 示图上该已知位置处的化学实体的等价库信息。在一个示例中,用户可以查看具有的保留 指数为X的峰;用户可以点击该峰,触发系统100来记录保留指数的值,识别在其化学品库 存中具有相同保留指数的实体,并且显示其化学品库存中那些已识别实体的信息。因此,用 户可以使用UI128来操纵针对注入所收集的数据(包括色谱分析数据、一级MS数据和二级 MS数据),并且可以使用UI 128来操纵化学品库126中的条目,或者手动匹配库条目与注 入结果,或者检验匹配过程的结果。在图4A 4E中,潜在的色谱分析和质谱分析数据峰被呈现为具有高度和最小宽 度或无宽度的理想化峰或条。但是,原始色谱分析或质谱分析数据描述的是具有形状和面 积的峰。在一个实施例中,用户可以访问原始峰数据。例如,UI 128可以被配置为使得如 果用户将鼠标或其他指针设备置于实体如图中的峰或表中的行之上,则可以显示包含关于 该实体的详细信息的弹出式窗口。这在图4F中显示。图4F是一屏幕快照,其示出详细的分离(例如色谱)数据,此后被称为“峰”数据。 在图4F中,名称为“ScanViewer (扫描观察器)”的窗口 454示出在一次注入过程中检测到 的实际峰的形状。以这种方式,用户可以看到详细的峰信息,而不仅仅是表示峰强度和保留 时间的线。在扫描观察器窗口 454内,色谱类型选择框456允许用户选择如何显示峰数据。 用户可以示出所有检测到的质量的峰数据或者检测到的质量的子集的峰数据。在一个实施 例中,用户可以将感兴趣峰显示为多个分离的峰,每个峰在分离的图或图窗口( “S印arate Chro(分离的色谱)”)中,每个图表示不同的m/z值或者m/z值的范围。作为替代,用户 可以显示单个图,其中具有不同m/z值的峰彼此叠加在一个图或图窗口( “Superimposed Chro(叠加的色谱)”)中,如图4F所示。用户还可以观察所收集的原始数据(“Separate Raw (分离原始)”),如图4G所示。在图4F所示的实施例中,扫描源窗格458显示从其中收集并显示峰数据的扫描 源。用户可以选择多个扫描源作为峰数据的源。在窗口 454的底部,扫描结果窗格460示 出表示扫描中的离子的所有离子。在一个实施例中,这一扫描列表可以由用户从显示在中 间图450中的一组色谱峰中选择,或者它们可以由软件选择。一个或多个特定峰的数据被 显示在位于窗口 454中间的峰显示窗格462中。峰464上的符号指示峰起点、峰顶点和峰 终点。峰464上的点可以利用不同的点形状、色彩编码或其他视觉手段指示二级MS数据的 可用性,或者指示该点的二级MS数据是在匹配过程中用于识别化学成分的二级MS数据。峰显示窗格的右上角的图例466指示由光标468指示的图部分的信息,其为与色 谱峰464相交的垂线。在图4F所示的示例中,图例466指示色谱峰468位于0. 7IRT处且 色谱峰464的面积是1. 7349e+006。图例466还指示峰464包括在231. 7至232. 5AMU范围内的质量。因此,通知用户图4F中所示的峰464可以表示具有不同质量但是在靠近峰的 时间区域内收集的一级扫描中被测量的离子。如果用户利用光标468选择峰464上的一个 点,则一级MS数据将被显示在扫描结果窗格460的上半部分。如果二级MS数据也是可用 的,则二级MS数据可以显示在扫描结果窗格460的下半部分虽然图4F显示了在“Superimposed Chro (叠加的色谱)”模式下的 ScanViewer (扫描观察器)操作,但由用户定义的数据窗口(即由表458中“Mass (质量)”、 “Window (窗口 ) ”、“Start (起点)”和“End (终点)”栏中的值确定的边界)仅包括一个峰, 即所见的峰464。如果数据窗口足够大到包括额外的色谱分析峰,则显示器窗格462将显示 表466中列出的一个或多个数据源中的指定数据窗口内出现的额外峰。图4G是一屏幕快照,其图示说明利用“S印arate Raw(分离原始)”模式显示的峰 数据的示例,这可以通过色谱类型框456内的选择看出。在图4G所示的实施例中,UI 128 显示所记录的原始峰数据的图,其包括图4F中所示的峰的数据。图4G中所示的数据点可 以被可视地组织成三组数据点或三个水平行数据点。三个水平组数据点中的中间一组是推 导出图4F中的峰464的原始数据。顶部和底部的水平组数据点未被包括在图4F中指定的 数据窗口内。该图包括三个维度在X轴的保留时间,在Y轴的强度以及在Z轴的质量。从图 4G中的图可以看出图4F中的单一峰(其限制在231. 7 232. 5的质量范围中)主要表示 仅有一个离子具有大约为232的质量(从左到右横跨该图的中间一系列点)。但是,图4G 中的图示出两种其他离子同时被洗脱,其分别具有大约为231和233的质量(从左到右横 跨该图的顶部和底部一系列点)。因此,利用这一窗口,用户可以查看在不同时间标度的数 据,或者改变本应包括在特定峰中的质量的范围。例如,用户可以决定具有的质量为231和 233的离子的数据也应该被包括在图4F的峰数据中。作为替代,用户可以确定通过峰检测 算法将若干离子组合成单一峰,并且通过改变特定峰的质量范围命令该峰检测算法排除那 些离子中的一些虚假离子。简言之,用户不仅可以直接访问原始注入数据,用户还可以使用 该信息来微调由匹配算法作出的决定。应该理解可以在不偏离本文所描述的主题的范围的情况下改变本文所描述的主 题的各细节。此外,前面的描述仅用于举例说明,而非意欲进行限制。
权利要求
一种用于非靶向地确定复杂混合物中化学成分的组成的方法,该方法包括利用分离技术和质谱仪产生样品的分离数据和质谱分析数据,其中所述分离数据包括峰信息,且其中所述质谱分析数据包括一级质谱分析数据和二级质谱分析数据;收集并存储分析结果,所述分析结果包括所产生的分离数据和质谱分析数据;通过比较所述分析结果与指示化学实体的特性的信息库来确定所述样品的化学成分,其中该比较是基于所述分离数据和质谱分析数据的,其中所述信息库包括由所述分离技术和质谱仪产生的数据,且其中所述信息库包括已识别和未识别的化学实体的分离数据和质谱分析数据;以及以人类可访问的形式使得所述样品的所述化学成分的指示可用。
2.如权利要求1所述的方法,其中利用分离技术产生样品的分离数据包括利用色谱仪 产生样品的色谱分析数据,且其中所述分离信息包括保留信息。
3.如权利要求2所述的方法,其中利用色谱仪产生样品的色谱分析数据包括利用超高 压液相色谱仪。
4.如权利要求2所述的方法,其中所述保留信息包括峰的保留时间和峰的保留指数中 的至少一个。
5.如权利要求1所述的方法,其中利用分离技术产生样品的分离数据包括利用电泳, 且其中所述分离信息包括分离距离信息。
6.如权利要求1所述的方法,其中利用质谱仪产生样品的质谱分析数据包括利用四极 质谱仪。
7.如权利要求1所述的方法,其中利用质谱仪产生样品的质谱分析数据包括利用具有 离子阱的质谱仪。
8.如权利要求1所述的方法,其中利用分离技术和质谱仪产生样品的分离数据和质谱 分析数据包括针对多个样品产生分离数据和质谱分析数据,且其中收集所述分析结果包括 收集针对所述多个样品产生的分离数据和质谱分析数据。
9.如权利要求1所述的方法,其中产生所述分离数据和质谱分析数据包括以下中的至 少一个执行酸性液相色谱分析; 执行碱性液相色谱分析; 执行阳离子质谱分析; 执行阴离子质谱分析; 执行多个分离;以及 执行多个质谱分析。
10.如权利要求1所述的方法,其中所述峰信息包括以下中的至少一个 峰的强度;峰底部的宽度;峰底部的起点和终点的保留时间; 峰底部的起点和终点的强度; 峰半高处的峰宽度; 峰的面积;峰的对称性; 峰的噪声; 与峰相关联的质量; 与峰相关联的质荷比;峰与描述离子之间的父子关系的离子树中的实体的关联;以及 与峰相关联的扫描的列表。
11.如权利要求1所述的方法,其中存储所述分析结果包括存储描述所述分析结果的 性质的信息,其中描述所述分析结果的性质的所述信息包括以下中的至少一个在分析期间进行的一级扫描的数目;在分析期间进行的二级扫描的数目;实际进行的二级扫描占本应进行的二级扫描的百分比;在已识别的化学实体的峰内进行的二级扫描的数目;在已识别的化学实体的峰内进行的二级扫描的百分比;在分析期间记录的峰的数目;已经进行二级扫描的峰的数目;已经进行二级扫描的峰的百分比;使得多于一个二级扫描与其相关联的峰的数目;使得多于一个二级扫描与其相关联的峰的百分比;未执行二级扫描的最大峰的面积;以及执行了 二级扫描的最小峰的面积。
12.如权利要求1所述的方法,其中存储所述分析结果包括将所述分析结果存储在数 据库中。
13.如权利要求1所述的方法,其中比较所述分析结果与所述信息库包括比较所述分 析结果与存储在用于存储所述信息库的数据库中的信息。
14.如权利要求1所述的方法,其中比较所述分析结果与信息库包括比较所述分析结 果与所述库中的实体的特性,包括比较以下中的至少一个所述实体的保留时间;所述实体的保留指数;所述实体的质量;所述实体的质荷比;所述实体的加合物的质量;所述实体的同位素关系;所述实体的片段的质量;所述实体与所述实体的子离子之间的关系;所述实体与所述实体的父实体之间的关系;所述实体与所述实体的同属之间的关系;所述实体的相对强度;所述实体的结构信息;所述实体的物理属性;所述实体的物理原料的列表; 针对所述实体的公共化学数据库条目内可用的信息; 第二信息库内可用的关于所述实体的信息;以及 与所述实体相关联的分析结果。
15.如权利要求1所述的方法,其中确定所述样品的所述组成包括显示所述分析结果 以及所述库中针对特定实体的库信息。
16.如权利要求1所述的方法,其包括将关于被识别为存在于所述样品中的已检测但 未识别的化学实体的信息存储到所述信息库中。
17.如权利要求1所述的方法,其包括利用与所述分析模块耦合的用户界面显示所述 分析结果和所述库中针对特定实体的库信息。
18.如权利要求1所述的方法,其中产生所述分离数据包括利用离子迁移率谱分析和 毛细电泳二者之一。
19.一种用于非靶向地确定复杂混合物中化学成分的组成的系统,所述系统包括分离工具,其用于执行样品的化学成分的分离并且产生分离数据,其中所述分离数据 包括峰信息;质谱仪,其用于对所述样品的被分离化学成分的部分执行质谱分析并且产生质谱分析 数据,其中所述质谱分析数据包括一级质谱分析数据和二级质谱分析数据;信息库,其指示化学实体的特性,其中所述信息库包括由所述分离工具和质谱仪产生 的数据,且其中所述信息库包括针对已识别和未识别的化学实体的分离数据和质谱分析数 据;分析模块,其用于接收和收集所述分离数据和质谱分析数据并将其存储为分析结果, 且用于通过比较所述分析结果与所述信息库来确定所述样品的化学成分,其中所述比较是 基于所述分离数据和质谱分析数据的;以及用户界面,其耦合到所述分析模块,用于以人类可访问的形式使得所述样品的所述化 学成分的指示可用。
20.如权利要求19所述的系统,其中所述分离工具包括色谱仪。
21.如权利要求20所述的系统,其中所述色谱仪包括液相色谱仪。
22.如权利要求21所述的系统,其包括用于将所述液相色谱仪耦合到所述质谱仪的电 喷射离子化设备。
23.如权利要求21所述的系统,其中所述液相色谱仪包括超高压液相色谱仪。
24.如权利要求20所述的系统,其中所述色谱仪包括气相色谱仪。
25.如权利要求19所述的系统,其中所述分离工具包括电泳工具。
26.如权利要求19所述的系统,其中所述质谱仪包括四极质量分析器。
27.如权利要求19所述的系统,其中所述质谱仪包括离子阱。
28.如权利要求19所述的系统,其中所述分析结果包括以下中的至少一个 来自酸性液相色谱分析的结果;来自碱性液相色谱分析的结果; 来自阳离子质谱分析的结果; 来自阴离子质谱分析的结果;来自多个样品的结果; 来自多个分离的结果;以及 来自多个质谱分析的结果。
29.如权利要求19所述的系统,其中所述分离信息包括峰的保留时间和峰的保留指数 中的至少一个。
30.如权利要求19所述的系统,其中所述峰信息包括以下中的至少一个 峰的强度;峰底部的宽度;峰底部的起点和终点的保留时间; 峰底部的起点和终点的强度; 峰半高处的峰宽度; 峰的面积; 峰的对称性; 峰的噪声; 与峰相关联的质量; 与峰相关联的质荷比;峰与描述离子之间的父子关系的离子树中的实体的关联;以及 与峰相关联的扫描的列表。
31.如权利要求19所述的系统,其中所述分析结果包括描述所述分析结果的性质的信 息,其中所述信息包括以下中的至少一个在分析期间进行的一级扫描的数目;在分析期间进行的二级扫描的数目;实际进行的二级扫描占本应进行的二级扫描的百分比;在已识别的化学实体的峰内进行的二级扫描的数目;在已识别的化学实体的峰内进行的二级扫描的百分比;在分析期间记录的峰的数目;已经进行二级扫描的峰的数目;已经进行二级扫描的峰的百分比;使得多于一个二级扫描与其相关联的峰的数目;使得多于一个二级扫描与其相关联的峰的百分比;未执行二级扫描的最大峰的面积;以及执行了 二级扫描的最小峰的面积。
32.如权利要求19所述的系统,其包括用于存储所述信息库和所述分析结果中的至少 一个的数据库。
33.如权利要求19所述的系统,其中比较所述分析结果与信息库包括比较所述分析结 果与所述库中的实体的特性,包括比较以下中的至少一个所述实体的保留时间; 所述实体的保留指数; 所述实体的质量;所述实体的质荷比;所述实体的加合物的质量;所述实体的同位素关系;所述实体的片段的质量;所述实体与所述实体的子离子之间的关系;所述实体与所述实体的父实体之间的关系;所述实体的相对强度;所述实体的结构信息;所述实体的物理属性;所述实体的物理原料的列表;针对所述实体的公共化学数据库条目内可用的信息;第二信息库内可用的关于所述实体的信息;以及与所述实体相关联的分析结果。
34.如权利要求19所述的系统,其中所述库包括关于以下中的至少一个的信息 父实体与所述实体的子离子之间的关系;子实体与所述实体的父实体之间的关系; 实体的结构信息; 实体的物理属性; 实体的物理原料的列表; 至实体的公共化学数据库条目的链接; 至第二信息库的链接;以及 至与实体相关联的分析结果的链接。
35.如权利要求19所述的系统,其中所述分析模块被配置为显示所述分析结果和所述 库中针对实体的信息。
36.如权利要求19所述的系统,其中所述分析模块被配置为将关于被识别为存在于所 述样品中的已检测但未识别的化学实体的信息存储到所述库中。
37.如权利要求19所述的系统,其中所述用户界面以人类可访问的形式使得所述比较 的结果、所述信息库中与实体相关联的信息以及所述样品的已确定化学成分中的至少一个 可用。
38.如权利要求19所述的系统,其中所述用户界面被配置为允许所述系统的用户以人 类可访问的形式使得一级质谱分析数据可用,从所显示的一级质谱分析数据中选择感兴趣 项,以及观察从所述信息库中选择的与化学实体相关联的信息。
39.如权利要求38所述的系统,其中所述化学实体是由所述系统自动选择的。
40.如权利要求38所述的系统,其中所述化学实体是由所述用户人工选择的。
41.如权利要求19所述的系统,其中所述用户界面被配置为允许所述系统的用户以人 类可访问的形式使得一级质谱分析数据可用,从所述一级质谱分析数据中选择感兴趣项, 以及以人类可访问的形式使得与所选择的感兴趣项相关联的二级质谱分析数据可用。
42.如权利要求41所述的系统,其中所述用户界面被配置为以人类可访问的形式使得 指示出与第一质谱分析数据相关联的二级质谱分析数据可用的指示可用。
43.如权利要求37所述的系统,其中所述用户界面被配置为允许所述系统的用户根据 数据的分层关系操纵多组分析结果数据以及根据实体的分层关系操纵所述信息库中与所 述实体相关联的信息。
44.如权利要求43所述的系统,其中所述用户界面被配置为使得对所述分析结果数 据的操纵与对与所述实体相关联的信息的操纵自动同步,其中一个的变化导致另一个的变 化。
45.一种计算机可读介质,其上存储有计算机可执行指令,这些指令在被计算机的处理 器执行时执行以下步骤利用分离技术和质谱仪产生样品的分离数据和质谱分析数据,其中所述分离数据包括 峰信息,且其中所述质谱分析数据包括一级质谱分析数据和二级质谱分析数据; 收集并存储分析结果,所述分析结果包括所产生的分离数据和质谱分析数据; 通过比较所述分析结果与指示化学实体的特性的信息库来确定所述样品的化学成分, 其中该比较是基于所述分离数据和质谱分析数据的,其中所述信息库包括由所述分离技术 和质谱仪产生的数据,且其中所述信息库包括已识别和未识别的化学实体的分离数据和质 谱分析数据;以及以人类可访问的形式使得所述样品的所述化学成分的指示可用。
全文摘要
本发明公开了用于确定复杂混合物中化学成分的组成的系统、方法以及计算机可读介质。根据一个方面,一种用于确定复杂混合物中化学成分的组成的方法包括利用分离工具和质谱仪产生样品的分离数据和质谱分析数据,其中分离数据包括峰信息,且其中质谱分析数据包括一级和二级质谱分析数据。包括所产生的分离数据和质谱分析数据的分析结果被收集和存储。通过比较分析结果和指示化学实体的特性的信息库来确定样品的化学成分,其中该比较是基于分离信息和质谱分析信息的。该信息库包括由分离工具和质谱仪产生的数据,并且还包括已识别和未识别的化学实体的分离数据和质谱分析数据。以人类可访问的形式使得样品的化学成分的指示可用。
文档编号G01N30/88GK101971019SQ200980109140
公开日2011年2月9日 申请日期2009年1月15日 优先权日2008年1月16日
发明者A·M·埃文斯, K·E·米尔格朗, T·巴雷特 申请人:梅塔博隆有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1