计算机辅助结构识别的制作方法

文档序号:2852101阅读:143来源:国知局
计算机辅助结构识别的制作方法
【专利摘要】本发明涉及一种用于在GC×GC(2维)质谱分析法中分析从样本中得到的质谱数据的方法,包括:(a)将分析物的质谱数据与数据库中已知结构的候选化合物的质谱数据进行比较;(b)基于质谱数据的相似性识别来自库的多个候选化合物;(c)对于每个候选化合物,利用基于多个分子描述符的定量模型预测至少一个分析性质的值;以及(d)基于在步骤(c)中预测的值以及对于分析物的分析性质的测量值计算对于每个候选化合物的匹配得分。
【专利说明】计算机辅助结构识别
【技术领域】
[0001]本发明涉及一种用于根据从样本中得到的质谱和色谱数据识别化合物的自动的计算机辅助方法。具体而言,本发明涉及用于利用二维气相色谱-质谱分析法(GCXGC-MS)识别化合物的方法,以及用于使从该方法中得到的质谱和色谱数据进行自动说明的程序。
【背景技术】
[0002]质谱分析法为一种分析工具,其能够用于通过根据化学化合物的质荷比(m/z)检测电离的化合物和碎片来确定化学化合物及其碎片的分子量。分子离子通过由化学化合物诱导电荷的损失或增加而产生,例如经由电子发射、质子化或去质子化。碎片离子通过碰撞诱导解离或能量诱导解离产生。结果数据通常表示为谱,具有在X轴上为m/z比以及在y轴上为离子丰度的图。因此,该谱示出了在被分析的离子群中m/z值的分布。这种分布为给定化合物的特征。因此,如果样本为纯化合物或仅包含少许化合物,质谱分析法能够揭示出样本中化合物的识别。
[0003]复杂样本通常包含过多的化学化合物使得仅通过质谱分析法不能对其进行有意义地分析,这是由于不同化学化合物的电离可能造成具有相同m/z值的离子。样本包含的化学化合物越多,则越有可能从不同化合物产生相同m/z值的离子。因此,在质谱分析法之前复杂样本通常例如通过液相色谱法(LC)、气相色谱法(GC)或者毛细管电泳而在一定程度上被溶解。对于挥发性化合物的分析,气相色谱法和质谱分析法(GC-MS)的结合是有利的。一些电离方法在GC中是可行的,一种最为普遍的是电子碰撞(EI),其中通过利用由单纤维发射的电子轰击来电离分子。
[0004]在样本分离步骤(色谱分析法)期间,样本中的化学化合物基于其在样本分离系统(色谱柱)中停留多长时间来进行分离。一旦化学化合物离开样本分离系统,其进入质谱仪系统中,并且如上所述地开始电离/离子分离/检测程序。对于每个化合物,化合物产生在质谱中的信号之前其保持在样本分离系统中的时间为其结构的函数并且被称为保留时间(RT)0但是,保留时间还特定于所使用的仪器,并且特别是气相色谱仪中的色谱柱规格。
[0005]在没有对在其上首先测量RT的仪表的精确复制的情况下,随后测量的相同样本的RT可能不匹配在初始色谱分析法或计算机化方法文件(包括校准表和事件表)中规定的RT并且会导致误识别峰值。一种解决方案是利用保留指数(RI)或Kovats指数(KI)的“相对保留”方法,其规避了与由于仪器到仪器或色谱柱到色谱柱的变化导致的RT中的差异相关的问题。已知在现有技术中基于分子结构和相关特征预测Kovats指数(KI)的模型。基于这些因素预测KI的模型称为定量结构性质关系(QSPR)模型。例如,参见Mihaleva等人于 2009 年发表的 Bioinformatics 6:787-794 ;Garjan1-Nejad 等人于 2004 年发表的Journal of Chromatography A, 1028:287-295 ;Seeley和 Seeley 于 2007年发表的 Journalof Chromatoraphy A, 1172:72-83。这种类型的程序将检测的峰值的实际保留时间转换为对多个参考化合物归一化的数字。这对于将保留时间与数据库和库进行比较以识别个体成分是特别有用的。这种库提供大量的已知化合物,并且通过GC-MS实验得到的数据和在库中的化合物之间的匹配能够帮助识别化合物。
[0006]为了提高GC-MS的分辨率,可以增加GC的“第二维度”,例如通过结合GC色谱柱与第二 GC色谱柱(通常称为2DGC-MS或GC X GC-MS,并且在此与术语GC X GC-TOF或GCXGC-TOF-MS互换使用)。参见Venkatramani和Phillips于1993年9月发表的J.Microcolumn 5:511-516。感兴趣的峰值从第一色谱柱转移到第二色谱柱以进行进一步分离,然后被馈入质谱分析法系统中。但是,实际上,GCXGC-MS依靠与化合物库的结构相关性以进行未知化合物的识别。最广泛用于结构识别的化合物库(例如NIST库)包含对于仅9%的具有质谱数据的化合物的保留指数信息。RI或KI数据的使用允许源自与库数据进行比较的结构分配得以改进。但是,为了达到未知化合物的识别中可接受的置信水平,分配必须由使用者说明并且通过质谱分析法与参考标准进行比较以确认提出的结构。这种方法具有许多的缺点,包括需要手动重复该程序,这是低效率的;KovatS指数库的大小受限;由于需要手动干预,因而缺少标准化;全部这些造成了在识别程序中置信水平的降低。
[0007]在识别化合物结构的传统方法中,通过气相色谱-电子碰撞离子化-质谱分析法(GC-E1-MS)产生的质谱数据与商用版的质谱数据库进行比较(图1)。利用该程序,识别仅具有较低的置信水平。为了提高置信水平,执行质谱库检索的手动验证和说明,并且将实验的保留时间或Kovats指数与数据库录入(例如,NIST保留指数库)进行比较。最后,对于化合物识别,需要利用参考标准进行确认。但是,由于这是十分耗资且耗时的事实,目前仅对于有限数目的化合物执行了该方法。
[0008]因此,对于用于说明GC-MS数据的改进的程序存在大量的需求,该程序将允许在结构识别中更高的自动化水平以及在结果中更高的置信水平。

【发明内容】

[0009]在第一方面中,提供了一种用于在二维气相色谱-质谱分析法(GCXGC-MS)中分析从样本中得到的质谱数据的方法,包括:
[0010](a)将从包括分析物的样本中得到的质谱数据与库中已知结构的候选化合物的质谱数据进行比较;
[0011](b)基于质谱数据的相似性识别来自库的多个候选化合物;
[0012](C)对于每个候选化合物,利用基于多个分子描述符的定量模型预测至少一个分析性质的值;以及
[0013](d)对于每个候选化合物,基于在步骤(C)中预测的值和对于分析物的分析性质的测量值计算匹配得分。
[0014]在该方法的各个实施方案中,在步骤(C)之中,分析性质得分源于候选化合物的分析性质的预测值和分析物的测量值。在步骤(d)中,对于分析物的分析性质的测量值可以是如通过在软件中的算法确定的谱相似值以查询数据库,例如通过NIST提供的那些。候选化合物的分析性质的预测值根据基于多个分子描述符的定量模型计算。因此,在一个实施方案中,步骤(c)的定量模型能够通过下面的步骤建立:
[0015](i)提供已知结构的训练化合物的集合和已知结构的测试化合物的集合,并且选择性地提供已知结构的验证化合物的集合;
[0016](ii)对于每个训练化合物、每个测试化合物以及每个验证化合物生成分析性质的测量值;
[0017](iii)对于每个训练化合物,基于化学结构和性质计算分子描述符的集合;
[0018](iv)通过利用基因算法从用于分析性质的定量模型中的分子描述符的集合中选择分子描述符的集合;
[0019](V)利用选择的分子描述符的集合生成多个提出的定量模型;
[0020](Vi)通过对于每个测试化合物计算分析性质的预测值来估计每个提出的定量模型;
[0021](Vii)根据对于每个测试化合物的分析性质的测量值和预测值的均方根误差(RMSE)和/或平方相关(r2)选择定量模型;以及可选地
[0022](Viii)根据在对于每个验证化合物的分析性质的测量值和预测值的平方相关(r2)选择定量模型。
[0023]在各个实施方案中,在步骤(iv)中使用的基因算法优选地包括:
[0024](P)在机器学习算法(例如但不限于多元线性回归、k_最近邻法或支持向量回归)中利用两个或多个分子描述符的结合生成多个候选方案;
[0025](q)根据基于训练化合物的交叉验证平方相关(q2)的适应度函数为每个候选方案记分;
[0026](r)通过重组和/或改变产生改进的交叉验证平方相关的候选方案来生成新的候选方案;以及
[0027](s)有限次数地重复步骤(q)和(r),例如,生成10至50次。
[0028]通过不同的机器学习算法生成的候选方案能够通过比较来识别表现最佳的方案。
[0029]当GCXGC-MS分离系统(例如色谱柱规格、温度曲线、流动相)或质谱分析系统的特定设置改变时,至少执行一次对于一个或多个分析性质的定量模型的建立。在已经对于实验设置建立定量模型之后,每次分析由该特定设置生成的分析物的数据时没有必要执行同样的建立。
[0030]每个分析性质的函数(分析性质得分)优选作为二次函数计算,其中对于分析性质P,
[0031]J=I/(- ((exp_p- (exp_p- (ηI X SEP))) X exp_p- (exp) p+ (nl X SEP))))) X ((pre_p-(exp_p-(nlXSEP)))X (pre_p-(exp_p+(nlXSEP))))。
[0032]Exp_p=由实验得到的性质的测量值,pre_p=性质的预测值,以及SEP=标准误差或预测。如果预测的和由实验得到的测量值是相同的,则方程式=1。利用MicrosoftExcel2003的STEXY函数,根据公式计算SEP:
[_ I7I1 Σ?ν 皇
[0034]其中X为样本的值,y为对于样本的X的预测值,以及η为样本的数目。
[0035]在该方法的步骤(d)中,从质谱数据库比较中得到的谱相似值能够用于生成数值,其中组合谱相似值和分析性质得分。该数值在此处被称为匹配得分,也被称为附图中的计算机辅助结构识别(CASI)得分。在优选的实施方案中,匹配得分利用双曲线方程进行计算。本发明的概念不同于用于当前可行方法中的那些,其中分析性质值被用作过滤器以选择或不选候选化合物。
[0036]可选地,对于与样本相关的每个查询,最高匹配得分和次高匹配得分能够通过将最高得分除以次高得分以生成判别函数来进行比较,其中在两个得分之间的差异越大,产生的判别函数越大。判别函数越大,能够分配给每个查询的置信得分越高。置信得分能够通过用最高匹配得分乘以判别函数值进行计算。
[0037]在该方法的优选实施方案中,步骤(C)包括对于每个候选化合物的多个分析性质的预测值。在一个实施方案中,匹配得分得自从质谱数据库比较中得到的谱相似性以及至少两个利用多个分子描述符获得的分析性质的函数。在另一个实施方案中,匹配得分得自从质谱数据库比较中得到的谱相似值以及分析性质得分,其中分析性质为通过利用多个分子描述符获得的相对的第二维度保留时间。
[0038]在本发明中有用的优选分析性质包括Kovats指数、沸点以及相对的第二维度保留时间(2D rel RT)。如果用于本发明的方法中的预测分析性质包括Kovats指数和2D relRT,则Kovats指数和相对的2D保留时间优选利用不同的分子描述符进行计算。优选地,使用全部三个优选的分析性质。
[0039]化合物的Kovats指数利用包括多个系数的线性方程(每个系数乘以分子描述符的值)进行预测。该方程优选通过利用测试数据集合和基因算法得到以从多个可能的分子描述符中选择分子描述符,以及通过利用线性回归或k最近邻学习算法得到以将选择的分子描述符与待预测的值相关。
[0040]化合物的沸点能够基于实验确定的Kovats指数进行预测。候选化合物的沸点根据其个体化学结构,利用现有技术中已知的软件包进行计算,例如但不限于来自高级化学发展有限公司(AO)/Labs,多伦多,加拿大)的AO)/PhysChem。
[0041]在现有技术已知的方法中,第二维度保留时间为绝对的第二维度保留时间,并且不存在用于计算相对的2D保留时间的已知可行方法。对于开发相对模型的挑战在于定义对于所有第二维度峰值可访问的参考系统。这个问题通过参考基于参考标准的集合的假设参考系统得以解决,例如氘化正构烷烃。氘化或同位素标记的化合物能够用于参考系统中,用于控制保留时间或内部基于标准的量化。虽然其他物质能够用作参考化合物,但是正构烷烃优选用作生成假设2D-RT参考系统的一类物质,这是因为这类化合物不具有任何已知的与第二维分离系统的色谱柱中的固定相的复杂相互作用。因此,该参考系统调节系统偏移(systemic shifts)(例如不同的色谱柱长度和气流),但是不调节分析物-固定相移,因为这些偏移是由于化合物的独特性质。因此关于调节完整的化合物空间的稳定性,调整系统偏移是优选的方法。在本发明的一个实施方案中,GCXGC-MS的第一维度在非极性环境中分离,而第二维度在极性环境中分离。
[0042]根据本发明,化合物的相对的第二维度保留时间有利地计算为相对于假设参考标准(例如,正构烷烃)的保留时间,其保留时间得自基于一系列参考标准(例如,氘化正构烷烃)的回归函数。化合物的相对的第二维度保留时间如下进行计算:
[0043]
2D —rel RTcomp =abs2DRTcomp /2DRT假设参考
[0044]其中2D_rel RTcomp 为化合物的相对的第二维度保留时间;abs2D RTcomp 为测量的化合物的绝对的第二维度保留时间;以及2D RTfgs#if为对于在参考标准化合物I和化合物2
之间洗脱的每个化合物进行计算,例如其能够为氘化正构烷烃:
[0045]
(
【权利要求】
1.一种用于在GCXGC (2维)质谱分析法中分析从样本得到的质谱数据的方法,包括: Ca)将分析物的质谱数据与库中的已知结构的候选化合物的质谱数据进行比较; (b)基于质谱数据的相似度从库中识别来自所述库的多个候选化合物; (C)对每个候选化合,利用基于多个分子描述符的定量模型物预测至少一个分析性质的值;以及 Cd)基于在步骤(C)中预测的值以及对于所述分析物的分析性质的测量值计算对于每个候选化合物的匹配得分。
2.根据权利要求1所述的方法,其中步骤(c)包括对于每个候选化合物预测多个分析性质的值,其中预测的分析性质包括Kovats指数、沸点和相对的第二维度保留时间中的至少一个。
3.根据权利要求1或2所述的方法,其中所述分析物的所述相对的第二维度保留时间为所述化合物的绝对的第二维度保留时间和假设参考标准的第二维度保留时间的函数,其中所述假设参考标准的第二维度保留时间根据一系列参考标准的绝对的第一维度保留时间和绝对的第二维度保留时间上的线性回归进行计算。
4.根据前述权利要求中任一项所述的方法,其中所述匹配得分额外地取决于步骤(b)中的质谱数据的相似度。
5.根据权利要求1所述的方法,其中通过利用测试数据集合和基因算法来从多个可能的分子描述符中选择分子描述符,以及通过利用选自线性回归、支持向量回归或者k最近邻方法的机器学习算法来将选择的分子描述符与待预测的值进行相关,从而得到步骤(C)的所述定量模型。
6.根据权利要求1所述的方法,其中步骤(c)的所述定量模型为一种用于建立定量模型的方法的产品,其包括下面的步骤: (i )提供已知结构的训练化合物的集合和已知结构的测试化合物的集合,以及选择性提供已知结构的验证化合物的集合; (ii)对于每个训练化合物、每个测试化合物和每个验证化合物生成分析性质的测量值; (iii)对于每个训练化合物,基于化学结构和性质计算分子描述符的集合; (iv)通过利用基因算法,从用于所述分析性质的定量模型的分子描述符的集合中选择分子描述符的集合; (V)利用选择的分子描述符的集合生成多个提出的定量模型; (vi)通过对于每个测试化合物计算所述分析性质的预测值来估计每个提出的定量模型; (vii)根据对于每个测试化合物在所述分析性质的测量值和预测值上的均方根误差(RMSE)和/或平方相关(r2)选择所述定量模型;以及选择性地 (viii)根据对于每个验证化合物在所述分析性质的测量值和预测值上的均方根误差(RMSE)和/或平方相关(r2)选择所述定量模型。
7.根据权利要求6所述的方法,其中利用(iii)的基因算法,包括 (P)利用选自多元线性回归、k-最近邻方法或支持向量回归的机器学习算法中的两个或多个分子描述符的结合生成多个候选方案;(r)根据基于所述训练化合物的交叉验证平方相关(q2)的适应度函数为每个候选方案记分; Cs)通过重组和/或改变产生增加的交叉验证平方相关的所述候选方案来生成新的候选方案;以及 (t)有限次数的重复步骤(r)和(S)。
8.根据前述权利要求中任一项所述的方法,对于计算相对的第二维度保留时间,假设参考标准为假设氣化正构烧烃,并且参考标准的系列包括多个氣化正构烧烃。
9.根据前述权利要求中任一项所述的方法,进一步包括通过包括以下步骤的方法来验证候选结构: (A)在GCXGC-TOF-MS中,测量相对于参考化合物的第一集合的分析物的Kovats指数; (B)在GCXGC-TOF-MS中,测量相对于参考化合物的第一集合的参考化合物的第二集合的Kovats指数; (C)在GC-APC1-TOF-MS中,测量参考化合物的第二集合的绝对保留时间;以及 (D)在GC-APC1-TOF-MS中,利 用在步骤(b)中测量的参考化合物的第二集合的Kovats指数来通过线性回归得出用于将步骤(A)中测量的分析物的Kovats指数转换为估计的分析物的绝对保留时间的函数。
10.根据权利要求9所述的方法,进一步包括: (E)在GC-APC1-TOF-MS中,测量分析物的绝对保留时间; (F)对于所述分析物,在GC-APC1-TOF-MS中利用在步骤(D)中计算的函数,来将在步骤(E)中测量的绝对保留时间转换为分析物的计算的Kovats指数;以及 (G)将步骤(F)中计算的Kovats指数与来自步骤(A)的测量的Kovats指数进行比较。
11.根据权利要求9或10所述的方法,其中步骤(D)的函数通过对于每个保留时间范围的线性回归得出,此处分析物在参考化合物的第二集合的两个邻近参考化合物之间进行检测,其中所述函数为: 在 GC-APC1-TOF-MS 中的分析物 RT=a (在 GCXGC-TOF-MS 中的分析物 KI) +b, 其中a为系数,以及b为对于特定时间范围的常量。
12.根据权利要求9至11中任一项所述的方法,进一步包括将所述分析物的分子质量与对于每个分析物的各自候选化合物的分子质量进行比较。
13.根据权利要求9至12中任一项所述的方法,其中参考化合物的第一集合为氘化正构烷烃,以及参考化合物的第二集合为氘化脂肪酸甲酯。
14.一种对于分子结构在GCXGC-MS (联合质谱分析法的2维气相色谱分析法)中计算预测的相对的第二维度保留时间的方法,包括以下步骤: (a)基于假设氘化正构烷烃的函数定义参考系统; (b)将对于已知分子结构的多个训练化合物的绝对的第二维度保留时间的测量值转换到参考系统中,以计算对于训练化合物的相对的第二维度保留时间; (c)利用对于训练化合物的相对的第二维度保留时间来基于多个分子描述符生成相对的第二维度保留时间的定量模型; (d)利用所述定量模型来预测所述分子结构的相对的第二维度保留时间。
15.一种计算机系统,所述计算机系统编程为执行权利要求1至14中任一项的方法,其选择性地连接至GCXGC (2维)质谱仪。
【文档编号】H01J49/00GK103650100SQ201280032300
【公开日】2014年3月19日 申请日期:2012年4月30日 优先权日:2011年4月28日
【发明者】A·克诺尔, A·蒙赫, M·施图贝尔, P·巴斯比昔 申请人:菲利普莫里斯生产公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1