一种快速建立样品中组分质谱数据库的方法与流程

文档序号:15115134发布日期:2018-08-07 19:47阅读:422来源:国知局

本发明具体涉及一种快速建立样品中组分质谱数据库的方法,属于化学分析领域。



背景技术:

复杂样品的组分分析是非常重要的。例如,在中药的使用和分析中,中药复方治疗的特点就是使用多组分共同对人体进行治疗。因此,分析并鉴定中药中的各组分,有助于对于中药治疗的理解。同时,中药的组分分析可以应用于中药鉴定等一系列应用。由于日新月异发展的计算机技术,复杂样品的组分数据库就显得至关重要了。得到样品的组分数据库,就可以通过全面的分析其数据库,来得到更重要的信息,甚至达到革命性突破。

分析复杂样品的组分可以采用多种分析手段,例如色谱,质谱,核磁共振谱等技术。其中液相色谱质谱联用技术(简称液质联用技术,lc-ms)和气相质谱联用技术(简称气质联用技术,gc-ms)是化学分析领域的重要技术,可以用来检测样品中的物质并鉴定其成分组成。相较于其他分析手段,液质联用和气质联用技术可以较为方便和准确的鉴定混合样品中的组分。例如,仅使用色谱技术,仅可以得到全成分的指纹图谱,却无法知道其中每个组分的具体信息。使用核磁共振谱技术,则需要人工分离提纯出样品中几种或几百种物质得到纯物质再进行鉴定,这是非常困难的。而使用气质联用和液质联用技术来分析复杂样品,首先使用色谱技术对复杂样品进行一定的分离,再通过质谱技术对分离出的物质进行鉴定,可以在较短时间内得到复杂样品的组分信息。

通常情况下,液质或气质联用技术是通过得到物质的质谱纯谱,并比对标准样或数据库来确定物质的身份。气质联用技术一般仅用于易挥发的物质的鉴定。对于难以挥发的物质来说,一般使用液质联用技术来进行分离和鉴定。其中,气质联用技术一般是通过硬电离技术,例如电子电离,来得到物质的质谱。气相质谱有较多的数据库,例如,nist数据库,wiley数据库。这些数据库都是通过设定一致条件,例如,使用电子电离以及70ev的能量,然后得到在此条件下物质的气相质谱,放入数据库中。液质联用技术一般是使用软电离技术,例如电喷雾电离(esi)来使物质电离,并最终得到物质的质谱。但是目前没有一个统一的液相质谱数据库来和纯物质质谱进行比对。因此,大部分的液相质谱数据都需要有经验的专业人员根据经验来分析其可能的身份和结构。

然而,即使使用液质联用和气质联用技术,对于复杂样品的组分质谱数据库的建立仍旧是非常复杂和困难的。首先,复杂样品含有的成分较多,有时会多达上百个组分。即使使用色谱技术,也无法进行有效分离。所以,无法得到其中每个组分的纯质谱来进行身份鉴定。特别的,一般的液质联用数据的背景非常大,导致样品中的非主要成分,受背景影响非常大。现有液相质谱分析主要使用多级质谱(msn),并集中于信噪比较好的主要峰分析,其他非主要的峰,例如藏在背景里面的峰(或者负峰等),用户不能确定里面是否有组分,当然也无从分析。对于信噪比相对比较好的峰单较小的峰,即使可以确定在这个保留时间下的峰含有组分,然而,由于背景的干扰,一级质谱(ms1)仍旧无法方便的得到‘纯’质谱。由于ms1无法得到‘纯’质谱,所以ms1中的各个质谱峰的关联性不能确定;ms2是基于ms1中各个质谱峰得到的,由于ms1中的各个质谱峰的关联不确定,导致基于ms1得到的ms2谱图之间的关联性无法确定。这样的话,msn的质谱数据也会丢失关联性。

其次,由于液相质谱还没有一个统一的数据库,即使得到样品中组分的纯质谱,其中某些组分也无法与数据库进行比并鉴定组分的身份。

最后,同一个样品中的同一个组分,在不同厂家的液相质谱上,得到的纯质谱的模样是不一样的,也就是会有不同的丰度和不同的碎片,这就造成了一家厂家的液相质谱数据库,和其他厂家的数据库是不兼容的。

综上所述,由于无法对复杂样品进行有效分离和鉴定,而复杂样品的组分质谱数据库也难以快速建立。



技术实现要素:

本发明的主要目的在于提供一种快速建立样品中组分质谱数据库的方法,该方法结合熵最小算法和质谱分析,能够快速建立样品中组分质谱数据库,以克服现有技术的不足。

为实现上述目的,本发明采用的技术方案包括:

本发明实施例提供了一种快速建立样品中组分质谱数据库的方法,其包括以下步骤:

(1)以色谱质谱联用分析设备对一样品进行分析,得到该样品的一级质谱和多级质谱;

(2)选择所述样品的一级质谱的一个保留时间(retentiontime)区间,应用熵最小算法处理该保留时间区间的质谱数据,得到该保留时间区间中每个可观察纯组分的一级质谱谱图;

(3)将发现的各个可观察纯组分的一级质谱图数据录入数据库;

(4)依据每个可观察纯组分的一级质谱谱图,针对其中单个或多个m/z峰,找到相对应的二级质谱谱图;

(5)将与每个可观察纯组分的一级质谱谱图中单个或多个m/z峰相关的二级质谱谱图也导入数据库;

(6)参照步骤(4)~步骤(5),依据每个可观察纯组分的前一级质谱谱图,找到其中单个或多个m/z峰相对应的下一级质谱谱图,并录入数据库;

(7)对于所述样品的一级质谱中每个含有可观察纯组分的保留时间区间,重复步骤(2)~步骤(6),从而获得所述样品的组分质谱数据库。

进一步地,所述质谱分析设备至少具有二级质谱功能。

进一步地,所述质谱分析设备包括四极杆飞行时间质谱仪,三重四级杆质谱仪,离子阱质谱仪,离子阱飞行时间质谱仪,串联飞行时间质谱仪或静电场轨道阱组合式质谱仪中的任意一种,但不限于此。

进一步地,所述质谱分析设备可以采用液相色谱质谱仪(lc-ms),或者也可以是气相色谱质谱仪(gc-ms)。

进一步地,步骤(1)中以色谱质谱联用分析设备对样品进行分析得到的质谱层级取决于使用质谱分析设备的仪器设置。

在一些实施方案中,所述的方法包括:所述仪器设置为先得到一级质谱,再根据一级质谱中的质谱峰得到对应的多级质谱。

在一些实施方案中,所述的方法包括:所述仪器设置为同时得到一级质谱和多级质谱。

进一步地,步骤(2)中采用的熵最小算法包括btem、tbtem或mrem等方法中的任意一种或两种以上的组合,但不限于此。

在一些实施方案中,步骤(3)还包括:将发现的各个可观察纯组分的一级质谱数据录入数据库,并作系统性命名。

在一些实施方案中,步骤(5)还包括:将发现的各个可观察纯组分的二级质谱数据录入数据库,并作系统性命名。

相应的,在步骤(6)和/或步骤(7)中,可以将发现的各个可观察纯组分的多级质谱数据录入数据库,并作系统性命名。

在一些实施方案中,步骤(3)还包括:对于每一可观察纯组分的一级质谱数据,若有已知数据库能予以定性,从而得到相应分子结构,则将此可观察纯组分命名为对应的物质。

在一些实施方案中,步骤(5)还包括:对于每一可观察纯组分的二级质谱数据,若有已知数据库能予以定性,从而得到相应分子结构,则将此可观察纯组分命名为对应的物质。

相应的,在步骤(6)和/或步骤(7)中,对于每一可观察纯组分的多级质谱数据,若有已知数据库能予以定性,从而得到相应分子结构,则可以将此可观察纯组分命名为对应的物质。

在一些实施方案中,步骤(3)还包括:对于每一可观察纯组分的一级质谱图数据,若无已知数据库能予以定性,则对此可观察纯组分自行进行系统命名。

在一些实施方案中,步骤(5)还包括:对于每一可观察纯组分的二级质谱数据,若无已知数据库能予以定性,则对此可观察纯组分自行进行系统命名。

相应的,在步骤(6)和/或步骤(7)中,对于每一可观察纯组分的多级质谱数据,若无已知数据库能予以定性,则对此可观察纯组分自行进行系统命名。

进一步地,步骤(7)中,所述含有可观察纯组分的保留时间区间包括可用算法检测到纯组分的保留时间区间或可用肉眼观测到纯组分的保留时间区间。

较之现有技术,本发明至少具有如下优点:

(1)本发明的方法利用算法,特别是熵最小算法,能够将背景噪音,重合峰的干扰去除,得到非常多的组分,从而大大增强了组分数据库的信息,因此可以大大增加数据库成分的数目。

(2)本发明利用算法,能够得到各个组合的纯一级质谱,使得各个一级质谱中的各个m/z峰的关联性得到确认,使得后续的二级质谱的关联性也能非常明显,进而使得基于这些关联性得到的数据库非常有意义。

(3)本发明的方法同时得到了一级质谱以及二级质谱。一级质谱有质量信息,但是没有结构信息。二级质谱有结构信息,因此数据库结合了一级质谱以及二级质谱,可以同时得到物质的质量信息和结构信息。

(4)本发明的方法,是为了得到样品中组分的质谱。因此,不但适用于液相质谱,也适用于建立样品组分中的可以用气相质谱色谱仪分析的物质的数据库。

(5)利用本发明的方法,因为可以分析天然产物,因此也可以建立基于天然产物的数据库,例如:人参组分质谱数据库,薄荷组分质谱数据库,川穹组分质谱数据库等。这些数据库都是可以快速的通过熵最小算法来建立,与传统方法(例如,通过大量的文献数据来建立质谱数据库)相比,更具有可信性,且更简单方便。

附图说明

图1是本发明实施例1中一种建立样品中组分质谱数据库的流程图;

图2是本发明实施例1中西洋参1号的一级质谱tic谱图

图3是本发明实施例1中人参皂苷f11的ms1质谱图。

图4是本发明实施例3中桉树油1号的一级质谱tic谱图

图5是本发明实施例3中桉树油1号某一级质谱tic区间内通过解谱得到的物质。

具体实施方式

本案发明人经过长期研究发现,复杂样品,例如天然产物,常常含有上百种组分,这些组分常常无法分离得到纯质谱来对所有组分进行鉴定。常规的液相质谱分析方法常常有很多挑战,例如无法将得到里面微小成分的质谱纯谱。本发明基于算法,可以得到复杂样品中组分的质谱纯谱。而且,即使不通过结构鉴定,也可以将具有关联性的各级质谱数据系统性录入数据库,建立一个组分质谱数据库。当建立其足够庞大的组分数据库后,可以通过计算机进行分析,分别并找到共同的组分和不同的组分的质谱,这样可以对于各种复杂样品有科学的理解,也可以通过更简单的方法进行更深入的身份鉴定。此外,当某一成分的结构鉴定后,再对数据库中组分的质谱信息进行命名更新。这样避免了现有液相质谱数据库无法比对的问题。

具体而言,本发明提供了一种快速建立样品中组分质谱数据库的方法,包括:将某一样品进样于色谱质谱联用分析设备进行分析,得到该样品的一级质谱(ms1)和多级质谱(msn),选择一级质谱的某保留时间区间,应用熵最小算法于该区间的质谱数据,得到该区间中每个可观察纯组分的一级质谱图。之后,将发现的各个纯组分的一级质谱数据录入数据库,并做系统性命名。依据每个纯组分的ms1谱图,对其中单个或多个一级质谱m/z峰,找到与它们相对应的二级质谱(ms2)谱图。将这些和ms1中m/z峰相关的二级质谱(ms2)谱图也导入数据库。类似的,从前一级质谱中(例如msn),找到其中单个或多个质谱m/z峰相对应下一级质谱(例如msn+1),并录入数据库。最后,将ms1中每个含有可观察组分的区间进行分析,直至完全分析该样品的ms1区间。对于其他样品,重复以上步骤即可得到该样品中组分质谱数据库。本发明的方法可以得到纯一级质谱,增加了各质谱峰之间的关联性,有利于分析复杂样品,特别是天然产物的组分并建立其组分质谱数据库。

进一步地,本发明提供了一种快速建立质谱数据库的方法,具体包括如下步骤:

(1)将某一样品进样于色谱质谱联用分析设备进行分析,得到该样品的一级质谱(ms1)和多级质谱(msn,n为不小于2的自然数)。

(2)选择一级质谱的某保留时间区间,应用熵最小算法于该保留时间区间的质谱数据,得到该保留时间区间中每个可观察纯组分的一级质谱图。

(3)将发现的各个纯组分的一级质谱数据录入数据库,并做系统性命名。

(4)依据每个纯组分的ms1谱图,对其中单个或多个一级质谱m/z峰,找到与它们相对应的二级质谱(ms2)谱图。

(5)将这些和ms1中m/z峰相关的二级质谱(ms2)谱图也导入数据库。

(6)重复步骤(4)到(5),从前一级质谱中(例如ms2),找到其中单个或多个质谱m/z峰相对应下一级质谱(例如ms3),并录入数据库。

(7)将ms1中每个含有可观察组分的保留时间区间,重复步骤(2)-步骤(6),直至完全分析该样品的ms1区间。

更进一步的,所述的方法还可包括:

(8)对于其他样品,重复步骤(1)-步骤(7),得到该样品的组分质谱数据库。

进一步地,步骤(1)中的质谱分析设备包括液相色谱质谱仪等,其至少具有二级质谱功能,例如可以包括四极杆飞行时间质谱仪,三重四级杆质谱仪,离子阱质谱仪,离子阱飞行时间质谱仪,串联飞行时间质谱仪或静电场轨道阱组合式质谱仪中的任意一种。

进一步地,步骤(1)中得到的ms1和msn质谱层级取决于使用色谱质谱联用仪器的仪器设置。

进一步地,步骤(1)仪器设置为首先得到ms1质谱,再根据ms1中的质谱峰得到对应的msn质谱。

进一步地,步骤(1)仪器设置也可以为同时得到ms1和msn质谱。

进一步地,步骤(3)中熵最小算法包括btem、tbtem、mrem和其他基于熵最小算法的方法中的一种或几种,但不限于此。

进一步的,步骤(3)还包括:将发现的各个可观察纯组分的一级质谱数据录入数据库,并作系统性命名。

进一步的,步骤(5)还包括:将发现的各个可观察纯组分的二级质谱数据录入数据库,并作系统性命名。

相应的,在前述步骤(6)和/或步骤(7)和/或步骤(8)中,可以将发现的各个可观察纯组分的多级质谱数据录入数据库,并作系统性命名。

进一步地,步骤(3)中对于一纯组分的一级质谱数据,如果有其他数据库对此成分定性,能够得到分子结构,就将可以其命名为对应的物质。

进一步地,步骤(5)中对于一纯组分的二级质谱数据,如果有其他数据库对此成分定性,能够得到分子结构,就将可以其命名为对应的物质。

相应的,在前述步骤(6)和/或步骤(7)和/或步骤(8)中,对于每一可观察纯组分的多级质谱数据,若有已知数据库能予以定性,从而得到相应分子结构,则可以将此可观察纯组分命名为对应的物质。

进一步地,步骤(3)中对于一纯组分的一级质谱数据,如果没有其他数据库对此成分定性,则对其自行系统命名。

进一步地,步骤(5)中对于一纯组分的二级质谱数据,如果没有其他数据库对此成分定性,则对其自行系统命名。

相应的,在前述步骤(6)和/或步骤(7)和/或步骤(8)中,对于每一可观察纯组分的多级质谱数据,若无已知数据库能予以定性,则对此可观察纯组分自行进行系统命名。

进一步的,步骤(7)中每个含有可观察纯组分的保留时间区间包括可用算法检测到组分的保留时间区间或可用肉眼观测到组分的保留时间区间。

本发明的方法使用熵最小算法来分析解谱,解谱方法基于数学算法,相当于更智能化的进行数据分析。其中,张华俊发表了tbtem(weightedtwo-bandtargetentropyminimizationjamsocmassspectrum,14(2003)1295-1305)以及mrem(mrem,multi-reconstructionentropyminimization,参阅appliedspectroscopy,61(2007)1366-1372)等一系列em方法,应用于质谱解析,并基于em,发明了一种分析混合物成分的方法(cn103940934b)。该发明是通过将混合物样品,进行色谱技术分离并通过采样得到混合物谱图,再通过熵最小算法的系列方法,计算得到各重建纯谱及其对应的伪浓度。此发明可以快速的分离混合物,并得到混合物中各物质的质谱纯谱。

进一步的,对于液质联用设备(lc-ms)等设备得到的质谱数据,其实m/z位置比丰度重要。得到某组分的质谱纯谱之后放入数据库,之后再有类似的物质,只要m/z峰的位置相同,那么可以确定这是相同的物质。因此,本发明使用熵最小算法不需要参照物,不需要预先知道质谱纯谱的模样,就能准确的从样品中分离出每个可观察组合的纯质谱,在任何厂家的仪器上,都能适用。这样的话,利用熵最小算法解谱得到的纯谱,就能构建跨厂家的一个通用数据库了。

例如,本发明可以将任何液相色谱质谱仪分析的液相混合物进行分析,并得到里面所有成分的质谱纯谱。尤其是天然产物中成分复杂,一般会含有上百种物质,因此对于一般的研究人员来说,分析其中的成分十分困难。一般研究人员只会分析天然产物中含量较高的物质,体现在lc-ms数据上也就是峰高较高或较明显,较容易分析的部分。本发明的方法,可以分析天然产物中痕量成分。这些痕量成分,虽然含量较少,但是种类繁多,因此痕量成分的分析一直是困扰研究人员的难题。然而,利用本发明的方法,可以使得这些劣势变为优势。通过分析并得到这些痕量成分的质谱纯谱,可以大大丰富数据库的质谱数据。

本发明的方法不仅可以适用于使用液相色谱质谱仪分析的样品,同时,由于气相的样品也可以包含复杂的混合物成分,因此,本发明的方法也适用于可以使用气相色谱质谱仪分析的样品。例如,使用气相色谱质谱仪将气相样品进行分离并得到样品的一级质谱图。由于气相分子分子量较小,而且电离方式一般为电子电离,因此得到一级质谱通常情况下为碎片离子(insourcefragmentation),这些一级质谱的碎片模式(fragmentationpattern)已经可以来进行物质的鉴定,因此可不需要二级质谱来定性。得到气相样品混合物的一级质谱,利用熵最小算法得到其中各组分的质谱纯谱,和数据库比对后放入该样品物质组成的数据库即可。

如下将结合本发明的附图和实施例,进一步的对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非特别限定,本发明所用术语均为本领域技术人员通常理解的含义。

实施例1:快速建立人参的液相质谱组分数据库

仪器:岛津(shimadzu)的液相色谱-三重四级杆质谱仪(lc-ms8040)。反相c18液相色谱柱(200mml.x2.0mmi.d.,2.2μm)

实验材料:产于加拿大的西洋参,酒精

将产自加拿大的西洋参(标号为西洋参1号)磨成粉末,溶于酒精后经过加热过滤等步骤,最终获得人参提取液。将人参提取液溶于酒精,以0.5ml/min的速度进样于液相色谱质谱仪,用以水/0.1%甲酸(a)和乙腈/0.1%甲酸(b)为流动相来进行分离,并使用三重四级杆质谱仪来进行采样。设置为首先得到一级质谱图,再根据一级质谱谱图中的质谱峰打碎得到二级质谱图。类似的,再通过二级质谱图得到三级质谱图。最终的一级质谱的tic谱图如图2所示。

如图1的流程图所示,选取此一级质谱tic谱图的某一保留时间区间,通过熵最小算法进行运算并解谱。例如,选取24.72分钟至25.02分钟的保留时间区间,通过熵最小算法解谱后,得到此保留时间区间的两个组分,即组分1和组分2,同时得到物质1和物质2的一级质谱纯谱。将得到的两个组分的一级质谱录入数据库,并与现有的数据库比对。由于没有比对成功,那么仅将他们进行系统性命名即可,例如,组分1命名为西洋参1号_24分钟_01,组分2命名为西洋参1号_24分钟_02。之后,将两个组分的ms1谱图,找到其中单个或多个一级质谱m/z峰相对应的二级质谱(ms2)谱图,并导入数据库。如图1所示,组分2中的一级质谱含有m/z=407.5,mm/z=425.5,m/z=443.5,m/z=749.5等,找到这些质谱峰对应的二级质谱,录入数据库。之后依次选取其他主要一级质谱峰,并依次进行二级质谱分析,并将二级质谱图导入数据库。当将一级质谱分别进行二级质谱分析并录入数据库完成后,再重复以上步骤进行三级质谱分析,并录入数据库。

之后,选取其他区间,并重复以上步骤。例如,选取21.82分钟至22.05分钟的区间,通过熵最小化算法进行解谱,得到一个组分即对应的一级质谱纯谱,如图3所示。将此质谱纯谱与现有的数据库比对,得到此物质为人参皂苷f11。将此一级质谱录入数据库,并命名为西洋参1号_21分钟_人参皂甙f11。接下来将此一级质谱的质谱峰逐一进行二级质谱分析并录入数据库。相应的操作方法可以参阅图1所示。

通过逐一对此一级tic谱图的所有可观察到组分的区间进行分析,并用熵最小算法进行解谱,得到其中所有组分的“纯”一级质谱,共136种物质的一级质谱。将这些“纯”一级质谱及对应的n级质谱图录入数据库,得到此西洋参中136个组分的质谱数据库。

接下来,重复以上步骤,将产自美国的另一西洋参,标号为西洋参2号进行研究。并将其各个组份的ms1以及msn质谱纯谱录入数据库。由此可以快速建立基于人参组分的液相质谱数据库。

实施例2:快速建立川芎的液相质谱组分数据库

将川芎提取液溶于酒精,并进样与安捷伦的三重四级杆质谱仪。根据安捷伦的仪器特点,设置同时得到一级质谱与多级质谱的tic谱图。利用熵最小算法,对每个保留时间区间进行解谱,得到川芎lc-ms一级质谱中的所有组分的一级质谱的“纯谱”。将这些纯谱与已有的数据库进行比对,并分别录入川芎液相质谱数据库。

对于川穹每个组份的一级质谱进行ms2分析,得到二级质谱谱图,并录入数据库。

实施例3:快速建立桉树油组分的气相色谱质谱组分数据库

仪器:安捷伦gc-ms,hp-5ms毛细柱管(30m,0.25mmi.d.,0.25μm)。

实验材料:七种桉树油

实验过程:桉树油按照中国药典制备,将桉树油直接进样与gc-ms,进行分离并得到tic谱图。

如图4所示为生长地为蒙山县的桉树的gc-ms的tic谱图。

首先分析生长地为蒙山的gc-mstic谱图,编号为桉树油1号。虽然只有5种含量较高的物质,其实经过仔细分析,此桉树油中有很多痕量成分和共流出痕量成分。如图5所示,在tic区间8.55分钟-8.66分钟内,有共流出峰。经过熵最小算法解谱,得出其中共有四个组分,并同时得到这四个组分的质谱纯谱。将这四个组分的一级质谱与nist2017数据库比对,得到四个物质的结构和名称,分别为1:butanoicacid,2-methyl-,3-methylbutylester;2:1,6-octadien-3-ol,3,7-dimethyl-,formate;3.3-oxatricyclo[4.1.1.0(2,4)]octane,2,7,7-trimethyl-;以及4:butanoicacid,3-methyl-,3-methylbutylester;

将这四个组分按照命名规则,系统性录入数据库。经过熵最小算法解谱,共发现115种物质。将这115种物质的质谱图录入数据库,得到蒙山县桉树油1号中气相质谱的组分数据库。

重复这个过程,来使用熵最小算法分析其他6种桉树油,并录入桉树油的气相质谱组分数据库。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1