一种基于向量模型的气相色谱质谱谱图检索方法

文档序号:8258782阅读:234来源:国知局
一种基于向量模型的气相色谱质谱谱图检索方法
【技术领域】
[0001] 本发明涉及一种气相色谱-质谱联用仪(GC-MS)。
【背景技术】
[0002] 应用气相色谱-质谱联用仪对混合物样品进行定性分析,首先要对采集到的 GC-MS原始数据进行分析,并提取干净的质谱图,然后需要将它们与质谱库中的标准谱图进 行对比,通过比较未知物质谱图与标准质谱图的相似程度来确定该样品包含何种成分,最 终实现定性分析。由于每次分析实验都会产生大量的数据和质谱图,并且质谱库中存有成 千上万的标准谱图,若仅采用人工鉴定的方法对未知物进行判定,将是一项非常耗费时间 和人力的工作。因此,有必要采用计算机辅助的形式代替人工鉴定的方式,以实现对混合 物样品正确、快速、可靠的定性分析,该方法仅需要低分辨率的质谱图即可实现未知物的鉴 定。实现计算机辅助定性分析的关键技术是质谱谱库检索算法的实现。
[0003] 目前,大部分的商用气相色谱-质谱联用仪都带有自己的质谱数据库检索系统, 以实现计算机辅助定性分析。其中,检索算法的实现是检索系统的重要组成部分,检索算法 的研宄对提高GC-MS定性性能发挥着重要的作用。
[0004] 质谱谱库检索原理包含三部分,分别是质谱图的简化及编码、标准质谱库的建立、 检索算法的实现。在不损失质谱图的重要信息及不影响定性分析的情况下对质谱图进行简 化及编码,主要目的是减少存储空间并提高检索速度。另外,实现质谱库检索的前提是标准 质谱数据库的建立。标准质谱数据库中保存了在标准电离条件下得到的已知化合物的标准 质谱图,同时也存储了化合物的名称、分子式、结构等信息。应用一定的检索算法,比较标准 电离条件下得到的未知化合物的质谱图与标准谱图库的质谱图的相似性,并将检索结果按 照相似程度的大小排列,质谱图的相似程度越高,说明两者越可能是同一种物质,通常用匹 配因子表示质谱图的相似程度,检索结果是按照匹配因子的大小排列的。
[0005] 质谱数据库检索类型主要有两种,一种是"一致性"检索,另一种是"相似性"检索。 在"一致性"检索中,假设标准质谱数据库中包含未知物的谱图。"相似性"检索则是假设标 准质谱数据库中不包含未知物的谱图。通常情况下检索方法均为"一致性"检索。质谱数 据库检索系统通过计算质谱数据库中的标准质谱图与未知物质谱图的相似程度,并将检索 的结果按照匹配因子的大小排列,匹配因子越大,说明两个谱图越相似,质谱数据库中参考 物与未知物越有可能是同一种物质。
[0006] 质谱数据库检索算法主要包括数据预处理和质谱图相似性计算两步。首先,需要 对质谱图进行预处理以提高检索速度,数据预处理主要包括谱峰选择、峰强度的比例缩放。 质谱图相似性计算的方法有多种,如两幅质谱图中峰强差的平方和、两幅质谱图中峰强差 的绝对值之和、两谱峰向量间夹角的计算等。质谱数据库的检索模式主要有两种,分别是正 检索与反检索。在正检索中,在计算匹配因子时,未知物与标准质谱图中的所有质谱峰全部 参与计算。而在反检索中,只有在未知物质谱图中出现而未在标准质谱图中出现的质谱峰 不参与计算。

【发明内容】

[0007] 本发明的目的是提出一种可以提尚检索性能的GC-MS检索方法,以提尚其定性分 析的能力。本发明的技术方案如下:
[0008] 一种基于向量模型的气相色谱质谱谱图检索方法,包括下列步骤:
[0009] (1)根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;
[0010] (2)对质谱数据库里的标准质谱图进行筛选:将未知物质谱图中的最强锋与质谱 库中的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图 中的第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此 类推,直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行 比较为止,若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就 将这个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛 掉;
[0011] ⑶峰强度比例缩放:一张质谱图中包含质荷比m/z和强度I两个信息,一张质谱 图的特征也是由m/z和I共同决定的,对未知物的谱峰和标准质谱图的谱峰进行强度比例 缩放,谱图强度比例缩放的权重因子为(m/z) 3I°_5;
[0012] (4)采用基于向量空间模型的方法进行谱图的相似性计算,方法如下:
[0013] a)将每幅质谱图都可以表示成一个n维向量(w。w2, . . .,wn),其中,n表示质量数 的个数,向量的每个分量&表示与第i个质量数相对应的权重值,即w,. = (m/z^/f5;将未知 物质谱图与质谱库的标准质谱图都表示成向量形式,未知物质谱图的向量表示形式Ms = (wsl, wS2, . . . wSm),其中,= (w/z))/f5是未知物质谱图中第i个质量数对应的权重值,标 准质谱图的向量表示形式MK= (wK1, wK2, . . . WiJ,其中,= (w/z))/f5是标准质谱图中第i 个质量数对应的权重值;
[0014]b)采用基于p范数的相似度计算未知物质谱图与标准质谱图的相似程度,未知物 质谱图向量Ms与标准质谱图向量MK之间的相似度计算公式为
【主权项】
1. 一种基于向量模型的气相色谱质谱谱图检索方法,包括下列步骤: (1) 根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取; (2) 对质谱数据库里的标准质谱图进行筛选:将未知物质谱图中的最强锋与质谱库中 的标准质谱图第一至第八强峰进行比较,看是否有相匹配的峰,然后将未知物质谱图中的 第二强峰与质谱库中的标准质谱图第一至第九强峰比较,看是否有相匹配的峰,由此类推, 直到将未知物质谱图中的第八强峰与质谱库中的标准质谱图第一至第十六强峰进行比较 为止,若标准质谱图的谱峰中至少有5个峰与未知物质谱图中的谱峰相匹配,那么就将这 个标准质谱图保存下来并进入到下一步的计算,其他不满足条件的标准质谱图都被筛掉; (3) 峰强度比例缩放:一张质谱图中包含质荷比m/z和强度I两个信息,一张质谱图的 特征也是由m/z和I共同决定的,对未知物的谱峰和标准质谱图的谱峰进行强度比例缩放, 谱图强度比例缩放的权重因子为(m/z)3I°_5 (4) 采用基于向量空间模型的方法进行谱图的相似性计算,根据计算结果进行谱图匹 配,方法如下: a) 将每幅质谱图都可以表示成一个n维向量(Wpw2, . . .,wn)其中,n表示质量数的个 数,向量的每个分量^表示与第i个质量数相对应的权重值,即
;将未知物质 谱图与质谱库的标准质谱图都表示成向量形式,未知物质谱图的向量表示形式Ms =(wS1,wS2, ...wSm),其中,
是未知物质谱图中第i个质量数对应的权重值,标准质 谱图的向量表示形式MK= (wK1,wK2,. . .wKn)其中,
是标准质谱图中第i个质 量数对应的权重值; b) 采用基于p范数的相似度计算未知物质谱图与标准质谱图的相似程度,未知物质谱 图向量Ms,与标准质谱图向量MK之间的相似度计算公式为
c) 计算得到的Fd的值越大,表明未知物质谱图向量Ms和标准质谱图向量MK越相似,从 而表明未知物质谱图与标准质谱图越相似,未知物与标准谱图代表的物质越有可能是同一 种物质; d) 引入了峰强度比例因子.
式中,NSM为未知物质谱图与 标准质谱图共有峰的个数,若
则n= 1,否则,n= _1,匕用来比较未知物 质谱图与标准质谱图的谱峰强度的一致性,FK越大,表明两个谱图越相似; e) 结合Fd和FK两个因子,得到匹配因子
式中,队表不未 知物质谱图中峰的个数,用匹配因子MF表示未知物质谱图与标准质谱图的相似程度,检索 结果按照MF的大小排列,MF越大,表明两个谱图越相似,两者就越可能是同一种物质。
【专利摘要】本发明提供一种基于向量模型的气相色谱质谱谱图检索方法,包括下列步骤:根据未知物质的原始GC-MS数据,进行气相色谱质谱纯净谱图的提取;对质谱数据库里的标准质谱图进行筛选;峰强度比例缩放;采用基于向量空间模型的方法进行谱图的相似性计算,根据计算结果进行谱图匹配。本发明具有较好的检索性能。
【IPC分类】G06F17-30
【公开号】CN104572910
【申请号】CN201410830581
【发明人】赵学玒, 汪曣, 杜康, 蒋学慧, 孙传强, 王博, 蔡彪
【申请人】天津大学
【公开日】2015年4月29日
【申请日】2014年12月26日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1