分析选定的多组分样品的方法

文档序号:6466901阅读:845来源:国知局
专利名称:分析选定的多组分样品的方法
技术领域
本发明涉及一种对数据、特别是对从包含多个组分的系统(例如含有多个未经鉴定的化合物的组合物)中得到的数据进行分析的方法,以及用于实施这种分析的程序和计算机。
在环境监测和医疗诊断分析中,分析人员可得到含有多个未经鉴定的化学或生物组分的样品(例如体液、废液或废气样品),比方说包含几百种化合物,分析人员需要确定出抽样分析的物质是否会造成环境危险或含有病状迹象。目前使用的一种典型技术是所谓的埃米斯(Ames)测试,这种技术是使一种细菌的选定突变菌株暴露在样品中,并通过测定细菌的突变程度来评估环境样品的毒性(致突变性),其中细菌由于发生突变,因此具有自然(野生)菌株中存在而选定的突变系中缺乏的特性。
我们可以看到,这样的测试仅仅表明特定的样品具有毒性,而并没有指出产生毒性的特定化合物或一组化合物,也没有给出预测其他样品毒性的基准。
同样,大多数诊断分析仅仅检测出一种单一化合物的存在或过量,但却没有指出还可表征特定病状或其他病状的其他化合物的存在或过量。
可以用色谱技术(例如用液相色谱或气相色谱)分离多组分混合物中的各个组分,也可以用光谱技术(例如质谱、IR、UV、拉曼、ESR和NMR光谱)来测定各个组分的光谱特征;然而,色谱分离一般无法分离出由几百种化合物组成的混合物中的每一种组分,而且色谱分离很昂贵、耗时,一般来说,对一个多组分样品的所有馏分或组分进行毒性分离或其他检测是不切实际的。
因此,人们需要一种对多组分混合物进行分析的方法,这种方法能够整体预测混合物的效应(例如毒性),而且可以集中并有可能鉴定出对这种效应起主要作用的组分。
现在,我们已经找到了这样的方法,它能够实现这样的功能,即对大多数相似的样品来说,我们可以得到样品效应的数据,也可以得到样品的分离馏分(例如样品的色谱分离馏分)的特征光谱数据。
因此,从一方面来看,本发明提供了一种用于分析选定的多组分样品的方法,以便预测样品的某种本征值(property value),这种方法包括i)确定多个相似的多组分样品的所述本征值;ii)对每一种所述相似样品来说,a)沿一个分离量度(dimension)分离样品的组分,b)在沿以所述分离量度的多个位置上对样品的多个部分进行采样,c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,d)为所述分离量度的各个部分选择几组所述图形(pattern),并且从其中确定所述部分的各个组分的特征图形和分离量度分布曲线;iii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此可以鉴定出所述相似样品中的类似组分;iv)将所述相似样品中的组分的所述本征值和所确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型;v)对所述的选定样品来说,A)沿一个分离量度分离其组分,B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,C)确定每一部分的图形,该图形可以表征该部分的单一或者多组分的性质,D)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出这些部分的各个组分的特征图形和分离量度分布曲线,E)将所述模型施加到所述选定样品中各个组分的已确定分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
“本征(property)”指的是任何能够被指定数值的性质;然而它也可能是例如零或者一,其中间级度(gradation)是不可能或不需要的,例如生或死、感染或未感染等等。
本发明的方法涉及到根据对相似样品的分析来构建一种预测模型,对于这样的相似样品来说,其本征值已经确定,然后将这种模型施加到无需确定本征的样品的分析结果中。由于相似性意味着样品是相同的类型,或具有相同或相似类型的来源,例如,样品都是来自于相同工艺或操作的废气或废液,或者是从相同物种的成员中的相同体液、组织、渗出液等中取得,例如血液、血清、血浆、尿液、粘液、唾液、粪便、汗液、体内气体等等。因此,“相似”的样品将共同含有“选定”样品中存在的多个、优选的是全部或绝大部分组分。
本发明的方法涉及对多组分样品的各个组分进行分离。这样的分离可以是但并不需要是完全的,而目每个取样部分(例如对于质谱分析来说)可以因此含有一种或多种成分。所以,如果借助于气相或液相色谱法进行分离,那么同样的组分可存在于沿分离量度(例如洗脱时间)的几个相邻部分中。因此,在用气相色谱-质谱(GC-MS)法时,这种方法涉及对相邻部分的质谱图谱的研究,以便鉴定出各个组分的MS特征峰,并且计算出各个组分沿洗脱时间的GC分布曲线。如果需要的话,可以排除分离量度的无用部分的数据,这样,需要确定分布曲线的组分可以仅仅需要包括所存在的全部组分的一个子集。那些已确定的分布曲线的强度(例如,峰高、峰的面积或简单的是/否的值)可用于预测模型的构建和应用。通过对不同样品的数据进行比较可精确制定出预测模型,这样就可以识别出在分布曲线(例如保留时间或调整保留时间)和图形(例如质谱)方面相同或非常相似的类似组分。
对许多样品的分析来说,一个供应商可以向用户提供预先计算好的预测模型,因此,从这一方面来看,本发明提供了一种用于预测多组分样品的本征值的预测模型的产生方法,这种方法包括i)确定出多个相似的多组分样品的所述本征值;ii)对每一种所述的相似样品来说,a)沿一分离量度分离它的组分,b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,
d)为所述分离量度的各个部分选择几组所述图形,并且从其中确定所述部分的各个组分的特征图形和分离量度分布曲线;iii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;iv)将所述相似样品中各个组分的所述本征值和确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型。
从另一方面看,本发明提供了一种对选定多组分样品进行分析的方法,以预测它的本征值。这种方法包括A)沿一分离量度分离样品的组分,B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,C)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,D)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出该部分的各个组分的特征图形和分离量度分布曲线,E)将所述模型施加到所述选定样品中各个组分的已确定分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
同时,正如下面将要进一步讨论的,本发明的方法可以更广泛地应用于多组分样品,以下将进一步详细描述的这个方法,涉及到利用产生各个部分的色谱分离和产生图形的光谱分析对包含大量化合物的样品进行分析,以得到定量性质例如物理、化学性质,特别是生物学性质(例如毒性、致突变性、病状、基因型、治疗效果等等)。
虽然如上所述,我们可以使用许多不同的光谱分析方法,但光谱的波峰(或波谷)尖锐的技术是特别优选的,例如NMR,尤其是质谱(MS)。同样,优选的是采用液相色谱或更好的气相色谱进行分离。
可以利用能产生样品的色谱分离光谱数据的设备,例如GC-MS设备。
因此,用于按照本发明的分析方法的起始数据可以认为是一个二维矩阵(即色谱部分的数据和每一个色谱部分的光谱数据),再加上用于产生预测模型的每一样品的确定本征值和用于产生选定样品的预测值的二维矩阵(即色谱部分的数据和每一个色谱部分的光谱数据)。同样,色谱和光谱数据将包括强度和位置(例如洗脱时间或质量数或质荷比)数据。
为了减少所需的计算时间,这一点在样品含有几百种化合物的时候特别重要,我们可以通过去掉峰高低于预设最小值(例如,在馏分中样品的化合物的量为零或非常低,或者光谱的波峰处于噪声级)的数据,或者去掉与已知或认为对本征无影响的化合物相对应部分的数据(例如较低分子量、快速洗脱的化合物),来限制输入数据。
一般来说,数据矩阵可以首先通过去除在洗脱时间没有组分流出(即色谱信号(高度)低于预设界限)的洗脱时间数据而加以简化。然而,这种删除最好是在沿时间方向的位置上进行,在这个位置上信号与峰高的关联很小。
可以通过以下方式实现这一点设定一个相邻波峰比值(,例如比值为0.1到0.4,优选的是0.3,并且只有在波峰的信号比率低于这个值时才去掉这个数据,而不是在信号达到跟随波峰分最小值的时间位置上或者在信号低于预设清除极限的时间位置上清除这个数据。清除极限本身一般根据用户的需要进行设置——一个更高的值会去掉更多的数据,因而会忽略更多的次要组分,反之也是如此。清除界限一般设定为最小可区分信号高度的5%-10%。很明显,清除极限越低,就会保留更多的数据,这样就会分析更多的组分。
2D GC-MS数据能够包括由各种原因产生的背景噪声。检测器性能方面的变化能够导致色谱基线的偏移和漂移,而且柱流失能够导致背景光谱的存在。这就需要我们在去除零信号或噪声信号保留时间之后,对剩余的色谱峰进行背景校正。这一点可以通过对一次(即线性)估算基线进行计算来实现,这条基线具有的斜率与峰簇任一侧的零组分区域的外推直线的斜率近似。
这样,对于以这种方式选定的每一色谱峰簇来说,都可以对单独的光谱数据集进行标准化,例如,设定最大的谱峰高度为1或总的谱峰面积为1,或者也可以把最大谱峰高度设定为与选定色谱峰簇的峰面积成比例的值。
优选的是,以这种方式选定的色谱峰簇延续至少20个分辨时间阀值(valves),即与它们关联的至少有20ms谱项。
随后,光谱数据的数据简化可以同样进行。因此,对MS来说,如果同时考虑整个洗脱时间,那么在可记录范围内的大多数,甚至全部质量数都包含至少一个组分的信号。然而,在色谱部分的质谱图中,许多质量数并不包含信号或者所包含的信号仅仅是由于噪声引起的。这种质量数的存在降低了解析过程的质量,所以,最好在解析之前就把它们从谱项中消除。
当然,检测出零信号的质量数是没有价值的,可以用形态学标准和F测试(参看Shen et al.Chemomem.Intell.Lab.Syst.5137-47(2000))相结合来检测由于随机噪声造成的信号的质量数,F测试利用了这样一个事实,即噪声的频率比一种化学组分发出的信号的频率更高。这样,在解析之前,就消除了高达约90%的质谱数据。
随后,调整的光谱数据就可以解析为单波峰。这实际上涉及到求解方程X=CST+E (1)对C和S来说,X是被记录的数据,C是色谱分布曲线,S是质谱,T表示矩阵位移,E是剩余矩阵。
这个方程可以用多种方法求解。然而,优选的方法是Manne et al in Chemom.Intell.Lab.Syst.5035-46(2000)中描述的GENTLE方法,该文献的内容在此作为参考并入本文。
首先,例如用简化的Borgen方法(参见Grande et al.,Chemom.Intell.Lab.Syst.5019-33(2000),该文献的内容在此作为参考并入本文)找出A的关键谱项S。(“A”在这里是化学等级)。在峰簇中,关键谱项是最纯的谱项。可以通过把数据标准化为数据的第一个奇异(singular)向量上的常数投影而找到关键谱项。(术语“奇异”是指该向量是一个奇异值解析(SVD)的结果,SVD是一种标准的数值计算方法。在矩阵式中X=U∑VT,U的第一个列向量有时被称为第一左奇异向量,它被用来进行投影。随后,可以在凸边上的极值点处发现关键谱项,并且该关键谱项被界定为如此出现的数据的表示。关键谱项S0表示真实谱项S的初始估计值。真实色谱分布曲线C0的初始估计值C0可以随后通过求解关于C的方程(1)得到,因此,C0=XS0(S0TS0)-1(2)为了由初始估计值C0和S0得到真实分布曲线和谱项的估计值C和S,需要借助于迭代过程。可以通过确定方程(3)和(4)的变换矩阵T实现这一步C=C0T (3)ST=T1S0T(4)T是几个初等矩阵的乘积,可以用迭代方法生成T,通过在C和S的中间解(intermediate solution)上设定某些限制可以使迭代方法变得易解。因此,对S和C来说,我们假定峰值(无论是在色谱中还是在质谱中)必须为正,而对C来说,我们假定一个纯的色谱峰应该是单峰。例如,下面的标准可用于实现解析和对解析进行评估组分窗口可用线性回归使一个组分在色谱区域之外的非零偏差最小,这个区域在噪声极限之上。
平滑度可以假定一个化合物的色谱峰是连续的(这样就可以把它和噪声区分开)。
显著性一个组分的色谱峰的顶点强度一般应该明显高于数据的决定极限(即前面指出的消除极限或最小可区分信号高度);一般来说,只有顶点强度至少是决定极限两倍的峰值才可能被接受。
完全性在选定的色谱峰簇完成之前,优选的是检查一下解析峰是否降低到噪声水平;如果没有,那么应该用一个更大的峰簇重复这个过程。
可以用一个相对大的数目(例如8到12,优选的是10)启动,从而逐阶得到化学等级或关键谱项的数目。在根据关键谱项的特定数目对计算出解(solution)之后,可根据上面的标准对解进行评估。如果分布曲线的解析质量很差,那么就应该用更大数目的关键谱项重复解析过程,更一般的做法是,用更小数目的关键谱项重复解析过程。
在解析之后,可以对解析的质谱S标准化,这样最大的强度为1.0,而色谱分布曲线C可用以下方程重新计算C=XS(STS)-1(5)然后,在光谱中就会给出定性信息,与此同时,在色谱分布曲线中会给出定量信息(该色谱分布曲线可积分,以便得到面积)。
实际上,解析过程涉及到比较一个样品的选定质谱图,以便鉴定出样品中各个化学组分的特征谱线组,并且解析过程还涉及到这些组分的特征色谱分布曲线的确定。随后,可把各个组分的列表做为一个样品的输出数据,这些组分可用质谱谱线和它们的色谱分布曲线的位置(即洗脱时间)和面积进行表征。对多个样品进行这样的操作,就可以产生一个预测值矩阵,而这个矩阵就可用于产生预测值模型。举例来说,Y=Xb,在这里,X是预测值矩阵,b是回归系数(预测值模型),Y是样品本征的预测值。
因此,在生成预测值矩阵的过程中,可对不同样品的输出数据进行比较,并测定相似组分(即化合物)的存在。随后,可用回归分析确定每一个组分对样品总的测定本征(例如致癌性)的贡献的相对大小和负面或正面性质。然后,这些贡献值就可以表达为每一个组分贡献的预测值模型。通过把这个预测值模型应用到另一个样品的已确定组分浓度的分布曲线中,就可以简单估算另一样品的本征值。
一般来说,预测值矩阵的产生包括如下几个步骤i)载荷已测定本征值的样品的解析分布曲线,每一个样品的分布曲线一般包括面积(色谱峰面积)、保留时间和每一个解析组分的标准化质谱图;ii)使各个解析的分布曲线按照保留时间递增的顺序排列;iii)将保留时间在特定范围内(1到8分钟,典型为4分钟)的不同组分的质谱进行比较,以便鉴定出两种或两种以上样品中共有的组分,从而就可以减少随后的回归分析的变量数目;iv)为样品的解析组分建立回归模型,该模型把已测定的本征值与几组保留时间和面积值联系起来。
比较步骤(iii)一般涉及到有相似保留时间的不同样品中i和j组分的质谱Si和Sj之间的光谱相似指数Sij的测定。Sij可表示为Sij=SiTSj(6)而且,如果存在预置极限(例如0.9)之上的数值,那么组分i和j就可以分类为类似物。
当预测值矩阵已经建立时,可把本征的测定值与所计算的样品的解析组分的几组面积联系起来,从而对分类模型或回归模型进行评估。利用商业上购得的多元分类/回归分析计算机程序(例如从挪威卑尔根的模式识别系统公司购得的天狼星程序),可由预测值矩阵对模型进行计算。
在附图的

图1中,示意性地给出了一个典型预测模型的例子。在这个图中,x轴是组分的保留时间,y轴是需要测定本征的样品中解析的每一种组分的回归系数值。在该情形中,所测定的本征是致突变性(用埃米斯测试测量),而样品是环境污水样品。
对具有更大回归系数的组分的生物学影响更大,而且,正如我们看到的,对具有更长保留时间的组分的生物学影响也更大。
如果需要的话,通过在GC-MS分析之前将具有已知质谱而样品中不存在的化合物掺入样品中,可使比较步骤容易实施。这些化合物的保留时间中的任何变化都可用来决定保留时间的选择范围的大小,这样就可以确定相似化合物。不过,那些掺加化合物的分布曲线不会用在预测值矩阵的生成过程中,因为这些化合物在未掺合的样品中并不存在,它们无疑对本征值并没有贡献。此外,在注入到GC-MS的样品的定量中,这种掺加化合物可用于校正样品之间的变化,也就是说,可以相对于掺加剂的峰面积来使这些峰面积标准化。
当然,上面的讨论主要是把多组分化学样品的GC-MS谱项与生物学影响的可测定数值联系起来,而本发明中的方法可适用于更一般的情况。举例来说,这些方法可用于检测食物样品的生物学或化学污染,例如被诸如DSP、PSP、ASP、黄曲霉毒素和肉毒杆菌毒素之类的毒素污染;或用于医学样品(例如淋巴液、血液、血清、血浆、尿液、粘液、精液、唾液、粪便或组织样品)的分析,以检测出各种情况例如细菌和病毒感染、与蛋白感染素关联的疾病、诸如阿尔茨海默病、马鞭式创伤(whiplash)等生理状况,或者滥用药品的情况(例如运动员使用违禁药品或物质)。然而,这些方法一般用于可测定本征与多个组分的一组“特征”信号联系起来的任何系统。
本发明的方法尤其可用于医学和法医诊断。因此在一个实施例中,如果用身体组织或液体(例如血液、血浆或血清)做样品,“本征”可以是正常/健康或不正常/不健康,并且如果它们出现在特定的浓度范围之外,那么就可以鉴定出与异常或健康不佳的状况相联系的组分。同样,可以鉴定出与特定的异常或病状相关联的组分或几组组分。在另一个实施例中,在人死后可对体液、组织或气体进行分析,并且生成的预测值模型可用于确定死亡时间,例如谋杀的受害者的死亡时间。
同样,这些方法也特别适用于对食品(例如奶酪)进行检验,以检测出异常情况或污染(化学或生物学)。
如果需要的话,本发明的方法可以扩展到用于鉴定样品的一种或多种解析组分,这可以通过把组分的特征数据(例如色谱分布曲线和/或质谱)与已知化合物(或其他组分)的相似特征数据进行比较而得以实现,例如可参考化学品资料库的计算机化数据库。举例来说,本发明的方法可用作一个粗过滤器,来鉴定可用于一个样品(或者个人或试验场地的多个样品)的更特殊或更精确的诊断测试。这样,无需进行全部有价值的诊断测试就可以发现问题。
从又一方面看,本发明还提供了一种计算机软件产品(例如磁盘、磁带、导线、存储器或其他载体),这种产品带有一个用于执行本发明方法的计算机程序。
从另一方面看,本发明提供了一种设置有用于实施本发明方法的程序的计算机。
在附图的图2和图3的流程图中,示意性地图解说明了按照本发明的程序操作。
参照图2,其图解说明了预测模型的构建过程。数据输入(步骤I)包括载荷多个样品的GC-MS数据和已测定的本征值。数据简化(步骤II)包括消除空白保留时间和消除背景(即鉴定出GC峰簇),消除空白质量数和消除MS背景(即从每个GC峰簇的质谱中鉴定出几组质谱峰)。分布曲线解析(步骤III)包括在这样的GC峰簇中鉴定出各个组分的质谱,并且为每一个解析组分确定出GC分布曲线(峰保留时间和峰的面积)。预测模型制作(步骤IV)包括在不同样品之间将解析组分的分布曲线进行比较,以鉴定出两种或两种以上样品中共有的组分,并且进行回归分析,为每一种解析组分提供表示该组分对测定本征的影响的回归系数,然后由所产生的预测值矩阵制作预测值模型。
参照图3,其图解说明了预测值模型的应用。数据输入(步骤I)包括载荷样品的GC-MS数据。数据简化(步骤II)和分布曲线解析(步骤III)与在图2中描述的一样。数值预测(步骤IV)包括将预先计算好的预测模型应用到解析分布曲线中。很明显,确定估算的本征值时只会考虑那些在构建预测模型时用到的组分。
正如前面所提到的,预测模型不需要根据表示组分对本征的贡献的回归系数进行推导,但预测模型可以反映出一种分类,即生/死、健康/不健康,所以,应用这个模型可以给出样品来源的相应分类作为所估计的本征值。
我们还可以看到,预测值矩阵可以用于在产生样品预测值时进行的数据简化;例如,在计算预测值矩阵时,可以把与已确定的低回归系数值相对应的GC保留时间去掉。
我们可以看到,可用位于远处的数据处理装置来完成本发明的分析测试。因此,从另一方面来看,本发明提供了一种包含指令的计算机程序产品,该指令在数据处理装置上实施时将预测选定多组分样品的本征值,其中计算机程序接收的数据是通过以下方式得到的A)沿一个分离量度分离样品的多个组分;B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,在这里,计算机程序执行如下步骤a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;b)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出这些部分中的各个组分的特征图形和分类量度分布曲线;以及c)将预测模型施加到所述选定样品中已确定的各个组分的分布曲线强度上,并由此对所述样品的所述本征值进行估算。
另一方面,本发明提供了一种包含指令的计算机程序产品,该指令在数据处理装置上实施时,将分析选定的多组分样品,以预测样品的本征值,其中计算机程序接收的数据是通过以下方式得到的
i)为多个相似的多组分样品确定所述本征值;ii)对每一种所述相似的样品来说,a)沿一个分离量度分离样品的各个组分,b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,iii)对所述选定的样品来说,A)沿一个分离量度分离样品的各个组分,B)在沿所述分离量度的多个位置上对样品的多个部分进行采样在这里,计算机程序执行如下步骤i)对每一种所述相似的样品来说,a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;b)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出所述部分中各个组分的特征图形和分离量度分布曲线;ii)将沿分离量度的确定图形与其分布曲线的位置的进行比较,并由此鉴定出所述相似样品中的类似组分;iii)将所述相似样品中的组分的所述本征值和确定分布曲线的强度进行比较,并由此生成预测样品的所述本征值的模型;iv)对所述选定样品来说,A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;B)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出这些部分中各个组分的特征图形和分离量度分布曲线;C)把所述模型施加到所述选定样品中已确定的各个组分的分布曲线强度上,并由此对所述样品的所述本征值进行估算。
从另一方面看,本发明提供了一种包含指令的计算机程序产品,该指令在数据处理装置上实施时,将产生用于预测多组分样品的本征值的预测模型,其中计算机程序接收的数据是通过以下方式得到的
i)为多个相似的多组分样品确定所述本征值;ii)对每一所述相似的样品来说,a)沿一个分离量度分离样品的各个组分,b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,在这里,计算机程序执行如下步骤i)对每一种所述相似的样品来说,A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;B)为所述分离量度的各个部分选择几组所述图形,并且从其中确定出所述部分中各个组分的特征图形和分离量度分布曲线;ii)将沿分离量度的确定图与其分布曲线的位置进行比较,并由此鉴定出所述相似样品中的类似组分;iii)将所述相似样品中的组分的所述本征值和确定的分布曲线强度进行比较,并由此产生预测样品的所述本征值的模型。
本发明可进一步扩展成一种包含指令的计算机程序产品,该指令在数据处理装置上实施时将创建如上所述的计算机程序产品。
权利要求
1.一种分析选定的多组分样品的方法,以预测其本征值,该方法包括i)确定多个类似的多组分样品的所述本征值;ii)对每一种所述的相似样品来说,a)沿一分离量度分离样品的组分,b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,d)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出所述部分的各个组分的特征图形和分离量度分布曲线;iii)将沿分离量度所确定的图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;iv)将所述类似样品中的各个组分的所述本征值与已确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型;v)对所述的选定样品来说,A)沿一分离量度分离样品的组分,B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,C)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,D)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出这些部分的各个组分的特征图形和分离量度分布曲线,E)将所述模型施加到所述选定样品中的各个组分的已确定分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
2.一种产生用于预测多组分样品的本征值的预测模型的方法,该方法包括i)确定出多个相似多组分样品的所述本征值;ii)对每一种所述的相似样品来说,a)沿一分离量度分离样品的组分,b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,c)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,d)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出所述部分的各个组分的特征图形和分离量度分布曲线;iii)将沿分离量度所确定的图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;iv)将所述相似样品中的各个组分的所述本征值与已确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型。
3.一种分析选定的多组分样品的方法,以便预测其本征值,该方法包括A)沿一分离量度分离样品的组分,B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,C)为每一部分确定一个图形,该图形表征该部分的单一或多组分的性质,D)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出这些部分中的各个组分的特征图形和分离量度分布曲线,E)将所述模型施加到所述选定样品中各个组分的已确定的分布曲线的强度上,由此对所述选定样品的所述本征值进行估算。
4.根据权利要求1-3任一项所述的方法,其中所述样品是包含多种不同化学或生物组分的组合物,所述样品的分离应用色谱法是有效的。
5.根据权利要求4所述的方法,其中所述图形为光谱图。
6.根据权利要求4或5所述的方法,其中所述样品是或取自体内组织或体液或分泌液,或者取自环境流体,其分离应用气相色谱或液相色谱是有效的。
7.根据权利要求4、5或6所述的方法,其中所述图形为质谱图。
8.根据前述任一项权利要求所述方法,其中选择所述图形组,以便排除所述分离量度的获得的采样信号在预定水平之下的部分。
9.根据权利要求8所述的方法,其中只有所述分离量度的某些部分被排除,这些部分的采样部分的信号级与沿分离量度的最接近峰的信号级之比小于0.1-0.4这个范围。
10.根据权利要求9所述的方法,其中只有所述分离量度的某些部分被排除,这些部分的采样部分的信号级与沿分离量度的接近峰值的信号级之比小于0.3。
11.根据前述任一项权利要求所述的方法,其中选择所述图形组,以便排除所述分离量度的某些部分,这些部分与已知或认为对所述本征几乎没有或没有任何影响的组分有关。
12.根据前述任一项权利要求所述的方法,其中对所述分离量度的所述选定的图形组进行背景噪声的校正。
13.根据权利要求5-12任一项所述的方法,其中排除所选定的这些图形中的那些没有包含任何信号或仅包含由于噪声而产生的信号的光谱数据。
14.根据权利要求5-13任一项所述的方法,其中利用Gentle方法将获得的光谱图形解析成单波峰。
15.一种用于实施权利要求1-14任一项所述方法的计算机软件产品。
16.一个为了实施权利要求1-14任一项所述的方法而编程的计算机。
17.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将预测出选定的多组分样品的本征值,其中计算机程序接收的数据是通过以下方式得到的A)沿一个分离量度分离样品的组分;B)在沿所述分离量度的多个位置上对样品的多个部分进行采样,并且计算机程序执行以下步骤a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质;b)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出这些部分中各个组分的特征图形和分离量度分布曲线;c)将预测模型施加到所述选定样品中组分的已确定分布曲线强度上,并由此对所述样品的所述本征值进行估算。
18.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将分析选定的多组分,以预测选定的多组分样品的本征值,其中计算机程序接收的数据是通过以下方式得到的i)确定多个相似的多组分样品的所述本征值;ii)对每一种所述相似的样品来说,a)沿一个分离量度分离样品的组分,b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,iii)对所述选定的样品来说,A)沿一个分离量度分离样品的组分,B)在沿所述分离量度的多个位置上对样品的多个部分进行采样其中计算机程序执行如下步骤i)对每一个所述相似的样品来说,a)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,b)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出所述部分中各个组分的特征图形和分离量度分布曲线;ii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;iii)将所述相似样品中的组分的所述本征值和确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型;iv)对所述选定的样品来说,A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,B)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出这些部分中各个组分的特征图形和分离量度分布曲线;C)将预测模型施加到所述选定样品中的组分的已确定分布曲线的强度上,由此对所述样品的所述本征值进行估算。
19.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将产生一个用于预测多组分样品的本征值的预测模型,其中计算机程序接收的数据是通过以下方式得到的i)确定多个相似的多组分样品的所述本征值;ii)对每一种所述相似的样品来说,a)沿一个分离量度分离样品的组分,b)在沿所述分离量度的多个位置上对样品的多个部分进行采样,其中计算机程序执行如下步骤i)对每一所述相似的样品来说,A)确定每一部分的图形,该图形表征该部分的单一或多组分的性质,B)为所述分离量度的各个部分选择多组所述图形,并且从其中确定出所述部分中各个组分的特征图形和分离量度分布曲线;ii)将沿分离量度的确定图形与其分布曲线的位置进行比较,由此鉴定出所述相似样品中的类似组分;iii)将所述相似样品中的组分的所述本征值与已确定的分布曲线强度进行比较,由此产生一个预测样品的所述本征值的模型。
20.一种包含指令的计算机程序产品,所述指令在数据处理装置上实施时,将创建一个如权利要求15或17-19任一项所述的计算机程序产品或计算机软件产品。
全文摘要
本申请描述了一种由二维(2D)分离数据(GC-MS)对复杂的多组分混合物的化学或生物学性质(诸如毒性、致突变性)进行预测的方法。利用自动曲线解析程序(GENTLE)把数据解析成各个组分的谱峰(C)和谱项(S)。随后将已解析的峰值进行积分,并且把特征面积、分离参数和缔合谱图合并成一个预测值矩阵(X),这个矩阵可用作多元回归模型的输入项。利用部分最小二乘法(PLS)将一组测试集的2D分离数据与已测过的性质联系起来。随后,就可以用回归模型预测其他样品的性质。
文档编号G06Q10/00GK1423749SQ0180697
公开日2003年6月11日 申请日期2001年7月4日 优先权日2000年7月4日
发明者奥拉夫·夸尔海姆, 比约·格龙 申请人:模式识别系统控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1