一种从体液代谢组轮廓筛选糖尿病标记物的方法

文档序号:6585731阅读:370来源:国知局
专利名称:一种从体液代谢组轮廓筛选糖尿病标记物的方法
技术领域
本发明涉及分析化学、医学等领域,是一种基于分析化学方法及代谢组学技术对 体液进行代谢组轮廓分析,用于筛选糖尿病小分子代谢标记物的新方法。
背景技术
糖尿病日益成为严重危害人类健康的疾病之一,据预计,至2010年全球糖尿病患 者人数将达2. 2亿,而至2025年这一数字将增长到3亿。糖尿病是由各种复杂因素引起的 以高血糖为主要特征的综合性代谢疾病,其主要病理基础是胰岛功能减退或者胰岛素抵抗 所引起的糖、蛋白质、脂肪等人体代谢的紊乱。现在对糖尿病的检测和诊断主要集中在对血 糖、尿糖等少数临床指标的检测,对于处于临床发病前期和早期糖尿病的患者,存在一定的 局限。由糖尿病引起的大量、复杂的小分子代谢物的检测还未应用于临床诊断和病理生理 研究中。代谢组学(文献2. Nicholson,J. K. ;Lindon, J. C. ;Holmes, Ε. Xenobiotical999, 29,1181-1189.)是近年发展起来的一种全面考察受刺激或扰动后的生物体中小分子代谢 物变化的方法。在糖尿病的早期诊断中,代谢组学方法可以全面地考察糖尿病发生发展过 程中糖类、氨基酸、脂肪及小分子有机酸等的变化情况,从而寻找到特异性、灵敏表达的糖 尿病标记物,为糖尿病的早期诊断提供更为准确、灵敏、特异的诊断依据。代谢组学方法寻 找疾病标记物可以分为以下几个部分对被研究对象代谢物含量的测定即代谢组轮廓的取 得;根据已知样本的代谢组轮廓数据建立并验证筛选模型;根据筛选模型筛选标记物。根 据代谢组轮廓建立筛选模型是这一类研究的重要组成部分,是进一步的筛选标记物的基 础,因此建立稳健可靠、识别精确、分类预测准确的模型十分重要,是这一类研究的关键。在以往的研究中,代谢物筛选模型的建立常常采用交叉验证(Cross-validation) 的方法,其特点是将已知代谢类型的样本的代谢组数据分为两个部分,其中一部分用来建 立模型,另一部分用来对模型的预测能力进行评价,根据预测能力的好坏选择模型的参数, 从而确定最终的模型。然而这一过程中存在着一些缺陷对模型预测能力进行判别的样本并非是独立的,其原因就在于建模过程中所有样 本都会被用来建立模型,这样模型预测过程就存在了一定程度的非独立性,干扰了对模型 预测能力的判别和模型预测误差的估计。完全独立性的丧失就使得建模过程出现了过拟合 (Over-fitting)的可能,这样模型将不能真实有效地反映代谢组轮廓数据的信息,从而使 得对标记物的筛选出现偏差。双重交叉验证 (Double cross-validation) ( i K 3. Smit, S. ;van Breemen, Μ. J. ;Hoefsloot, H. C. J. ;Smilde, Α. K. ;Aerts, J. Μ. F. G. ;de Koster, C. G. Analytica Chimica Acta 2007,592,210-217.)曾被引入化学计量学研究中。使用这一方法,交叉验 证分为外层和内层两个层次,内层建模过程中使用传统的交叉验证方法进行模型参数的优 化,而外层交叉验证过程中用于预测的样本完全不参与建模过程。这样可以解决非独立预 测的问题,得到最佳化的模型和更加准确地估计模型预测误差,从而为进一步的未知样本判别提供准确的模型。但是现有的基于双重交叉验证的方法存在一定的局限1、现有方法中,双重交叉验证主要是与偏最小二乘法(PLS)进行结合以进行类型 判别(文献4. Thissen,U. ;Wopereis, S. ;van den Berg, S. Α. Α. ;Bobeldi jk, I. ;Kleemann, R. ;Kooistra, Τ. ;van Di jk,K. W. ;van 0mmen,B. ;Smilde, A. K. Bmc Bioinformatics 2009, 10,15.)。使用偏最小二乘法作为建模和分类预测方法时,由于算法本身对分类信息的处理 存在限制,使得对于多类别样本的情况容易发生过拟合(文献5. Defernez,M. ;Kemsley, E. K. TrAC-Trends in Analytical Chemistry 1997,16,216—221.)。2、现有方法中,对双重交叉验证结果的表达及模型参数的优化主要使用Q2值和 错误分类数,其中Q2值代表偏最小二乘判别分析模型前N个主成分对分类信息进行预测的 总变差。但是由于建模过程中还涉及对分类信息的解释,如果Q2值较大,而模型对分类信 息的解释能力很差,此时建模结果也不可靠。3、原始数据的预处理方法对于最后的模型结果具有较大的影响,不同类型的数据 往往需要不用类别的数据预处理方法^根据模型参数优化数据预处理方法,或者根据数据 类型选择特定的数据预处理方法,对于得到稳健、准确、最优的模型结果是十分重要的。4、上述的基于双重交叉验证的方法,需要对建模过程中的多个参数和条件进行组 合和优化,当被用于建立筛选模型时,尚未有好的方法可以做到快速、准确、自动地给出包 括不同优化条件和模型参数的高效方法,以利于全面、综合地考察建模过程和各种重要影 响因素。高效稳健的集成化方法的缺失,限制了对双重交叉验证方法的应用,尤其是其在代 谢组物筛选方面的应用。本发明就是利用双重交叉验证的优异特点,将其应用于糖尿病标记物的研究中, 实现了对不同要求下的高通量分析、建模和标记物筛选。针对现有方法的局限,使用了可 以有效处理分类信息的偏最小二乘判别分析方法(PLSDA)5与双重交叉验证相结合,可以 有效地处理对任意类分类判别的问题;通过引入R2值,即偏最小二乘判别分析模型前N 个主成分所解释的分类信息,将其与Q2值、错误分类数等相结合,可以更加准确地对模型 参数进行优化;通过将数据预处理方法的优化和选择引入双重交叉验证过程,可以对影响 建模结果的重要过程进行优化和选择,可供优化和选择的数据预处理方法有centering, autoscaling, Pareto scaling, range scaling1,( ^MM^lMjl 法的具体描述参见文献 1· van den Berg, R. Α. ;Hoefsloot, H. C. J. ;ffesterhuis, J. Α.; Smilde,A. K. ;van der fferf,M. J. BMC Genomics 2006,7,142 ;通过对上述过程的集成化处 理,可以高度自动和准确地给出不同的优化条件和模型参数,从而可以全面、综合地考察建 模过程和各种重要影响因素,准确、高效、大通量地筛选糖尿病相关标记物。

发明内容
本发明涉及一种从体液代谢组轮廓筛选糖尿病标记物的方法新方法,所述的新方 法可基于分析化学方法及代谢组学技术测定体液中小分子代谢组轮廓并用于对糖尿病标 记物筛选。该方法具有筛选结果准确、误差率小、计算速度快、自动程度高、筛选模型参数及 优化结果全面、集成化程度高等特点,适于大规模样本的筛选,可广泛地应用于化学、医学 等领域。为实现上述目的,本发明采用的技术方案如下
6
一种从体液代谢组轮廓筛选糖尿病标记物的方法,采用气相色谱质谱联用仪对体 液(包括血液、尿液等)代谢物进行分析得到代谢组轮廓,建立双重交叉验证筛选模型分析 糖尿病人和健康人的代谢组轮廓,筛选糖尿病特异性标记物。包括以下步骤1)体液样本的收集和预处理。在相同采样条件下采集的m个糖尿病人和N2个健康人的体液样本,采集体液样 本后立即储存于-80°C冰箱中。代谢组轮廓分析前,将体液样本在室温条件下解冻。解冻后震荡30秒混勻。在 100 μ L体液中加入300 μ L甲醇,震荡30秒混勻,高速离心后取上层清液。上层清液经冷冻 干燥后,使用bis (trimethylsilyl) trif luoroacetamide (BSTFA)进行三甲基硅烷化衍生处理。2)气相色谱质谱联用仪分析血浆中的代谢物。色谱质谱联用仪器为LECO Pegasus 4D GCXGC TOFMS (LECOCorporation, St. Jos印h,MI,USA),使用其GC-TOFMS模式,气相色谱部分为Agilent 6890N GC0使用 30mX250ymX0. 25 μ m HP_5毛细管气相色谱柱,载气为高纯氦,程序升温为70°C恒温 3min,以KTCmirT1升温至320°C,恒温5min,进样口温度280°C,进样2yL,分流比5 1。 质谱部分传输线温度270°C,,质谱扫描范围m/z 33-500,采集频率2Hz。离子源温度220°C, EI源电离电压70eV,检测器电压1450V。LECO公司的ChromaTOF 软件(version 3.25)采 集的原始代谢组轮廓数据。3)采集的原始代谢组轮廓数据由LECO公司的ChromaTOF 软件(version 3. 25) 分析得到含有代谢物浓度信息的代谢物峰表,峰表中各代谢物的结构和名称由ChromaTOF 软件自带的NIST谱图库定性,各个样本的峰表经过EXCEL软件合并之后即可得到代谢组轮 廓数据。4)将糖尿病人和健康人的代谢组轮廓数据作为双重交叉验证筛选模型的输入矩 阵。根据Matlab软件的randperm程序,数据矩阵被分为模型集和测试集,使用模型集的 数据进行偏最小二乘判别分析(PLSDA),在内层交叉验证过程中得到初步的代谢物筛选模 型。在建立筛选模型过程中中,可以根据需要对数据预处理方法进行自动优化或直接指定。 可供优化禾口选择的数据予页处理方法有:centering, autoscaling, Pareto scaling, range scaling1,或不做任何数据预处理。5)将测试集的数据输入初步的代谢物筛选模型,通过测试结果进行偏最小二乘判 别分析模型误差的估计并进行参数的优化(主要是针对模型的主成分数Np。),在外层交叉 验证过程中得到最终的代谢物筛选模型。6)通过“置换检验”(permutation test)验证最终的代谢物筛选模型。其方法如 下将样本类别信息进行随机的置换排列,使这些样本的样本类别信息与真实的类别信息 无关,然后使用随机置换排列后的样本类别信息进行步骤1中(1)至(3)步,将得到的结果 与真实模型相比较,如果前者的模型参数明显劣于后者,说明得到最终的偏最小二乘判别 分析模型是真实可信、可以用来进行代谢类别判别的。7)计算得到的最终的代谢物筛选模型中,各个代谢物在不同主成分中的权重值 W0统计在两个或三个主成分中w的绝对值均大于阈值k的代谢物(当只有一个主成分时, 则统计在该主成分中W的绝对值大于阈值k的代谢物),这些代谢物被选为候选标记物。
计算候选标记物在所有参与建模的糖尿病人和健康人中的平均值和标准偏差,只 保留平均值大于标准偏差的候选标记物,再计算候选标记物在所有参与建模的糖尿病人和 健康人间T-test的ρ值,若ρ值小于0. 05,则该候选标记物被确认为体液代谢组轮廓筛选 出的糖尿病标记物。本发明具有的效果是1、体液的处理均为离体完成,步骤简单,操作方便,处理速度快,适用于大规模样 本的处理和筛选。2、气相色谱质谱联用技术稳定成熟,仪器运行和维护成本低。不同时间和批次间 分析结果差别小,重复性、可靠性高。样品分析时间短,分析通量大。3、筛选准确率高、误差率小、不存在非独立样本分类预测的问题,得到的筛选模型 更为准确可靠。4、数据处理过程高度集成化,计算速度快、自动程度高。可以根据用户要求对各种 涉及到模型结果的数据预处理方法进行自动优化或由用户指定,计算时间短,结果可靠。5、筛选模型建立过程中各种模型参数和优化条件可以方便导出,包括R2值、Q2 值、错误分类数等,有利于对建模过程进行全面的评估,模型参数优化及其验证结果详细可 靠并易于可视化。


图1是实施例中血浆代谢组轮廓图。其中(A)糖尿病病人血浆气相色谱质谱总离 子流图,(B)健康人血浆气相色谱质谱总离子流图。图2是实施例中置换检验(500次)得到的模型优化参数“R2”的频数分布图。图 中横坐标代表置换检验得到的R2值区间,纵坐标代表在该R2值区间内的频数。箭头处代 表真实模型的R2值。图3是实施例中置换检验(500次)得到的模型优化参数“Q2”的频数分布图。图 中横坐标代表置换检验得到的Q2值区间,纵坐标代表在该Q2值区间内的频数。箭处代 表真实模型的Q2值。图4是实施例中置换检验(500次)得到的模型优化参数“错误分类数”的频数分 布图。图中横坐标代表置换检验得到的错误分类数区间,纵坐标代表在该错误分类数区间 内的频数。箭头处代表真实模型的错误分类数。
具体实施例方式下面结合附图对本发明的实施例作详细的说明;本实施例在本发明技术方案的指 导下实施,但本发明的保护范围不限于下述的实施例,本发明的下述实施例仅作为本发明 的事例而不是限制。在不违反本发明主旨及范围的情况下,可对本发明进行各种改变和改 进,但所有这些改变和改进,均应在本发明保护范围之内。实施例基于血浆代谢组轮廓的糖尿病标记物筛选。(1)人血浆样本的收集和预处理。采集前,纳入志愿者签署知情同意书,在相同采样条件下采集,采集的血浆样本立 即储存于-80°C冰箱中。本实施例中共采集人血浆样本119份,其中采自健康人血浆30份,采自糖尿病病人血浆89份。代谢物分析前,将血浆样本从超低温冰箱中取出并于室温条件下解冻。解冻后震 荡30秒混勻。分别取119份血浆样本,在每份100 μ L血浆中分别加入300 μ L甲醇和内标,震荡 30秒混勻,高速离心后取上层清液。上层清液经冷冻干燥后,使用bisUrimethylsilyl) trif luoroacetamide (BSTFA)进行三甲基硅烷化衍生处理。(2)气相色谱质谱联用技术分析血浆中的代谢物。色谱质谱联用仪器为LECO Pegasus 4D GCXGC TOFMS (LECOCorporation, St. Jos印h,MI,USA),使用其GC-TOFMS模式,气相色谱部分为Agilent 6890N GC0使用 30mX250ymX0. 25 μ m HP_5毛细管气相色谱柱,载气为高纯氦,程序升温为70°C恒温 3min,以KTCmirT1升温至320°C,恒温5min,进样口温度280°C,进样2yL,分流比5 1。 质谱部分传输线温度270°C,质谱扫描范围m/z 33-500,采集频率2Hz。离子源温度220°C, EI源电离电压70eV,检测器电压1450V。LECO公司的ChromaTOF 软件(version 3.25)采 集原始代谢组轮廓数据。119份血浆样本分别上样分析获取的典型的血浆代谢组轮廓图如 附图1所示。(3)代谢组轮廓数据的生成。采集的原始代谢组轮廓数据由LECO公司的ChromaTOF 软件(version 3. 25)分 析得到含有代谢物浓度信息的代谢物峰表,峰表中各代谢物的结构和名称由ChromaTOF 软件自带的NIST谱图库定性,各个样本的峰表经过EXCEL软件合并之后即可得到代谢组轮 廓数据。(4)在代谢组轮廓数据中随机抽取全部样本其中10份(序号1,13,34,50,56,82, 87,94,108,111,其中前七个为糖尿病人血浆,后三个为健康人血浆)作为对筛选模型考察 的样本。将其余的糖尿病人和健康人的代谢组轮廓数据作为双重交叉验证筛选模型的输入 矩阵。本实施例中双重交叉验证使用外层的5倍交叉验证将色谱质谱数据矩阵分为模型集 和测试集,即其中测试集中样本数占总样本数的1/5。根据Matlab软件的randperm程序, 数据矩阵被分为模型集和测试集,使用模型集的数据进行偏最小二乘判别分析(PLSDA),在 内层交叉验证过程中(参见步骤(5))得到初步的代谢物筛选模型。外层交叉验证共进行 5次,使得所有的样本都出现在测试集中一次。(5)将步骤中产生的测试集数据输入初步的代谢物筛选模型,通过测试结果 进行偏最小二乘判别分析参数的优化。本实施例中双重交叉验证使用内层的7倍交叉验证 将色谱质谱数据矩阵分为训练集和验证集,即其中验证集中样本数占总样本数的1/7。根 据Matlab软件的randperm程序,数据矩阵被分为模型集和测试集。双重交叉验证系统使 用如下的方法对最小二乘判别分析参数进行优化R2,Q2以及错误分类数。其中R2值代表 偏最小二乘判别分析模型前N个主成分所解释的分类信息,Q2值代表偏最小二乘判别分析 模型前N个主成分对分类信息进行预测的总变差。双重交叉验证系统根据预设值或用户定 义,根据R2,或Q2,或错误分类数,或综合考虑R2和Q2,自动选择最合适的模型主成分数。内层交叉验证共进行7次,使得所有的样本都出现在验证集中一次。由此可以得 到初步的代谢物筛选模型。(6)将步骤(4)产生的测试集的数据数据输入步骤( 产生的初步的代谢物筛选模型,进行外层交叉验证过程的分类预测,这一过程共重复5次。通过预测结果,如步骤(5) 中方法(使用R2,Q2以及错误分类数)对偏最小二乘判别分析参数进行优化,得到最终的 代谢物筛选模型。(7)根据用户需要,可以使用不同方法数据进行各种预处理方法,重复上述过程, 考察不同数据预处理方法对结果的影响,使用最佳的数据预处理方法的结果。也可以由用 户指定数据预处理方法。本实施例中根据数据的性质,采取了 Pareto scaling的方法进行 数据预处理(文献 1. van den Berg, R. Α. ;Hoefsloot, H. C. J. ;ffesterhuis, J. Α. ;Smilde, Α. K. ;van der Werf,Μ. J. BMC Genomics 2006,7,142.)。(8)对步骤(6)产生的代谢物筛选模型进行置换检验。随机置换排列109个样本 的分类信息,共随机置换500次,分别进行双重交叉验证的偏最小二乘判别分析,得到500 个置换模型,计算这500个置换模型的R2,Q2和错误分类数,与步骤(6)得到的最终模型的 R2,Q2和错误分类数相比较,如图2至图4所示。图中显示,从R2,Q2和错误分类数的频度 分布看,他们都呈正态分布,说明置换检验对样本分类信息的置换排列是充分随机的。与实 际模型相比,置换模型的R2和Q2明显偏小,有显著性的差别,说明与实际模型相比,置换模 型对分类信息的解释和分类预测明显不足;与实际模型相比,置换模型的错误分类数明显 偏大,有显著性的差别,说明与实际模型相比,置换模型对分类信息的预测判别能力明显不 足。(9)步骤(8)的结果显示最终的代谢物筛选模型是真实可信的,使用步骤(6)产生 的代谢物筛选模型对步骤(4)中产生的10个样品的代谢组轮廓数据进行分析,得到其代谢 类型归属。经上述步骤产生的最优结果为具有3个主成分的偏最小二乘判别分析模型(使 用Par scaling进行数据的预处理)。分类预测结果表明,所有作为测试样本均可得到正确 的代谢组学分类,如下表所示,说明最终的代谢物筛选模型可以真实可信的反映代谢组轮 廓数据的性质,以此为基础可以得到正确的糖尿病标记物。表1测试样本的代谢组学分类结果
1 13 34 50 56 82 87 94 108 111
判别结果 11111112 2 2 实际类别 1 1 1 1 1 1 1 2 2 2注判别结果及实际类别中,1代表健康人血浆,2代表糖尿病人血浆(10)计算得到的最终的代谢物筛选模型中,各个代谢物在3个主成分中的权重 值 w。权重值 w 的计算根据文献 6 (Eriksson,L ;Antti,H. ;Gottfries, J. ;Holmes, Ε.; Johansson,Ε. ;Lindgren, F. ;Long,I. ;Lundstedt, Τ. ;Trygg,J. ;Wold,S.Analytical and Bioanalytical Chemistry 2004,380,419-429)中的方法计算。统计在两个或三个主成分 中w的绝对值均大于0. 01的代谢物,作为候选标记物。选择0. 01作为阈值是为了使候选 标记物的数量小于15个。共有14个代谢物被选为候选标记物(见表2)。计算候选标记物在所有参与建模的糖尿病人和健康人中的平均值和标准偏差,有 四个代谢物在两类人群中不满足平均值均大于标准偏差,被剔除出候选标记物。再使用EXCEL软件计算候选标记物在所有参与建模的糖尿病人和健康人间T检验的ρ值,有5个代 谢物P值小于0. 05,这5个候选标记物被确认为血浆代谢组轮廓筛选出的糖尿病标记物。 糖尿病标记物及其定性结果见表2。表2候选标记物权重值w、平均值、标准偏差、p-value及定性结果
mean士 SDmean士 SD
TK(s)W1W2W3P-value定性结果
(DM)(N)
328.220. 00430. 11-0. 220.51 士 0. 450. 49 士 0. 470. 83-
456.62-0·075-0. 14-0. 100.04 士 0. 040. 08 士 0. 085. 8E-03-
526. 4-0· 15-0.26 -0.100. 12 士 0..07 0.28 士 0.191.4E--04α -Hydroxyisovaleric acid
555. 8-0· 120. 23-0. 164.56 士 1. 34. 98 士 1. 790. 24-
599.780.0059-0. 120. 520.76 士 0. 880. 65 士 0. 840. 57-
626. 42-0· 210. 33 -0.340. 55 士 0..42 0.95 士 0.448.5E--05phosphate
628.580. 049-0. 430. 240.23 士 0. 390. 15 士 0. 380. 32-
816. 8-0· 13-0.12 -0.066 0.03 士 0.01 0.1 士 0.045.2E--125-oxo-L--Proline
1043.180. 26-0.13 -0.230. 59 士 Ο-17 0.27士0·11.3E--20Talonicacid
1124. 420. 590. 075 -0.14 . 84 士 0.28 0.55 士 0.354.OE--21D-Glucopyranose
1145. 780. 052-0. 13-0. 261.15士0.131. 1 士 0. 160. 12-
1238.60. 011-0. 18-0. 200.5 士 0. 220. 49 士 0. 150. 75-
1351. 82-0·037-0. 36-0. 191.71 士 0. 381. 75 士 0. 290. 54-
1678.40. 0170. 120. 110.03 士 0. 050. 02 士 0. 040. 22-注TK(s)候选标记物在代谢组轮廓图中的保留时间,单位秒。W1, w2, W3 各候选标记物在主成分1、2、3的权重值。mean士SD 候选标记物在所有参与建模的糖尿病人和健康人中的平均值士标准 偏差,其中DM代表糖尿病人,N代表健康人。p-value 候选标记物在所有参与建模的糖尿病人和健康人间Τ-test的ρ值由于只针对最终确认的标记物进行了定性,所以在定性结果一栏中其他候选标记 物均标示为“_”。(11)为了考察筛选出的标记物的可靠性,利用表2中6个标记物的浓度数据判 别分析筛选模型中的89例糖尿病人和30例健康人的类别归属。使用SPSS 16.0软件进 行判别回归,使用leave-one-out classification法进行分类,得到预测的平均正确率为 98. 3%,对糖尿病的阳性检出率为1 00%。由此可以得出结论,使用本方法筛选出来的标记 物稳健可靠,对于糖尿病的具有优异的预测能力,具备应用前景。
权利要求
1.一种从体液代谢组轮廓筛选糖尿病标记物的方法,其特征在于采用气相色谱质谱 联用仪对体液代谢物进行分析得到代谢组轮廓,建立双重交叉验证筛选模型分析糖尿病人 和健康人的代谢组轮廓,筛选糖尿病特异性标记物。
2.根据权利要求1所述的方法,其特征在于,采用气相色谱质谱联用仪对体液代谢物 进行分析得到代谢组轮廓,包括如下步骤1)体液样本的收集和预处理取于< -60°c下保存的m个糖尿病人和N2个健康人的体液样本,Nl ^ 10的正整数, N2彡10的正整数;代谢组轮廓分析前,将体液样本在室温条件下解冻;解冻后震荡混勻,分别在100 μ L 体液中加入300 μ L甲醇,震荡混勻,离心后取上层清液;上层清液经冷冻干燥后,使用 bis (trimethylsilyl) trif Iuoroacetamide 进行三甲基硅烷化衍生处理;2)气相色谱质谱联用仪分析血浆中的代谢物色谱质谱联用分析,使用30mX250ymX0. 25 μ mHP_5毛细管气相色谱柱,载气为高纯氦,程序升温为 70°C恒温3min,以10°C mirT1升温至320°C,恒温5min,进样口温度280°C,进样2 μ L,分流 比 5 1 ;质谱部分传输线温度270°C,,质谱扫描范围m/z 33-500,采集频率2Hz。离子源温度 220°C, EI源电离电压70eV ;LECO公司的ChromaTOF 软件version 3. 25采集原始代谢组轮廓数据;3)建立双重交叉验证筛选模型分析糖尿病人和健康人的代谢组轮廓,A.采集的原始代谢组轮廓数据由LECO公司的ChromaTOF 软件version3. 25分析得 到含有代谢物浓度信息的代谢物峰表,峰表中各代谢物的结构和名称由ChromaTOF 软件 自带的OTST谱图库定性,各个样本的峰表经过EXCEL软件合并之后即可得到代谢组轮廓数 据;B.将糖尿病人和健康人的代谢组轮廓数据作为双重交叉验证筛选模型的输入矩阵; 根据Matlab软件的randperm程序,数据矩阵被分为模型集和测试集,使用模型集的数据进 行偏最小二乘判别分析PLSDA,在内层交叉验证过程中得到初步的代谢物筛选模型;C.将测试集的数据输入初步的代谢物筛选模型,通过测试结果进行偏最小二乘判别分 析,估计模型的误差并进行参数的优化,主要是针对模型的主成分数Np。,在外层交叉验证过 程中得到最终的代谢物筛选模型;D.通过“置换检验”permutation test验证最终的代谢物筛选模型;4)使用双重交叉验证筛选模型筛选糖尿病特异性标记物计算得到的最终的代谢物筛选模型中,各个代谢物在不同主成分中的权重值权重 值w代表在偏最小二乘分析模型中,各个代谢物对于模型的建立和分类信息的解释、预测 的重要程度;统计在两个或三个主成分中w的绝对值均大于阈值k的代谢物,当只有一个主 成分时,则统计在该主成分中w的绝对值大于k的代谢物,这些代谢物被选为候选标记物; 其中阈值k的选择根据权重值的大小确定,使得不多于20个代谢物被选择作为候选标记 物;计算候选标记物在所有参与建模的糖尿病人和健康人中的平均值和标准偏差,只保留在糖尿病人和健康人中平均值均大于标准偏差的候选标记物,再使用EXCEL软件的TTEST 函数对候选标记物在所有参与建模的糖尿病人和健康人间做T检验,得到T检验的ρ值,若 P值小于0. 05,则该候选标记物被确认为体液代谢组轮廓筛选出的糖尿病标记物。
3.根据权利要求2所述的方法,其特征在于建立双重交叉验证筛选模型分析糖尿病 人和健康人的代谢组轮廓,所述步骤幻中的B和C,具体实现过程如下标记物筛选模型的建模过程中,将模型集的数据根据Matlab软件的randperm程序分 为训练集和验证集,训练集的数据使用偏最小二乘判别分析训练;使用验证集的数据输入 标记偏最小二乘判别分析进行验证,这一过程共重复Nen次,Nen ^ 3的正整数,称为内层交 叉验证过程;偏最小二乘判别分析的结果通过R2值、Q2值、错误分类数模型参数进行表示, 通过对上述模型参数的优化,得到初步的标记物筛选模型;将测试集的数据数据输入初步的标记物筛选模型进行测试,这一过程共重复Nra次, Nex ^ 3的正整数,称为外层交叉验证过程;偏最小二乘判别分析的结果通过R2值、Q2值、 错误分类数模型参数进行表示,通过对上述模型参数的优化,得到最终的标记物筛选模型。
4.根据权利要求2所述的方法,其特征在于,所述步骤3)中D,具体实现过程如下使 用与真实的样本类别信息无关的随机类别信息进行外层和内层的建模,将得到的结果与真 实模型相比较,如果前者的模型参数R2值、Q2值、错误分类数明显劣于后者,说明得到最终 的标记物筛选模型是真实可信、可以用来做标记物筛选。
5.根据权利要求3或4所述的方法,其特征在于偏最小二乘判别分析的结果通过R2值、Q2值、错误分类数模型参数进行表示和优化, 主要是对模型的主成分数的优化;R2值指偏最小二乘判别分析模型中前Np。个主成分的分类信息的总方差与原始分类信 息的总方差之比;Np。彡1的正整数;Q2值指1- Σ (PRESS/SQN,其中PRESS指偏最小二乘判别分析模型对分类预测数据分 类信息的预测误差的总方差,SS指分类预测数据分类信息的总方差,Σ (PRESS/SQN表示前 N个主成分PRESS/SS值之和;R2值代表偏最小二乘判别分析模型前Npe个主成分所解释的分类信息,Q2值代表偏最 小二乘判别分析模型前N个主成分对分类信息进行预测的总变差;错误分类数代表偏最小二乘判别分析模型对分类预测数据的预测正确度。通过对R2 值、Q2值、错误分类数模型参数的考察,可以比较选择不同主成分数时模型对原始数据的拟 合和分类预测结果的优劣,从而达到优化模型的目的;根据研究需要,可以分别根据R2值、 Q2值、错误分类数或根据上述参数的组合对模型进行优化。
6.根据权利要求2所述的方法,其特征在于,所述步骤;3)中B、C、D或步骤4)中对代 谢组轮廓数据进行偏最小二乘判别分析,具体实施过程如下代谢组轮廓数据作为偏最小 二乘判别分析的X矩阵,以样本分类信息作为Y矩阵,进行偏最小二乘建模;其中Y矩阵构 成如下样本中含有N。个类别,N。= 2,一个为糖尿病,另一个为健康,则Y矩阵由N个列向 量组成,每个列向量大小等于样本总数M,M = m+N2,代表采集的总样本数,Y矩阵大小为 MXN ;对于第m样本,m代表某一样品,m = 1,2,. . .,M,若其属于第η类,η代表某一类,糖 尿病或健康,η = 1或2,则Y矩阵第m行第η列的值为1,Y矩阵第m行其余各列的值为0。
7.根据权利要求2所述的方法,其特征在于所述步骤幻中的B和C,可以根据数据的性质和具体需要,对数据预处理方法进行优化或直接指定;可供优化禾口选择的数据预处理方法有centering, autoscaling, Paretoscaling, range scaling,或不做任何数据预处理。
全文摘要
本发明公开了一种从体液代谢组轮廓筛选糖尿病标记物的方法。采用气相色谱质谱联用仪对体液代谢物进行分析得到代谢组轮廓,建立双重交叉验证筛选模型分析糖尿病人和健康人的代谢组轮廓,筛选糖尿病特异性标记物。双重交叉验证筛选模型在外层交叉验证中将代谢组轮廓分为模型集和测试集,在内层交叉验证中将模型集分为训练集和验证集,外层和内层中分别建立偏最小二乘判别分析(PLSDA)模型,内层中进行建模过程和初步的模型优化,外层中对模型的分类预测能力进行考察并确立最终的模型参数,使用最终的筛选模型可以得到代谢组轮廓中的标记物。本发明可以高效、准确地筛选糖尿病相关标记物,准确率高、错误率小、筛选模型参数自动优化、数据预处理方法可优化。判别分析验证表明,预测平均正确率达到98.3%,阳性检出率为100%。本发明具有糖尿病标记物高通量筛选和临床应用的前景。
文档编号G06F19/00GK102103132SQ20091024853
公开日2011年6月22日 申请日期2009年12月18日 优先权日2009年12月18日
发明者李响, 许国旺, 路鑫 申请人:中国科学院大连化学物理研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1