一种代谢组学数据随机误差的筛选和校正方法_2

文档序号：9665950阅读：来源：国知局

气质联用系统完成；色谱柱为安捷伦DB-5MS毛细管柱（30mX0. 25mmX0. 25μπι);氦气作为载气，流量1.2mL/ min;进样口温度300°C，分流比10 :1;程序升温：初始70°C，保持3分钟，5°C/min升至 310°C，保持5分钟。进样量1μL。EI电离模式（70eV)，传输线温度280°C，离子源240°C，全扫描的质量范围33-600m/z。GC-MS拟靶标分析方法的建立流程主要包括以下几个方面，首先采用Chr〇maT0F(LeC〇)和AMDIS(NIST)软件对QC样品的GC-MS全扫描数据进行去卷积和峰识别，确定轮廓分析的目标化合物，通过计算相邻化合物的保留时间，对所有待分析的化合物进行分组，进行组内特征离子的选择。根据化合物的特征离子、保留时间和分组信息建立基于GC-MS拟靶标代谢组学分析方法，该方法包括50个分组，319个代谢物。拟靶标分析方法的其他参数与全扫描模式相同。
[0029] 2. 2代谢组轮廓数据的生成
[0030] 采集的原始代谢组轮廓数据由ChromaTOF (Leco)和AMDIS (NIST)软件进行去卷积和峰识别。随后，采用岛津Postrun软件进行色谱峰的匹配，保留时间窗口设为0. 2min。
[0031] 2. 3构建模型筛选随机误差
[0032] 将相邻两个QC样品中代谢物响应强度的比值从小到大排序后，筛选总比值个数的5%作为离散点，将这5%的离散点平均分配到排序后比值的两端，从而筛选出随机误差 (图 1)。
[0033] 2. 4构建线性拟合模型校正随机误差
[0034] 筛选到随机误差后，去除含有随机误差的代谢特征，计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值，并对其进行从小到大排序，
[0035] 然后建立线性拟合模型，获得拟合模型的公式，将含有随机误差的代谢特征j带入线性拟合模型的公式中，获得校正因子
.中AQCnjPAQC\n1}]分别代表特征 j在…中未校正的响应值和在QCυ中校正后的响应值。最后，某一含有随机误差的代谢物j在QCn中响应值为AQnj，其校正后的响应值AQC'nj的可以通过如下公式获得；
[0036]
[0037] 2. 5与常用的箱图筛选随机误差的计算结果比较
[0038] 将实验所获得的GC-MS拟靶标代谢组数据用箱图筛选随机误差，然后随机地用某一正常代谢特征的响应值来替代随机误差值，经过系统误差校正后，输出结果，并对所计算的结果进行比较。结果发现，与箱图校正相比，我们建立的筛选和校正离散的方法可以使所有的QC样品，展现出较大的皮尔森相关系数、较小的欧式距离和RSD值（附图2)，说明应用我们建立的校正方法可以使所有的QC样品在PCA中聚集的更紧密，并显著地改善QC的重复性。
[0039]本发明给出了一种通用的代谢组学数据随机误差筛选和校正的方法。与传统的箱图筛选随机误差并随机赋值的方法不同，本发明首次采用相邻两组QC样品的比值筛选随机误差，并应用比值的线性拟合校正随机误差。采用本发明方法比传统的箱图筛选方法具有更好的校正效果，校正后的QC样品展示了更好重复性、更短欧式距离和更大皮尔森相关系数。
【主权项】
1. 一种用于筛选和校正代谢组学数据随机误差的方法，首先从所有待测样品中取出相同质量样品，混合后建立质控（QC)样品，计算相邻两个QC样本中代谢物响应强度的比值，建立模型筛选随机误差，然后利用线性拟合模型对随机误差进行校正；其特征在于以下步骤： (1) 制作QC样本：分别从所有将进行代谢组学分析的样本中准确称量或移取等量样本并均匀混合成一个大的样本，即QC样本； (2) 获取代谢组学数据：每5-20个待测样本插入一个QC样本，QC样本和待测样本按照完全相同条件进行样本预处理和基于色谱-质谱方法的代谢组学分析； (3) 获取相邻两个QC样品中代谢组数据比值：计算同一个代谢物在相邻两个QC样品中的响应强度的比值； ⑷构建模型筛选随机误差：将相邻两个QC样品中代谢物的比值从小到大排序后，筛选总比值个数的5%作为离散点，将这5%的离散点平均分配到排序后比值的两端，从而筛选出随机误差； (5)构建模型校正随机误差：利用两个相邻QC样品中的正常比值进行线性拟合模型，校正随机误差，具体步骤为： ① 两个相邻QC样品中正常比值的获取：筛选到随机误差后，去除含有随机误差的代谢特征，计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值； ② 线性拟合模型的构建：将正常代谢特征在两个相邻QC样本中的比值，进行从小到大排序，并进行线性拟合，获得线性拟合模型的公式，将含有随机误差的代谢特征j带入线性拟合模型的公式中，获得校正因子其中AQCn^P AQC^n 1}]分别代表特征 j在QCn中未校正的响应值和在QC υ中校正后的响应值； ③ 随机误差的校正：某一含有随机误差的代谢物j在QCn中响应值为AQ nj，其校正后的响应值AQC' nj通过如下公式获得；
【专利摘要】本发明公开了一种代谢组学数据随机误差的筛选和校正方法，首先采用色谱-质谱联用仪对样品进行分析得到代谢组轮廓，通过计算相邻两个质量控制样品(QC)中代谢物响应强度的比值，将比值从小到大排序后，筛选总比值个数的5％作为离散点，将这5％的离散点平均分配到排序后比值的两端，从而建立模型去筛选代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。本发明的核心在于通过代谢物在两个相邻QC样品中响应强度的比值构建模型去筛选和校正随机误差。本发明可以高效、准确地筛选和校正代谢组数据中的随机误差，改善代谢组数据的质量。
【IPC分类】G01N30/02
【公开号】CN105424827
【申请号】CN201510755515
【发明人】林晓惠, 郝志强, 赵燕妮, 许国旺, 路鑫
【申请人】大连理工大学
【公开日】2016年3月23日
【申请日】2015年11月7日

完整全部详细技术资料下载

当前第2页1 2