一种代谢组学数据随机误差的筛选和校正方法_2

文档序号:9665950阅读:来源:国知局
气质联用系统完成; 色谱柱为安捷伦DB-5MS毛细管柱(30mX0. 25mmX0. 25μπι);氦气作为载气,流量1.2mL/ min;进样口温度300°C,分流比10 :1;程序升温:初始70°C,保持3分钟,5°C/min升至 310°C,保持5分钟。进样量1μL。EI电离模式(70eV),传输线温度280°C,离子源240°C, 全扫描的质量范围33-600m/z。GC-MS拟靶标分析方法的建立流程主要包括以下几个方面, 首先采用Chr〇maT0F(LeC〇)和AMDIS(NIST)软件对QC样品的GC-MS全扫描数据进行去卷 积和峰识别,确定轮廓分析的目标化合物,通过计算相邻化合物的保留时间,对所有待分析 的化合物进行分组,进行组内特征离子的选择。根据化合物的特征离子、保留时间和分组信 息建立基于GC-MS拟靶标代谢组学分析方法,该方法包括50个分组,319个代谢物。拟靶标 分析方法的其他参数与全扫描模式相同。
[0029] 2. 2代谢组轮廓数据的生成
[0030] 采集的原始代谢组轮廓数据由ChromaTOF (Leco)和AMDIS (NIST)软件进行去卷积 和峰识别。随后,采用岛津Postrun软件进行色谱峰的匹配,保留时间窗口设为0. 2min。
[0031] 2. 3构建模型筛选随机误差
[0032] 将相邻两个QC样品中代谢物响应强度的比值从小到大排序后,筛选总比值个数 的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出随机误差 (图 1)。
[0033] 2. 4构建线性拟合模型校正随机误差
[0034] 筛选到随机误差后,去除含有随机误差的代谢特征,计算不含有随机误差的正常 代谢特征在相邻两个QC样品中的比值,并对其进行从小到大排序,
[0035] 然后建立线性拟合模型,获得拟合模型的公式,将含有随机误差的代谢特征j带 入线性拟合模型的公式中,获得校正因子
.中AQCnjPAQC\n1}]分别代表特征 j在…中未校正的响应值和在QCυ中校正后的响应值。最后,某一含有随机误差的代谢 物j在QCn中响应值为AQnj,其校正后的响应值AQC'nj的可以通过如下公式获得;
[0036]
[0037] 2. 5与常用的箱图筛选随机误差的计算结果比较
[0038] 将实验所获得的GC-MS拟靶标代谢组数据用箱图筛选随机误差,然后随机地用某 一正常代谢特征的响应值来替代随机误差值,经过系统误差校正后,输出结果,并对所计算 的结果进行比较。结果发现,与箱图校正相比,我们建立的筛选和校正离散的方法可以使所 有的QC样品,展现出较大的皮尔森相关系数、较小的欧式距离和RSD值(附图2),说明应用 我们建立的校正方法可以使所有的QC样品在PCA中聚集的更紧密,并显著地改善QC的重 复性。
[0039]本发明给出了一种通用的代谢组学数据随机误差筛选和校正的方法。与传统的箱 图筛选随机误差并随机赋值的方法不同,本发明首次采用相邻两组QC样品的比值筛选随 机误差,并应用比值的线性拟合校正随机误差。采用本发明方法比传统的箱图筛选方法具 有更好的校正效果,校正后的QC样品展示了更好重复性、更短欧式距离和更大皮尔森相关 系数。
【主权项】
1. 一种用于筛选和校正代谢组学数据随机误差的方法,首先从所有待测样品中取出相 同质量样品,混合后建立质控(QC)样品,计算相邻两个QC样本中代谢物响应强度的比值, 建立模型筛选随机误差,然后利用线性拟合模型对随机误差进行校正;其特征在于以下步 骤: (1) 制作QC样本:分别从所有将进行代谢组学分析的样本中准确称量或移取等量样本 并均匀混合成一个大的样本,即QC样本; (2) 获取代谢组学数据:每5-20个待测样本插入一个QC样本,QC样本和待测样本按照 完全相同条件进行样本预处理和基于色谱-质谱方法的代谢组学分析; (3) 获取相邻两个QC样品中代谢组数据比值:计算同一个代谢物在相邻两个QC样品 中的响应强度的比值; ⑷构建模型筛选随机误差:将相邻两个QC样品中代谢物的比值从小到大排序后,筛 选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛 选出随机误差; (5)构建模型校正随机误差:利用两个相邻QC样品中的正常比值进行线性拟合模型, 校正随机误差,具体步骤为: ① 两个相邻QC样品中正常比值的获取:筛选到随机误差后,去除含有随机误差的代谢 特征,计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值; ② 线性拟合模型的构建:将正常代谢特征在两个相邻QC样本中的比值,进行从小到大 排序,并进行线性拟合,获得线性拟合模型的公式,将含有随机误差的代谢特征j带入线性 拟合模型的公式中,获得校正因子其中AQCn^P AQC^n 1}]分别代表特征 j在QCn中未校正的响应值和在QC υ中校正后的响应值; ③ 随机误差的校正:某一含有随机误差的代谢物j在QCn中响应值为AQ nj,其校正后的 响应值AQC' nj通过如下公式获得;
【专利摘要】本发明公开了一种代谢组学数据随机误差的筛选和校正方法,首先采用色谱-质谱联用仪对样品进行分析得到代谢组轮廓,通过计算相邻两个质量控制样品(QC)中代谢物响应强度的比值,将比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而建立模型去筛选代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。本发明的核心在于通过代谢物在两个相邻QC样品中响应强度的比值构建模型去筛选和校正随机误差。本发明可以高效、准确地筛选和校正代谢组数据中的随机误差,改善代谢组数据的质量。
【IPC分类】G01N30/02
【公开号】CN105424827
【申请号】CN201510755515
【发明人】林晓惠, 郝志强, 赵燕妮, 许国旺, 路鑫
【申请人】大连理工大学
【公开日】2016年3月23日
【申请日】2015年11月7日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1