基于广靶代谢组学和机器学习的生物标志物筛选方法及其所选慢性肾病生物标志物组、应用

文档序号:37631068发布日期:2024-04-18 17:45阅读:9来源:国知局
基于广靶代谢组学和机器学习的生物标志物筛选方法及其所选慢性肾病生物标志物组、应用

本发明涉及生物医学,具体涉及一种基于广靶代谢组学和机器学习的生物标志物筛选方法及其所选慢性肾病生物标志物组、应用。


背景技术:

1、代谢组是生物体中小分子的完整集合,反映了基因组、转录组和蛋白质组的下游变化。代谢组学分析可以识别调节生物过程和细胞生理的代谢物,判断生物体的整体状态。相对于基因与蛋白质,代谢物能够更加实时、动态地反映疾病状态以及疾病生理特征,这使得代谢组在疾病早期诊断等领域有很好的应用。

2、代谢组学技术包括非靶向分析和靶向分析两种策略。非靶向代谢组技术能够无偏向地检测样品中的所有代谢物,具有广泛的代谢物覆盖率。靶向代谢组技术具有较好的特异性,具备高灵敏度和准确的定量能力。广靶代谢组学方法结合了非靶向技术和靶向技术的优势,能够实现生物样本中代谢物的大规模定性和定量分析。

3、然而,代谢组学下机数据具有通量高、代谢物种类和数量庞大,代谢物之间存在多重共线性,原始数据分布特征不明显,代谢物丰度值存在数量级差异等特点。这些特点导致了传统的基于数据分布特征和概率推论的统计学方法难以抽提出有价值的信息,准确筛选生物标志物,极大地限制了代谢组学技术的推广和应用价值。机器学习在处理此类复杂数据集时具有很大的优势,能够迅速地识别数据分布中隐含的规律和模式,抽提出重要信息,构建预测效能更优的预测模型。

4、本发明公开了一种基于广靶代谢组学和机器学习的生物标志物筛选方法,并使用该方法筛选出慢性肾病的生物标志物。


技术实现思路

1、为了解决所述技术问题,本发明提供了一种基于广靶代谢组学和机器学习的生物标志物筛选方法及其所选慢性肾病生物标志物组,即一种利用广靶代谢组学和机器学习筛选生物标志物的方法和该方法筛选出的慢性肾病生物标志物组。本发明中机器学习流程,用以从广靶代谢组学原始数据筛选生物标志物,操作流程简单;此外,本发明利用上述流程筛选出7个代谢物作为慢性肾病的生物标志物。

2、为实现上述目的,本发明提供的技术方案如下:

3、第一方面,本发明提供一种基于广靶代谢组学和机器学习的生物标志物筛选方法,所述广靶代谢组学技术包括:构建标准品本地库,基于飞行时间质谱的非靶向代谢组学,基于三重四级杆质谱的靶向代谢组学;所述机器学习技术包括:特征重建,特征筛选,模型构建和模型选择。所述模型构建包括6个监督机器学习算法:随机森林,xgboost,多层感知机,核支持向量机,线性支持向量机,logistc回归。

4、上述方法中广靶代谢组学流程的应用,具体分析步骤如下:

5、血液样本的收集与处理:使用edta抗凝采血管采集空腹静脉血2ml,离心(4℃,10min,12000rpm)后提取血清并放置于-80℃冰箱;待所有样本采齐后将所有血样取出,置于冰上解冻,涡旋10s后提取上清液(50μl)到离心管中;加入300μl 20%乙腈甲醇内标提取液;离心(4℃,10min,12000rpm)后移取200μl上清液静置(-20℃,30min);再离心(4℃,3min,12000rpm)移取上清液100μl到进样瓶内衬管中用于上机分析。

6、非靶向代谢组学定性:①建立项目数据库。采用超高效液相色谱串联高分辨质谱中数据依赖采集模式分析混合样品qc中的化合物信息,并与本地库中的标准品信息(多反应检测模式mrm下的质量转变和保留时间)比对,去除重复化合物后获得最终mrm质量转变信息,汇总成为项目数据库;②对血液样品中的代谢物进行鉴定。采用四极杆飞行时间质谱仪以信息相关采集模式采集ms/ms谱图。使用analyst1.6.3软件(sciex)处理从非靶向代谢组学实验获得的原始数据,进行色谱峰检测、提取和对齐。代谢物鉴定时,首先使用本地数据库进行鉴定,该库包含化学标准品和精选化合物列表,比对内容包括精确质量(m/z)、ms/ms谱图和保留时间;随后,根据mzcloud、metlin、hmdb和kegg等公共数据库,根据精确质量、同位素模式和ms/ms谱进行进一步的代谢物鉴定。

7、靶向代谢组学定量:使用三重四极杆线性离子阱质谱仪对血浆样品中的代谢物进行相对定量分析。将所建立的项目数据库中的代谢物用于mrm,分析在正离子和负离子模式下分别进行,仪器由analyst 1.6.3软件(sciex)控制。实验的原始数据使用multiquant3.0.3软件(sciex)进行处理,包括色谱峰积分和校正,并将所得峰面积计算为样品中每种代谢物的相对丰度。通过相对标准偏差(rsd)评估代谢物测定的重复性。rsd大于30%的质谱峰被排除。最终数据集包括代谢物名称、丰度和样品id。

8、第二方面,本发明提供一种如上述生物标志物筛选方法的应用,所述应用为数据分析流程,包含如下步骤:

9、步骤s1:采用广靶代谢组学技术对血液样本中的代谢物并进行定性和定量分析;具体包括:s1.1:收集和处理血液样本;s1.2:建立项目分析数据库:采用高分辨质谱分析混合样品qc中的代谢物,保留离子信息,与本地标准品库去重后建立项目数据库;s1.3:采用三重四级杆质谱测定所有样品中的代谢物含量;s1.4:用multiquant 3.0.3软件处理原始质谱数据,获取代谢物丰度矩阵。

10、步骤s2:采用机器学习技术对代谢物丰度矩阵进行分析,筛选生物标志物并构建预测模型;具体包括:s2.1:特征重建,针对代谢物丰度矩阵进行正态性转换和缩放;s2.2:特征筛选,采用过滤法和包装法筛选出最重要的代谢物作为生物标志物;s2.3:模型构建,采用监督学习方法,通过带交叉验证的网格搜索确定各模型的最佳参数组合,构建6个预测模型;s2.4:模型选择,通过模型在测试集或者外部验证集上的f1分数,auc和dca曲线确定最佳模型为预测模型。所述过滤法包括单因素分析、方差分析;所述包装法包括基于随机森林模型的算法、递归特征消除;所述监督学习方法包括传统的6大类机器学习算法:随机森林,xgboost,多层感知机,核支持向量机,线性支持向量机,logistc回归。

11、步骤s3:筛选慢性肾病生物标志物。具体包括:s3.1:特征重建,针对代谢物丰度;s3.2:收集血液样本,从医院选取慢性肾病患者和健康对照作为研究对象使用edta抗凝采血管采集研究对象空腹静脉血,离心后提取上清液冻入保存;s3.3:处理血浆样品:样本收集齐后从冰箱中取出,遵循“梯度解冻-加提取液-离心-提取上清液”步骤处理血样,另配制空白对照和混样质控(qc)样本;s3.4:进行广靶代谢组学分析;s3.5:采用机器学习筛选生物标志物并构建预测模型。

12、第三方面,本发明提供一种慢性肾病生物标志物组,所述慢性肾病生物标志物组是基于如权利要求3-7所述筛选方法应用得到的;所述慢性肾病生物标志物组包括7种血液代谢物:5-氨基咪唑核糖核苷酸、癸二酸、赖氨酸、5-脱氧-甲硫腺苷、甲氧基吲哚乙酸、脱氧核糖1-磷酸酯和乙磺酸。

13、第四方面,本发明提供一种人工智能模型训练方法,该机器学习流程的应用为分析方法,分析步骤如下:

14、数据集整理:首先,排除代谢物数据集中的药物和污染物及其代谢物等外源性化合物,只保留内源性代谢物;其次,将内源性代谢物丰度矩阵进行log转换,检查有无离群值。

15、特征重建:采用minmax缩放,将各代谢物在样本中的丰度分布值缩放至0-1之间;各内源性代谢物定义为特征,为数据集的特征列,将是否患有疾病或疾病分类定义为标签,为数据集的标签列。数据集的每一行代表一个样本。

16、特征筛选:按照80%和20%的比例将数据集随机拆分为训练集和测试集。首先采用基于单因素分析的特征筛选,将筛选出的特征数量定义为10个;随后再采用基于随机森林模型的特征筛选,逐步迭代直至所选出的特征个数位于5-15个之间后停止;最后取两者的交集作为生物标志物组。

17、模型构建:以上一步生物标志物组为特征,以疾病情况为标签,按照80%和20%的比例将数据集随机拆分为训练集和测试集,采用带交叉验证的网格搜索逐个训练6个监督学习模型:logistic回归、支持向量机、朴素贝叶斯、集成决策树(随机森林和xgboost)和多层感知机。以精度为指标,获取各模型最优参数组合。

18、模型选择:当标签值为连续型变量时采用r2评价各模型的预测效能;当标签值为二分类变量时采用精度、auc和f1分数比较各模型的预测能力。当有外部数据集时,进行外部验证。当标签值为多分类变量时采用宏平均和微平均f1分数,宏平均和微平均auc比较各模型的预测能力。选择预测能力最优的模型作为最终预测模型。

19、本发明的优点及有益效果如下:

20、1、本发明的方法使广靶代谢组学数据分析流程更简洁。传统的统计学方法通常无法处理高通量、大规模、复杂的代谢物丰度矩阵。本方法能够自动从海量数据中学习特征并提取关键信息,尤其在非线性关系的捕捉和处理任务中有显著优势,能快速简单筛选出生物标志物。

21、2、本发明的方法使广靶代谢组学数据分析流程更自动化。本发明的方法无需先验知识,无需逐个处理数以千计的代谢物信息,减轻了人工干预的需求,这对于处理大规模的任务和实时应用非常重要,而传统的统计学需要依赖于事先选择的代谢物,无法同时处理高维度高相关性的复杂数据集。

22、3、本发明的方法所筛选的生物标志物和所建预测模型具有更强的预测能力、适应性和泛化能力。相比于传统统计分析方法,可以在面对新数据集时表现更好,处理新问题时更具有灵活性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1