肺动脉高压患者基因表达分类器的制作方法

文档序号:32703457发布日期:2022-12-27 23:21阅读:52来源:国知局
肺动脉高压患者基因表达分类器【
技术领域
:】1.本发明涉及生物医学
技术领域
:,具体是一种肺动脉高压基因表达模型及建立方法。
背景技术
::2.肺动脉高压(ph)是一种血流动力学和病理生理学疾病,定义为通过右心导管插入术评估,静息时平均肺动脉压(pap)≥25mmhg。肺动脉高压的临床症状有劳累性呼吸困难、胸闷、胸痛、晕厥、右心衰竭等症状和体征。据统计,全球每100万人中就有11-50人受到肺动脉高压的影响。常见的肺动脉高压类型有特发性肺动脉高压(idiopathicpulmonaryarterialhypertension,ipah)、遗传性肺动脉高压(heritablepulmonaryarterialhypertension,hpah)、药物和毒物相关肺动脉高压、疾病相关的肺动脉高压、对钙通道阻滞剂长期有效的肺动脉高压、具有明显肺静脉/肺毛细血管受累的肺动脉高压以及新生儿持续性肺动脉高压。3.目前,肺动脉高压的诊断主要通过多普勒超声心动图进行初步的筛查,接着利用血流动力学诊断将患者分类,最后通过肺通气/灌注显像、夜间血氧饱和度测定等手段进行病因诊断。对肺动脉高压患者进行治疗前通常需要进行危险分层以评估病情的严重程度,针对不同类型和严重程度的患者,采取的治疗措施通常是不同的。常见的治疗手段有一般措施(康复训练,接种疫苗,避孕等)、支持治疗(抗凝药、利尿剂等)和靶向4种肺动脉高压相关分子途径的特异性疗法,这些治疗只能减缓疾病的进展,并不能治愈肺动脉高压。随着诊断技术和治疗方法的进步,患者1年和3年生存率均有了明显的提高。然而,根据美国2001年到2012年间对肺动脉高压患者的调查显示,尽管患者住院人数有所减少,但是肺动脉高压患者的住院死亡率保持不变且治疗费用大大增加。因此,寻找高效经济的诊断方法有助于解决肺动脉高压患者目前所面临的问题,同时也有助于人们进一步了解肺动脉高压的发病机制。4.机器学习是现代医学非常重要的研究手段,在生物信息学领域,机器学习主要用于疾病诊断标志物筛选和预后模型的构建。近年来,基于机器学习算法挖掘肺动脉高压的诊断生物标志物的研究较少,因此,通过机器学习的方法,将肺动脉高压患者中关键的mrna用于肺动脉高压诊断是十分有前景的。技术实现要素:5.本发明的目的是针对现有技术存在的不足,提供一种利用机器学习算法构建的肺动脉高压的基因诊断分类器,其特征在于包含特征基因筛选、模型构建和训练。本发明提供了多个肺动脉高压的诊断生物标志物,这些生物标志物可以有效对健康人和肺动脉高压患者进行分类,为肺动脉高压患者的临床诊断提供更加便捷的辅助方法。6.一种利用机器学习算法构建的肺动脉高压基因诊断分类器,其具体步骤为:7.step1:识别能够区分肺动脉高压和健康人的特征基因8.1)数据集下载:从geo数据库中下载肺动脉高压患者和健康人的血液rna-seq表达矩阵;9.2)为建立行为特征与分类之间的联系:利用python包xgboost建立xgboost模型,根据特征重要性排序和递归消除确定关键特征;xgboost是一种梯度推进决策树方法,是梯度提升决策树(gradientboostingdecisiontree,gbdt)算法的高效实现,是一种基于决策树的集成机器学习算法,与其他分类器相比,此模型泛化能力强、拓展性高,且具有较快的运算速度,在机器学习领域中备受关注;其目标函数定义如式:[0010][0011]式中loss是训练损失(trainingloss),ω(f)为树的复杂度,k为模型中树的个数;该模型可以通过最小化目标函数来优化;为此,采用加法训练法计算训练损失,并利用泰勒展开法快速优化第n轮加法训练的预测;[0012]3)模型训练:由于样本不均衡,我们使用python包imblearn进行上采样的方法模型训练;[0013]step2:多种基因筛选模型建立,其具体步骤如下:[0014]1)通过xgboost确定了20个能够区分肺动脉高压和健康人的候选特征基因;[0015]2)基于20-候选特征基因利用python包sklearn分别构建k近邻(knn)分类器,随机森林(rf)分类器,支持向量机(svm)分类器,高斯朴素贝叶斯(nb)分类器;[0016]k-近邻分类器(k-nearestneighbor,knn)是最经典和最简单的有监督学习算法之一;其原理为:当对测试样本进行分类时,首先通过扫描训练样本集,找到与该测试样本最相似的个训练样本,根据这个样本的类别进行投票确定测试样本的类别;也可以通过个样本与测试样本的相似程度进行加权投票;如果需要以测试样本对应每类的概率的形式输出,可以通过个样本中不同类别的样本数量分布来进行估计;[0017]随机森林(randomforests)基于分类器模型进行特征选择,要求分类器能计算特征的重要性或权重;rf算法的核心思想是利用权重对特征进行排序,从最重要的依次递减,rf删除权重排名最后的一个特征,迭代直到剩下想要留下的特征数目为止;[0018]支持向量机(supportvectormachine,svm)是一种常用的分类模型,svm核心思想是寻找最大间隔的划分超平面,从而可以更好地匹配样本数据,容忍随机扰动,提高模型的泛化能力,svm做分类器时,它的参数取决于样本的数量而非特征的数量,与样本-特征的数量比值几乎无关,因此这样的模型可以很好地适应高维小样本数据;[0019]高斯朴素贝叶斯(gaussiannaivebayes)是一种基于贝叶斯定理的概率方法,具有输入属性之间的朴素独立性假设;[0020]3)利用增量特征选择的方法基于20-候选特征基因的十倍交叉验证的auc值绘制ifs曲线,根据最优auc值和截止值选择最优基因诊断模型;[0021]step3:诊断模型性能验证及特征基因功能分析[0022]1)pca降维分析和样本聚类分析:基于特征基因的表达数据,利用r包factominer提取所选基因的第一和第二主成分;通过主成分降维分析,验证特征基因的分类诊断性能;并且利用pheatmap包对样本进行聚类验证模型分类效果;[0023]2)差异分析:为了研究特征基因潜在的生物学功能,以健康人血液rna表达数据为对照,利用r包limma对肺动脉高压患者血液和健康组rna表达数据进行差异分析(|logfc|》0.585,adjp《0.05),识别在肺动脉高压样本中异常表达的基因;[0024]3)ppi网络分析:利用string数据库,选择置信得分≥0.7的相互作用关系对肺动脉高压样本中的差异表达基因构建ppi网络,进行网络互作分析;[0025]4)随机游走分析:以ppi网络中的标志基因为seedgene,利用r包dnet对ppi网络进行随机游走分析;[0026]5)go、kegg富集分析:利用r包clusterprofiler对亲和系数前50的基因进行go、kegg富集分析,进行生物学功能分析。[0027]与现有技术相比,本发明的有益效果为:本技术采用xgboost特征选择、利用能够识别肺动脉高压的候选特征基因分别构建svm、knn、rf、nb分类器,利用增量特征选择基于基因数据的十倍交叉验证并根据最佳auc值和截止值选择最优基因诊断模型。[0028]本发明基于肺动脉高压患者的血液转录组数据,构建了不同的诊断分类器,并横向比较了不同分类器算法模型,svm分类器在所有分类器模型中都表现出了比较大的优势。这表明svm模型针对小样本高纬度的基因特征数据能表现出强大的分类能力,并且基于15-特征基因的表达数据对样本进行pca降维分析,svm分类器表现出强大的区分能力,也验证了生物信息分析的可靠性。【附图说明】[0029]图1为肺动脉高压诊断特征基因筛选;基于20-候选特征基因构建的knn、rf、svm、nb4种基因分类器的ifs曲线,横坐标代表特征基因数,纵坐标代表auc值;(b)15-特征基因knn分类器的roc曲线;[0030]图2为15-特征基因诊断模型性能分析;(a)基于15-特征基因knn分类器的样本pca降维二维图,红色代表肺动脉高压患者,绿色代表健康人样本;(b)基于15-特征基因knn分类器的样本聚类热图;[0031]图3为ppi网络中关键基因go、kegg富集分析;(a)knn分类器与肺动脉高压相关差异表达基因的维恩图;(b)50个关键基因的go富集分析;(c)50个关键基因的kegg富集分析。【具体实施方式】[0032]下面结合附图和实施例详细描述本发明,以下所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
:的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。[0033]实施例:一种基于机器学习算法构建的肺动脉高压患者基因表达分类器一、材料与方法[0034]1、数据集下载与预处理[0035]从geneexpressionomnibusdatabase(geo)数据库下载肺动脉高压患者和健康人的血液mrna表达矩阵gse33463(ph:72,normal:41);使用knn算法填充缺失表达数据,并用limma进行归一化处理;[0036]2、xgboost特征选择[0037]利用python包xgboost建立xgboost模型,根据特征重要性排序和递归消除确定关键特征,识别能够区分ph和健康人的候选特征基因;[0038]3、模型训练[0039]由于样本不均衡,我们使用python包imblearn进行上采样的方法进行模型训练;[0040]4、基因分类器构建[0041]基于筛选获得的候选特征基因建立基因分类器,利用python包sklearn分别构建k近邻(knn)分类器,随机森林(rf)分类器,支持向量机(svm)分类器,高斯朴素贝叶斯(nb)分类器;基于分类器中每个候选特征基因的十倍交叉验证auc值比较模型,利用增量特征选择(ifs)的方法选择合适的基因数目截止值和auc值确定最优的分类器即诊断分类器;[0042]5、诊断分类器性能分析[0043]确定最佳基因分类器后,我们试图直观地研究他们对ph和normal的分类效果;利用r包factominer提取所选基因的第一和第二主成分;通过主成分分析降维,高维基因表达谱可以映射到pc1和pc2的二维上;2d-pca图将给出每个样本彼此之间有多近的直观视图;并且利用pheatmap包对样本进行聚类分析;[0044]6、差异表达分析[0045]为了研究特征基因潜在的生物学功能,以健康人血液rna表达数据为对照,利用r包limma对肺动脉高压患者血液和健康组rna表达数据进行差异分析(|logfc|》0.585,adjp《0.05),识别在肺动脉高压样本中异常表达的基因;[0046]7、ppi网络分析及随机游走分析[0047]利用string数据库对肺动脉高压相关的差异表达基因进行蛋白互作分析,选择置信得分≥0.7的相互作用关系对构建ppi网络;将特征基因与肺动脉高压相关的差异表达基因取交集,将交集基因作为seedgene;利用r包dnet对上一步得到的ppi网络进行重启动随机游走(randomwalkwithrestart,rwr)分析设置重启概率(restartprobablity)为0.85,采用laplacian法对网络图的邻接矩阵进行归一化;rwr分析后得到每个基因与seed之间的亲和系数(affinityscore),我们选取亲和系数排名前50的节点基因做后续功能分析;[0048]8、go、kegg富集分析[0049]利用r包clusterprofiler对ppi网络中亲和系数排名前50的节点基因进行go和kegg富集分析,选择pvalue《0.05且qvalue《0.05作为显著性阈值。并利用r包enrichplot进行结果可视化。[0050]二、结果[0051]1、数据集预处理及特征选择[0052]利用r包limma对肺动脉高压患者和健康人血液mrna表达数据进行标准化处理,共得到19236个基因;利用xgboost建立xgboost模型,并进行特征选择,共计筛选出20个能够区别肺动脉高压及健康人样本的候选特征基因;[0053]2、最优基因诊断分类器构建[0054]利用isf方法尝试了不同分类器及顶级基因的不同组合,并记录了基于这些基因构建的knn,rf(rf.txt),svm,nb分类器的性能,以直观地选择基因组合;结合发现svm在前15个基因时分类器效果最好,10倍交叉验证结果显示auc值最高(图1a);其中灵敏度为0.931,特异度为0.927,准确度为0.929,auc值为0.985(图2b);[0055]3、肺动脉高压svm分类器性能验证[0056]基于15-特征基因的表达数据对样本进行pca降维分析以及样本聚类分析,结果显示这些基因可以很好的区分肺动脉高压患者和健康样本(图2a-b);[0057]4、ppi网络分析和富集分析[0058]以normal组为对照,对ph组和normal组进行差异分析,共计获得471个肺动脉高压相关的差异表达基因并构建了ppi网络;将ppi网络中235个节点基因与15-特征基因取交集获得4个基因并作为seedgene(图3a);随后对ppi网络进行rwr分析获得节点基因和seedgene的亲和系数,最终选取亲和系数前50基因进行go、kegg富集分析;[0059]对ppi网络中亲和系数前50基因进行go生物学功能和kegg生物通路分析,go结果显示这些基因主要富集在cellularresponsetotypeiinterferon,cellchemotaxis,ubiquitin-proteintransferaseactivity,c-cchemokinereceptoractivity等生物学功能上(图3b)。kegg结果显示这些基因主要富集在等chemokinesignalingpathway,cytokine-cytokinereceptorinteraction等生物学通路上(图3c)。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1