基于血管生成相关基因的肿瘤预后预测模型构建方法

文档序号:31054679发布日期:2022-08-06 11:50阅读:来源:国知局

技术特征:
1.基于血管生成相关基因的肿瘤预后预测模型构建方法,其特征在于,包括以下步骤:步骤s1:从tcga某癌种队列中收集原始rna测序(rna seq)数据集和临床特征,随机分为训练集和测试集;步骤s2:从分子签名数据库(http://www.gsea-msigdb.org/gsea/msigdb/,msigdb-hallmark版本7.4)下载具有表达谱的args基因集;步骤s3:在训练集中,通过计算每个变量的重要性分数(应用glmnet、rms、e1071、caret、randomforest、boruta,以及r中的xgboost软件包来实现),使用支持向量机(svm)、最小绝对收缩和选择算子(lasso)回归、随机森林和boruta(rfb)以及极端梯度增强(xgboost)分析,选择最重要的组相关特征;选择args相关差异表达基因的表达作为输入变量(自变量),选择亚型状态作为结果(二元因变量,0或1);使用受试者工作特征(roc)曲线来评估训练集中用于特征选择的四种机器学习算法的性能,并随后比较roc曲线(aucs)下的区域;然后,从lasso、svm、rfb和xgboost分析中的交叉基因中获得最关键的亚型相关基因,并使用venn图进行可视化;最后,对关键基因进行多元logistic回归分析,并将其用于构建预测模型;roc曲线用于研究亚型预测因子的性能,进而确定区分不同亚型的最佳截止值,以及auc、敏感性、特异性和准确性;最后,以同样的方式使用测试集验证预测模型的预测性能。2.根据权利要求1所述的构建方法,其特征在于,所述的肿瘤包括但不限于胃癌、膀胱癌。3.一种肿瘤预后预测模型,其通过如权利要求1所述的方法建立,所述的肿瘤预后预测模型的计算公式如下:预测分值=5.869+0.852
×
(dclk1的表达水平)+0.295
×
(ptgis的表达水平)+0.340
×
(nudt10的表达水平)+0.598
×
(zfhx4的表达水平)+0.290
×
(pcdh9的表达水平)+0.211
×
(chrdl1的表达水平)+0.073
×
(nlgn1的表达水平)+0.298
×
(agtr1的表达水平)+0.221
×
(cntn1表达水平)+0.261
×
(ecrg4表达水平)。

技术总结
本发明涉及生物信息领域,具体是基于血管生成相关基因的肿瘤预后预测模型构建方法,本发明基于LASSO、RFB、SVM和XGBoost四种机器学习算法(MMLA)构建,并使用两个独立的GC队列进行验证。本发明构建的预测模型在确定患者预后和治疗目标方面具有很好的指导意义。和治疗目标方面具有很好的指导意义。


技术研发人员:王斌 马宁 李洁 王一然 彭小波 湛先保
受保护的技术使用者:中国人民解放军海军军医大学第一附属医院
技术研发日:2022.04.12
技术公布日:2022/8/5
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1