一种基于机器学习的预测新冠肺炎患者风险分层的方法与流程

文档序号：28500788发布日期：2022-01-15 04:51阅读：618来源：国知局

1.本发明涉及医疗技术领域，更具体地说，它涉及一种基于机器学习的预测新冠肺炎患者风险分层的方法。

背景技术：

2.新型冠状病毒病2019（covid
ꢀ‑
19）是一种由严重急性呼吸系统综合症冠状病毒2（sars-cov-2）引起的新型呼吸道和系统性疾病，自2019年12月报道以来，迅速在全球范围内流行，给全球公共卫生带来了巨大挑战。sars-cov-2感染可能是无症状的，也可能引起多种症状，临床表现多为发热、乏力、干咳等，而少数患者病情危重，可出现严重肺炎和多脏器的衰竭，并最终导致死亡。因此能够早期识别患者发展为重症或危重病人的风险非常重要，这样预后不良的病人就可以得到及时的干预，最大限度地减少疾病的进展，于是一些预测模型被开发和研究，但大多采用传统回归模型。
3.近年来，随着科技的发展，各种机器学习和人工智能技术以其更好的可扩展性、更快的处理能力被广泛应用于患者追踪、疫苗开发和患者筛选等。xgboost模型已被证明为各种医疗应用提供了最先进的结果，并在机器学习算法方面获得了众多奖项。然而，有关机器学习和人工智能在识别患者疾病进展和估计死亡风险方面的应用相对较少。我们的研究基于covid-19患者的一般资料和实验室指标，利用机器学习和多因素逻辑回归方法，开发了预测covid-19患者风险分层的多变量预测模型，比较了两种模型的预测性能。
4.为此，提出一种基于机器学习的预测新冠肺炎患者风险分层的方法。

技术实现要素：

5.针对现有技术存在的不足，本发明的目的在于提供一种基于机器学习的预测新冠肺炎患者风险分层的方法，其应用机器学习的方法构建基于hs-crp、pct、年龄、neuc、hgb、neur和pdw的xgboost模型，用于识别危重新冠肺炎患者，该方法具有良好的预测性能，诊断效率优于使用相同参数建立的逻辑回归方法，提高了对covid-19患者进行风险分层的准确性，能有效评估covid-19患者的严重程度，这有利于医生及时预测疾病的进展并加以干预，以解决上述背景技术中提出的问题。
6.为实现上述目的，本发明提供了如下技术方案：一种基于机器学习的预测新冠肺炎患者风险分层的方法，其特征在于：包括以下步骤：步骤一、收集新型冠状病毒感染的患者；步骤二、新冠肺炎患者临床资料的采集记录及储存；步骤三、数据处理分析：使用机器学习极端梯度增强xgboost的方法对临床一般资料和实验室指标特征进行预测的重要性排序。
7.进一步的，在步骤一中，收集新型冠状病毒感染的患者时病例资料收集的纳入标准为:实时荧光rt-pcr检测新型冠状病毒核酸阳性；病例资料收集的排除标准为: 15岁以
下患者。
8.进一步的，在步骤二中，新冠肺炎患者临床资料采集包括：患者年龄、性别、患者的既往病史，包括高血压、糖尿病、冠心病、脑血管疾病、肿瘤、慢性肾脏病、慢性肝病、酗酒、吸烟；实验室指标包括血常规、超敏c反应蛋白、降钙素原。
9.进一步的，在步骤三中，数据处理分析：表示数据时，连续变量表示为平均标准差或中位数(q1-q3)，分类变量表示为频率(%)；使用非配对的student t-test或mann whitney非参数检验来比较连续变量；使用pearson卡方检验和fisher精确检验来分析分类变量。
10.进一步的，在步骤三中，使用一般临床资料和实验室指标预测风险分层来训练机器学习模型（xgboost），优化后的模型参数设置如下:booster=gbtree，objective = binary: logistic，eta = 0.3，gamma= 5，max_depth=6，min_child_weight=1，subsample=1，colsample_bytree=1；为了评估由模型开发的特征的重要性，计算增益、覆盖和频率三个重要性分数，其中增益是解释每个特征相对重要性的最相关属性，根据各种因素对风险预测的重要性对其进行了排序，发现超敏c反应蛋白(hs-crp)、降钙素原(pct)和年龄是前三位风险因素，其次是四项常规血液学指标: 中性粒细胞计数(neuc)、血红蛋白(hgb)、中性粒细胞比率(neur)和血小板分布宽度(pdw)。
11.进一步的，利用机器学习算法选取的上述7个指标作为模型参数(自变量)，以患者风险分层作为因变量，采用多元逻辑回归方法建立另一个预测模型；logit(p)= 7.05139+2.31599
×
降钙素原+ 0.00264
ꢀ×
超敏c反应蛋白+ 0.06364
ꢀ×
年龄+ 0.14735
ꢀ×
中性粒细胞计数+ 0.02677
ꢀ×
中性粒细胞百分比-0.00751
×
血红蛋白+ 0；上述公式中的p值为患者被诊断为重症或以上病例的概率。
12.进一步的，xgboost模型会对每个病例进行预测，生成患者是否诊断为重型以上的预测概率（p）；对预测概率取不同的cut-off值来判断患者的分层，对于每一个cut-off值，都可以得到相应的灵敏度和特异度并绘制接收器工作特性(roc)曲线，计算曲线下面积(auc)和95%置信区间(ci)；对于逻辑回归模型，通过计算每个病例的logit (p)绘制roc曲线，并计算auc和95% ci；使用delong检验比较两种模型的auc，发现两种模型的auc有显著差异（0.978 vs. 0.827，p = 0.002），且机器学习模型的敏感性、特异性和准确性均优于逻辑回归模型。
13.本发明的技术效果和优点：本发明，其应用机器学习的方法构建基于hs-crp、pct、年龄、neuc、hgb、neur和pdw的xgboost模型，用于识别危重新冠肺炎患者，该方法具有良好的预测性能，诊断效率优于使用相同参数建立的逻辑回归方法，提高了对covid-19患者进行风险分层的准确性，能有效评估covid-19患者的严重程度，这有利于医生及时预测疾病的进展并加以干预。
附图说明
14.图1为一种实施方式的基于机器学习的预测新冠肺炎患者风险分层的方法的流程示意图；图2为一种实施方式的xgboost模型中预测变量的重要性排序示意图。
具体实施方式
15.下面将结合本发明实施例中的附图1-图2，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
16.一种基于机器学习的预测新冠肺炎患者风险分层的方法，如图1-2所示，包括以下步骤：步骤一：收集新型冠状病毒感染的患者；纳入标准:实时荧光rt-pcr检测新型冠状病毒核酸阳性；符合《新型冠状病毒肺炎诊疗方案》(试验版7)的诊断标准。
17.排除标准: 15岁以下患者。
18.步骤二：新冠肺炎患者临床资料的采集记录及储存；新冠肺炎患者临床资料采集包括：患者年龄、性别、患者的既往病史，包括高血压、糖尿病、冠心病、脑血管疾病、肿瘤、慢性肾脏病、慢性肝病、酗酒、吸烟。实验室指标包括血常规、超敏c反应蛋白、降钙素原。
19.步骤三、数据处理分析：表示数据时，连续变量表示为平均标准差或中位数(q1-q3)，分类变量表示为频率(%)。使用非配对的student t-test或mann whitney非参数检验来比较连续变量。使用pearson卡方检验和fisher精确检验来分析分类变量。
20.使用一般临床资料和实验室指标预测风险分层来训练机器学习模型（xgboost），优化后的模型参数设置如下: booster=gbtree，objective=binary: logistic，eta=0.3，gamma=5，max_depth=6，min_child_weight=1，subsample=1，colsample_bytree=1。为了评估由模型开发的特征的重要性，计算增益、覆盖和频率三个重要性分数，其中增益是解释每个特征相对重要性的最相关属性，根据各种因素对风险预测的重要性对其进行了排序，发现超敏c反应蛋白(hs-crp)、降钙素原(pct)和年龄是前三位风险因素，其次是四项常规血液学指标: 中性粒细胞计数(neuc)、血红蛋白(hgb)、中性粒细胞比率(neur)和血小板分布宽度(pdw)。
21.利用机器学习算法选取的上述7个指标作为模型参数(自变量)，以患者风险分层作为因变量，采用多元逻辑回归方法建立另一个预测模型。logit(p)= 7.05139+2.31599
×
降钙素原+ 0.00264
ꢀ×
高敏c反应蛋白+ 0.06364
ꢀ×
年龄+ 0.14735
ꢀ×
中性粒细胞计数+ 0.02677
ꢀ×
中性粒细胞百分比-0.00751
×
血红蛋白+ 0。上述公式中的p值为患者被诊断为重症或以上病例的概率。
22.xgboost模型会对每个病例进行预测，生成患者是否诊断为重型以上的预测概率（p）；对预测概率取不同的cut-off值来判断患者的分层，对于每一个cut-off值，都可以得到相应的灵敏度和特异度并绘制接收器工作特性(roc)曲线，计算曲线下面积(auc)和95%置信区间(ci)。对于逻辑回归模型，通过计算每个病例的logit (p)绘制roc曲线，并计算auc和95% ci。使用delong检验比较两种模型的auc，发现两种模型的auc有显著差异（0.978 vs. 0.827，p = 0.002），且机器学习模型的敏感性、特异性和准确性均优于逻辑回归模型。
r软件用于所有统计分析，版本3.4.3（下载地址http://www.r-project.org）。p《0.05为差异有统计学意义。
23.综上所述：本发明提供的基于机器学习的预测新冠肺炎患者风险分层的方法，其应用机器学习的方法构建基于hs-crp、pct 、年龄、neuc、hgb、neur和pdw的xgboost模型，用于识别危重新冠肺炎患者，该方法具有良好的预测性能，诊断效率优于使用相同参数建立的逻辑回归方法，提高了对covid-19患者进行风险分层的准确性，能有效评估covid-19患者的严重程度，这有利于医生及时预测疾病的进展并加以干预，以解决上述背景技术中提出的问题。
24.最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张淑瑛;蒋丽娟;邵小南
技术所有人：常州市第一人民医院
我是此专利的发明人

上一篇：一种起箱翻箱机械手的制作方法
上一篇：一种用于检测核电站油位计的试验装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。