本发明涉及医疗数据分析,具体地,涉及一种使用机器学习算法建立糖尿病预测模型的方法。
背景技术:
1、在现有的糖尿病预测领域,面临着一个重要的挑战:如何从大规模的体检数据中准确地提取与糖尿病风险相关的特征,并构建一个高质量的数据集用于机器学习模型的训练。
2、因此,急需要提供一种使用机器学习算法建立糖尿病预测模型的方法来解决上述难题。
技术实现思路
1、本发明的目的是提供一种使用机器学习算法建立糖尿病预测模型的方法,该方法能够更准确地预测个体患上糖尿病的风险,从而有助于医疗保健专业人员进行早期干预和治疗,改善患者的生活质量。
2、为了实现上述目的,本发明提供了一种使用机器学习算法建立糖尿病预测模型的方法,该方法包括:
3、步骤1:从医院提供的数据库中进行体检数据整合,得到原始数据集;
4、步骤2:使用中位数对步骤1中得到的原始数据集进行空值填充,并采用标准化进行数据处理;
5、步骤3:使用递归特征消除、文献法以及专家知识导向相结合筛选出重要特征;
6、步骤4:根据步骤3中筛选出的重要特征,使用多种机器学习算法进行建模,使用交叉验证与常用的性能评价指标评估模型的优劣,找出性能表现最好的模型;
7、步骤5:对步骤4中找出的最优模型进行参数调优,进一步提升模型在本数据集上的性能。
8、优选地,步骤3中的重要特征包括人口学信息、身体测量情况、血液参数和生化指标。
9、优选地,人口学信息包括年龄和饮酒史。
10、优选地,身体测量情况包括体重、体重指数和身高。
11、优选地,血液参数包括本次收缩压、本次舒张压、lymph#淋巴细胞绝对值、白细胞、红细胞、红细胞压积、血小板、血小板比积、平均红细胞体积、平均血红蛋白量、平均血红蛋白浓度、红细胞分布宽度、平均血小板体积、血小板分布宽度、mono#单核细胞绝对值、neut#中性粒细胞绝对值、淋巴细胞百分比、单核细胞百分比、中性粒细胞百分比、嗜酸性细胞百分比、嗜碱性细胞百分比、嗜酸性细胞绝对值和嗜碱性细胞绝对值。
12、优选地,生化指标包括总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、尿素氮、肌酐、尿酸、谷丙转氨酶、谷草转氨酶、总蛋白、白蛋白和天门冬氨酸氨基转移酶ast。
13、优选地,步骤4中的多种机器学习算法包括逻辑回归、随机森林、支持向量机、xgboost和lightgbm。
14、优选地,在步骤4中,常用的性能评价指标包括准确率、精确度、召回率、f1-score和auc值。
15、优选地,在步骤5中,模型调参方法为网格搜索。
16、根据上述技术方案,本发明首先从医院提供的数据库中进行体检数据整合,得到原始数据集;其次使用中位数对步骤1中得到的原始数据集进行空值填充,并采用标准化进行数据处理;然后使用递归特征消除、文献法以及专家知识导向相结合筛选出重要特征;接着根据筛选出的重要特征,使用多种机器学习算法进行建模,使用交叉验证与常用的性能评价指标评估模型的优劣,找出性能表现最好的模型;最后对找出的最优模型进行参数调优,进一步提升模型在本数据集上的性能。这样,该方法能够更准确地预测个体患上糖尿病的风险,从而有助于医疗保健专业人员进行早期干预和治疗,改善患者的生活质量。此外,该方法还为医学研究提供了一个有力的工具,可以在大规模数据集上进行糖尿病风险分析和预测,以促进疾病预防和管理领域的进展。
17、本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
1.一种使用机器学习算法建立糖尿病预测模型的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,步骤3中的重要特征包括人口学信息、身体测量情况、血液参数和生化指标。
3.根据权利要求2所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,人口学信息包括年龄和饮酒史。
4.根据权利要求2所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,身体测量情况包括体重、体重指数和身高。
5.根据权利要求2所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,血液参数包括本次收缩压、本次舒张压、lymph#淋巴细胞绝对值、白细胞、红细胞、红细胞压积、血小板、血小板比积、平均红细胞体积、平均血红蛋白量、平均血红蛋白浓度、红细胞分布宽度、平均血小板体积、血小板分布宽度、mono#单核细胞绝对值、neut#中性粒细胞绝对值、淋巴细胞百分比、单核细胞百分比、中性粒细胞百分比、嗜酸性细胞百分比、嗜碱性细胞百分比、嗜酸性细胞绝对值和嗜碱性细胞绝对值。
6.根据权利要求2所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,生化指标包括总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、尿素氮、肌酐、尿酸、谷丙转氨酶、谷草转氨酶、总蛋白、白蛋白和天门冬氨酸氨基转移酶ast。
7.根据权利要求1所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,步骤4中的多种机器学习算法包括逻辑回归、随机森林、支持向量机、xgboost和lightgbm。
8.根据权利要求1所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,在步骤4中,常用的性能评价指标包括准确率、精确度、召回率、f1-score和auc值。
9.根据权利要求1所述的使用机器学习算法建立糖尿病预测模型的方法,其特征在于,在步骤5中,模型调参方法为网格搜索。