本发明涉及糖尿病足人工智能辅助诊断,特别是涉及一种基于相关性度量的糖尿病足分组式特征选择方法及系统。
背景技术:
1、糖尿病足是糖尿病引起的足部缺血性、神经性和神经缺血性病变,会导致足部出现不同程度感染、溃疡、坏疽,并增加截肢风险,是糖尿病常见的并发症之一。目前,糖尿病足诊断的困难之处在于相关的临床医疗检查指标的挖掘,由于造成足溃烂的原因不只是有糖尿病,也有可能是真菌等其他原因。现阶段,糖尿病足的诊断分级是通过对于患者足部的溃烂面积进行清创处理之后再通过溃烂面积进行分级诊断。该过程大多数都是由人工经验进行判断,而且在清创处理之前,并没有办法准确对糖尿病足进行诊断分级。有不少的误诊大都是未在清创的情况下,因溃疡化脓面积过大,在缺少临床经验的情况下直接让患者选择截肢,导致大多数糖尿病足患者残疾。所以,糖尿病足患者往往由于诊断人经验不足或者错误的判断,得到错误的治疗方式。因此,通过从脚面特征判断糖尿病足是否需要对溃烂进行处理,需要大量的经验。而临床医学上,病人往往会做大量的指标检查,如何从大量的临床医疗数据中挖掘出与糖尿病足相关的临床医疗指标特征来辅助医生诊断糖尿病足溃疡和帮助糖尿病人预防糖尿病足溃疡成为目前医疗方面的难题。
2、现有医疗数据运用的特征选择算法研究中,有些是基础特征选择算法优化后的综合性应用,有些是基础特征选择算法综合使用。但是大多数运用在临床医学数据集上的特征选择算法都忽略了医疗临床数据中特征之间具有一定的相关性,进而无法挖掘与糖尿病足最相关的危险因素。
技术实现思路
1、本发明的目的是提供一种基于相关性度量的糖尿病足分组式特征选择方法及系统,能够高效、准确地挖掘糖尿病足临床相关特征,为糖尿病足提供准确的辅助诊断依据。
2、为实现上述目的,本发明提供了如下方案:
3、一种基于相关性度量的糖尿病足分组式特征选择方法,包括:
4、获取糖尿病足数据集并进行数据清洗操作,得到预处理数据集;
5、将预处理数据集转换成图结构数据集;
6、基于图结构数据集将特征进行分组,得到多个特征分组;
7、对各个特征分组内的特征进行组间分析,选出糖尿病足的高相关特征分组;
8、对糖尿病足的高相关特征分组进行组内分析,挖掘出与糖尿病足高相关低冗余的特征。
9、可选地,所述获取糖尿病足数据集并进行数据清洗操作,得到预处理数据集,具体包括:
10、获取糖尿病人在医院所做的临床检查报告中信息来组成糖尿病足数据集;所述临床检查报告中信息包括糖尿病人的年龄、身高、体重、血常规指标和尿常规指标信息;
11、对糖尿病足数据集中缺失程度较高的数据进行删除,使用k近邻算法对糖尿病足数据集中的缺失值进行填补,以及对糖尿病足数据集中的字符串类型数据进行替换,得到n个病人具有m个特征的预处理数据集;所述m个特征包括年龄、身高、体重、血常规指标和尿常规指标。
12、可选地,所述将预处理数据集转换成图结构数据集,具体包括:
13、采用公式计算预处理数据集中各个特征之间的相似性度量;其中fi和fj分别为预处理数据集中的第i个和第j个特征;ε(fi,fj)表示特征fi和fj之间的相似性度量;
14、以预处理数据集中的各个特征为图的节点,以各个特征之间的相似性度量ε(fi,fj)为图边的权重,将预处理数据集转换成图结构数据集。
15、可选地,所述基于图结构数据集将特征进行分组,得到多个特征分组,具体包括:
16、计算图结构数据集的拉普拉斯矩阵;
17、对拉普拉斯矩阵进行特征分解,得到拉普拉斯矩阵的特征值和特征向量;
18、获取前k个最小的特征值对应的特征向量,并按照列排成特征矩阵;
19、基于特征矩阵计算出各个特征的特征职责度和特征支持度;
20、基于特征职责度和特征支持度,通过迭代算法选取特征支持度和特征职责度之和不为零的特征为特征分组的特征中心;
21、根据除特征中心以外的特征与特征中心之间的相似性度量进行分组,得到多个特征分组。
22、可选地,所述对各个特征分组内的特征进行组间分析,选出糖尿病足的高相关特征分组,具体包括:
23、计算各个特征分组的分组中心;
24、基于分组中心计算与目标特征同类别的最近邻和非同类别的最近邻;
25、基于同类别的最近邻和非同类别的最近邻,计算各个特征分组与目标特征的相关统计量;
26、获取相关统计量最大的前t个特征分组为糖尿病足的高相关特征分组。
27、可选地,所述对糖尿病足的高相关特征分组进行组内分析,挖掘出与糖尿病足高相关低冗余的特征,具体包括:
28、针对每个高相关特征分组,计算高相关特征分组内各个特征的高相关低冗余指标;
29、选择高相关低冗余指标最大值对应的特征为高相关特征分组内与糖尿病足高相关低冗余的特征。
30、本发明还提供一种基于相关性度量的糖尿病足分组式特征选择系统,包括:
31、数据预处理模块,用于获取糖尿病足数据集并进行数据清洗操作,得到预处理数据集;
32、数据集转换模块,用于将预处理数据集转换成图结构数据集;
33、特征分组模块,用于基于图结构数据集将特征进行分组,得到多个特征分组;
34、组间分析模块,用于对各个特征分组内的特征进行组间分析,选出糖尿病足的高相关特征分组;
35、组内分析模块,用于对糖尿病足的高相关特征分组进行组内分析,挖掘出与糖尿病足高相关低冗余的特征。
36、本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于相关性度量的糖尿病足分组式特征选择方法。
37、可选地,所述存储器为非暂态计算机可读存储介质。
38、根据本发明提供的具体实施例,本发明公开了以下技术效果:
39、本发明提供了一种基于相关性度量的糖尿病足分组式特征选择方法及系统,基于糖尿病足特征之间的相关性度量将特征进行分组;将分组后的数据按照特征分组进行组间分析,选出糖尿病足的高相关特征分组,对高相关特征分组进行组内分析,挖掘出与糖尿病足高相关低冗余的特征。本发明提供的方法通过数据挖掘技术能够高效挖掘糖尿病足临床相关特征,为糖尿病足提供准确的辅助诊断依据,进而提高糖尿病足诊断的准确率。
1.一种基于相关性度量的糖尿病足分组式特征选择方法,其特征在于,包括:
2.根据权利要求1所述的基于相关性度量的糖尿病足分组式特征选择方法,其特征在于,所述获取糖尿病足数据集并进行数据清洗操作,得到预处理数据集,具体包括:
3.根据权利要求2所述的基于相关性度量的糖尿病足分组式特征选择方法,其特征在于,所述将预处理数据集转换成图结构数据集,具体包括:
4.根据权利要求3所述的基于相关性度量的糖尿病足分组式特征选择方法,其特征在于,所述基于图结构数据集将特征进行分组,得到多个特征分组,具体包括:
5.根据权利要求4所述的基于相关性度量的糖尿病足分组式特征选择方法,其特征在于,所述对各个特征分组内的特征进行组间分析,选出糖尿病足的高相关特征分组,具体包括:
6.根据权利要求5所述的基于相关性度量的糖尿病足分组式特征选择方法,其特征在于,所述对糖尿病足的高相关特征分组进行组内分析,挖掘出与糖尿病足高相关低冗余的特征,具体包括:
7.一种基于相关性度量的糖尿病足分组式特征选择系统,其特征在于,包括:
8.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于相关性度量的糖尿病足分组式特征选择方法。
9.根据权利要求8所述的电子设备,其特征在于,所述存储器为非暂态计算机可读存储介质。