一种决策树的建立方法、装置、终端设备及介质与流程

文档序号:24160639发布日期:2021-03-05 16:20阅读:98来源:国知局
一种决策树的建立方法、装置、终端设备及介质与流程

[0001]
本申请属于计算机技术领域,尤其涉及一种决策树的建立方法、装置、终端设备及介质。


背景技术:

[0002]
决策树方法是通过一系列规则对数据进行分类的过程。决策树是一个类似流程图的树状结构,每个内部节点表示在一个特征上的测试,每个分支表示一个测试输出,每个叶节点表示一类。决策树是基于逻辑判断,分类结果简单、结构直观,可以很好地辅助医生进行诊断。
[0003]
现有的决策树建立方法一般分为两步:
[0004]
1.利用训练数据集通过机器学习的方法建立一个决策树模型。
[0005]
2.利用生成的决策树对输入数据进行分类。
[0006]
但是,现有的决策树建立方法中,涉及较多复杂的机器学习计算,统计分类,数学编程,有些情况下受到数据驱动得到的结果临床意义不明确,导致决策树在医学领域的实用性比较差。


技术实现要素:

[0007]
本申请实施例提供了一种决策树的建立方法、装置、终端设备及介质,可以构建一个用于疾病分类的简易决策树,运用于临床诊断。
[0008]
第一方面,本申请实施例提供了一种决策树的建立方法,所述方法包括:
[0009]
获取多组样本数据,并提取每组样本数据的样本特征;
[0010]
将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;
[0011]
根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;
[0012]
根据所述差异属性,确定决策树的节点,建立所述决策树。
[0013]
第二方面,本申请实施例提供了一种决策树的建立装置,所述装置包括:
[0014]
样本数据获取模块,用于获取多组样本数据,并提取每组样本数据的样本特征;
[0015]
数据集合划分模块,用于将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;
[0016]
差异属性确定模块,用于根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;
[0017]
节点确定模块,用于根据所述差异属性,确定决策树的节点,建立所述决策树。
[0018]
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0033]
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0034]
图1是本申请实施例一提供的一种决策树的建立方法的流程示意图,如图1所示,所述方法包括:
[0035]
s101,获取多组样本数据,并提取每组样本数据的样本特征;
[0036]
本实施例的执行主体为终端设备。
[0037]
上述多组样本数据,可以为已经分类好的数据,每组样本数据为一类。这些样本数据可以为临床医学数据,比如磁共振影像数据。
[0038]
利用定量工具分别提取各个样本数据的样本特征。样本特征可以包括多个特征指标,比如血压、海马体积等等,每个特征指标包括对应的特征值。
[0039]
s102,将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;
[0040]
具体地,将每两组样本数据作为一个数据集合。每组样本数据是一类数据,将两组样本数据作为一个数据集合来进行比较,可以方便计算这两类数据之间在哪些特征指标上存在显著差异。
[0041]
s103,根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;
[0042]
上述差异属性是指两组样本数据在差异属性所代表的这一特征指标上具有显著差异,因此能采用差异属性能够区分出这两组样本数据。
[0043]
具体地,分别计算每个数据集合中两组样本数据的各个特征指标之间的特征差异值;若特征差异值满足预设条件,则将特征差异值对应的特征指标作为该数据集合的差异特征指标,每个数据集合的差异特征指标包括一个或多个指标;然后根据一个或多个差异特征指标,确定所述数据集合的差异属性。
[0044]
具体地,若数据集合只包括一个差异特征指标,则将该差异特征指标作为数据集合的差异属性;若数据集合中包括多个差异特征指标,则分别计算各个差异特征指标的相关性,并对相关性大于预设值的多个差异特征指标进行合并;确定合并后得到的各个差异特征指标对应的特征差异值;将特征差异值中最大值对应的差异特征指标作为数据集合的差异属性。
[0045]
在另一种可能的实现方式中,也可以分别计算每个数据集合中两组样本数据的各个特征指标之间的特征差异值,然后根据特征差异值,选择两组样本数据差异最显著的一项特征指标作为数据集合的差异属性。
[0046]
具体地,可以对每组数据集合中的两组样本进行独立t检验,将每个特征指标对应的p值作为特征指标对应的特征差异值,若p值小于预设值,则说明两组数据在这一特征指标上具有显著差异,将该特征指标作为该数据集合的差异特征指标。一般地,预设值可以设
为0.05。
[0047]
将所有p值小于0.05的特征指标作为数据集合的差异特征指标。若该数据集合中只包括一个差异特征指标,则将该差异特征指标作为该数据集合的差异属性。若数据集合中包括多个差异特征指标,可以先计算这些差异特征指标之间的相关性,然后将相关性比较大的差异特征指标合并为一个差异特征指标;若合并后数据集合只剩下一个差异特征指标,则将该差异特征指标作为数据集合的差异属性。若进行特征合并后,该数据集合还包括多个差异特征指标,则可以分别计算每个差异特征指标对应的特征差异值;根据特征差异值,选取两组样本数据差异最显著的一项特征指标作为数据集合的差异属性。
[0048]
在另一种可能的实现方式中,可以在将相关性比较大的差异特征指标合并为一个差异特征指标后,将数据集合所对应的差异指标全部保留,为数据集合确定一个差异属性集合。
[0049]
在另一种可能的实现方式中,可以对每组数据集合中的两组样本进行独立t检验,将每个特征指标对应的p值作为特征指标对应的特征差异值,然后直接选择p值最小的一个特征指标作为该数据集合的差异属性。
[0050]
s104,根据所述差异属性,确定决策树的节点,建立所述决策树。
[0051]
具体地,决策树的节点的属性和分类阈值,是决策树分类的一个依据。在本实施例中,采用差异属性来确定决策树的节点属性。
[0052]
具体地,若存在至少两个数据集合的差异属性相同,则将相同的差异属性作为决策树根节点的第一属性;确定根节点的第一分类阈值,采用第一属性和第一分类阈值,确定根节点的子节点所对应的样本数据;根据子节点中样本数据所在的数据集合的差异属性,确定子节点的第二属性和第二分类阈值;采用第二属性和第二分类阈值,确定子节点的下一级节点所对应的样本数据,直到决策树的每个叶节点上所对应的数据值包括一组样本数据。
[0053]
具体地,若不存在差异属性相同的数据集合,可以选择一个包含同一组样本数据的两个数据集合,然后选取两个数据集合的特征差异值更小的差异属性,作为决策树的根节点的属性。然后通过优化选取一个属性值,该属性值作为节点的分类阈值,根据根节点的属性和分类阈值,可以将样本数据划分为两个部分,其中一个部分对应一组样本数据,然后另一部分对应两组样本数据,然后选择该两组数据组成数据集合的差异属性来确定子节点的属性和分类阈值,从而将这两组数据分离开。若最终决策树的每个子节点上只对应一组样本数据,则表示决策树建立完成。
[0054]
另外,决策树建立好后,可以采用一些测试数据对决策树进行测试并调整。
[0055]
然后接收待分类数据,并采用与提取样本数据的样本特征相同的方法,提取待分类数据的待分类特征;根据待分类特征的特征指标和特征值,采用决策树对待分类数据进行分类,最终待分类数据所在的叶节点对应的类别,即为其分类结果。
[0056]
在另一种可能的实现方式中,若数据集合对应一个差异属性集合,则可以选取两个数据集合,确定其差异属性集合的交集,然后从交集中选取特征差异值最小的差异特征指标作为决策树节点的属性。
[0057]
为了更清楚地描述本实施例,采用一实例对该实施例中方法进行说明。
[0058]
若现有c1,c2,c3三组已分类的样本数据,然后确定每组样本数据中每个个体的特
征集{f1,f2,

,fn}。利用定量工具,对每个个体进行定量,提取相应的特征值。
[0059]
对每两组样本数据进行特征值的统计分析,如独立t检验,得到各组各个特征值的p值,选取有显著差异(p<0.05)的特征值的集合,例如结果可以为:
[0060]
c1vsc2:{f12}
[0061]
c2vsc3:{f23}
[0062]
c1vsc3:{f13}
[0063]
在上一步得到的特征集合中,可以将相关性高(如皮尔逊相关系数显著),生理意义相近(根据医学常识)的特征合并或删除,保留特征的标准是保留p值较小或组间均值差异更大的特征。结果可以为:
[0064]
c1vsc2:{g12}
[0065]
c2vsc3:{g23}
[0066]
c1vsc3:{g13}
[0067]
选择一个{g12}和{g13}的特征交集中p值较小或组间均值差异更大的特征作为一号节点的属性n1。针对于n1,选择n1取值中能够最优化地将c1与其他两类分离开的一个取值th1,比如,在n1这一属性上,c1的取值小于th1,而其他两类均大于或等于th1,这样,一号节点可以选取th1作为分类阈值,将数据分为两组,一组为c1,另一组为c2和c3。选择一个{g23}中p值较小或组间均值差异更大的特征作为二号节点的属性n2,同样地,选择n2取值中能够最优化地将c2与c3分离开的一个取值th2。
[0068]
然后建立起决策树,如图2所示。图2是本申请实施例一提供的采用本方法建立的一个决策树的示意图。
[0069]
以下采用另一具体实例对本实施例中的方案进行说明。
[0070]
以利用磁共振影像的定量指标来区分正常(nc)、阿尔茨海默症(ad)患者及额颞叶痴呆(ftd)患者为例。利用磁共振影像得到的脑区定量数据,依照本申请提出的方法,建立一个简易决策树,利用该决策树,可以对之后的数据进行筛查判断。具体的决策树建立方法可以如下:
[0071]
1.选取年龄匹配的三组(nc,ad,ftd)各50例个体的磁共振影像(mri)。
[0072]
2.对每个个体的mri进行脑区定量分析,得到各脑区的脑体积定量值。每个脑区体积值为一特征值。
[0073]
3.三组之间两两进行组分析,得到每两组之间有显著差异(p<0.05)的特征值。如下:
[0074]
ncv.s.ad:海马体积,内测颞叶萎缩定量指标(quantitivemedial temporal lobe atrophy,qmta),颞叶萎缩指数。
[0075]
ncv.s.ftd:qmta,额叶萎缩指数,颞叶萎缩指数。
[0076]
adv.s.ftd:顶叶萎缩指数。
[0077]
4.特征合并。
[0078]
nc和ad组的比较得到的特征中,海马体积,qmta及颞叶萎缩指数三者相关性显著(皮尔逊相关系数均显著>0.8),且这三个指标均反应的是颞叶区域的海马萎缩情况,因此只保留第三步中p值最小的qmta作为nc和ad组的差异属性。
[0079]
同理,nc和ftd组只保留差异最显著的qmta为nc和ftd组的差异属性。ad和ftd组保
留顶叶萎缩指数为该组的差异属性。
[0080]
5.根据特征合并的结果,选取决策树的节点为qmta和顶叶萎缩指数。样本数据中,当qmta的阈值取0.4,可以最优化地(分类准确度最高)将nc组和ad、ftd组分开,因此可以将0.4作为qmta节点的分类阈值;顶叶萎缩指数的阈值取0.45时,可以最优化地将ad组和ftd组区分,因此可以将0.45作为顶叶萎缩指数节点的分类阈值。
[0081]
6.构建如图3所示的决策树。之后,可以采用该决策树对数据进行分类。例如现有一个个体的磁共振影像数据,先对其提取特征值,然后判断其qmta值,若小于0.4,则将该个体划分为nc组;若qmta值大于或等于0.4,则再判断其顶叶萎缩指数,若顶叶萎缩指数小于0.45,则将该个体划分为ad组;若顶叶萎缩指数大于或等于0.45,则将该个体划分为ftd组。
[0082]
本实施例中,利用已经分类好的多组样本数据之间特征值的差异性,来确定决策树的节点对应的分类属性和分类阈值,从而建立起一个可以用于临床医学的决策树。相较于采用机器学习的算法建立决策树,本实施例中建立决策树的方法简单,且基于统计特征和特征值,建立的决策树更易被医学工作者读懂,具有更高的实用性。
[0083]
图4是本申请实施例二提供的一种决策树的建立装置的结构示意图,如图4所示,所述装置包括:
[0084]
样本数据获取模块41,用于获取多组样本数据,并提取每组样本数据的样本特征;
[0085]
数据集合划分模块42,用于将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;
[0086]
差异属性确定模块43,用于根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;
[0087]
节点确定模块44,用于根据所述差异属性,确定决策树的节点,建立所述决策树。
[0088]
上述差异属性确定模块43包括:
[0089]
特征差异值计算子模块,用于分别计算每个数据集合中两组样本数据的各个特征指标之间的特征差异值;
[0090]
差异特征指标确定子模块,用于若所述特征差异值满足预设条件,则将所述特征差异值对应的特征指标作为所述数据集合的差异特征指标,所述差异特征指标包括一个或多个指标;
[0091]
差异属性确定子模块,用于根据一个或多个差异特征指标,确定所述数据集合的差异属性。
[0092]
上述特征差异值计算子模块包括:
[0093]
检验单元,用于对每个数据集合中两组样本数据进行独立t检验,将检验结果中每个特征指标对应的p值作为所述特征指标的特征差异值。
[0094]
上述差异特征指标确定子模块包括:
[0095]
比较单元,用于若所述特征指标对应的p值小于预设数值,则将所述特征指标作为所述数据集合的差异特征指标。
[0096]
上述差异属性确定子模块,包括:
[0097]
第一确定单元,用于若所述数据集合只包括一个差异特征指标,则将所述差异特征指标作为所述数据集合的差异属性;
[0098]
特征合并单元,用于若所述数据集合中包括多个差异特征指标,则分别计算各个
差异特征指标的相关性,并对所述相关性大于预设值的多个差异特征指标进行合并;
[0099]
计算单元,用于确定合并后得到的各个差异特征指标对应的特征差异值;
[0100]
第二确定单元,用于将所述特征差异值中最大值对应的差异特征指标作为所述数据集合的差异属性。
[0101]
上述节点确定模块44包括:
[0102]
根节点属性确定子模块,用于若存在至少两个数据集合的差异属性相同,则将相同的所述差异属性作为所述决策树根节点的第一属性;
[0103]
根节点分类子模块,用于确定所述根节点的第一分类阈值,采用所述第一属性和所述第一分类阈值,确定所述根节点的子节点所对应的样本数据;
[0104]
子节点分类子模块,用于根据所述子节点中样本数据所在的数据集合的差异属性,确定所述子节点的第二属性和第二分类阈值;
[0105]
下一级节点确定子模块,用于采用所述第二属性和所述第二分类阈值,确定所述子节点的下一级节点所对应的样本数据,直到建立所述决策树。
[0106]
上述装置还包括:
[0107]
待分类数据模块,用于接收待分类数据,并提取所述待分类数据的待分类特征;
[0108]
数据分类模块,用于根据所述待分类特征,采用所述决策树对所述待分类数据进行分类。
[0109]
图5为本申请实施例三提供的一种终端设备的结构示意图。如图5所示,该实施例的终端设备5包括:至少一个处理器50(图5中仅示出一个)处理器、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个方法实施例中的步骤。
[0110]
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的举例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
[0111]
所称处理器50可以是中央处理单元(centralprocessingunit,cpu),该处理器50还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0112]
所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
[0113]
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此
处不再赘述。
[0114]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0115]
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
[0116]
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
[0117]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0118]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0119]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0120]
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0121]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0122]
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1