基于改进型cart决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法

文档序号:10594402阅读:313来源:国知局
基于改进型cart决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法
【专利摘要】本发明公开了一种基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法,属于中医体质科学与信息科学技术交叉融合的工程技术领域。本发明建立了多维人体面部皮肤指标体系,筛选出相关性较强的指标集合,并根据各指标不同的贡献程度,有所侧重的保留原属性以剔除冗余属性。针对需要兼顾可解释性与准确性的分类要求,充分发挥了训练样本较少条件下决策树对属性和类间关系的良好归纳特性和训练样本较多条件下朴素贝叶斯分类准确率最高的优势,所述中医体质优化分类方法可以用于定量地研究皮肤与中医体质间的潜在联系,为皮肤的健康养护、调理和治疗提供一定的科学依据与数据、方法支撑。
【专利说明】
基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体 质优化分类方法
技术领域
[0001] 本发明设及一种基于人体面部皮肤指标信息的中医体质分类方法,属于中医体质 科学与信息科学技术交叉融合的工程技术领域。具体地说,是一种基于改进型CART (Classification And Regression Tree)决策树与模糊朴素贝叶斯组合模型的分类方法, 根据面部皮肤指标与人体内在的中医体质类型间的隐形关联关系,实现通过面部皮肤测试 信息,快速确定中医体质类型的目的。
【背景技术】
[0002] 皮肤作为人体最外层,最大的组织器官,遍布于身体的各个部位,是覆盖身体的屏 障,起着最基础的保护作用。中医体质是中医基础理论的重要组成部分,主要研究人的体质 和健康之间的相关关系。中医学认为,体质是人体生命过程中,在先天禀赋和后天获得的基 础上所形成的形态结构、生理功能和屯、理状态等方面综合的、相对稳定的固有特质。根据传 统的中医面诊思想,皮肤表象可W反映人体身体健康程度及疾病迹象,中医体质学则进一 步认为体质状态对皮肤状态具有决定性作用。因此,探索建立基于皮肤状态信息的体质分 类模型,研究皮肤与体质间的潜在联系,可W深入了解每种体质类型的皮肤特性,实现从内 调理体质的角度开展指导外部皮肤养护的工作,为增进皮肤健康提供新的手段和方法。
[0003] 然而,目前在中医体质分类领域,由于问题的复杂性,现阶段学者们大多仅研究了 体质与生活习惯、年龄、周围环境等因素的相关关系,对皮肤与体质关系的研究相对较少。 在仅有的一些研究中,由于受到测试设备、时间、环境及经济等因素的影响,研究工作一般 仅针对少数几个皮肤指标进行分析,虽然在一定程度上佐证了皮肤和体质具有相关性,但 仍未能建立描述二者间复杂关系的较精确的定量模型。因此,需要借鉴数据挖掘领域的研 究方法与成果,开展基于多属性皮肤指标数据的中医体质分类研究。在建模过程中,一方面 要最大化提高模型的分类准确度,另一方面还要探究皮肤信息与体质类型间的客观统计规 律,在确定中医体质类型的同时探索人体内在体质类型及健康程度对各皮肤指标的影响趋 势。

【发明内容】

[0004] 本发明的目的是为了解决现有的体质分类算法仅简单分析皮肤与中医体质间存 在的相关关系,不能定量建立分类模型,且常规研究中设及的皮肤指标属性过于单一、不够 全面等问题,提出一种基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化 分类方法。本发明提供的中医体质优化分类方法,充分全面的反映人体面部皮肤状态,建立 了多维人体面部皮肤指标体系,在此基础上,筛选出相关性较强的指标集合,并根据各指标 不同的贡献程度,有所侧重的保留原属性W剔除冗余属性。针对需要兼顾可解释性与准确 性的分类要求,充分发挥了训练样本较少条件下决策树对属性和类间关系的良好归纳特性 和训练样本较多条件下朴素贝叶斯分类准确率最高的优势,所述中医体质优化分类方法可 W用于定量地研究皮肤与中医体质间的潜在联系。
[0005] 本发明提供的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优 化分类方法,主要包括W下五个步骤:
[0006] 步骤一、人体面部皮肤指标体系构建及关键指标提取;
[0007] 根据皮肤领域背景知识,结合中医理论,从水润度、色泽度、弹力度、光滑度等角度 分析、确定下能够充分全面衡量人体面部皮肤状态的皮肤指标,构建综合性较强的多维人 体面部皮肤指标体系。为了避免指标体系包含冗余属性和信息量很少的属性指标,在构建 体质分类模型前先对相关性较强的指标集合通过主成分分析法进行降维,重新组合为一组 新的相互无关的综合变量。
[0008] 步骤二、不同部位皮肤指标信息加权综合;
[0009] 为了全面的反应人体面部皮肤状态,选取额头、左眼角、左脸颊和下己四个部位的 皮肤指标属性,并根据专家意见采用层次分析法计算出四个部位的权重,对四个部位的皮 肤指标值加权综合得到各皮肤指标属性的四部位综合值。
[0010] 步骤S、基于改进CART决策树模型的中医体质分类;
[0011] 将人体的体质类型集表示为因变量,皮肤指标属性集表示为自变量,W人体面部 皮肤指标属性的四部位综合值和其相应的体质类型为训练样本,对训练样本通过递归分割 的方式建立CART决策树。为了避免决策树过于庞大导致对噪声数据出现过拟合,对未知新 样本(待分类的人体面部皮肤指标属性的四部位综合值)的分类准确度降低,模型的可解释 性变差等情况,定义了综合考虑分类模型精度和复杂度的最优树评价指标,用W选择出最 佳的CART决策树后剪枝方式,得到综合性能最优的决策树分类模型。
[0012] 步骤四、基于模糊朴素贝叶斯模型的中医体质分类;
[0013] 将中医体质类型设定为贝叶斯模型的类变量,皮肤指标属性集设定为贝叶斯模型 的属性集。为了解决皮肤指标属性值受内外影响会产生波动运一问题,定义各皮肤指标属 性值对归属区间的模糊隶属度函数,用W计算贝叶斯模型的模糊类条件概率。并通过统计 分析计算出各类中医体质类型的先验概率,带入贝叶斯模型中求解得到各皮肤指标属性集 对=类中医体质的模糊后验概率,最大后验概率所对应的中医体质类型就是该皮肤指标属 性对应的基础体质。
[0014] 步骤五、改进CART决策树与模糊朴素贝叶斯模型的组合;
[0015] 分别统计CART决策树和贝叶斯模型对训练样本的中医体质类型分类的准确度 Acart和Anb,W及各自对每种体质类型的后验概率,对后验概率加权综合,得到最大概率所对 应的体质类型即为最终的体质分类输出结果。
[0016] 本发明的优点在于:
[0017] 1、本发明考虑到人体面部皮肤状态受多指标、多部位测试信息的共同影响,提出 构建多维人体面部皮肤指标体系,并通过前期的数据预处理,将多部位的测试信息加权得 到能完备反应人体面部皮肤状态的指标综合值,进而又采用主成分分析法去除冗余属性, 提取出了全面、客观、又简捷高效的皮肤指标体系。运对于后续减少皮肤测试指标、节省测 试时间、加快信息挖掘速度、简化算法,具有重要意义。
[0018] 2、本发明提出采用改进CART决策树模型用于实现基于皮肤指标属性的中医体质 分类,可W在训练样本较少的条件下快速准确的挖掘出皮肤与体质间的分类规则,从信息 处理的角度为中医领域专家提供客观存在但隐藏在数据中未被发现的知识。同时,针对决 策树算法可能出现的过拟合问题,定义了综合考虑模型精度和复杂度的最优树评价指标, 用W选择最佳的决策树后剪枝方式,得到对训练样本W及未知新样本分类准确性均较高的 分类模型。
[0019] 3、本发明提出采用模糊贝叶斯模型对中医体质进行分类,前瞻并发挥了在训练样 本较多的条件下贝叶斯模型分类准确率最高的优势,通过计算模糊类条件概率解决了皮肤 指标受内外影响会产生波动运一问题,较好地实现了体质归类判别不确定性和边界划分不 确定性的融合。
[0020] 4、本发明提出了将CART决策树和贝叶斯的后验概率加权综合的方法对两算法的 分类结果进行融合,最大化的提高了模型分类精度和可解释性。在确定体质类型的同时探 索面部皮肤指标与人体内在中医体质类型间的关联关系,从"外象"(皮肤)和"内卸'(体质) 两个方面进行研究,为皮肤的健康养护、调理和治疗提供一定的科学依据与数据、方法支 撑。
【附图说明】
[0021] 图1为本发明提供的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体 质优化分类方法的流程图;
[0022] 图2为多维人体面部皮肤指标体系结构图;
[0023] 图3为建立改进CART决策树模型的算法流程图;
[0024] 图4是各皮肤指标对归属区间的模糊隶属度函数图;
[0025] 图5是经过剪枝后的完整的CART决策树。
【具体实施方式】
[0026] 下面结合附图对本发明作进一步的详细说明。
[0027] 本发明提供一种基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质 优化分类方法,流程图如图1所示,具体步骤如下:
[0028] 步骤一、人体面部皮肤指标体系构建及关键指标提取;
[0029] 根据皮肤领域背景知识,常用的人体面部皮肤指标包括光泽度、粗糖度、抑值、气 血、水分含量、水分散失、色度、油脂、黑红色素、弹性等,从水润度、色泽度、弹力度、光滑度 等角度能够充分全面衡量人体面部皮肤状态,构建的多维人体面部皮肤指标体系如图2所 示,所述的粗糖度通过平滑深度Rt、平均粗糖度Rz、算数平均值Ra和取样长度LR来衡量,所 述的气血通过二氧化碳分压PC化和氧分压P〇2来衡量,所述的色度通过黄蓝色度B、红绿色度 A和明度L来衡量,所述的黑红色素通过红色素 EI和黑色素 MI来衡量。考虑到人体面部皮肤 指标属性值间差异较大,在训练样本较少的条件下无法满足正态分布,故选择对分析变量 不需要正态性假设的Spearman秩相关系数来度量皮肤指标两两之间的相关性,并对筛选出 的相关性较强(可选择大于0.4)的皮肤指标采用主成分分析法进行降维,降维后得到一组 各指标间相互独立的皮肤指标属性集。
[0030] 步骤二、不同部位皮肤指标信息加权综合;
[0031] 人体面部皮肤的每个部位均反映皮肤状态情况,但在探究皮肤与体质间分类关系 时对所有部位进行测试难W实现,因此本发明中选取额头、左眼角、左脸颊和下己四个部位 组成测试部位集。并采用层次分析法分别计算四个部位的权重,首先建立层次结构模型,然 后根据专家意见构造判断矩阵,通过层次单排序及其一致性检验,最后计算出四个部位的 权重,对四个部位的皮肤指标属性值进行加权综合得到各皮肤指标的四部位综合值,实现 对整个面部皮肤状态的表征。
[0032] 步骤S、基于改进CART决策树模型的中医体质分类;
[0033] 将训练样本的中医体质类型集表示为因变量,皮肤指标属性集表示为自变量,逐 一检查每个皮肤指标属性和该皮肤指标属性所有可能的分割阔值来发现最好的划分,将每 个皮肤指标属性的所有划分按照划分前后减少的杂质量来进行排序,划分前的杂质量为全 部训练样本的Gini指标值,划分后的杂质量为落在每个节点的训练样本的Gini指标值与划 分到该节点的训练样本百分比乘积之和,其中所述的Gini指标等于,pi代表每个训 !=I 练样本出现的概率。对训练样本采用二分递归分割的方式建立CART决策树,具体流程如图3 所示:
[0034] 第一步,创建根节点;
[0035] 第二步,计算根节点中全部训练样本的Gini系数G;
[0036] 第=步,指定某一皮肤指标属性X为划分属性;
[0037] 第四步,设定皮肤指标属性X的分割阔值,将训练样本分成两组,计算划分后的 Gini系数G' ;求出划分前后的Gini系数减少量AG = G-G' ;求解皮肤指标属性X的所有可能 分割阔值对应的Gini系数减少量;
[0038] 第五步,对不同分割阔值对应的Gini系数减少量进行比较,得到最大减少量Gb = max( A G),则最大减少量Gb所对应的分割阔值Xb即为该Gini系数的最佳分割阔值;
[0039] 第六步,重复第=步~第五步,针对根节点中每一个皮肤指标属性,分别计算得到 最佳划分阔值及其相应的最大减少量Gb,比较各个最大减少量Gb,得到最大减少量Gb的最大 值即Hiax(GB),则Hiax(GB)对应的皮肤指标属性为最佳划分皮肤属性,对应的分割阔值为最佳 划分阔值。
[0040] 第屯步,判断划分后的节点是否为叶节点,若不是,W该节点为子树的根节点,重 新带入到第二步至第六步中进行计算,若是,判断此时所有节点是否均达到叶节点,当所有 节点均达到叶节点时决策树生长完成。
[0041] 对构建好的决策树,若出现过拟合现象,会降低对未知数据的分类准确度,为了避 免运种问题,本发明定义了一种综合考虑分类能力和决策树规模的改进后剪枝算法,原理 如下:(1)分类能力度量;
[0042] 将参与皮肤测试的志愿者的皮肤和体质信息作为训练样本,设N为决策树的训练 样本总数,n(t)为训练样本中进入到决策树中任意一个节点t的训练样本个数,e(t)为训练 样本中到达任意节点t并且属于节点t所对应的体质类型的训练样本个数,定义决策树的分 类精度为,
[0043]
(1)
[0044] 其中M为决策树中所有叶节点的个数,a(M)的值越大,本文中选取a(M)大于0.6,认 为分类效果越明显,决策树的分类性能就越好。
[0045] (2)决策树规模度量;
[0046] 根据经验,决策树叶节点数保持在5~10个时分类效果最理想,小于2个或大于25 个时,实际应用效果较差。因此若决策树的叶节点个数为M,则定义决策树的规模系数为,
[0047]
(2)
[004引d(M)的值越大,决策树的复杂程度越适中,在保证分类准确率前提下抽取出来的 规则也容易理解和应用。
[0049] (3)改进后剪枝算法;
[0050] 为了综合考虑决策树模型的分类能力和决策树的规模,定义了基于决策树分类精 度a(M)和规模系数d(M)的最优树评价指标I(M),计算公式为
[0051] I(M) =ki ? a(M)+k2 ? d(M) (3)
[0052] 其中,ki、k2分别为分类精度和规模系数的权重,满足ki+k2 = l。首先从原始的决策 树中裁剪出一系列的候选子树,在所有的候选剪枝树中,比较各个候选剪枝树的最优树评 价指标I(M),保留I(M)值最大的一颗作为最终的最优决策树。
[0053] 步骤四、基于模糊朴素贝叶斯模型的中医体质分类;
[0054] 将中医体质类型设定为贝叶斯模型的类变量,Y=(Yi,Y2,…,Ym);皮肤指标集设定 为贝叶斯模型的属性集,X=(Xl,拉,…,Xn)。根据贝叶斯理论,皮肤指标集X属于中医体质类 型化的概率为
[0化5]
(4)
[0056] 由于皮肤指标集的联合概率P(Xl,X2,…,Xn)是常数,因此比较皮肤指标集属于各 类中医体质类型的后验概率,只需考虑中医体质类型的先验概率P(Yk)与皮肤指标集模糊 类条件概率P ( Xl,拉,…,Xn I化)的乘积即可。
[0057] 首先通过统计分析计算属于中医体质类型Yk的训练样本个数并与训练样本总数 相除,求出先验概率P(化)。然后计算各类中医体质类型下皮肤指标^的模糊条件概率P(Xj 化),j = 1,2,…n。由于连续型皮肤指标值分布较为分散,统计规律较小,因此将连续型皮肤 指标值离散化,用相应的离散区间替换连续指标值。统计落在某一离散区间内的训练样本 个数并除W训练样本总数,即可求出中医体质类型为化时皮肤指标^的模糊条件概率。考虑 到皮肤指标值受内外影响存在一定的波动性,所述离散区间边界附近的皮肤指标值在重复 测试中可能被划分到不同离散区间,本发明提出采用对皮肤指标的离散区间模糊隶属度求 和的方式来表示此离散区间中的训练样本对区间的实际隶属程度,构建的模糊隶属度函数 如图4所示,设皮肤指标值在区间边界的波动范围为±0.02。并提出计算模糊条件概率的公 式为
[005引
(句
[0059]其中,Hik为属于体质类型化的训练样本个数,y(x)功体质类型化下指标Xj落在某一 离散区间内的各个训练样本对所在离散区间的模糊隶属度,q为落在该离散区间的训练样 本个数。
[0060] 按照上述原理逐一计算各类体质下指标的模糊条件概率,计算步骤如下:
[0061] (a)将所有训练样本的指标数据归一化,确保各指标的区间范围为[0,1];
[0062] (b)将区间[0,1]等距划分为5个边界有重叠的子区间,各区间重叠的范围为 [0.18,0.22]、[0.38,0.42]、[0.58,0.62]、[0.78,0.82],构建指标对区间的模糊隶属度函 数;
[0063] (C)计算体质为Yk的训练样本中各指标下的每个训练样本值分别对5个子区间的 模糊隶属度;
[0064] (d)计算&体质下各指标对5个子区间的模糊条件概率,并列出模糊条件概率表;
[0065] (e)重复步骤(C)~(d),逐一计算出各类体质下训练样本的模糊条件概率,同样列 出相应的模糊条件概率表。
[0066] 计算出各类体质下指标的模糊条件概率后,对其进行相乘,求解出指标集X对各类 体质的模糊类条件概率,计算公式如下
[0067]

[0068] 将其与此前计算出的各类体质的先验概率相乘,求出的最大后验概率对应的体质 类型即为贝叶斯模型的输出。
[0069] 步骤五、改进CART决策树与模糊朴素贝叶斯模型的组合;
[0070] 首先分别统计CART决策树和贝叶斯模型在训练过程中分类正确的训练样本个数, 除W训练样本总数即为两算法的分类准确度Acart和Anb。进而计算决策树模型分别对各类体 质的训练准确度Kk), k=l,2,…,m,m为全部的体质类型总数。则本发明定义决策树模型在 输出体质类型为Yt时对各类体质的后验概率为
[0071]
[0072] ;又综合,可得
[0073] (8)
[0074] 此时,得到的最大概率所对应的体质类型即为最终的分类输出结果。
[0075] 下面通过实施例进一步说明本发明的技术方案。
[0076] 实施例一.
[0077] 步骤一、人体面部皮肤指标体系构建及关键指标提取;
[0078] 根据皮肤领域背景知识,确定下水分含量、水分散失、油脂、黑红色素、色度、光泽 度、弹性、pH值、粗糖度、气血等17个皮肤指标,建立了完备反映人体面部皮肤状态的多维皮 肤指标体系。并于2014年11月3日在北京工商大学化妆品协同中屯、实验室对181名志愿者的 上述皮肤指标进行测试,每名志愿者分别测试额头、左眼角、左脸颊和下己四个部位。测试 过程中保证被测人员的皮肤清洁,测试环境恒溫。
[0079] 将181名志愿者测试到的样本数据分为两组,第一组为随机挑选151名志愿者的样 本数据(包括4个测试部位的皮肤指标值和志愿者的体质类型)为建模的训练样本,第二组 为余下30名志愿者的样本数据为测试样本。计算151组训练样本中17个皮肤指标两两之间 的Spearman秩相关系数,筛选出相关系数大于0.4的皮肤指标。分析计算结果可得,{MI、EI、 L、A、B、gzd}、{LR、Ra、Rz、Rt}、{P02、PC02}间具有较强相关性。对上述S组指标分别采用主 成分分析法进行降维,得到的第一主成分贡献率均大于70%,故将=组指标分别综合为第 一主成分所对应的新指标。结合实际情况,将=个新指标命名为色泽(SZ)、粗糖度(CCd)和 气血(qx),其数学关系式为
[0080] sz=[0.53,0.85,-0.035,0.0084,0.0029,-0.0027]*[MI,EI,L,A,B,gzd]T
[0081 ] CCd= [0.1229,0.0409,0.22,0.967]*[LR, Ra, Rz,IU]T
[0082] qx=[0.995,-0.104]*[P02,PC02]t
[0083] 降维后得到的人体面部皮肤指标体系包括水分含量、水分散失、油脂、色泽、弹性、 PH值、粗糖度和气血8个指标。
[0084] 步骤二、不同部位皮肤指标信息加权综合;
[0085] 根据皮肤领域专家意见可知额头、眼角、脸颊和下己四个部位对人体面部皮肤状 态的重要程度排序依次为脸颊〉眼角〉下己〉额头,因此构造的判断矩阵为
[0086]
[0087]采用层次分析法计算四个部位的权重,得到的权重结果见表1。进而对每位测试者 的四部位皮肤指标值加权综合,求得的指标综合值即可实现对整个面部皮肤状态的表征。 [008引表1层次分析法赋权结果 「HHROl
[0090]步骤S、基于改进CART决策树模型的中医体质分类;
[0091 ] 依据中医理论,人体有平和质、气虚质、阳虚质、阴虚质、疲湿质、湿热质、血疲质、 气郁质、特禀质等九大体质,不同的体质在皮肤上的表征也是各有不同。平和质的人群属于 健康人群,偏颇体质的人群均存在某些方面的健康问题,或多或少的会对皮肤指标产生负 向影响。其中阳虚质是所有偏颇体质中最常见的体质之一,多产生于熬夜、贪凉、过度控制 饮食W至营养不良、长期大量服用抗生素等情况。通过合理的锻炼、健康的饮食并辅W中医 的调理保健,阳虚质人群可W达到和平和质人群一样的健康状态。因此考虑到阳虚质的广 泛性且易于改善的特点,本发明将阳虚质运一当今最典型的偏颇体质单独提出来进行分 析,研究依据皮肤指标对平和质、阳虚质和其它偏颇质=类体质的分类问题。
[0092]将151名志愿者的体质类别集表示为因变量,皮肤指标属性集表示为自变量,通过 逐一计算每个皮肤指标属性和该皮肤指标属性所有可能的分割阔值对应的Gini指标减少 量确定下最好的划分,构建出了分类精度达到84%,叶节点个数为23的CART决策树模型。为 了降低决策树的复杂度防止出现过拟合现象,从原始的决策树中裁剪出了=颗候选子树, 参照公式(1)-(3)分别计算运=颗候选子树的最优树评价指标I(M),由于研究初期没有特 殊的倾向性考虑,本发明默认公式(3)c
,保留计算出的I(M)值最大的一颗 作为最终的最优决策树,树的结构详见图5,此时决策树的分类精度为75%,包含10个叶节 点。
[0093] 步骤四、基于模糊朴素贝叶斯模型的中医体质分类;
[0094] 设S种体质类型分别为系统的S个类变量,¥=(¥1,¥2八3),其中¥1为平和质,¥2为 阳虚质,Y3为其它偏颇质,主成分分析降维后的皮肤指标集为模型的属性集,X=(Xi,拉,…, X8)。首先对151组训练样本的样本属性值进行归一化处理,并将指标区间[0,1]等距划分为 5个子区间。其次对训练样本按其数据特性相应的分成=个与体质类型对应的子集,将=个 子集的各皮肤指标值代入模糊隶属度函数中,计算出每个训练样本的皮肤指标值对五个区 间的模糊隶属度,最后参照公式(5),计算出相应的模糊条件概率,列出模糊条件概率表见 表2。
[00M]表2=类体质模糊条件概率表
[0099] 基于对训练样本的统计分析表明,151组训练样本中,包含平和体质47组,阳虚体 质4 2组,其他偏颇体质6 2组。除W训练样本总数可W求出S类体质的先验概率分别为 31.1 %,27.8%和41.1 %。将上述计算结果带入公式(4),逐一计算出151组训练样本的分类 输出,将分类结果与专家诊断结果相对比,分类正确率达到72%。
[0100] 步骤五、改进CART决策树与模糊朴素贝叶斯模型的融合;
[0101]独立的CART决策树模型和模糊朴素贝叶斯模型对训练样本的分类准确度Acart和 Anb分别为75 %和72 %,其中决策树模型对S类体质分别的训练准确度bi,b2,b3为76.6 %, 61 %和81.1 %。将上述结果带入公式(7)-(8),对保留的30组测试样本进行测试,可发现融 合后的算法分类准确度达到86%,高于独立CART决策树模型的82%和独立模糊朴素贝叶斯 模型的80%。表明采用本发明提出的基于改进型CART决策树与模糊朴素贝叶斯组合模型的 中医体质分类方法与专家意见吻合度较高,能够比较客观的描述皮肤状态和体质间的潜在 联系,具有较好的实际应用与理论参考价值,分类模型简洁、高效、易于推广。
【主权项】
1. 基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法,其特 征在于:包括以下步骤, 步骤一、人体面部皮肤指标体系构建及关键指标提取; 确定人体面部皮肤状态的皮肤指标,选择Spearman秩相关系数来度量皮肤指标两两之 间的相关性,并对筛选出的相关性强的皮肤指标采用主成分分析法进行降维,重新组合为 一组新的相互无关的综合变量,作为皮肤指标属性集; 步骤二、不同部位皮肤指标信息加权综合; 选取额头、左眼角、左脸颊和下巴四个部位的皮肤指标属性,采用层次分析法计算出四 个部位的权重,对四个部位的皮肤指标值加权综合得到各皮肤指标属性的四部位综合值; 步骤三、基于改进CART决策树模型的中医体质分类; 将人体的体质类型集表示为因变量,皮肤指标属性集表示为自变量,以人体面部皮肤 指标属性的四部位综合值和其相应的体质类型为训练样本,对训练样本通过递归分割的方 式建立CART决策树; 步骤四、基于模糊朴素贝叶斯模型的中医体质分类; 将中医体质类型设定为贝叶斯模型的类变量,皮肤指标属性集设定为贝叶斯模型的属 性集,定义各皮肤指标属性值对归属区间的模糊隶属度函数,用以计算贝叶斯模型的模糊 类条件概率;并通过统计分析计算出各类中医体质类型的先验概率,带入贝叶斯模型中求 解得到各皮肤指标属性集对三类中医体质的模糊后验概率,最大后验概率所对应的中医体 质类型就是该皮肤指标属性对应的基础体质; 步骤五、改进CART决策树与模糊朴素贝叶斯模型的组合; 分别统计CART决策树和贝叶斯模型在训练过程中分类正确的训练样本个数,除以训练 样本总数即为两算法的分类准确度Acart和Anb;进而计算决策树模型分别对各类体质的训练 准确度1^(1〇氺=1,2,一,111,111为全部的体质类型总数 ;定义决策树模型在输出体质类型为¥* 时对各类体质的后验概率为,将其与贝叶斯模型输出的后验概率P( Yk | X)NB加权综合,得,此时,得到的最大概率所对应的体质类型即为最终的分类输出结果。2. 根据权利要求1所述的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体 质优化分类方法,其特征在于:所述的人体面部皮肤指标包括光泽度、粗糙度、pH值、气血、 水分含量、水分散失、色度、油脂、黑红色素和弹性;所述的相关性较强是指Spearman秩相关 系数大于0.4。3. 根据权利要求1所述的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体 质优化分类方法,其特征在于: 步骤三中,将训练样本的中医体质类型集表示为因变量,皮肤指标属性集表示为自变 量,对训练样本采用二分递归分割的方式建立CART决策树,具体为: 第一步,仓il建根节点; 第二步,计算根节点中全部训练样本的Gini系数G; 第三步,指定某一皮肤指标属性X为划分属性; 第四步,设定皮肤指标属性X的分割阈值,将训练样本分成两组,计算划分后的Gini系 数G' ;求出划分前后的Gini系数减少量AG = G-G' ;求解皮肤指标属性X的所有可能分割阈 值对应的Gini系数减少量; 第五步,对不同分割阈值对应的Gini系数减少量进行比较,得到最大减少量Gb=max ( Δ G),则最大减少量Gb所对应的分割阈值XB即为该Gini系数的最佳分割阈值; 第六步,重复第三步~第五步,针对根节点中每一个皮肤指标属性,分别计算得到最佳 划分阈值及其相应的最大减少量Gb,比较各个最大减少量Gb,得到最大减少量Gb的最大值即 max ( Gb ),则max ( Gb )对应的皮肤指标属性为最佳划分皮肤属性,对应的分割阈值为最佳划分 阈值; 第七步,判断划分后的节点是否为叶节点,若不是,以该节点为子树的根节点,重新带 入到第二步至第六步中进行计算,若是,判断此时所有节点是否均达到叶节点,当所有节点 均达到叶节点时决策树生长完成。4.根据权利要求1所述的基于改进型CART决策树与模糊朴素贝叶斯组合模型的中医体 质优化分类方法,其特征在于:步骤四中所述的基于模糊朴素贝叶斯模型的中医体质分类, 具体为, 将中医体质类型设定为贝叶斯模型的类变量,για^γ%···,Ym);皮肤指标集设定为贝 叶斯模型的属性集,乂=(心,办,-_,乂1〇,根据贝叶斯理论,皮肤指标集乂属于中医体质类型¥1{ 的概率为由于皮肤指标集的联合概率PUIX2,…,Χη)是常数,因此比较皮肤指标集属于各类中 医体质类型的后验概率,只需考虑中医体质类型的先验概率P(Yk)与皮肤指标集模糊类条 件概率p (Xi,χ2,…,χη | Yk)的乘积即可; 首先通过统计分析计算属于中医体质类型Yk的训练样本个数并与训练样本总数相除, 求出先验概率P(Yk);然后计算各类中医体质类型下皮肤指标心的模糊条件概率P(h | Yk),j =1,2,…η;统计落在某一离散区间内的训练样本个数并除以训练样本总数,求出中医体质 类型为Yk时皮肤指标X』的模糊条件概率;采用对皮肤指标的离散区间模糊隶属度求和的方 式来表示此离散区间中的训练样本对区间的实际隶属程度,设皮肤指标值在区间边界的波 动范围为±0.02,并提出计算模糊条件概率的公式为其中,mk为属于体质类型Yk的训练样本个数,y(x)i为体质类型Yk下指标Xj落在某一离散 区间内的各个训练样本对所在离散区间的模糊隶属度,q为落在该离散区间的训练样本个 数; 按照上述原理逐一计算各类体质下指标的模糊条件概率,计算步骤如下: (a) 将所有训练样本的指标数据归一化,确保各指标的区间范围为[0,1]; (b) 将区间[0,1]等距划分为5个边界有重叠的子区间,各区间重叠的范围为[0.18, 0.22]、[Ο· 38,0.42]、[Ο· 58,0.62]、[Ο· 78,0.82],构建指标对区间的模糊隶属度函数; (c) 计算体质为Yk的训练样本中各指标下的每个训练样本值分别对5个子区间的模糊隶 属度; (d) 计算Yk体质下各指标对5个子区间的模糊条件概率,并列出模糊条件概率表; (e) 重复步骤(c)~(d),逐一计算出各类体质下训练样本的模糊条件概率,同样列出相 应的模糊条件概率表; 计算出各类体质下指标的模糊条件概率后,对其进行相乘,求解出指标集X对各类体质 的模糊类条件概率,计算公式如下将其与此前计算出的各类体质的先验概率相乘,求出的最大后验概率对应的体质类型 即为贝叶斯模型的输出。
【文档编号】G06K9/62GK105956382SQ201610264903
【公开日】2016年9月21日
【申请日】2016年4月26日
【发明人】张慧妍, 王小艺, 王立, 李爽, 许继平, 于家斌, 董银卯, 孟宏
【申请人】北京工商大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1