中医自动识别证型的检测方法

文档序号:6441735阅读:315来源:国知局
专利名称:中医自动识别证型的检测方法
技术领域
本发明涉及一种中医证型的自动识别方法,特别涉及一种肝硬化常见中医证候的检测方法。
背景技术
肝硬化严重影响着人们的身体健康,其主要病因为肝炎病毒感染,尤其是乙肝肝炎病毒感染,所以探讨乙型肝炎病毒感染导致的肝炎肝硬化的临床特点有着重要的实用价值。但是迄今为止西医学对一些常见的肝脏疾病,如慢性肝病的肝纤维化、肝硬化等尚无有效的治疗方法,而中医药却有着相当大的优势。二十余年来,中医药在肝脏病的防治中发挥着重要的作用,取得了一些令国际肝病学界关注的科研成果。证候研究是中医临床基础研究的重要内容。肝炎肝硬化“证”的研究也是当今中医研究热点,但目前主要的辨证还是依靠名老专家来完成。人工辨证大大限制了中医的发展,随着中医越来越成为世界的健康源泉,自动辨证成为研究的热点。经对现有技术的文献检索发现,张琴等运用多元逐步回归法建立数学的模型得出中医征候与生物学指标存在一定的关系。常洁等应用判别分析法对慢性乙肝中医辨证分型进行研究,发现用症状等中医信息对于证型的判别具有显著意义,得出的判别函数式临床诊断符合率为90%以上。从目前的资料可以看出,肝硬化中医病症存在一定的规律,但是其不足在于,这些方法只是给出一些数学方程,对主要影响证候的因素、判别规则没有很好的给出,从而结果只能进行一定的研究,不能应用于更广泛的领域。

发明内容
本发明所要解决的技术问题是基于决策树的ES-ID3算法,提出一种中医自动识别证型的检测方法,该检测方法解决了困扰已久的肝硬化自动辨证问题。为了解决上述技术问题,本发明提出的中医自动识别证型的检测方法,包含以下步骤a.数据标准化建立标准化客观化的中医病例数据库;b.关键体征属性筛选通过步骤a得到一个标准化的中医样本数据库,以基于协关系的属性筛选方法,计算各个属性间的互信息及对称不确定性,基于启发式规则,挑选出对于证型检测贡献度较大的症状属性集合;C.ES-ID3算法提取分类规则根据步骤b得到的属性集合以及病例数据库中的样本信息,通过计算属性的信息增益率,确定决策属性,同时控制每个节点的样本下限并记录分类误差,以增量学习的方式读取所有训练样本及准训练样本,最后得到分类规则;d.新样本辨证利用步骤c得到的分类规则进行新样本的证型识别检测。优选地,步骤a中,所述的标准客观化的中医病例数据库的每一个列代表一个症状指标属性,属性为种类型,取值为1、2、3或4,数据库中每一个条目代表一个病例样本,每一个样本有其唯一的编号,样本集合经过缺失补全以及剔除重复处理。
优选地,步骤b中,所述的症状属性集合是在临床采样时确定的,2中所提到的表结构中的每一列,即代表一个症状属性。优选地,步骤b中,所述的筛选症状属性集合的目的是消除原样本中的无关与冗余信息,作为分类信息的预处理工作,力求得到更精确、更明晰的分类规则。优选地,步骤b中,所述的筛选症状属性集合是通过基于各个属性间协关系的测量而完成的,包括以下步骤(1)计算属性集合中每个属性的熵及两两属性间的互信息;(2)计算属性集合中两两属性的对称不确定性;(3)基于启发式规则,对整个属性集合进行搜索,得到最终互不相关且冗余度低的属性子集;(4)构建只包含筛选后属性子集及类别的新样本集合。步骤b中,所述的属性间的互信息由下式得到Ι(Χ, Y) =H(Y)-H(Y/X)式中I (X,Y)为属性X和属性Y间的互信息,H(Y)为属性Y的信息熵,H(Y/X)为属性Y 基于属性X的条件熵,信息熵与条件熵的定义如下
权利要求
1.一种中医自动识别证型的检测方法,其特征在于,包含以下步骤a.数据标准化建立标准化客观化的中医病例数据库;b.关键症状属性筛选通过步骤a得到一个标准化的中医样本数据库,以基于协关系的属性筛选方法,计算各个属性间的互信息及对称不确定性,基于启发式规则,挑选出对于证型检测贡献度较大的症状属性集合;c.ES-ID3算法提取分类规则根据步骤b得到的属性集合以及病例数据库中的样本信息,通过计算属性的信息增益率,确定决策属性,同时控制每个节点的样本下限并记录分类误差,以增量学习的方式读取所有训练样本及准训练样本,最后得到分类规则;d.新样本辨证利用步骤c得到的分类规则进行新样本的证型识别检测。
2.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤a中,所述的标准化客观化的中医病例数据库的每一个列代表一个症状指标属性,属性为种类型,取值为1、2、3或4,数据库中每一个条目代表一个病例样本,每一个样本有其唯一的编号,样本集合经过缺失补全以及剔除重复处理。
3.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤b中,所述的症状属性集合是在临床采样时确定的,2中所提到的表结构中的每一列,即代表一个症状属性。
4.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤b中,所述的筛选症状属性集合的目的是消除原样本中的无关与冗余信息,作为分类信息的预处理工作,力求得到更精确、更明晰的分类规则。
5.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤b中,所述的筛选症状属性集合是通过基于各个属性间协关系的测量而完成的,包括以下步骤(1)计算属性集合中每个属性的熵及两两属性间的互信息;(2)计算属性集合中两两属性的对称不确定性;(3)基于启发式规则,对整个属性集合进行搜索,得到最终互不相关且冗余度低的属性子集;(4)构建只包含筛选后属性子集及类别的新样本集合。
6.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤b中,所述的属性间的互信息由下式得到I (X, Y) = H(Y)-H(Y/X)式中I(X, Y)为属性X和属性Y间的互信息,H⑴为属性Y的信息熵,H(Y/X)为属性Y基于属性X的条件熵,信息熵与条件熵的定义如下
7.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤b中,所述的属性间的对称不确定性由下式得到
8.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤b中,所述的挑选属性采用的启发式规则,是通过测定各属性子集的皮尔逊相关系数确定属性子集对分类的贡献程度,皮尔逊相关系数由下式得到
9.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤c中,所述的病例数据库是一个提炼过的表结构,只包含由步骤b挑选出来的关键属性。
10.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤C中,所述的 ES-ID3算法是一种决策树模型,包括以下步骤(1)构建训练样本集合与优化样本集合,其中训练样本集合包含确定分类的样本,而优化样本集合包含那些已经采集但为确定分类集团的“准训练样本”;(2)根据已有训练样本,进行决策树构建,构建过程中通过信息增益率来决定分类决策属性,同时控制每个节点的样本下限并记录分类误差;(3)批量读取优化样本,利用步骤O)中取得的分类规则对样本进行分类,并记录每一个分类节点对应的分类误差;(4)将步骤(3)中分类误差满足要求的优化样本添加到训练样本中,扩大训练样本容量;(5)利用扩容后的训练样本集合及经提炼的决策属性候选集合,重新构造决策树,所述的经提炼的决策属性候选集合,指的是由步骤(2)得到的决策树所包含的决策属性集合, 而不再是原先的属性集合全体;(6)判断是否还存在未处理优化样本分组?若存在,转步骤(3),继续优化过程,否则得到最优决策树模型,提取分类规则。
11.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤c中,所述的节点的样本下限,是指通过全局静态定义,或者根据树的层数动态定义的方式,规定每个节点在训练过程中必须包含样本量的最小值。
12.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤c中,所述的节点的分类误差,是指该节点包含的不符合本节点分类号的样本个数占整个节点包含样本个数的比例值。
13.根据权利要求1所述的中医自动识别证型的检测方法,其特征是,步骤c中,所述的增量学习方式,是指过程权利要求10中步骤03)-(6)所体现的将未分类的优化样本转化为训练样本继而进行再次训练的过程。
全文摘要
本发明公开了一种中医自动识别证型的检测方法,包含以下步骤建立标准客观化的中医病例数据库;针对该标准化中医样本数据库,以基于协关系的属性筛选方法,计算各个属性间的互信息及对称不确定性,基于启发式规则,挑选出对于证型检测贡献度较大的症状属性集合;利用挑选出的关键属性集合以及病例数据库中的样本信息构建分类训练样本集合,通过计算属性的信息增益率,确定决策属性,同时控制每个节点的样本下限并记录分类误差,以增量学习的方式读取所有训练样本及准训练样本,最后得到分类规则;利用得到的分类规则进行新样本的证型识别检测。本发明不仅可应用于肝硬化的自动辨证问题,还可推广到中医其他证型的自动判别领域。
文档编号G06F19/00GK102298663SQ20101020880
公开日2011年12月28日 申请日期2010年6月24日 优先权日2010年6月24日
发明者周忞, 廖晓威, 褚娜, 马利庄 申请人:上海中医药大学, 上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1