基于数据挖掘的脑部胶质瘤计算机辅助诊断系统的实现方法

文档序号:6420234阅读:199来源:国知局
专利名称:基于数据挖掘的脑部胶质瘤计算机辅助诊断系统的实现方法
技术领域
本发明涉及一种基于数据挖掘的脑部胶质瘤计算机辅助诊断系统的实现方法,涉及模式识别、数据挖掘和放射医学等领域,能直接应用于脑部胶质瘤恶性程度高低的计算机辅助诊断。
背景技术
脑部胶质瘤是一种较为罕见的疾病,治疗主要取决于肿瘤的恶性程度。其恶性程度的正确判别关系到是否需要为病人进行危险程度很高的脑部手术。若能较可靠地根据病人症状判断出恶性程度的高与低就可能避免不必要的手术风险和开支。
当前脑胶质瘤恶性程度的诊断主要依据是脑核磁共振图像的分析。但对于大多数放射科医生,由于缺乏积累足够病例的机会,进行正确判断是一困难的工作。杨本强等(杨本强,吴振化,周丽娟大脑胶质瘤病的MRI诊断中国临床医学影像杂志2000.11(4)229-231)探讨了核磁共振图像在脑胶质瘤恶性程度诊断方面的临床价值,并结合9例病例分析了脑胶质瘤恶性程度诊断的部分经验。但由于病例较少,可供正确判断的经验仍很难总结。显然,如果一脑胶质瘤病人的恶性程度被错误诊断,将会造成治疗的延误或极大的手术风险。为解决该问题,可从一个大的医疗中心(如上海市华山医院-国内神经外科最著名的医院之一)收集大量的病例,从中发现核磁共振图像的读片结果与脑胶质瘤恶性程度之间的规律。
计算机辅助医疗诊断是人工智能的一个研究方向,将它用于脑部胶质瘤恶性程度的判别可以使更多的医生利用该方面已积累的知识或经验。实现这一目标首先需要解决的问题是如何获得诊断知识(症状和疾病恶性程度间的规律)。传统的方法是由专门的人员向擅长诊断这一疾病的人类专家请教,然后对专家总结的规律进行整理并将它们形式化作为计算机诊断的依据。然而,这一过程中存在着知识获取的“瓶颈”。数据挖掘(Data mining)作为机器学习领域的新热点为解决这一问题提供了新的手段。但必须考虑下列一些要求1)正确性达到领域专家的水平,诊断正确率应超过80%。
2)容错性对于相同的脑核磁共振图像不同的放射科医生可能得出不同的描述。以胶质瘤的外形为例,可能的描述包括圆形、椭圆形、不规则形,而在实际情况下,并不存在精确的圆形或椭圆形。对于这种不确定性,应尽可能保持诊断结果的稳健。
3)缺失值由于费用或必要性方面的原因,一些诊断病例中某些项目的值为空。此时仍能有效判断。
4)可理解性诊断规律应能被放射科医生理解,最好是简洁的语言描述。
Aptéand和Weiss(AptéChidanand and Weiss Sholom(1997)“Data miningwith decision trees and decision rules”“Future Generation ComputerSystems”,1997,13,pp.197-210)提出用决策树方法来发现诊断规律,但生成的决策树节点很多,不易理解,并且容易出现过拟合问题(因数据噪声而产生多余的决策树节点)。Agrawal(Agrawal R,Mannila H,Srikant R,Toivonen H.,andVerkamo A.I.(1998)“Fast Discovery of Association Rules”“Advances inKnowledge Discovery and Data Mining”(Morgan Kaufmann,San Mateo,CA)UsamaM.fayyad pp.307-328)等提出粗糙集理论来挖掘关联规则。但粗糙集理论不易处理实数型数据和不确定描述,生成的规则数量较多,不简洁并且不易理解。基于BP训练学习算法的多层感知器网络能得到高的诊断正确率但可理解性非常差。

发明内容
本发明的目的在于针对现有技术的不足,提出一种基于数据挖掘的脑部胶质瘤计算机辅助诊断系统实现方法,根据收集的脑胶质瘤病人的病例库,挖掘和发现脑胶质瘤恶性程度的诊断规则,并根据此规则来建立脑胶质瘤恶性程度计算机辅助诊断专家系统,用于脑胶质瘤恶性程度的自动诊断,以减少误诊率和病人痛苦。
为实现这样的目的,本发明采用基于改进的模糊极小极大神经网络(FuzzyMinimum-Maximum Neural Network,FMMNN)的模糊规则提取方法,从收集的脑胶质瘤病人的病例库(包括核磁共振图像(MRI)的读片结果以及术后诊断结果)中挖掘和发现脑胶质瘤恶性程度的诊断规则,根据挖掘和发现的恶性程度诊断规则建立脑胶质瘤恶性程度计算机辅助诊断专家系统,再利用所建立的诊断系统,对任何输入的新案例预报得出该案例的恶性程度,从而给医生的后续治疗与诊断提供帮助。
本发明所利用的病例数据库储存有从医院收集的脑胶质瘤病人的信息,包括病人的个人信息(性别、年龄)、病人的脑核磁共振图像及其专家的读片结果(形状、轮廓、包膜、水肿、占位效应、增强后强化、血供、坏死/囊变、钙化、出血、T1加权、T2加权),每一个特征描述称为属性,病人术后得到的胶质瘤恶性程度诊断结果分成高度/低度恶性两个类别,而包含了某个病人所有上述属性值和诊断结果的记录称为样本,所有这些信息被存储在一个专门数据库中。
本发明的基于数据挖掘的脑部胶质瘤计算机辅助诊断系统实现方法按如下步骤进行1、属性的数字化处理。针对病例数据库中每一个属性,统计不同的描述形式,并按照大小(如年龄)、轻重(如水肿)等描述形式进行排序,然后分别用相应顺序的整数来代替。即将属性值映射成一个整数序列。对于不存在的属性值要标明。
2、对数值化后的各属性建立模糊隶属度数值化过程结束后,定义一个敏感度因子r,在同一属性的不同取值间建立隶属关系。即,对于某一个属性A,其第k个取值vk与第j个取值vj之间的隶属度值为μ=max(0,1-r|vj-vk|maxA-minA).]]>这里maxA是属性A的最大取值,minA是属性A的最小取值。实验发现测试错误率的大小与r没有明显的规律,所以很难用高效率的方法优化r,一般r取0-10之间的值。
3、超盒生成与扩张对每一个训练样本,根据其类别计算它到所有的类别相同的超盒的隶属度,并选择具有最大隶属度的超盒Adk。如果不存在相同类别的超盒就生成一个包括了该训练样本的超盒;如果存在超盒Adk,就检验把该训练样本包括进去的超盒扩张操作是否导致模糊误差减小或在模糊误差不增加的前提下分类错误率减小,如果减小就执行超盒扩张操作;否则生成一个新的超盒。
当算法为一个含有若干缺失属性的样本生成超盒时,将超盒在缺失属性上的上边界和下边界放置在该属性的最大和最小值上。而当算法为一个含有若干缺失属性的样本扩张超盒时,超盒在对应属性上的上、下边界位置保持不变。这一改进使FMMNN能够处理缺失属性。
在本发明中,为增强最终结果的可读性和可理解性,某样本到类别相同的超盒的隶属度mAjk(Sample)是由下式计算的mAjk(Sample)=mini=1,2,...p(maxe∈Vi′μi,e(Si))=mini=1,2,...p(maxe∈Vi′μi,numeric_presention_of(e)(xi))]]>这里μ为步骤2中定义的某属性A两个不同取值间的隶属度值。
这里提到的模糊误差和是为提高算法的稳健性而引入的。模糊误差和Efuzzy=Σi=1nΣc=1l(dic-mic)2,]]>其中n是训练样本总数,l是样本类别总数,dic是第i个样本类别c的真实隶属度值,mic是根据当前分类器获得的第i个样本对类别c的归一化隶属度值。
4、重叠检测相同类别的超盒允许重叠,所以只要检测某类超盒内是否含有不同类别的样本,或含有的不同类别的样本是否超过一个预定值,如果是就说明不同类别超盒间存在重叠,否则说明没有重叠。
5、超盒收缩对存在重叠的超盒,检验收缩操作是否导致模糊误差减小或在模糊误差不增加的前提下分类错误率减小,如果是就执行收缩操作,否则不执行。
6、对超盒进行额外的扩张上述步骤执行结束后,如果某个训练样本的数值化表示对不同类别的超盒具有相同的隶属度值,那么与该样本同类别的超盒将获得额外的θ/10(或更小)的微小扩张。这些微小的扩张只发生在能够使该样本被正确分类的边界上。在这一过程中,如果超盒的微小扩张导致模糊误差和Efuzzy减小或分类错误率减小,就执行超盒扩张操作;否则不执行。
7、如果任意一个超盒在前面的步骤中被修改,则重复从第3步开始的操作。如果没被修改,说明已经找到了所有的超盒。训练过程即告结束。生成的超盒构成了一个模糊分类器。
8、模糊规则提取将超盒转化成“if…then…”的模糊规则形式,并据此整理实现脑胶质瘤恶性程度计算机辅助诊断的专家系统。
传统的FMMNN只包括超盒的生成与扩张,重叠检测和超盒收缩三个基本操作。在此基础上本发明做了3个改进①为提高稳健性,在第3与第6步中的超盒扩张中引入模糊误差Efuzzy=Σi=1nΣc=1l(dic-mic)2]]>其中n是训练样本总数,l是样本类别总数,dic是第i个样本类别c的真实隶属度值,mic是根据当前分类器获得的第i个样本对类别c的归一化隶属度值。②在第3步的超盒生成中,当算法为一个含有若干缺失属性的样本生成超盒时,将超盒在缺失属性上的上边界和下边界放置在该属性的最大和最小值上。而当算法为一个含有若干缺失属性的样本扩张超盒时,超盒在对应属性上的上、下边界位置保持不变。这一改进使FMMNN能够处理缺失属性。③在第3步的超盒生成中,为增强最终结果的可读性和可理解性,样本到超盒Ajk的隶属度值改由下式计算获得mAjk(Sample)=mini=1,2,...p(maxe∈Vi′μi,e(Si))=mini=1,2,...p(maxe∈Vi′μi,numeric_presention_of(e)(xi))]]>当关于脑胶质瘤恶性程度诊断的模糊规则被提取后,运用这些脑胶质瘤恶性程度诊断的模糊规则在计算机上建立脑胶质瘤恶性程度计算机辅助诊断的专家系统。在实际应用中,当通过该专家系统输入待诊断病人的信息(性别、年龄、肿瘤部位特征描述),该专家系统根据输入的信息以及脑胶质瘤恶性程度诊断的模糊规则集,通过模糊推理得出该病人的脑胶质瘤恶性程度的预报,从而给医生的后续治疗与诊断提供帮助。
本发明的方法能够获得较高的测试准确率。由于在同一属性不同取值间建立的隶属度关系使得本方法能够利用更多实际上相似的样本,从中发现更具代表性的决策规则,而传统的决策树算法和关联规则提取不能利用这种隶属度关系。在一些训练样本少,含有不确定属性,要求挖掘结果简洁易理解的特殊应用中,本发明的方法更具有实用价值。
本发明建立的脑胶质瘤恶性程度计算机辅助诊断专家系统,可以用于脑胶质瘤良恶性程度的自动诊断以及边远地区医生和年青医生的诊断培训,能较可靠地根据病人症状判断出恶性程度的高与低,避免不必要的手术风险和开支,减少误诊率和病人痛苦。


图1为本发明的专家系统操作界面示意。
具体实施例方式以下结合具体的实施例对本发明的技术方案作进一步详细描述。
实施例采用的大脑胶质瘤病例数据库共有280份,由复旦大学附属华山医院提供,不包括姓名等私人信息。每个病例(样本)都选取了14项MRI读片结果和病人大脑胶质瘤的真实恶性程度的属性记录。这些记录多采用文字方式记录,记为T={(x→l,yl)}.]]>(l=1,2,…,280),x→l={xl1,xl2,···,xlp,···,xl14}]]>含14个属性,样本的类别总数为2(良性/恶性),以yl∈{1,2}表示。
整个系统实现过程如下
1.属性的数字化把文字描述映射成整数序列,对每一个属性经过上述变换,可以将<s1,s2,…,sp>数值化为<x1,x2,…,xp>。si为文字表现形式,xi为数字表现形式。
如性别“女性”数字化成0,“男性”数字化成1;年龄直接使用;出血“无”数字化成1,“急性”数字化成2,“慢性”数字化成3,等等。
2.模糊隶属度的确定对于一个属性A,其第k个取值与第j个取值之间的隶属度值为μ=max(0,1-r|vj-vk|maxA-minA).]]>这里vj和vk是指属性的两个不同值,maxA是属性A的最大取值,minA是属性A的最小取值。本例中r=1。
以“年纪”属性为例,如果r=1,那么“老”(数值化为1)和“中”(数值化为2)对“青”(数值化为3)的隶属度值分别为0和0.5。
3.超盒生成与扩张对每一个训练样本 计算它到所有类别为yl的超盒的隶属度,并选择具有最大隶属度的超盒Ajk(j=yl)。若不存在这样的超盒,算法将生成一个新的超盒Ajr(j=yl),且wjri←xli,vjri←xli(1-1)若Ajr存在,则需判断下式是否成立pθ≥Σi=1p(max(wjki,xli)-min(vjki,xli))]]>若上式不成立,算法也将按照(1-1)式生成一个新的超盒,否则对Ajk按如下方式进行扩张
vjkinew←min(vjkiold,xli),wjkinew←max(wjkiold,xli),∀i=1,2,···,p]]>扩张后超盒Ajk将包含样本 θ是一个预设值,这里取θ=1。
4.重叠检测检测不同类别超盒间是否存在重叠。
样本各属性的取值范围均归一化到
,例中按以下方法判断任意两个不同类别的超盒Ajk和Aht间是否存在重叠,并且在发现重叠时找出重叠范围最小的属性保存在s中。判别方法如下引入两个常量δold和i,并设定初值δold=1,i=1,对第i个属性进行4项判断(a)当vjki<vhti<wjki<whti时,δnew=wjki-vhti;(b)当vhti<vjki<whti<wjki时,δnew=whti-vjki;(c)当vjki<vhti<whti<wjki时,δnew=min(whti-vjki,wjki-vhti);(d)当vhti<vjki<wjki<whti时,δnew=min(whti-vjki,wjki-vhti);(这里j和h是指类别,k和t是指超盒号码,vjki和wjki是超盒第i维的下边界和上边界)若上述中没有一项能够被满足,那么Ajk和Aht间不存在重叠,计算结束。否则(上述中至少有一项被满足)说明有重叠区,此时判断δnew是否小于δold;若是,则把δnew值赋给δold,并记s=i,若存在第i+1个属性则令i=i+l继续上述判断;否则计算结束。
5.超盒收缩对存在重叠的超盒依次收缩。如果对某个超盒的收缩操作导致模糊误差减小或在模糊误差不增加的前提下分类错误率减小,那么该操作将被执行;否则该操作将被阻止。按照以上4种情况对应作以下处理
(a)当vjks<vhts<wjks<whts时,wjksnew=vhtsnew←wjksold+vhtsold2;]]>(b)当vhts<vjks<whts<wjks时,whtsnew=vjksnew←whtsold+vjksold2;]]>(c)当vjks<vhts<whts<wjks且(whts-vjks)≤(wjks-vhts)时,vjksnew←whtsold;当vjks<vhts<whts<wjks且(whts-vjks>(wjks-vhts)时,wjksnew←vhtsold;(d)当vhts<vjks<vjks<whts且(whts-vjks)≤(wjks-vhts)时,whtsnew←vjksold;当vhts<vjks<wjks<whts且(whts-vjks>(wjks-vhts)时,vhtsnew←wjksold;6.对超盒进行额外的扩张上述步骤执行结束后,如果某个训练样本的数值化表示对不同类别的超盒具有相同的隶属度值,那么支持该样本真实类别的超盒将获得额外的微小扩张。这些微小的扩张只发生在能够使该样本被正确分类的边界上。在这一过程中,如果超盒的微小扩张导致Efuzzy减小或分类错误率减小,那么这一操作将被执行;否则这一操作将被阻止。
7.如果任意一个超盒在前面的步骤中被修改,则重复从第四步开始的操作。如果没被修改,说明已经找到了所有的超盒,训练过程即告结束。生成的超盒构成了一个模糊分类器。
8.模糊规则提取将280份病例组成训练样本集合,采用基于改进的FMMNN的模糊规则提取算法获得以下模糊规则规则_A1年龄in(1~53)AND水肿in(无,轻度)AND血供in(一般,一般+略多)THEN低度恶性规则_A2年龄in(34~59)AND占位效应in(中度,严重)AND增强后强化in(不均匀)AND血供in(丰富)AND出血in(无,急性)THEN高度恶性最后据此整理实现可以辅助专家做脑胶质瘤诊断的专家系统。它们在训练集上的准确率达到了84.64%(对低度恶性89.94%,对高度恶性76.58%)。
规则的使用可以用以下实例说明某女性病人22岁,MRI读片结果表明大脑胶质瘤的形状不规则;轮廓部分清;包膜不完整;水肿轻;占位效应中度;增强后强化不均匀;血供丰富;坏死/囊变有;钙化无;出血无;T1加权等信号或等信号伴随低信号;T2加权高信号。这一病例对上述两规则的隶属度分别为0.18和0.91,应为高度恶性。模糊规则的判断结果与手术观察一致。
本发明实现的专家系统操作界面如图1所示。在实际应用中,利用本发明方法建立的脑部胶质瘤计算机辅助诊断系统,只要输入相关的病人信息,就可以预报得出该案例的恶性程度,从而给医生的后续治疗与诊断提供帮助。同时病人的数据可加入病例数据库。
权利要求
1.一种基于数据挖掘的脑部胶质瘤计算机辅助诊断系统实现方法,其特征在于包括如下具体步骤1)属性的数字化处理针对病例数据库中每一个属性,按照不同的描述形式进行排序,分别用相应顺序的整数来代替,即将属性值映射成一个整数序列,对于不存在的属性值要标明;2)对数值化后的各属性建立模糊隶属度数值化过程结束后,定义一个敏感度因子r,在同一属性的不同取值间建立隶属关系,即,对于某一个属性A,其第k个取值vk与第j个取值vj之间的隶属度值为μ=max(0,1-r|vj-vk|maxA-minA),]]>这里maxA是属性A的最大取值,minA是属性A的最小取值,r一般取0-10之间的值;3)超盒生成与扩张对每一个训练样本,根据其类别计算它到所有的类别相同的超盒的隶属度,并选择具有最大隶属度的超盒Adk,如果不存在相同类别的超盒就生成一个包括了该训练样本的超盒;如果存在超盒Adk,就检验把该训练样本包括进去的超盒扩张操作是否导致模糊误差减小或在模糊误差不增加的前提下分类错误率减小,如果减小就执行超盒扩张操作;否则生成一个新的超盒;模糊误差和Efuzzy=Σi=1nΣc=1l(dic-mic)2,]]>其中n是训练样本总数,1是样本类别总数,dic是第i个样本类别c的真实隶属度值,mic是根据当前分类器获得的第i个样本对类别c的归一化隶属度值;4)重叠检测相同类别的超盒允许重叠,所以只要检测不同类别超盒间是否存在重叠;5)超盒收缩对存在重叠的超盒,检验收缩操作是否导致模糊误差减小或在模糊误差不增加的前提下分类错误率减小,如果是就执行收缩操作,否则不执行;6)对超盒进行额外的扩张上述步骤执行结束后,如果某个训练样本的数值化表示对不同类别的超盒具有相同的隶属度值,那么与该样本同类别的超盒将获得额外的微小扩张,这些微小的扩张只发生在能够使该样本被正确分类的边界上,在这一过程中,如果超盒的微小扩张导致模糊误差和Efuzzy减小或分类错误率减小,就执行超盒扩张操作;否则不执行;7)如果任意一个超盒在前面的步骤中被修改,则重复从第3步开始的操作,如果没被修改,说明已经找到了所有的超盒,训练过程即告结束,生成的超盒构成了一个模糊分类器;8)模糊规则提取将超盒转化成“if…then…”的模糊规则形式,并据此整理实现脑胶质瘤恶性程度计算机辅助诊断的专家系统。
全文摘要
一种基于数据挖掘的脑部胶质瘤计算机辅助诊断系统实现方法,利用已有的脑胶质瘤病人的病例数据库中的信息,首先对病例库中的数据进行属性数字化处理,并对数值化后的各属性建立模糊隶属关系,然后采用基于改进的模糊极小极大神经网络FMMNN的模糊规则提取方法,从病例库中挖掘和发现脑胶质瘤恶性程度的诊断规则,根据诊断规则建立脑胶质瘤恶性程度计算机辅助诊断专家系统。本发明的方法所建立的诊断系统,对任何输入的新案例可预报得出该案例的恶性程度,能够获得较高的测试准确率,从而给医生的后续治疗与诊断提供帮助,避免不必要的手术风险和开支,减少误诊率和病人痛苦。
文档编号G06F19/00GK1547149SQ200310109069
公开日2004年11月17日 申请日期2003年12月4日 优先权日2003年12月4日
发明者杨杰, 叶晨洲, 耿道颖, 杨 杰 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1