一种基于朴素贝叶斯的医疗影像疾病分类方法

文档序号：6544830阅读：263来源：国知局

一种基于朴素贝叶斯的医疗影像疾病分类方法
【专利摘要】本发明公开了一种基于朴素贝叶斯的医疗影像疾病分类方法。本发明根据设备类型和诊断报告表中的影像所见、诊断结论等文本信息，自动判断影像检查结果所属的疾病类型。考虑到朴素贝叶斯分类的独立性假设在实际应用中的影响，本发明采用K-Means聚类算法进行疾病聚类分析，将相似程度高的数据划分到同一簇中，相似程度低的数据划分到不同簇中，同时确定疾病类别数量。本发明利用朴素贝叶斯算法的高效、速度快特点，在保证分类精度的同时很大程度上提高了医疗影像检索的分类速度。
【专利说明】一种基于朴素贝叶斯的医疗影像疾病分类方法
【技术领域】
[0001]本发明涉及医疗影像疾病分类领域，具体涉及一种基于朴素贝叶斯的医疗影像疾病分类方法。
【背景技术】
[0002]随着数字化医院的建设，大型医院长年积累了海量的医疗文本信息，面对这浩如烟海的文本数据，如何快速检索发现有用的信息、多角度利用这些文本和有效的对这些信息进行归类整理，进而挖掘出隐含的、有用的医疗知识和经验便显得尤为迫切。因此研究自动分类、聚类技术来改进传统的数据库结构化查询有着十分重要的意义。
[0003]文本分类和聚类是文本信息处理领域的一个重要分支，其目标就是研究如何更有效地组织和管理文本信息，并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术，可以在很大程度上解决信息杂乱和信息爆炸的问题。
[0004]聚类分析是按照一定的度量规则将数据集合进行划分，以此形成若干聚类簇。目的是使得在同一个簇中的数据或属性具有较大的相似程度，而不同簇之间相似程度低。K-Means聚类算法是一种基于划分的聚类算法，尝试找出使得平方误差函数值最小的K个划分，当簇与簇之间的特征区别比较明显时，并且结果簇是密集的，K-Means聚类结果的效果较好。K-Means聚类算法的优点主要集中在:算法快速、简单；对大数据集有较高的效率并且是可伸缩性的。
[0005]朴素贝叶斯分类作为一类基于概率统计知识的分类方法，可以与基于决策树和神经网络的分类方法相媲美，且该方法较简单、准确率高、分类过程中时间空间开销小，非常适合运用于医疗影像数据库等大型数据库中。
[0006]目前，对于医疗影像疾病的分类，主要采用RIS/PACS系统所提供的基本分类功能，但其并非自动分类，而需要影像科医生及时对医疗影像进行分类。由于缺乏合适的医疗影像检查结果自动分类技术，一方面给影像科医生增加了工作负担；另一方面，给医生科研检索带来诸多不便。为此，本发明结合基于朴素贝叶斯分类方法简单，准确率高，时间空间开销小等优点，提出一种基于朴素贝叶斯的医疗影像疾病自动分类方法。

【发明内容】

[0007]针对医疗影像检查报告不能被及时进行分类，从而对医生科研检索带来诸多不便的问题，利用朴素贝叶斯算法简单，高效，稳定性强且有较好的精确度等优点，本发明提出一种基于朴素贝叶斯的医疗影像疾病分类方法，以解决上述技术问题。
[0008]疾病自动分类具体内容:根据设备类型和诊断报告表中的影像所见、诊断结论等文本信息，自动判断影像检查结果所属的疾病类型。考虑到朴素贝叶斯分类的独立性假设在实际应用中的影响，本发明采用K-Means聚类算法进行疾病聚类分析，将相似程度高的数据划分到同一簇中，相似程度低的数据划分到不同簇中，同时确定疾病类别数量。[0009]本发明方法具体是:
[0010]步骤1:首先利用机器学习方法，从医疗影像信息系统的数据报告表中提取10000数量的检查记录；使用K-Means聚类算法进行疾病聚类分析，确定十个疾病类别。K-Means聚类算法的目的是将一些数据矢量划分至类别数目已知的聚类中。
[0011]具体的说，K-Means聚类算法进行疾病聚类分析包括以下步骤:
[0012]I)从待分类数据记录X中任意选取K个数据记录作为初始簇类中心C= {Cl，C2,…，ck},令K=IO ;待分类数据记录X = {a” a2,..., aj 表示待分类数据记录X的一个特征向量，X的维数是N维。
[0013]2)计算dO^Cj)，VxiEX, VCy e C , d为待分类数据记录Xi到类Cj的距离，并
把具有最小值d(Xi，Cj)的数据点Xi划分到类&中，引进N维向量Uj作为类&的中心。
[0014]3)计算类&的中心点，通过计算类&中每个点的坐标平均值获得，即Uj0
[0015]4)如果每个数据记录X与它类中心点Uj的距离平方和最小，则符合条件，则停止该算法并返回最后结果C ;否则将Uj (1≤j≤10)作为新的10个簇类中心，并返回1-2)。
[0016]通过K-Means聚类算法获得十个疾病类型后，借助国际疾病类型分类标准KD-10将这十个类别进行疾病类型确定和编码。
[0017]步骤2:针对不同的疾病数据，将每种疾病类型保留25-30条最具代表性的数据(这些数据必须能够充分表示该疾病症状，特征)，并在数据库中对应的该条数据记录添加疾病编码。此举目的在于获取每种疾病的关键属性，并将其作为文本分类过程中分类判断依据。
[0018]步骤3:由于在各种实用数据库中，属性值缺失的情况经常发生，甚至不可避免。所以在大多数情况下，信息数据系统是不完备的，或者说存在某种程度的不完备。数据的不完备性会影响到朴素贝叶斯的精确度。所以我们分析整理报告数据表，清理脏数据，过滤空白数据，对待分类数据集进行缺失值处理。主要处理方法如下:
[0019]I)简单删除数据:将遗漏信息属性值的数据记录删除。
[0020]2)补齐数据:将人们的先验知识与数据报告表结合起来，推断出缺失属性的最大可能的取值，从而填充缺失数据。
[0021]结合这两种处理方法，使数据报告表完备化。
[0022]步骤4:利用 ICTCLAS (Institute of Computing Technology, Chinese LexicalAnalysis System),即汉语词法分析系统，对数据库中待分类的数据记录进行分词，确定每条数据记录的属性值。
[0023]步骤5:采用朴素贝叶斯分类器模型判断待分类数据记录归属的疾病类型。设变量集U= {A，C}，其中A= (A1, A2,…，A2J，包含25个条件属性。这25个条件属性由K-Means聚类后的十大疾病种类中抽取的关键词表示。C= Ic1, C2，…，CltJ，包含十个取值，并且这十个取值对应于疾病的分类编码。将一个待分类数据记录X= {ai，a2，…，a25}分配给类Cid ^ I ^ 10)，当且仅当=P(CiA) > P (Cj/X) (I≤i，j≤10，j关i)。具体做法如下:
[0024]I)构成统计表:统计出待分类数据记录的个数S、类为Ci的数据记录个数S1、类Ci的数据记录中属性Ak取值为ak的数据记录个数Sik ；[0025]2)计算
【权利要求】
1.一种基于朴素贝叶斯的医疗影像疾病分类方法，其特征在于该方法包括以下步骤:步骤1:首先利用机器学习方法，从医疗影像信息系统的数据报告表中提取10000数量的检查记录；使用K-Means聚类算法进行疾病聚类分析,确定十个疾病类别；K_Means聚类算法进行疾病聚类分析包括以下步骤: 1-1)从待分类数据记录X中任意选取K个数据记录作为初始簇类中心C = {Cl，C2,…，ck},令K=IO ;待分类数据记录X = {a” a2,..., aj 表示待分类数据记录X的一个特征向量，X的维数是N维； 1-2)计算dO^Cp，Vxi eX, VC7 e C，d为待分类数据记录Xi到类Cj的距离，并把具有最小值d(Xi，Cj)的数据点Xi划分到类&中，引进N维向量Uj作为类&的中心； 1-3)计算类&的中心点，通过计算类&中每个点的坐标平均值获得，即Uj ； 1-4)如果每个数据记录X与它类中心点Uj的距离平方和最小，则符合条件，则停止该算法并返回最后结果C ;否则将Uj (I ^ j ^ 10)作为新的10个簇类中心，并返回1-2)；通过K-Means聚类算法获得十个疾病类型后，借助国际疾病类型分类标准ICD-10将这十个类别进行疾病类型确定和编码；步骤2:针对不同的疾病数据，将每种疾病类型保留25-30条最具代表性的数据，并在数据库中对应的该条数据记录添加疾病编码；步骤3:分析整理报告数据表，清理脏数据，过滤空白数据，对待分类数据集进行缺失值处理，处理方法如下: 3-1)简单删除数据:将遗漏信息属性值的数据记录删除； 3-2)补齐数据:将先验知识与数据报告表结合起来，推断出缺失属性的最大可能的取值，从而填充缺失数据；结合这两种处理方法，使数据报告表完备化；步骤4:利用汉语词法分析系统，对数据库中待分类的数据记录进行分词，确定每条数据记录的属性值；步骤5:采用朴素贝叶斯分类器模型判断待分类数据记录归属的疾病类型，具体是: 设变量集U = {A，C}，其中A = (A1, A2,...，A2J，包含25个条件属性；这25个条件属性由K-Means聚类后的十大疾病种类中抽取的关键词表示；C = Ic1, c2,…，c1(l},包含十个取值，并且这十个取值对应于疾病的分类编码；将一个待分类数据记录X = Ia1, a2, -,a25}分配给类Ci,当且仅当:P (CiA) > P (Cj/X)，具体如下: 1)构成统计表:统计出待分类数据记录的个数S、类为Ci的数据记录个数5”类Ci的数据记录中属性Ak取值为ak的数据记录个数Sik ； 2)计算尸(C,.)= ^W = ?/、/Q =导，构成概率统计表；
S 3)利用朴素贝叶斯分类模型:
c?b (X) = arg max P{C, P(ak /C,)
! k=\ 得出待分类数据记录X的判定结果即判定出了所属疾病类型Cnb。
【文档编号】G06K9/62GK103955703SQ201410171212
【公开日】2014年7月30日申请日期:2014年4月25日优先权日:2014年4月25日
【发明者】徐哲, 洪嘉鸣, 霍洪波, 何必仕申请人:杭州电子科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐哲;洪嘉鸣;霍洪波;何必仕
技术所有人：杭州电子科技大学
我是此专利的发明人

上一篇：访问存储在服务器上高速缓存中的数据记录的设备和方法
上一篇：一种对医疗影像检查量预测的混合优化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。