一种基于支持向量机的医疗影像检查疾病分类方法

文档序号：8512792阅读：255来源：国知局

一种基于支持向量机的医疗影像检查疾病分类方法
【技术领域】
[0001] 本发明涉及医疗影像检查疾病自动分类领域，具体涉及一种基于支持向量机的医疗影像检查疾病自动分类方法。
【背景技术】
[0002] 随着数字医疗的快速发展，医疗数据成爆炸式增长。以医疗影像信息系统RIS为例，长年运行积累了大量的检查、随访和会诊记录，其中大部分内容为文本数据。针对这些海量文本数据，研宄围绕疾病的聚类、分类对于医疗管理决策有着重要意义。
[0003] 目前，对于医疗影像检查的疾病分类，一般是通过影像医生人工分类，由于影像医生日常诊断繁忙，常常无暇顾及。因此，事后实现自动分类具有应用价值。经过文献检索可知，霍洪波等在文章 The Automatic Classification Research to Medical Imaging Disease Based on Na'ive Nayesion Algorithm提出了基于朴素贝叶斯算法的影像检查文本自动分类方法。朴素贝叶斯方法存在不足之处：首先朴素贝叶斯分类法是假设在各个分类属性之间是相互独立的，而在实际情况下，各类属性之间不可能是相互独立的，这给分类准确率带来了一定的影响；其次，该方法是假设在无限训练样本存在的情况下建立的，而实际情况下训练样本不可能无限大。
[0004] 针对朴素贝叶斯分类方法存在的上述问题，本发明采用优化的支持向量机分类方法，解决小样本训练问题、高维、非线性以及分类精度低等问题。

【发明内容】

[0005] 本发明的目的主要是为了克服常用分类器对样本量、高维以及训练过程存在的问题，提出了一种优化的支持向量机文本分类方法，解决医疗影像检查基于文本数据的疾病自动分类。
[0006] 本发明主要按照以下技术方法实现：首先对医疗影像信息系统RIS数据库中的检查文本用κ-means聚类，生成标准医疗影像疾病语料库，该语料库作为分类器训练样本以及测试样本。其次，再使用训练样本对支持向量机分类器进行训练，生成分类标准后再使用该分类模型对分类样本分类。最后针对分类结果存在的不足之处，提出支持向量机分类器优化的训练过程。
[0007] 本发明的具体步骤是：
[0008] 步骤1 :首先对RIS数据库中的检查文本数据使用k-means聚类方法聚成十大类，聚成十个类别后，借助国际疾病类型分类标准I⑶-?ο将这十个类别进行疾病类型编码。将编码后的十大类文本数据作为医疗影像疾病标准语料库，并以此作为分类的训练数据以及测试数据。K-means聚类的具体步骤可以按照以下步骤来完成：
[0009] 1)对选出的检查文本数据先进行预处理，主要对检查文本数据进行词性的标注，构成统计词典，对文本数据进行词条切分，并使用中文分词程序ICTCLAS完成分词。
[0010] 2)建立检查文本数据的空间向量并降维。该步骤主要是将检查文本数据转化成计算机能识别的形式，采用空间向量模型来表示文本信息。由于生成的向量空间模型其维数一般都很大，需要经过稀疏降维处理。
[0011] 3)检查文本数据聚类处理。采用平面划分的聚类过程如下：
[0012] (1)确定生成的簇的数目k;
[0013] (2)生成k个原始聚类中心S = (S1, s2,…，sn);
[0014] (3)对D中的每个文件φ，依次计算与聚类中心S中Sj的相似度sim(d i，Sj);
[0015] (4)从上面计算出的相似度中选出最大相似度，并将Cli归入到s」中；
[0016] (5)重复（3)、（4)两个步骤若干次，直到所有检查文本数据都完成聚类；
[0017] (6)将聚类完成的十个大类按照国际疾病分类标准ICD-10进行编码并确定其疾病类型。
[0018] 步骤2 :从十大类检查文本数据中抽取其中一部分记录作为分类的训练模型，而将剩余的检查文本数据作为测试样本，用于检测分类模型的分类精度。文本分类使用支持向量机方法，具体建立支持向量机分类器（SVM分类器）过程如下所示：
[0019] 1)检查文本预处理。首先要对训练样本进行文本预处理，由于在文本聚类过程中已经检查过文本的是否缺失以及是否存在脏数据等情况，故该步骤无需重复以上步骤。只需使用ICTCLAS汉语分词系统对训练样本进行分词处理。
[0020] 2)检查文本表示。将上述预处理完成的文本转换成计算机能明白的形式，文本表示模型较多，其优缺点也不相同，本方法中使用的向量空间表示模型。其向量空间模型可以表不为 V = (ti，W1;!: 2, W2;. · · ;t n, wn)。其中（L，t2, · · ·，tn)表不特征词条，（W1, W2, · · ·，wn) 表示特征词条对应的权重。
[0021] 3)对检查文本中的特征词条进行降维处理，即特征选择处理。特征选择的方法很多，本方法使用互信息（MI)，互信息用于描述两个变量间的相关程度，若两者的相关程度越高，则其MI值越大，反之则越小。首先计算出所有检查文本中特征词条与类别之间的MI值，然后设定一个阈值，将大于该阈值的特征词条留下，而删除小于该阈值的特征词条。
[0022] 4)支持向量机分类器的建立。构建SVM分类器方法最关键的是找出一个最优超平面将样本数据分为两类，最优超平面不仅能将两类正确分开，而且要使分类间距最大。当分类线性方程为g (X) = W · x+b，对它进行归一化处理使其满足Ig(X) I彡1，当条件等于1 的时候可以求得其分类间隔为2/1 Iwl I，要使分类间隔最大等价于I Iwl I最小。转化为求解
【主权项】
1. 一种基于支持向量机的医疗影像检查疾病分类方法，其特征在于该方法包括以下步骤：步骤1 :首先对RIS数据库中的检查文本数据使用k-means聚类方法聚成十大类，聚成十个类别后，借助国际疾病类型分类标准I⑶-10将这十个类别进行疾病类型编码；将编码后的十大类文本数据作为医疗影像疾病标准语料库，并以此作为分类的训练数据以及测试数据；步骤2 :从十大类检查文本数据中抽取其中一部分记录作为分类的训练模型，而将剩余的检查文本数据作为测试样本，用于检测分类模型的分类精度；文本分类使用支持向量机方法：步骤3 :针对检查文本分类过程中支持向量机分类器的建立过程进行优化；使用训练样本完成支持向量机分类器的建立后，将剩余的样本作为测试样本来检测分类器的分类精度；在完成测试集的分类后，通过建立分类结果的混淆矩阵，来判断哪些检查文本被错分，找出这些错分的文本并将其加入到原属类别的训练样本中，以此来组成新的训练样本，最后再将新的训练样本通过步骤2来进行训练支持向量机分类器。
2. 根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法，其特征在于：步骤1中所述K-means聚类的具体步骤按照以下步骤来完成： 1) 对选出的检查文本数据先进行预处理，主要对检查文本数据进行词性的标注，构成统计词典，对文本数据进行词条切分，并使用中文分词程序ICTCLAS完成分词； 2) 建立检查文本数据的空间向量并降维；该步骤主要是将检查文本数据转化成计算机能识别的形式，采用空间向量模型来表示文本信息；由于生成的向量空间模型其维数一般都很大，需要经过稀疏降维处理； 3) 检查文本数据聚类处理；采用平面划分的聚类过程如下： (1) 确定生成的簇的数目k ; (2) 生成k个原始聚类中心S = (S1, S2,…，sn); (3) 对D中的每个文件屯，依次计算与聚类中心S中的相似度simd，Sj); (4) 从上面计算出的相似度中选出最大相似度，并将Cli归入到^中； (5) 重复（3)、（4)两个步骤若干次，直到所有检查文本数据都完成聚类； (6) 将聚类完成的十个大类按照国际疾病分类标准ICD-10进行编码并确定其疾病类型。
3. 根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法，其特征在于：步骤2中向量机方法，其具体建立支持向量机分类器过程如下所示： 1) 检查文本预处理；首先要对训练样本进行文本预处理，使用ICTCLAS汉语分词系统对训练样本进行分词处理； 2) 检查文本表示；将上述预处理完成的文本转换成计算机能明白的形式，使用向量空间表示模型；其向量空间模型表示为V = U1, w1;t 2, w2;. . . ;t n, wn)，其中U1, t2, . . .，tn)表示特征词条，（W1, w2, . . .，wn)表示特征词条对应的权重； 3) 对检查文本中的特征词条进行降维处理，即特征选择处理；特征选择的使用互信息，首先计算出所有检查文本中特征词条与类别之间的互信息值，然后设定一个阈值，将大于该阈值的特征词条留下，而删除小于该阈值的特征词条； 4) 支持向量机分类器的建立；构建支持向量机分类器方法最关键的是找出一个最优超平面将样本数据分为两类，最优超平面不仅能将两类正确分开，而且要使分类间距最大；当分类线性方程为g(x) =W ·Χ+?3,对它进行归一化处理使其满足|g(x) I彡1，当条件等于 1的时候可以求得其分类间隔为2/1 Iwl I，要使分类间隔最大等价于I Iwl I最小；转化为求解0(r) = = 的最小值，针对该最优求解，引入Lagrange函数来解决该约束最优化问题，转化为目标函数： min Z(fr，A，％)=金 |卜『-写 a?·'. + A) - 1] ( 1) 由Lagrange极值定理可以求得最优解Wi"和b #(其中YiG {+1，-1}正表示属于该类，负表示不属于该类）；最后即可得到最优分类函数为： f(x) - sgn(r*·^ + b*) = sgna*YiXi^x + ?*) (2) ?-1 如果f (X)大于O表示该样本属于71类，小于O则表示不属于y i类； 5) 构造多类SVM分类器；采用的是二叉树方法来构造；其主要思想是将第i类作为+1 类，第i+Ι到i+n类为-1类，随着i的递增依次建立多个分类器即可；对待分类样本X时，从第一个分类器开始，如果大于〇则表示属于第一类并停止决策，否则继续使用第二个分类器，以此类推直到判断出X所属类别为止。
【专利摘要】本发明公开了一种基于支持向量机的医疗影像检查疾病分类方法。本发明使用K-means聚类完成对检查文本数据的聚类，并将聚类好的检查文本作为SVM分类器的训练集以及测试集，最后针对检查文本的特有情况，对SVM分类器的训练过程使用了一种优化的训练过程，以此来提高SVM分类器的分类效果。
【IPC分类】G06K9-62
【公开号】CN104834940
【申请号】CN201510242216
【发明人】何必仕, 倪杭建, 徐哲
【申请人】杭州电子科技大学
【公开日】2015年8月12日
【申请日】2015年5月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何必仕;倪杭建;徐哲;
技术所有人：杭州电子科技大学;
我是此专利的发明人

上一篇：基于计算机输入下的稀疏自编码的脱机手写体识别方法
上一篇：一种在线自动检测多孔金属材料空洞缺陷的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。