基于有监督等度规映射的智能医学诊断分类方法

文档序号:9547410阅读:544来源:国知局
基于有监督等度规映射的智能医学诊断分类方法
【技术领域】
[0001] 本发明属于应用于医学诊断中对医学数据集的分类分析,特别涉及一种基于有监 督等度规映射的智能医学诊断分类方法。
【背景技术】
[0002] 传统的医学诊断方式大多受人为主观因素影响,诊断准确率较低,诊断所需要的 时间花费较大。研究表明自动化医学诊断技术能够克服人为主观因素、提高诊断准确率、减 少漏诊。对于病人而言,自动化医学诊断技术可以在疾病发生早期甚至连病人本身都没意 识到的情况下,提前发现病情,帮助病人及早治疗,对于如老年痴呆症等无法治愈疾病的及 早缓解有着重大的意义,从而减轻病人对家庭和社会的一系列负担。对于医院而言,自动化 医学诊断的时间花费较小,也有助于提高医院运作的效率。由此可见,智能医学诊断技术不 仅关系着每个个体和家庭的日常生活,还与整个社会的进步发展息息相关,因而具有重大 的研究意义和实用价值。
[0003] 在本发明作出之前,目前自动化医学诊断技术的发展还刚刚起步,存在很多缺陷。 传统的专家系统依赖于数据库进行医学诊断,易于被医学工作者理解,但是专家系统所涉 及的数据库中收集的数据较杂,冗余度较高,专家系统的医学诊断准确率较低。支持向量 机分类方法利用最大化边际原则,自动将收集到的医学信息分类,在一定程度上缓解了传 统专家系统数据库的局限性,提高了诊断的准确率,但是支持向量机分类方法存在黑盒效 应一一即无法解释推理过程和得出结论的"黑箱"特征,人们无法直观地看到处理的过程, 可理解性不强。近年来,机器学习中的流形降维算法能够将高维数据降维投影到低维的可 视空间,这种中间过程的可视化易于医学工作者的理解和分析,对医学诊断具有指导意义。 虽然已有不少降维算法被应用于医学领域,但流形降维算法本身只能对医学信息降维而不 能进行分类处理。因此,有研究者提出了流形降维分类算法,其中有代表性的包括SLLE和 LSDA算法。其中,有监督局部线性嵌入算法(简称SLLE)在原始的局部线性嵌入算法(简 称LLE)融入了监督信息,传统的LLE算法是根据样本点的欧氏距离寻找近邻点,SLLE算法 则在此基础上增加了样本点的类别信息,使降维后类内距离减小类间距离增大。然而,SLLE 算法对参数非常敏感,鲁棒性不强,并且为了适应不同的数据集,参数的选取需要大量的时 间。局部敏感判别分析算法(简称LSDA)通过构建类内图和惩罚图,最大化不同类样本点 的间隔,最小化小同类样本点的距离,并保持局部流形结构。然而,LSDA算法只考虑了流形 的局部信息,可能导致流形整体结构信息的损失,而且LSDA算法的分类效果也严重依赖于 参数的选择,在参数选择可能会耗费大量的时间。

【发明内容】

[0004] 本发明的目的在于克服上述缺陷,设计一种基于有监督等度规映射的智能医学诊 断分类方法。
[0005] 本发明的技术方案是:
[0006] 基于有监督等度规映射的智能医学诊断分类方法,其主要技术特征在于步骤如 下:
[0007] (1)将医学数据编制成训练数据集和测试数据集;
[0008] (2)训练数据的有监督的等度规映射降维,包括:
[0009] (2-1)计算测地线距离;
[0010] (2-2)对测地线距离融入监督信息;
[0011] (2-3)训练数据的流形低维嵌入;
[0012] (3)构建分类决策面;
[0013] ⑷测试数据的无监督低维嵌入;
[0014] (5)降维分类后的数据。
[0015] 所述步骤(1)训练数据集为高维有标签医学数据集,测试数据集为高维无标签医 学数据集。
[0016] 所述步骤(2-2)对测地线距离融入监督信息的策略为:类内数据点间的距离保 持不变,采用类间数据点间的最大距离表示类间数据点的距离;融入监督策略可以描述如 下:
[0018] 其中Cl1,表示同类数据点之间的距离,dpq表示异类数据点之间的距离。
[0019] 所述步骤(3)构建分类决策面的具体方法为:采用线性支持向量机算法构建分类 决策面对降维后的结果构建分类边界面。
[0020] 所述步骤⑷测试数据的无监督低维嵌入是:将测试数据无监督地映射到训练数 据的低维分类空间中,实现对无标签高维数据的降维分类;对于任意一个测试数据X 1,它的 最佳测试数据映射为z%它可用于对逐个到达的测试数据流进行分类预测,其公式如下:
表示 在原始流形上测试数据到训练数据集的测地线距离,Zs Λ ^表示定义的在有监督等度规映 射空间上测试数据到训练数据集的测地线距离,只有通过令两者强迫一致,才能得到测试 数据的最佳映射;
[0024] 如果是多个测试数据同时进行分类,与上式同理,则可得测试数据集\在目标流 形上的最佳映射为ζτ。
[0026] 本发明的优点和效果在于采用显式的有监督等度规映射加上线性的支持向量机 决策面构建对医学领域的数据进行降维分类分析,表现为:
[0027] (1)保持了同类数据点之间的相似性,拉大了异类数据点之间的差异性,对高维有 标签数据进行了特征提取,减少了数据之间的冗余度,提高了分类的精确率,提高了诊断的 准确率。
[0028] (2)降维数据的低维表示展示了医学数据分析的中间过程,更有益于医学工作者 的理解和分析。
[0029] (3)将测试数据无监督地映射到训练数据的低维分类空间中,实现对测试数据的 无监督低维嵌入。
[0030] (4)监督信息的融入过程中不依赖于任何参数,而是根据数据集本身的特性自适 应的选择,因而分类性能更鲁棒。
[0031] 本发明采用有监督的等度规映射降维对高维有标签数据降维,对高维有标签数据 进行了特征提取,然后根据数据特点使用线性支持向量机算法构建分类决策面对降维后的 数据构建分类边界面。本方法采用显式的低维映射加上线性的分类决策面构建,有利于提 高可理解性。本方法采用的有监督等度规映射对高维的医学数据进行了降维,降低了数据 的冗余度,并且提高了计算分析的精度。另外,采用先降维后分类的方法,也降低了对医学 数据的计算代价。
[0032] 本发明还有其他具体的优点和效果分析将在下面涉及。
【附图说明】
[0033] 图1--本发明流程不意图。
[0034] 图2-一本发明应用于肝脏疾病数据集的降维分类过程示意图,图中不同符号表 示不同类别的数据,其中(a)为肝脏疾病的原始数据,(b)为肝脏疾病的训练数据,(c)为肝 脏疾病的测试数据,(d)为肝脏疾病的训练数据降维分类后的结果,(e)为肝脏疾病的测试 数据降维分类后的结果。
[0035] 图3-一本发明应用于糖尿病数据集的降维分类过程示意图,图中不同符号表示 不同类别的数据,其中(a)为糖尿病的原始数据,(b)为训练数据,(c)为糖尿病的测试数 据,(d)为糖尿病的训练数据降维分类后的结果。(e)为糖尿病的测试数据降维分类后的结 果。
【具体实施方式】
[0036] 本发明的主要技术思路是:
[0037] 本发明采用有监督等度规映射降维算法加上线性的分类决策面构建对高维有标 签医学数据集进行降维分类,克服了流形降维算法只能对医学信息降维而不能进行分类处 理的缺陷,同时也克服了其它流形降维分类算法对参数依赖严重的特点。本发明采用有监 督等度规映射降维算法对高维医学数据进行了预处理,降低了数据的冗余度、提高了分类 的准确率。本发明中间过程的图像化更有助于医学工作者的理解和分析。同时本发明将高 维无标签医学数据集无监督地映射到低维空间,实现了对高维无标签医学数据集的分类。
[0038] 本发明的步骤如下:
[0039] -.将医学数据编制成训练数据集和测试数据集。
[0040] 其中,训练数据集为高维有标签医学数据集,测试数据集为高维无标签医学数据 集。
[0041] 二.对训练数据集进行有监督的等度规映射降维,这个步骤包括三个阶段:
[0042] 1.计算测地线距离,测地线距离可以描述如下:
[0043]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1