基于有监督等度规映射的智能医学诊断分类方法_2

文档序号:9547410阅读:来源:国知局
在高维空间,如果两个点相邻则称为近邻点,根据Ll构图即稀疏学习来自适应地 选择近邻点。
[0045] 对于每个点Xl,w中所有权重为非0所对应的数据点被选为^的近邻点。然后,将 所有的近邻点连到一起,得到邻接图G。U是数据点\近邻集合,若数据点V ,属于U,则认 为数据点Vi与V _j是相邻的,即图G存在边V iVj。
[0046] 设数据点¥;与数据点V 之间的最短路径(Ig(VyVj),欧氏距离为(!(Vi, Vj)。当邻接 图 G 存在边 ViVj时,最短路径 d^Vi,Vj) = (!(Vi, Vj);否则(^(Vi, Vj) =°°,对 p = 1,2,…, n,通过迪杰斯特拉方法来求得数据点间的最短路径。
[0047] 具体方法如下:
[0048] dg(Vi,Vj) = mintd^Vi, Vj), dg(vi,vp)+dg(vp, Vj)!
[0049] 这里,我们采用迪杰斯特拉方法求得邻接图中两点之间的最短路径表示数据点间 的测地线距离。
[0050] 2.对测地线距离融入监督信息,保持同类数据点之间的相似性,拉大异类数据点 之间的差异。在实际应用中,我们采用类间数据点的最大距离来表示类间数据点的距离并 且保持同类数据点之间的距离。融入监督策略可以描述如下:
[0052] 其中Cl1,表示同类数据点之间的距离,d pq表示异类数据点之间的距离。
[0053] 这种监督信息融入策略不依赖于参数的选取,可以节省参数选取的时间,并且能 够更好地保持数据的流形结构,保持了同类数据点之间的相似性,拉大了异类数据点之间 的差异。
[0054] 3.流形低维嵌入,使用MDS算法对高维数据进行降维。通过有监督的等度规映射 降维,对高维有标签的数据进行降维。有监督的等度规映射降维算法的流形低维嵌入可以 描述如下:
[0055] 假设高维数据集为X = Ix1, x2,. . .,xN},其中X1 e R D,数据点相应的低维坐标为Y ={yp y2, · · ·,yN},其中 y;e Rd。
[0056] (I)根据测地线距离构建距离矩阵D = {dg(Vl,Vj)2}。
[0057] (2)双中心化,计算:
其中H是D的同阶单位矩阵
[0059] (3)对τ⑶进行奇异值分解。因为矩阵τ⑶对称,即有τ⑶=UTAU。取d 个最大的特征值及其对应的特征向量,々,是对角阵,对角元素是从大到小排列的特征值, 矩阵Ud的列为相应的特征向量。
[0060] (4)计算矩阵Z,对人,对角线元素依次取算术平方根,并乘Iud,得到,
5
[0061] 三.构建分类决策面,采用线性支持向量机算法对降维后的数据构建分类边界 面。
[0062] 四.测试数据的无监督低维嵌入。训练数据集为高维有监督医学数据集,测试数 据集为高维无标签医学数据集。由于测试数据不像训练数据一样有监督信息,本算法将测 试数据无监督地映射到训练数据的低维分类空间中,实现测试数据的无监督低维嵌入。
[0063] 对于任意一个测试数据X1,它的最佳测试数据映射为z%它可用于对逐个到达的 测试数据流进行分类预测;
表示 在原始流形上测试数据到训练数据集的测地线距离,Zs Λ ^表示定义的在有监督等度规映 射空间上测试数据到训练数据集的测地线距离,只有通过令两者强迫一致,才能得到测试 数据的最佳映射。
[0066] 如果是多个测试数据同时进行分类,与上式同理,则可得测试数据集\在目标流 形上的最佳映射为ΖΤ。
[0068] 本发明对测试数据进行了无监督低维嵌入,将测试数据映射到有监督的等度规映 射空间中去。
[0069] 如图2,图3所示:
[0070] 图2展示了基于有监督等度规映射的智能医学诊断分类方法应用于肝脏病数据 集上的降维分类过程,图3展示了基于有监督等度规映射的智能医学诊断分类方法应用于 糖尿病数据集上的降维分类过程。中间过程图像化的展示,更有易于医学工作者的理解和 分析,提高了可理解性。基于有监督等度规映射的智能医学诊断分类方法采用先降维后分 类的方式,对高维医学信息先进行了特征提取,提高了医学诊断的准确率。
[0071] 如表1所示,表中展示了本发明(英文缩写为SHffiA)在8种真实医学数据集上的 实验结果与其他经典分类算法的诊断准确率的比较。从表格中可以发现支持向量机的诊断 准确率比决策树算法的诊断准确率高,说明了支持向量机的最大化边际准则要比传统的决 策树算法更适合于医学分类数据集。SLLE算法和LSDA算法的诊断准确率整体比支持向量 机和决策树算法的诊断准确率高,说明了有监督的流形降维对高维数据进行了特征提取, 更有易于分类准确率的提高。SMBA算法的诊断准确率比SLLE算法和LSDA算法的诊断准 确率高,SIMBA算法的有监督降维过程不依赖于参数,并且更能保持原始流形的结构,分类 准确率更高。因此,基于有监督等度规映射的智能医学诊断分类方法更加适用于自动化医 学诊断领域。
[0072] 表1 :五种分类算法在医学诊断数据集上的准确率比较
【主权项】
1. 基于有监督等度规映射的智能医学诊断分类方法,其特征在于步骤如下: (1) 将医学数据编制成训练数据集和测试数据集; (2) 训练数据的有监督的等度规映射降维,包括: (2-1)计算测地线距离; (2-2)对测地线距离融入监督信息; (2-3)训练数据的流形低维嵌入; (3) 构建分类决策面; (4) 测试数据的无监督低维嵌入; (5) 降维分类后的数据。2. 根据权利要求1所述的基于有监督等度规映射的智能医学诊断分类方法,其特征在 于步骤(1)训练数据集为高维有标签医学数据集,测试数据集为高维无标签医学数据集。3. 根据权利要求1所述的基于有监督等度规映射的智能医学诊断分类方法,其特征在 于步骤(2-2)对测地线距离融入监督信息的策略为:类内数据点间的距离保持不变,采用 类间数据点间的最大距离表示类间数据点的距离;融入监督策略可以描述如下:其中屯表示同类数据点之间的距离,dpq表示异类数据点之间的距离。4. 根据权利要求1所述的基于有监督等度规映射的智能医学诊断分类方法,其特征在 于步骤(3)构建分类决策面的具体方法为:采用线性支持向量机算法构建分类决策面对降 维后的结果构建分类边界面。5. 根据权利要求1所述的基于有监督等度规映射的智能医学诊断分类方法,其特征在 于步骤(4)测试数据的无监督低维嵌入是:将测试数据无监督地映射到训练数据的低维分 类空间中,实现对无标签高维数据的降维分类;对于任意一个测试数据 Xl,它的最佳测试数 据映射为z%它可用于对逐个到达的测试数据流进行分类预测,其公式如下:始流形上测试数据到训练数据集的测地线距离,ZsΛζτ表示定义的在有监督等度规映射空 间上测试数据到训练数据集的测地线距离,只有通过令两者强迫一致,才能得到测试数据 的最佳映射; 如果是多个测试数据同时进行分类,与上式同理,则可得测试数据集Χτ在目标流形上 的最佳映射为ζτ:
【专利摘要】本发明涉及基于有监督等度规映射的智能医学诊断分类方法。本发明将医学数据编制成训练数据集和测试数据集,训练数据的有监督的等度规映射降维,包括计算测地线距离,对测地线距离融入监督信息,训练数据的流形低维嵌入,构建分类决策面,测试数据的无监督低维嵌入。本发明克服了过去存在的导致流形整体结构信息的损失的缺陷。本发明对高维有标签数据进行了特征提取,然后根据数据特点使用线性支持向量机算法构建分类决策面对降维后的数据构建分类边界面,显式的低维映射加上线性的分类决策面构建,有利于提高可理解性,降低了数据的冗余度,提高了计算分析的精度,也降低了对医学数据的计算代价。
【IPC分类】G06F19/00
【公开号】CN105303028
【申请号】CN201510518334
【发明人】何萍, 张蕾, 徐晓华, 林惠惠
【申请人】扬州大学
【公开日】2016年2月3日
【申请日】2015年8月20日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1