一种疾病诊断方法和装置的制造方法

文档序号:9235640阅读:377来源:国知局
一种疾病诊断方法和装置的制造方法
【技术领域】
[0001] 本申请设及医学领域,更具体地说,设及一种疾病诊断方法和装置。
【背景技术】
[0002] 随着科技的不断发展,疾病的诊断可借助计算机的帮助,采用机器学习的方法实 现对疾病的诊断。
[0003] 疾病诊断的数据通常为人体的基因表达数据,该数据为典型的高维数据,即包括 多个特征。为了减少计算复杂度、存储复杂度,对基因表达数据的维数约简是必不可少的步 骤。当前主要采用基于双图模式的判别近邻嵌入方法,该方法可有效地对数据进行降维。该 方法在确定投影矩阵时采用欧氏距离确定训练样本的同类相似样本集和异类相似样本集, 其诊断精度低。

【发明内容】

[0004] 有鉴于此,本发明提供了一种疾病诊断方法和装置,W提高疾病的诊断精度。
[0005] 为实现上述目的,本发明提供如下技术方案:
[0006] 一种疾病诊断方法,包括:
[0007] 获取测试样本和多个训练样本的基因表达数据;
[000引基于余弦相似度原理,根据多个训练样本的基因表达数据确定任意一个训练样本 的同类相似样本集和异类相似样本集;
[0009] 根据所述同类相似样本集和所述异类相似样本集,按照预设方法建立低维特征空 间的投影矩阵;
[0010] 利用所述投影矩阵将处理后测试样本和处理后多个训练样本映射到低维特征空 间;
[0011] 在低维特征空间内,确定与测试样本距离最近的训练样本,将该训练样本的类别 赋予测试样本,W完成对测试样本的诊断。
[0012] 优选的,所述基于余弦相似度原理,根据多个训练样本的基因表达数据确定任意 一个训练样本的同类相似样本集和异类相似样本集,之前还包括:
[0013] 对测试样本和多个训练样本的基因表达数据进行随机特征值抽取处理W及特征 值归一化处理。
[0014] 优选的,所述根据所述同类相似样本集和所述异类相似样本集,按照预设方法建 立低维特征空间的投影矩阵,包括:
[0015] 根据同类相似样本和异类相似样本,构建类内相似矩阵和类间相似矩阵;
[0016] 其中;
[0017]
[001引
[0019] 表示类内相似矩阵,表示类间相似矩阵,X' i处理后的训练样本i的基因 表达数据,X' J表示处理后训练样本j的基因表达数据,AG(../)表示训练样本j的同类相 似样本集,训练样本i的同类相似样本集,表示训练样本j的异类相似样本 集,表示训练样本i的异类相似样本集;
[0020] 根据类内相似矩阵和类间相似矩阵,构建类间局部散度矩阵和类内局部散度矩 阵;
[0021] 其中,S,= X 值w-FW)XT,Sb= X 值 b-Fb)xT;
[0022] S,表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基 因表达数据,F"表示类内相似矩阵,Fb表示类间相似矩阵,D"和〇b表示对角矩阵,
[0023] 对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征分解,保证类间距离 与类内距离的比值最大化,按照从大到小的顺序获取若干个特征值;
[0024] 根据特征值对应的特征向量建立低维特征空间的投影矩阵。
[0025] 一种疾病诊断装置,包括:
[0026] 数据采集单元,用于获取测试样本和多个训练样本的基因表达数据;
[0027] 同类和异类相似样本建立单元,用于基于余弦相似度原理,根据多个训练样本的 基因表达数据确定任意一个训练样本的同类相似样本集和异类相似样本集;
[002引投影矩阵建立单元,用于根据所述同类相似样本集和所述异类相似样本集,按照 预设方法建立低维特征空间的投影矩阵;
[0029] 映射单元,用于利用所述投影矩阵将测试样本和多个训练样本映射到低维特征空 间;
[0030] 诊断单元,用于在低维特征空间内,确定与测试样本距离最近的训练样本,将该训 练样本的类别赋予测试样本,W完成对测试样本的诊断。
[0031] 优选的,还包括;数据处理单元,用于对测试样本和多个训练样本的基因表达数据 进行随机特征值抽取处理w及特征值归一化处理。
[0032] 优选的,所述投影矩阵建立单元包括:
[0033] 类内相似矩阵和类间相似矩阵构建单元,用于根据同类相似样本和异类相似样 本,构建类内相似矩阵和类间相似矩阵;
[0034] 其中;
[0035]
[0036]
[0037] 巧/表示类内相似矩阵,if表示类间相似矩阵,X' i处理后的训练样本i的基 因表达数据,X' J处理后表示训练样本j的基因表达数据,表示训练样本j的同类 相似样本集,训练样本i的同类相似样本集,表示训练样本j的异类相似样 本集,表示训练样本i的异类相似样本集;
[003引构建类间局部散度矩阵和类内局部散度矩阵构建单元,用于根据类内相似矩阵和 类间相似矩阵,构建类间局部散度矩阵和类内局部散度矩阵;
[0039] 其中,Sw=X值w-F,)XT,Sb=X值b-pb)XT;
[0040] S,表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基 因表达数据,FW表示类内相似矩阵,Fb表示类间相似矩阵,和〇b表示对角矩阵,
[0041] 特征分解单元,用于对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征 分解,保证类间距离与类内距离的比值最大化,按照从大到小的顺序获取若干个特征值;
[0042] 投影矩阵建立子单元,用于根据特征值对应的特征向量建立低维特征空间的投影 矩阵。
[0043] 经由上述的技术方案可知,与现有技术相比,本发明公开了一种疾病诊断方法和 装置。该方法基于余弦相似度原理,根据多个训练样本的基因表达数据确定任意一个训练 样本的同类相似样本集和异类相似样本集。进而,根据同类相似样本集和异类相似样本集 构建低维特征空间的投影矩阵,利用该投影矩阵实现对训练样本和测试样本的降维处理, w方便对测试样本的诊断。与现有技术相比,本发明在采用余弦来度量样本之间的相似度, 与采用欧式距离的方式相比,其相似度的度量精度更高,从而提高了疾病诊断的精度。
【附图说明】
[0044] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0045] 图1示出了本发明一个实施例公开的一种疾病诊断方法的流程示意图;
[0046] 图2示出了本发明另一个实施例公开的一种疾病诊断装置的结构示意图。
【具体实施方式】
[0047] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本申请保护的范围。
[0048] 参见图1示出了本发明一个实施例公开的一种疾病诊断方法的流程示意图。
[0049] 由图1可知,该方法包括;
[0化0] 101 ;获取测试样本和多个训练样本的基因表达数据。
[0051] 设已有基因表达训练数据为{X,.,乂提1其中XiG RD是第i个人的基因表达数 据,yi= {+1,-1}表示X i的类别标签,N表示样本个数,D表示训练数据的维数。
[0052] 102;基于余弦相似度原理,根据多个训练样本的基因表达数据确定任意一个训练 样本的同类相似样本集和异类相似样本集。
[0053] 需要说的是,由于对于样本个数而言,训练数据的维数使一个非常大的数。因而在 本发明的其他实施例中为了降低计算复杂度,在确定同类相似样本集和异类相似样本集之 前需要对训练样本和测试样本进行随机特征抽取处理W及特征值归一化处理。
[0054] 比如,在训练样本中抽取d个特征,记录抽取特征的位置/〔〇,2,L ,D}且|1 =d。然后把抽取出来的特征值进行归一化,使得特征值的范围在[0,1]区间。则记随机特 征选择且归一化后的训练数据集为并且Xi' G Rd。
[0化5] 进而,根据保留的特征位置集I和训练样本的归一化处理方式,构造一个新的测 试样本。
[0化6] 103 ;根据所述同类相似样本集和所述异类相似样本集,按照预设方法建立低维特 征空间的投影矩阵。
[0化7] 该过程具体包括W下步骤:
[005引 A ;根据同类相似样本和异类相似样本,构建类内相似矩阵和类间相似矩阵,
[0059]
[0060]
[0061] 户7表示类内相似矩阵,if表示类间相似矩阵,X' i处理后的训练样本i的基因 表达数据,X' J表示处理后训练样本j的基因表达数据,表示训练样本j的同类相 似样本集,jV;CO训练样本i的同类相似样本集,表示训练样本j的异类相似样本 集,表示训练样本i的异类相似样本集;
[00创 B;根据类内相似矩阵和类间相似矩阵,构建类间局部散度矩阵和类内局部散度矩 阵。
[0063] 其中,s,= X 值 W-F-) XT,Sb= X 值 b-pb) xT;
[0064] S,表示类间局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基 因表达数据,F"表示类内相似矩阵,Fb表示类间相似矩阵,D"和〇b表示对角矩阵,
[0065] C;对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征分解,保证类间距 离与类内距离的比值最大化,按照从大到小的顺序获取若干个特征值。
[0066] D ;根据特征值对应的特征向量建立低维特征空间的投影矩阵。
[0067] 为了获得投影矩阵P,我们对Sb和S,进行广义特征分解。把获得的特征值按照从 大到小的顺序进行排序,取前其r个特征值对应的特征向量组成矩阵P = [Pi,P2, L Pr],其 中Pi是特征分解后的特征向量。其中,r《d《D。
[0068] 104;利用所述投影矩阵将测试样本和多个训练样本映射到低维特征空间。
[0069] 在得到了投影矩阵P后,通过投影把原样本空间的训练样本投影到低维特征空 间,Zi=pTxi',其中Zi是Xi'在低维
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1