一种样本检测模型的构建方法和系统的制作方法

文档序号:10471522阅读:700来源:国知局
一种样本检测模型的构建方法和系统的制作方法
【专利摘要】本发明公开了检测一种样本检测模型的构建方法和系统,从预设的训练样本集中确定多个类别的训练样本;基于余弦去中心相似性原理,并根据多个类别的训练样本的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵;依据投影矩阵以及多个类别的训练样本构建样本检测模型;样本检测模型用于检测待测样本的类别参数。本发明基于余弦去中心相似性原理来度量待测样本与训练样本之间的相似度,与采用欧氏距离的现有技术相比,本申请方案的相似度的度量精度更高,从而可以提高对待测样本的检测精度。
【专利说明】
-种样本检测模型的构建方法和系统
技术领域
[0001] 本申请设及检测技术领域,更具体地设及一种样本检测模型的构建方法和系统。
【背景技术】
[0002] 白血病是一类造血干细胞恶性克隆性疾病。克隆性白血病细胞因为增殖失控、分 化障碍、调亡受阻等机制在骨髓和其他造血组织中大量增殖累积,并浸润其他组织和器官, 同时正常造血受抑制。由于白血病分型和预后分层复杂,没有千篇一律的治疗方法,需要结 合细致的分型和预后分层制定治疗方案。因此对白血病的待测样本的类别进行检测是一项 重要的工作。
[0003] 随着科技的不断发展W及人工智能在医院领域的应用,越来越多的机器学习方法 可被用来进行智能检测。白血病的待测样本的类别检测也可借助计算机的帮助,采用机器 学习的方法实现对白血病的待测样本的类别检测。为了更好地检测出白血病的待测样本的 类别,可W采用DNA微阵列技术来获取基因表达数据,利用基因忍片进行的表达水平检测可 W自动、快速、高效地检测成千上万个基因的表达情况。通过检测基因的表达水平,可W进 行肿瘤检测、类别预测等等。
[0004] 对白血病的待测样本进行类别检测时使用的待测样本通常为人体的基因表达数 据,该数据为典型的高维数据,即包括多个特征。为了减少计算复杂度、存储复杂度,对基因 表达数据的维数约简是必不可少的步骤。当前主要采用基于双图模式的判别近邻嵌入方 法,该方法可有效地对数据进行降维。该方法在确定投影矩阵时采用欧氏距离确定训练样 本的同类相似样本集和异类相似样本集,其检测精度低。

【发明内容】

[0005] 有鉴于此,本发明提供了一种样本检测模型的构建方法和系统,W提高对待测样 本的检测精度。
[0006] 为实现上述目的,本发明提供如下技术方案:
[0007] -种样本检测模型的构建方法,包括:
[0008] 从预设的训练样本集中确定多个类别的训练样本;
[0009] 基于余弦去中屯、相似性原理,并根据多个类别的所述训练样本的同类相似样本集 和异类相似样本集,建立低维特征空间的投影矩阵;
[0010] 依据所述投影矩阵W及多个类别的所述训练样本构建样本检测模型;所述样本检 测模型用于检测待测样本的类别参数。
[0011] 优选地,所述从预设的训练样本集中确定多个类别的训练样本,包括:
[0012] 获取预设的所述训练样本集,从所述训练样本集中抽取多个特征值;
[0013] 将抽取的多个所述特征值进行归一化处理,形成多个类别的所述训练样本。
[0014] 优选地,所述基于余弦去中屯、相似性原理,并根据多个类别的所述训练样本的同 类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵,包括:
[001引根据同类相似样本集和异类相似样本集,构建类内相似矩阵和类间相似矩阵:
[001引其中,3(厶方^)为基于余弦去中屯、相似性原理构建的余弦去中屯、相似性函数,且
是多个类别的所述训练样本的中屯、,巧/表示类内 相似矩阵,if表示类间相似矩阵,χ/1表示训练样本i,χ/ J表示训练样本j,(/)表示训练 样本j的同类相似样本集,Λ^(;0表示训练样本i的同类相似样本集,A^(y')表示训练样本j 的异类相似样本集,W表示训练样本i的异类相似样本集;
[0019] 根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部散度矩阵和类内局部 散度矩阵:
[0020] Sw=X(DW-FW)xT;
[0021] Sb = X(Db-Fb 巧 T;
[0022] 其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达 数据,F"表示类内相似矩阵,Fb表示类间相似矩阵,D"和〇b表示对角矩阵,
[0023] 对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征分解,按照从大到小 的顺序获取若干个特征值,根据所述若干个特征值对应的特征向量建立所述低维特征空间 的所述投影矩阵,并根据
呆证类间距离与类内距离的比值最大化;
[0024] 其中,trace(.)是指求矩阵的迹。
[0025] 优选地,所述依据所述投影矩阵W及多个类别的所述训练样本构建样本检测模 型,包括:
[0026] 利用所述投影矩阵将多个类别的所述训练样本投影到所述低维特征空间,形成多 个投影训练样本;
[0027] 在所述低维特征空间内,利用最近邻分类器和多个所述投影训练样本构建样本检 测模型。
[002引优选地,还包括:
[0029] 将抽取的多个所述特征值的位置记录为特征位置集;
[0030] 根据所述特征位置集对原始样本进行所述归一化处理,形成所述待测样本;
[0031] 利用所述投影矩阵将所述待测样本投影到所述低维特征空间,形成投影待测样 本;
[0032] 根据所述样本检测模型,在所述低维特征空间内,利用所述最近邻分类器从多个 所述投影训练样本中确定与所述投影待测样本距离最近的所述投影训练样本,并将确定的 所述投影训练样本对应的所述训练样本的类别赋予所述待测样本,完成对所述待测样本的 类别参数的检测。
[0033] -种样本检测模型的构建系统,包括:
[0034] 获取模块,用于从预设的训练样本集中确定多个类别的训练样本;
[0035] 矩阵建立模块,用于基于余弦去中屯、相似性原理,并根据多个类别的所述训练样 本的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵;
[0036] 模型构建模块,用于依据所述投影矩阵W及多个类别的所述训练样本构建样本检 测模型;所述样本检测模型用于检测待测样本的类别参数。
[0037] 优选地,所述获取模块,包括:
[0038] 获取单元,用于获取预设的所述训练样本集,从所述训练样本集中抽取多个特征 值;
[0039] 处理单元,用于将抽取的多个所述特征值进行归一化处理,形成多个类别的所述 训练样本。
[0040] 优选地,所述矩阵建立模块,包括:
[0041 ]第一构建单元,用于根据同类相似样本集和异类相似样本集,构建类内相似矩阵 和类间相似矩阵:
[0044] 其中,3(χ/ι,χ/^)为基于余弦去中屯、相似性原理构建的余弦去中屯、相似性函数,且
是多个类别的所述训练样本的中屯、,表示类内 相似矩阵,表示类间相似矩阵,χ/ 1表示训练样本i,χ/ 1表示训练样本j,AC GO表示训练 样本j的同类相似样本集,表示训练样本i的同类相似样本集,表示训练样本j 的异类相似样本集,?Ο表示训练样本i的异类相似样本集;
[0045] 第二构建单元,用于根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部 散度矩阵和类内局部散度矩阵:
[0046] Sw=X(DW-FW)xT;
[0047] Sb = X(Db-Fb 巧 T;
[004引其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达 数据,FW表示类内相似矩阵,Fb表示类间相似矩阵,DW和0b表示对角矩阵,
[0049]特征分解单元,用于对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征 分解,按照从大到小的顺序获取若干个特征值,根据所述若干个特征值对应的特征向量建 立所述低维特征空间的所述投影矩阵,并根据
巧证类间距离与类内距 离的比值最大化;
[(K)加]其中,trace( ·)是指求矩阵的迹。
[0051 ]优选地,所述模型构建模块,包括:
[0052] 投影单元,用于利用所述投影矩阵将多个类别的所述训练样本投影到所述低维特 征空间,形成多个投影训练样本;
[0053] 第Ξ构建单元,用于在所述低维特征空间内,利用最近邻分类器和多个所述投影 训练样本构建样本检测模型。
[0054] 优选地,还包括:
[005引检测板块;
[0056] 所述检测模块用于将抽取的多个所述特征值的位置记录为特征位置集;根据所述 特征位置集对原始样本进行所述归一化处理,形成所述待测样本;利用所述投影矩阵将所 述待测样本投影到所述低维特征空间,形成投影待测样本;根据所述样本检测模型,在所述 低维特征空间内,利用所述最近邻分类器从多个所述投影训练样本中确定与所述投影待测 样本距离最近的所述投影训练样本,并将确定的所述投影训练样本对应的所述训练样本的 类别赋予所述待测样本,完成对所述待测样本的类别参数的检测。
[0057] 经由上述的技术方案可知,与现有技术相比,本发明公开了一种样本检测模型的 构建方法和系统,从预设的训练样本集中确定多个类别的训练样本;基于余弦去中屯、相似 性原理,并根据多个类别的所述训练样本的同类相似样本集和异类相似样本集,建立低维 特征空间的投影矩阵;依据所述投影矩阵W及多个类别的所述训练样本构建样本检测模 型;所述样本检测模型用于检测待测样本的类别参数。与现有技术相比,本发明基于余弦去 中屯、相似性原理来度量待测样本与训练样本之间的相似度,根据多个类别的所述训练样本 的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵;依据所述投影矩阵 W及多个类别的所述训练样本构建样本检测模型;所述样本检测模型用于检测待测样本的 类别参数,与采用欧氏距离的方式相比,本申请方案的相似度的度量精度更高,从而可W提 高对待测样本的检测精度。
【附图说明】
[005引为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0059]图1示出了本发明一个实施例公开的一种样本检测模型的构建方法的流程示意 图;
[0060] 图2示出了本发明另一个实施例公开的一种样本检测模型的构建系统的结构示意 图;
[0061] 图3提供了本申请方案和现有技术的双图判别近邻嵌入算法随着维数变化的检测 率曲线对比图。
【具体实施方式】
[0062] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本申请保护的范围。
[0063] 参见图1示出了本发明一个实施例公开的一种样本检测模型的构建方法的流程示 意图。
[0064] 由图1可知,该方法包括:
[0065] S101:从预设的训练样本集中确定多个类别的训练样本。
[0066] 在本申请实施例中,在所述从预设的训练样本集中确定多个类别的训练样本之 前,还可W包括:获取白血病的原始样本和训练样本集;从所述训练样本集中抽取多个特征 值,并将抽取的特征值的位置记录为特征位置集;将抽取的特征值进行归一化处理,形成多 个类别的所述训练样本;根据所述特征位置集对所述原始样本进行所述归一化处理,形成 所述待测样本。
[0067] 设已有基因表达的训练样本集为吉,其中XiERD是第i个人的基因表达数据, yi=U,2,···,c}表示XI的类别标签,即该数据对应的是哪种白血病,C表示数据集中白血病 类型数,N表示训练样本的个数,D表示训练样本的维数。
[0068] 需要说明的是,由于对于样本个数而言,训练样本的维数是一个非常大的数。因而 在本发明的其他实施例中为了降低计算复杂度,需要对训练样本和原始样本进行随机特征 抽取处理W及特征值归一化处理。
[0069] 比如,在训练样本集中抽取d个特征,记录抽取特征的位置为特征位置集 / ,D}且|1| =d。然后把抽取出来的特征值进行归一化,使得特征值的范围在
[0,1]区间。则记随机特征选择且归一化后的多个类别的训练样本为{<,乂并且X'lE Rd。
[0070] 进而,可W根据保留的特征位置集I和训练样本的归一化处理方式,根据原始样本 构造一个待测样本χ/ ERd。
[0071] S102:基于余弦去中屯、相似性原理,并根据多个类别的所述训练样本的同类相似 样本集和异类相似样本集,建立低维特征空间的投影矩阵。
[0072] 在本申请实施例中,可W利用该投影矩阵实现对训练样本和待测样本的降维处 理,W方便对待测样本的类别参数的检测。
[0073] 在本申请实施例中,根据同类相似样本集和异类相似样本集,构建类内相似矩阵 和类间相似矩阵:
-J
[0076] 其中,3(χ/ι,χ/^)为基于余弦去中屯、相似性原理构建的余弦去中屯、相似性函数,且
曼多个类别的所述训练样本的中屯、,表示类内 相似矩阵,if表示类间相似矩阵,χ/1表示训练样本i,χ/ J表示训练样本j,iVXC,/)表示训练 样本j的同类相似样本集,CO表示训练样本i的同类相似样本集,iVi (_/)表示训练样本j 的异类相似样本集,iV; 表示训练样本i的异类相似样本集;
[0077] 根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部散度矩阵和类内局部 散度矩阵;
[007引 Sw=X(0w-FW)xT;
[0079] Sb = X(Db-Fb 巧 T;
[0080] 其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达 数据,F"表示类内相似矩阵,Fb表示类间相似矩阵,D"和〇b表示对角矩阵,
[0081] 对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征分解,按照从大到小 的顺序获取若干个特征值,根据所述若干个特征值对应的特征向量建立所述低维特征空间 的所述投影矩阵,并根据
保证类间距离与类内距离的比值最大化;
[0082] 其中,trace( ·)是指求矩阵的迹。
[0083] 为了获得投影矩阵P,我们对Sb和Sw进行广义特征分解。把获得的特征值按照从大 到小的顺序进行排序,取前其r个特征值对应的特征向量组成矩阵P = [P1,P2,· · ·,Pr],其中 Pi是特征分解后的特征向量。其中,r<<d<<D。
[0084] S103:依据所述投影矩阵W及多个类别的所述训练样本构建样本检测模型。
[0085] 所述样本检测模型用于检测待测样本的类别参数。
[0086] 在检测待测样本的类别参数时,本申请实施例利用所述投影矩阵将所述待测样本 和多个类别的所述训练样本投影到所述低维特征空间,形成投影待测样本W及多个投影训 练样本;根据所述样本检测模型,在所述低维特征空间内,利用所述最近邻分类器从多个所 述投影训练样本中确定与所述投影待测样本距离最近的所述投影训练样本,并将确定的所 述投影训练样本对应的所述训练样本的类别赋予所述待测样本,完成对所述待测样本的类 别参数的检测。
[0087] 在得到了投影矩阵P后,通过投影把原样本空间的训练样本投影到低维特征空间, Zl = PVl,其中Zl是x'l在低维空间的投影训练样本,ZleRr。令{z;,,y,.措为多个类别的训 练样本的投影训练样本集。
[0088] 同理,将待测样本通过投影矩阵投影到低维特征空间中,得到投影待测样本z = ρΤχ' er。
[0089] 利用最近邻分类器,对投影待测样本在低维特征空间进行判别。也就是说,在投影 训练样本集[^中,找到和投影待测样本距离最近的投影训练样本,然后再把该投 影训练样本对应的训练样本的类别赋予待测样本。运样就完成对待测样本的类别参数的检 测。
[0090] 由W上实施例可知:该方法基于余弦去中屯、相似性原理来度量待测样本与训练样 本之间的相似度,根据多个类别的所述训练样本的基因表达数据确定任意一个训练样本的 同类相似样本集和异类相似样本集,进而,根据同类相似样本集和异类相似样本集建立低 维特征空间的投影矩阵;依据所述投影矩阵W及多个类别的所述训练样本构建样本检测模 型;所述样本检测模型用于检测待测样本的类别参数。与现有技术相比,本发明采用余弦去 中屯、相似性原理来度量样本之间的相似度,与采用欧氏距离的方式相比,本申请方案的相 似度的度量精度更高,从而可W提高对待测样本的检测精度。
[0091] 参见图2示出了本发明另一个实施例公开的一种样本检测模型的构建系统的结构 不意图。
[0092] 由图2可知,该系统包括:
[0093] 获取模块1,用于从预设的训练样本集中确定多个类别的训练样本;
[0094] 矩阵建立模块2,用于基于余弦去中屯、相似性原理,并根据多个类别的所述训练样 本的同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵;
[0095] 模型构建模块3,用于依据所述投影矩阵W及多个类别的所述训练样本构建样本 检测模型;所述样本检测模型用于检测待测样本的类别参数。
[0096] 所述获取模块1,包括:
[0097] 获取单元,用于获取预设的所述训练样本集,从所述训练样本集中抽取多个特征 值;
[0098] 处理单元,用于将抽取的多个所述特征值进行归一化处理,形成多个类别的所述 训练样本。
[0099] 所述矩阵建立模块2,包括:
[0100] 第一构建单元,用于根据同类相似样本集和异类相似样本集,构建类内相似矩阵 和类间相似矩阵:
[0103]其中,为基于余弦去中屯、相似性原理构建的余弦去中屯、相似性函数,且
是多个类别的所述训练样本的中屯、,^w表示类内 相似矩阵,^6表示类间相似矩阵,χ/1表示训练样本i,χ/ J表示训练样本j,CO表示训练 样本j的同类相似样本集,W 表示训练样本i的同类相似样本集,W八./)表示训练样本j 的异类相似样本集,巧表示训练样本i的异类相似样本集;
[0104] 第二构建单元,用于根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部 散度矩阵和类内局部散度矩阵;
[0105] Sw=X(DW-FW)xT;
[0106] Sb = X(Db-Fb 巧 T;
[0107] 其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达 数据,F"表示类内相似矩阵,Fb表示类间相似矩阵,D"和〇b表示对角矩阵,
[0108] 特征分解单元,用于对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征 分解,按照从大到小的顺序获取若干个特征值,根据所述若干个特征值对应的特征向量建 立所述低维特征空间的所述投影矩阵,并根据
呆证类间距离与类内距 离的比值最大化;
[0109] 其中,trace( ·)是指求矩阵的迹。
[0110] 所述模型构建模块3,包括:
[0111] 投影单元,用于利用所述投影矩阵将多个类别的所述训练样本投影到所述低维特 征空间,形成多个投影训练样本;
[0112] 第Ξ构建单元,用于在所述低维特征空间内,利用最近邻分类器和多个所述投影 训练样本构建样本检测模型。
[0113] 优选地,还可W包括:
[0114] 检测板块;
[0115] 所述检测模块用于将抽取的多个所述特征值的位置记录为特征位置集;根据所述 特征位置集对原始样本进行所述归一化处理,形成所述待测样本;利用所述投影矩阵将所 述待测样本投影到所述低维特征空间,形成投影待测样本;根据所述样本检测模型,在所述 低维特征空间内,利用所述最近邻分类器从多个所述投影训练样本中确定与所述投影待测 样本距离最近的所述投影训练样本,并将确定的所述投影训练样本对应的所述训练样本的 类别赋予所述待测样本,完成对所述待测样本的类别参数的检测。
[0116] 需要说明的是,本申请中的系统实施例提供的样本检测模型的构建系统可W采用 上述方法实施例中的样本检测模型的构建方法,可W用于实现上述方法实施例中的全部技 术方案,其各个功能模块的功能可W根据上述方法实施例中的方法具体实现,其具体实现 过程可参照上述实施例中的相关描述,此处不再寶述。
[0117] 下面对本发明的实例作详细说明:本实例在W本发明技术方案为前提下进行实 施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实例。
[011引 Leukemia数据集中有两种不同种类的白血病,急性淋己细胞性白血病(Acute Lymphoblastic Le址emia,ALL)和急性骨髓性白血病(Acute Myeloid Le址emia,AML)。该 数据集被划分为两个子集:训练集用来选择基因和训练分类器,测试集用来估计分类性能。 训练集有38个样本(27个A化和11个AML ),测试集有34个样本(20个A化和14个AML)。所有样 本有7129个特征,对应于从微阵列图像中提取出的归一化基因表达值。
[0119] 具体实施步骤如下:
[0120] 训练模块:
[0121] 设已有基因表达训练样本为狂,乂培,其中XiERD是第i个人的基因表达数据,yi = {1,2,-,,c}表示XI的类别标签,即该数据对应的是哪种白血病,C表示数据集中白血病类型 数,N表示训练样本的个数,D表示训练样本的维数。在本实施例中,c = 2,N=78,D = 24481。
[0122] 随机特征选择:
[0123] -般来说,相对于N而言,D是一个非常大的数。为了减少计算复杂度,先随机抽取 一部分特征,比如抽取d个特征,记录抽取特征的位置/ c{l,2,···,巧,且11 I =d。在本实施例 中,d=1000。为了消除随机性的影响,重复50次随机抽取。然后把抽取出来的特征值进行归 一化,使得特征值的范围在[0,1]区间。则记随机特征选择且归一化后的训练样本集为 成,.V,培,并且X'iERd。
[0124] 特征变换:
[0125] 为了同时考虑保持低维坐标的几何特征和训练点信息,寻找一个最优变换P,将数 据集戌,知f=,映射到相对低维的特征空间,比如r维空间,且r<<d<<D。在本实施例中,r 可W取1到37,要小于样本的个数。在此低维的特征空间中,最大化类间距离且最小化类内 距离,即:
[0126]
[0127]其中trace( ·)是指求矩阵的迹,Sb是类间局部散度矩阵,Sw类内局部散度矩阵。为 了计算运两个局部散度矩阵,我们构造两个相似矩阵,类内相似矩阵F"和类间相似矩阵Fb。 Sw = X(〇w-FW)xT和Sb = X(Db-Fb)xT,其中和〇b均是对角矩阵
为 了获得运两个相似矩阵,我们定义余弦去中屯、相似性函数:
[012 引
[0129] 其中
曼训练样本集的中屯、。如果3(χ/ i,χ/ j)值越大,则χ/ i与χ/ j月相似。FW 和Fb定义如下:
[0130]
[0131] 和
[0132]
[013引其中辦货和分别是x'l的同类相似样本和异类相似样本集合。在本实施例 中,相似性样本数分别取k = 4和k = 5。
[0134] 为了获得P,我们对Sb和Sw进行广义特征分解。把获得的特征值按照从大到小的顺 序进行排序,取前其r个特征值对应的特征向量组成矩阵口=[口1,口2,一,口,],其中口1是特征 分解后的特征向量。
[0135] 在得到了投影矩阵P后,通过投影把原样本空间的训练样本投影到低维特征空间, Zi = PV 1,其中zi是χ/1在低维空间的投影训练样本,ZiERT。令耗,乂措为投影后的投影训 练样本集。
[0136] 模型构建:
[0137] 对某个原始样本xERD,根据保留的特征位置集I和训练样本集的归一化方式,构 造一个新的待测样本χ/ ERd。然后利用投影变换P把它映射到低维特征空间中,得到投影待 测样本ζ=ρΤχ' er。
[0138] 利用最近邻分类器,对投影待测样本z在低维特征空间进行判别。也就是说,在投 影训练样本集合!Z,,J,占中,找到和待测样本距离最近的投影训练样本,然后再把该投影训 练样本对应的训练样本的类别赋予投影待测样本Z。运样就完成对X的类别参数的检测。在 本实施例中待测样本有34个,要重复构建模型34次,报道平均结果。
[0139] 图3提供了本申请方案和现有技术的双图判别近邻嵌入算法随着维数变化的检测 率曲线对比图。可W看到本发明的检测精度一直是高于双图判别近邻嵌入的。随着维数的 增加,精度有所下降,最后趋于一个较为平稳的值。表1给出了降维数为1到37之间最好检测 结果的对比,括号中是对应的最好维数。该数据的降维是降低,两种方法都在1维或者2维时 获得其最好的性能。但可W看出本发明远远好于对比方法。
[0140] 表种算法在WL人脸数据库的分类性能对比(% ) 「01411
[0142] ~为了描述的方便,描述W上系统时W功能分为各种模块分别描述。当然,在实施本 申请时可W把各模块的功能在同一个或多个软件和/或硬件中实现。
[0143] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或 系统实施例而言,由于其基本相似于方法实施例,所W描述得比较简单,相关之处参见方法 实施例的部分说明即可。W上所描述的系统及系统实施例仅仅是示意性的,其中所述作为 分离部件说明的单元可W是或者也可W不是物理上分开的,作为单元显示的部件可W是或 者也可W不是物理单元,即可W位于一个地方,或者也可W分布到多个网络单元上。可W根 据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术 人员在不付出创造性劳动的情况下,即可w理解并实施。
[0144] 专业人员还可W进一步意识到,结合本文中所公开的实施例描述的各示例的单元 及算法步骤,能够W电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和 软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。运些 功能究竟W硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业 技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能,但是运种实现不应 认为超出本发明的范围。
[0145] 结合本文中所公开的实施例描述的方法或算法的步骤可W直接用硬件、处理器执 行的软件模块,或者二者的结合来实施。软件模块可W置于随机存储器(RAM)、内存、只读存 储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术 领域内所公知的任意其它形式的存储介质中。
[0146] 还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个 实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示运些实体或操作之间 存在任何运种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为运种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0147] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。 对运些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的 一般原理可W在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的运些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。
【主权项】
1. 一种样本检测模型的构建方法,其特征在于,包括: 从预设的训练样本集中确定多个类别的训练样本; 基于余弦去中心相似性原理,并根据多个类别的所述训练样本的同类相似样本集和异 类相似样本集,建立低维特征空间的投影矩阵; 依据所述投影矩阵以及多个类别的所述训练样本构建样本检测模型;所述样本检测模 型用于检测待测样本的类别参数。2. 根据权利要求1所述的方法,其特征在于,所述从预设的训练样本集中确定多个类别 的训练样本,包括: 获取预设的所述训练样本集,从所述训练样本集中抽取多个特征值; 将抽取的多个所述特征值进行归一化处理,形成多个类别的所述训练样本。3. 根据权利要求1所述的方法,其特征在于,所述基于余弦去中心相似性原理,并根据 多个类别的所述训练样本的同类相似样本集和异类相似样本集,建立低维特征空间的投影 矩阵,包括: 根据同类相似样本集和异类相似样本集,构建类内相似矩阵和类间相似矩阵:其中,sU、,。J为基于余弦去中心相似性原理构建的余弦去中心相似性函数,且是多个类别的所述训练样本的中心,%W表示类 内相似矩阵,表示类间相似矩阵,V i表示训练样本i』表示训练样本j,表示训 练样本j的同类相似样本集,表示训练样本i的同类相似样本集,表示训练样 本j的异类相似样本集,iV; (?表示训练样本i的异类相似样本集; 根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部散度矩阵和类内局部散度 矩阵: Sw=X(Dw-Fw)XT; Sb = X(Db-Fb)XT; 其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达数 据,Fw表示类内相似矩阵,Fb表示类间相似矩阵,0"和0|3表示对角矩阵,对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征分解,按照从大到小的顺 序获取若干个特征值,根据所述若干个特征值对应的特征向量建立所述低维特征空间的所 述投影矩阵,保证类间距离与类内距离的比值最大化; 其中,trace( ·)是指求矩阵的迹。4. 根据权利要求2所述的方法,其特征在于,所述依据所述投影矩阵以及多个类别的所 述训练样本构建样本检测模型,包括: 利用所述投影矩阵将多个类别的所述训练样本投影到所述低维特征空间,形成多个投 影训练样本; 在所述低维特征空间内,利用最近邻分类器和多个所述投影训练样本构建样本检测模 型。5. 根据权利要求4所述的方法,其特征在于,还包括: 将抽取的多个所述特征值的位置记录为特征位置集; 根据所述特征位置集对原始样本进行所述归一化处理,形成所述待测样本; 利用所述投影矩阵将所述待测样本投影到所述低维特征空间,形成投影待测样本; 根据所述样本检测模型,在所述低维特征空间内,利用所述最近邻分类器从多个所述 投影训练样本中确定与所述投影待测样本距离最近的所述投影训练样本,并将确定的所述 投影训练样本对应的所述训练样本的类别赋予所述待测样本,完成对所述待测样本的类别 参数的检测。6. -种样本检测模型的构建系统,其特征在于,包括: 获取模块,用于从预设的训练样本集中确定多个类别的训练样本; 矩阵建立模块,用于基于余弦去中心相似性原理,并根据多个类别的所述训练样本的 同类相似样本集和异类相似样本集,建立低维特征空间的投影矩阵; 模型构建模块,用于依据所述投影矩阵以及多个类别的所述训练样本构建样本检测模 型;所述样本检测模型用于检测待测样本的类别参数。7. 根据权利要求6所述的系统,其特征在于,所述获取模块,包括: 获取单元,用于获取预设的所述训练样本集,从所述训练样本集中抽取多个特征值; 处理单元,用于将抽取的多个所述特征值进行归一化处理,形成多个类别的所述训练 样本。8. 根据权利要求6所述的系统,其特征在于,所述矩阵建立模块,包括: 第一构建单元,用于根据同类相似样本集和异类相似样本集,构建类内相似矩阵和类 间相似矩阵:其中,sU、,。J为基于余弦去中心相似性原理构建的余弦去中心相似性函数,且是多个类别的所述训练样本的中心,表示类 内相似矩阵,#表示类间相似矩阵,V i表示训练样本i』表示训练样本j表示训 练样本j的同类相似样本集,#Α+ 〇〇表示训练样本i的同类相似样本集,$〇')表示训练样 本j的异类相似样本集,表示训练样本i的异类相似样本集; 第二构建单元,用于根据所述类内相似矩阵和所述类间相似矩阵,构建类间局部散度 矩阵和类内局部散度矩阵: Sw=X(Dw-Fw)XT; Sb = X(Db-Fb)XT; 其中,Sw表示类内局部散度矩阵,Sb表示类间局部散度矩阵,X表示样本的基因表达数 据,Fw表示类内相似矩阵,Fb表示类间相似矩阵,0"和0|3表示对角矩阵,特征分解单元,用于对所述类间局部散度矩阵和所述类内局部散度矩阵进行特征分 解,按照从大到小的顺序获取若干个特征值,根据所述若干个特征值对应的特征向量建立 所述低维特征空间的所述投影矩阵,保证类间距离与类内距离 的比值最大化; 其中,trace( ·)是指求矩阵的迹。9. 根据权利要求7所述的系统,其特征在于,所述模型构建模块,包括: 投影单元,用于利用所述投影矩阵将多个类别的所述训练样本投影到所述低维特征空 间,形成多个投影训练样本; 第三构建单元,用于在所述低维特征空间内,利用最近邻分类器和多个所述投影训练 样本构建样本检测模型。10. 根据权利要求9所述的系统,其特征在于,还包括: 检测模块; 所述检测模块用于将抽取的多个所述特征值的位置记录为特征位置集;根据所述特征 位置集对原始样本进行所述归一化处理,形成所述待测样本;利用所述投影矩阵将所述待 测样本投影到所述低维特征空间,形成投影待测样本;根据所述样本检测模型,在所述低维 特征空间内,利用所述最近邻分类器从多个所述投影训练样本中确定与所述投影待测样本 距离最近的所述投影训练样本,并将确定的所述投影训练样本对应的所述训练样本的类别 赋予所述待测样本,完成对所述待测样本的类别参数的检测。
【文档编号】G06K9/62GK105825236SQ201610156405
【公开日】2016年8月3日
【申请日】2016年3月18日
【发明人】张莉, 周伟达, 王邦军, 张召, 李凡长, 杨季文
【申请人】苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1