一种基因表达数据分类方法及分类系统的制作方法

文档序号:10471369阅读:346来源:国知局
一种基因表达数据分类方法及分类系统的制作方法
【专利摘要】本申请公开了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
【专利说明】
-种基因表达数据分类方法及分类系统
技术领域
[0001] 本申请设及基因分类技术领域,更具体地说,设及一种基因表达数据分类方法及 分类系统。
【背景技术】
[0002] 利用DNA微阵列计数可W同时测定成千上万维基因的表达数据,运些表达数据能 够帮助研究人员研究生物的本质。但是在大量的基因表达数据中,只有很少量的基因表达 数据是研究人员的研究客体,W癌症基因的研究为例,癌症基因的表达数据样本通常少于 一百,而在大量的基因表达数据中对癌症基因与其他基因进行分类就需要耗费大量的计算 资源和计算时间。
[0003] 有研究人员利用支持向量机递归特征消除(Suppo;rt Vector Machine Recursive Fea化re Elimination,SVM-RFE)算法可W自动消除大量的基因表达数据中的冗余基因(即 对基因分类没用贡献的基因),W实现从大量的基因表达数据中找出目标基因的目的。
[0004] 但是SVM-WE算法仍然需要对大量的基因表达数据进行特征选择处理,需要占用 大量的计算资源并且耗费大量的计算时间。

【发明内容】

[0005] 为解决上述技术问题,本发明提供了一种基因表达数据分类方法及分类系统,W 解决对基因表达数据进行分类需要占用大量的计算资源并且耗费大量的计算时间的问题。
[0006] 为解决上述技术问题,本发明实施例提供了如下技术方案:
[0007] -种基因表达数据分类方法,包括:
[000引获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中 包含基因表达数据;
[0009] 采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集 合,每个所述聚类集合具有一个聚类中屯、;
[0010] 利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为 每个所述聚类集合中的一个基因表达数据;
[0011] 对所述第二样本矩阵进行处理获得第二训练集;
[0012] 生成与所述第二训练集对应的特征索引集;
[0013] 对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序 的特征索引集;
[0014] 在所述有顺序的特征索引集中选取前第二预设参数个特征组成第Ξ训练集;
[0015] 对所述第Ξ训练集进行建模,获得模型函数;
[0016] 根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据 进行分类,获得待测基因表达数据的分类结果。
[0017] 优选的,所述第一预设参数的设定方式为:
[0018] 采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值 作为所述第一预设参数,其中N为5、10或20。
[0019] 优选的,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数 个的聚类集合,每个所述聚类集合具有一个聚类中屯、,包括:
[0020] 采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的 聚类集合,每个所述聚类集合具有一个聚类中屯、。
[0021] 优选的,所述代表基因通过公式
C生成;
[0022] 其中,Gk表示第k个聚类集合点表示所述第k个聚类集合的代表基因,mk表示第k个 聚类中屯、,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
[0023] 其中,所述第二样本矩阵为
其中,R表示实数集,N表示所 述第一训练集中的样本总个数。
[0024] 优选的,根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因 表达数据进行分类,获得待测基因表达数据的诊断结果包括:
[0025] 根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征 选择后的样本;
[0026] 根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预 设参数个特征组成第二次特征选择后的样本;
[0027] 将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出 结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
[0028] -种基因表达数据分类系统,包括:
[0029] 特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集, 所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得 第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中屯、;利用所有的所述聚类 集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基 因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应 的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的 有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第Ξ 训练集;
[0030] 训练模块,用于对所述第Ξ训练集进行建模,获得模型函数;
[0031] 诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待 测基因表达数据进行分类,获得待测基因表达数据的分类结果。
[0032] 优选的,所述特征选择模块包括:
[0033] 预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生 成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集.
[0034] 第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将 识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法 对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具 有一个聚类中屯、,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所 有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训 练集,同时生成与所述第二训练集对应的特征索引集;
[0035] 第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索 引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预 设参数个特征组成第Ξ训练集。
[0036] 优选的,所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集 进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K- means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类中屯、和第一预 设参数个聚类集合,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用 所有的聚类集合的代表基因生成第二样本矩阵,并取所述第二样本矩阵的每一列组成 所述第二训练集龄片培,其中,X' iERK。
[0037] 优选的,所述代表基因通过公式
生成,其中,Gk表示 第k个聚类集合,豪表示所述第k个聚类集合的代表基因,mk表示第k个聚类中屯、,K表示所述 第一预设参数;gi表示所述聚类集合中的基因表达数据;
[0038] 其中,所述第二样本矩阵式
其中R表示实数集,N表示生成 所述第一训练集中的样本总个数。
[0039] 优选的,所述诊断模块包括:
[0040] 第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选 择,获得第一次特征选择后的样本;
[0041] 第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的 样本中的前第二预设参数个特征组成第二次特征选择后的样本;
[0042] 诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述 模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
[0043] 从上述技术方案可W看出,本发明实施例提供了一种基因表达数据分类方法及分 类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算 法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集 合进行处理获得第二样本矩阵、第二训练集W及特征索引集W对基因表达数据进行降维, 从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集 进行特征选择的过程中占用的计算资源W及耗费的计算时间;而采用聚类算法对所述基因 特征数据集进行聚类操作所占用的计算资源W及耗费的计算时间都很少,因此采用所述基 因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都 较少。
【附图说明】
[0044] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0045] 图1为本申请的一个实施例提供的一种基因表达数据分类方法的流程示意图;
[0046] 图2为本申请的另一个实施例提供的一种基因表达数据分类方法的流程示意图;
[0047] 图3为本申请的一个实施例提供的一种基因表达数据分类系统的结构示意图;
[0048] 图4为本申请的一个实施例提供的一种特征选择模块的结构示意图;
[0049] 图5为本申请的一个实施例提供的一种诊断模块的结构示意图。
【具体实施方式】
[0050] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0051] 本申请的一个实施例提供了一种基因表达数据分类方法,如图1所示,包括:
[0052] S101:获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练 集中包含基因表达数据。
[0053] 需要说明的是,所述第一训练集中的基因表达数据通过DNA微阵列技术获取。
[0054] 但在本申请的其他实施例中,还可W通过其他技术或者设备获取基因表达数据, 本申请对获取基因表达数据所采用的方法或装置并不做限定,具体视实际情况而定。
[0055] 在本申请的一个具体实施例中,通过DNA微阵列技术获取基因表达数据构成第一 训练集戊。如直,其中,XI是所述第一训练集中的基因表达数据,XiERD,Xi为所述第一训练 集中的基因表达数据,yi是XI的标签,表明XI的类别,7把{-1刊},叫戈表所述第一训练集中 样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行 预处理,生成所述第一样本矩阵X=[X1,…,…,ΧΝ],···,ΧΝ],该矩阵的每一列为所述第一训 练集的一个样本,取所述第一样本矩阵的每一行,即& = (Xj)T,j = l,···,0,形成所述基因特 征数据集{g,足,
[0056] S102:采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚 类集合,每个所述聚类集合具有一个聚类中屯、。
[0057] 其中,每个聚类集合中包含所述基因特征数据集中相似的基因表达数据,每个聚 类集合都具有一个聚类中屯、,每个聚类集合的聚类中屯、由该聚类集合中的所有基因表达数 据计算得来。在本申请的一个实施例中,每个聚类集合的聚类中屯、为该聚类集合中所有基 因表达数据的平均值。但本申请对此并不做限定,每个聚类集合的聚类中屯、还可W通过其 他方式确定,具体视实际情况而定。
[0058] 需要说明的是,采用聚类算法对所述基因特征数据集进行聚类的目的是对基因表 达数据进行降维,W降低基因表达数据之间的冗余度。
[0059] S103:利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基 因为每个所述聚类集合中的一个基因表达数据。
[0060] S104:对所述第二样本矩阵进行处理获得第二训练集。
[0061] 其中在获得所有的所述聚类集合的代表基因后,利用所有的所述聚类集合的代表 基因组成所述第二样本矩阵,取所述第二样本矩阵的每一列组成所述第二训练集。
[0062] S105:生成与所述第二训练集对应的特征索引集。
[0063] S106:对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的 有顺序的特征索引集。
[0064] 需要说明的是,在本申请的一个实施例中,采用SVM-RFE算法对所述第二训练集进 行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集。
[0065] S107:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第Ξ训练 集。
[0066] 其中,所述第二预设参数的值小于所述第一预设参数的值。
[0067] S108:对所述第Ξ训练集进行建模,获得模型函数。
[0068] 在本申请的一个实施例中,采用支持向量机分类器对所述第Ξ训练集进行建模, 获得模型函数。
[0069] S109:根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表 达数据进行分类,获得待测基因表达数据的分类结果。
[0070] 需要说明的是,所述待测基因与所述第一训练集在同一次的基因表达数据的采集 过程中获得。
[0071] 在上述实施例的基础上,在本申请的一个优选实施例中,如图2所示,所述基因表 达数据分类方法包括:
[0072] S201:获取基因表达数据构成的第一训练集,对所述第一训练集进行预处理,生成 所述第一样本矩阵,取所述第一样本矩阵的每一行形成所述基因特征数据集。
[0073] S202:采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应 的值作为所述第一预设参数,其中N为5或10或20;利用K-means聚类算法对所述基因特征数 据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中屯、。
[0074] 在本实施例中,所述第一预设参数的设定方式为:
[0075] 采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值 作为所述第一预设参数,其中N为5、10或20。在本申请的一个优选实施例中,N优选为10。
[0076] S203:利用所有的所述聚类集合的代表基因生成第二样本矩阵,所述代表基因通 过公式
获得,所述第二样本矩阵为[島,。
[0077] 其中R表示实数集,N表示所述第一训练集中的样本总个数,Gk表示第k个聚类集 合,転表示所述第k个聚类集合的代表基因,II I U表示取范数运算,下标表示范数类型为 欧几里得范数;mk表示第k个聚类中屯、,K表示所述第一预设参数;gi表示所述聚类集合中的 基因表达数据。
[0078] S204:取所述第二样本矩阵的每一列组成第二训练集。
[0079] S205:生成与所述第二训练集对应的特征索引集。
[0080] S206:选取N折交叉验证法对所述基因特征数据集进行处理的过程中最高识别率 时特征基因的集合的大小作为所述第二预设参数的值,采用SVM-RFE方法对所述第二训练 集进行特征排序,得到一个与所述排序后的第二训练集对应的有顺序的特征索引集;
[0081] S207:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第Ξ训练 集。
[0082] S208:采用支持向量机分类器对所述第Ξ训练集进行建模,获得模型函数。
[0083] S209:根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一 次特征选择后的样本。
[0084] 其中,所述待测基因与所述第一训练集中的基因表达数据通过同一次DNA微阵列 技术采集获得。
[0085] S210:根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前 第二预设参数个特征组成第二次特征选择后的样本。
[0086] S211:将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数 的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
[0087] 在上述实施例的基础上,在本申请的一个具体实施例中,在乳腺癌数据集上对本 申请实施例提供的基因表达数据分类方法进行了测试,所述乳腺癌数据集包括97名患者样 本,属于两个类别。每个样本都有24481个基因表达数据。所述第一训练集包括78个患者样 本,其中34个是在至少5年内的癌细胞转移的患者(标记为"旧病复发"),其余44个样本是从 患者初步诊断为至少5年后仍健康的患者(标记为"非复发")。相应地,待测基因样本中包括 12个"旧病复发"患者样本和7个"非复发"患者样本。
[0088] 具体测试步骤如下:
[0089] 通过DNA微阵列技术获取所述乳腺癌数据集中的基因表达数据构成第一训练集 掉,,乂松,其中,X功构成所述第一训练集的基因表达数据,XiERD,yi是XI的标签,表明XI的 类别,yle{-l,+ l},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本 的维数,R代表实数集。运里N=97,D = 24481。
[0090] 对所述第一训练集进行预处理,生成所述第一样本矩阵X= [XI,…,XN],该矩阵的 每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(Xj)T,j = 1,…,24481,形成所述基因特征数据i
[0091] 确定聚类中屯、数目为第一预设参数K,此处Κ = 80(通过10折交叉验证法选定),采 用K-means聚类算法对所述基因特征数据集进行聚类,获得80个聚类中屯、mk和80个 聚类集合Gk,k=l,…,K。
[0092] 在每个聚类集合中选取一个基因表达数据作为该聚类集合的代表基因,所述代表 基因的选取公式为:
;其中,II 1|2表示取范数运算,下标 表示范数类型为欧几里得范数,Gk表示第k个聚类集合,弦表示所述第k个聚类集合的代表 基因,mk表示第k个聚类中屯、。生成所述样本矩阵X'=:悟,….忘J £庐1"9%其中N表示训练集 中训练样本的总个数。取所述样本矩阵X'的每一列島作为x^i,组成所述第二训练集 龄乂怕,其中x'lER8。,同时生成与所述第二训练集对应的特征索引集护。{1,…,;M4勘}, F| =80。
[0093] 确定第二预设参数的值d,所述第二预设参数d(d<80)的值为采用10折交叉验证 法对所述基因特征数据集进行处理的过程中,最高识别率时特征基因的集合的大小。采用 SVM-RFE方法对所述第二训练集故>',洽进行特征排序,得到一个有顺序的特征索引集 护icz^[l,~,24481j,If' I =80。在所述有顺序的特征索引集中选取前d个特征组成第S训练 集?χ;',.V,搭1,其中X" i E Rd,在本实施例中,d = 37。
[0094] 采用支持向量机分类器对所述第Ξ训练集{<,.1',}岂进行建模,获得模型函数f (X")。
[0095] 令待测基因表达数据(在本实施例中为癌症基因表达数据)为X,其中xERMAsi。
[0096] 根据所述特征索引集F对所述待测基因 x(xERD)的表达数据进行特征选择,获得 第一次特征选择后的样本χ/ (χ/ ERK);
[0097] 根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本χ/中的前第 二预设参数个特征组成第二次特征选择后的样本X" (X" ERd);
[0098] 将所述第二次特征选择后的样本X"输入所述模型函数f(x")中,获得所述模型函 数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
[0099] 采用相同的上述测试过程对本申请实施例提供的基因表达数据分类方法与5¥1- RFE ( SVM-Re cur S ive Feature Elimination)算法 W 及 MRMR+SVM-RFE (minimal redundancy-maximal relevance+SVM-Recursive Feature Elimination)算法在相同的乳 腺癌数据集上进行对比实验。随机选取78个训练样本10次,表1给出了上述Ξ种方法各自获 得的最好平均分类性能时的对比。
[0100] 表1 SVM-RFE,MRMR+SVM-RFE和本申请提供的基因表达数据分类方法最好分类性 能的对比
[0101]
[0102] 通过表1的对比可W发现,本申请实施例提供的基因表达数据分类方法比其他两 种算法在各项参数上都有较大提升,且大大降低了时间消耗。
[0103] 相应的,本申请实施例还提供了一种基因表达数据分类系统,如图3所示,包括:
[0104] 特征选择模块A10,用于获取第一训练集,利用所述第一训练集生成基因特征数据 集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获 得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中屯、;利用所有的所述聚 类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个 基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对 应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应 的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第 Ξ训练集;
[0105] 训练模块A20,用于对所述第Ξ训练集进行建模,获得模型函数;
[0106] 诊断模块Α30,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对 待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
[0107] 需要说明的是,在本实施例中,所述待测基因表达数据与所述第一训练集采用生 物微阵列技术在同一次采集中获得。
[0108] 所述基因表达数据分类系统在获得所述基因特征数据集之后,采用聚类算法对所 述基因特征数据集进行聚类,获得第一预设参数个聚类集合,每个所述聚类集合具有一个 聚类中屯、,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集W及特征索引集 W对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降 低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源W及耗费的计算时 间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源W及耗费的计 算时间都很少,从而大大降低了对待测基因表达数据进行分类占用的计算资源和耗费的计 算时间。
[0109] 在上述实施例的基础上,在本申请的一个实施例中,如图4所示,所述特征选择模 块Α10包括:
[0110] 预处理单元All,用于获取基因样本的第一训练集,对所述第一训练集进行预处 理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
[0111] 第一特征选择单元A12,用于采用N折交叉验证法对所述基因特征数据集进行处 理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚 类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类 集合具有一个聚类中屯、,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并 利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得 第二训练集,同时生成与所述第二训练集对应的特征索引集;
[0112] 第二特征选择单元A13,用于对所述第二训练集进行特征排序,获得有顺序的特征 索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二 预设参数个特征组成第Ξ训练集。
[0113] 需要说明的是,在本实施例中,所述预处理单元All通过DNA微阵列技术获取基因 表达数据的第一训练集社,,乂悠,其中,X康示所述第一训练集中的基因表达数据,XiERD, yi是XI的标签,表明XI的类别,yiE {-1,+1},N代表所述第一训练集中样本的总个数,D代表 所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述第 一样本矩阵X=[X1,…,XN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样 本矩阵的每一行,即&=(、)了^二1,一,0,形成所述基因特征数据集{8,.;}]"=1,供£护。
[0114] 在本实施例中,采用K-means聚类算法对所述基因特征数据集进行聚类的目的是 对基因表达数据进行降维,W降低基因表达数据之间的冗余度。
[0115] 在上述实施例的基础上,在本申请的另一个实施例中,所述第一特征选择单元A12 用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为 所述第一预设参数K,其中N为5或10或20;
[0116] 采用K-means聚类算法对所述基因特征数据集进行聚类,获得K个聚类中屯、mk和K 个聚类集合Gk,k = 1,…,Κ。
[0117] 在每个聚类集合中选取一个基因作为该聚类集合的代表基因,所述代表基因的生 成公式为:京=||g,. -m;.II;,/? = 1,…,Κ ;其中,Gk表示第k个聚类集合,表示所述第k个 聚类集合的代表基因,mk表示第k个聚类中屯、,K表示所述第一预设参数。生成所述样本矩阵
[島,…,客其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一 列为x'l,组成所述第二训练集{x;,.V,}二,其中X'iERK,同时生成与所述第二训练集对应的特 征索引集 i"c{l,...,Z^,|F|=K。
[0118] 需要说明的是,在本申请的一个优选实施例中,采用10折交叉验证法对所述基因 特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数。但本申请对此并 不做限定,具体视实际情况而定。
[0119] 在上述实施例的基础上,在本申请的又一个实施例中,所述第二预设参数d(d<K) 的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征 基因的集合的大小。在本申请的一个优选实施例中,采用SVM-RFE方法对所述第二训练集合 K,乃说进行特征排序,得到一个有顺序的特征索引集尸[{1,···,巧.,:If' I =κ。在所述有 序的特征索引集中选取前d个特征组成第立训练集賠.V,}二,其中X"iERd。
[0120] 在上述实施例的基础上,在本申请的再一个实施例中,采用支持向量机分类器对 所述第Ξ训练集进行建模,获得模型函数f(x")。但本申请对所述第Ξ训练集进行建模所采 用的具体方法并不做限定,具体视实际情况而定。
[0121] 在上述实施例的基础上,在本申请的一个具体实施例中,如图5所示,所述诊断模 块A30包括:
[0122] 第一选择单元A31,用于根据所述特征索引集F对所述待测基因 x(xERD)的表达数 据进行特征选择,获得第一次特征选择后的样本χ/ (χ/ erk);
[0123] 第二选择单元A32,用于根据所述有顺序的特征索引集F'选择所述第一次特征选 择后的样本χ/中的前第二预设参数个特征组成第二次特征选择后的样本x"(x"ERd);
[0124] 诊断单元A33,用于将所述第二次特征选择后的样本X"输入所述模型函数f(x") 中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类 结果。
[0125] 综上所述,本申请实施例提供了一种基因表达数据分类方法及分类系统,其中,所 述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特 征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得 第二样本矩阵、第二训练集W及特征索引集W对基因表达数据进行降维,从而降低基因表 达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的 过程中占用的计算资源W及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行 聚类操作所占用的计算资源W及耗费的计算时间都很少,因此采用所述基因表达数据分类 方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
[0126] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他 实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0127]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。 对运些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的 一般原理可W在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的运些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。
【主权项】
1. 一种基因表达数据分类方法,其特征在于,包括: 获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含 基因表达数据; 采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每 个所述聚类集合具有一个聚类中心; 利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个 所述聚类集合中的一个基因表达数据; 对所述第二样本矩阵进行处理获得第二训练集; 生成与所述第二训练集对应的特征索引集; 对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特 征索引集; 在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集; 对所述第三训练集进行建模,获得模型函数; 根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行 分类,获得待测基因表达数据的分类结果。2. 根据权利要求1所述的基因表达数据分类方法,其特征在于,所述第一预设参数的设 定方式为: 采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为 所述第一预设参数,其中N为5、10或20。3. 根据权利要求1所述的基因表达数据分类方法,其特征在于,所述采用聚类算法对所 述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一 个聚类中心,包括: 采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类 集合,每个所述聚类集合具有一个聚类中心。4. 根据权利要求1所述的基因表达数据分类方法,其特征在于,所述代表基因通过公式其中,Gk表示第k个聚类集合,&表示所述第k个聚类集合的代表基因,mk表示第k个聚类 中心,K表示所述第一预设参数;gl表示所述聚类集合中的基因表达数据; 其中,所述第二样本矩阵为= ,其中,R表示实数集,N表示所述第 一训练集中的样本总个数。5. 根据权利要求1所述的基因表达数据分类方法,其特征在于,根据所述特征索引集、 有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数 据的诊断结果包括: 根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择 后的样本; 根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参 数个特征组成第二次特征选择后的样本; 将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结 果,根据所述输出结果获得所述待测基因表达数据的分类结果。6. -种基因表达数据分类系统,其特征在于,包括: 特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述 第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一 预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合 的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表 达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特 征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺 序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练 集; 训练模块,用于对所述第三训练集进行建模,获得模型函数; 诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基 因表达数据进行分类,获得待测基因表达数据的分类结果。7. 根据权利要求6所述的基因表达数据分类系统,其特征在于,所述特征选择模块包 括: 预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第 一样本矩阵,并根据所述样本矩阵生成基因特征数据集; 第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别 率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所 述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一 个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的 聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练 集,同时生成与所述第二训练集对应的特征索引集; 第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集, 确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数 个特征组成第三训练集。8. 根据权利要求7所述的基因表达数据分类系统,其特征在于,所述第一特征选择单元 用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为 所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行 聚类,获得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中选取 一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩 阵,并取所述第二样本矩阵的每一列A组成所述第二训练集其中,x'fRK。 r9. 根据权利要求6所述的基因表达数据分类系统,其特征在于,所述代表基因通过公式生成,其中,Gk表示第k个聚类集合,艮表示所述第k个聚类集 合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;81表示所述聚类集合中的 基因表达数据; 其中,所述第二样本矩阵为1' = ^,^;|、#'其中1?表示实数集』表示生成所述 第一训练集中的样本总个数。10.根据权利要求6所述的基因表达数据分类系统,其特征在于,所述诊断模块包括: 第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选择,获 得第一次特征选择后的样本; 第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本 中的前第二预设参数个特征组成第二次特征选择后的样本; 诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型 函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
【文档编号】G06F19/24GK105825081SQ201610246971
【公开日】2016年8月3日
【申请日】2016年4月20日
【发明人】张莉, 黄晓娟, 王邦军, 张召, 李凡长
【申请人】苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1