基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法

文档序号：584867阅读：205来源：国知局

专利名称：基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
技术领域：
本发明涉及肿瘤基因表达谱分类技术领域，特别是一种基于邻域粗糙集的加权 KNN肿瘤基因表达谱分类方法。
背景技术：
DNA微阵列技术的到来将对生物学和医学产生一场革命，微阵列实验正在生物学和医学研究中帮助研究人员解决越来越多的问题。随着大规模基因表达谱技术的推广，人们利用DNA芯片可以在一次实验中同时获得组织样本中成千上万个基因的表达数据。如何从基因表达谱数据中选取包含样本分类信息的特征基因，建立分类器，实现肿瘤的分型诊断是当前生物信息学研究的重要领域。当前，对基因表达数据进行分类分析的主要方法有人工神经网络、遗传算法、支持向量机、贝叶斯和K-近邻法等。粗糙集理论作为一种研究现实中各种获得信息的数学理论，主要是以集合的整体直接逼近的方式完成对不完整不确定信息前提下的知识推理过程。近年来，随着数据挖掘领域的兴起，粗糙集理论发展很快，应用更加广泛，已逐步扩大到基因表达谱数据挖掘和肿瘤分类等研究领域。

发明内容
本发明的目的在于提供一种基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法，该方法有利于发现有差异的基因表达，避免同样重要地依赖于所有属性的相似性度量引起的误导，克服“维数陷阱”问题。为实现上述目的，本发明的技术方案是一种基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法，其特征在于包括以下步骤
Stepl 采用Relief算法排序所有基因，然后选择前d个基因构成初始信息基因子集
Gd ；
St印2 采用基于邻域粗糙集模型的前向属性约简算法(FARNeM)对所述初始信息基因子集Gd中的基因进行约简，进一步得到重要特征基因子集G。，其基数接近最小；
Step3 将所述重要特征基因子集G。作为加权KNN分类方法的输入，对肿瘤样本集进行分类训练，训练后得到肿瘤分类模型；
Step4 采用测试集评估得到的肿瘤分类模型。本发明的有益效果是将邻域粗糙集模型与加权KNN算法相结合，利用邻域粗糙集的向前属性约简来选择基因表达谱所有属性中的重要属性，给这些属性赋予更大的权重，再用加权KNN算法进行分析，从而发现有差异的基因表达，有效地避免同样重要地依赖于所有属性的相似性度量引起的误导，克服“维数陷阱”问题。实验结果表明了上述方法的可行性和有效性。下面结合附图及具体实施例对本发明作进一步的详细说明。

图1是本发明方法的实施流程图。
具体实施例方式本发明的基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法，如图1所示，包括以下步骤
Stepl 采用Relief算法排序所有基因，然后选择前d个基因构成初始信息基因子集
Gd ；
St印2 采用基于邻域粗糙集模型的前向属性约简算法(FARNeM)对所述初始信息基因子集Gd中的基因进行约简，进一步得到重要特征基因子集G。，其基数接近最小；
Step3 将所述重要特征基因子集G。作为加权KNN分类方法的输入，对肿瘤样本集进行分类训练，训练后得到肿瘤分类模型；
Step4 采用测试集评估得到的肿瘤分类模型。在上述步骤2中，采用基于邻域粗糙集模型的前向属性约简算法(FARNeM)选取重要特征基因子集G。，以在基因表达谱分类算法中给重要特征基因子集Go赋予更大的权重。下面对本发明涉及的各种算法加以说明。1、Relief基因选择算法。Relief算法作为一种属性重要性排序的机器学习算法在特征选取方面得到广泛的应用，其核心思想是以属性区分“相近”样本的能力作为评估属性重要性的标准，并由此给出属性的分类权重。Relief算法首先对给定的一个样本找到与它距离最近的两个邻居一个邻居来自与它相同类别的群体，另一个来自相异的类别的群体。然后在训练集中搜索某一样本近邻的过程是以两个样本之间的距离为标准进行的。基于Relief算法来选择与肿瘤相关的信息基因的算法伪代码描述如下 Relief算法(Strn，F) //F为待分析的属性集合，Strn为训练样本集
Stepl Set weights vector W to zeros
Il向量W中第i个元素对应于F中的第i个属性的分类权重
Step2: For i=l to card (Sm)
//card (Sm)为样本集Strn中的样本数
Choose the i_th instance s in Strn Find its nearest K Hits and nearest K Misses Il K>=1，当K>1时称为Relief-A算法 For j=l to card (F)
W[g] :=W[g]-diff (g，Rij H)/m+diff (g，Rij M)/m End
End
Step3:Return W //返回权重向量
其中diff (g，si, s2)用于计算基因g在样本si和s2中的差异，定义为 diff (g, si, s2) = I value (g, si) -value (g, s2) | / (max (g) -min (g))。2、领域粗糙集。
邻域粗糙集模型是由胡清华在经典粗糙集理论模型的基础上提出，能够直接处理连续数据而不需要事先对其进行离散化处理的方法。由于在基因约简前不存在信息损失问题，因此选出的基因子集具有更强的分类能力。定义 1:给定样本集合 [i={w··^，A为属性集，C是描述U的实数型特征集合，D是决策属性集合，如果C生成论域U上的一簇邻域关系，则称 D^ = {Li,J = CUP)为一个邻域决策系统。D将U划分为N个等价类而‘…名m鄉式定义决策D关于B的下近似和上近似分别为
其中,I Ss(Xi)Q^xi ε U} . Upper(J，B) = {x^Sgx^nJ Φ e tf} , SgiXi)是由属性 B 和度量-生成的邻域信息粒子。定义2 给定一个邻域决策系统AI=(CM = CUD)，设vsEC ,那么决策属性D关于
条件属性B的依赖度定义为
KAS) = Card(Lower(D,B)) i Ckrd(U)( 2 )
显然，0￡KAS)il。定义3 给定一个邻域决策系统WD, = {U = CU巧ES
如果K AS - a) <脚),则称a关于B是必要的；否则，如果KAS - = KAB)，则a是冗余的。如果都是必要的，则称B是独立的。如果B满足Ve BMMB-S)<y(DM和 KAS) = KAQ
则称B为c的一个约简。若是此系统的全部约简，则称α =。尽为系统的核。对于肿瘤亚型分类，可形式化表示为M>S = (S, A= CUD,VJ)这样的一个邻域决策表，其中= 是一个非空肿瘤样本集，称之为一个样本空间。<I = {ghg2,..;gJ是一个非空基因子集，称之为条件属性。D = W是一个输出特征变量，称之为决策属性，L表示样本所属类别的标记。&表示属性^ 的值域,f是一个信息函数，可以表示为功巧ν ,
苴中「= U K。
ζ、1 aeOJA基于邻域粗糙集模型的向前属性约简(forward attribute reduction based on neighborhood model，FARNeM)算法的伪代码如下
输入MP= {以=GiUA^V) andneighborhootie is the threshold to control
the size of the neighborhood
输出red; //基因-子集，即'，的约简
1 i^eG ;computmg neighborhoodrelation ； 2:md = φ ；
5
算法结束。3、K-近邻(K-Nearest Neighbor, KNN)分类算法。KNN分类算法是一种建立在通过类比学习的算法，它根据测试样本在特征空间中 k个最近邻样本中的多数样本的类别来进行分类，因此具有直观、无需先验统计知识等特点。然而，传统的KNN算法选择的相似性度量通常是欧几里得距离的倒数，也就是说，两者距离越小，表示两者相似性越大，反之则相似性越小。由欧式距离的定义可见，这种距离通常涉及所有属性，且认为这些属性对距离的影响程度是等同的。同等重要地依赖于所有属性的相似性度量会引起误导。克服此问题的一般性措施就是对每一个属性增加一个特征权重参数，以便不同的属性在分类中起不同的作用。本发明提出的基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法，利用邻域粗糙集的向前属性约简来选择所有属性中的重要属性，给这些属性赋予更大的权重。对于基
因表达谱矩阵中的两个样本矢量和f= ，…，O，其中，ρ是基因个
数，々是第i个基因的表达值，那么它们之间的相似度量采用欧氏距离
d(A\.t)= ￡ βζχ,-xif+ Σ (卜離_Φ2(3)
其中，Z为基于邻域粗糙集模型的向前属性约简算法得到的约简后的基因集合，％ eZ
表示第i个基因属性属于约简后的基因集合，β为重要属性的权重/00. 5。以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。
权利要求
一种基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法，其特征在于包括以下步骤Step1采用Relief算法排序所有基因，然后选择前d个基因构成初始信息基因子集Gd；Step2采用基于邻域粗糙集模型的前向属性约简算法对所述初始信息基因子集Gd 中的基因进行约简，进一步得到重要特征基因子集Go，其基数接近最小；Step3将所述重要特征基因子集Go作为加权KNN分类方法的输入，对肿瘤样本集进行分类训练，训练后得到肿瘤分类模型；Step4采用测试集评估得到的肿瘤分类模型。
2.根据权利要求1所述的基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法，其特征在于采用基于邻域粗糙集模型的前向属性约简算法选取重要特征基因子集G。，以在基因表达谱分类算法中给重要特征基因子集G。赋予更大的权重。
全文摘要
本发明涉及肿瘤基因表达谱分类技术领域，特别是一种基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法，其特征在于包括以下步骤步骤1采用Relief算法排序所有基因，然后选择前d个基因构成初始信息基因子集Gd；步骤2采用基于邻域粗糙集模型的前向属性约简算法对所述初始信息基因子集Gd中的基因进行约简，进一步得到重要特征基因子集Go，其基数接近最小；步骤3将所述重要特征基因子集Go作为加权KNN分类方法的输入，对肿瘤样本集进行分类训练，训练后得到肿瘤分类模型；步骤4采用测试集评估得到的肿瘤分类模型。该方法有利于发现有差异的基因表达，避免同样重要地依赖于所有属性的相似性度量引起的误导，克服“维数陷阱”问题。
文档编号C12Q1/68GK101923604SQ20101023495
公开日2010年12月22日申请日期2010年7月23日优先权日2010年7月23日
发明者孔祥增, 宋考, 陈丽萍, 陈智勤申请人:福建师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孔祥增;陈智勤;陈丽萍;宋考
技术所有人：福建师范大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.食品功能因子基因工程菌种的构建、智能高通量进化筛选 2.发酵工艺优化
2、马老师：1.酶工程与生物催化 2.酿造技术与风味分析 3.生物质资源综合利用
3、林老师：1.酿造微生物育种及关键酿造工艺开发 2. 真菌基因功能及调控网络解析 3.精细化学品、蛋白真菌细胞底盘开发
4、张老师：1.发酵食品安全：危害物相关基因的筛选，危害物产生菌的快速检测，危害物的预警和发酵过程控制 2.真菌次级代谢与调控 3.酿造酒相关研究
5、郭老师：1.现代酿造技术与食品安全 2. 酵母生物学 3.生物基化学品与合成生物学
如您是高校老师，可以点此联系我们加入专家库。