基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法

文档序号:584867阅读:205来源:国知局
专利名称:基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
技术领域
本发明涉及肿瘤基因表达谱分类技术领域,特别是一种基于邻域粗糙集的加权 KNN肿瘤基因表达谱分类方法。
背景技术
DNA微阵列技术的到来将对生物学和医学产生一场革命,微阵列实验正在生物学 和医学研究中帮助研究人员解决越来越多的问题。随着大规模基因表达谱技术的推广,人 们利用DNA芯片可以在一次实验中同时获得组织样本中成千上万个基因的表达数据。如何 从基因表达谱数据中选取包含样本分类信息的特征基因,建立分类器,实现肿瘤的分型诊 断是当前生物信息学研究的重要领域。当前,对基因表达数据进行分类分析的主要方法有 人工神经网络、遗传算法、支持向量机、贝叶斯和K-近邻法等。粗糙集理论作为一种研究现实中各种获得信息的数学理论,主要是以集合的整 体直接逼近的方式完成对不完整不确定信息前提下的知识推理过程。近年来,随着数据挖 掘领域的兴起,粗糙集理论发展很快,应用更加广泛,已逐步扩大到基因表达谱数据挖掘和 肿瘤分类等研究领域。

发明内容
本发明的目的在于提供一种基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方 法,该方法有利于发现有差异的基因表达,避免同样重要地依赖于所有属性的相似性度量 引起的误导,克服“维数陷阱”问题。为实现上述目的,本发明的技术方案是一种基于邻域粗糙集的加权KNN肿瘤基 因表达谱分类方法,其特征在于包括以下步骤
Stepl 采用Relief算法排序所有基因,然后选择前d个基因构成初始信息基因子集
Gd ;
St印2 采用基于邻域粗糙集模型的前向属性约简算法(FARNeM)对所述初始信息基因 子集Gd中的基因进行约简,进一步得到重要特征基因子集G。,其基数接近最小;
Step3 将所述重要特征基因子集G。作为加权KNN分类方法的输入,对肿瘤样本集进行 分类训练,训练后得到肿瘤分类模型;
Step4 采用测试集评估得到的肿瘤分类模型。本发明的有益效果是将邻域粗糙集模型与加权KNN算法相结合,利用邻域粗糙集 的向前属性约简来选择基因表达谱所有属性中的重要属性,给这些属性赋予更大的权重, 再用加权KNN算法进行分析,从而发现有差异的基因表达,有效地避免同样重要地依赖于 所有属性的相似性度量引起的误导,克服“维数陷阱”问题。实验结果表明了上述方法的可 行性和有效性。下面结合附图及具体实施例对本发明作进一步的详细说明。


图1是本发明方法的实施流程图。
具体实施例方式本发明的基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法,如图1所示,包括 以下步骤
Stepl 采用Relief算法排序所有基因,然后选择前d个基因构成初始信息基因子集
Gd ;
St印2 采用基于邻域粗糙集模型的前向属性约简算法(FARNeM)对所述初始信息基因 子集Gd中的基因进行约简,进一步得到重要特征基因子集G。,其基数接近最小;
Step3 将所述重要特征基因子集G。作为加权KNN分类方法的输入,对肿瘤样本集进行 分类训练,训练后得到肿瘤分类模型;
Step4 采用测试集评估得到的肿瘤分类模型。在上述步骤2中,采用基于邻域粗糙集模型的前向属性约简算法(FARNeM)选取重 要特征基因子集G。,以在基因表达谱分类算法中给重要特征基因子集Go赋予更大的权重。下面对本发明涉及的各种算法加以说明。1、Relief基因选择算法。Relief算法作为一种属性重要性排序的机器学习算法在特征选取方面得到广泛 的应用,其核心思想是以属性区分“相近”样本的能力作为评估属性重要性的标准,并由此 给出属性的分类权重。Relief算法首先对给定的一个样本找到与它距离最近的两个邻居 一个邻居来自与它相同类别的群体,另一个来自相异的类别的群体。然后在训练集中搜索 某一样本近邻的过程是以两个样本之间的距离为标准进行的。基于Relief算法来选择与肿瘤相关的信息基因的算法伪代码描述如下 Relief算法(Strn,F) //F为待分析的属性集合,Strn为训练样本集
Stepl Set weights vector W to zeros
Il向量W中第i个元素对应于F中的第i个属性的分类权重
Step2: For i=l to card (Sm)
//card (Sm)为样本集Strn中的样本数
Choose the i_th instance s in Strn Find its nearest K Hits and nearest K Misses Il K>=1,当K>1时称为Relief-A算法 For j=l to card (F)
W[g] :=W[g]-diff (g,Rij H)/m+diff (g,Rij M)/m End
End
Step3:Return W //返回权重向量
其中diff (g,si, s2)用于计算基因g在样本si和s2中的差异,定义为 diff (g, si, s2) = I value (g, si) -value (g, s2) | / (max (g) -min (g))。2、领域粗糙集。
邻域粗糙集模型是由胡清华在经典粗糙集理论模型的基础上提出,能够直接处理 连续数据而不需要事先对其进行离散化处理的方法。由于在基因约简前不存在信息损失问 题,因此选出的基因子集具有更强的分类能力。定义 1:给定样本集合 [i={w··^,A为属性集,C是描述U的实数型特征集合,D是决策属性集合,如果C生成 论域U上的一簇邻域关系,则称 D^ = {Li,J = CUP)为一个邻域决策系统。D将U划分为N个 等价类而‘…名m鄉式定义决策D关于B的下近似和上近似分别为
其中,I Ss(Xi)Q^xi ε U} . Upper(J,B) = {x^Sgx^nJ Φ e tf} , SgiXi)是由属性 B 和度量-生成的邻域信息粒子。定义2 给定一个邻域决策系统AI=(CM = CUD),设vsEC ,那么决策属性D关于
条件属性B的依赖度定义为
KAS) = Card(Lower(D,B)) i Ckrd(U)( 2 )
显然,0£KAS)il。定义3 给定一个邻域决策系统WD, = {U = CU巧ES
如果K AS - a) <脚),则称a关于B是必要的;否则,如果KAS - = KAB),则a是冗 余的。如果都是必要的,则称B是独立的。如果B满足Ve BMMB-S)<y(DM和 KAS) = KAQ
则称B为c的一个约简。若是此系统的全部约简,则称α =。尽为系统的核。对于肿瘤亚型分类,可形式化表示为M>S = (S, A= CUD,VJ)这样的一个邻域决策表, 其中= 是一个非空肿瘤样本集,称之为一个样本空间。<I = {ghg2,..;gJ是一个非空 基因子集,称之为条件属性。D = W是一个输出特征变量,称之为决策属性,L表示样本所属 类别的标记。&表示属性^ 的值域,f是一个信息函数,可以表示为功巧ν ,
苴中「= U K。
ζ、1 aeOJA基于邻域粗糙集模型的向前属性约简(forward attribute reduction based on neighborhood model,FARNeM)算法的伪代码如下
输入MP= {以=GiUA^V) andneighborhootie is the threshold to control
the size of the neighborhood
输出red; //基因-子集,即',的约简
1 i^eG ;computmg neighborhoodrelation ; 2:md = φ ;
5
算法结束。3、K-近邻(K-Nearest Neighbor, KNN)分类算法。KNN分类算法是一种建立在通过类比学习的算法,它根据测试样本在特征空间中 k个最近邻样本中的多数样本的类别来进行分类,因此具有直观、无需先验统计知识等特 点。然而,传统的KNN算法选择的相似性度量通常是欧几里得距离的倒数,也就是说,两者 距离越小,表示两者相似性越大,反之则相似性越小。由欧式距离的定义可见,这种距离通 常涉及所有属性,且认为这些属性对距离的影响程度是等同的。同等重要地依赖于所有属 性的相似性度量会引起误导。克服此问题的一般性措施就是对每一个属性增加一个特征权 重参数,以便不同的属性在分类中起不同的作用。本发明提出的基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法,利用邻域粗 糙集的向前属性约简来选择所有属性中的重要属性,给这些属性赋予更大的权重。对于基
因表达谱矩阵中的两个样本矢量和f= ,…,O,其中,ρ是基因个
数,々是第i个基因的表达值,那么它们之间的相似度量采用欧氏距离
d(A\.t)= £ βζχ,-xif+ Σ (卜離_Φ2(3)
其中,Z为基于邻域粗糙集模型的向前属性约简算法得到的约简后的基因集合,% eZ
表示第i个基因属性属于约简后的基因集合,β为重要属性的权重/00. 5。以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作 用未超出本发明技术方案的范围时,均属于本发明的保护范围。
权利要求
一种基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法,其特征在于包括以下步骤Step1采用Relief算法排序所有基因,然后选择前d个基因构成初始信息基因子集Gd;Step2采用基于邻域粗糙集模型的前向属性约简算法对所述初始信息基因子集Gd 中的基因进行约简,进一步得到重要特征基因子集Go,其基数接近最小;Step3将所述重要特征基因子集Go作为加权KNN分类方法的输入,对肿瘤样本集进行分类训练,训练后得到肿瘤分类模型;Step4采用测试集评估得到的肿瘤分类模型。
2.根据权利要求1所述的基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法,其特 征在于采用基于邻域粗糙集模型的前向属性约简算法选取重要特征基因子集G。,以在基 因表达谱分类算法中给重要特征基因子集G。赋予更大的权重。
全文摘要
本发明涉及肿瘤基因表达谱分类技术领域,特别是一种基于邻域粗糙集的加权KNN肿瘤基因表达谱分类方法,其特征在于包括以下步骤步骤1采用Relief算法排序所有基因,然后选择前d个基因构成初始信息基因子集Gd;步骤2采用基于邻域粗糙集模型的前向属性约简算法对所述初始信息基因子集Gd中的基因进行约简,进一步得到重要特征基因子集Go,其基数接近最小;步骤3将所述重要特征基因子集Go作为加权KNN分类方法的输入,对肿瘤样本集进行分类训练,训练后得到肿瘤分类模型;步骤4采用测试集评估得到的肿瘤分类模型。该方法有利于发现有差异的基因表达,避免同样重要地依赖于所有属性的相似性度量引起的误导,克服“维数陷阱”问题。
文档编号C12Q1/68GK101923604SQ20101023495
公开日2010年12月22日 申请日期2010年7月23日 优先权日2010年7月23日
发明者孔祥增, 宋考, 陈丽萍, 陈智勤 申请人:福建师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1