基于LLRFC和相关性分析去除冗余的特征选择方法LLRFCscore+与流程

文档序号:13672220阅读:1661来源:国知局
技术领域本发明涉及生物信息学的肿瘤分类研究技术领域,是一种针对肿瘤基因表达谱数据的特征选择方法。

背景技术:
近年来,基因芯片技术的发展使得大规模并行检测成千上万个基因的表达量成为可能,从分子生物学水平上为人类疾病的诊断和防治开辟了全新途径。通过分析不同组织类型(比如正常细胞和肿瘤细胞或者癌症的不同分期阶段)中的基因表达差异,对相应基因表达数据的分类,实现临床对肿瘤疾病的诊断治疗、亚型识别和预后分析。目前肿瘤患者的发病率和死亡率一直呈上升趋势,已经成为人类健康的第一杀手,所以采用基因芯片技术研究癌症分类近年来成为生物信息学领域的一个研究热点。由于微阵列实验成本高,基因样本数量少(一般是几十或者一两百例)。而检测的基因数目高达几千甚至上万,加上基因表达复杂的关系,仅有少量基因携带与疾病类别相关的信息,这些都使表达谱数据的相关的分析面临很大挑战。“小样本,高纬度”容易造成“维数灾难”的问题,不仅使得计算时间复杂度高,而且其他冗余基因的存在也进一步降低学习分类准确率,影响分类的效果。因此,需要对基因表达谱数据进行有效降维,从海量数据中提取对肿瘤识别有重要作用的关键特征基因。目前,基于肿瘤基因表达谱数据的降维方法主要是特征提取和特征选择两方面。相对于特征提取的降维方法,即在一定的约束下将高维数据映射到低维子空间。所提取的特征一般是原始特征的某种线性结合,没有明确的含义,生物解释性差;特征选择方法从原始的大量数据中选择出含有较多分类信息的特征基因,不仅能有效提高分类的精度,而且有重要的生物学意义。通过对这些基因进行相关的生物功能分析,可以探索肿瘤发病机理,帮助人们寻找癌症的致病基因。从基因表达的角度解释肿瘤的成因,因而特征选择的方法在肿瘤分类中应用广泛。通常特征选择方法分为过滤法、封装法和嵌入法三种类型。在封装方法中,特征选择过程与分类过程集于一体,基于特定的分类器选择最佳特征子集,分类精度比较高,但计算复杂度,且依赖于分类器的选择,泛化能力差;嵌入方法依据分类器的某种特性作为特征评价标准,计算复杂度也较高;过滤方法仅依靠训练数据集本身的内在结构,依据判别准则对特征进行排序,选择含有较多分类信息的特征。过滤方法独立于分类器的选择,具有运算速度快、能够较好地处理大内存的数据、分类器泛化能力强等优点而被广泛采用。传统的过滤特征选择算法有:T-test,信噪比、Fisherscore等,但均没有考虑特征间的相互关系,这些方法在线性特征选择中表现很好但对于非线性特征选择表现较差。相关研究者也系统性证明了非线性降维模型相对于线性模型更适合于基因表达谱数据的肿瘤分类。LLE是近年来提出的一种新的非线性降维方法,考虑近邻样本问题,构建局部最优权重矩阵。基于最优权重矩阵得到高维数据的低维嵌入特征并使其与近邻点的距离的误差最小,也就使得在低维空间中仍然能够保持原始空间中近邻样本点之间的拓扑结构。同时也可以获取原始数据一个全局的低维嵌入表示,达到特征提取的目的。LLE能够很好探测到高维数据空间的低维流形结构,但由于未考虑样本类别信息,不能很好的用于肿瘤分类问题。基于此,有研究者提出LLRFC(LocallyLinearRepresentationFisherCriterion),一种有监督的特征提取方法。依据样本类别信息分别构建类内、类间近邻图,在保持原始数据几何结构的基础上使具有相同标签的近邻样本尽可能紧凑、不同标签的近邻样本尽可能分散。这种基于图谱理论的特征提取方法能有效提升分类的准确率,且不需要数据满足高斯分布类型,适用于任意空间分布的训练样本。LLRFC所提取的特征没有明确的生物学意义,解释性不强。并且由于基因表达数据之间的复杂性,LLRFC算法没有考虑特征基因之间的相互关系,所选择的特征基因中仍存在冗余。

技术实现要素:
在图论嵌入框架及其线性化、核化、张量化形式中,许多经典的流形学习方法可以被重构。在此框架下还可以探索新的降维方法(LLRFC也可以归到此框架下)。一些基于图论框架的特征选择方法相继出现,比如说Laplacianscore、LSDF(LocalitySensitiveDiscriminantFeature)score和MFA(MarginalFisherAnalysis)score等,通过探索数据的本征结构图可以发现更多的信息特征。本发明的目的在于针对现有技术的不足,加入样本类别信息,提出一种新的特征选择方法LLRFCscore。它是一种有监督的过滤特征选择方法,利用LLRFCscore的准则计算每一个特征基因对分类的贡献程度。分数值越大,贡献度越高,分类效果越好。根据分数值大小降序排列特征基因,最后选择得分靠前(带有较多类别信息)的特征基因序列。根据信息论,从一组数量为D的特征空间中选择出数量为d(D>>d)的一组特征时,多数情况下,仅对每个单独的特征按照一定的统计或者可分性判据进行排列,取排在前面的d个特征,并没有考虑到各个特征之间复杂的相互关系,因此所取得的特征在多数情况下并不是最优特征集合,在仿真中甚至还有可能取到比较差的效果。当所选择的特征集合中存在两个相关度较高的特征基因时,若其中一个为特征基因,另一个必然也是。这样,在特征子集维数一定的情况下,如果这两个具有相似预测能力的特征基因同时被选中,会带来一些不必要的冗余。不仅减少特征子集的信息携带量也增加了计算量。因此,在肿瘤基因表达谱数据中进行特征选择时,尽量使特征序列中的关键基因间的冗余最小化。本发明中采用动态相关性分析的策略对LLRFCscore选择的特征序列进一步排除冗余,得到最优特征基因子集,提升分类精度。利用芯片技术获取的基因表达谱数据通成用数值矩阵的形式表示,其中行向量表示一个样本中所有基因的表达,列向量表示某一特征基因在所有样本中的表达,矩阵中元素表示基因在相应样本条件下的表达水平。比如:一个由n个样本(每个样本中含有D个特征基因)组成的基因表达矩阵,可以表示如下:X=[X1,X2,...,Xn],其中Xi∈RD.(i=1,2,...,n)表示样本i对应的所有基因表达;肿瘤样本集合还可以表示成另外的形式:X=F=[f1,f2,...,fD]T,fj∈Rn.(j=1,2,...,D)是由特征j在各个样本(患者)中的表达所组成的特征向量。Y=[Y1,Y2,...,Yn]是原始高维数据通过流行学习算法LLE在低维的嵌入,Yi∈Rd.(i=1,2,...,n),d<<D。在监督流形学习方法中,样本的类别标签定义为:ci∈{1,2,...,nc
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1