基于基因表达谱的肿瘤基因识别方法

文档序号:6651744阅读:682来源:国知局
专利名称:基于基因表达谱的肿瘤基因识别方法
技术领域
本发明涉及计算机数据处理和基因技术领域,特别涉及一种基于基因表达谱的肿 瘤基因识别方法。
背景技术
癌症已经成为威胁人类生命的主要疾病之一,癌症的早期发现与诊断是治疗癌症 的关键。在基因表达水平的肿瘤基因分析,是未来诊断癌症的重要手段,而在基因表达水平 的肿瘤基因判断识别,则是进行肿瘤基因分析的前提和基础,它有助于癌症的早期发现和 准确的判断。以生物细胞的DNA基因片段作为基因样本进行基因表达分析时,通常是通过基因 芯片技术获得基因样本的基因表达谱,对其基因表达谱进行分析研究。但是,由于DNA基 因片段中的基因序列特征非常复杂,其相应的基因表达谱特征数(也称作基因表达谱的维 数)都高达几千或上万。相对于人工视觉分析来说,这种基因表达谱高维数据难以进行直 观分析,只能依靠计算机通过聚类或降维处理后进行分析。聚类分析是无人参与的全自动 计算机方法,不能利用直观分析的优势,对结果解析的专业性要求较高,对数据的判读分析 难度较大。而将基因表达谱进行数据降维后,可以将高维数据投影到低维空间以便于计算 机运算,甚至还可以投影到可视化维度空间O维或3维)以便于人工视觉直观分析,对数 据判读的专业性要求相对较低,特别适合在临床癌症诊断等医学领域中应用。因此,降维技 术则成为基于基因表达谱的肿瘤基因判断识别技术的突破方向。目前,应用比较广泛的降维方法有主成分分析(Principal Component Analysis, 简称PCA)和线性判别分析(Linear Discriminant Analysis,简称LDA)。PCA是在全局最 小重构误差的情况下把高维数据投影到低维子空间,而数据点的协方差矩阵最大的几个特 征值所对应的特征量成为子空间。LDA是通过最小化类内散度矩阵和类间散度矩阵的比值 来寻找最有效的判别方向。然而,当用于对基因表达谱进行分类时,PCA方法和LDA方法都 存在着明显的不足,主要表现在第一,由于样本总体散度同时包括了样本的类内散度和类 间散度,使得以最优重建为目的的PCA方法不适合分类问题;第二,LDA虽然可以有效地提 取各类之间的鉴别信息,但在计算过程中需要保证类内散布矩阵可逆,而基因表达谱生数 据的维数很高,其类内散布矩阵往往是奇异的;第三,PCA方法和LDA方法都是在假设样本 服从多元正态分布的前提下得出来的,有研究表明,基因表达谱并不一定服从正态分布,而 很可能位于一个低维的非线性流形上,在这种情形下,PCA方法和LDA方法将很可能失效。

发明内容
针对现有技术存在的上述不足,本发明的目的在于提供一种基于肿瘤基因表达谱 的肿瘤识别方法,该方法能有效发现基因样本的基因表达谱中的本征流形结构,将局部保 持投影的学习方法与核函数-最近邻分类方法相结合,实现肿瘤基因样本的判断识别。为达到上述目的,本发明采用了如下的技术手段
基于基因表达谱的肿瘤基因识别方法,将基因样本的基因表达谱以计算机可识别 的格式输入计算机,利用计算机进行分类,划分出其中的肿瘤基因;该方法具体包括如下步 骤1)根据先验知识获取与待测基因样本种类相同的M个正常基因样本和M个肿瘤 基因样本,该种类基因样本的基因表达谱特征数为N ;将所述M个正常基因样本和M个肿瘤 基因样本的基因表达谱输入计算机,由每个基因样本的基因表达谱生成一个维数为N的向 量,向量的第η维数据值代表基因样本的第η个基因表达谱特征,η e {1,2,... ,N};从而, 由所述M个正常基因样本生成正常基因表达矩阵Z正={ζ' ι;ζ' 2,…,ζ' m,…,ζ' M}, 由所述M个肿瘤基因样本生成肿瘤基因表达矩阵
权利要求
1.基于基因表达谱的肿瘤基因识别方法,其特征在于,将基因样本的基因表达谱以计 算机可识别的格式输入计算机,利用计算机进行分类,划分出其中的肿瘤基因;该方法具体 包括如下步骤1)根据先验知识获取与待测基因样本种类相同的M个正常基因样本和M个肿瘤基因样 本,该种类基因样本的基因表达谱特征数为N ;将所述M个正常基因样本和M个肿瘤基因样 本的基因表达谱输入计算机,由每个基因样本的基因表达谱生成一个维数为N的向量,向 量的第η维数据值代表基因样本的第η个基因表达谱特征,η e {1,2,...,N};从而,由所 述M个正常基因样本生成正常基因表达矩阵Z1= Iz' 1; ζ' 2,…,ζ' m,…,ζ' M},由 所述M个肿瘤基因样本生成肿瘤基因表达矩阵Zw= {ζ" ν ζ" 2,…,ζ" m,…,ζ" Μ}; 其中,ζ' m表示第m个正常基因样本对应的向量,ζ' m表示第m个肿瘤基因样本对应的向 量,m e {1,2, ...,M};2)对基因库表达矩阵Z= Z1 U Zw,利用局部保持投影方法进行学习,获取局部保持投 影矩阵 A= Ia1, a2, -,aG},G<N;3)利用局部保持投影矩阵A,对基因库表达矩阵Z进行维数简约,获得基因库低维特征 矩阵Yz = AtZ ;其中,T为矩阵转置符号;4)将待测的I个待测基因样本的基因表达谱输入计算机,由每个待测基因样本的基因 表达谱生成一个维数为N的向量,向量的第η维数据值代表待测基因样本的第η个基因表 达谱特征,η e {1,2,...,N};从而,由所述I个待测基因样本生成待测基因表达矩阵X = Ix1, x2,-,Xi, -,X1I ;其中,Xi表示由第i个待测基因样本对应的向量,i e {1,2,..., 1};5)利用局部保持投影矩阵A,对待测基因表达矩阵X进行维数简约,获得待测基因低维 特征矩阵= Al;6)计算待测基因低维特征矩阵中每个向量yx,i与基因库低维特征矩阵Yz中各个向 量yz,P的核函数欧氏距离CKki,yz,p)
2.根据权利要求1所述的基于基因表达谱的肿瘤基因识别方法,其特征在于,所述步 骤2)具体为21)对基因库表达矩阵Z中每一个向量zp,zpe Ζ, ρ e {1,2, ...,2M},计算%与基 因库表达矩阵Z中其它向量的欧氏距离,其欧氏距离相近邻的k个向量组成的子集记为 knn(zp);22)按如下公式计算近邻权重矩阵W:
3.根据权利要求1所述的基于基因表达谱的肿瘤基因识别方法,其特征在于,所述步 骤7)具体为71)对待测基因低维特征矩阵\中任一向量yx,i,从基因库低维特征矩阵\中各个向 量yz,p之中取出与向量yx,i的核函数欧氏距离CKki,Υζ,ρ)相近邻的k'(对两分类而言 k'大于或等于3)个,构成子集k' Hn(Yxa);72)在子集k'rmbu)中,若超过k' /2数量的向量对应于正常基因样本,则判定向 量yx,i对应的待测基因样本为正常基因;否则,判定向量yx,i对应的待测基因样本为肿瘤基 因;73)利用步骤71)和步骤72),完成对待测的I个待测基因样本的分类,进而划分出待 测基因样本中的肿瘤基因。
4.根据权利要求1 3中任一项所述的基于基因表达谱的肿瘤基因识别方法,其特征 在于,所述M的取值为20 50。
全文摘要
本发明提供一种基于基因表达谱的肿瘤基因识别方法,通过计算机辅助手段,融合局部保持投影和核函数-最近邻分类方法,采用局部保持投影方法对基因样本的基因表达矩阵进行学习,将其投影到低维嵌入空间,可以揭示隐藏在高维基因表达谱数据中的低维流形结构,然后利用核函数-最近邻分类方法对低维特征矩阵进行分类,使低维特征矩阵中没有显现的特征突现出来,进而划分出基因样本中的肿瘤基因,实现了肿瘤基因的识别。本发明方法具有较高的识别率,对于肿瘤基因的临床诊断具有很好的参考价值,可应用于建立肿瘤基因识别系统。
文档编号G06F19/24GK102073799SQ20111003201
公开日2011年5月25日 申请日期2011年1月28日 优先权日2011年1月28日
发明者于攀, 叶俊勇, 黄鸿 申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1