一种筛选基因芯片差异表达基因的方法

文档序号:436087阅读:451来源:国知局
专利名称:一种筛选基因芯片差异表达基因的方法
一种篩选基因芯片差异表达基因的方法技术领域本专利涉及一种基因芯片数据分析中差异表达基因筛选的 一种 算法。该算法适用于缺乏重复的小样本的基因芯片实验设计。
背景技术
基因芯片,又称基因微阵列(microarray),是指将许多已知序列 寡核苷酸或cDNA片段有规律地排列在基片上,将待测的样品标记后 与芯片上的核酸序列按碱基互补配对原则进行杂交。通过焚光检测系 统对芯片进行扫描,并配以计算机系统对每一探针上的荧光信号做出 检测和比较,可以迅速得出实验结果。利用基因芯片可以在一次实验 中对上万种基因的表达水平进行快速、准确、高效地检测,并且样本 的需要量可以大大减少。基因芯片技术是目前基因研究方面最先进、 也是最有效的方法之一,在生命科学研究及实践、医学科研及临床、 药物设计、环境保护、农业、军事等各个领域有着广泛的应用。差异表达基因的筛选A&因芯片分析最为关键的一步。对于两样 本的无重复的芯片数据,可以使用倍数法(Gerhold D, Lu M, Xu J, Austin C, Caskey CT, Rushmore T. Monitoring expression of genes involved in drug metabolism and toxicology using DM microarrays. Physiol Genomics 2001; 5:161-170) 或 z-score (Cheadle C, Vawter MP, Freed WJ and Becker KG. Analysis of microarray data using z score transformation. J Mol Diagn 2003: 5, 73-81)的方法;对于两样本的有重复的芯片数据则可以使用 倍数法或t检验(Baldi P, Long AD. A Bayesian framework for the analysis of microarray expression data: regularized t -test and statistical inferences of gene changes. Bioinformatics 2001; 17: 509-519 )等方法。对于多个分组的有重复的芯片数据则 可以使用方差 分析(Pavlidis P. Using A丽A for gene selection from microarray studies of the nervous system. Methods 2003: 31 (4): 282-9 )。对于长的时间序列一般会使用曲线拟合(StoreyJD, Xiao W, Leek JT, Tompkins RG, Davis RW. Significance analysis of time course microarray experiments. Proc Natl Acad Sci USA. 2005, 102 (36): 12837-4 )的方法。但是在实际应用中,由于基因芯片的费用昂贵,研究者往往只能 负担少量样本的芯片设计(样本量<6),并且每个样本的也只是进行 单次或两次技术重复,这种缺乏重复的小样本基因芯片实验i殳计目前 非常很普遍。这类芯片数据目前并没有很好的分析方法,主要是采用 倍数法,而倍数法是一种经验算法,算法本身的敏感性与特异性是很 难估计的,会引起较大的实验误差。为了弥补这一技术空白,本专利 我们提出一种基于统计模型的新算法,来对小样本,无重复的基因芯 片产生的差异基因进行篩选。发明内容本发明提供一种通过建立统计模型来筛选基因的方法。 本发明是这样实现的,主要包括如下流程步骤l,对芯片数据 进行归一化处理;步骤2,建立对数比值x,^戸+ A+f线性模型;步 骤3,计算出全局均值;/,列效应A和方差cT的值;步骤4,利用^、 A和a,计算每个基因的2xlnOWm"o);步骤5,设定域值 , 当步骤4中的2xln(oWra,/o)值大于;r2—, 的基因定为差异表达基因。注ln(.)为以e为底的自然对数。本发明的优点在于通过建立统计模型,设计适当的统计量,最 后使用假设检验的方法赋予每个基因一个显著性的概率数值,作为筛 选基因的标准。该方法克服了常规的倍数法缺乏统计学基础和对算法 本身敏感性与特异性难以估计的弱点。


图l是本发明所述篩选基因芯片差异表达基因的方法的流程图。
具体实施方式
具体方法描述如下首先使用芯片扫描图像处理软件(例如GenePix pro 4.0)获得 基因水平的表达值数据。接着对芯片数据进行芯片间的归一化处理。 然后将芯片结果的信号值转换成相对于对照实验的比值。取比值的对 数(取以e为底为佳)。我们将此对数比值(In ratio)作为分析的 基础。假设我们有"张基因芯片(对应M个样本,典型的,1<"5),每张芯片有w个基因。这样我们获得一个数值矩阵<formula>formula see original document page 5</formula>①其中、为第/(1^/《^)个基因在第7(1"")张芯片中的In ratio 数值。接着我们建立一个线性模型其中z/为全局的均值,为列效应,s为残差。我们假设s W(0,a2)。即假设在不同的芯片中残差s符合均值为0,方差为cr的正态分布。作为方差a,它体现的是所有芯片"芯片内"方差的平均。 A作为列效应,表示的是不同芯片之间差异的参数。//是全局的均值, 由于一般情况下芯片中大部分基因的表达值是不变的,所以/z是接近 于0的。该模型即是将一个基因在一张芯片上的表达值分解为全局效 应,列(芯片)效应和残差。对模型的参数进行估计利用最大似然估计,々的估计值为全局的均值,即细A为列效应,即每列(即每张芯片)的平均值(上式中/i接近于0<formula>formula see original document page 6</formula>④
附 附w a的估计值取"组内"方差:
<formula>formula see original document page 6</formula> 5
建立检验假设:对于每个基因z,<formula>formula see original document page 6</formula>是上述线性模型的 一个实例。 <formula>formula see original document page 6</formula>与上述线性模型完全独立。我们用<formula>formula see original document page 6</formula>表示基因/是该线性模型(即总体分布)的 一个实例的概率,用<formula>formula see original document page 6</formula>表示基因,'不是来自于该线性模型,而是来自于任何一种其它模型(分布)的概率。 习惯上,我们用优势比odd ratio来表示数据对模型的偏离程度,<formula>formula see original document page 6</formula>可见优势比odd ratio的值越大,说明基因/偏离总体分布越明 显,越有可能是我们要寻找的差异基因。对于基因<formula>formula see original document page 6</formula>则可以写作上面的公式中,使用联合概率计算优势比odd ratio的值。从最 终的结果我们可以看出统计量0《符合自由度为"的;r2分布。因此,用2x ln(oW r加'o)来作为基因的差异表达的度量是合理的,其显著性结 果可以使用f检验来给出,即设定一定的阈值(cutoff), cutoff最优值为0.01,若 潔,>/— ,即P〈0. 01,那么则可以认为第冷基因是差异表达基因。通过计算每个基因的0《值,与?分布的阈值;^,"相比较,即可筛选出所有的差异表达基因。一,以无重复4个样本的Affymetrix公司的表达谱基因芯片数 据为例获得基因水平表达数据。将芯片结果的信号值转换成相对于对照 实验的比值。取比值的对数。建立线性才莫型x,, + j=1...4。
A为全局的均值,//,为列效应,s为残差,f ,,o"2)。计算出上述线性模型参数//,A和CT的估计值/i,A和6。这些估计值将用于统计量2xln(o必rato)的计算。对于每一个基因/,利用公式力卜—"'丫,计算每个基因的2 x ln(。W 值。该值反映了基因/表达数据与总体分布的偏离程度, 同时该值符合自由度为"=4的/分布。<formula>formula see original document page 7</formula>设定cutoff-O. 01,查f分布表,得到义2, 4=13. 28。即当统计 量大于13. 28时,p<o.01。筛选2xln(o必raf/。)值大于13. 28 (相当于/ <0.01)的基因,即为差异表达基因。二、以2次重复5个样本的基因芯片数据为例获得基因水平表达数据。将芯片结果的信号值转换成相对于对照 实验的比值。取比值的对数。 建立线性模型计算出上述线性模型参数一,A和CT的估计值。对于每一个基因/,利用公式tP"1 — A丫,计算每个基因的产l 、 °" J<formula>formula see original document page 8</formula>值。设定cutoff=0.01,查f分布表,得到^。。, ,。=23. 21。筛选2xln(o必ra^)值大于23. 21的基因,即为差异表达基因。以上是对本发明的描述而非限定,基于本发明思想的其它实施方 式,均在本发明的保护范围之中。
权利要求
1.一种筛选基因芯片差异表达基因的方法,其特征在于该方法包括有如下步骤步骤1,对芯片数据进行归一化处理;步骤2,建立对数比值xij=μ+μj+ε线性模型;步骤3,计算出全局均值μ,列效应μj和方差σ的值;步骤4,利用μ、μj和σ,计算每个基因的2×ln(odd ratio);步骤5,设定域值χ2cutoff,n,当步骤4中的2×ln(odd ratio)值大于χ2cutoff,n的基因定为差异表达基因。
2. 根据权利要求1所述的一种篩选基因芯片差异表达基因的方 法,其特征在于在步骤l中,进行基因芯片数据的归一化处理时的 样本数,在1 ~ 5例之间。
3. 根据权利要求1所述的一种筛选基因芯片差异表达基因的方 法,其特征在于在步骤3或步骤4中,o必ra加=--。
全文摘要
本发明提供一种筛选基因芯片差异表达基因的方法,涉及一种基因芯片数据分析中差异表达基因筛选的一种算法。本发明实施起来,包括如下步骤步骤1,芯片数据的归一化处理;步骤2,建立对数比值x<sub>ij</sub>=μ+μ<sub>j</sub>+ε线性模型;步骤3,计算出全局均值μ,列效应μ<sub>j</sub>和方差σ的值;步骤4,利用μ、μ<sub>j</sub>和σ,计算每个基因的2×ln(odd ratio);步骤5,设定域值x<sup>2</sup> <sub>cutoff,n</sub>,当步骤4中的2×ln(odd ratio)值大于x<sup>2</sup> <sub>cutoff,n</sub>的基因定为差异表达基因。本发明通过建立统计模型,设计适当的统计量,最后使用假设检验的方法赋予每个基因一个显著性的概率数值,作为筛选基因的标准。该方法克服了常规的倍数法缺乏统计学基础和对算法本身敏感性与特异性难以估计的弱点。
文档编号C12Q1/68GK101215602SQ20071017358
公开日2008年7月9日 申请日期2007年12月28日 优先权日2007年12月28日
发明者刘极龙, 曾华宗 申请人:上海敏芯信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1