差异表达基因的检测方法

文档序号:443699阅读:658来源:国知局
专利名称:差异表达基因的检测方法
技术领域
本发明涉及生物领域中基因芯片分析检测技术,具体涉及一种差异表达基因的检 测方法。
背景技术
DNA微阵列(DNA microarray),也叫基因芯片,是最近数年发展起来的一种能快 速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到上百万个不等的 称之为探针的核苷酸序列固定在小的(约Icm2)玻璃或硅片等固体基片或膜上,该固定有 探针的基片就称之为DNA微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则,就可 以检测出样本中与探针阵列中互补的核苷酸片段,从而得到样本中关于基因表达的信息, 这就是基因表达谱,因此基因表达谱可以用一个矩阵或一个向量来表示,矩阵或向量元素 的数值大小即该基因的表达水平。随着大规模基因表达谱(Gene expression profile,或称为基因表达分布图)技 术的发展,各类病人的特异组织基因表达分布图都可以参照各种组织的正常的基因表达。 从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”,即“信息基 因”(informative genes)是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所 在,同时也为抗病药物的研制提供了一种新的途径。通常由于基因数目很大,在判断疾病基 因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致病基因范围。在 删除大量“无关基因”时,需要利用各种检验方法。国内外对于两总体样本实验,当前检验方 法需要样本独立的假设,两样本T检验以及基于T检验改进检验方法如SAM,贝叶斯检验, 都仅仅考虑了数据来自正态分布,它仅仅检验均值是否有差异。而F检验以及其改进检验 都仅仅检验方差是否有差异。如果需要检验分布是否相同,可以用非参数检验如Wilcoxon 检验,但是要检验分布是否相同在当前还没有参数检验方法。对于多总体样本实验,当前方 法是方差分析(ANOVA)或者非参数Kruskal-wallis检验。ANOVA只考虑到多个总体样本的 均值,忽视偏度、峰度而且无法考虑到方差、偏度、峰度是否相同。非参数Kruskal-wallis 检验虽没有分布假设,但是它只利用了秩(排序后序列号大小)的信息,非参数方法是无法 用参数方法或者没有参数方法的时候才考虑。在实际中,系统是非线性和相互联系的系统。在非线性系统,各种参数(如均值、 方差、偏度和峰度)是相互影响,特别是偏度和峰度被作为非线性重要指标[5]并且在一个 非常弱的系统中偏度和峰度也将被保持甚至是扩大。在非线性系统中,即使输入信号为正 态分布,它的输出信号也将不再是正态分布。而基因之间是相互作用的,这种作用可以是正 或负反馈循环,同时基因相互作用是非线性的。因此,偏度和峰度是不能忽视的。当前的检验方法不仅忽视偏度和峰度从而忽略了基因之间的非线性相互作用,而 且不能同时检测均值、方差、偏度和峰度等是否有差异。但在实际中要同时检验均值、方差、 偏度和峰度等更高中心矩的差异性几乎是不可能的,(1)多个中心矩无法进行合并,因为偏 度和峰度之间不独立,(2)即使合并了,其分布也相当复杂,很难写出分布函数从而计算ρ
3值,(3)即使其分布可以找到,在实际中因为样本量比较小得到具有偏的中心矩估计,从而 使最终检验结果无法接受。 本发明克服现有技术的以上缺点,提供一种差异表达基因的检测方法,检测结果 表明本发明检测的假阳性低,有效性高,可以检测到其他方法不能检测得出的差异表达基 因。

发明内容
本发明提供一种差异表达基因的检测方法,其特征在于,包括如下步骤(1)确定样本的数量;所述样本包括病例组样本、对照组样本、或多总体中每个总 体的样本;(2)根据样本的数量,通过数据读取单元,从基因芯片中获取基因表达值;(3)先通过2进制-10进制数据转换单元,再通过以2为底对数的数据转 换单元,将所述基因表达值转换成矩阵Xi,其中,矩阵Xi是第1到第k次方矩阵,
表示第i个样本,X表示数据转换后的值,k表示最高原点矩
X11X12 ·.、Xi =xUX12 · X2xU · Χ\ω
Axfii
的次数,W表示获取样本的个数; (4)通过数据处理单元进行样本检验;A)当所述样本包括病例组样本和对照组样本时,通过双样本检验单元进行SWang
检验,所述Sfeng检验是指= (”+二 If”,不-足)'⑷+ ΑΠ不-不)其中,η是病例组
样本的数量,m是对照组样本的数量,k是最高原点矩的次数,宅是病例组样本的基因表达值 转换后的原点矩向量,足是对照组样本的基因表达值转换后的原点矩向量,D1是病例组样本 的基因表达值转换后的从第1次方到第k次方之间离差阵,D2是对照组样本的基因表达值 转换后的从第1次方到第k次方之间离差阵;B)当所述样本仅包括病例组样本时,通过单样本检验单元进行SWang检验,所述 Sffang检验是指= (“ 'Iz^I D (足-Somy\X,- ),其中,S0是已知分布的原点矩向量;C)当所述样本为多总体样本时,通过多样本检验单元进行SWang检验,所述SWang
检验是指^^g二(k-\-{d-\) + \ -{sd — ^Aog
Σα
YiDi^di(Xl-X)(Xi-X)'
其中,d为多
总体的数量,d,为各个总体中的样本数量,sd为d个总体的样本数量之和,sd =屯+屯+… +dp ;(5)根据分布识别单元进行分析,判断上述样本检验结果的分布,从而确定ρ值;(6)通过比较单元得到检测结果,当所述ρ值小于0.05时,则判断所述样本之间的
基因表达值存在差异。本发明中所述步骤(2)中基因芯片包括实验制得的基因芯片。
本发明中所述步骤(4)中的k值最大为4。本发明中所述步骤(5)中SWang检验符合F分布或皮尔逊分布。本发明中所述步骤(6)的样本之间的基因表达值的差异,可以通过公知基因数据 库或实验来验证。本发明的多总体,是指来自多于两个总体,且每个总体的样本量可以相同也可以 不相同。本发明提供一种差异表达基因的检测方法,是通过检验样本之间的基因分布是否 相同来判断其是否属于差异表达基因。而要检验样本之间的基因分布是否相同,则需要同 时检验其原点矩是否相等。其工作原理在于,当Fx(X)分别是累积分布函数,同时 这两个累计分布函数的所有原点矩都存在且是有限的,要Fx(U)与?^11)对所有的u相等当 且仅当EOT) =E(Yr)对任意1~ = 0,1,2,…都相等,其中,Ε(Γ)是原点矩。本发明通过利用中心矩与原点矩之间相互关系进行变换,从而只需要同时检验多 个原点矩是否有差异就可以来判断中心矩是否有差异,其原因在于,(1)原点矩在样本比较 小时也可以无偏的,(2)他们联合分布可以得到,同时也可以得到证明。本发明还利用矩阵 把多个原点矩结合到一起,这样可以写出分布也可以把相关统计量的分布转化到熟悉的F 分布,从而可以得出其P值。基因相互之间的作用可以有正或负反馈循环的调节,同时基因相互作用是非线性 的。如存在基因Α,B,C三个基因,A对B、C有调节作用,而B对C有调节作用,C对A有调 节作用。实际上,A基因发生变化,而B、C也将发生相应的变化,同时B的变化将使C也相 应变化,而后C也发生变化。这样的变化最后达到一个稳定状态。非线性就是说如果A变 化了 2,而B和C相应变化0. 125和8,这是三次方非线性,但是基因达到20000多个,这种 非线性之间关系非常复杂,要找到他们非线性函数相当困难。而在过去研究证明了偏度和 峰度可以检测非线性是否存在和测量非线性大小。本发明SWang检验检测非线性系统信号 的多个原点矩差异性,是基于非线性相互关联的考虑,其中,峰度和偏度是测量非线性大小 的重要指标。本发明可以判断在非线性系统信号中的数据是否来自某一个特定分布。首先 根据分布计算出原点矩,然后计算出数据原点矩,然后检验二者是否相等来判断数据是否 来自同一特定分布。反之,也可以检验相关数据是否来自于某一个特定分布,从而判断相关 数据的特定原点矩是否相等。本发明通过数据处理单元进行样本检验。本发明利用矩阵广义逆而不是矩阵逆。 本发明SWang检验方法中,(DJD2)-表示广义逆,因为在(DjD2)的行列式不为0时,广义逆 与其逆相同,但是在行列式为0时,以广义逆因为其逆不存在。本发明是基于基因表达数据的分布存在各个原点矩。所述SWang检验与F分布存 在对应关系,即SWang F (k,η+m-k-l),其自由度分别为k和n+m-k-1。因此,本发明通过 分布识别单元,根据F分布,判断SWang检验结果的分布,从而确定ρ值。在双样本情况下,假设第一组有b样本,记为X= {xn,X12,…,xlb},第二组有c样 本Y= {yn,y12,…,yj,所用数据的分布是皮尔逊家族分布,皮尔逊家族分布中包括有均 值、方差、偏度和峰度。
y1 a (X1. — jf.)3bSXi =」η 2 J--"(0,6/6)是 X11, x12, …,Xlb 的 偏 度,
5K1 = ΣXl) - 3 ~ 7V(0,24/6)^ X11,X12, ...,xlb 的峰度。 ,=Σ 戶,'( /1) ~ N{0,6/C)
权利要求
一种差异表达基因的检测方法,其特征在于,包括如下步骤(1)确定样本的数量;所述样本包括病例组样本、对照组样本、或多总体中每个总体的样本;(2)通过数据读取单元,从基因芯片中获取基因表达值;(3)先通过2进制 10进制数据转换单元,再通过以2为底对数的数据转换单元,将所述基因表达值转换成矩阵Xi,其中,矩阵Xi是第1到第k次方矩阵,i表示第i个样本,x表示数据转换后的值,k表示最高原点矩的次数,w表示获取样本的个数;(4)通过数据处理单元进行样本检验;A)当所述样本包括病例组样本和对照组样本时,通过双样本检验单元进行SWang检验,所述SWang检验是指其中,n是病例组样本的数量,m是对照组样本的数量,k是最高原点矩的次数,是病例组样本的基因表达值转换后的原点矩向量,是对照组样本的基因表达值转换后的原点矩向量,D1是病例组样本的基因表达值转换后的从第1次方到第k次方之间离差阵,D2是对照组样本的基因表达值转换后的从第1次方到第k次方之间离差阵;B)当所述样本仅包括病例组样本时,通过单样本检验单元进行SWang检验,所述SWang检验是指其中,S0是已知分布的原点矩向量;C)当所述样本为多总体样本时,通过多样本检验单元进行SWang检验,所述SWang检验是指其中,d为多总体的数量,di为各个总体中的样本数量,sd为d个总体的样本数量之和,sd=d1+d2+…+dp;(5)通过分布识别单元进行分析,判断样本检验结果的分布,从而确定p值;(6)通过比较单元得到检测结果,当所述p值小于0.05时,则判断所述样本之间的基因表达值存在差异。FSA00000286386000011.tif,FSA00000286386000012.tif,FSA00000286386000013.tif,FSA00000286386000014.tif,FSA00000286386000015.tif,FSA00000286386000016.tif
2.如权利要求1所述差异表达基因的检测方法,其特征在于,所述步骤(2)中基因芯片 包括实验制得的基因芯片。
3.如权利要求1所述差异表达基因的检测方法,其特征在于,所述步骤(4)中的k值最 大为4。
4.如权利要求1所述差异表达基因的检测方法,其特征在于,所述步骤(5)中样本检验 结果是符合F分布或卡方分布。
5.如权利要求1所述差异表达基因的检测方法,其特征在于,所述步骤(6)的样本之间 的基因表达值的差异,可以通过公共基因数据库中已经发表的被证实的基因或实验来验证。
全文摘要
本发明提供一种差异表达基因的检测方法,包括如下步骤确定样本的数量;通过数据读取单元,从基因芯片中获取基因表达值;通过数据转换单元进行数据转换;通过数据处理单元,根据样本的不同条件,按双样本检验单元、单样本检验单元、多样本检验单元进行数据处理;通过分布识别单元进行分析,判断样本检验结果的分布,从而确定p值;通过比较单元判断基因表达值是否存在差异,得到检测结果。本发明检测灵敏度高,假阳性低,有效性好。
文档编号C12Q1/68GK101974623SQ20101029398
公开日2011年2月16日 申请日期2010年9月27日 优先权日2010年9月27日
发明者何静, 常畅, 王军伟, 石铁流 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1