一种识别显著差异表达基因集合的方法

文档序号:6458651阅读:250来源:国知局
专利名称:一种识别显著差异表达基因集合的方法
技术领域
本发明涉及高通量生物芯片基因表达检测方法,特别涉及基因表达谱芯片 检测中一种识别显著差异表达基因集合的方法。
技术背景高通量生物芯片检测是对生物体各过程、各状态进行各个层次的快速、并 行、大信息量检测的先进技术。可以广泛应用于疾病预警、寻找新的疾病基因、 以及分子生理和分子病理研究等方面。其关键技术之一是显著差异表达基因集 合的识别。目前识别差异表达基因集合的方法是对基因表达值进行t检验后按t 值排序,并与随机重排样本的统计结果进行比较,从而识别显著改变的基因集 合。该方法的问题是对大基因集合识别效果不佳,且识别效果受实验重复性和 检测次数的影响很大,若检测次数少则识别效果差。所以现有识别方法难以适 应检测次数不多的现实状况,大大降低了基因表达值在实际应用中的价值。 发明内容发明目的本发明的主要目的是针对现有技术识别显著表达基因集合的准 确度低、对检测次数要求过高的问题,提供一种基于表达值加权分布的识别显 著差异表达基因集合的方法。技术方案本发明公开了一种识别显著差异表达基因集合的方法,它包括 以下步骤(1) 设置和输入芯片数据;(2) 将基因表达谱芯片所含基因归属至各个基因集合;(3) 判断每一个基因集合中基因的个数是否大于设置中定义的个数,如果 判断结果为否,则抛弃此基因集合;否则,执行下一步;(4) 计算每一个基因集合的表达变化指数,即f'值;(5) 将整张芯片上所有基因作为背景基因,按照步骤4的方法计算背景基 因集合的表达变化指数;对每一个基因集合去除背景,产生真实的基因集合表 达变化指数^值;(6) 检验各基因集合^值的显著性;(7) 根据设定的f值和p值的阈值,判断是否符合阈值要求,如果判断结 果为否,则抛弃;如果判断结果为是,则输出识别结果;其中,步骤(7)中所述p值为置信度。本发明中,步骤(1)中,设置和输入数据包括将荧光信号图像扫描获得的 数据进行预处理(数据转换、缺失数据拟合、归一化等常规处理)后,根据检 测目的所计算的基因表达水平比值,以及判断阈值,包括基因集合的表达变化 指数^值和p值。本发明中,步骤(3)中,设置基因集合中所含基因数,比如,大于IO, 一 般根据本领域中实际应用中常见的情况而定的。本发明中,步骤(4)中计算基因集合的表达变化指数的方法具体包括以下 步骤(11)基因表达值的离散化;(12)计算表达分布的一阶权重得分;(13) 计算基因集合的表达变化指数。其中,优选地,步骤(12)包括以下步骤计 算上调区和下调区的差异表达离散分布和权重分布得分;对于有重复实验的单 样本芯片数据,计算差异表达权重分布后,将所有重复实验中的加权表达值叠 加;对于有重复试验的多样本芯片数据,将样本分级并赋予标签值,组合各种 标签值的加权表达值。其中所述的赋予标签值,,据所识别基因集合的要求, 样本之间正相关取+ 1,样本之间负相关取一l。步骤(13)中用上调区和下调 区得分的比值取对数值)来表示在此集合中的基因表达变化指数。本发明中,步骤(6)检验各基因集合f值的显著性,从背景基因中随机挑 选与选定基因集合数目相同的基因,按步骤(4)和步骤(5)的做法计算真实 的基因集合表达变化指数^值,重复抽样(比如1000次),获得各集合的£值 的显著性。本发明中,所述的权重分布计算使用一阶权重公式为 t/ = J]x.iXjc), D = 2|x|-P0c)。本发明方法中,所述的阈值要求为基因集合的表达变化指数f值的绝对 值大于l。 P值为置信度,即将观察结果认为有效(具有总体代表性)的犯错概 率。P值越低,结果的可信度越高,在本发明中,所述的P值的阈值可以设定为0 0.05,该取值为经验值,通过对多个芯片检测结果与已知基因表达情况的比较得出,实际意义是识别的灵敏度与特异性之间的平衡。本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的检 测设备。有益效果本发明方法对大基因集合识别效果优良,且识别效果受实验重 复性和检测次数的影响很小,保证了在较少检测次数条件下较高的准确率,大大提高了基因表达值在实际应用中的价值。


图1是基因表达谱芯片检测和识别装置的工作流程图。图2是本发明方法的流程图。图3是产生基因集合表达变化指数的流程图。图4是基因集合表达变化指数的散点图的对比图。
具体实施方式
下面结合附图对发明做更进一步的解释。如图1所示,将样本进行荧光标记后,加样于高通量生物芯片基因表达检 测与识别装置中,与基因芯片上的探针杂交,杂交完毕后清洗去杂物,光电部 分检测并记录基因表达强度,将数据预处理,产生基因表达芯片数据。如图2 所示,然后由识别机制对其进行处理,来识别显著表达变化的基因集合。本发明的方法如图2所示。步骤l是初始动作,包括用户设置和输入数据; 步骤2将芯片所含基因归属至各个基因集合;步骤3判断每一个基因集合中基 因的个数是否大于设置中定义的个数,如果判断结果否,则抛弃此基因集合; 否则,执行步骤4。步骤4计算每一个基因集合的表达变化指数值)。该步 骤将在后面的部分结合图3具体介绍。步骤5先计算背景基因集合的f'值,将 整张芯片上所有基因作为背景基因,按步骤4的做法计算所有基因表达值分布 的值。然后对每一个基因集合去除背景,产生真实的基因集合表达变化指数 ^值;步骤6检验各基因集合f值的显著性,从背景基因中随机挑选与选定基因 集合数目相同的基因,按步骤4的做法计算f值,重复抽样(比如1000次), 获得各集合的^值的显著性;步骤7根据设定的E值和p值的阈值,进行判断, 输出识别结果。图3详细说明了图2的步骤4,包括步骤ll基因表达值的离散化;步骤 12计算表达分布的一阶权重得分;步骤13计算基因集合的表达变化指数。其作 用是计算基因集合的表达变化指数。具体而言,对于单实验单样本的芯片数据 {G|e},其中G表示基因,e表示相应基因的表达值,设S是某一个给定的基因 集合,其中包含的基因为q,《,…,G",芯片数据中属于此集合的基因为q,G,,…,(^(w^n)。这些基因的表达值存在一个分布,以合适的区间作为分隔 (比如O.l),可以得到一个离散型的表达值分布,记为尸(x)。其中jo0的部分 为上调基因的分布,x〈0的部分为下调基因的分布。通过本发明专门设计的公 式计算此集合中的上调区"和下调区Z 的权重分布得分其中使用每个区间分布的区间值作为分布的权重,那么差异表达较大的基因 就会在这个基因集合中有较大的权重,而差异表达较小的基因则权重较小。这 样,表达差异明显的基因集合和不明显的基因集合可以很好地区分开来。对于有重复实验的单样本芯片数据,记为{6|61,62,...,^}, ^表示第!'次重复 实验。对于一个指定的基因集合S,在每一次重复实验e,.中,处于此基因集合中的基因在芯片上的表达值都会有一个分布,记为fOO,将所有重复实验中的加 权表达值叠加,上调区和下调区的权重分布得分用本发明专门设计的公式表示其中"是重复实验的次数。同样,在某次重复实验中差异表达较大的基因会 占有较大的权重。对于有重复试验的多样本芯片测试,不同样本属于不同的级别(cJass),用q,c,,...,c;来表示,芯片数据记为{^1^,%,...,^,%,%,...,%,、,、,...,^},、,表示在c乂中的第/次重复实验。对于一个指定的基因集合s,,在每一次重复试验中,处于此基因集合中 的基因在芯片上的表达值都有一个分布,记为《(力,上调区和下调区的权重分布得分用本发明专门设计的公式表示如下C e",。 >0 c e"'c乂 力,y<0其中第一个求和符号是将所有的样本叠加,第二个求和符号是将某个样本中所有的重复实验叠加,第三个是将每个实验中基因表达分布加权后叠加。其中w是级别的总数,此处的上调区和下调区与单样本数据不一样,在多样本数据中 一般需要的是样本之间的比较,本发明给每个样本赋予一个值,将多样 本数据模拟为单样本数据。/"&/。是指第j个样本的标记,如果需要找出在样本1的中被上调而在样本2中被下调的基因集合,则样本1中所有实验的7WW记 为l,样本2中所有实验的7a^7记为-l。相当于将样本2中所有数据的正负颠 倒过来,研究样本1和样本2合并为一张芯片后的被显著上调的基因。本专利中,用上调区和下调区得分的比值的对数来表示在此集合中基因被上 调或者下调的程度,如果对数值大于0,则表示该基因集合被上调,反之亦然。本专利中,也可以用上调区和下调区得分的比值来表示在此集合中基因被上 调或者下调的程度,如果比值大于l,则表示该基因集合被上调,反之亦然。图4是基因集合f值随基因集合中基因个数的散点图。图4a是对一个实际 样本的处理结果,连续的曲线代表显著性等于P^.05的f值,曲线之外的区域 是具有统计显著性的区域。用本方法识别出31个显著差异表达的基因集合。图 4b是随机数据对照(随机生成一套和原芯片数据大小相同的数据,依据正态分 布,均值取每个样本中所有基因表达值的均值,方差取每个样本中所有基因表 达值的方差),其中,几乎所有的散点都有较大的P值。与图4b相比,图4a下 方显示出较多的散点,与随机分布相比有明显下调偏移。该图展示了本发明方 法的有效性,也用于决定相应^值的阈值。本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的设 备,不需要硬件上的任何改动,因而更加显示出本方法在具体实施中的兼容性, 大大降低了方法在实践应用中的成本。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。
权利要求
1、一种识别显著差异表达基因集合的方法,其特征在于,它包括以下步骤(1)设置和输入芯片数据;(2)将基因表达谱芯片所含基因归属至各个基因集合;(3)判断每一个基因集合中基因的个数是否大于设置中定义的个数,如果判断结果为否,则抛弃此基因集合;否则,执行下一步;(4)计算每一个基因集合的表达变化指数,即E’值;(5)将整张芯片上所有基因作为背景基因,按照步骤4的方法计算背景基因集合的表达变化指数;对每一个基因集合去除背景,产生真实的基因集合表达变化指数E值;(6)检验各基因集合E值的显著性;(7)根据设定的E值和p值的阈值,判断是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果;其中,步骤(7)中所述p值为置信度。
2、 根据权利要求1所述的一种识别显著差异表达基因集合的方法,其特征 在于,步骤(4)中计算基因集合的表达变化指数的方法具体包括以下步骤(11) 基因表达值的离散化;(12) 计算表达分布的一阶权重得分;(13) 计算基因集合的表达变化指数。
3、 根据权利要求2所述的一种识别显著差异表达基因集合的方法,其特征 在于,步骤(12)包括以下步骤计算上调区和下调区的差异表达离散分布和权重分布得分; 对于有重复实验的单样本芯片数据,计算差异表达权重分布后,将所有重复实验中的加权表达值叠加;对于有重复实验的多样本芯片数据,将样本分级并赋予标签值,组合各种标签值的加权表达值。
4、 根据权利要求2所述的一种识别显著差异表达基因集合的方法,其特征在于,步骤(13)用上调区和下调区得分比值的对数来表示在此集合中的基因 表达变化指数。
5、 根据权利要求2或3所述的一种识别显著差异表达基因集合的方法,其 特征在于,所述的权重分布得分计算使用一阶权重公式为<formula>formula see original document page 3</formula>其中, 〃为上调区权重分布得分和"为下调区的权重分布得分;尸(;c)为离散 型的表达值分布;其中x〉0的部分为上调基因的分布,KO的部分为下调基因 的分布。
6、 根据权利要求3所述的一种识别显著差异表达基因集合的方法,其特征 在于,其中所述的赋予标签值,根据所识别基因集合的要求,样本之间正相关 取+ 1,样本之间负相关取一l。
7、 根据权利要求1所述的一种识别显著差异表达基因集合的方法,其特征 在于,所述的阈值要求为基因集合的表达变化指数的绝对值大于l; P值不大 于0.05。
全文摘要
本发明公开了一种识别显著差异表达基因集合的方法,它包括以下步骤(1)设置和输入数据;(2)将基因归属至各个基因集合;(3)检查每一个基因集合中基因的个数是否大于设置中定义的个数,如果结果为否,则抛弃此基因集合;(4)计算每一个基因集合的表达变化指数;(5)将整张芯片上所有基因作为背景基因,计算背景基因集合的表达变化指数;(6)从背景基因中随机抽样,检验各基因集合E值的显著性;(7)根据设定的E值和p值的阈值,输出符合阈值要求的基因集合作为识别结果。本发明方法对大基因集合识别效果优良,保证了在较少检测次数的情况下有较高的准确率,大大提高了基因表达值在实际应用中的价值。
文档编号G06F19/00GK101250584SQ20081001986
公开日2008年8月27日 申请日期2008年3月19日 优先权日2008年3月19日
发明者张辰宇, 嵘 杨, 进 王, 顾祖光 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1