用减少数量的转录物测量进行的基因表达概况分析的制作方法

文档序号：5938707阅读：280来源：国知局

专利名称：用减少数量的转录物测量进行的基因表达概况分析的制作方法
技术领域：
本发明涉及基因组信息学和基因表达概况分析领域。基因表达概况提供有关细胞或组织相关状态的复杂的分子指纹。生物体状态(即例如正常和患病的细胞和/或组织)之间的基因表达概况的相似性提供分子分类学、分类和诊断。各种外部干扰(即例如，特定基因的消除或强迫表达和/或小分子和/或环境变化)所致的基因表达概况的相似性揭示这些干扰物之间的功能相似性，其在途径和作用机制的阐明中有价值。生物体状态(例如疾病)和所诱导的状态(例如由小分子诱导)之间的基因表达概况的相似性可鉴定临床有效治疗。本文所述的改进允许有效而经济地产生全转录物组基因表达概况，即通过鉴定能预测同一聚类内其它转录物表达水平的聚类形心界标转录物(cluster centroidlandmark transcript)。背景
高密度、全转录物组DNA微阵列是用于无偏倚的基因表达概况分析的选择方法。已发现这些概况可用于疾病的分类和诊断，预测患者对治疗的反应，探索生物机制，用于小分子作用机制的分类和阐述，以及用于鉴定新的治疗药。van de Vijver等，“A geneexpression signature as a predictor of survival in breast cancer (作为乳腺癌存活预测物的一个基因表达标记)”#份取/ J Med 347:1999-2009 (2002) ;Lamb等，“Amechanism of cyclin Dl action encoded in the patterns of gene expression inhuman cancer (在人类癌症的基因表达模式中编码的细胞周期蛋白Dl作用机制)
114:323-334 (2003) ;Glas 等，“Gene expression profiling in follicular lymphomato assess clinical aggressiveness and to guide the choice of treatment (滤泡性淋巴瘤中基因表达概况分析，以评价临床攻击性并指导治疗的选择)” Blood 105:301-307(2005) ；Burczynski 等，“Molecular classification of Crohn’ s disease andulcerative colitis patients using transcriptional profiles in peripheral bloodmononuclear cells (克罗恩病和溃痕性结肠炎患者的分子分类，使用在外周血单核细胞中的转录概况”Diagn 8:51-61 (2006) ;Golub 等，“Molecular classification
of cancer: class discovery and class prediction by gene expression monitoring(癌症的分子分类:通过基因表达监测进行类别发现和类别预测)” Science 286:531(1999) ；Ramaswamy 等，“Multiclass cancer diagnosis using tumor gene expressionsignatures (使用肿瘤基因表达标记的多类癌症诊断)” Proc Natl Acad Sci 98: 15149(2001) ；Lamb 等，“The Connectivity Map: using gene-expression signatures toconnect small molecules, genes and disease (连通图:使用基因表达标记以连通小分子、基因和疾病)”313:1929 (2006)。然而，这些方法的总体成功和广泛使用受到现有转录物组分析技术的高成本和低通量的严重制约。例如，仅当每天可分析成千种化合物且成本远远低于常规微阵列的情况下，使用基因表达概况分析以筛选具有所需生物效应的小分子才是实用的。本领域所需要的是简单灵活的、成本有效的和高通量的全转录物组基因表达概况分析方法，所述方法可允许分析外部干扰所诱导的数以千计的组织标本和细胞状态。这将极大加快其中编码的医学相关的联系的发现速率。已经开发出在大量样品中快速测定少量转录物表达的方法；例如，Peck 等，“A method for high-throughput gene expressionsignature analysis (用于高通量基因表达标记分析的方法)” Genome Biol 7:R61(2006)。如果可鉴定出能可信地预测其它转录物表达水平的转录物，可以相信，使用这些中等多重测定(moderate-multiplex assay)方法，并配合从这些测量中计算非界标(landmark)转录物水平的算法，一组这类“界标”转录物的测量就可提供全转录物组基因表达分析方法。
发明概述
本发明涉及基因组信息学和基因表达概况分析领域。基因表达概况提供有关细胞或组织相关状态的复杂的分子指纹。生物体状态(即例如正常和患病的细胞和/或组织)之间的基因表达概况的相似性提供分子分类学、分类和诊断。各种外部干扰(即例如，特定基因的消除或强迫表达，和/或小分子，和/或环境变化)所致的基因表达概况的相似性揭示这些干扰物之间的功能相似性，其在途径和作用机制的阐明中重要。生物体(例如疾病)和所诱导的(例如由小分子诱导的)状态之间的基因表达概况的相似性可鉴定临床有效治疗。本文所述的改进允许有效而经济地产生全转录物组基因表达概况，即通过鉴定能预测同一聚类内其它转录物表达水平的聚类形心界标转录物。在一个实施方案中，本发明涉及使用亚转录物组数量的转录物测量来制备全转录物组mRNA表达概况分析平台的方法，所述方法包括:a)提供:i)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库；ii)第二生物样品集合；iii)来自所述第二生物样品集合的全转录物组mRNA表达数据的第二文库；iv)能测量转录物表达水平的装置；
b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量实质上小于所有转录物的总数；c)在所述多个转录物聚类的每一个内鉴定形心转录物，由此建立多个形心转录物，所述剩余转录物为非形心转录物；d)用所述装置测量来自所述第二生物样品集合的至少一部分转录物的表达水平，其中所述部分的转录物包括经鉴定为来自所述第一文库的所述形心转录物的转录物；e)确定所述形心转录物表达水平的所述测量用以推断来自所述第二文库的至少一部分转录物水平的能力，其中所述部分由非形心转录物组成；f)选择所述形心转录物，其所述表达水平具有推断所述部分的非形心转录物水平的能力。在一个实施方案中，所述多个形心转录物为大约1000个形心转录物。在一个实施方案中，所述装置选自微阵列、珠阵列、液体阵列或核酸测序仪。在一个实施方案中，所述计算分析包括聚类分析。在一个实施方案中，所述方法还包括重复步骤c)至f)直到所述多个转录物聚类的每一个的经验证的形心转录物被鉴定。在一个实施方案中，所述多个转录物聚类是正交的(orthogonal)。在一个实施方案中，所述多个转录物聚类为非重叠的。在一个实施方案中，所述确定包括所述形心转录物的所述表达水平与所述非形心转录物的所述表达水平之间的相关性。在一个实施方案中，实质上不变的转录物组的表达水平还用所述装置在所述第二生物样品集合中测定。在一个实施方案中，相对于实质上不变的转录物组的表达水平，对用所述装置进行的所述形心转录物的测量，以及来自所述第一和第二文库的所述mRNA表达数据进行标准化。在一个实施方案中，本发明涉及在转录物组内鉴定预测性转录物亚群的方法，所述方法包括:a)提供:i)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库；ii)第二生物样品集合；ii)来自所述第二生物样品集合的全转录物组mRNA表达数据的第二文库；iii)能测量转录物表达水平的装置；b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量小于所述第一文库中所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物，由此建立多个形心转录物，所述剩余转录物为非形心转录物；d)在所述装置上处理来自所述第二生物样品集合的转录物以测量所述形心转录物表达水平，和e)确定在所述装置上测量的所述多个形心转录物中预测全转录物组数据的所述第二文库中的所述非形心转录物水平的转录物。在一个实施方案中，所述多个形心转录物为大约1000个形心转录物。在一个实施方案中，所述装置选自微阵列、珠阵列、液体阵列或核酸测序仪。在一个实施方案中，所述计算分析包括聚类分析。在一个实施方案中，所述确定包括所述形心转录物与所述非形心转录物之间的相关性。在一个实施方案中，所述方法还包括重复步骤c)至e)。在一个实施方案中，本发明涉及在转录物组内鉴定大约1000个预测性转录物的亚群的方法，所述方法包括:a)提供:i)来自第一生物样品集合的代表大于1000个不同转录物的全转录物组mRNA表达数据的第一文库，和ii)来自第二生物样品集合的转录物；
b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量为大约1000并且小于所述第一文库中的所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物，所述剩余转录物为非形心转录物；d)处理来自所述第二生物样品集合的转录物，以便测量非形心转录物表达水平以建立第一测量，和测量形心转录物表达水平以建立第二测量；和e)根据所述第一测量确定哪些形心转录物根据所述第二测量预测所述非形心转录物水平，由此在转录物组内鉴定预测性转录物亚群。在一个实施方案中，所述方法还包括能测量所述形心转录物表达水平的装置。在一个实施方案中，所述装置能测量大约1000所述形心转录物的表达水平。在一个实施方案中，所述计算分析包括聚类分析。在一个实施方案中，所述确定包括所述形心转录物与所述非形心转录物之间的相关性。在一个实施方案中，所述方法还包括重复步骤c)至e)。在一个实施方案中，本发明涉及通过测量第二转录物群的表达水平来预测第一转录物群表达水平的方法，所述方法包括:a)提供:i)包含第二转录物异质群的第一转录物异质群，所述第二群构成所述第一群的亚组，ii)能预测不在所述第二群内的所述第一群内的转录物表达水平的算法，所述预测基于在所述第二群内所测量的转录物表达水平；
b)在建立仅代表所述第二转录物群的多个不同模板的条件下处理所述第一转录物异质群；c)测量所述不同模板的每一个的量以建立多个测量；和d)将所述算法用于所述多个测量，由此预测不在所述第二群内的所述第一群内的转录物表达水平。在一个实施方案中，所述第一转录物异质群包括多个非形心转录物。在一个实施方案中，所述第二转录物异质群包括多个形心转录物。在一个实施方案中，所述方法还包括能测量大约1000所述不同模板的量的装置。在一个实施方案中，所述装置选自微阵列、珠阵列、液体阵列或核酸测序仪。在一个实施方案中，所述算法包括相关性矩阵(dependency matrix)。在一个实施方案中，本发明涉及测定基因表达的方法，所述方法包括:a)提供:i)大约1000个不同条形码序列；ii)大约1000个珠，每珠包含同质核酸探针组，每一组与所述大约1000个条形码序列的不同条形码序列互补；iii)超过1000个不同转录物的群，每个转录物都包含基因特异性序列；iv)能预测未经测量的转录物表达水平的算法；
b)处理所述转录物群以建立大约1000个不同模板，每一模板都包含与不同基因特异性序列有效连接的(operably associated)所述大约1000个条形码序列中的一个,其中所述大约1000个不同模板代表小于所述群内的转录物总数；c)测量所述大约1000个不同模板的每一个的量以建立多个测量；和d)将所述算法用于所述多个测量，由此预测所述群内未经测量的转录物表达水平。在一个实施方案中，所述方法还包括能测定所述大约1000个不同模板的每一个的量的装置。在一个实施方案中，所述珠是光寻址的(opticallyaddressed)。在一个实施方案中,所述处理包括连接介导的扩增。在一个实施方案中，所述测量包括检测所述光寻址珠。在一个实施方案中，所述测量包括通过与所述大约1000个条形码序列互补的所述核酸探针使所述大约1000个不同模板与所述大约1000个珠杂交。在一个实施方案中，所述测量包括流式细胞仪。在一个实施方案中，所述算法包括相关性矩阵。在一个实施方案中，本发明涉及包含扩增的核酸序列的组合物，其中所述序列包括至少一部分聚类形心转录物序列和条形码序列，其中所述组合物还包含光寻址珠，并且其中所述珠包含与所述条形码杂交的捕获探针核酸序列。在一个实施方案中，所述条形码序列与所述捕获探针核酸至少部分互补。在一个实施方案中，所述扩增的核酸序列被生物素化。在一个实施方案中，所述光寻址珠可用流式细胞术系统检测。在一个实施方案中，所述流式细胞术系统辨别大约500 - 1000光寻址珠。在一个实施方案中，本发明涉及建立全基因组表达概况的方法，所述方法包括:a)提供:i)源自生物样品的多个基因组转录物；ii)构成至少一部分所述基因组转录物的多个形心转录物，所述剩余基因组转录物为非形心转录物；b)测量所述多个形心转录物表达水平；c)根据所述形心转录物表达水平来推断所述非形心转录物表达水平，由此建立全基因组表达概况。在一个实施方案中，所述多个形心转录物包括大约1,000个转录物。在一个实施方案中，所述测量包括选自以下的装置:微阵列、珠阵列、液体阵列或核酸测序仪。在一个实施方案中，所述推断包括相关性矩阵。所述全基因组表达概况将所述生物样品鉴定为患病。在一个实施方案中，所述全基因组表达概况将所述生物样品鉴定为健康。在一个实施方案中，所述全基因组表达概况提供干扰物作用的功能性读出。在一个实施方案中，所述全基因组表达概况包括适用于连通图的表达概况。在一个实施方案中，比较所述表达概况与查询标记的相似性。在一个实施方案中，所述全基因组表达概况包括适合连通图的查询标记。在一个实施方案中，比较所述查询标记与已知全基因组表达概况的相似性。
在一个实施方案中，本发明涉及试剂盒，所述试剂盒包括:a)包含源自转录物组的多个形心转录物的第一容器；b)包含适合在生物样品内测量所述多个形心转录物表达水平的缓冲剂和试剂的第二容器；c)用于根据所述多个形心转录物表达水平在所述生物样品内推断非形心转录物表达水平的一组使用说明。在一个实施方案中，所述多个形心转录物为大约1，000个转录物。
在一个实施方案中，本发明涉及制备全转录物组mRNA表达概况的方法，所述方法包括:a)提供:i)数量实质上小于所有转录物总数的经验证的形心转录物的组合物； )能测量所述经验证的形心转录物表达水平的装置；iii)根据通过所述装置测量的所述经验证的形心转录物表达水平和建立自生物样品集合的全转录物组mRNA表达数据文库的转录物聚类信息，能实质上计算不在所述经验证的形心转录物组中的转录物表达水平的算法；和iv)生物样品；b)将所述生物样品用于所述装置，由此测量所述生物样品中的所述经验证的形心转录物表达水平；和c)将所述算法用于所述测量，由此建立全转录物组mRNA表达概况。在一个实施方案中，所述经验证的形心转录物包括大约1，000个转录物。在一个实施方案中，所述装置选自微阵列、珠阵列、液体阵列或核酸测序仪。在一个实施方案中，在所述生物样品中还测量实质上不变的转录物组的表达水平。在一个实施方案中，相对于所述不变的转录物的所述表达水平，对所述经验证的形心转录物表达水平进行标准化。在一个实施方案中，本发明涉及制备全转录物组mRNA表达概况分析平台的方法，所述方法包括:a)提供:i)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库；ii)来自第二生物样品集合的全转录物组mRNA表达数据的第二文库；iii)能测量转录物表达水平的装置；b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量实质上小于所有转录物的总数；c)在所述多个转录物聚类的每一个内鉴定形心转录物，由此建立多个形心转录物；d)鉴定来自所述第一文库的实质上不变的转录物组；e)用所述装置测量来自所述第二生物样品集合的至少一部分转录物表达水平，其中所述部分的转录物包括来自所述第一文库的鉴定为所述形心转录物的转录物和所述不变的转录物；f)确定所述多个形心转录物表达水平的所述测量用以推断来自所述第二文库的至少一部分非形心转录物水平的能力。在一个实施方案中，所述多个形心转录物为大约1000个形心转录物。在一个实施方案中，所述装置包括全基因组微阵列。在一个实施方案中，所述方法还包括重复步骤c至f直到所述多个转录物聚类的每一个的经验证的形心转录物被鉴定。在一个实施方案中，所述多个转录物聚类是正交的。在一个实施方案中，所述多个转录物聚类为非重叠的。在一个实施方案中，本发明涉及在转录物组内预测转录物水平的方法，所述方法包括:a)提供:i)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库；ii)来自第二生物样品集合的全转录物组mRNA表达数据的第二文库；iii)能测量转录物表达水平的装置；b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量小于所述第一文库中所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物，由此建立多个形心转录物，所述剩余转录物为非形心转录物；d)在所述装置上处理所述第二文库转录物以测量所述形心转录物表达水平，和e)确定在所述装置上测量的所述多个形心转录物中预测全转录物组数据的所述第二文库中的所述非形心转录物水平的转录物。在一个实施方案中，所述多个形心转录物为大约1000个形心转录物。在一个实施方案中，所述装置选自微阵列、珠阵列或液体阵列。在一个实施方案中，所述计算分析包括聚类分析。在一个实施方案中，所述鉴定包括重复步骤c)至e)。在一个实施方案中，所述处理使用流式细胞仪。在一个实施方案中，所述测定鉴定所述形心转录物与所述非形心转录物之间的相关性。在一个实施方案中，本发明涉及制备全转录物组mRNA表达概况分析平台的方法，所述方法包括:a)提供:i)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库；ii)第二生物样品集合；iii)来自所述第二生物样品集合的全转录物组mRNA表达数据的第二文库；iv)能测量转录物表达水平的装置；b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量实质上小于所有转录物的总数；c)在所述多个转录物聚类的每一个内鉴定形心转录物，由此建立多个形心转录物；d)用所述装置测量来自所述第二生物样品集合的至少一部分转录物表达水平，其中所述部分的转录物包括经鉴定为来自所述第一文库的所述形心转录物的转录物；e)确定所述形心转录物表达水平的所述测量用以推断来自所述第二文库的至少一部分转录物水平的能力，其中所述部分由非形心转录物组成。在一个实施方案中，所述多个形心转录物为大约1000个形心转录物。在一个实施方案中，所述装置包括微阵列。在一个实施方案中，所述装置包括珠阵列。在一个实施方案中，所述装置包括液体阵列。在一个实施方案中，所述方法还包括重复步骤c至e直到所述多个转录物聚类的每一个的经验证的形心转录物被鉴定。在一个实施方案中，所述多个转录物聚类是正交的。在一个实施方案中，所述多个转录物聚类为非重叠的。在一个实施方案中，所述确定包括所述形心转录物与所述非形心转录物之间的相关性。在一个实施方案中，实质上不变的转录物组的表达水平还用所述装置在所述第二生物样品集合中测量。在一个实施方案中，相对于实质上不变的转录物组的表达水平，对用所述装置进行的所述形心转录物的测量，以及来自所述第一和第二文库的所述mRNA表达数据进行标准化。在一个实施方案中，本发明涉及在转录物组内鉴定大约1000个预测性转录物的亚群的方法，所述方法包括:a)提供:i)来自第一生物样品集合的代表大于1000个不同转录物的全转录物组mRNA表达数据的第一文库，和ii)来自第二生物样品集合的转录物；
b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量为大约1000并且小于所述第一文库中的所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物，所述剩余转录物为非形心转录物；d)处理来自所述第二生物样品集合的转录物，以便测量非形心转录物表达水平以建立第一测量，和测量形心转录物表达水平以建立第二测量；和e)根据所述第一测量确定哪些形心转录物根据所述第二测量预测所述非形心转录物水平，由此在转录物组内鉴定预测性转录物亚群。在一个实施方案中，所述方法还包括能连接所述形心转录物的装置。在一个实施方案中，所述装置连接大约1000所述形心转录物。在一个实施方案中，所述计算分析包括聚类分析。在一个实施方案中，所述鉴定包括重复步骤c)至e)。在一个实施方案中，所述处理利用流式细胞仪。在一个实施方案中，所述确定鉴定所述形心转录物与所述非形心转录物之间的相关性。在一个实施方案中，本发明涉及通过测量第二转录物群表达水平来预测第一转录物群表达水平的方法，所述方法包括:a)提供:i)包含第二转录物异质群的第一转录物异质群，所述第二群构成所述第一群的亚组， )能预测不在所述第二群内的所述第一群内的转录物表达水平的算法，所述预测基于在所述第二群内所测量的转录物表达水平山)在建立仅代表所述第二转录物群的多个不同模板的条件下处理所述第一转录物异质群；c)测量所述不同模板的每一个的量以建立多个测量；和d)将所述算法用于所述多个测量，由此预测不在所述第二群内的所述第一群内的转录物表达水平。在一个实施方案中，所述第一转录物异质群包括多个非形心转录物。在一个实施方案中，所述第二转录物异质群包括多个形心转录物。在一个实施方案中，所述方法还包括能连接大约1000所述形心转录物的装置。在一个实施方案中，所述测量包括流式细胞仪。在一个实施方案中，应用所述算法鉴定所述形心转录物与所述非形心转录物之间的相关性。在一个实施方案中，本发明涉及测定基因表达的方法，所述方法包括:a)提供:i)大约1000个不同条形码序列；ii)大约1000个珠，每珠包含同质核酸探针组，每一组与所述大约1000个条形码序列的不同条形码序列互补；iii)超过1000个不同转录物的群，每个转录物都包含基因特异性序列；iv)能预测未经测量的转录物表达水平的算法；
b)处理所述转录物群以建立大约1000个不同模板，每一模板都包含与不同基因特异性序列有效连接的所述大约1000个条形码序列中的一个，其中所述大约1000个不同模板代表小于所述群内的转录物总数；c)测量所述大约1000个不同模板的每一个的量以建立多个测量；和d)将所述算法用于所述多个测量，由此预测所述群内未经测量的转录物表达水平。在一个实施方案中，所述方法还包括能连接大约1000所述形心转录物的装置。在一个实施方案中，所述处理包括连接介导的扩增。在一个实施方案中，所述珠是光寻址的。在一个实施方案中，所述测量包括检测所述光寻址珠。在一个实施方案中，应用所述算法包括鉴定所述已测量转录物与所述未测量转录物之间的相关性。

在一个实施方案中，本发明涉及包含扩增的核酸序列的组合物，其中所述序列包括至少一部分聚类形心界标转录物序列和条形码序列，其中所述组合物还包含光寻址珠，并且其中所述珠包含与所述条形码杂交的捕获探针核酸序列。在一个实施方案中，所述条形码序列与所述捕获探针核酸至少部分互补。在一个实施方案中，所述光寻址珠是颜色编码的(color coded)。在一个实施方案中，所述扩增的核酸序列被生物素化。在一个实施方案中，所述光寻址珠可用流式细胞术系统检测。在一个实施方案中，所述流式细胞术系统同时辨别大约500 - 1000个光寻址珠。在一个实施方案中，本发明涉及建立全基因组表达概况的方法，所述方法包括:a)提供:i)源自生物样品的多个基因组转录物；和ii)构成至少一部分所述基因组转录物的多个形心转录物，所述剩余基因组转录物为非形心转录物；b)测量所述多个形心转录物的表达；c)根据所述形心转录物表达来推断所述非形心转录物表达水平，由此建立全基因组表达概况。在一个实施方案中，所述多个形心转录物包括大约1,000个转录物。在一个实施方案中，所述全基因组表达概况将所述生物样品鉴定为患病。在一个实施方案中，所述全基因组表达概况将所述生物样品鉴定为健康。在一个实施方案中，所述全基因组表达概况包括适用于连通图的查询标记。在一个实施方案中，比较所述查询标记与已知全基因组表达概况的相似性。在一个实施方案中，本发明涉及在转录物组内鉴定预测性转录物亚群的方法，所述方法包括:a)提供:i)测量转录物表达水平的装置，ii)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库,和iii)来自第二生物样品集合的转录物；b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量小于所述第一文库中所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物，所述剩余转录物为非形心转录物；d)处理来自所述第二生物样品集合的转录物，以便用所述装置测量非形心转录物表达水平以建立第一测量，和测量形心转录物表达水平以建立第二测量；和e)根据所述第一测量确定哪些形心转录物根据所述第二测量预测所述非形心转录物水平，由此在转录物组内鉴定预测性转录物亚群。在一个实施方案中，所述装置包括微阵列。在一个实施方案中，所述计算分析包括聚类分析。在一个实施方案中，所述鉴定包括迭代验证算法。在一个实施方案中，所述处理使用聚类相关性矩阵。在一个实施方案中，所述确定鉴定所述形心转录物与所述非形心转录物之间的相关性矩阵。在一个实施方案中，本发明涉及在转录物组内鉴定大约1000个预测性转录物的亚群的方法，所述方法包括:a)提供:i)测量转录物表达水平的装置，ii)来自第一生物样品集合的代表大于1000个不同转录物的全转录物组mRNA表达数据的第一文库，和iii)来自第二生物样品集合的转录物；b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量为大约1000并且小于所述第一文库中的所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物，所述剩余转录物为非形心转录物；d)处理来自所述第二生物样品集合的转录物，以便用所述装置测量非形心转录物表达水平以建立第一测量，和测量形心转录物表达水平以建立第二测量；和e)根据所述第一测量确定哪些形心转录物根据所述第二测量预测所述非形心转录物水平，由此在转录物组内鉴定预测性转录物亚群。在一个实施方案中，所述装置包括微阵列。在一个实施方案中，所述计算分析包括聚类分析。在一个实施方案中，所述鉴定包括迭代验证算法。在一个实施方案中，所述处理使用聚类相关性矩阵。在一个实施方案中，所述确定鉴定所述形心转录物与所述非形心转录物之间的相关性矩阵。在一个实施方案中，本发明涉及通过测量第二转录物群表达水平来预测第一转录物群表达水平的方法，所述方法包括:a)提供:i)包含第二转录物异质群的第一转录物异质群，所述第二群构成所述第一群亚组，ii)装置，iii)能预测不在所述第二群内的所述第一群内的转录物表达水平的算法，所述预测基于在所述第二群内所测量的转录物表达水平；b)在建立仅代表所述第二转录物群的多个不同模板的条件下处理所述第一转录物异质群；c)用所述装置测量所述不同模板的每一个的量以建立多个测量；和d)将所述算法用于所述多个测量，由此预测不在所述第二群内的所述第一群内的转录物表达水平。在一个实施方案中，所述第一转录物异质群包括多个非形心转录物。在一个实施方案中，所述第二转录物异质群包括多个形心转录物。在一个实施方案中，所述装置包括微阵列。在一个实施方案中，所述处理包括选自降维和聚类分析的计算。在一个实施方案中，应用所述算法鉴定所述形心转录物与所述非形心转录物之间的相关性矩阵。在一个实施方案中，本发明涉及测定基因表达的方法，所述方法包括:a)提供:i)大约1000个不同条形码序列；ii)大约1000个珠，每珠包含同质核酸探针组，每一组与所述大约1000个条形码序列的不同条形码序列互补；iii)超过1000个不同转录物的群，每个转录物都包含基因特异性序列；iv)装置；和V)能预测未经测量的转录物表达水平的算法；b)处理所述转录物群以建立大约1000个不同模板，每一模板都包含与不同基因特异性序列有效连接的所述大约1000个条形码序列中的一个，其中所述大约1000个不同模板代表小于所述群内的转录物总数；C)用所述装置测量所述大约1000个不同模板的每一个的量以建立多个测量；和d)将所述算法用于所述多个测量，由此预测所述群内未经测量的转录物表达水平。在一个实施方案中，所述装置包括微阵列。在一个实施方案中，所述处理包括连接介导的扩增。在一个实施方案中，所述珠是光寻址的。在一个实施方案中，所述测量包括检测所述光寻址珠。在一个实施方案中，应用所述算法鉴定所述已测量转录物与所述未测量转录物之间的相关性矩阵。
在一个实施方案中，本发明涉及制备全转录物组mRNA表达概况分析平台的方法，所述方法包括:a)提供来自第一生物样品集合的全转录物组mRNA表达数据文库；b)对所述文库进行计算分析，使得建立多个(正交/非重叠)转录物聚类，其中所述聚类的数量实质上小于所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物；d)鉴定来自所述全转录物组mRNA表达数据文库的转录物组，其水平在所述第一生物样品集合内实质上不变；e)提供用于测量(同时地)至少一部分所述形心转录物和所述不变的转录物的水平的装置；f)确定用所述装置进行的形心转录物水平测量用以描述其聚类内来自第二生物样品集合的其它转录物水平的能力；和g)重复步骤c至f直到所述多个转录物聚类的每一个的经验证的形心转录物被鉴定。在一个实施方案中，本发明涉及使用全转录物组mRNA表达概况分析平台的方法:a)提供:i)数量实质上小于所有转录物总数·的经验证的形心转录物的组合物；ii)能测量所述经验证的形心转录物水平的装置；iii)根据通过所述装置测量的所述经验证的形心转录物水平和建立自生物样品集合的全转录物组mRNA表达数据文库的转录物聚类信息，能实质上计算不在所述经验证的形心转录物组中的转录物水平的算法；和iv)生物样品山)将所述生物样品用于所述装置，由此测量所述生物样品中的所述经验证的形心转录物水平；和c)将所述算法用于所述测量，由此建立全转录物组mRNA表达概况。定义
本文所用的术语“装置”是指能测量转录物表达水平的任何结构。例如，装置可包括能连接核酸的固体平面基材(即寡核苷酸微阵列)。或者，装置可包括基于溶液的珠阵列，其中核酸与珠子连接并用流式细胞仪检测。或者，装置可包括核酸测序仪。在其它实例中，装置可包括本发明所涉及的多个聚类形心界标转录物。本文所用的术语“捕获探针”是指能与核酸(即例如条形码核酸)连接和/或结合的任何分子。例如，捕获探针可以是与珠子连接的寡核苷酸，其中所述寡核苷酸与另一寡核苷酸至少部分互补。或者，捕获探针可包含聚乙二醇接头、抗体、多克隆抗体、单克隆抗体、Fab片段、生物受体复合物、酶、激素、抗原和/或其片段或部分。本文所用的术语“LMF”是指组合了连接介导的扩增Uigaiiofl-mediatedamplication)、光寻址的和带有条形码的微球体(optically-addressed and barcodedmicrosphere)和流式细胞术检测的任何方法的首字母缩略词。参见Peck等，“A methodfor high-throughput gene expression signature analysis (用于高通量基因表达标记分析的方法)” Genonw Biol 7:R61 (2006)。本文所用的术语“转录物”是指DNA转录的任何产物，通常表征为mRNA。表达的转录物被认为是基因表达的可靠指示物。本文所用的术语“基因表达概况”是指代表基因组(即例如转录物组)内的基因的显著部分的表达水平的任何数据组。本文所用的术语“形心转录物(centroid transcript) ”是指在转录物聚类中心部分内或代表转录物聚类特征的任何转录物。此外，形心转录物的表达水平可预测同一聚类内非形心转录物的表达水平。本文所用的术语“非形心转录物(non-centroid transcript) ”是指在转录物聚类中并非形心转录物的任何转录物。可通过形心转录物的表达水平来预测(例如推断)非形心转录物表达水平。本文所用的术语“聚类形心界标转录物(cluster centroid landmarktranscript)”是指经鉴定为形心转录物的任何转录物，其表达水平预测(例如推断)同一聚类内的非形心转录物表达水平，并且任选可有助于预测其它聚类内的非形心转录物表达水平。本文所用的术语“计算分析”是指导致转录物聚类鉴定的任何数学过程，其中所述转录物源自转录物组。例如，计算分析中的具体步骤可包括但不限于降维和/或聚类分析。本文所用的术语“相关性矩阵(dependency matrix) ”是指经全转录物组基因表达概况文库的数学分析(即例如回归)而产生的、使多个聚类形心界标转录物表达水平与非形心转录物表达水平相关的权重(即因素)表。聚类相关性矩阵可从来自特定组织、器官或疾病类型的基因表达概况异质文库或基因表达概况文库中产生。本文所用的术语“能预测转录物表达水平的算法”是指在给定聚类形心界标转录物表达水平和相关性矩阵后，能计算非形心转录物表达水平的任何数学处理过程。本文所用的术语“不变的转录物(invariant transcript) ”是指无论细胞或组织类型或所存在的干扰剂(即例如干扰物)如何，仍保留接近样品水平的任何转录物。不变的转录物或其组可用作标准化基因表达数据的内部对照。本文所用的术语“中等多重测定平台(moderate-multiplex assay platform) ”是指能够同时产生转录物组中一部分转录物表达水平测量(即例如大于大约10和小于大约
2,000)的任何技术。本文所用的术语“连通图(Connectivity Map) ”是指源自经多种干扰物处理的培养的人细胞的全转录物组基因表达概况，以及对这些概况与外部基因表达数据之间的显著相似性进行评分和鉴定的模式匹配算法的公共数据库，其描述于Lamb等，“TheConnectivity Map: using gene-expression signatures to connect small molecules,genes and disease (连通图:使用基因表达标记以连通小分子、基因和疾病)” Science313:1929 (2006)。连通图的Build02含有用Affymetrix高密度寡核苷酸微阵列产生的7，056全转录物组基因表达概况，代表1，309种小分子干扰物的生物效应，并且可得自broadinstitute.0rg/cmap。本文所用的术语“查询标记(query signature) ”是指源自适合查询连通图的基因表达概况的两种细胞状态(例如经小分子处理的细胞与经溶媒处理的细胞，其中所述小分子是溶解的)之间的任何上调和下调的基因组。例如，“查询标记”可包括在所关注的差别(例如疾病与正常)中差异表达的基因列表；与“表达概况”相反，后者是指具有各自表达水平的所有基因。本文所用的术语“连通性评分(connectivity score) ”是指用于产生查询标记的干扰物的生物效应与连通图上出现的干扰物的生物效应相似性的相对度量，其基于用该干扰物单次处理的基因表达概况。例如，可以预期用伏林司他(一种已知组蛋白脱乙酰酶(HDAC)抑制剂)的每一处理实例与从用一组HDAC抑制剂处理的效果中产生的查询标记具有高连通性评分。本文所用的术语“富集评分(enrichment score) ”是指用于产生查询标记的干扰物的生物效应与连通图上出现的干扰物的生物效应相似性的相对度量，其基于用该干扰物进行的多次独立处理的基因表达概况。本文所用的术语“模板”是指代表至少一部分聚类形心界标基因转录物核酸序列的任何稳定的核酸结构。模板的作用是可允许产生互补核酸序列。本文所用的术语“源自”是指生物样品来源，其中所述样品可包括核酸序列。一方面，样品或序列可源自生物体或特定物种。另一方面，样品或序列可源自(即例如较小的部分和/或片段)较大组合物或序列。本文所用的术语“纯化的”或“分离的”可指已经过处理(即例如分级)以去除多种其它成分的组合物成分。当使用术语“实质上纯化的”时，该表示是指其中核酸序列构成组合物主要成分的组合物，例如构成约50%、约60%、约70%、约80%、约90%、约95%或更高的组合物(即例如重量比和/或重量体积比)。术语“纯化至同质”用于包括经纯化至“表观同质”、使其只有一种核酸物类的组合物(即例如根据SDS-PAGE或HPLC分析)。纯化的组合物不旨在指某些痕量杂质可存在。本文所用的术语“实质上纯化的”是指从其天然环境取出的、经分离或分开的，并且至少60%不含、优选75%不含和更优选90%不含与其天然缔合的其它成分的分子例如核酸序列。“分离的多核苷酸”因此就是实质上纯化的多核苷酸。本文所用的术语“核酸序列”和“核苷酸序列”是指寡核苷酸或多核苷酸及其片段或部分，并且指基因组来源或合成来源的DNA或RNA，其可以是单链或双链，并且代表有义或反义链。本文所用的术语“分离的核酸”是指已从其天然状态中取出的任何核酸分子(例如从细胞中取出，并且，在一个优选的实施方案中，不含其它基因组核酸)。术语“部分或片段”当用于核苷酸序列时是指该核苷酸序列的较小的亚类。例如，所述部分或片段的范围大小可以是从5个核苷酸残基至比完整核苷酸序列少I个核酸残基。本文所用的术语“有机小分子”是指其大小与药学中常用的有机分子差不多的任何分子。该术语不包括生物大分子(例如蛋白、核酸等)。优选的有机小分子的大小范围从大约10 Da至约5000 Da，更优选至2000 Da，和最优选至约1000 Da。本文所用的术语“样品”以其最广泛含义使用并且包括环境样品和生物样品。环境样品包括来自环境例如土壤和水的材料。生物样品可以是动物包括人类，液体(例如血、血浆和血清)、固体(例如粪便)、组织、液体食物(例如奶)和固体食品(例如蔬菜)。例如，肺部样品可通过支气管肺泡灌洗(BAL)而收集，其包含来自肺组织的液体和细胞。生物样品可包括细胞、组织提取物、体液、从细胞中分离的染色体或染色体外成分、基因组DNA(在溶液中或结合在例如用于DNA印迹分析的固体支持物上)、RNA (在溶液中或结合在例如用于RNA印迹分析的固体支持物上)、cDNA (在溶液中或结合在固体支持物上)等。本文所用的术语“功能等同的密码子”是指编码同一氨基酸的不同密码子。该现象通常称为遗传密码的“简并”。例如，6种不同密码子编码氨基酸精氨酸。核苷酸“变体”定义为因有缺失、插入和取代而不同于参考寡核苷酸的新的核苷酸序列。可用各种方法来检测它们(例如测序、杂交测定等)。“缺失”定义为相对于原有序列而言一个或多个核苷酸不存在的核苷酸序列的变化。
“插入”或“添加”是相对于原有序列而言导致一个或多个核苷酸添加的核苷酸序列的变化。“取代”是由一个或多个核苷酸分别被不同核苷酸或氨基酸置换所致，并且可以与原有序列长度相同，但具有不同序列。本文所用的术语“衍生物”是指核酸的任何化学修饰。这类修饰的实例可以是由烷基、酰基或氨基替代氢。例如，核酸衍生物可编码保留基本的生物学特征的多肽。本文所用的术语“互补”或“互补性”是指因碱基配对原则而相关的“多核苷酸”和“寡核苷酸”(它们是可替换式术语，是指核苷酸的序列)。例如序列“C-A-G-T”与序列“G-T-C-A”互补。互补性可以是“部分的”或“绝对的”。“部分的”互补性是指依据碱基配对原则，一个或多个核酸碱基不匹配的情况。核酸间的“绝对的”或“完全”互补性是指在碱基配对原则下所有的和每一个核酸碱基都与另一碱基匹配。核酸链间的互补程度对核酸链间杂交的效率和强度有显著影响。这在依赖于核酸间结合的扩增反应以及检测方法中特别重要。术语“同源性”和“同源的”当在本文中用于核苷酸序列时，是指与其它核苷酸序列的互补程度。可以有部分同源性或完全同源性(即同一性)。与核酸序列部分互补、即“实质上同源”的核苷酸序列是至少部分抑制完全互补序列与靶核酸序列杂交的序列。对完全互补序列与靶序列杂交的抑制，可在低严格性条件下用杂交测定(DNA印迹或RNA印迹、溶液杂交等)来检查。实质上同源的序列或探针在低严格性条件下将会与完全同源序列竞争结合靶序列并抑制完全同源序列与靶序列结合。这并不是说低严格性条件允许非特异性结合；低严格性条件需要两个序列彼此结合是特异性(即选择性)相互作用。非特异性结合的缺乏可通过使用甚至缺乏部分互补程度(例如小于约30%同一性)的第二靶序列来测试；在缺乏非特异性结合时，探针将不与第二非互补靶标杂交。术语“同源性”和“同源的”当在本文中用于氨基酸序列时，是指两个氨基酸序列间一级结构的同一性程度。这样的同一性程度可涉及每个氨基酸序列的一部分，或涉及全长氨基酸序列。“实质上同源”的两个或更多个氨基酸序列可具有至少50%同一性，优选地至少75%同一性，更优选至少85%同一性，最优选地至少95%或100%同一性。是“同源物”的寡核苷酸序列在本文中定义为与序列具有大于等于50%同一性的寡核苷酸序列，当比较长度为100 bp或更大的序列时。低严格性条件包括相当于以下的条件:在42°C在由以下成分组成的溶液中结合或杂交:5 X SSPE (43.8 g/1 NaCl, 6.9 g/1 NaH2P04.H20 和 1.85 g/1 EDTA,用 NaOH将 pH 调节至 7.4)，0.1% SDS, 5x Denhardt's 试剂{50x Denhardt's 每 500 ml 中含有:5 g Ficoll (Type 400, Pharmacia), 5 g BSA (Fraction V ;Sigma)}和 100 Ug/ml 变性鲑鱼精子DNA，然后在42°C在包含5x SSPE, 0.1% SDS的溶液中洗涤，当使用长度约500个核苷酸的探针时。也可使用多种等同条件以构成低严格性条件；以下因素可以不同，以产生不同于、但相当于以上列出的条件的低严格性杂交条件:例如探针长度和特性(DNA、RNA、碱基组成)以及靶标的特性(DNA、RNA、碱基组成，存在于溶液中或固定化等)以及盐和其它成分(例如甲酰胺、硫酸葡聚糖、聚乙二醇存在或不存在)的浓度，以及杂交溶液的成分。另外，也可使用在高严格性条件(例如增加杂交和/或洗涤步骤的温度，在杂交溶液中使用甲酰胺等)下促进杂交的条件。本文所用的术语“杂交”是指使用使核酸链与互补链通过碱基配对而结合形成杂交复合物的任何方法而使互补核酸配对。杂交和杂交强度(即核酸间缔合强度)受到例如以下因素的影响:核酸间互补程度、所用条件的严格性、所形成杂合体的Tm以及核酸内的G:C 比。本文所用的术语“杂交复合物”是指因互补G和C碱基间以及互补A和T碱基间的氢键形成而在两条核酸序列间形成的复合物；这些氢键还可因碱基堆积相互作用而进一步稳定。这两个互补核酸序列的氢键呈反向平行构型。可在溶液中形成杂交复合物(例如CO t或RO t分析)，或者可在溶液中存在的一种核酸序列与固定在固体支持物(例如在DNA印迹和RNA印迹、斑点印迹中使用的尼龙膜或硝基纤维素滤膜，或者在原位杂交包括FISH (荧光原位杂交)中使用的玻片)上的另一核酸序列之间形成杂交复合物。本文所用的术语“Tm”是指“解链温度”。解链温度是双链核酸分子群一半解离为单链时的温度。正如标准参考文献所示，可用以下公式计算Tm值的简单估计值:Tm = 81.5+ 0.41 (% G+C),当核酸在 IM NaCl 的水溶液中时。Anderson 等，“Quantitative FilterHybridization” 载于:Nucleic Acid Hybridization (1985)。更精确的计算将结构、以及序列特征都考虑到Tm的计算之中。本文所用的术语“严格性”是指进行核酸杂交时的温度、离子强度和其它化合物例如有机溶剂的存在情况的条件。“严格性”通常发生范围在约Tm到低于Tm的约20°C -25°C。“严格性杂交”可用于鉴定或检测相同的多核苷酸序列或者用于鉴定或检测类似或相关的多核苷酸序列。例如，当SEQ ID NO:2的片段用于在严格性条件下的杂交反应时，促进含有独特序列(即与SEQ ID N0:2非同源的或者有小于约50%同源性或者互补性的区域)的SEQ ID N0:2的片段杂交。或者，当使用“弱”或“低”严格性条件时，可在源自具有遗传多样性的生物(即例如，互补序列的频率在这样的生物体间通常低)的核酸间发生杂交。本文所用的术语“可扩增的核酸”是指可通过任何扩增方法扩增的核酸。预期“可扩增的核酸”通常包括“样品模板”。本文所用的术语“ 样品模板”是指源自用于分析目标靶序列的存在的样品的核酸。相比之下，“背景模板”用于指并非样品模板的核酸，其可在样品中存在或不存在。背景模板通常并非故意而为。它可能是遗留(carryover)的结果，或者它可能因为试图从样品中纯化掉的核酸污染物的存在。例如，来自生物体的而非待测量的核酸可作为背景存在于试验样品中。“扩增”定义为产生核酸序列的额外拷贝并且通常用聚合酶链式反应来进行。Dieffenbach C.W.和G.S.Dveksler (1995)载于:PCR Primer, a Laboratory Manual,Cold Spring Harbor Press, Plainview, N.Y0本文所用的术语“聚合酶链式反应”(叩0 〃)是指1(.B.Mullis美国专利号4，683，195和4，683，202的方法，所述文献通过引用结合，其描述了在基因组DNA混合物中增加靶序列区段浓度的方法，而无需克隆或纯化。所需靶序列的扩增区段的长度是通过两个寡核苷酸引物彼此的相对位置来确定，因此，该长度是可控参数。由于该方法的重复方面，所以所述方法称为“聚合酶链式反应”(在下文“PCR”)。因为靶序列的所需扩增区段在混合物中变为主要序列(以浓度计)，所以它们被称为“经PCR扩增”。有了 PCR，就可以扩增基因组DNA中的特定靶序列的单一拷贝，使其水平达到可通过若干不同方法检测的水平，所述方法例如与标记探针杂交；掺入生物素化引物，再经抗生物素蛋白-酶缀合物检测；将32P-标记的脱氧核苷三磷酸例如dCTP或dATP掺入到扩增区段中。除了基因组DNA之外，可用合适的引物分子组来扩增任何寡核苷酸序列。具体地讲，经PCR方法本身所产生的扩增区段自身就是有效的模板，用于随后的PCR扩增。本文所用的术语“引物”是指当置于以下条件下能作为合成起始点的寡核苷酸，无论是纯化的限制性消化物中天然存在的还是经合成而产生的:其中诱导与核酸链互补的引物延伸产物的合成(即在核苷酸和诱导剂例如DNA聚合酶存在下并在合适的温度和pH下)。引物优选是单链，用于最大效率的扩增，但备选地也可是双链。如果是双链，引物首先经过处理以分开其双链，然后再用于制备延伸产物。优选地，引物是寡脱氧核糖核苷酸。引物必须足够长，以在诱导剂存在下引发延伸产物的合成。引物的准确长度将取决于多个因素，包括温度、引物来源和所用方法。本文所用的术语“探针”是指能与另一目标寡核苷酸杂交的寡核苷酸(即核苷酸序列)，无论是纯化的限制性消化物中天然存在的还是经合成、重组或经PCR扩增而产生的。探针可以是单链或双链。探针可用于检测、鉴定和分离特定基因序列。预期的是，本发明所用的任何探针都将用任何“报道分子”标记，使得在任何检测系统中都可检测，所述检测系统包括但不限于酶(例如ELISA、以及基于酶的组织化学测定)、荧光、放射性和发光系统。本发明并不旨在限于任何具体的检测系统或标记。本文所用的术语“限制性核酸内切酶”和“限制酶”是指细菌酶，每种这样的酶在特定核苷酸序列上或附近切割双链DNA。DNA分子被认为具有“5’端”和“3’端”，因为单核苷酸经反应而构成寡核苷酸，其方式使得一个单核苷酸戊糖环的5’磷酸与其邻居的3’氧通过磷酸二酯键以一个方向连接。因此，当一个寡核苷酸的5’磷酸不与单核苷酸戊糖环的3’氧连接时，该寡核苷酸末端就称为“5’端”。当一个寡核苷酸的3’氧不与另一单核苷酸戊糖环的5’磷酸连接时，该寡核苷酸末端就称为“3’端”。本文所用的核酸序列，甚至是在较大寡核苷酸内部时，也可认为具有5’端和3’端。在线状或环状DNA分子中，离散的元件可称为“上游”或5’或者“下游”或3’元件。该术语反映出这一事实:转录是以5’至3’方式沿着DNA链进行。指导所连接基因的转录的启动子元件和增强子元件通常位于编码区的5’或上游。然而，增强子元件可发挥其效应，甚至当位于启动子元件和编码区的3’时。转录终止信号和聚腺苷酸化信号位于编码区的3’或下游。本文所用的术语“具有编码基因的核苷酸序列的寡核苷酸”是指包含基因编码区的核酸序列，即编码基因产物的核酸序列。编码区可呈cDNA、基因组DNA或RNA形式。当呈DNA形式时，寡核苷酸可以是单链(即有义链)或双链。合适的控制元件例如增强子/启动子、剪接点、聚腺苷酸化信号等，可位于基因编码区的附近，如果需要的话，以允许合适的转录起始和/或正确加工初级RNA转录物。或者，本发明表达载体中所用的编码区可含有内源增强子/启动子、剪接点、间插序列、聚腺苷酸化信号等或者内源和外源控制元件的组合 ο本文所用的术语“聚A位点”或“聚A序列”是指指导初生RNA转录物终止和聚腺苷酸化的DNA序列。重组转录物的有效聚腺苷酸化是需要的，因为缺乏聚A尾的转录物不稳定并被快速降解。用于表达载体的聚A信号可以是“异源的”或“内源的”。内源的聚A信号是在基因组中指定基因的编码区3’端天然存在的信号。异源的聚A信号是从一个基因中分离出的并位于另一基因3’的信号。真核细胞中重组DNA序列的有效表达涉及指导所得转录物的有效终止和聚腺苷酸化的信号的表达。转录终止信号通常存在于聚腺苷酸化信号的下游并且长度为几百个核苷酸。本文所用的术语“编码…的核酸分子”、“编码…的DNA序列”和“编码…的DNA”是指沿着脱氧核糖核酸链的脱氧核糖核苷酸的顺序或序列。这些脱氧核糖核苷酸的顺序决定多肽(蛋白)链的氨基酸顺序。因此DNA序列编码氨基酸序列。术语“DNA印迹”是指这样的DNA分析:在琼脂糖或丙烯酰胺凝胶上按大小分离DNA，然后将凝胶上的DNA转移和固定在固体支持物例如硝基纤维素或尼龙膜上。再用带标记的寡脱氧核糖核苷酸探针或DNA探针来探测固定的DNA，以检测与所用探针互补的DNA种类。在电泳之前DNA可经限制酶切割。电泳之后，可在转移到固体支持物之前或期间将DNA部分地脱嘌呤(cbpurinated)和变性。DNA印迹是分子生物学家的标准工具。J.Sambrook 等(1989)载于:Molecular Cloning: A Laboratory Manual, Cold SpringHarbor Press, NY,第 9.31-9.58 页。本文所用的术语“RNA印迹”是指这样的RNA分析:通过在琼脂糖凝胶上进行RNA电泳而按大小分离RNA，然后将凝胶上的RNA转移到固体支持物例如硝基纤维素或尼龙膜上。再用带标记的寡脱氧核糖核苷酸探针或DNA探针来探测固定的RNA，以检测与所用探针互补的RNA种类。RNA印迹是分子生物学家的标准工具。J.Sambrook，J.等(1989)出处同上，第7.39-7.52页。本文所用的术语“反向RNA印迹”是指这样的DNA分析:在琼脂糖凝胶上进行DNA电泳以按大小分离DNA，然后将凝胶上分离的DNA转移到固体支持物例如硝基纤维素或尼龙膜上。再用带标记的寡核糖核苷酸探针或RNA探针来探测固定的DNA，以检测与所用核糖探针互补的DNA种类。本文所用的术语“编码区”当用于结构基因时是指这样的核苷酸序列:其编码在mRNA分子翻译后得到的初生多肽中存在的氨基酸。在真核生物中，编码区在5’侧的边界是编码起始甲硫氨酸的核苷酸三联体“ATG”，而在3’侧的边界是指定终止密码子(即TAA、TAG、TGA)的3个三联体之一。本文所用的术语“结构基因”是指编码RNA或蛋白的DNA序列。相比之下，“调节基因”是其编码的产物(例如转录因子)能控制其它基因表达的结构基因。本文所用的术语“基因”是指包含结构基因的编码区并包含在编码区5’端和3’端附近并距离末端约I kb的序列的脱氧核糖核苷酸序列，使得基因相当于全长mRNA的长度。位于编码区5’并存在于mRNA上的序列称为5’非翻译序列。位于编码区3’或下游并存在于mRNA上的序列称为3’非翻译序列。术语“基因”同时包括基因的cDNA和基因组形式。基因的基因组形式或克隆含有编码区，其中间插有称为“内含子”或“间插区”或“间插序列”的非编码序列。内含子是转录为不均一核RNA (hnRNA)的基因区段；内含子可含有调节元件例如增强子。从核内转录物或初级转录物中除去或“剪接去”内含子；因此在信使RNA (mRNA)转录物中不存在内含子。mRNA在翻译期间起作用，以指定初生多肽中的氨基酸序列或顺序。除了含有内含子之外，基因的基因组形式也可包括位于序列的5’端和3’端的序列，其存在于RNA转录物上。这些序列称为“侧翼”序列或区域(这些侧翼序列位于mRNA转录物上存在的非翻译序列的5’或3’)。5’侧翼区可含有控制或影响基因转录的调节序列例如启动子和增强子。3’侧翼区可含有指导转录终止、转录后切割和聚腺苷酸化的序列。
本文所用的术语“标记”或“可检测标记”是指可通过光谱、光化学、生物化学、免疫化学、电学、光学或化学方法检测的任何组分。这样的标记包括用于用带标记的链霉抗生物素缀合物染色的生物素、磁珠(例如Dynabeads )、荧光染料(例如荧光素、德克萨斯红、罗丹明、绿色荧光蛋白等)、放射性标记(例如3H、1251、35S、14C或32P)、酶(例如辣根过氧化物酶、碱性磷酸酶和ELISA中常用的其它酶)和量热标记(calorimetric label)例如胶体金或着色玻璃或塑料(例如聚苯乙烯、聚丙烯、乳胶等)珠。教导这类标记的使用的专利包括但不限于美国专利号 3，817，837 ;3，850，752 ;3，939，350 ;3，996，345 ;4，277，437 ；4，275，149 ;和4，366，241 (都通过引用结合到本文中)。本发明所涉及的标记可通过多种方法检测。例如，放射性标记可用感光胶片或闪烁计数器检测，荧光标记可用光检测器检测发射光而检测。酶标通常通过给该酶提供底物并检测酶对底物作用而产生的反应产物来检测，而量热标记通过简单目测着色标记而检测。附图简述
本专利文件包含至少一份彩色附图。在提出请求并支付必要费用后，美国专利和商标局将提供带有彩色附图的本专利拷贝。

图1显示示例性的模拟数据，描述通过k_均值对在本征空间中的转录物(紫色点)的PCA装入(loading)进行聚类，以鉴定k个不同的聚类(灰色圆圈)。选取最接近聚类均值的转录物作为‘聚类形心界标转录物’(单一红色点)。图2显示使用连通图数据的示例性结果，表明使用通过测量仅约1，000个转录物而建立的基因表达概况，在184个查询标记与通过测量大约22，000个转录物而产生的基因表达概况之间的所观察到的大约80%连通被再现，并预测剩余部分的表达水平。图3显示同时测量多个转录物表达水平的方法的一个实施方案，使用连接介导的扩增和光寻址的微球体。图4显示在384个生物样品中经LMF和Affymetrix微阵列测量的代表性聚类形心界标转录物(217995_at:SQRDL)的标准化表达水平的示例性数据。图5显示示例性的数据，显示单一(I类)聚类形心界标转录物证实失败；圆圈。轴是标准化表达水平。图6显示示例性的数据，显示复杂(2类)聚类形心界标转录物证实失败。图6A:标准化表达水平的曲线，用于代表性的经验证的转录物/探针对(蓝色，218039_at:NUSAPl)和代表性的失败转录物/探针对(橙色，217762_s_at: RAB31)。图6B:直方图显示标准化表达水平，用于图6A的经验证的转录物/探针对(蓝色箭头)及其关联的非形心转录物(蓝色条)和图6A的失败转录物/探针对(橙色箭头)及其关联的非形心转录物(橙色条)。红叉表示基因表达水平的无相关性。图7显示示例性的数据，比较了以下两者的性能:提供有报道大约22，000个转录物的由Affymetrix微阵列产生的基因表达概况的连通图数据组(左)，以及1，000个界标转录物的连接介导的扩增和Luminex光寻址微球体测定并推断剩余转录物表达水平(右)。这两个数据组用独立HDAC-抑制剂查询标记来查询。所示“柱形图”分别构建自6，100和782条水平线，各自代表个体处理实例并按照连通性评分排序。HDAC-抑制剂伏林司他的所有实例都为黑色。剩余实例所用的颜色反映它们的连通性评分(绿色，阳性；灰色，无效；红色，阴性)。图8显示示例性的数据，比较了 Affymetrix微阵列所产生的人细胞系基因表达概况的一致性聚类系统树图(A)，和本文所涉及的界标转录物测量和推断方法的一个实施方案⑶。组织类型为:C0 =结肠；LE =血(白血病)；ME =皮肤(黑素瘤)；CNS =脑(中枢神经系统)；0V =卵巢；和RE =肾。发明详述
本发明涉及基因组信息学和基因表达概况分析领域。基因表达概况提供有关细胞或组织相关状态的复杂的分子指纹。生物体状态(即例如正常和患病的细胞和/或组织)之间的基因表达概况的相似性提供分子分类学、分类和诊断。各种外部干扰(即例如，特定基因的消除或强迫表达，和/或小分子，和/或环境变化)所致的基因表达概况的相似性揭示这些干扰物之间的功能相似性，其在途径和作用机制的阐明中重要。生物体状态(例如疾病)和所诱导的状态(例如由小分子诱导的)之间的基因表达概况的相似性可鉴定临床有效治疗。本文所述的改进允许有效而经济地产生全转录物组基因表达概况，即通过鉴定能预测同一聚类内其它转录物表达水平的聚类形心界标转录物。本发明的某些实施方案涉及进行用于包括但不限于疾病分类和诊断的应用的全基因组转录概况分析，而不用昂贵而费力的微阵列技术(即例如Affymetrix基因芯片微阵列)。其它用途包括但不限于产生用于信息数据库(即例如连通图)和与之一起使用的基因表达数据。连通图通常包括大量基因表达概况的集合以及相关的模式匹配软件。用模式匹配算法搜索该表达概况集合，以寻找类似于源自目标生物状态的基因表达数据的表达概况。这种搜索和模式匹配练习的利用是在于相信，类似的生物状态可通过常见基因表达变化的瞬时特征而鉴定。连通图中的基因表达概况可源自已知细胞状态、或者经已知化学或遗传干扰物处理的细胞或组织。在这种模式中，连通图就是用于目标生物状态功能注释的工具。或者，连通图中提供有来自经先前未表征的或新的干扰物处理的细胞或组织的基因表达概况。在这种模式中，连通图的作用是作为筛选工具。最经常的是，连通图中提供有这两类概况。连通图一般而言建立起疾病状态、基因产物功能和小分子作用之间的生物相关的联系。具体地讲，连通图具有宽范围的应用，包括但不限于未知基因和生物状态的功能注释，小分子的作用方式或功能类别的鉴定，以及作为潜在药物以调节或逆转疾病状态朝向治疗益处的干扰物的鉴定。参见Lamb等，“The Connectivity Map: usinggene-expression signatures to connect small molecules, genes and disease (连通图:使用基因表达标记以连通小分子、基因和疾病)”313: 1929-1935 (2006)，和 Lamb, “The Connectivity Map: a new tool for biomedical research (连通图:生物医学探索的新工具)”舱Reviews Cancer 7: 54-60 (2007)。然而,产生基因表达概况的高成本严重限制了连通图的大小和范围。与现有连通图相比，提供有例如源自工业小分子药物筛选文库、饱和组合或多样性-定向的化学文库、粗制或纯化的动植物提取物综合性集合的每一个成员、或来自哺乳动物基因组中每个基因的遗传消除或强制表达的基因表达概况的连通图，将有望促进越来越深入的生物学发现。尽管不必理解发明的机制，但据信本文所公开的用于基因表达概况分析的方法将产生这些概况的成本降低至少于1/30。本发明涉及建立具有至少100，000基因表达概况、和最终成百上千万个基因表达概况的连通图。1.聚类形心界标转录物鉴定
本发明涉及用于制备和使用全转录物组基因表达概况分析平台的组合物和方法，其仅测量转录物总数的所选亚组的表达水平。因为相信基因表达是高度相关的，所以少量(例如1，000)适当选择的“界标”转录物的直接测量允许推断剩余转录物的表达水平。因此，相对于需要测量全部转录物的众所周知的常规方法而言，本发明具有降低全转录物组基因表达概况分析的成本和增加其通量的潜力。在一个实施方案中，本发明涉及根据大的全转录物组基因表达概况集合的计算分析来鉴定界标转录物。在一个实施方案中，概况含有在基因组中大比例(优选超过70%)已知转录物的特征和表达水平。在一个优选的实施方案中，概况是通过使用购自但不限于Affymetrix, Agilent和Illumina的高密度DNA微阵列而产生的。合适的概况也可通过包括但不限于基因表达系列分析(SAGE)和深度cDNA测序的其它转录物组分析方法而产生。在一个优选的实施方案中，所有概况都用同一分析方法产生。在一个特别优选的实施方案中，所有概况都用Affymetrix寡核苷酸微阵列来产生。在一个实施方案中，在该集合中的概况的数量超过1，000，和优选超过10，000。在一个优选的实施方案中，概况源自多种正常和患病的组织和/或细胞类型。正如本领域技术人员所知，合适基因表达概况集合可得自公共和私人商业来源。在一个优选的实施方案中，基因表达概况得自NCBI’ s GeneExpression Omnibus (GEO)。在一个实施方案中,相对于彼此来增减(scale)该集合中的概况的表达水平。本领域技术人员将会知道各种各样的方法以达到这样的标准化，包括但不限于分位数标准化(优选RMA)。在一个优选的实施方案中，使用在经选择跨越自全转录物组基因表达概况(数量至少1，000个和优选大约7，000个)的独立集合观察到的表达水平范围的多个(优选大约14个)表达水平的每一个下，具有所有转录物的最低变异系数(CV)的转录物(数量大约100个，和优选大约350个)组，相对于彼此来增减集合中的概况的表达水平。在一个优选的实施方案中，需要用于鉴定界标转录物的概况超过数据质量(即例如质量控制(QC)分析)的最低标准。通过QC分析的样品被认为是核心数据组。合适的数据质量测量是本领域技术人员已知的并且包括但不限于P-calls百分比和3’:5’比率。在一个实施方案中，建立数据质量测量的经验分布并从集合中除去异常概况。在一个优选的实施方案中，将数据质量测量超过第95区间的分布的概况从集合中除去。在一个优选的实施方案中，鉴定在集合中的所有概况中出现的转录物组，并将剩余的从所有概况中除去。在一个实施方案中，在大比例概况(优选99%)中将低于检测限的转录物组从概况中除去。在一个实施方案中，本发明涉及使用降维以及聚类分析以选择所测量的转录物(即例如界标转录物)。尽管降维可通过多种已知方法来进行，但本文所述的实施方案利用主成分分析。在一个实施方案中，所述方法还包括使用线性降维方法(即例如使用本征向量)。在一个实施方案中，聚类分析建立多个聚类，其中每个聚类包括单个聚类形心界标转录物和多个聚类非形心转录物。参见图1。在一个优选的实施方案中，通过使用k-均值聚类得到聚类，其中k-均值聚类重复多次，以允许构建一致性矩阵(consensus matrix)(即例如基因-基因成对一致性矩阵)。在一个优选的实施方案中，通过对基因-基因成对一致性矩阵进行分层聚类，鉴定高度局部相关的口袋(pocket)。正如本领域技术人员所知，来自分层聚类的树可然后在多个水平上切割。在每一水平上，有多个结点，其中每个结点中的树叶(即例如在本文以转录物为例)代表一个紧密聚类。对于每个紧密聚类，可通过挑取其单个概况与紧密聚类的平均概况最密切相关的转录物，来选取代表性的形心‘界标’转录物。在一个优选的实施方案中，聚类分析鉴定多个(优选超过3和小于10)形心界标转录物。尽管不必理解发明机制，但相信可使用聚类形心界标转录物表达水平来推断相关联的聚类非形心转录物的表达水平。在一个实施方案中，本发明涉及根据仅由聚类形心界标转录物表达水平测量组成的数据建立基因表达概况的方法。在一个实施方案中，鉴定生物样品之间的医学相关的相似性，即通过在聚类形心界标转录物空间中产生的它们的相应基因表达概况的相似性。在一个优选的实施方案中，根据界标转录物测量并参考相关性矩阵来推断(即例如预测)新生物样品中的未测量转录物水平，由此建立全转录物组基因表达概况。在一个实施方案中，在全转录物组表达概况集合中，通过在每个聚类形心界标基因表达水平(g)和所有非界标转录物表达水平(G)之间进行线性回归，构建相关性矩阵。在一个优选的实施方案中，伪逆(pseudo-1nverse)用于构建相关性矩阵(G非界标转录物X g界标转录物)。在一个优选的实施方案中，用于构建相关性矩阵的全转录物组表达概况集合与用于鉴定聚类形心界标转录物的集合相同。在另一个实施方案中，用于构建相关性矩阵的全转录物组表达概况集合与用于鉴定聚类形心界标转录物的集合不同。在一个优选的实施方案中，从全转录物组表达概况集合构建多个相关性矩阵，每个集合提供有源自同一类正常或患病的组织或细胞的概况。在一个实施方案中，根据样品的组织、细胞和/或病理状态的知识来进行用于推断的相关性矩阵的选择。在一个优选的实施方案中，推断新生物样品中每个非界标转录物的表达水平，即通过用每个界标转录物表达水平乘以从相关性矩阵中查到的相应权重，并对这些乘积求和。在一个优选的实施方案中，本发明涉及一个方法，所述方法包括在基因表达概况分析的有用的应用中建立全转录物组基因表达概况，这使用多个界标转录物的测量和非界标转录物水平的推断，其中这些概况具有直接测量所有转录物产生的基因表达概况的至少80%性能。I1.确定聚类形心界标转录物的合适数量
在一个实施方案中，本发明涉及通过实验确定适用于建立全转录物组基因表达概况的聚类形心界标转录物的数量。在一个实施方案中，通过模拟来确定适用于建立全转录物组基因表达概况的聚类形心界标转录物的数量。本文给出的计算模拟(实施例1和II)证明可采用降维来鉴定多个聚类形心界标转录物，并证明出乎意料地少的界标转录物测量就足以忠实再现全转录物组表达概况。证明仅1，000个聚类形心界标转录物(即例如转录物组中〈5%的转录物)表达水平就可用于再现全转录物组表达概况，其表现与在80%实验中直接测量的所有转录物的概况一样好，对于所检查的概况相似性而言。此外，这些数据证明500个形心界标转录物(即例如转录物组中〈2.5%的转录物)再现大约50%的所述相似性(图2)。在一个优选的实施方案中，本发明涉及一个方法，所述方法包括大约1，000个聚类形心界标转录物，从中可推断转录物组剩余转录物的表达水平。
II1.聚类形心界标转录物的测量
在一个实施方案中，本发明涉及在包含多个转录物的生物样品中测量聚类形心界标转录物组的表达水平，并使用相应的相关性矩阵以预测未测量转录物的表达水平，由此建立全转录物组表达概况。在一个优选的实施方案中，同时测量该组聚类形心界标转录物的表达水平。在另一个优选的实施方案中，所测聚类形心界标转录物的数量为大约1，000。在另一个优选的实施方案中，用中等多重测定平台测量该组聚类形心界标转录物的表达水平。正如本领域技术人员众所周知，有许多方法潜在能够同时测定中等数量(即大约10至大约1，000)的转录物表达水平。这些包括但不限于多重核酸酶保护测定、多重RT-PCR、DNA微阵列、核酸测序和由包括但不限于以下的公司提供的多种市售方案:Panomics、High Throughput Genomics、NanoString、Fluidigm、Nimblegen、Affymetrix> Agilent 和Illumina0在一个优选的实施方案中，本发明涉及用于产生全转录物组基因表达概况的方法，即通过在包含多个转录物的生物样品中同时测量聚类形心界标转录物组的表达水平，并使用相应的相关性矩阵以预测未测量转录物的表达水平，其中所述同时测量是用核酸测序来进行。在一个优选的实施方案中，本发明涉及用于产生全转录物组基因表达概况的方法，即通过在包含多个转录物的生物样品中同时测量聚类形心界标转录物组的表达水平，并使用相应的相关性矩阵以预测未测量转录物的表达水平，其中所述同时测量是使用多重连接介导的扩增以及Luminex FlexMAP光寻址的和带有条形码的微球体和流式细胞术检测(LMF)来进行；Peck 等,“A method for high-throughput gene expression signatureanalysis (用于高通量基因表达标记分析的方法)Biology 7:R61 (2006)。参见图3。在该技术中，将转录物捕获在固定化聚-dT上并逆转录。对每个目标转录物都设计两个寡核苷酸探针。上游探针含有与通用引物(T7)位点互补的20 nt、一组独特24 nt条形码序列之一、和与相应的第一链cDNA互补的20 nt序列。下游探针经5’-磷酸化并含有临近相应上游探针的基因特异性片段的20 nt和20 nt通用-引物(T3)位点。将探针退火到靶cDNA，去除游离探针，并通过连接酶作用连接并列的探针，得到104 nt扩增模板。用T3和5’ -生物素化T7引物进行PCR。生物素化的带条形码的扩增子针对各自表达与条形码互补的捕获探针的光寻址的微球体混合物杂交，然后与链霉抗生物素-藻红蛋白一起温育，以使生物素部分带荧光标记。定量测定已捕获的带标记扩增子并通过流式细胞术在Luminex检测器上对珠子解码。以上描述的LMF方法被限制在同时测量100个转录物，是因为仅可用100个光寻址(optical address)。在一个实施方案中，本发明涉及产生基因表达概况的方法，所述方法使用适合于扩大数量(大约500，和优选1，000)的条形码序列以及光寻址微球体和相应的流式细胞术检测装置的聚类形心界标转录物水平的同时测量。在一个实施方案中，本发明涉及一种方法，所述方法包括每一生物样品测定两次，每次能测量大约500个聚类形心转录物的表达水平。在一个实施方案中，本发明涉及一种方法，所述方法为，通过安排微球体表达超过一种类型的与条形码互补的捕获探针，使用小于1，000群的光寻址微球体，在每一生物样品的一次测定中测量大约1，000个聚类形心界标转录物的表达水平。在一个实施方案中，本发明涉及一种方法，所述方法包括每一样品一次测定，每次能测量1，000个聚类形心界标转录物的表达水平。
A.所测量的界标转录物的平台特异性选择
本领域技术人员众所周知的是，用一种方法(例如RT-PCR)进行的转录物表达水平的评价，与用另一种方法(例如DNA微阵列)在同一生物样品中进行的同一转录物表达水平的评价并不总是一致的。在一个实施方案中，本发明涉及一种方法，其通过实验从所有可能的聚类形心界标转录物的组来选择通过给定的中等多重测定平台测量的聚类形心界标转录物组，目的是预测未测量转录物的表达水平，并由此建立全转录物组基因表达概况。在一个优选的实施方案中，选择通过给定中等多重测定平台测量的聚类形心界标转录物组是通过，经验证实经该平台进行的聚类形心界标转录物表达水平的测量与使用全转录物组基因表达概况分析技术进行的测量之间的一致性，后者技术用于产生基因表达概况集合，总体的聚类形心界标转录物正是最初从中选取的。在一个特别优选的实施方案中，通过LMF和Affymetrix寡核苷酸微阵列二者评价生物样品(优选数量大约384个)集合中所有可能的聚类形心界标转录物(优选数量大约1，300个)表达水平,其中Affymetrix寡核苷酸微阵列用于产生全转录物组基因表达概况(从中选取总体的可能聚类形心界标转录物)，导致鉴定聚类形心界标转录物(优选数量大约1，100个)组，其经LMF评价的表达水平与经AfTymetrix寡核苷酸微阵列评价的表达水平总是一致的。本文给出的数据(实施例1II)显示，用LMF和Affymetrix寡核苷酸微阵列所进行的表达水平测量之间的未曾预料到的不—致。B.不能忠实报告其聚类中的非形心转录物的聚类形心界标转录物的消除
在一个实施方案中，本发明涉及一种方法，其通过实验从所有可能的聚类形心界标转录物的组来选择通过给定的中等多重测定平台测量的最终的聚类形心界标转录物组，目的是预测未测量转录物的表达水平，并由此建立全转录物组基因表达概况。在一个优选的实施方案中，选择通过给定中等多重测定平台测量的聚类形心界标转录物组是通过，经验证实经该平台进行的聚类形心界标转录物表达水平的测量可用于预测其聚类中使用全转录物组基因表达概况分析技术测量的非界标转录物的表达水平，该全转录物组基因表达概况分析技术用于产生基因表达概况集合，总体的聚类形心界标转录物正是最初从中选取的。在一个特别优选的实施方案中，通过LMF测量生物样品(优选数量大约384个)集合中所有可能的聚类形心界标转录物(优选数量大约1，300个)表达水平，并通过Affymetrix寡核苷酸微阵列在相同生物样品集合中测量所有非界标转录物表达水平,其中Affymetrix寡核苷酸微阵列用于产生全转录物组基因表达概况(从中选取总体的可能聚类形心界标转录物)，导致鉴定最终聚类形心界标转录物(优选数量大约1，100个)组，其经LMF评价的表达水平可一贯地用于预测其聚类中使用AfTymetrix寡核苷酸微阵列测量的转录物表达水平。本文给出的数据(实施例1II)显示，用LMF所进行的某些聚类形心界标表达水平的测量，在用于预测其聚类中使用AfTymetrix寡核苷酸微阵列测量的转录物表达水平时，未曾预料到地失败了。在一个实施方案中，本发明涉及建立专门用于选择用于给定中等多重测定平台的最终的聚类形心界标转录物组的相关性矩阵。本文给出的数据(实施例1V、V、V1、VII)显示了从选择用于与特定中等多重测定平台一起使用的聚类形心界标转录物组的表达水平测量中产生有用的全转录物组基因表达概况。
C.使用不变的转录物的数据标准化
在一个实施方案中，本发明涉及包括将基因表达数据标准化(即例如增减)以校正天与天或检测器与检测器之间在信号强度上的变异性的方法。尽管不必理解发明机制，但据信在全转录物组基因表达概况(即例如大约20，000维度的高密度微阵列数据)中常规假定绝大多数的转录物在指定状态中不变。这样的假定允许所有转录物表达水平的总和可视为总体信号强度的度量。使用常规系统就可使每一转录物针对总体信号强度值而标准化。然而，当使用较低维度(即例如1，000个转录物)的基因表达概况时，假定仅少部分转录物变化是不合理的，尤其是在聚类形心界标转录物的特殊情况下，其中选取这些转录物部分地因为各自具有跨越样品多样性的不同水平。因此，相对于所有转录物水平总和的标准化是不合适的。在一个实施方案中，本发明涉及相对于其水平跨越大的多样性样品集合而不变的转录物(即例如不变的转录物)组来标准化基因表达概况。这样的方法大概类似于使用所谓的管家基因(即例如GAPDH)作为qRT-PCR的参考。尽管不必理解发明机制，但据信本文所述的标准化优于其它已知标准化技术，因为不变的转录物按经验确定在跨越广泛多样性样品时具有不变的表达。在一个实施方案中，在经选择跨越自全转录物组基因表达概况(数量至少1，000和优选大约7,000)集合观察到的表达水平范围的多个(优选大约14)表达水平的每一个下具有所有转录物的最低变异系数(CV)的转录物(数量介于10-50，优选25)组，被鉴定为不变的转录物。在一个优选的实施方案中，用于选择不变的转录物的全转录物组基因表达概况集合是连通图数据组(broadinstitute.0rg/cmap)的build02。在一个优选的实施方案中，从所有不变的转录物的组中选择用于将使用给定中等多重测定平台进行的聚类形心界标转录物表达水平测量标准化的最终的不变的转录物(数量介于14-98之间，优选80)组，即通过在生物样品(数量优选大约384)集合中经验证实经该平台进行的其表达水平的测量与使用全转录物组基因表达概况分析技术进行的测量之间的一致性和证实其表达水平的确实质上不变，该全转录物组基因表达概况分析技术用于产生从中最初鉴定不变的转录物的基因表达概况集合。本文所给出的数据(实施例1V、V、V1、VII)显示，根据相对于在所选中等多重测定平台上一起测量的不变的转录物组表达水平而增减的在相同平台上测量的聚类形心界标转录物组表达水平的测量，产生有用的全转录物组基因表达概况。IV.在基因表达概况分析中降维
已经报道可在基因组水平上使用降维以及聚类技术研究基因调控。例如，可使用降维生物数据组，根据基因共表达动力学(即例如基因-因相互作用)推断基因共调控。Capobianco E., “Model Validation For Gene Selection And Regulation Maps (用于基因选择和调控图的模型验证)”Integr Genomics 8 (2):87-99 (2008)。该方法提出3种特征提取方法，其可通过聚类分析(即例如k-均值)以及主成分分析和/或独立成分分析来检测具有最大差异表达的基因。在转录物组学中，例如，聚类可由具有类似表达模式的基因形成。然而，降维主要用于从有用的生物信息中消除“噪声”。可计算相关矩阵，其分解的应用根据包括本征值(即例如模式的能量)和本征向量(即例如Y，通过在各模式中使能量最大化而测定)的本征系统。通过分离聚类异常值以挑取具有最大差异的表达水平的基因的“经收缩而正则化”进行代表性差异表达的基因的选择。其它降维方法已经用于蛋白质组学生物标记研究。例如，基于质谱的蛋白质组学概况已经用作疾病生物标记，其产生具有极高维度(即特征或变量的数量)的蛋白质组学数据和小样品大小的数据组。在这些方法中，一个报道提出使用描述为形心收缩的特征选择方法，其中可使用因果推断技术评价数据组。训练样品用于鉴定类形心，其中将试验样品分配到属于最近形心的类中。Hilario 等，“Approaches To Dimensionality ReductionIn Proteomic Biomarker Studies (在蛋白质组学生物标记研究中的降维方法)” Srie/Bioinform 9(2):102-118 (2008)。形心收缩分析先前已经用于基因表达分析以诊断癌症。
一个降维报告鉴定来自大特征组内的特征亚组。这样的选择过程是按照分类器权重，通过训练支撑向量机以排列特征而进行。例如，可针对能准确区分医学病况(即例如癌症与非癌症)的最小数量的基因进行选择。主成分分析能够使基因表达数据聚类，其中在每一聚类内选择特定基因为与癌症表达闻度相关。将预测与癌症有关的基因功能的Golub’ s本征空间向量方法直接比较和对照作为下级方法。Barnhill等，“FeatureSelection Method Using Support Vector Machine Classifier (使用支撑向量机分类器的特征选择方法)”美国专利7，542，959 (第35 - 49栏)。线性变换(即例如主成分分析)也能以最佳保留数据结构的方式鉴定多变量数据的低维嵌入。具体地讲，可增强降维的表现。此外，所得降维可保持数据坐标和数据元素间的成对关系。在能清楚表明聚类之间的分离以及它们的内部结构的线性变换中将分解信息的随后聚类积分。Koren 等，“Robust Linear Dimensionality Reduction (鲁棒性线性降维)” IEEE Trans Vis Comput Graph.10 (4): 459-470 (2004)。此外，方法和系统用于组织复杂和不同的数据。主成分分析可用于评价收集自用18种不同除草剂处理的拟南芥属(Arabidopsis)植物的表型、基因表达和代谢物数据。基因表达和转录分析被限制在评价在细胞功能背景下的基因表达。Winfield等，“MethodsAnd Systems For Analyzing Complex Biological Systems (分析复杂生物系统的方法和系统)”美国专利6，873’ 9140可研究功能基因组学和蛋白质组学，包括同时分析数以百或千计的表达的基因或蛋白。降维策略已经用于从这些大数据组在临床上鉴定来自大量实验数据组的可开发的生物标记。转录物组学领域可受益于在使用微阵列的高通量方法中使用降维方法。Finn WG.，“Diagnostic Pathology And Laboratory Medicine In The Age Of 〃omics〃(在〃omics〃年代的诊断病理学和实验室医学)” J Mol Diagn.9 (4):431-436 (2007)。多因素降维(MDR)也可用于检测上位性和对其建模，包括单核苷酸多态性(SNP)的鉴定。MDR将基因型合并为‘高风险’和‘低风险’或‘反应’和‘无反应’组，以便将多维数据降至仅一维。MDR已检测例如散发性乳腺癌、多发性硬化和原发性高血压等疾病中的基因-基因相互作用。MDR可用于评价由多种遗传和环境变量的非线性相互作用所致的大多数常见疾病。Motsinger 等，“Multifactor Dimensionality Reduction: An AnalysisStrategy For Modeling And Detecting Gene-Gene Interactions In Human GeneticsAnd Pharmacogenomics Studies (多因素降维:在人类遗传学和药物基因组学研究中的基因-基因相互作用的建模和检测的分析策略)” Hum Genomics 2 (5):318-328 (2006)。另一报告试图使用6，100个转录物以代表全转录物组，以尝试避免测量预期不表达的基因° Hoshida 等，“Gene Expression in Fixed Tissues and Outcome inHepatocellular Carcinoma (在固定组织中的基因表达和在肝细胞癌中的结果)” AferEngl J Med 259:19 (2008))。V检测方法 A.核酸的测量
可通过任何合适方法测量mRNA表达，包括但不限于以下公开的方法。在某些实施方案中，通过RNA印迹分析检测RNA。RNA印迹分析涉及RNA分离和互补标记的探针的杂交。在其它实施方案中，通过酶促切割特定结构检测RNA表达(INVADER测定，ThirdWave Technologies ;参见例·如美国专利号 5，846，717,6, 090，543,6, 001，567,5, 985，557和5，994，069 ;其各自通过引用结合到本文中)。INVADER测定通过使用结构特异性酶切割经重叠寡核苷酸探针杂交形成的复合物检测特定核酸(例如RNA)序列。在再一些实施方案中，通过与寡核苷酸探针杂交来检测RNA (或相应cDNA)。使用多种技术进行杂交和检测的多种杂交测定是可用的。例如，在某些实施方案中，使用TaqMan 测定(PE Biosystems, Foster City, Calif.;参见例如美国专利号 5，962，233 和5，538，848，其各自通过引用结合到本文中)。该测定是在PCR反应期间进行。TaqMan测定利用AMPLITAQ GOLD DNA聚合酶的5’ -3’外切核酸酶活性。PCR反应中包括由具有5’ -报道染料(例如荧光染料)和3’-猝灭染料的寡核苷酸组成的探针。在PCR期间，如果探针结合其靶标，那么AMPLITAQ GOLD聚合酶的5’ -3’核酸水解活性将在报道染料和猝灭染料之间切割探针。报道染料和猝灭染料的分离导致荧光增加。信号随着每次PCR循环而积累并且可用荧光计监测。在还一些实施方案中，逆转录酶PCR (RT-PCR)用于检测RNA表达。在RT-PCR中，使用逆转录酶将RNA酶促转化为互补DNA或〃cDNA〃。再将cDNA用作PCR反应的模板。PCR产物可通过任何合适的方法检测，包括但不限于凝胶电泳和用DNA特异性染料染色或者与带标记探针杂交。在某些实施方案中，采用描述于美国专利号5，639，606,5, 643，765和5，876，978 (其各自通过引用结合到本文中)的用标准化竞争性模板混合物的定量逆转录酶PCR方法。最常用作核酸测序或鉴定靶碱基的基础的方法是Sanger的酶促链终止方法。传统上，这样的方法依赖于凝胶电泳，以便按其大小分辨，其中从较大核酸区段产生核酸片段。然而，近年来已发展出多种测序技术，其依赖于多种不同检测策略，例如质谱和阵列技术。本领域认为重要的一类测序方法是依赖于PPi释放的检测作为检测策略的方法。已经发现这类方法在需要具有高通量的相对成本有效的装置(unit)的大规模基因组计划或临床测序或筛选中表现出色。基于检测在聚合酶反应期间释放的焦磷酸(PPi)的概念的测序方法已见述于文献,例如(W0 93/23564,WO 89/09283、W098/13523 和 WO 98/28440)。在聚合酶反应期间随着每个核苷酸加入到生长的核酸链中，释放焦磷酸分子。已经发现在这些条件下释放的焦磷酸可被容易地检测，例如酶促检测或通过在萤光素酶-荧光素反应中产生光来检测。这类方法使得能够鉴定靶位置中的碱基和简单快速地对DNA测序，同时避免对电泳和使用标记的需要。最基本地，基于PPi的测序反应包括简单地进行引物定向的聚合酶延伸反应，并通过检测PPi是否已释放来检测该核苷酸是否已掺入。合宜地，这种PP1-释放的检测可酶促完成，而最合宜的是通过称为ELIDA的基于萤光素酶的光检测反应(进一步参见下文)完成。已经发现加入dATP作为掺入的核苷酸干扰用于PPi检测的萤光素酶反应。因此，对基本的基于PPi的测序方法的主要改进是使用dATP类似物(尤其是dATP.alpha,s)代替dATP，该dATP类似物不能作为萤光素酶的底物，但仍能被聚合酶掺入核苷酸链中(W098/13523)。对基本的基于PPi的测序技术的其它改进包括:在聚合酶步骤期间使用核苷酸降解酶例如腺苷三磷酸双磷酸酶，使得未掺入的核苷酸被降解，如W098/28440所述；和在将引物退火到模板之后在反应混合物中使用单链核酸结合蛋白，已经发现这在减少假信号数量方面具有有利作用，如W000/43540所述。 B.蛋白检测
在其它实施方案中，基因表达可通过测量蛋白或多肽的表达来检测。蛋白表达可通过任何合适的方法检测。在某些实施方案中，通过免疫组织化学检测蛋白。在其它实施方案中，通过蛋白与针对该蛋白产生的抗体的结合来检测蛋白质。抗体的产生描述于下文。抗体结合可通过许多不同技术检测，包括但不限于(例如放射性免疫测定、ELISA (酶联免疫吸附测定)、“夹心”免疫测定、免疫放射定量测定、凝胶扩散沉淀反应、免疫扩散测定、原位免疫测定(例如使用胶体金、酶或放射性同位素标记)、蛋白质印迹、沉淀反应、凝集测定(例如凝胶凝集测定、红细胞凝集测定等)、补体结合测定、免疫荧光测定、蛋白A测定和免疫电泳测定等。在一个实施方案中，抗体结合是通过检测第一抗体上的标记而检测。在另一个实施方案中，第一抗体是通过检测第二抗体或试剂与第一抗体的结合而检测。在又一实施方案中，第二抗体带有标记。在某些实施方案中，使用自动化检测测定。免疫测定自动化方法包括以下专利描述的那些:美国专利号5，885，530,4, 981，785,6, 159，750和5，358，691，其各自通过引用结合到本文中。在某些实施方案中，也将结果的分析和提供自动化。例如，在某些实施方案中，可使用基于相当于癌症标记的一系列蛋白质的存在与否产生预后的软件。在其它实施方案中，免疫测定描述于美国专利号5，599，677和5，672，480，其各自通过引用结合到本文中。C.远程检测系统
在某些实施方案中，基于计算机的分析程序用于将由检测测定产生的原始数据(例如给定转录物的存在、不存在或量)翻译为对临床医生或研究人员具有预测价值的数据。临床医生或研究人员可用任何合适方式访问预测数据。因此，在某些优选的实施方案中，本发明还提供的益处是，很可能未受过遗传学或基因组学训练的临床医生或研究人员不必理解原始数据。将数据直接以最有用的形式提供给临床医生或研究人员。临床医生或研究人员于是能够立即利用信息，以优化对受试者的护理或提前发现目标。本发明涉及能够自和至进行测定的实验室接收、处理和传输信息的任何方法，其中将信息提供给医学人士和/或受试者和/或研究人员。例如，在本发明的某些实施方案中，从受试者或实验程序中获得样品(例如活检或血清或尿的样品或受干扰的细胞或组织)，并提交给位于世界任何地方(例如与受试者居住、进行实验或最终使用信息的国家不同的国家)的概况分析服务机构(例如医学机构的临床实验室，基因组概况分析商等)，以产生原始数据。当样品包括组织或其它生物样品时，受试者可访问医学中心以获得样品并将样品送至概况分析中心，或者受试者可自我采集样品(例如尿样)并将样品直接送至概况分析中心。当样品包括先前测定的生物信息时，受试者可将信息直接送至概况分析服务机构(例如含有信息的信息卡可通过计算机扫描，并用电子通信系统将数据传输至概况分析中心的计算机)。一旦由概况分析服务机构接收，则处理样品并产生专门用于受试者所需的诊断或预后信息或者研究人员的发现目标的概况(即表达数据)。然后以适合处理临床医生或研究人员解释的格式制备概况数据。例如，并非提供原始表达数据，所制备的格式可表示对受试者的诊断或风险评估，以及对特定治疗选项的推荐或作用机制、蛋白靶标预测或实验干扰物的潜在治疗用途。可通过任何合适方法将数据展示给临床医生或研究人员。例如，在某些实施方案中，概况分析服务机构产生报告，其可打印给临床医生或研究人员(例如在护理地点或实验室)或者在电脑显示器上展示给临床医生或研究人员。在某些实施方案中，首先，在护理地点或实验室或在区域性设施分析信息。然后，将原始数据送到中央处理设施作进一步分析和/或将原始数据转化为临床医生、患者或研究人员可用的信息。中央处理设施提供数据分析的隐私(所有数据存储在具有统一安全协议的中央设施中)、速度和一致性的优势。然后，中央处理设施可在治疗受试者或实验完成后控制数据的命运。例如，使用电子通信系统，中央设施可提供数据给临床医生、受试者或研究人员。在某些实施方案中，受试者能使用电子通信系统直接访问数据。受试者可根据结果进一步选择介入或咨询。在某些实施方案中，数据用于研究用途。例如，数据可用于进一步优化作为疾病的特定病况或阶段的有用的指示的标记的包含或消除。V1.试剂盒
在一个实施方案中，本发明涉及用于实施本发明方法的试剂盒。试剂盒优选包括含有用于进行本发明方法的不同组合物和/或试剂的一个或多个容器。试剂盒可任选包括多个聚类形心界标转录物。试剂盒可任选包括多个核酸序列，其中序列与至少一部分聚类形心界标转录物序列互补，和其中序列可任选包含引物序列和/或条形码核酸序列。试剂盒可任选包括多个光寻址珠，其中每个珠包含与条形码核酸序列互补的不同核酸序列。试剂盒可任选包括能进行PCR的酶(即例如DNA聚合酶、热稳定聚合酶)。试剂盒可任选包括能进行核酸连接的酶(例如连接酶)。试剂盒可任选包括缓冲剂、赋形剂、稀释齐U、生物化学品和/或其它酶或蛋白。试剂盒也可任选包括合适系统(例如不透明容器)或稳定剂(例如抗氧化剂)，以防试剂被光或其它不利条件降解。试剂盒可任选包括含有针对试剂用于进行本文所述的任何方法所提供的指南(即方案)的指导性材料。尽管指导性材料通常包括书面或印刷材料，但它们不限于此。本发明涉及能存储这类使用说明并将其传达至终端用户的任何介质。这样的介质包括但不限于电子存储介质(例如磁盘、磁带、盒式磁带、芯片)、光学介质(例如⑶ROM)等。这样的介质可包括提供这类指导性材料的因特网站地址。试剂盒可任选包括为实施本文所述任何方法、使本文所述任何方法简化或自动化、或由此产生的数据的操作、分析、展示或可视化而提供的计算机软件(即算法、公式、仪器设置、机器人使用说明等)。本发明涉及能存储这类软件并将其传送给终端用户的任何介质。这样的介质包括但不限于电子存储介质(例如磁盘)、光学介质(例如⑶ROM)等。这样的介质可包括提供这类软件的因特网站地址。实验
实施例1:鉴定聚类形心界标转录物和建立相关性矩阵
本实施例描述了一种用于鉴定具有推断关系的聚类形心界标转录物的方法。用Affymetrix U133家族的寡核苷酸微阵列产生的35867个全转录物组基因表达概况以.cel文件形式下载自NCBI’s Gene Expression Omnibus (GEO)库。对于每一探针组，使用MAS5 (Affymetrix),预处理.cel文件以产生均差值(即表达水平)。然后，相对于其表达水平共同跨越所观察的表达水平范围的350个先前测定的不变探针的表达水平，增减每一表达概况的表达水平。数据组中最小常见特征空间经测定为22，268个探针组。通过参考两个数据质量度量:P-calls百分比和3’:5’比率，评价每个概况的质量。建立这两个度量的经验分布，并排除每个分布两端10%的概况，不作进一步考虑。在这种质量过滤之后，总共剩下16，428个概况。发现另外的1，941个概况来自单一来源，也将其排除。在超过99%的概况中排除比预定随意检测阈值低20平均差异单位的探针组，使在考虑中的探针组总数为14,812。然后将主成分分析(PCA)降维用于数据组(即14，487个样品x 14，812个特征)。鉴定287个成分，其解释数据组中90%的变异。然后使用k-均值，对在本征空间(即287 x14,812)中特征的PCA装入的矩阵进行聚类。k-均值聚类因为所得高维度矩阵基于初始种子非确定性地分区而重复多次，并将结果用于构建基因-基因成对一致性矩阵。通过使基因-基因成对一致性矩阵进行分层聚类，鉴定高度局部相关的口袋。系统树图的‘树’的每一结点上的树叶共同构成一个聚类。然后可在多个水平上切割该树以鉴定 100、300、500、700、1，000,1, 500,2, 000,5, 000 和 10，000 个聚类。将在每个聚类中的个体表达水平向量跨越所有14，487个概况与所有探针组的平均值最密切相关的探针组选作该聚类的形心。这产生100、300、500、700、1，000、1，500、2，000,5, 000和10，000个组的形心探针组。多个个体探针组具有接近任何给定聚类的形心探针组的定义的属性。通过在14，487个概况的空间中g个形心探针组和剩余的14，812 个探针组的表达水平之间的线性回归，对每组形心探针组建立相关性矩阵。使用伪逆，因为概况数量不一定匹配待建模的特征数量。由此为相关性矩阵提供将每个非形心探针组的表达水平与每个形心探针组的表达水平相关的权重(即因素)。用Affymetrix (affymetrix.com)提供的映射(mapping)确定每个形心探针组所代表的转录物的特性和基因符号，并将其视为‘聚类形心界标转录物’。以同样方式将非形心探针组映射到基因符号。实施例11:确定合适数量的聚类形心界标转录物本实施例描述了一种选择建立有用的全转录物组基因表达概况所需的聚类形心界标转录物数量的方法。该方法使用在公共连通图资源build02 (broadinstitute.0rg/cmap)中提供的由Affymetrix寡核苷酸微阵列自小分子干扰物处理的培养的人细胞产生的大的全转录物组基因表达概况集合。连通图的一个用途是鉴定小分子干扰物的生物效应之间的相似性。这可通过检测用这些干扰物处理细胞所产生的基因表达概况的相似性完成(Lamb等，“The Connectivity Map: using gene-express ion signatures to connect smallmolecules, genes and disease (连通图:使用基因表达标记以连通小分子、基因和疾病313:1929 2006)，并且代表全转录物组基因表达概况分析的一个有价值的应用。在本方法的概述中，从连通图数据中提取按照实施例1 (上文)鉴定的聚类形心界标转录物组(尤其是它们相应的探针组)的表达值，并用于使用也按照实施例1 (上文)产生的相关性矩阵建立全转录物组基因表达概况。注意，用于实施例1的表达概况集合不包括任何连通图数据。然后比较了用实际全转录物组基因表达概况鉴定的部分相似性，该部分相似性也通过由不同数量的聚类形心界标转录物测量建立的推断的全转录物组基因表达概况鉴定。首先，如(Lamb等)所述，通过针对全部连通图数据组执行得自Lamb等和Molecular Signatures Database (MSigDB ; L 5版；broadinstitute.0rg/gsea/msigdb)的184个独立查询标记，来构建富集评分矩阵，产生‘参考连通性矩阵’(即184查询X 1,309处理)。7，056个全转录物组基因表达概况以.cel文件形式下载自连通图网站。然后，使用MAS5 (Affymetrix)预处理.cel文件,得到每一探针组的均差值(即表达水平)。提取每组形心探针组的表达水平，并用相应的相关性矩阵建立9 X 7，056组全转录物组基因表达概况；将每一形心探针组的表达水平乘以它们的相关性矩阵因素并求和来计算非形心探针组的表达水平。如(Lamb等)所述，使用这些(经推断的)全转录物组基因表达概况，对每一处理-和-溶媒对计算探针组的等级-排序表(Rank-ordered list)。完全如刚刚所完成的，用184个查询标记组对9个数据组的每一个建立富集评分的矩阵，以建立参考连通性矩阵。

对在参考连通性矩阵中具有最高富集评分的处理也是产自9个经推断数据组中的每一个的连通性矩阵中的最高评分处理的查询标记数量作图(图2)。使用仅1，000个形心探针组的表达值所产生的数据组与使用在184个中的147个(80%)实例中的所有22，283个探针组的表达值所产生的数据组鉴定相同的处理。这些发现表明，1，000个聚类形心界标转录物可用于建立有用的全转录物组基因表达概况。实施例1I1:聚类形心界标转录物的平台特异性选择
本实施例描述一种在所选中等多重测定平台上验证聚类形心界标转录物的表现的方法。本实施例尤其涉及源自用Affymetrix微阵列建立的基因表达概况的聚类形心界标转录物表达水平的测量，测量使用Peck等的LMF方法,“A method for high-throughputgene expression signature analysis (用于高通量基因表达标记分析的方法)” GenomeBiology 7:R61 (2006)。参见图 3。如Peck等所述，针对按照实施例1 (上文)选择的I，000个聚类形心界标转录物设计探针对。通过LMF在包括未干扰的细胞系、经生物活性小分子处理的细胞系和组织标本的384个生物样品集合中测量这些转录物的表达水平，对于这些生物样品，Affymetrix微阵列所产生的全转录物组基因表达概况是可用的。跨越所有384个生物样品，经LMF测量的标准化表达水平针对由Affymetrix微阵列对代表性聚类形心界标转录物(217995_at:SQRDL)测量的标准化表达水平的图显示为图4。对于来自这两个测量平台的每一特征，构建跨越所有384个样品的表达水平的向量。对于每个聚类形心界标转录物，相应的LMF向量用作索弓|，在最近邻分析(nearest-neighbors analysis)中用以排列Affymetrix探针组。当映射到聚类形心界标转录物的Affymetrix探针组的等级(rank)为5或更大，映射到相应聚类中的80%或更多的非形心转录物的Affymetrix探针组的等级为100或更大时,该聚类形心界标转录物被认为是对于LMF测定而言‘经验证的’。并非所有建立经验证的聚类形心界标转录物的尝试都是成功的。已发现不满足验证标准的转录物有以下两类:(I)简单，其中跨越384个样品，形心转录物本身的测量相关性差；和(2)复杂，其中形心转录物的测量相关性好，但这些水平与来自其聚类的非形心转录物的水平的相关性不好。两种失败类型都不能预期。图5示出以下转录物经LMF和Affymetrix微阵列测量的标准化表达水平的图:在384个生物样品之一中的3个经验证的转录物(218039_at:NUSAPl, 201145_at:HAXl, 217874_at: SUCLG1)、一个代表性的 I 类失败(202209_at:LSM3)和一个代表性的2类失败(217762_at:RAB31)。图6A示出以下转录物经LMF和Affymetrix微阵列测量的标准化表达水平的图:这些经验证的转录物之一和在384个生物样品的不同一个中的相同代表性的2类失败。图6B显示在相同生物样品中的相同转录物以及来自它们的聚类的3个转录物的表达水平(仅用Affymetrix微阵列测量)。仅经验证的转录物(218039_at:NUSAPl)的表达水平与其聚类中的转录物(35685_at:RINGl, 36004_at:1KBKG, 41160_at:MBD3)水平相关。2 类失败的转录物(217762_at:RAB31)表达水平与其聚类中所有转录物(48612_at:N4BPl, 57516_at: ZNF764,57539_at:ZGPAT)的水平不相关。具有简单(I类)失败的转录物以及它们的LMF探针对的基因特异性部分的代表性列表提供为表I。具有复杂(2类)失败的转录物以及它们的LMF探针对的基因特异性部分的代表性列表提供为表2。

使用备选探针对允许一部分失败的聚类形心界标转录物被验证。当这不成功时，失败的聚类形心界标转录物被同一聚类中的其它转录物替代。持续该过程直到对于所有1，000个聚类而言获得经验证的聚类形心界标转录物。这些界标转录物以及它们相应的LMF探针对的基因特异性部分的列表提供于表3。按照实施例1 (上文)建立专门用于该组经验证的界标转录物的相关性矩阵。实施例1V:通过1,000个转录物的测量而制备的全转录物组基因表达概况的产生和使用
本实施例描述一种使用亚转录物组数量的聚类形心界标转录物表达水平的测量来产生全转录物组基因表达概况的方法。本方法使用Peck等(“A method for high-throughputgene expression signature analysis (用于高通量基因表达标记分析的方法)
Biology 7:R61 2006)所述的LMF中等多重基因表达分析平台、Luminex FlexMAP 3D光寻址的微球体和流式细胞术检测系统、来自实施例1II (上文)的对于LMF而言经验证的1，000个聚类形心界标转录物(和相应的基因特异性序列)、来自实施例1II (上文)的相应的相关性矩阵、表达水平跨越所观察的范围的50个经验确定的不变的转录物、和开发的1，050个条形码序列。FlexMAP 3D系统允许同时定量测定排列在384孔板的孔中的样品中的500种不同分析物。因此，将1，000个界标转录物加上50个不变的转录物的表达水平测量分到3个孔。400个界标转录物在一个孔中测定，而300个界标转录物在2个另外孔的每一个中测定。50个不变基因在所有3孔中测定。该总体方法在本文中称为L1000，于是用于从经137种不同生物活性小分子的每一种处理的培养的人细胞中产生总共1，152个全转录物组基因表达概况。这些数据用于从头建立小部分连通图的类似物，并将L1000形式的相关表现与初始的那些进行比较。针对1，000个界标和50个不变的转录物的每一个构建LMF探针对，使得每对掺入1，050个条形码序列中的一个。以等摩尔量混合探针，形成探针对混合物。使用标准方法，获得与每个条形码序列互补的捕获探针并与光可区分的微球体的500个同质群之一偶联。建立表达捕获探针的微球体的3个混合物；一个混合物含有偶联到与在400个界标探针对中的条形码互补的捕获探针上的珠，第二混合物含有匹配不同的300个界标探针的珠，第三混合物含有匹配剩余300个界标探针的珠。各混合物含有表达匹配对应于50个不变的转录物的探针对的条形码的珠。在384孔板中用小分子和相应溶媒处理MCF7细胞。裂解细胞，捕获mRNA，合成第一链cDNA，并按照公开的LMF方法(Peck等)，使用1，000个界标加上50个不变的转录物探针对混合物进行连接介导的扩增。将PCR步骤之后获得的扩增子混合物分在新鲜384孔板的3个孔中，并且也按照公开的LMF方法，使各混合物与每孔每地址大约500个珠的珠密度下的这3个珠混合物之一杂交。将捕获的扩增子用藻红蛋白标记，并且按照制造商使用说明用FlexMAP 3D仪器分析所得微球体群。每一检测孔的每一微球体群的中位荧光强度(MFI)值与它们相应的转录物和样品相关联。相对于得自同一检测孔的不变的转录物组的那些，增减每个界标转录物的MFI值，并且将来自同一样品的所有增减的MFI值都连接起来，以便产生每一处理样品中1，000个界标转录物的每一个的标准化表达水平的列表。通过用每个界标转录物的表达水平乘以相关性矩阵中含有的权重并求和，来计算未测量转录物的预测表达水平。合并计算的和测量的表达水平，以建立每一样品的全转录物组基因表达概况。如 Lamb 等(“The Connectivity Map: using gene-expressionsignatures to connect small molecules, genes and disease (连通图:使用基因表达标记以连通小分子、基因和疾病)”313: 1929-1935 2006)所述，对于每对处理和相应溶媒对照概况计算转录物的等级-排序表，得到含有总共782种小分子处理实例的连通图数据组的类似物。按照Lamb等的方法，对于源自三种经生化证实的组蛋白脱乙酰酶(HDAC)抑制剂化合物的效应的独立的全转录物组基因表达分析的已公开的查询标记，计算在原始连通图(用Affymetrix微阵列建立)和L1000类似物中对于每一干扰物的富集评分。Glaser等，“Gene expression profiling of multiple histone deacetylase (HDAC) inhibitors:defining a common gene set produced by HDAC inhibition in T24 and MDA carcinomacell lines (多个组蛋白脱乙酰酶(HDAC)抑制剂的基因表达概况分析:在T24和MDA癌细胞系中定义由HDAC抑制产生的常见基因组).” Cancer Ther 2:151-163 (2003)。正如预期的那样，在原始Affymetrix连通图中具有最高评分的小分子是伏林司他，一种已确定的HDAC抑制剂(富集评分=0.973，n=12, p-值〈0.001) 0然而，在L1000数据组中伏林司他也是最高评分的干扰物(评分=0.921，n=8, -值〈0.001)。参见图7。针对这两个数据组执行额外的95个查询标记。在原始连通图中具有最高评分的干扰物在这些实例中的79例(83%)中在L1000数据组中也具有最高评分。这些数据显示，在全转录物组基因表达概况分析的一个有用的应用中，L1000可替代直接测量转录物组中的所有转录物表达水平的技术，尤其是Affymetrix高密度寡核苷酸微阵列。实施例V:通过1,000个转录物的测量而制备的全转录物组基因表达概况用于细胞系的聚类的用途
按照实施例1V所述的L1000方法，使用亚转录物组数量的聚类形心转录物表达水平的测量和剩余转录物的推断，从源自6种组织类型的44个培养的人癌细胞系中分离的总RNA产生全转录物组基因表达概况。使用Affymetrix U133 Plus 2.0高密度寡核苷酸微阵列从这些相同的总RNA样品中产生全转录物组基因表达数据，用于比较。按照它们相应的基因表达概况的一致性分层聚类将细胞系分组在一起(Monti等“Consensus Clustering: A resampling-based method for class discovery andvisualization of gene expression microarray data (一致性聚类:用于基因表达微阵列数据的类发现和可视化的基于重取样方法).Machine Learning Journal 52: 91-1182003)。所用的相似性度量是皮尔森相关性(Pearson correlation)。进行125次聚类迭代。在每次迭代中，使用38个(85%)的样品并排除6个。正如所预期的，用Affymetrix数据进行的一致性聚类的结果将来自相同组织的细胞系放入系统树图的同一分枝，只有极少数例外(图8A)。已经报道了许多类似的这类发现° Ros s 等,“Systematic variation in gene expression patterns in humancancer cell lines (人癌症细胞系中的基因表达模式的系统变异)”Genetics24: 227-235 2000)。引人注目地，L1000数据的聚类也将具有相同组织来源的细胞系放入系统树图的同一分枝中(图8B)。本实施例显示，在全转录物组基因表达概况分析的第二个有用的应用中，L1000可替代直接测量转录物组中的所有转录物表达水平的技术，尤其是Affymetrix高密度寡核苷酸微阵列；也就是说，基于生物相似性将样品分组。实施例V1:通过1,000个转录物的测量而制备的全转录物组基因表达概况用于基因-组富集分析的用途
按照实施例1V所述的L1000方法，在用脂多糖(LPS)或溶媒对照处理之后，在原代人巨噬细胞中测量1，000个聚类形心转录物的表达水平，并用于建立由22，268个转录物的表达水平组成的基因表达概况。这些数据以及来自Molecular Signatures Database第3版的512个基因-组的文库，用作基因-组富集分析(Gene-Set Enrichment Analysis,GSEA)的输入(Subramanian 等，“Gene set enrichment analysis: A knowledge-basedapproach for interpreting genome-wide expression profiles (基因-组富集分析:用于解释全基因组表达概况的基于知识的方法)”Natl Acad Sci 102: 15545-155502005)。
已知LPS是NF- κ B转录因子复合物的强效激活物(Qin等，“LPS induces CD40gene expression through the activation of NF-κ B and STAT-1 a in macrophagesand microglia (在巨噬细胞和小胶质细胞中，LPS通过NF-κ B和STAT-1 α激活而诱导CD40基因表达)”财ooi/ 106: 3114-3122 2005)。因此并非意料之外的是，由典型的NF- κ B信号转导途径(B10CARTA_NFKB_PATHWAY)的23个成员组成的基因-组在测试的所有基因-组中得到最高评分(p〈0.001)。本实施例显示，LlOOO可产生与全转录物组基因表达概况分析的第三个有用的应用(即基因-组富集分析)相容的数据。然而，该分析的更密切的检查揭示，在B10CARTA_NFKB_PATHWAY基因-组中的23个转录物没有一个被明确地测量。本实施例因此也证明该方法甚至在推断所有目标转录物表达水平的极端情况下的用途。实施例VI1:空前大小的全转录物组基因表达数据组的建立实施例1V中描述的L1000方法用于建立具有来自一组用不同剂量和处理持续时间下的多种化学和遗传干扰物处理的培养的人细胞的、超过100，000全转录物组基因表达概况的连通图。由于高成本和低通量，用现有全转录物组基因表达概况分析技术(例如Affymetrix GeneChip)建立这样大小的数据组是不切实际的。因此，本实施例证明了本发明一般而言对基因表达概况分析领域的革新作用，尤其是影响医学相关问题的潜力。表1.代表性的I类(简单)界标转录物/探针对失败
权利要求
1.一种使用亚转录物组数量的转录物测量来制备全转录物组mRNA表达概况分析平台的方法，所述方法包括: a)提供: i)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库； ii)第二生物样品集合； iii)来自所述第二生物样品集合的全转录物组mRNA表达数据的第二文库； iv)能测量转录物表达水平的装置； b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量实质上小于所有转录物的总数； c)在所述多个转录物聚类的每一个内鉴定形心转录物，由此建立多个形心转录物，所述剩余转录物为非形心转录物； d)用所述装置测量来自所述第二生物样品集合的至少一部分转录物的表达水平，其中所述部分的转录物包括经鉴定为来自所述第一文库的所述形心转录物的转录物； e)确定所述形心转录物表达水平的所述测量用以推断来自所述第二文库的至少一部分转录物的水平的能力，其中所述部分由非形心转录物组成； f)选择其所述表达水平具有推断所述部分的非形心转录物水平的所述能力的所述形心转录物。
2.权利要求1的方法，其中所述多个形心转录物为大约1000个形心转录物。
3.权利要求1的方法，其中所述装置选自微阵列、珠阵列、液体阵列和核酸测序仪。
4.权利要求1的方法，其中所述计算分析包括聚类分析。
5.权利要求1的方法，其中所述方法还包括重复步骤c)至f)直到所述多个转录物聚类的每一个的经验证的形心转录物被鉴定。
6.权利要求1的方法，其中所述多个转录物聚类是正交的。
7.权利要求1的方法，其中所述多个转录物聚类为非重叠的。
8.权利要求1的方法，其中所述确定包括所述形心转录物的所述表达水平与所述非形心转录物的所述表达水平之间的相关性。
9.权利要求1的方法，其中实质上不变的转录物组的表达水平还用所述装置在所述第二生物样品集合中测量。
10.权利要求9的方法，其中相对于实质上不变的转录物组的表达水平，对用所述装置进行的所述形心转录物的所述测量以及来自所述第一和第二文库的所述mRNA表达数据进行标准化。
11.一种在转录物组内鉴定预测性转录物亚群的方法，所述方法包括: a)提供: i)来自第一生物样品集合的全转录物组mRNA表达数据的第一文库； ii)第二生物样品集合； ii)来自所述第二生物样品集合的全转录物组mRNA表达数据的第二文库； iii)能测量转录物表达水平的装置； b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量小于所述第一文库中所有转录物的总数；c)在所述转录物聚类的每一个内鉴定形心转录物，由此建立多个形心转录物，所述剩余转录物为非形心转录物； d)在所述装置上处理来自所述第二生物样品集合的转录物，以测量所述形心转录物的表达水平，和 e)确定在所述装置上测量的所述多个形心转录物中预测全转录物组数据的所述第二文库中的所述非形心转录物水平的转录物。
12.权利要求11的方法，其中所述多个形心转录物为大约1000个形心转录物。
13.权利要求11的方法，其中所述装置选自微阵列、珠阵列、液体阵列和核酸测序仪。
14.权利要求11的方法，其中所述计算分析包括聚类分析。
15.权利要求11的方法，其中所述确定包括所述形心转录物与所述非形心转录物之间的相关性。
16.权利要求11的方法,其中所述方法还包括重复步骤c)至e)。
17.一种在转录物组内鉴定大约1000个预测性转录物的亚群的方法，所述方法包括: a)提供: i)来自第一生物样品集合的代表大于1000个不同转录物的全转录物组mRNA表达数据的第一文库，和 )来自第二生物样品集合的转录物； b)对所述第一文库进行计算分析，使得建立多个转录物聚类，其中所述聚类的数量为大约1000并且小于所述第一文库中的所有转录物的总数； c)在所述转录物聚类的每一个内鉴定形心转录物，所述剩余转录物为非形心转录物； d)处理来自所述第二生物样品集合的转录物，以便测量非形心转录物的表达水平以建立第一测量，和测量形心转录物的表达水平以建立第二测量；和 e)根据所述第一测量确定哪些形心转录物根据所述第二测量预测所述非形心转录物的水平，由此在转录物组内鉴定预测性转录物的亚群。
18.权利要求17的方法，其中所述方法还包括能测量所述形心转录物表达水平的装置。
19.权利要求18的方法，其中所述装置能测量大约1000个所述形心转录物的表达水平。
20.权利要求17的方法，其中所述计算分析包括聚类分析。
21.权利要求17的方法，其中所述确定包括所述形心转录物与所述非形心转录物之间的相关性。
22.权利要求17的方法，其中所述方法还包括重复步骤c)至e)。
23.一种通过测量第二转录物群的表达水平来预测第一转录物群的表达水平的方法，所述方法包括: a)提供: i)包含第二转录物异质群的第一转录物异质群，所述第二群构成所述第一群的亚组， )能预测不在所述第二群内的所述第一群内的转录物表达水平的算法，所述预测基于在所述第二群内测量的转录物表达水平；b)在建立仅代表所述第二转录物群的多个不同模板的条件下处理所述第一转录物异质群； C)测量所述不同模板的每一个的量以建立多个测量；和 d)将所述算法用于所述多个测量，由此预测不在所述第二群内的所述第一群内的转录物表达水平。
24.权利要求23的方法，其中所述第一转录物异质群包含多个非形心转录物。
25.权利要求23的方法，其中所述第二转录物异质群包含多个形心转录物。
26.权利要求23的方法，其中所述方法还包括能测量大约1000个所述不同模板的量的装置。
27.权利要求26的方法，其中所述装置选自微阵列、珠阵列、液体阵列和核酸测序仪。
28.权利要求23的方法，其中所述算法包括相关性矩阵。
29.一种测定基因表达的方法，所述方法包括: a)提供: i)大约1000个不同条形码序列； )大约1000个珠，每个珠包含同质核酸探针组，每一组与所述大约1000个条形码序列的不同条形码序列互补； iii)超过1000个不同转录物的群，每个转录物包含基因特异性序列；` iv)能预测未测量的转录物表达水平的算法； b)处理所述转录物群以建立大约1000个不同模板，每一模板包含与不同基因特异性序列有效连接的所述大约1000个条形码序列中的一个，其中所述大约1000个不同模板代表小于所述群内的转录物总数； c)测量所述大约1000个不同模板的每一个的量以建立多个测量；和 d)将所述算法用于所述多个测量，由此预测所述群内未测量的转录物表达水平。
30.权利要求29的方法，其中所述方法还包括能测量所述大约1000个不同模板的每一个的量的装置。
31.权利要求29的方法，其中所述珠是光寻址的。
32.权利要求29的方法，其中所述处理包括连接介导的扩增。
33.权利要求31的方法，其中所述测量包括检测所述光寻址珠。
34.权利要求31的方法，其中所述测量包括通过与所述大约1000个条形码序列互补的所述核酸探针使所述大约1000个不同模板与所述大约1000个珠杂交。
35.权利要求31的方法，其中所述测量包括流式细胞仪。
36.权利要求29的方法，其中所述算法包括相关性矩阵。
37.一种包含扩增的核酸序列的组合物，其中所述序列包括至少一部分聚类形心转录物序列和条形码序列，其中所述组合物还包括光寻址珠，并且其中所述珠包括与所述条形码杂交的捕获探针核酸序列。
38.权利要求37的组合物，其中所述条形码序列与所述捕获探针核酸至少部分互补。
39.权利要求37的组合物，其中所述扩增的核酸序列被生物素化。
40.权利要求37的组合物，其中所述光寻址珠可用流式细胞术系统检测。
41.权利要求40的组合物，其中所述流式细胞术系统辨别大约500- 1000个光寻址珠。
42.一种建立全基因组表达概况的方法，所述方法包括: a)提供: i)源自生物样品的多个基因组转录物； )构成至少一部分所述基因组转录物的多个形心转录物，所述剩余基因组转录物为非形心转录物； b)测量所述多个形心转录物的表达水平； c)根据所述形心转录物表达水平来推断所述非形心转录物表达水平，由此建立全基因组表达概况。
43.权利要求42的方法，其中所述多个形心转录物包括大约1，OOO个转录物。
44.权利要求42的方法，其中所述测量包括选自微阵列、珠阵列、液体阵列和核酸测序仪的装置。
45.权利要求42的方法，其中所述推断包括相关性矩阵。
46.权利要求42的方法，其中所述全基因组表达概况将所述生物样品鉴定为患病。
47.权利要求42的方法，其中所述全基因组表达概况将所述生物样品鉴定为健康。
48.权利要求42的方法，其中所述全基因组表达概况提供干扰物作用的功能性读出。
49.权利要求42的方法，其中所述全基因组表达概况包括适用于连通图的表达概况。
50.权利要求49的方法，其中比较所述表达概况与查询标记的相似性。
51.权利要求42的方法，其中所述全基因组表达概况包括适用于连通图的查询标记。
52.权利要求51的方法，其中比较所述查询标记与已知全基因组表达概况的相似性。
53.—种试剂盒，所述试剂盒包括: a)包含源自转录物组的多个形心转录物的第一容器； b)包含适合在生物样品内测量所述多个形心转录物表达水平的缓冲剂和试剂的第二容器； c)用于根据所述多个形心转录物表达水平在所述生物样品内推断非形心转录物表达水平的一组使用说明。
54.权利要求53的试剂盒，其中所述多个形心转录物为大约1，000个转录物。
55.—种制备全转录物组mRNA表达概况的方法,所述方法包括: a)提供: i)数量实质上小于所有转录物总数的经验证的形心转录物的组合物； )能测量所述经验证的形心转录物表达水平的装置； iii)根据通过所述装置测量的所述经验证的形心转录物表达水平和建立自生物样品集合的全转录物组mRNA表达数据文库的转录物聚类信息，能实质上计算不在所述经验证的形心转录物组中的转录物表达水平的算法；和 iv)生物样品； b)将所述生物样品用于所述装置，由此测量所述生物样品中的所述经验证的形心转录物表达水平； c)将所述算法用于所述测量，由此建立全转录物组mRNA表达概况。
56.权利要求55的方法，其中所述经验证的形心转录物包括大约1，000个转录物。
57.权利要求55的方法，其中所述装置选自微阵列、珠阵列、液体阵列和核酸测序仪。
58.权利要求55的方法，其中在所述生物样品中还测量实质上不变的转录物组的表达水平。
59.权利要求55的方法，其中相对于所述不变的转录物的所述表达水平，对所述经验证的形心转录物的所述表达水平进行标准化。
全文摘要
本发明提供用于制备和使用全转录物组基因表达概况分析平台的组合物和方法，所述平台仅测量转录物总数的选定亚组的表达水平。因为据信基因表达是高度相关的，所以少数(例如1,000个)适当选择的转录物的直接测量允许推断转录物的表达水平。因此，相对于需要测量所有转录物的众所周知的常规方法而言，本发明具有降低全转录物组基因表达概况分析的成本和增加其通量的潜力。
文档编号G01N33/50GK103168118SQ201180027991
公开日2013年6月19日申请日期2011年4月6日优先权日2010年4月6日
发明者D.D.佩克, J.兰布, T.R.戈卢布, A.苏布拉马尼安申请人:麻省理工学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.D.佩克;J.兰布;T.R.戈卢布;A.苏布拉马尼安
技术所有人：麻省理工学院
我是此专利的发明人

上一篇：使用血液中的循环黑素瘤细胞为黑素瘤患者预测临床结果的方法
上一篇：光学传感器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。