用于药靶诊断、预后和鉴别的单细胞基因表达的制作方法

文档序号:6000093阅读:250来源:国知局
专利名称:用于药靶诊断、预后和鉴别的单细胞基因表达的制作方法
用于药靶诊断、预后和鉴别的单细胞基因表达交叉参考本申请要求保护2009年1月20日提交的美国临时申请No. 61/205,485的利益, 该申请在此引做参考。政府权力本发明是在国家癌症研究所授予的联邦基金TO4CA1265M的政府支持下完成的。 政府在本发明中具有一定权利。
背景技术
近年,基因表达模式的分析提供了改善很多疾病的诊断和风险层化的方法。例如, 未监管的全局基因表达模式(glottal gene expression pattern)的分析已经在分子水平鉴别出癌的不同亚型,其通过基因表达的广泛不同区分基于标准诊断方法认为同质的疾病。这样的分子亚型经常与不同的临床结果相关。全局基因表达模式还可用于检查与临床行为相关的特征以产生预后标志。同很多疾病一样,癌通常不是由单一的明确的原因引起的,而可以被视为多种疾病,每一种均由不同的信息路径偏离引起,其最终导致明显相似的病理表现型。在癌症、癌前或相对于相同组织类型的正常细胞而言低转移潜能的细胞中差异表达的多核苷酸的鉴别可提供诊断工具的基础,通过提供候选试剂的靶点有助于药物的发现,并进一步可用于鉴别对于被治疗的癌的类型更加合适的癌治疗的治疗靶点。差异表达的基因产物的鉴别也推进对复杂疾病的进展和性质的理解,而且其对鉴别引起与例如转移或炎症表现型的发展相关的表现型的遗传因子是关键的。在不同阶段和不同细胞类型差异表达的基因产物的鉴别既可提供早期的诊断试验,还可进一步作为治疗的靶点。另外,差异表达的基因产物可以是鉴别调节其活性(如其表达、生物活性等等)的化疗制剂的筛选试验的基础。早期疾病诊断对于阻止疾病的进展和降低发病率非常重要。分析患者样本以鉴别基因表达模式提供了更特异的合理的疾病治疗的基础,其可产生与传统治疗相比更少的副作用。而且,确认损害对患者具有较小的风险(如肿瘤是良性的)可避免不必要的治疗。简言之,疾病相关细胞中基因表达模式的鉴别可提供治疗、诊断、预后、治疗测定 (therametrics)等等的基础。作为另一个例子,感染性疾病引起组织和器官的损伤,导致特定生物体的发病率和死亡率。在A型流感感染的例子中,最常见的住院和死亡的原因是肺组织感染。可是,在单细胞水平,并不知道流感感染的确切的细胞,以及修复损伤的肺的细胞。这样的知识有助于鉴别用于干扰的治疗靶点,如预防病毒感染的新药,减少发病率的新疗法。许多肿瘤含有混合群的与其用于生长和存活的信号通路相关的不同的癌细胞。由于这些癌细胞对特定治疗的反应不同,癌干细胞特定群的抗性导致了细胞毒的放疗和化疗后的复发。因此,临床治疗的失败部分归因于癌细胞特定群对治疗的抗性。治疗不久后经常观察到的肿瘤的初期缩小仅反应了癌细胞某一亚群相对的敏感性,其可包括肿瘤容积,对长期的存活并不重要。因此,评价治疗反应和预后的最重要的临床变量不是绝对的肿瘤大小,而是治疗后残存的癌细胞特定群的绝对数。如果人们能够鉴别这些肿瘤中癌细胞不同群使用的信号通路的不同,那么人们就可以设计靶向细胞的每个群的治疗。通过靶向所有的群,人们可以通过使用影响不同群的药物治疗来消除肿瘤。作为另一个例子,炎症性肠疾病导致肠正常结构的破坏,从而引起诸如腹泻、出血和吸收不良的问题。这些问题是由正常的肠道粘膜内衬破坏引起的。结肠的粘膜内衬由隐窝组成,其中杯形细胞、干细胞和祖细胞在隐窝基部,而包括肠细胞和杯形细胞的成熟细胞位于隐窝的顶部。患有炎症性肠疾病时,不清楚哪一细胞群受损伤以及修复损伤粘膜需要的信号通路。使用少量细胞精确确定疾病损伤中细胞的数量和表现型的方法对于预后、诊断鉴别可被特定治疗靶向的多种疾病的信号通路具有重要意义,所述疾病包括炎症性肠疾病、 感染、癌、自体免疫性疾病如风湿性关节炎和感染。本发明解决此问题。

发明内容
本发明提供了单细胞基因表达概要和/或转录组分析使用的组合物和方法。本文提供的一种方法是鉴别异质性实体肿瘤样本中不同细胞群的方法,包括从肿瘤中随机分隔单独的细胞至分离的位置;对在分离的位置中的单独分割的细胞的多种基因进行转录组分析;进行聚类分析以鉴别一个或多个不同的细胞群。在某些例子中,分隔前单独的细胞没有被富集。可以在至少1000个单独的细胞上同时进行转录组分析。可以使用核酸分析进行转录组分析。分离的位置可以在平面基质上。在某些具体实施方案中,在微流体系统中进行随机分隔。转录组分析可包括分析表达的RNA、非表达的RNA或二者。转录组分析可以是全转录组分析。转录组分析可以包括使用一单套引物对扩增RNA,在一些具体实施方案中,该引物对是非巢式引物。转录组分析可以在单独的细胞全部或亚类上同时或基本上实时进行。一个或多个细胞群可以是正常的干细胞、正常的祖细胞、正常的成熟细胞、炎症细胞、癌细胞、癌干细胞或非致癌的干细胞。本文进一步提供了分析受试者异质性肿瘤活组织检查样本的方法,包括从活组织检查样本中随机分隔细胞至分离的位置;进行单独分隔的细胞的至少50个基因的转录组分析;及使用转录组数据来鉴别一个或多个肿瘤的特征。可不事先富集细胞类型而进行执行步骤。鉴别出的特征可以是癌细胞存在、不存在或数目。鉴别出的特征还可以是干细胞、早期祖细胞、初始分化的祖细胞、后期分化的祖细胞或成熟细胞的存在、不存在或数目。 鉴别出的特征还可以是治疗剂消除一个或多个细胞的有效性。鉴别出的特征还可以是信号路径的活性,例如,癌干细胞、分化的癌细胞、成熟的癌细胞或其组合的特定路径。本文公开的方法可进一步包括使用特征诊断受试者患癌或癌阶段的步骤。本文公开的另一种方法是鉴别疾病状态细胞利用的信号路径的方法,包括从异质性样本中随机分隔细胞;在分隔的细胞上进行转录组分析;使用转录组分析鉴别至少一个疾病状态的细胞;将至少一个疾病状态的细胞的转录组分析与以下细胞的转录组进行比较a)非疾病状态细胞;b)不同的疾病状态细胞;以及c)疾病状态干细胞;和鉴别下列细胞中表达的信号通路⑴疾病状态细胞,(ii)疾病状态干细胞,以及(iii)任选地不同疾病状态细胞中,但不是非疾病状态细胞中,从而鉴别疾病状态细胞利用的信号路径。疾病状态是癌、溃疡性结肠炎或炎症性肠疾病。在某些具体实施方案中,所述疾病状态细胞的生存需要该信号通路。本公开还提供了用于诊断受试者具有病状的方法,包括从异质性样本中随机分隔细胞;在分隔的细胞上进行第一次转录组分析;通过比较来自至少一个疾病状态细胞的第一次转录组分析与来自非疾病状态细胞的第二次转录组分析,使用转录组分析鉴别至少一个疾病状态细胞,从而诊断所述受试者中与疾病状态细胞相关的病状的存在与否。疾病状态可以是乳腺癌、结肠癌、溃疡性结肠炎或炎症性肠疾病。转录组分析可包括分析表达的 RNA、非表达的RNA或二者。转录组分析可以是全转录组分析。本文提供的另一种方法是用于筛选治疗剂的方法,包括将具有疾病状态细胞的第一受试者暴露于一个或多个测试制剂;从受试者目标区域获得异质性肿瘤活组织检查样本;在来自异质性肿瘤活组织检查样本的至少一个单个细胞上进行转录组分析,其中,活组织检查样本包括一个或多个疾病状态细胞;和将转录组分析与来自以下二者之一的转录组进行比较(i)不具有疾病状态细胞的第二受试者;或(ii)所述暴露步骤前的第一受试者; 以及鉴别影响来自试验区域细胞转录组使其更像第二受试者或暴露前的第一受试者的转录组的试剂。病状可以是乳腺癌、结肠癌、溃疡性结肠炎或炎症性肠疾病。治疗剂可以是抗体或抗体片段、小分子、核酸(例如siRNA)、RNA、DNA、RNA-DNA嵌合体、蛋白质或多肽。本公开还提供了确定治疗剂治疗疾病的潜在有效性的方法,包括分离疾病状态细胞的第一群至单独的位置,其中单独的位置包括单独的细胞;确定来自至少一个单独的细胞的至少一个核酸或蛋白质的表达水平,从而生成疾病状态表达标记;将疾病状态细胞的第二群暴露于一种制剂;分离疾病状态细胞的第二群至单独的位置,其中单独的位置包括单独的细胞;确定来自第二群的至少一个单独的细胞的至少一个核酸或蛋白质的表达水平;和将来自第二群的单独的细胞的表达水平与疾病状态表达标记比较,从而确定制剂治疗疾病的有效性。暴露步骤可在体内进行。在一些例子中,第一群和第二群分离自一个受试者,例如人。疾病可以是癌、溃疡性结肠炎或炎症性肠疾病。核酸或蛋白质可以是癌细胞标记物、癌干细胞标记物或二者。表达水平可以是mRNA的表达水平。在一些具体实施方案中,确定mRNA表达水平包括检测10个或更多个核酸的表达或不表达。表达水平也可以是蛋白质的表达水平。分离步骤可以包括将细胞群暴露于特异性结合在单独的细胞上存在的蛋白质的抗体。本文进一步提供了确定受试者对治疗剂反应的可能性的方法,包括从受试者分离细胞群至单独的位置,其中单独的位置包括单独的细胞和其中至少一个单独的细胞是疾病状态细胞;确定来自至少一个疾病状态的单独的细胞的至少一个核酸或蛋白质的表达水平,其中核酸或蛋白质是治疗剂的靶标;和基于至少一个核酸或蛋白质的表达水平确定受试者反应的可能性。表达水平可以是mRNA的表达水平。在某些具体实施方案中,确定mRNA 的表达水平包括检测10个或更多个核酸的表达或不表达。表达水平还可以是蛋白质的表达水平。分离步骤可以包括将细胞群暴露于特异性结合存在于单独的细胞上的蛋白质的抗体。治疗剂可以是抗癌剂。本文详述的另一种方法提供了利用单独的细胞的基因表达预后或诊断的方法,包括步骤从异质性样本中分离细胞至分别的可定地址的位置;裂解单独的细胞,并将得到的裂解物分成至少2个部分;扩增由此单独的细胞获得的mRNA或cDNA ;确定一个裂解物部分的基因表达概况,其中基因表达概况提供了亚群的信息;并在靶亚群中的至少一个细胞上进行转录组分析。在某些方法中,分析了至少IO2或至少IO3个单独的细胞。可根据至少一个细胞表面标记物的表达分类细胞。通过本文公开的方法分析的细胞可以是干细胞,例如造血干细胞。初始样本可以包括少于IO6或少于IO5个细胞。可以根据⑶34和Thyl的表达的至少一个分类细胞。在某些具体实施方案中,确定了至少一个或至少五(5)个与造血干细胞相关的基因的表达。转录组分析可以是全转录组分析。本文进一步提供了分类干细胞的方法,包括步骤(a)从样本中获得干细胞转录组概况;和(b)将获得的转录组概况与参考的干细胞转录组概况比较。转录组概况可以包括从至少大约5个干细胞相关蛋白质得到的数据组。被分析的干细胞可以是癌干细胞、造血干细胞、肠干细胞、白血病干细胞或肺干细胞。被分析的样本可包括来自癌的细胞,例如乳腺癌或结肠癌。转录组概况分析还可以包括另外的步骤从干细胞样本中提取mRNA ;定量对应于干细胞特异序列的一个或多个mRNA种类的水平;和将一个或多个mRNA种类的水平与参考样本中所述mRNA种类的水平相比较。本文还提供了收集转录组相关数据的方法,包括步骤使用本文所述的任何方法收集转录组相关的数据,将所述数据传送至计算机。将计算机连至测序仪。传送后可将转录组相关的数据储存,例如可将数据保存于可从计算机中提取的计算机可读介质上。数据可从计算机传送至远处,如经由因特网。


本专利或申请文件包含至少一个彩图。带有彩图的本专利或专利申请公布的复制件可通过请求和支付必要的费用从专利局获得。图1、从N0D/SCID小鼠异种移植的人结直肠癌组织(肿瘤#4m6)纯化的人“结直肠癌干细胞”(EpCAMhigh)的实时PCR的单细胞基因表达分析。在第一个实验中(组A),分析16个单细胞的5个基因的表达,每一个细胞基因组合进行27个重复;在此实验中,单独的单细胞的每个mRNA制备物用在反应基质的3个连续的行,每一个基因特异的引物组用在 9个连续的列,仅有的一处例外为前3列不加引物;以使用色度的3x9个斑块可视化每个单个的细胞的基因表达水平。在第二个实验中(组B),进行相似的方法,其中分析16个单细胞的16个基因的表达,每个细胞基因组合进行9个重复;在此第二个情况中,单独的单细胞的每个mRNA制备物用在反应基质的3个连续的行,每一个基因特异的引物组用在3个连续的列,从而可以以使用色度的3x3个斑块可视化每个单个的细胞的基因表达水平。在两种情况中,试验显示了每一组重复中的高水平的可重复性和一致性。图2、人“结直肠癌干细胞”(来自异种移植#8m3的EpCAMhigh/CD166+细胞)的实时 PCR的单细胞基因表达分析。在此图中,每一行鉴别一个单细胞,每一列鉴别一个不同的基因。使用色码描绘基因表达的强度,其中深红色表示较强强度,深绿色表示较弱强度。分析清楚地显示基于其转录组的所有组成,EpCAMhigh/⑶166+肿瘤细胞可被细分为不同的亚组。 最重要的是,显示同等的和同时的高水平的编码结肠上皮的终末分化标记物(如细胞角蛋白20、⑶66a/CEACAMl、碳酸酐酶II、MUC2、三叶因子3)的基因的表达的细胞亚组不表达或低水平表达编码候选肠干细胞标记物的基因或已知的干细胞功能必需的基因(如hTERT、 LGR5、生存素),并且反之亦然。
图3A-B、a 从携带有乳腺肿瘤的N0D/SCID小鼠的肺细胞中纯化 MTICirESA+HI-。上面的组门控(gated) HI-Dapilviable谱系),下面左侧的组门控ESA+ 细胞以用于在下面右侧的组中进一步门控⑶对虹,细胞。b =HIFla, Snail2、Zeb2、上皮细胞钙粘蛋白、波形蛋白(Vimentin)、VEGFC, CCR7、Lox、Cox2在MTIC和非TIC中的mRNA水平的实时PCR分析。图4、比较初始TIC和MTIC的微RNA (miRs)水平的实时PCR分析的CT值。图5A-5D、作为乳腺癌的非致癌癌细胞标记物的⑶66a。图6、18个细胞样品的几千个CNV的拷贝数变体分析。几个可能与基因组的不稳定性相关并导致改变的多能性干细胞性状。图7、单细胞分析设备、原理。图8、干细胞关联基因表达的基因集合富集分析。在乳腺癌干细胞(CSC)和它们的非致癌性后代(NTG)中分析由自我更新的正常的HSC、源自粒细胞/巨噬细胞祖细胞(GMP) 的白血病干细胞,而不是由非自我更新的正常的GMP表达的基因。如预期的一样,这些基因在CSC基因表达标记中显著地过度表示。表示了过表达基因的热图。图9、“在硅中”分类分离细胞罕见亚群的简图。通过FACS将如造血干细胞的细胞群分类至96孔板,包含单细胞。裂解细胞将裂解物分为2个部分。一部分裂解物用于分析一组基因的表达,允许根据转录而不是表面蛋白质的表达表征细胞。利用该信息,将选定的裂解物和/或从类似细胞收集的裂解物进行全转录组分析。图10、通过计算机收集、储存和传送数据的图示表示。
具体实施例方式本发明的方法利用原发性细胞(primary cell)的单细胞基因表达概况表征细胞群,用于疾病诊断、对特定治疗干预的敏感性、预后的应用以及新药靶的鉴别。异质性细胞样本被分为空间独立的单个细胞,任选地可根据目标性质(可能包括表面标记物)将其分类,然后将其裂解、扩增内容物、单独地分析目标基因的表达。因此,分析的细胞根据单独的细胞的遗传标记得到分类。这样的分类允许对检测样本的细胞成分的准确评价。传统的用于诊断目的的分析单细胞的方法包括使用库尔特计数器和流式细胞仪计数给定类型的细胞数。可是,这些测量典型地基于使用针对表面标记物的抗体,并不能在 mRNA水平测定基因表达或蛋白质表达。存在前面的单细胞PCR分析的例子,但这些例子在很少数量的细胞和或基因上进行,以提供有用的诊断信息或提供区分一个组织中细微的或相关的细胞亚群的能力。病理学家使用的组织染色的方法存在相似的缺陷,且强烈地依赖于病理学家的定性判断。而且,这些测量局限于检测少数的参数。然而,本发明的方法允许检测至少10、至少15、至少20、至少50、至少100、至少200、至少300、至少400、至少500或更多不同的参数,其中参数包括mRNA表达、基因表达,蛋白质表达和进一步包括与mRNA、基因和/或蛋白质表达结合的细胞表面标记物。在进一步描述发明之前,应该理解本发明不局限于下面描述的特定的具体实施方案,因为可以有特定具体实施方案的变化,其仍落在附加的权利要求的范围内。还应当理解使用的术语是为了描述特定的具体实施方案,而不是为了限制。在该说明书和附加的权利要求中,除非文中另外明确指出,单数形式“一个”、“一个”和“这个”包括复数形式。
在提供了数值范围时,应当理解,除非文中另外明确指出,每一个插入值,至下限的单位的十分之一(tenth)、在该范围的上限和下限之间以及在该所述范围内任何其他描述的或介入的值均包括在本发明内。这些较小范围的上限和下限可以独立地包括在较小范围内,也可以包括在本发明中,服从于所述范围内的特定的排除限。当所述范围包括一个或两个限值时,排除一个或两个这些被包括的限值的范围也可以包括在本发明中。除非另外定义,本文中使用的所有技术和科学术语与本发明所述领域的普通技术人员通常理解的意义相同。尽管在发明的实践和实验中可以使用与本文所述的方法、设备和材料相似或等同的任何方法、设备和材料,现在描述说明性的方法、设备和材料。本文提及的所有出版物通过引用并入本文中,以用于描述和公开这些出版物中描述的发明的主题内容,这些内容可能与现在描述的发明相关地应用。将细胞鉴别和分类为群和亚群本公开涉及鉴别细胞群和亚群并使用群和/或亚群诊断、预后和/或鉴别如疾病的病状的治疗靶点分类方法。疾病可以包括任何种类的癌(包括但不局限于实体瘤、乳腺癌、结肠癌、肺癌、白血病)、炎症性肠疾病、溃疡性结肠炎、自体免疫性疾病、炎症性疾病和感染性疾病。本公开还提供了用于实施所述主题方法的制剂和试剂盒,如用于检测本文描述的任何生物标记物的抗体和核酸探针,或调节本文的生物标记物的制剂。所述方法还可以确定用于特定癌治疗的适当水平。单细胞的分离提供了用于疾病诊断或预后应用的单细胞基因表达概况,以及鉴别新药靶点的研究工具。目标疾病包括但不局限于免疫介导的功能障碍、癌等等。在本发明的方法中,异质性细胞混合物,如肿瘤的针刺活组织检查样本、炎症性损伤的活组织检查样本、滑液、脊髓抽出液等,被随机地或以某种顺序分为空间独立的单细胞,如加入到多孔平板、微列阵、微流体仪或玻片。然后将细胞裂解,内容物扩增,单独地分析目标基因的表达。因此被分析的细胞根据个别细胞的遗传标记被分类。这样的分类允许精确地评估被检测样本的细胞成分,该评估可以发现用途,例如用于确定肿瘤中癌干细胞的特性和数目;用于确定免疫相关细胞的特性和数目,例如T细胞、树突细胞、B细胞等等的数目和特异性。在某些具体实施方案中,被分析的细胞样本是初始样本,其可被新鲜地分离、冰冻等。可是,被分析的细胞可以是培养的细胞。通常样本是细胞的异质性混合物,包括大量的不同细胞类型、不同群或不同亚群,如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、 19、20或更多的细胞类型、群或亚群。在某些具体实施方案中,样本是来自实体瘤、白血病、 淋巴瘤等的癌样本,其可是活组织检查样本,如针刺活组织检查样本等,扩散的肿瘤和白血病的血液样本,等等。样本可以获自诊断之前,可以获自治疗过程中,等等。为了从组织中分离细胞,使用适当的溶液以便分散或悬浮。这样的溶液通常是平衡的盐溶液,如普通盐水、PBS、Hank’ s平衡盐溶液等,合宜地补充有胎牛血清或其他天然存在的因子,以及低浓度的可接受的缓冲液,通常5-25mM。合宜的缓冲液包括HEPES、磷酸缓冲液、乳酸盐缓冲液等。可以在任何合适的保持细胞的生命力的培养基中收集分离的细胞, 通常在收集管的底部有血清垫。可以商购到不同的培养基并且可以根据细胞的特性使用, 包括通常补充有胎牛血清的dMEM、HBSS、dPBS、RPMI、Iscove介质,等等。在某些具体实施方案中,样本中的细胞在微列阵上被分离。例如,高度整合的肝细胞微列阵系统可以利用每一个足够大以恰好适合单细胞的微孔(参见Tokimitsu等人 (2007)Cytometry PartA 71k 1003 :1010 ;禾口 Yamamura等人(2005)Analytical Chemistry 77 8050 ;上述文献的每一个均特别地通过引用并入本文)。事先富集目标细胞,一例如通过FACS或其他分离方法一是任选的并且在一些具体实施方案中,来自样本的细胞被分离至分离的位置,事先不进行任何分离或富集。例如,来自样本(如血样、活组织检查样本、实体瘤)的细胞可以被单独地分离至不同的位置。典型地,对于实体瘤样本,样本被机械地、 化学地和/或酶法地分离(如通过用胰蛋白酶或超声处理)。来自样本的细胞可被放置在任何细胞分类仪上(如微流体细胞分类仪),从而使单独的细胞在如平板表面的可定地址的位置被分离。平板表面可以有凹痕、障碍或其他可以保证单独的细胞分离的特征。然后可以根据本文的方法分析分离的细胞。优选地,细胞可以被分离至不同的位置,其中每个位置含有1或0个细胞。任选的,例如通过流式细胞仪分类细胞后将细胞分离。例如,可以使用FACS分类或大小差异分类以根据细胞表面存在的一个或多个标记物增加至少1000、10000、100000 或更多倍的目标细胞的初始浓度。任选地,可根据细胞表面标记物,特别是目标群或亚群的标记物的存在和/或不存在分类这样的细胞。当细胞被分离至不同的位置用于分析时,可以使用微流体分类仪、通过流式细胞仪、显微镜等分类细胞。微制造的荧光激活的细胞分类仪在Fu等人(1999)NatUre Biotechnology 17 :1109 和 Fu 等人 Q002)Anal. Chem. 74 :2451-2457 中被描述了,二者的每一篇均通过引用并入本文。可以通过使用多层软蚀刻技术(multilayer soft lithography)的整合的微制造的细胞分类仪分类样本。该整合的细胞分类仪可以包含各种微流体功能,包括蠕动泵、减震器、开关阀和输入和输出孔,以协调的和自动的方式进行细胞分类。该整合的细胞分类仪上的控制阀的有效体积可以是如IpL—样小,且光学探询 (optical interrogation)的容积可如IOOfL —样小。与传统的FACS仪相比,微流体FACS 提供更高的灵敏度、无交叉污染和更低的成本。单个的细胞可以被分离至不同的位置(如96孔板或微列阵地址)以用于进一步的分析和/或操作。例如,包含造血干细胞(HSC)的细胞群利用能够从成熟细胞中区分HSC 的抗体通过FACS分析被分类。细胞被分类至96孔板,利用恰当的方法裂解,并通过qPCR、 微列阵分析和/或测序分析裂解物。用于单细胞分离的设备包括微流体细胞分类仪,其从细胞碎片中分离活细胞,并从单细胞悬液中分类细胞。微流体设备可以与来源于1、2、3、4、5或更多不同的表面标记的荧光信号联合应用(如针对目标群或亚群的标记物的标记的抗体),将它们放在独立的箱中用于随后的遗传分析。其他的上游步骤,例如消化肿瘤或细胞培养以获得细胞悬液并用荧光表面标记物染色可以并入该系统。待分析细胞的数量取决于样本的异质性,以及目标细胞在样本中的期待频率。通常分析至少大约IO2个细胞、至少大约103、至少切103、至少大约104、至少大约IO5至少大约106、至少大约107、至少大约108、至少大约109、至少大约 101Q、至少大约1011、至少大约1012、至少大约1013、至少大约1014、至少大约IO15或更多个细胞。在一些例子中,单细胞分析仪(SCAD)是按标准尺寸制造的并且可以以整体的全自动的方式进行以下步骤1)消化组织。将组织放置在设备的输入部分。适当的酶被引入设备中并被流入以进行细胞外基质消化以获得细胞悬液。幻从细胞碎片中分离活细胞,例如通过微流体“超材料”(metamaterial)流入被消化的样本悬液,其允许根据颗粒大小分开流体流。幻染色。任选地,在微流体仪的间隔内使用恰当的表面标记物染色被过滤的单细胞悬液。使用多达5个不同标记物的染色对获得癌细胞高纯度的群是有用的。4)分类。被染色的单细胞悬液流入微流体仪的下一个间隔以从剩余的细胞中分类出癌细胞。在实施例中描述了分类仪的多种具体实施方案。表汰概况可单独地裂解被分类的细胞以进行细胞的遗传的(RNA、DNA)和/或蛋白质成分的分析。mRNA可以在寡-dT珠子的柱子上捕获,在珠子上逆转录,处理离开芯片,转移至肉眼可见的孔等。任选地,DNA或RNA在分析前被预扩增。预扩增可以是全基因组或转录组, 或其部分(如,目标基因/转录物)。可将多核苷酸样本转移至芯片以用于分析(如通过 qRT-PCR)并确定表达概况。术语“表达概况”被宽范地使用以包括表达的蛋白质和/或表达的核酸。核酸样本包括大量的或一群不同的核酸,其可包括单个的细胞的目标表现型的决定性基因的表达信息。核酸样本可以包括RNA或DNA核酸,如mRNA、cRNA、cDNA等等。可以通过任何合宜的方式生成表达概况,以确定两个样本间的差异基因表达,如mRNA、标记的mRNA、扩增的mRNA、 cDNA等的定量杂交,定量PCR等等。分析受试者或患者样本,如细胞或其收集物,如组织。 可通过任何本领域中公知的合宜的方法收集样本。另外,可收集肿瘤样本,并检测肿瘤样本以确定其在正常和疾病细胞间治疗导致不同死亡的相对效果。目标基因/蛋白质是发现有预测性的基因/蛋白质,包括本文提供的基因/蛋白质,其中表达概况可以包括5、10、20、 25,50,100或更多的(包括所有的)列出的基因/蛋白质的表达数据。可以以如本领域中已知的数个不同的方式制备样本,如从单细胞分离mRNA,其中如差异表达领域中已知的用分离的mRNA扩增、使用,以制备cDNA、cRNA等(例如,参见 Marcus等人Anal Chem(2006) ;78 (9) :3084-89)。可从受试者中收获的任何组织(如损伤或肿瘤组织)制备样本。样本的分析可用于任何目的(如诊断、预后、分类、跟踪和/或开发治疗)。在分析前可培养细胞。使用任何传统的规程从初始的核酸样本生成表达概况。尽管已知许多不同的产生表达概况的方式,如用在差异基因表达分析领域中的那些,一个代表性的和合宜类型的生成表达概况的规程是定量PCR (QPCR或QT-PCR)。可利用任何可获得的进行QPCR的方法,例如,如 Valera 等人 J Neurooncol (2007) 85 (1) :1_10 中所述的。从被分析样本中获得表达概况后,可将表达概况与参照或对照的概况比较,以做出诊断、预后、药物有效性的分析或其他需要的分析。提供或可通过经验的方法获得参照或对照概况。将得到的表达概况与单一的参照/对照概况相比较以获得被分析的细胞/组织表现型相关的信息。另外可选择地,可将得到的表达概况与两个或更多个不同的参照/对照概况比较以获得更深一步的关于被分析的细胞/组织的表现型的信息。例如,可以将得到的表达概况与一个阳性和阴性参照概况比较,以获得关于细胞/组织是否具有目标表现型的确定信息。差异数值的确定或分析,即两个概况之间表达的不同,可使用任何传统的方法进行,其中很多方法是列阵领域技术人员已知的,如通过比较表达概况的数字图像,通过比较表达数据的数据库等等。描述比较表达概况的方式的专利包括但不局限于美国专利 6,308,170和6,228,575,其公开在此通过引用并入本文。本文中也描述了比较表达概况的方法。然后可进行统计分析步骤,以获得基因的组的加权贡献。例如,可以如Tibshirani 等人(2002) P. N. A. S. 99 :6567-6572中描述的最近缩小形心分析(nearest shrunken centroids analysis)计算每一类的形心,然后计算指定的表达概况和每一图心间的平均平方距离,用类内的标准偏差标准化。分类可以被概率地定义,其中截断值(Cut-off)可以根据经验产生。在本发明的一个具体实施方案中,可用大约0. 4的概率区分休眠的和诱导的患者,更通常的用大约0. 5 的概率,并且也可以用大约0. 6或更高的概率。“高”概率可以是至少大约0. 75,至少大约 0. 7,至少大约0. 6,或至少大约0. 5。“低”概率可以不超过大约0. 25,不超过0. 3,或不超过0. 4。在很多具体实施方案中,上面获得的关于被分析细胞/组织的信息可被用来预测宿主、受试者或患者是否应用目标疗法治疗以优化其剂量。细胞群和亚群的鉴定在本发明的一些具体实施方案中,例如,患有上皮样癌,包括但不局限于乳腺癌和结肠癌,根据癌干细胞标记物(如CD66a)表达的癌干细胞的鉴定可以鉴别CSC。有一种既具自我更新又具分化能力的致癌癌细胞的亚群。这些致癌细胞负责肿瘤的维持,也产生大量非正常分化的不具致癌性的后代,因此符合癌干细胞的定义。致癌潜能包含在差异表达本发明的标记物的癌细胞的亚群中。如本文所示,在阳性表达癌干细胞标记物的细胞群中具有异质性,如其中CD66阴性(CD66_)的细胞富含癌干细胞(致癌性),而CD66a+的细胞无致癌性。群中这样的异质性的检测能够确定亚群。本领域技术人员将意识到可以分析代表基因、转录物和/或蛋白质的多种序列。 这样的序列可以确定和/或区分样本中的细胞表现型。可以以样本中的目标群或亚群的多个方面为基础选择标记物或标记物组,例如, 组织来源(如神经的对上皮的)或疾病状态(如癌对非癌)。可使用本文中描述的方法确定用来区分细胞群(如从正常细胞区分癌干细胞)的其他序列,如通过检测目标群的基因中的变化(如上调或下调)。用于从另一群中区分一个群的核酸可以如群间所比较的上调或下调的。例如,癌细胞与正常细胞相比、干细胞与分化的细胞相比和癌干细胞与分化的癌细胞相比,某些核酸的表达上调或下调。在某些例子中,基因的上调或下调可被用于区分大群中的亚群。例如,某些核酸仅在正常细胞、正常细胞和癌干细胞或仅在癌干细胞中表达。当与另一个群或亚群、与已知表达水平或标准表达水平的特定核酸相比时核酸被上调或下调。另外可选择地,分析多基因表达时,可以通过减去平均值和每个基因独立地除以标准偏差创制热图,并且基于与平均值的偏差程度分配数值。例如,+/"I的值可以代表与平均值的2. 5-3的标准偏差。此类分析可进一步被细化,这样在“+/_3”范围内的基因可被用于群集不同类型的群(如癌指定的值是“+3”,正常细胞指定的值是“_3”,因此群集算法可以将其区分)。上调的基因可以具有“ + ”值。在某些例子中,可以使用差异表达的核酸组合作为特定群或亚群的概况。概况可包含任何数量的差异表达的核酸和/或蛋白质,例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50或更多的核酸和/或蛋白质。在某些例子
中,用于鉴别目标群或亚群的核酸可以在目标的和非目标的群或非目标的亚群中相似地表达。这样的相似表达的核酸通常与其他差异表达的核酸联合应用以鉴别目标群或亚群。本文描述的方法可被用于分析来自任何来源(如活组织检查样本、正常组织、实体瘤等)的异质性细胞群。这样的方法可被用于分离和分析任何细胞群,例如较大异质性群或亚群中的目标群,异质性群或亚群中靶细胞、癌或其他干细胞的存在,或完整的异质性群。发现生物标记物本文公开的方法可以确定与细胞群或亚群(如正常细胞、癌细胞、疾病状态细胞) 相关的新的标记物。标记物可以包括任何生物标记物,包括但不局限于DNA、RNA和蛋白质。 在某些例子中,用于细胞群的标记物是正常不表达在指定细胞的基因或mRNA(例如祖细胞或表达分化标记物的细胞表达干细胞基因或也表达分化标记物的细胞表达增殖基因)。典型地,评估多于一个的标记物,例如 2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、 20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000 或更多个标记物。标记物是表达的RNA时,可以确定转录组的任何部分,直至和包括全转录组。在某种靶细胞群或亚群中核酸表达模式的分析可导致鉴定出将目标群或亚群与其他的细胞群或亚群分开的新的标记物。例如,当独特的表面标记物蛋白质在目标群或亚群中表达时,可开发结合所述标记物的抗体,以用于分离和/或鉴别相同的或其他个体中的该群或亚群的细胞(如通过FACS)。群或亚群特定标记物的鉴别包括细胞群或亚群不存在的某些标记物,其可以用于阴性选择。可以使用本文描述的方法确定群或亚群中标记物的存在,并可用该标记物的存在定义细胞群。被分析细胞的群或亚群中的mRNA显示某些基因在正常和癌细胞中差异表达。差异表达可以包括增加或降低的转录物水平、转录的缺乏和/或改变的表达调节(如对刺激物反应的不同表达模式)。用作细胞群或亚群的标记物的mRNA或其他标记物还可以包括存在于该细胞群或亚群(如癌细胞和癌干细胞,但不是正常细胞)中的突变。本领域技术人员将意识到这样的标记物可代表来自被测的单个个体的细胞群和/或可代表许多个体的标记物。在一些例子中,表达的mRNA被翻译成蛋白质,该蛋白质可通过任何宽范围的蛋白质检测方法检测(如免疫测定、蛋白质印记等等)。其他可被检测的标记物包括微RNA(microRNA)。在一些例子中,微RNA的表达水平可作为细胞群的标记物,其中与类似细胞群相比,该细胞群特定微RNA的表达增加或降低大约 1. 5,1. 6,1. 7,1. 8,1. 9,2. 0,2. 1,2. 2,2. 3,2. 4,2. 5,2. 6,2. 7,2. 8,2. 9,3. 0 或更多倍。细胞群和亚群中转录组的确定为了获得关于通过本发明的任何方法(如从群中FACS分离细胞,随后部分转录分析)分离的细胞的进一步的信息,进一步分析细胞是有利的。在某些例子中,从样本中分离的单个的细胞(如通过个别细胞的分离,有或无事前富集)被裂解,收集目标核酸(如基因组DNA、mRNA等等)。如本文中所述,基因或基因的组的转录分析可被用于将分离的细胞分类成其表达概况表现相似性的组(如癌干细胞对非干细胞)。不局限于理论,这样的信息表明功能的不同,因为细胞转录的基因与其功能密切相关。一旦细胞被组织成类似细胞的组(如表现相似或相同转录概况的那些细胞),就可以进一步在转录组水平上分析单个的细胞的裂解物和/或含有收集的类似细胞的核酸的裂解物。在某些例子中,裂解物(单细胞或类似细胞的集合)被用于方法学(如高通量测序),以定义每个细胞和/或类似细胞集合的转录组的部分。通过个别细胞的结果与其他类似细胞的结果比较和/或组合,可以在群水平上分析来自个别细胞的转录组信息。也可以使用来自类似细胞集合的转录组信息定义这样的集合的转录特征。可以以这样一种方法研究任何细胞群,例如包含干细胞的细胞群。在一些具体实施方案中,细胞包括干细胞,所述干细胞包括胚胎干细胞,包括但不局限于癌干细胞、造血干细胞(HSC)和间质干细胞的成体干细胞,和诱导的多能干细胞。通常,细胞群是异质的群(如临床样本)。可以根据任何相关的标准(如表面蛋白质的表达)使用本文中的方法 (如FACS分类)分离较大细胞群中的目标亚群。在一些具体实施方案中,区分这样的被分类的细胞,以使每个被分类的群含有10个或更少的细胞,5个或更少的细胞,4个细胞,3个细胞,2个细胞或1个细胞。在某些具体实施方案中,裂解细胞并将其分成2个或更多个部分。进一步分析裂解物的一部分(如分析一小组基因以检测表达)以检测和/或区分较大异质群中的亚群。 进一步分析表明处于目标亚群中的细胞(如造血干细胞)的裂解物。可以分析单个的细胞的裂解物或来自类似细胞的集合的裂解物。可基于1、2、3、4、5、6、7、8、9、10、15、20、25、30、 35、40、45、50、55、60、65、70、75、80、85、90、100、200、300、400、500、600、700、800、900、1000 或更多个基因的表达相似性确定“类似细胞”群。可进一步分析目标细胞和细胞群或亚群。细胞群或亚群可包括含有原始样本的部分的细胞,例如含有1%、2%、3%、4%、5%、6%、7%、8%、9%、10%或更多的原始样本的细胞。通过使用本文中描述的方法,可从异质性样本中分离目标细胞群或亚群,使得被分离的群或亚群可以不含 51%,52%,53%,54%,55%,56%,57%,58%,59%,60%,61%,62%, 63%,64%,65%,66%,67%,68%,69%,70%,71 %,72%,73%,74%,75%,76%,77%, 78%,79%,80%,81 %,82%,83%,84%,85%,86%,87%,88%,89%,90%,91 93%、94%、95%、96%、97%、98%、99%或100%的不是目标群或亚群的成员的细胞。由于是从原始群分离的细胞制备裂解物,可以通过从类似细胞收集裂解物完成类似细胞群的研细胞、群和/或亚群的进一步分析可包括全转录组的分析。在一些例子中,裂解物包括为了分析而扩增(如cDNA)或直接被分析(如mRNA测序、微列阵分析)的mRNA。可通过本领域中的任何已知方法进行mRNA的扩增(如体外转录、连接PCR cDNA扩增)。在某些具体实施方案中,可在微流体仪中,或使用微流体仪进行mRNA的扩增。可通过测序平台, 如可从 Illumina(RNAIeq)和 Helicos (Digital Gene Expression 或 “DGE”)商购的那些测序平台进行全转录组的分析。在某些具体实施方案中,测序目标多核苷酸。可通过传统的使用例如Sanger型测序的凝胶电泳为基础的方法对目标核酸测序。另外可选择的,可通过使用一些“次世代”方法完成测序。这样的“次世代”测序方法包括但不局限于商业提供的那些 l)454/Roche Lifescience,包括但不局限于在 Margulies 等人 Nature ^00 437 376-380 (2005);和美国专利 Nos. 7,244,559 ;7,335,762 ;7,211,390 ;7,244,567 ; 7,264,929 ;7,323,305 中描述的方法和设备;2)Helicos Biosciences Corporation (Cambridge, ΜΑ),如在美国申请系列 No. 11/167046 和美国专利 Nos. 7501245 ;7491498 ; 7,276,720 ;以及美国专利申请公开 Nos. US20090061439 ;US20080087826 ;US20060286566 ;US20060024711 ;US20060024678 ;US20080213770 ;和 US20080103058 中描述的;3) Applied Biosystems (如 SOLiD 测序);4) Dover Systems (如 Polonator G. 007 测序);5) Illumina,如美国专利 Nos. 5,750,341 ;6,306,597 和 5,969,119 中描述的;以及 6) Pacific Biosciences,如美国专利 Nos. 7,462,452 ;7,476,504 ;7,405,281 ;7,170,050 ;7,462,468 ; 7, 476, 503 ;7, 315, 019 ;7, 302, 146 ;7, 313, 308 ;美国申请公开 Nos. US20090029385 ; US20090068655 ;US20090024331和US20080206764中所描述的。所有的文献通过引用并入本文。这样的方法和设备在此处以实施例的方式提供,但并不意味着限制。由于多个原因,可以进行可以进一步鉴定不同细胞亚群的全转录组分析,包括但不局限于1)检测可以揭露亚群的独特的生物学性质的基因活性和/或调控其发育的转录因子;幻定位和/或鉴定可用于纯化亚群的表面标记物(如通过FACS分类);和幻检测和/或鉴定从综合群中区分亚群(如癌干细胞对正常组织)的细胞基因和/或基因产物, 以作为疾病潜在的药靶。群和/或亚群的分析(如通过转录组的分析)可允许细化分离属于亚群的细胞的技术。例如,当方法揭露了亚群特异的表面抗原时,可使用通过任何可获得的抗体合成方法开发的抗体从异质性群中(如患者样本)分离这样的细胞。另外,可用转录组概况开发可被用于从其他群(如来自相同或不同患者的样本)鉴别细胞的基因表达组。诊断和预后本发明可用于任何病状,包括癌、炎症性疾病、自体免疫性疾病和感染的预防、治疗、检测或研究。癌的例子包括前列腺、胰腺、结肠、脑、肺、乳腺、骨和皮肤癌。炎症性病状的例子包括肠激惹综合征和溃疡性结肠炎。自体免疫性疾病的例子包括克罗恩病、狼疮和格雷夫斯病。例如,本发明用于下列疾病的预防、治疗、检测或研究胃肠癌,如肛门、结肠、食道、胆囊、胃、肝和直肠的癌;生殖泌尿系癌如阴茎、前列腺和睾丸的癌;妇科的癌,如卵巢、宫颈、子宫内膜、子宫、输卵管、阴道和阴户的癌;头和颈的癌,如咽下的、喉的、口咽的癌,唇、嘴和口腔癌,唾液腺的癌,消化道的癌和窦癌;转移癌;肉瘤;皮肤癌;尿道癌,包括膀胱、肾和尿道癌;内分泌系统癌,如甲状腺、垂体和肾上腺和胰岛的癌;以及儿科的癌。本发明还提供了优化治疗的方法,其首先通过分类样本中的单独的细胞,然后基于分类的信息,选择适当的疗法、剂量、治疗模式等等,其优化了传送抗增殖处理至非目的细胞的间的差别,同时降低了不需要的毒性。通过选择减小不需要的毒性而同时提供有效的抗增殖活性的治疗而优化了治疗。可选择仅仅影响样本中亚类细胞的治疗。在某些例子中,选择影响样本中少于大约5 %、少于大约1 %、少于大约0. 5 %、少于大约0. 2 %、少于大约0. 1%、少于大约0. 05%、少于大约0. 02%、少于大约0. 01%或更少的细胞的治疗。病状的标记可以指在表明存在病状的单细胞中的一个或多个基因或蛋白质的表达模式。癌干细胞标记指其表达为癌干细胞表现型指征的一个或多个基因和/或蛋白质的表达模式。自体免疫或炎性细胞标记指其表达为自体免疫或炎性细胞标记指征的基因和/ 或蛋白质。标记可以从全部或部分资料组获得,通常标记包括来自至少大约5个基因和/ 或蛋白质、至少大约10个基因和/或蛋白质、至少大约15个基因和/或蛋白质、至少大约 20个基因和/或蛋白质、至少大约25个基因和/或蛋白质、至少大约50个基因和/或蛋白质、至少大约75个基因和/或蛋白质、至少大约100个基因和/或蛋白质、至少大约150 个基因和/或蛋白质、至少大约200个基因和/或蛋白质、至少大约300个基因和/或蛋白质、至少大约400个基因和/或蛋白质、至少大约500个基因和/或蛋白质或更多个基因和 /或蛋白质的基因和/或蛋白质的表达信息。当使用资料组的亚类时,亚类可以包括上调的基因、下调的基因或其组合。患者样本的临床应用分析尽管下面的描述主要聚焦于癌干细胞,本文描述的方法可被用于分离和/或分析任何细胞群,包括但不局限于任何组织的正常细胞(如正常干细胞、正常祖细胞和正常的成熟细胞)、病毒感染的细胞、炎症性细胞、祖细胞、癌细胞(如致癌细胞、非致癌细胞、癌干细胞和分化的癌细胞)、疾病状态细胞(如癌细胞、炎症性肠疾病细胞、溃疡性结肠炎细胞等)、微生物(细菌、真菌、原生生物)细胞等。因此,提供的使用癌干细胞(CSC)的细节是可对任何疾病状态或病状进行的分析的举例。在本发明的一些具体实施方案中,患者样本中CSC的数量可相对于癌细胞总数而确定。例如,分离来自活组织检查样本的细胞,分析作为癌细胞的指征的一个或多个mRNA 和/或蛋白质的表达并定量表现了 CSC表现型的细胞。另外可选择地,收集到的特定的CSC 群或亚群的数据可被用于开发群或亚群的亲和性(如抗体)筛选,并且这样的亲和性筛选可被用于定量细胞的数量。典型地,较大的CSC百分比指示具有癌表现型的细胞的持续自我更新的潜能。可比较患者样本中的CSC数量与阳性和/或阴性参照样本,如患者样本如血液样本、缓和期患者样本等等。在一些具体实施方案中,在治疗期间定量CSC,其中癌细胞数和这样的CSC细胞的百分比在治疗过程之前、期间或随后定量。合乎需要的,靶向癌干细胞的治疗导致患者样本中CSC总数和/或百分比的降低。可通过其与特定标记物相关的表现型和/或其功能的表现型鉴别CSC。在一些具体实施方案中,通过将细胞结合至对目标标记物特异的试剂鉴别和/或分离CSC。待分析的细胞可以是有活力的细胞,或可以是被固定或被包埋的细胞。患者样本中CSC的存在可以是癌(如白血病、乳腺癌、前列腺癌)阶段的指征。另外,CSC的检测可被用于监控对治疗的反应以及辅助预后。可通过定量具有干细胞表现型的细胞确定CSC的存在。除了细胞表面表现型的测定外,定量样本中具有“干细胞”特征的细胞可是很有用的,其可通过功能标准被确定,如自我更新能力、体内生成肿瘤的能力,如在异种移植模型中等等。用于本发明方法中的临床样本可从多种来源获得,特别是血液,尽管在一些例子中,可以使用如骨髓、淋巴、脑脊液、滑液等等的样本。样本可包括活组织检查样本,或含有细胞的其他临床样本。一些样本包括实体瘤或其部分。在分析细胞团的情况下,可通过本领域已知的适当的方法(如酶消化、物理分离)分离这样的细胞团。可通过离心、冲洗、密度分级分离、血浆分离置换法、亲和性选择、淘选、FACS、用Hypaque离心等等在分析前分离这样的样本,通常使用单核部分(PBMC)。以这种方式,可如本文中所述的分析来自样本(如实体瘤)的单个细胞的差异基因表达和/或转录组分析。一旦得到样本,其可被直接应用、冰冻或短时间的维持在恰当的培养基中。可使用多种培养基来维持细胞。可通过任何合宜的程序获得样本,如活组织检查、抽血、静脉穿刺等等。在一些具体实施方案中,样本将包括至少大约IO2个细胞,更通常的至少大约103、 IO4UO5或更多的细胞。典型地,样本来自人类患者,尽管可以使用动物模型,如马科、牛族、 猪、犬科、猫科、啮齿目如小鼠、大鼠、仓鼠、灵长目动物等等。
可以使用适当的溶液分散或悬浮细胞样本。这样的溶液通常是平衡盐溶液,如正常盐水、PBS、Hank氏平衡盐溶液,等等,方便地添加了胎牛血清或其他天然存在的因子,以及低浓度的可接受的缓冲液,通常浓度为5-25mM。合宜的缓冲液包括HEPES、磷酸缓冲液、 乳酸盐缓冲液等。可使用传统的方法进行细胞染色分析。提供精确的计数的技术包括荧光活化细胞分拣器,其具有变化程度的掺杂,如多颜色频道(multiple color channel)、低角度和钝头光散射检测频道、阻抗频道等。通过使用与死亡细胞相关的染料(如碘化丙啶)针对死亡细胞选择细胞。亲和性试剂可以是上述细胞表面分子的特异受体或配体。除抗体试剂外,可以使用肽-MHC抗原和T细胞受体对;肽配体和受体;效应器和受体分子等。抗体和T细胞受体可以是单克隆或多克隆的,且可以通过转基因动物、被免疫的动物、永生化的人或动物B细胞、用编码抗体或T细胞受体的DNA载体转化的细胞等产生。抗体制备的细节和其用作特异结合成员的合适性是本领域技术人员公知的。一个方法是使用抗体作为亲和性试剂。方便地,这些抗体可与分离使用的标记结合。标记包括任何本领域已知的任何标记,包括但不局限于允许直接分离的磁珠、可用结合至支撑物的抗生物素蛋白或抗生物素蛋白链菌素除去的生物素、可与荧光活化细胞分拣器使用的荧光染料等等,以允许方便地进行特定细胞类型的分离。有用的荧光染料包括藻胆蛋白,如藻红蛋白和藻蓝蛋白,荧光素和德克萨斯红。经常用不同的荧光染料标记每一个抗体,以允许对于每种标记物的独立分拣。可将抗体加入细胞悬液中,孵育足以结合可利用的细胞表面抗原的一段时间。孵育通常至少大约5分钟,且通常少于大约30分钟。希望反应混合物中具有足够的抗体浓度, 使得分离的效率不受缺少抗体的限制。通过滴定确定适当的浓度。细胞在其中被分离的介质是任何可维持细胞生活力的介质。可被利用的一种培养基是含有0. 1%至0. 5% BSA的磷酸缓冲盐水。可商购到各种培养基,并根据细胞的性质使用,包括Dulbecco' s Modified Eagle培养基(dMEM)、Hank,S基础盐溶液(HESS) ,Dulbecco' s磷酸盐缓冲的盐水(dPBS)、 RPMI、Iscove' s介质、含有5mMEDTA的PBS等,通常补充有胎牛血清、BSA、HSA等。然后可根据如上所述的细胞表面标记物的表达定量标记的细胞。可通过使用恰当的演绎方案、AI系统、统计比较等完成获自患者样本的示差祖细胞分析(differential progenitor analysis)和参照的示差祖细胞分析的比较。来自正常细胞、来自相似疾病组织的细胞等的参照的示差祖细胞分析的比较可提供疾病阶段的指示。可编辑参照的示差祖细胞分析的数据库。特别的感兴趣的分析追踪如处于疾病的慢性期和前白血病阶段的患者,以便在早期阶段观察到疾病的加速。本发明的方法通过临床症状发生前加速的检测,从而允许进行早期治疗干预,如启动化疗、增加化疗剂量、改变化疗药物的选择等。肿瘤分类和患者分层还提供了优化治疗的方法,其通过首先分类,并且基于该信息选择恰当的疗法、剂量、治疗模式等,其优化了传递抗增殖治疗至不期望的靶细胞间的差异,同时减小了不期望的毒性。通过选择减小不期望的毒性同时提供有效的抗增殖活性的治疗来优化治疗。在一个方面,本公开提供了分类损伤如肿瘤损伤、免疫紊乱样本等的方法,因此根据单细胞(包括CSC)基因表达标记将患者分组或“分层”。例如,被分类为具有高的癌干细胞百分比的肿瘤具有更高的转移和死亡风险,因而可以比更良性类型的肿瘤更有攻势地对其进行治疗。因此,患者样本中存在的群或亚群的分析可被用于鉴别疾病状态、监控治疗模式和/或开发治疗方法。可如上所述分类用于临床试验的潜在患者收集物中的每一个患者的样本。然后可以选择具有相似分类的损伤的患者使其参与其中需要异质性患者群的治疗的调查或临床试验。可将患者的分类用于评估异质性患者群中治疗的有效性。因此,比较个体的表达概况和群的概况的疾病分类可允许选择或设计期望对特定患者或患者群(即具有相同类型癌的患者组)的安全有效的药物或其他治疗模式。可以基于1、2、3、4、5、6、7、8、9,10、11、12、 13、14、15、16、17、18、19,20、25、30、35、40、45、50或更多核酸和/或蛋白质的表达(或其缺少)进行分类。诊断、预后、治疗评估(Therametrics)和失调处理本文中描述的分类方法以及其基因产物和相应的基因和基因产物对作为可检测疾病途径(如致癌途径、炎症途径等)的最早期变化,和/或监控各种治疗和预防干预的效力的遗传或生物化学标记物(如在血液或组织中)具有特别的意义。分期是被医生用来描述患者中癌状态是如何进展的方法。分期帮助医生确定预后、计划治疗以及评估这样的治疗的结果。癌类型不同,分期系统也不同,但其通常涉及以下的“ M”系统癌类型,用T代表;癌是否转移到附近的淋巴结,用N代表;癌是否转移到身体的更远的部位,用M代表。一般而言,如果癌仅在初期损伤区被检测到,而没有传播到任何淋巴结,被称为I期。如果仅传播到最近的淋巴结,被称为II期。在III期,癌通常传播到在接近初期损伤位点的近端中的淋巴结。已经传播到身体远处部分,如肝、骨、脑或其他部位的癌称为IV期,是最晚期的一种。本文中描述的方法可通过鉴别癌的进攻性,如转移的潜能以及身体不同区域的存在有助于细调分期的方法。因此,可利用具有标记高转移潜能癌的分类的II期癌将边界II 期肿瘤变为III期肿瘤,调整更有攻势的治疗。相反地,标记低转移潜能的多核苷酸的存在允许更保守的肿瘤分期。例如,通过本文所述的方法分析来自II期患者的乳腺癌活组织检查样本。乳腺癌可能被依据从患者细胞确定的表达概况分类为具有高转移潜能。因此,治病的医生可利用这样的信息,比他或她没有获得进一步的分类时更有进攻性地治疗患者。特定标记物表达的确定还可以提供药物治疗潜在靶点的信息(如来自表达药物靶点的患者的致癌细胞)。治疗方法的开发和鉴别本文中描述的方法和组合物可被用于新的治疗剂的开发或鉴别和/或细化现存的疗法。例如,通过使用单细胞分析,可分析靶细胞群(如癌干细胞、癌干细胞和分化的癌细胞、或分化的癌细胞)的表达概况,以检测治疗剂的潜在靶点。潜在的靶点包括但不局限于特定的生物标记物和错误调节的途径。目标靶点可以包括目标细胞群特异的标记物或途径。在一个例子中,可如本文中描述的分析目标群或亚群细胞的核酸表达,以检测可以是治疗靶向的新的生物标记物。例如,在癌干细胞和/或分化的癌细胞中广泛表达的特定细胞表面分子可研究作为潜在治疗剂(如抗体或其他结合部分-潜在地与毒素或其他此类效应物连接-具有对表面分子的特异性)的靶点。在其他的例子中,可分析靶细胞群的涉及疾病过程的错误调节的途径(如癌细胞中丢失细胞周期机制的调控)。途径包括但不局限于基因表达的激活子和/或抑制子,特定的基因和/或基因的组的表达以及更复杂的总体的途径。靶向这样的错误调节的治疗剂可潜在地影响靶细胞,以改变与靶细胞相关的核酸的表达。治疗剂诱导的改变的表达可导致核酸的上调或下调。在某些例子中,用一个或多个治疗剂的细胞和/或受试者的治疗可引起类似非疾病状态细胞中表达的核酸的表达(如治疗引起类似非致癌细胞中细胞周期相关的基因的表达)。通过使用本文中描述的方法和组合物,可以分析靶细胞群一个或多个核酸改变的表达。新的和/或细化的治疗剂的开发可包括分析靶细胞群(如结肠癌干细胞、乳腺癌细胞等),以确定与“正常”细胞相比显示改变的表达概况的核酸。可通过将分离的靶细胞群暴露于候选制剂并检测暴露后的基因的改变的表达,利用这样的细胞筛选影响这些和/或其他核酸表达的潜在治疗剂。利用本文描述的方法分析影响某些细胞表现型的化合物的效果,包括但不局限于基因表达、途径功能(如细胞周期、TERT途径、氧化应激途径),和或细胞类型或形态学。因此,除了或替代分析化合物作为治疗剂的潜能,还可以分析影响这样的表现型特征的化合物。例如,可进行暴露于一个或多个试验化合物的靶群(如正常结肠细胞、正常乳腺细胞、 癌细胞、干细胞、癌干细胞等)中基因表达的改变的分析,以分析试验化合物对基因表达或其他所需表现型(如标记物表达、细胞生命力)的影响。这样的分析对多种目的是有用的, 例如细胞周期研究或已知或未知途径的分析。待分析其潜在治疗价值的制剂可以是任何化合物,小分子,蛋白质,脂质,碳水化合物,核酸或其他适于治疗应用的制剂。可将分离的靶群细胞暴露于潜在治疗剂的库(如抗体库、小分子库),以确定其对基因表达和/或细胞生命力的影响。在某些例子中,候选治疗剂将特异地靶向目标细胞群。例如,经由单细胞分析,揭露了存在于靶细胞(如癌干细胞和/或分化的癌细胞)中的突变的存在,一种候选治疗剂可靶向该突变。在某些例子中,可将处理的细胞暴露于单细胞分析,以确定候选治疗剂对一个或多个目标基因表达的效果和 /或对转录组的效果。在本发明的其他具体实施方案中,通过特异地结合靶群或亚群上存在的标记物或标记物组合,制剂被靶向疾病状态细胞群或亚群。在某些具体实施方案中,制剂包括标记物或标记物组合特异的抗体或其抗原结合衍生物,任选地其与细胞毒部分连接。可用这样的方法排除患者中的靶群或亚群(如排除癌干细胞群)。治疗剂筛选分析表达标记物或标记物组合的细胞(如疾病状态细胞)可被用于体外分析和筛选, 以检测对分化的癌细胞和/或癌干细胞有活性的因子和化疗制剂。特别感兴趣的是对人细胞有活性的制剂的筛选分析。大量的分析可用于此目的,包括用于蛋白质结合的免疫分析;细胞生长、分化和功能活性的确定;因子的产生;等等(参见,如Balis“2002)J Nat'1 Cancer Inst 94 :2 ;78)。在其他的具体实施方案中,对应于本发明的标记物和标记物组合的分离的多核苷酸被用于药物筛选分析中。在生物活性制剂、抗增殖药物等的筛选分析中,标记物或靶细胞组合物与目标制剂接触,通过监控细胞上的如标记物的表达、细胞的生命力等输出参数评价制剂的效果;或结合效果或对多肽的酶学的或受体活性的效力。例如,已知具有“癌干细胞”表达概况的乳腺癌细胞组合物被暴露于试验制剂并且如本文中所述的方法单独地分析被暴露的细胞,以确定与未治疗的细胞相比试验制剂是否改变了表达概况。本文中描述的或通过本文中描述的方法产生的任何分离的细胞群可被新鲜地分离、培养、遗传改变等。细胞可以是环境诱导的克隆培养的变体如,分开成独立的培养物并在不同的条件下生长,例如具有或不具有药物;存在或不存在细胞因子或其组合物。细胞对制剂(如肽、siRNA、小分子等),特别是药学制剂的反应方式(包括反应时限)是细胞生理状态的重要反映。参数是可以定量的细胞成分,特别是例如在高通量系统中可精确测量的成分。参数可以是任何细胞成分或细胞产物,其包括细胞表面决定簇、受体、蛋白质或其构象的或翻译后的修饰物、脂质、碳水化合物、有机的或无机的分子、如mRNA或DNA等的核酸,或衍生于这样的细胞成分或其组合物的部分。例如,在一个具体实施方案中,如本文中描述的分离的细胞与一个或多个制剂接触,并确定目标核酸的表达水平。可进一步分析改变检测的核酸表达的制剂的治疗潜力,例如其中细胞显示出与非疾病状态细胞更相似的表达模式。尽管大多数参数(如mRNA或蛋白质的表达)提供了定量的读出,在一些例子中,可接受半定量或定性的结果。读出可包括单一确定的数值,或可包括平均值、中间值或偏差值等等。典型地,从相同分析的多重态获得每一参数的参数读出数值的范围。可变性是预期的,通过使用带有用于提供单一数值的普通统计方法的标准统计学方法获得试验参数组的每一个的数值范围。用于筛选的目标试剂包括包含多种化学类别的已知的或未知的化合物,主要是有机物分子,其可包括有机金属的分子、遗传序列等。本发明的一个重要方面是评估候选药物,包括毒性试验等。除了复杂的生物制剂,候选制剂包括含有结构反应必须的功能基团的有机分子, 所述功能基团特别是氢键,且典型地包括至少一个胺基、羰基、羟基或羧基,经常是至少两个功能性的化学基团。候选制剂可以包括碳环或杂环结构和/或具有一个或多个上述功能基团取代的芳香族的或多芳香族的结构。候选制剂还可以被发现在生物分子中,包括肽、多核苷酸、糖类、脂肪酸、类固醇、嘌呤、嘧啶,或其衍生物、结构类似物或组合物。在一些例子中,试验化合物可以具有已知的功能(如减轻氧化应激),但其可通过未知的机制起作用或作用于未知的靶点。包括具有药学活性的药物,遗传活性的分子等。目标化合物包括化疗制剂、激素或激素拮抗剂等。适于本发明的药物制剂的例子是如下描述的那些"The Pharmacological Basis of Therapeutics, " Goodman禾口Gilman,McGraw_Hi 11,New York,New York, (1996), 第九版,在Water, Salts and Ions ;Drugs Affecting Renal Function and Electrolyte Metabolism ;Drugs Affecting Gastrointestinal Function ;Chemotherapy of Microbial Diseases ;Chemotherapy of Neoplastic Diseases ;Dlugs Acting on Blood-Folming organs ;Hormones and Holmone Antagonists ;Vitamins, Dermatology ;禾口 Toxicology 章, 上述所有内容通过引用并入本文。还包括毒素和生物的和化学的战剂(warfare agent),例如参见 Somani :S. Μ. (Ed. ), “ Chemical Warfare Agents, " Academic Press, New York, 1992)。试验化合物包括上述所有类的分子,且可进一步包括未知内容的样本。目标是获自天然来源如植物、真菌、细菌、原生生物或动物的天然存在的化合物的复杂混合物。尽管许多样本包括溶液中的化合物,也可以分析可溶于适当溶剂中的固体样本。目标样本包括如地下水、海水、矿泉水等的环境样本,如由谷物、组织样本等制备的裂解物的生物样本;如在药物制备期间的时程中的制备期间样本;以及为分析制备的化合物库;等等(如被分析潜在治疗价值的化合物,即药物候选)。样本或化合物还可以包括另外的成分,例如,影响离子强度、pH、总蛋白质浓度等的成分。另外,可处理样本以实现至少部分分级或浓缩。如果在意要降低化合物的降解,可将生物样本储存在如氮、冰冻或其组合的条件下。使用的样本容积足以允许可测量的检测, 如从大约0. Iml至Iml的生物样本是足够的。包括候选制剂的化合物可获自很广泛的来源,包括合成的或天然的化合物的库。 例如,存在许多方法来随机的和定向地合成大量有机化合物,包括生物分子,包括随机化的寡核苷酸和寡肽的表达。另外可选择地,细菌、真菌、植物和动物提取物形式的天然化合物的库是可获得的或容易制备的。另外,可以容易地通过传统的化学、物理和生物化学方式修饰天然的或合成产生的库和化合物,且可被用于生成组合库。可对已知的药物制剂进行定向的或随机的化学修饰,如酰化、烷化、酯化、酰胺化等,以生成结构类似物。通过将制剂加入至少一个和通常多个细胞样本筛选制剂的生物活性,通常与缺少制剂的细胞结合。测量对制剂反应的参数的变化,并且通过与如在存在和不存在制剂时,用其他制剂获得的等等参照培养物比较来评估结果。制剂可以以溶液或速溶形式加入到培养中的细胞培养基中。制剂可以细流、间断的或连续的加入流通(flow-through)系统,或另外可选择地,单一地或递增地向另外的静态溶液添加化合物弹丸。在流通系统中,使用两种流体,其中一个是生理中性溶液,另一个是加入了测试化合物的相同溶液。第一种流体通过细胞,随后是第二种流体。在单一溶液的方法中,将测试化合物弹丸加入到围绕细胞的培养基的容积中。培养介质组分的总浓度在加入弹丸时不应当有显著的改变,或者在流通方法中在两溶液之间。一些制剂的配方不包括额外的成分,如可显著影响总配方的防腐剂。因此,这样的配方基本上由生物活性化合物和生理上可接受的载体如水、醇、DMSO等组成。可是,如果化合物是不具溶剂的液体,配方可基本上由化合物本身组成。可以以不同的制剂浓度平行地进行多个分析,以得到对不同浓度的不同反应。如本领域已知的,确定制剂的有效浓度典型地使用来自1 10或其他对数标准稀释得到的浓度范围。如果需要,用第二系列的稀释进一步细化浓度。典型地,这些浓度之一作为阴性对照,即0浓度或低于制剂的检测水平或在或低于不能引起表现型可检测的变化的制剂浓度。可利用多种方法定量存在的选定标记物。为了测定存在的分子的量,传统的方法是用可检测的部分标记分子,该可检测的部分可以是荧光的、发光的、放射活性的、酶活性的等,特别是特异地结合具有高亲和性参数的分子。荧光部分是容易获得的用于实际上标记任何生物分子、结构或细胞类型。免疫荧光部分不仅仅定向结合特异的蛋白质,还结合特异的构象体、切割产物或如磷酸化的位点修饰物。如通过使其作为绿色荧光蛋白嵌合体在细胞内表达(综述参见Jones等人(1999)Trends Biotechnol 17(12) :477-81),可将单个的肽和蛋白质工程化为自体荧光。因此,可遗传修饰抗体以提供作为其结构部分的荧光染料。依赖于选择的标记,可通过使用荧光标记外的物质,使用如放射免疫分析(RIA)或酶联免疫吸附分析 (ELISA)的免疫分析技术,同源酶免疫分析,以及相关的非酶技术测量参数。核酸,特别是信使RNA的定量也有兴趣作为参数。这些可通过依赖于核酸核苷序列的杂交技术测量。技术包括聚合酶链反应以及基因列阵技术。参见,例如Current Protocols in Molecular Biology, Ausubel 等人编,John Wiley & Sons,New York, NY, 2000 ;Freeman 等人(1999) Biotechniques 26(1) :112-225 ;Kawamoto φ Λ (1999)Genome Res 9 (12) : 1305—12 ;禾口 Chen 等人(1998)Genomics 51(3) :313_24。表汰概况的数据库和数据分析本发明还提供了癌干细胞和其他细胞类型基因表达概况的数据库及其应用。典型地,这样的数据库包括来自多种细胞亚群的表达概况,所述细胞亚群如癌干细胞、癌非干细胞、癌细胞对应的正常部分、疾病状态细胞(如炎症性肠细胞、溃疡性结肠炎细胞)、病毒感染的细胞、早期祖细胞、初始分化的祖细胞、后期分化的祖细胞以及成熟细胞。可以以多种介质提供表达概况及其数据库以辅助其应用。“介质”指含有本发明的表达概况信息的产品。本发明的数据库可被记录在计算机可读的介质,如任何可被计算机读取并直接进入的介质。这样的介质包括但不局限于磁性存储介质,如软盘、硬盘存储介质和磁带;光存储介质,如CD-ROM ;电存储介质如RAM和ROM ;及这些类别的杂合,如磁/光存储介质。本领域技术人员可以容易地理解如何使用任何已存在的计算机可读介质来生成含有本发明数据库信息录制物的产品。“录制”指使用任何本领域已知的这样的方法,将信息存储在计算机可读介质的方法。可以基于用于进入存储信息的手段选择任何合宜的数据存储结构。多种数据处理程序和格式可被用于存储,如word处理的文本文件、数据库格式等。如本文中所用,“基于计算机的系统”指用于分析本发明信息的硬件设备、软件设备和数据存储设备。本发明的基于计算机的系统的最小的硬件包括中央处理器(CPU)、输入设备、输出设备和数据存储设备。本领域技术人员能容易地理解任何目前可获得的基于计算机的系统均适用于本发明。数据存储设备可以包括任何包含如上所述的本发明信息的录制物的产品,或可进入此产品的内存访问设备。输入和输出设备的多种结构格式可被用于在本发明的基于计算机的系统中输入和输出信息。这样的呈现为本领域技术人员提供了含在试验表达概况中的相似性排序和鉴别该相似性程度。可利用多种方法分析数据组。在一个具体实施方案中,转化并标准化表达数据。例如,通过平均地居中每个基因的的表达数据生成比率(通过用指定列阵上每个基因的强度测量值除以穿过所有列阵的基因的平均强度),(2)然后对数转化(基于2)得到的比率,及 (3)然后中位数居中穿过列阵然后穿过基因的表达数据。对于cDNA微列阵数据,具有比参照频道中的局部背景荧光信号至少大1. 5倍的荧光杂交信号的基因被认为是足可以被检测的。用每一个数据组中的平均值以及进行的平均关联聚类将基因居中。也可以使用比例化的方法(scaled approach)进行数据分析。例如,基因表达值的皮尔逊相关性可以提供反应每个CSC信号的定量的数值。相关性数值越高,样本越像参照的CSC表现型。可对任何细胞型进行相似的相关性,包括正常细胞、祖细胞、自体免疫表现型细胞、炎症表现型细胞、感染细胞、分化的癌细胞、正常干细胞、正常成熟细胞等。阴性相关性数值表明相反的行为。可根据临床目的将分类的阈值从0向上或向下移。例如,为预测作为第一复发事件的转移,可以-1至+1间的每个阈值,以0. 05增加的关联度值计算敏感度和特异性,可以选择给出了转移预测的希望的敏感度的阈值,如80^^90^^95%等。为了提供显著性次序,可确定错误发现率(FDR)。首先,生成不同性数值的一组零分布。在一个具体实施方案中,变换观察到的概况的数值以产生没机会得到的相关性系数的一系列分布,从而生成一组恰当的相关性系数零分布(参见Tusher等人(2001)PNAS 98, 5118-21,通过引用并入本文)。按如下方式获得零分布组互换所有可获得的概况的每一个概况的数值;计算所有概况的配对相关性系数;计算该互换的相关性系数的概率密度函数;重复步骤N次,其中N是一个大数,通常为300。通过使用N分布,人们可以计算恰当的其数值超过来自指定的显著性水平下实验观察到的相似性数值的分布的(相似度的)值的相关性系数的计数的测量值(均值、中位数等)。FDR是预期的错误显著的相关性的数目(从大于随机数值组中选定的皮尔逊相关性的相关性估得)相对比经验数据(显著的相关)中选定的皮尔逊相关性大的相关性的数目的比率。该截断的(cut-off)相关性数值可应用于实验的概况之间的相关性。通过使用前面提到的分布,为显著性选择可信度水平。其被用于确定超过随机获得的结果的相关性系数的最低值。通过使用该方法,人们可获得阳性相关性、阴性相关性或二者的阈值。通过使用该阈值,使用者可过滤观察到的配对相关性系数的值并去除没超过阈值的那些。而且,可以得到指定阈值的假阳性率的估计。对于每个单独的“随机相关性” 分布,人们可以发现有多少观察超出阈值范围。此步骤提供一系列的计数。系列的均值和标准偏差提供了潜在假阳性的平均数目及其标准偏差。可对数据进行非监管的分层次的聚类以揭露概况间的关系。例如,可进行分层次的聚类,其中皮尔逊相关性被用作聚类度量。相关性矩阵的聚类,如通过使用多维标准,增强了功能同源相似性和不同性的可视化。多维量表法(multidimensional scaling, MDS) 可被应用在1、2、3维中。可在硬件或软件或其结合中完成分析。在本发明的一个具体实施方案中,提供了机器可读的存储介质,该介质包括用机器可读数据编码的数据存储材料,使用用所述数据的使用说明书编程的机器时,其能够展示本发明的任何数据组和数据比较。这样的数据可用于多种目的,例如药物的发现、细胞成分间相互作用的分析等。在一些具体实施方案中, 本发明在程序控制的计算机上执行的计算机程序中完成,所述计算机包括处理器、数据存储系统(包括易变的和非易变的记忆和/或存储元件),至少一个输入设备和至少一个输出设备。应用程序代码输入数据,以执行上述功能并生成输出信息。输出信息以已知的方式被应用到一个或多个输出设备。例如,计算机可以是个人计算机、微型计算机或传统设计的工作站。每一个程序可以高水平的程序的或目标定向的程序语言完成以与计算机系统通讯。可是,如果需要,可以汇编或机器语言执行程序。在任何情况下,语言可以是汇编的或翻译的语言。可将每个这样的计算机程序存储在普通的或特定目的的程序控制的计算机可读的存储介质或设备上(如ROM或磁盘),当利用计算机读取存储介质或设备以进行本文中所述的步骤时,用于配置和操作计算机。系统还可以被认为以用计算机程序配置的计算机可读存储介质被完成,其中如此配置的存储介质使计算机以特定的事先定义的方式操作, 以进行本文中所述的功能。可使用用于输入和输出方法的多种结构格式在本发明基于计算机的系统中输入和输出信息。用于输出方法的一种格式检测与信任的概况具有不同程度相似性的数据组。 这样的呈现为本领域技术人员提供了包含在试验模式中的相似性分级和鉴别相似性程度。存储和传递数据本文进一步提供了通过计算机存储和/或传递序列和其他通过本文中公开的方法收集的数据的方法。任何计算机或计算机附件,包括但不局限于软件和存储设备,可以被用于实施本发明。使用者可直接或间接地将序列或其他数据(如转录组数据)输入计算机。 另外,可以将任何用于测序DNA或分析DNA或分析转录组数据的设备连接至计算机,从而使数据被传送至计算机和/或计算机兼容的存储设备。数据可被存储在计算机或适当的存储设备上(如CD)。可以通过本领域熟知的方法(如因特网、地面邮件、航空邮件)将数据从一台计算机发送至另一台计算机或数据收集点。因此,通过本文中描述的方法收集的数据可在任何点或地理位置被收集,并被发送至任何地理位置。在图10中描述了一个示例的方法。在此实施例中,使用者向测序仪中提供了一个样本。通过连接至计算机的测序仪收集和/或分析数据。计算机上的软件允许数据收集和 /或分析。数据可被存储、展示(通过显示器或其他相似的设备)和/或传送到其他位置。 如图10中所示,计算机被连至因特网,因特网可被利用以传送数据至远程使用者(如医生、 科学家或分析者)使用的手提设备。应当了解在传送前可存储和/或分析数据。在某些具体实施方案中,可收集原始数据并将其传送至分析和/或存储数据的远方使用者。如图10 中所示,可通过因特网传送,但是也可以通过卫星或其他连接传送。可选择的,数据可存储在计算机可读介质上(如CD、记忆存储设备),可将介质发送给终端使用者(如通过邮件)。 远方的使用者可以在相同或不同的地理位置,包括但不局限于建筑物、城市、州、国家或大陆。制剂和试剂盒还提供了用于实施上述一个或多个方法的制剂及其试剂盒。该制剂和其试剂盒可以非常不同。目标制剂包括特异地设计用于生成上述表现型决定基因的表达概况的制剂。 例如,制剂可以包括已知在靶群或亚群中差异表达的基因的引物组(如用于检测致癌的乳腺癌细胞的制剂包括用于扩增和检测CD49f、CD24和/或EPCAM表达的引物和探针)。用于生成靶细胞群和亚群的表达概况的特异地定制的一类制剂是被设计为选择性扩增这样的基因的基因特异性引物的集合,其用于定量PCR或其他定量的方法。在美国专利No. 5,994,076中描述了基因特异性引物及其使用方法,其公开内容通过引用并入本文。特别感兴趣的是基因特异性引物的集合,其具有至少5个基因、通常多种这些基因,如至少 10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000 个基因或更多基因的引物。基因特异性引物集合可仅包括与靶群或亚群相关的基因的引物 (如突变、已知的错误调节的基因等),或它们可包括另外的基因的引物(如管家基因、对照)。本发明的试剂盒可包括上述基因特异性引物集合。试剂盒可进一步包括用于一个或多个表现型统计学分析的软件包,还可以包括用于计算易感性的可能性的参照数据库。试剂盒可包括用于多种方法中的制剂,如用于生成靶核酸的引物,dNTP和/或rNTP(可以是事先混合的或是单独的),一个或多个独特标记的dNTP和/或rNTP,如生物素标记的或Cy3 或Cy5标记的dNTP,具有不同散射光谱的金或银颗粒,或其他合成后标记制剂,如荧光染料的化学活性的衍生物,酶,如逆转录酶、DNA聚合酶、RNA聚合酶等,不同的缓冲介质,如杂交和洗涤缓冲液,预制的探针列阵、标记的探针纯化制剂和成分,如离心柱(spin column)等, 信号生成和检测制剂,如抗生蛋白链菌素-碱性磷酸酶结合物、化学荧光或化学发光底物寸。除了上面的成分,该试剂盒进一步包括实施所述方法的说明书。这些说明书可以多种形式存在于所述试剂盒中,其一个或多个可存在于试剂盒中。这些说明书存在其中的一个形式是在适当的介质或底物上的打印的信息,如在试剂盒的包装中,在包装插入件中的其上印有信息的一张或多张纸。其他的方式可以是计算机可读介质,如其上记录信息的软盘、⑶等。可存在的其他方式可以是通过因特网可使用以进入远端地点的信息的网址。 任何合宜的方式可存在于试剂盒中。上述分析方法可作为计算机可执行的说明书程序被包括以进行本发明的不同方面。上述的任何技术可通过装在计算机或其他信息电器或数码设备中的软件部分方法进行。当如此启动时,然后计算机、电器或设备可执行上述技术,以上述方式辅助与多种基因相关的数值组的分析,或比较这样的相关的数值。可从固定的介质装载软件部分或通过通讯介质如因特网或其他类型的计算机网络进入软件部分。上述特征包含在一个或多个可通过一个或多个运行这样的程序的计算机执行的计算机程序中。实施例通过例举但非限制的方式提供下述实施例。实施例1 单细胞中基因表达的分析。鼠乳腺CSC的显著部分包含相对低水平的R0S,因此假设与其NTC对应物相比,这些细胞可表达增强水平的ROS防御。单细胞基因表汰分析。为了进行单细胞基因表达试验,我们使用qPCRDynamicArray微流体芯片(Fluidigm)。 利用FACS将富含 MMTV-Wnt-lThyl+CD24+Lin-CSC 的单个细胞(TG)禾口 “Not Thyl+CD24+” Lin” 非致癌(NTC) 细胞分类至含 PCR 混合物(CellsDirect, Invitrogen)和 RNase 抑制剂(Superaseln, Invitrogen)的96孔平板。低渗裂解后,我们加入RT-qPCR酶(Superscript 11IRT/ Platinum Taq, Invitrogen)和含有目标基因(Gclm-Mm00514996_ml,Gss_Mm00515065_ml, Foxol-Mm00490672_ml, Foxo4-Mm00840140-gl, HiflaMm00468875_ml, Epas 1-Mm00438717_ ml)的低浓度分析物的集合物(引物/探针)的混合物。22个PCR循环(每个循环 950C 15秒;60°C 4分钟)预扩增后,进行逆转录(50°C 15分钟,95°C 2分钟)。平行地进行总RNA对照。从每个细胞中得到的扩增的cDNA被插入具有Taqman qPCR混合物(Applied Biosystems)的芯片样品入口。单独的分析(引物/探针)被插入芯片分析入口(每一个重复2次)。将芯片装入芯片装载机(Nanoflex,Fluidigm) 1小时,然后将其移至读取器 (Biomark, Fluidigm)用于热循环和荧光定量。为了除去低质量的基因分析,我们放弃了 qPCR曲线显示为非指数增加的基因分析。为了除去低质量的细胞(如死亡细胞),我们放弃了不表达管家基因Actb (β肌动蛋白)和Hprtl (次黄嘌呤鸟嘌呤磷酸核糖转移酶1)的细胞。这导致了由来自全部7个芯片类型(chip-run)的248个(109个致癌的和139个非致癌的)细胞组成的单细胞基因表达数据组。计算两个样本柯尔莫哥罗夫-斯米诺夫 (Kolmogorov-Smirnov,K-S)统计量以测试两个群中的基因是否差异表达。通过变换样本标记(即TG对NTG)和比较来自变换的零分布中的那些实际的K-S统计量,我们产生了 ρ值。 进一步通过邦弗朗尼校正(Bonferroni correction)纠正ρ值,以调整多假设测试。实施例2使用SINCE-PCR分析和定量人“结直肠癌干细胞”(Co-CSC),其是一种基于“单细胞基因表达分析”的新的方法。SINCE-PCR方法允许鉴别、表征和定量人结直肠癌组织中的“癌干细胞”,其具有先前不能实现的纯度和分辨率程度。可以是可致癌的或肿瘤起始细胞的癌干细胞是当移植到免疫缺陷小鼠时具有形成肿瘤能力的癌细胞的亚群。目前癌干细胞群在乳腺、脑、头和颈、 胰腺和结肠癌中被鉴别到。“癌干细胞”的精确的功能性定义和定量对于人癌的诊断、预后、 分类和治疗靶向具有几个重要的含意。我们描述了用于鉴别、分析和定量人结直肠癌组织中“癌干细胞”的新方法,其基于利用实时聚合酶链反应(实时PCR)的单细胞基因表达分析。我们鉴别了一组新的基因, 其协同的和差异表达可被用作“标记”来鉴别相同肿瘤组织中得不同癌细胞亚组。这组新的基因包括所有上皮细胞通常的管家基因(EpCAM、β肌动蛋白、GAPDH),干细胞生物学相关的基因(hTERT、LGR5、存活素),以及涉及正常结肠上皮的不同细胞谱系相关的组织特异的分化路径(碳酸酐酶II、MUC2、三叶因子3)和分化阶段(细胞角蛋白20、⑶66a/CEACAMl) 的基因。基于这组基因的表达模式,从人结直肠癌组织纯化并作为单细胞被个别分析的上皮细胞可被“分类”和聚类到不同的组,其对应于更晚期或不太晚期的分化阶段(如在人结肠隐窝顶部末端分化的细胞对位于人结肠隐窝底部的更不成熟的细胞),和结肠上皮的不同分化谱系(如杯状细胞、肠细胞、未成熟细胞)。可以整个群的百分比将每组定量。我们将此分析生物组织的细胞成分的方法和方法学命名为“SINCR-PCR” (单细胞表达-聚合酶链反应)。我们的发现基于一些观察。通过流式细胞仪从新鲜收集的实体瘤组织直接富集的人“结直肠癌干细胞”是可重复的并在单细胞水平上稳健地被分析(图1)。在人结肠癌异体移植物中,利用实时PCR的单细胞基因表达分析表明EpCAM-/ ⑶44+和EpCAM-/V⑶166+癌细胞都可被进一步再分类为以干细胞生物学和分化过程中涉及的不同组基因的一致的和差异的表达为特征的不同的细胞亚型,EpCAM-/⑶44+和EpCAM-/ VCD166+癌细胞已知被富集“结直肠癌干细胞”群。更有趣的是,展示高水平的编码已知结肠上皮的末端分化标记物(如细胞角蛋白20、⑶66a/CEACAMl碳酸酐酶II、MUC2、三叶因子 3)的基因的细胞亚型不表达或表达低水平的编码候选肠干细胞标记物的基因或已知干细胞功能(如hTERT、LGR5、生存素)必须的基因,相反亦然。这表明EpCAM/⑶44+/⑶166+癌细胞含有特征为不同分化阶段的不同细胞亚型(图2)。当利用荧光活化细胞分类(FACS)术纯化并再注入免疫缺陷N0D/SCID小鼠时, CD44+/CD66a+和CD44+/CD66anewl”细胞展示基本上不同的致癌特性,其中CD44+/CD66anegl°w 群表现为具有最高的致癌能力的一种(表4)。这表明,在EpCAM+/CD44+细胞群中,以编码分化标记物如⑶66a/CEACAMI的基因高水平表达为特征的细胞亚型(即更“成熟”的细胞亚型)通常相对缺乏致癌能力。另一方面,以缺乏或低水平表达分化标记物如⑶66a/CEACAMI为特征的细胞亚型(即更“不成熟”的细胞亚型)富含在“结直肠癌干细胞”内容物中。表1、基于与EpCAM和/或⑶44联合的⑶66a/CEACAMI表达的人结肠癌细胞的致
癌特性。
实验肿瘤来源3Liniwg分类的群15细胞剂量肿瘤成Se实验代码1)UM#4m4CD44neg10,0002/10PD69-CD44+/CD66a+4501/3CD44+/CD66aneg-l0W2502/32)UM#4m6CD44neg10,0001/5PD85CD44+/CD66a+5000/2CD44+/CD66anes-low1,0003/33)UM#4m4CD44neg10,0000/5PD107CD44+/CD66a+1,0000/1CD44+/CD66aneg-l0W1,0003/44)SU29mlCD44neg7,0000/5PD88-CD44+/CD66a+1,0000/5CD44+/CD66ane§"Iow2,0001/51,0000/55)SU43搬游EpCAM7CD44neg12,0000/5PD79EpCAM+/CD44+/CD66a+3000/1EpCAM+/CD44+/CD66aneg-low 1,0001/3a对于每一个实验,如下报道了用作癌细胞纯化源的肿瘤异体移植物的连续的体内传代ml表示从原发肿瘤移植物获得的第一轮肿瘤,m2是从ml的移植物获得的第二轮肿瘤,m3是从m2移植物获得的第三轮肿瘤,如此持续地继续;初始的表示直接从手术标本获得的原发肿瘤。b所有被分类的群被认为是谱系标记物阴性(LinMg),在N0D/SCID小鼠中建立的人肿瘤异体移植物的情况下,其包括小鼠CD45和小鼠H2-Kd,在原发人肿瘤的情况下 (在此情况下EpCAM作为阳性上皮选择标记物),其包括人⑶3和⑶45。c肿瘤成活被报道为得到的肿瘤数/注射的数量;过了 5周后没有看到肿瘤块认为肿瘤成活不成功。实施例2 带有肺转移的人乳腺癌异体移植模型的生成和成像将患者来源的乳腺癌样本(大块或TIC)正位移植至NOD-SCID小鼠的乳腺脂肪垫。生成6个异体移植的肿瘤模型(1个ER+、1个Her2+、4个3阴性ER-PR-Her2_)。所有4 个3阴性异体移植物全部发展了自发的肺微转移,其被IHC染色(即H&E)、增殖标记物Ki67 和波形蛋白(VimentimVim)染色证明。这些数据表明移植到免疫缺陷小鼠上时,乳腺肿瘤细胞或TIC能够适应小鼠的微环境而重演伴有自发肺转移的人肿瘤生长和进展。为了帮助小鼠中人乳腺癌和转移的动力学的和半定量成像,移植后4天利用 PHRuKRi慢病毒(moi50)用萤火虫荧光素酶-EGFP融合基因转导乳腺TIC,用弱的生物发光信号可检测到初始位点的TIC。并且一个月后,原发肿瘤(在L4和R2乳腺脂肪垫)和肺转移物都能利用位于斯坦福的小动物成像中心的fenogen IVIS 200系统检测和成像。我们观察到与信号强度相关良好的肿瘤大小或细胞数。具有转移的异体移植肿瘤的生成和生物发光成像为我们提供了证实此建议中人乳腺癌MTIC中miRNA功能的值得欢呼的可行性。实施例3 人乳腺MTIC的微列阵和实时PCR分析从乳腺癌初始位点或胸腔积液分离人乳腺原发肿瘤发生细胞(TIC)或转移TIC (MTIC) (CD44+CD24-/l0WESA+谱系_)。一旦在异体移植模型中检测到肺转移,则用 Blenzyme (Roche)分裂肺,并用小鼠HI和人CD44、CDM和ESA染色细胞以纯化MTIC群 (⑶44+CDM-a°wESA+H2K_,图8a),移植到小鼠乳腺脂肪垫后其以200-1000个分类的细胞的 5/8的比率生长正位肿瘤。如微列阵分析和实时PCR所示,HIFl α和HIFl调节的靶基因与包括Snail、^A2、 波形蛋白、上皮细胞钙粘蛋白、L0X、C0X2、VEGF等的非致癌肿瘤细胞相比,在MTIC中差异地表达(图8B)。利用免疫组化染色确认了 HIFl α、波形蛋白和⑶44的共区域化。实施例4:微RNA分析通过微RNA筛选,鉴别了分离自肺的亲代乳腺癌干细胞和转移癌细胞的差异表达概况。例如,与原发乳腺TIC相比,在肺MTIC中有较高的miR-lOa表达和较低的miR-490、 miR-199a等的水平。如图4中的3次重复的实时PCR所示,肺MTIC对原发TIC的平均CT 值比较:miR-10a (-7. 9)、miR-490 (+3. 0)和 miR_199a (+12. 9)。NR3 被用作内控。数据表明与乳腺癌原发TIC相比,MTIC中miR-lOa上调了多达27. 9倍,miR_199a下调了 212. 9倍。实施例5 作为乳腺癌非致癌癌细胞标记物的⑶66a当大多数细胞为⑶时,基于⑶44和⑶66a分类乳腺癌细胞。然后将细胞移植到N0D/SCID小鼠的乳腺脂肪垫并监控肿瘤生长。如图5中所示,利用生物发光成像, ⑶44/⑶66a-细胞显示高的移植率和高生长率。⑶66+细胞显示较低的和延迟的肿瘤生长率,肿瘤尺寸小很多,并显示与CD66-起源的肿瘤相比相似的流式(flow)概况。在图fe中,基于⑶44和⑶66a标记物表示流式概况。⑶66-⑶44+和⑶66+⑶44+ 细胞被分类用于体内致癌分析(100个细胞或1000个细胞移植至N0D/SLID小鼠的乳腺脂肪垫的Zid或41h)。如IOb所示,从100个⑶66-细胞来源的8个移植物中的5个生长肿瘤而从100个⑶66+细胞来源的8个中的2个生长。对于1000个细胞,从⑶66-细胞注射来源的8个中的8个生长但从CD66+细胞来源的8个中仅3个生长肿瘤。与可触知的肿瘤的生长率相比,CD66+细胞比那些来自CD66-的细胞具有较低和较小的大小(图5c)。在图 5d中,100K的⑶66-⑶44+或⑶66+⑶44+细胞在注射前被萤火虫荧光素酶-EGFP慢病毒感染。来自CD66+细胞的生物发光信号比来自起始的CD66-细胞的那些高(第13天)。但是 1个月或2个月后,CD66a-细胞显现出显性的生物发光信号并在最后生长出可触知的肿瘤 (第68天)。实施例6 用于鉴别和测量癌干细胞频率的基因列表的优化此时用于鉴别正常干细胞和癌干细胞二者的多数标记物与重要的干细胞功能不相关。它们的表达与分离时干细胞存在于其中的特定的微环境有关。因此,用于鉴别干细胞的普通标记物的利用可随着其被收集的位置而变化。我们的方法已经鉴别了重要干细胞功能的标记物。由于自我更新是典型的干细胞的特征,我们把我们的努力集中于自我更新路径上。在每一个各自的组织中,我们均鉴别了多种被正常的HSC、源自祖细胞的白血病干细胞和人上皮癌干细胞,但不是被非自我更新细胞高度表达的基因。在初始结果中描述的此基因组分析鉴别了以前认为与干细胞自我更新
29相关的大量基因。相似地,我们鉴别了乳腺癌干细胞和非致癌性癌细胞差异表达的候选微 RNA。证据证明这些基因和微RNA中的几个具有重要的干细胞功能,这些基因的功能对hESC 和iPSC自我更新和维持也非常重要。为了制造能够测量在肿瘤细胞群中的癌干细胞频率的设备,需要优化用于鉴别癌干细胞的基因列表。如图IB中所示,我们在此方面产生了巨大的进步,鉴别了作为癌干细胞标记物端粒酶以及与自我更新过程相关联的一些基因。端粒酶成分TERT仅仅在具有未成熟表现型的结肠癌细胞中表达。而且,TERT不能用一些hESC和iPSC系的分化有效地下调。分析了正常的和癌性的结肠上皮细胞二者的与隐窝细胞成熟和自我更新关联的基因的表达。自我更新基因列表扩展超出TERT以最大化细胞是干细胞的置信度。测量在我们对正常和癌干细胞分析中鉴别的基因的表达。因为癌干细胞可潜在地来自逃避了扩展限制的干细胞或逃避了限制其可进行的有丝分裂数量的计数机制的祖细胞,候选基因是源自祖细胞和人乳腺癌干细胞的正常鼠HSC、鼠白血病干细胞表达的那些。在该表中被鉴别的最上方的、与干细胞的维持都相关联的候选基因包括BMI1,-IDI,IGFBP3, HOX家族成员 H0XA3,H0XA5,MEIS1,ETS1,ETS2,RUNX2和STAT3。我们要证实这些基因中的哪些基因与癌干细胞自我更新有关。为此目的,我们将使用体外和体内技术系统地测试我们的候选基因在癌干细胞自我更新中的作用。调节自我更新的基因的表达与上皮细胞特异的基因表达有关,包括成熟标记物, 如角蛋白和肠粘蛋白。其将允许确定分析中的细胞不是活组织检查样本中正常细胞污染物。其表达被自我更新基因BMI I下调的肿瘤抑制基因的突变允许早期祖细胞自我更新。 这些基因常在结肠癌中突变,因此自我更新的结肠癌干细胞既来自正常干细胞又来自早期结肠祖细胞。而且,致癌突变将通过结肠癌细胞改变基因的表达。因此,在正常结肠上皮干细胞和其恶性对应物之间存在至少一些与早期隐窝细胞成熟关联的基因的表达的不同,其使得能够彼此区分这两种自我更新的细胞群。我们鉴别了癌干细胞和非致癌的癌细胞中的37个差异表达的miRNAS。一些miRNA 簇在正常组织干细胞中被下调,而在癌干细胞中不被下调;而且,一些miRNA,如miR-200c 和miR-183的表达抑制体外胚胎癌细胞的生长,消除其在体内的肿瘤形成能力,并抑制体外乳腺癌细胞的集落形成。这些miRNA和我们鉴别的其他簇提供了连接乳腺癌干细胞和正常干细胞生物学的分子连接。这些在致癌细胞中可被持续地上调或下调的微RNA的表达在单细胞中从未分化和分化的hESC和iPSC被探查。本质上,通过不同于多能干细胞如Tra和 SSEA亚型的细胞表面标记物将未分化的细胞分类,评估其miRNA表达,重编排(!^plating) 体内的有效性和群参数(以胚胎性癌、混合的胚胎性癌/分化的细胞指数(%EC比分化的) 和分化的细胞的形式的畸胎瘤分析的结果)。分化观天后,通过胚胎体产物获得分化的胚胎干细胞群,并通过SSENTRA标记物的阳性和阴性选择进行分类。我们将检测被分类群中的单细胞的1)指示癌干细胞的微RNA概况2)基因表达概况(下),和3)移植/畸胎瘤分析的结果。我们期待这些群中的“对抗分化”的细胞将形成恶性胚胎癌衍生物并在单细胞中共表达分化和未分化细胞的标记物。实施例7 在单细胞水平的基因表达概况在多能细胞群中,即使在分化21天后,我们仍观察到不能下调关键的致癌标记物如TERT的细胞系(参见图6)。另外,我们观察到大约50%的我们的iPSC系在分化状态不能下调外源的和内源的多能标记物。本质上,这提示了我们预测为致癌倾向结果的分化和自我更新间的“分子战争(molecular war)”。我们将通过以下步骤优化鉴别hESC和iPSC 细胞培养物中恶性细胞的基因列表1)分析相对于未分化的hESC和IPSC和人胚胎分裂球,在EC(胚胎瘤)细胞中过表达的基因,幻交叉引用基因列表以包括来自Aim 1(用于鉴别癌干细胞)的那些,和幻加入分化的体细胞和生殖细胞系(后者保留对抗分化的多能干细胞)的基因。然后,我们将使用免疫缺陷小鼠实验来根据基于单细胞基线基因表达诊断的恶性潜能评估亚群的致癌能力。CNV分析。染色体变异与多能人干细胞群中的不稳定相关,具有通常观察到的染色体缺失和获得。可是,几乎没有研究论述精细结构、高通量方法以评估多位点的拷贝数。我们建议采纳我们的技术在独立来源的多能干细胞系中评估基因组范围的CNV数;CNV的变化反映了亚染色体的不稳定。开始,我们设计了特异的用于加至我们的基因/基因座列表的识别横过基因组的重复的探针组,包括我们的实验室事先观察到的那些(图6)。在其初始设计中,SCAD可容纳多至1000个标记物的分析。CNV分析可商业购得并可与hESCsliPSC 中的基因组的不稳定性相关。实施例8 设计鉴别和定量癌干细胞的自动化设备设计自动化设备以鉴别癌干细胞并以细胞表面表现型和基因表达的组合为基础计算其在肿瘤中的频率。通过使用本文中所述的优化的标记物/遗传分析,使用相似的策略,以单细胞中分化的和未分化的状态的标记物的共表达为基础,鉴别具有恶性潜能的细胞。该设备将制得胚胎体或肿瘤针刺活组织检查样本的单细胞悬液,分离细胞亚群(上皮的、分化的、未分化的),然后进行成百上千个单细胞的qRT-PCR,并测量肿瘤或多能细胞培养物的干细胞含量。这样的全自动设备将消除目前癌干细胞流式细胞分类所需的劳动密集型步骤,允许真正的不用手的(hand-off)、床边的诊断工具,其需要少于100,000个细胞以分离足够用于定量癌干细胞的PCR分析的癌细胞。微流体芯片技术所具有的自动操作、有效性和低成本将使得个体化、快速的遗传诊断变为可能。本系统的核心是微流体细胞分类仪。该设备从碎片(坏死的细胞和其他颗粒)分离活的细胞(上皮细胞或培养的多能细胞或其产物),使用来自多达5个不同的表面标记物的荧光信号从单细胞悬液中分类出细胞,并将其放在单独的小箱中以用于随后的遗传研究。其他的上游步骤,如消化肿瘤或细胞培养物以获得细胞悬液以及用荧光表面标记物染色细胞,也可以包括在本系统内。系统被如何用于肿瘤分析如下所述一旦获得了活组织检查样本,医生将会将样本放在此系统的输入部分。通过利用用户友好的计算机界面,医生将设立分类和遗传分析的必要参数如表面标记物的数目和类型,所需PCR循环的数目等,并且机器将进行其余的不要人的干预的步骤。基于先前证明的技术,该系统将允许至少30个细胞/秒的分类处理量。单细胞分析设备(SCAD)可以是模块化的(图7)并以整体的全自动的方式进行以下步骤1)消化组织将组织放置在设备输入部分。向设备中引入适当的酶并流入以进行细胞外基质的消化以得到细胞悬液。2)从碎片中分离活细胞悬液典型地含有平均大小为 10至15微米的活细胞,而碎片物质的平均大小大约为5微米。与活细胞相比,有时候死物质的量相对高,因此滤除死物质对有效分离细胞是重要的。通过将消化的组织悬液流入允许根据颗粒大小分开流体流的微流体“超材料”,我们完成了此步骤。幻染色通过在微流体设备不同的间隔使用适当的表面标记物染色过滤的单细胞悬液。使用多达5个不同标记物的染色在获得高纯度癌细胞群中是有用的。4)分类被染色的单细胞悬液流入微流体设备的下一个间隔,以从其余的细胞中分类出癌细胞。泊松统计和蒙特卡洛模拟表明,在99% 的置信水平内,为了能够检测癌干细胞中2倍的变化,仅仅需要分类2,000至20,000个癌细胞。目前,使用流式细胞术不能有效地分类这样小数量的细胞,因为FACS所需要的初始样本大小为大约100万个细胞。我们使用基于微流体的不确定地循环密封的、分离的小容积环境中的分类实现此目的,所述环境不浪费细胞。基于流体的微流体细胞分类仪已经证实了具有接近50个细胞/秒处理量的微流体细胞分类仪,其中细胞以高速流过激光束(参见Di Carlo等人,Lab Chip 2006 ;6 1445-1449),检测和分析散射的光。更快的电子学和更有效的成像设备允许以数量级的幅度改善处理量,其将分类时间降低至少于10分钟。平行分类以在可被独立定址的密集的、2D列阵的微流体间隔上捕获细胞为基础开发细胞分类仪(上述图7B和图7C)。细胞被流入分类仪列阵并被微制造的笼状体捕获。 这样的笼状体以前被证实在自由流动的悬液中具有超过50%的单细胞捕获效率(Di Carlo 等人,上述)。当所有笼状体被填满后,微流体阀门被关闭,使用定制设计的计算机控制的光、以鉴别致癌细胞所需的全部5种荧光颜色成像列阵。该新的芯片还允许相差成像,其可以证实对研究细胞形态学是有用的。被鉴别的致癌细胞被流入下一个模块用于裂解,而剩下的细胞被流出芯片。这种新的细胞分类仪允许用非常小的初始细胞数进行工作,因为细胞可被循环许多次且因此不被浪费。目前的微流体芯片技术允许我们在3x 3cm面积上放置接近10,000个这些组件,其可被使用目前技术水平的成像器(如被Fluidigm Biomark 系统所使用的一个)快速地询问(单摄)。此细胞分类仪具有接近30个细胞/秒的处理量。与基于流体的细胞分类仪相反,使用平行分类设备的一个优点是分类和PCR期间的成像可通过相同的成像器进行,因此允许我们将荧光和形态学数据与个体细胞的遗传数据相关联。细胞裂解和mRNA捕获被分类的癌干细胞被流入下一个模块用于在单独的小室中裂解。可以在含有oligo-dT小珠的柱上捕获mRNA,如通常所述的在小珠上逆转录 (Marcus等人,Anal Chem2006 ;78 :3084-3089)并通过开发用于Heliscope的新基因测序规程加工出(process off)芯片,或可被转移至宏观的孔(微升范围)并混合目前的规程后预扩增基因的组的试剂。预扩增的样本被转移至与Fluidigm Dynamic列阵芯片相似的模块用于qRT-PCR并确定真正的癌干细胞含量。基于正常乳腺和血干细胞以及结肠、头和颈和乳腺癌干细胞的分析,我们鉴别了一个新的单细胞分析,其第一次使精确地并明确地鉴别和计数活组织检查样本及培养的多能干细胞群中的癌干细胞成为可能。作为原理的证据,我们将此分析用于单个结肠癌细胞的分析。为此目的,我们使用FACS从两个不同患者建立的早期传代异体移植物分类 ⑶66+CD44系结肠癌细胞。这些标记物允许肿瘤中结肠癌干细胞(CoCSC)大约3_5倍的富集。我们推测用这些标记物分离的癌细胞仅仅部分富集了 CoCSC。单细胞基因表达分析及随后的致癌性研究证明实际上CD66+CD44+系细胞是CoCSC和非致癌细胞的混合物,此分析能用于更精确地鉴别活组织检查样本中CoCSC的频率。单细胞分析揭示了是正常结肠隐窝的提示的结肠癌细胞的分级发育结构。值得注意地,我们发现结肠肿瘤中的大多数未成熟细胞表达TERT,其是一种对肿瘤的长期维持是重要的端粒酶复合物的成分。标记正常结肠干细胞的LGR5的表达也被限制在未成熟的细胞。相反地,成熟结肠隐窝细胞表达的基因 (包括MUC2、‘ CK20、CA-2以及特别地⑶66a)被不共表达未成熟细胞标记物,最显著的是 TERT的细胞表达。这表明这些细胞像正常成熟的上皮隐窝细胞一样,在其进行广泛的有丝分裂的能力上具有限制性。事实上,我们已经将⑶66a+(分化的结肠癌细胞)和⑶66a"‘ 结肠癌细胞移植至免疫缺陷小鼠。CD66a'细胞形成肿瘤(6次注射中的5次)而CD66+细胞不形成(5次注射中的0次)。相似地,在被检测的2个人乳腺癌肿瘤中,当在免疫缺陷小鼠模型中检测时,⑶66ew细胞被富集了癌干细胞。这些结果证明单细胞基因表达分析使活组织检查样本和培养物中的癌干细胞的鉴别和定量成为可能。实施例9 在血液和乳腺上皮组织二者中,被正常干细胞和癌干细胞分享的基因表达标记近年来渐渐明确癌干细胞可来自不同的细胞间隔。一些可能来自失去干细胞池扩增限制的突变干细胞。其他的来自失去正常限制其能进行的有丝分裂数目的计数机制的更分化的早期祖细胞。当然,来自干细胞或祖细胞的癌或白血病干细胞的许多标记物是不同的。可是,不考虑来源的细胞,干细胞将保持自我更新的能力。我们认为原因可能是在来自干细胞分隔或部分分化的后代的癌干细胞中调节自我更新的一些路径被其彼此地以及与正常HSC分享。为了验证这一假设,我们分析了被正常小鼠HSC和来自祖细胞(即自我更新群)而非来自正常祖细胞(即非自我更新群)的鼠白血病干细胞表达的基因是否也被人乳腺癌干细胞而非其非致癌的相应物表达。显著地,人癌干细胞,而不是其非致癌相应物, 过表达这些基因(图8)。我们还生成了 2个其他的基因列表,以鉴别其他潜能的候选i) 被乳腺癌干细胞和正常乳腺干细胞表达的,而非被非致癌的癌细胞或成熟乳腺上皮祖细胞表达的基因;ii)被正常人HSC和人乳腺癌干细胞表达而非被人血祖细胞或非致癌乳腺细胞表达的基因。这些基因的许多与自我更新和癌相关联。这些包括胰岛素生长因子结合配偶体 IGFBP3、HOX 家族成员 H0XA3、H0XA5、MElSl 以及转录因子如 ETS1、ETS2、RUNX2 和 STAT3。 检测了转录因子STAT3是否真正是癌干细胞调节子。STAT3在ES细胞和HSC细胞的维持中均起作用。小鼠和人乳腺癌干细胞的基因学分析都揭示许多STAT3激活的转录物被癌干细胞过表达。其次,当我们检测乳腺肿瘤的免疫化学分析时,趋向于在癌和蛋白质浸入边缘浓缩的STAT3阳性细胞在肿瘤内部的看似更分化的细胞中没被发现。最后,存在STAT3的小分子抑制剂。这样的抑制剂可在癌干细胞模型中检测。检测了 STAT3抑制剂葫芦素对鼠乳腺癌干细胞的克隆形成能力的效果。简言之(a short),M小时暴露于该抑制剂降低了克隆数的 50% (ρ < 0. 02,t检验)。这些结果表明STAT3至少在一些乳腺癌干细胞中起重要作用。目标第二基因是MEISl。MEISl优选被正常血和乳腺干细胞、白血病干细胞和乳腺癌干细胞表达。遗传研究表明MEISl的表达是正常血干细胞及其白血病相应物自我更新和维持都绝对需要的。MEISl可调节乳腺癌干细胞的更新。正常和癌干细胞都表达的特别感兴趣的候选基因包括CAV1、GAS1、MAP4K4(激酶) MYLK (激酶)、PTK2 (激酶)、DAPKl (激酶),LATS (激酶)、F0SL2、AKT3 (激酶)、PTPRC (酪氨酸硫酸酶)、MAFF(癌基因)、RRAS2(RAS 相关的)、NFKB、R0B01、IL6ST (激活 STAT3) ,CRlMU PLS3、S0X2、CXCL14、ETSU ETS2、MEISl和STAT3,以及CD47。癌干细胞但非正常干细胞过表达的目标候选基因包括RGS4、CAV2、MAF (癌基因)WT1 (癌基因)、SNAI2、FGFR2、MEIS2、 101、103、ID4 和 FOXCl。实施例10 造血干细胞的全转录组分析在此实施例中,我们寻找使用造血干细胞的转录组分析。此实施例的一般性概括在图9中显示。在本实施例中,从测试受试者中分离怀疑包含造血干细胞的细胞群。然后通过将细胞群暴露于已知造血干细胞标记物(如CD34、Thyl等)的荧光抗体制备细胞,用于FACS分析。将细胞分类至96-孔平板,使每一孔含有不超过一个单细胞。裂解分离的单细胞,将裂解物分成2部分。第一部分用于利用实时PCR的单细胞基因表达分析,基本上如实施例1中所描述的,通过使用允许根据表达(如⑶34+、⑶19-、 ⑶17-)的水平或存在区分HSC和非HSC的基因的选择。在鉴定群中的HSC后,汇集来自鉴别为HSC的单细胞的裂解物。通过使用标准方法扩增总mRNA来创制cDNA库。然后使用如文本中描述的那些中的任何“次世代”方法测序cDNA。然后分析被测序的转录组以确定是否存在独特的基因和/或表面标记物。鉴定HSC独特的表面标记物后,利用商业可获得的技术制备特异性结合表面标记物的抗体。确认抗体的特异性和有效性(如结合至分离的和/或重组的蛋白质)。然后用荧光的部分标记抗体。然后可使用抗新发现的表面抗原的抗体在其他细胞群(如来自相同或不同受试者)上进行FACS分类和/或分析。实施例11 治疗剂的分析在此实施例中,进行候选治疗剂的选择。如上所述,分离靶细胞,如结肠癌干细胞和结肠癌细胞(分化的),并在单细胞水平进行分析。使用事先鉴别的靶细胞特异的标记物从活组织检查样本中分离靶细胞(如使用靶细胞特异的抗体和/或靶细胞特异核酸的荧光标记的FACS分离)。靶细胞被分离至含有单细胞的可定地址的位置。然后将被分离的细胞暴露于候选治疗剂(如抗体、连接毒素的抗体、小分子)的库。然后收集细胞并分析基因表达模式和/ 或细胞活力。成功的候选治疗剂可以是靶向要死亡的细胞的那些。另外可选择地,候选治疗剂可改变与来自非疾病状态细胞的表达模式相比已知被错误调节(如上调或下调)的基因的表达。将靶细胞暴露于候选治疗剂可以引起核酸表达模式的改变,其更接近地类似于正常(即非疾病状态)细胞的模式。然后将有希望杀伤或改变靶细胞的候选治疗剂暴露于正常细胞以确定其作为治疗剂的潜在用途(如,如果候选试剂杀伤靶细胞和正常细胞,则排除其作为可用试剂的可能)。
3权利要求
1.一种鉴别异质性实体肿瘤样本中不同细胞群的方法,其包括 从所述肿瘤随机分隔单独的细胞至分离的位置;在分离的位置中进行单独被分隔的细胞的多个基因的转录组分析;和进行聚类分析以鉴别一个或多个不同的细胞群。
2.根据权利要求1所述的方法,其中所述单独的细胞在所述分隔前不被富集。
3.根据权利要求1所述的方法,其中所述的转录组分析在至少1000个单独的细胞上同时进行。
4.根据权利要求1所述的方法,其中所述的转录组分析通过使用核酸分析进行。
5.根据权利要求1所述的方法,其中所述的分离的位置是在平面基质上。
6.根据权利要求1所述的方法,其中所述的随机分隔在微流体系统中进行。
7.根据权利要求1所述的方法,其中所述的转录组分析包括分析表达的RNA、非表达的 RNA或二者。
8.根据权利要求1所述的方法,其中所述的转录组分析是全转录组分析。
9.根据权利要求1所述的方法,其中所述的转录组分析包括使用一单套引物对扩增RNA。
10.根据权利要求9所述的方法,其中所述引物对是非巢式引物。
11.根据权利要求1所述的方法,其中所述转录组分析同时地或基本实时地在所述单独的细胞的全部或亚类上进行。
12.根据权利要求1所述的方法,其中所述一个或多个细胞群是正常干细胞、正常祖细胞、正常成熟细胞、炎症性细胞、癌细胞、癌干细胞或非致癌的干细胞。
13.一种分析来自受试者的异质性肿瘤活组织检查样本的方法,其包括 随机地将来自活组织检查样本的细胞分隔至分离的位置中;在单独分隔的细胞的至少50个基因上进行转录组分析;和使用转录组数据来鉴别所述肿瘤的一个或多个特征。
14.根据权利要求13所述的方法,其中不事先富集细胞类型而完成进行步骤。
15.根据权利要求13所述的方法,其中特征是癌细胞的存在、不存在或数目。
16.根据权利要求13所述的方法,其中特征是干细胞、早期祖细胞、初始分化的祖细胞、后期分化的祖细胞或成熟细胞的存在、不存在或数目。
17.根据权利要求13所述的方法,其中特征是治疗剂消除一个或多个细胞的有效性。
18.根据权利要求13所述的方法,进一步包括使用所述特征诊断所述受试者患有癌或癌阶段。
19.根据权利要求13所述的方法,其中特征是信号路径的活性。
20.根据权利要求19所述的方法,其中所述信号路径是癌干细胞、分化的癌细胞、成熟癌细胞或其组合特异的。
21.一种鉴别疾病状态细胞使用的信号路径的方法,其包括 从异质性样本随机分隔细胞;在所述分隔的细胞上进行转录组分析; 使用转录组分析来鉴别至少一种疾病状态细胞;将所述至少一种疾病状态细胞的所述转录组分析与以下细胞的转录组进行比较a)非疾病状态细胞;b)不同的疾病状态细胞;和c)疾病状态干细胞;和鉴别在以下细胞中表达的信号路径⑴疾病状态细胞,(ii)疾病状态干细胞和(iii) 任选地不同疾病状态细胞但不是非疾病状态细胞,从而鉴别疾病状态细胞使用的信号路径。
22.根据权利要求21所述的方法,其中所述的疾病状态是癌、溃疡性结肠炎或炎症性肠疾病。
23.根据权利要求21所述的方法,其中所述的信号路径是所述疾病状态细胞生存所需要的。
24.一种诊断受试者具有病状的方法,其包括, 从异质性样本随机分隔细胞;对被分隔的细胞进行第一次转录组分析;通过将来自至少一种疾病状态细胞的所述第一次转录组分析与来自非疾病状态细胞的第二次转录组分析进行比较,使用转录组分析来鉴别至少一种疾病状态细胞,从而诊断所述受试者中与所述疾病状态细胞相关的病状的存在或不存在。
25.根据权利要求M所述的方法,其中所述疾病状态是乳腺癌、结肠癌、溃疡性结肠炎或炎症性肠疾病。
26.根据权利要求21所述的方法,其中所述转录组分析包括分析表达的RNA、非表达的 RNA或二者。
27.根据权利要求21所述的方法,其中所述转录组分析是全转录组分析。
28.根据权利要求21所述的方法,其中所述疾病状态细胞是乳腺癌干细胞。
29.—种筛选治疗剂的方法,其包括将具有疾病状态细胞的第一受试者暴露于一个或多个检测试剂; 从受试者目标区域获得异质性肿瘤活组织检查样本;在至少一个来自所述异质性肿瘤活组织检查样本的单独的细胞上进行转录组分析,其中所述的活组织检查样本包括一个或多个疾病状态细胞;和将所述转录组分析与来自下述受试者的一个转录组进行比较(i)不具有疾病状态细胞的第二受试者;或( )所述暴露步骤前的第一受试者;和鉴别影响来自试验区域的细胞转录组使其更像第二受试者或暴露前的第一受试者的那些细胞的制剂。
30.一种确定治疗剂治疗疾病的潜在有效性的方法,其包括将疾病状态细胞的第一群分离至单独的位置,其中所述单独的位置包含一个单独的细胞;确定来自至少一个所述单独的细胞的至少一个核酸或蛋白质的表达水平,从而产生疾病状态表达标记;将疾病状态细胞的第二群暴露于制剂;将所述疾病状态细胞的第二群分离至单独的位置,其中所述单独的位置包含一个单独的细胞;确定来自所述第二群的至少一个所述单独的细胞的至少一个核酸或蛋白质的表达水平;和将来自所述第二群的所述单独的细胞的所述表达水平与所述疾病状态表达标记进行比较,从而确定所述制剂治疗所述疾病的有效性。
31.根据权利要求30所述的方法,其中所述暴露步骤在体内进行。
32.根据权利要求30所述的方法,其中所述第一群和所述第二群从一个受试者分离而来。
33.根据权利要求32所述的方法,其中所述受试者是人。
34.根据权利要求30所述的方法,其中所述疾病是癌、溃疡性结肠炎或炎症性肠疾病。
35.根据权利要求30所述的方法,其中所述核酸或所述蛋白质是癌干细胞标记物。
36.根据权利要求30所述的方法,其中所述表达水平是mRNA表达水平。
37.根据权利要求33所述的方法,其中确定所述mRNA表达水平包括检测10个或更多的核酸的表达或不表达。
38.根据权利要求30所述的方法,其中所述表达水平是蛋白质表达水平。
39.根据权利要求30所述的方法,其中所述分离步骤包括将所述细胞的群暴露于特异性结合在所述单独的细胞上存在的蛋白质的抗体。
40.一种确定受试者对治疗剂反应可能性的方法,其包括将来自受试者的细胞的群分离至单独的位置,其中所述单独的位置包括单独的细胞并且其中至少一个所述单独的细胞是疾病状态细胞;确定来自至少一个所述疾病状态的单独的细胞的至少一个核酸或蛋白质的表达水平, 其中所述核酸或蛋白质是治疗剂的靶标;和基于所述至少一个核酸或蛋白质的表达水平确定受试者反应的可能性。
41.根据权利要求40所述的方法,其中所述表达水平是mRNA表达水平。
42.根据权利要求41所述的方法,其中确定所述mRNA表达水平包括检测10个或更多个核酸的表达或不表达。
43.根据权利要求42所述的方法,其中所述表达水平是蛋白质表达水平。
44.根据权利要求42所述的方法,其中所述分离步骤包括将所述细胞的群暴露于特异性结合在所述单独的细胞上存在的蛋白质的抗体。
45.根据权利要求40所述的方法,其中所述治疗剂是抗癌剂。
全文摘要
提供了通过分析从单细胞分析中得到的一组基因的表达诊断和预后疾病的方法。分类允许优化治疗,以及确定是否进行特定的治疗,以及如何优化剂量、选择治疗等等。单细胞分析还提供了靶向疾病状态细胞中的突变和/或途径的治疗的鉴定和开发。
文档编号G01N33/53GK102333891SQ201080009805
公开日2012年1月25日 申请日期2010年1月20日 优先权日2009年1月20日
发明者A·莱拉, M·F·克拉克, M·迪恩, P·D·达勒巴, S·R·夸克, T·卡利斯基, 刘慧萍, 王建斌 申请人:利兰·斯坦福青年大学托管委员会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1