用于条形码化单个细胞或细胞群的核酸分子的方法和系统与流程

文档序号:18090320发布日期:2019-07-06 10:44阅读:182来源:国知局
用于条形码化单个细胞或细胞群的核酸分子的方法和系统与流程

本申请要求2016年10月19日提交的美国临时专利申请号62/410,326和2017年4月26日提交的美国临时专利申请号62/490,546的权益,其各自出于所有目的以全文引用的方式并入本文。



背景技术:

在分析和表征生物和生化物质和系统方面取得的重大进步已引起了在了解生命、健康、疾病和治疗机制方面的空前进步。在这些进步中,以生物系统的基因组构成为目标并进行表征的技术已经产生了一些最具开创性的结果,包括在基因扩增技术以及核酸测序技术的使用和开发方面的进步。

核酸测序可用于获得各种生物医学方面的信息,包括诊断、预后、生物技术和法医生物学。测序可涉及包括克萨姆-吉尔伯特测序(maxam-gilbertsequencing)和链终止方法的方法;或包括鸟枪测序和桥式pcr的从头测序方法;或包括聚合酶克隆测序(polonysequencing)、454焦磷酸测序、illumina测序、solid测序、iontorrent半导体测序、heliscope单分子测序、测序等的下一代方法。核酸测序技术(包括下一代dna测序)已经用于细胞群的基因组和蛋白质组学分析。



技术实现要素:

本文认识到需要用于分析单个细胞或小的细胞群的基因组和蛋白质组信息的方法、组合物和系统。此类细胞包括但不限于癌细胞、胎儿细胞和参与免疫应答的免疫细胞。本文提供了用于分析单个细胞或小的细胞群的方法、组合物和系统,包括分析这些单个细胞或细胞群的核酸并且将核酸归属到这些单个细胞或细胞群。

在一个方面中,本公开提供了一种用于核酸测序的方法,其包括:(a)提供多个液滴,其中所述多个液滴中的液滴包含(i)包含核酸序列的核糖核酸(rna)分子和(ii)包含与之偶联的核酸条形码分子的珠粒,其中所述核酸条形码分子包含条形码序列;(b)使用rna分子和核酸条形码分子生成条形码化核酸分子,所述条形码化核酸分子从5'末端到3'末端包含对应于rna分子的核酸序列的序列和条形码序列的补体;以及(c)对条形码化核酸分子或其衍生物进行测序。

在一些实施方案中,rna分子来自细胞。在一些实施方案中,液滴包括细胞。在一些实施方案中,所述方法还包括在(b)之前从细胞释放rna分子。

在一些实施方案中,珠粒包含与之偶联的多个核酸分子,其中所述多个核酸分子包括核酸条形码分子。

在一些实施方案中,所述多个核酸分子中的每个核酸分子均包含条形码序列。在一些实施方案中,所述多个核酸分子中的每个核酸分子均包含在所述多个核酸分子之间有所不同的另外的条形码序列。

在一些实施方案中,核酸条形码分子包含模板转换序列。

在一些实施方案中,所述方法还包括在(c)之前,对条形码化核酸分子或其衍生物进行核酸扩增。在一些实施方案中,在从液滴释放条形码化核酸分子或其衍生物之后进行核酸扩增。在一些实施方案中,核酸扩增是聚合酶链反应。在一些实施方案中,rna分子是信使核糖核酸(mrna)分子。

在一些实施方案中,在(a)中,液滴包含(i)包含另外的核酸序列的另外的核酸分子和(ii)包含另外的条形码序列的另外的核酸条形码分子,并且其中在(b)中,另外的核酸分子和另外的核酸条形码分子用于生成另外的条形码化核酸分子,所述另外的条形码化核酸分子从5'末端到3'末端包含另外的条形码序列和对应于另外的核酸序列的另外的序列。在一些实施方案中,另外的核酸条形码分子与珠粒偶联。在一些实施方案中,另外的核酸条形码分子与另外的珠粒偶联。

在一些实施方案中,在液滴中进行(b)。

在一些实施方案中,所述方法还包括从液滴释放条形码化核酸分子或其衍生物。

在一些实施方案中,条形码化核酸分子还包含朝向3'末端的功能序列,其允许条形码化核酸分子或其衍生物与测序仪的流动池偶联。

在一些实施方案中,序列是核酸序列的反向补体。

在一些实施方案中,所述方法还包括在(c)之前,使用条形码化核酸分子或其衍生物和一对引物生成具有靶核酸序列的核酸子集。在一些实施方案中,靶核酸序列包含t细胞受体可变区序列、b细胞受体可变区序列或免疫球蛋白可变区序列。在一些实施方案中,引物对中的至少一个引物与t细胞受体核酸序列的恒定区、b细胞受体核酸序列的恒定区或免疫球蛋白核酸序列的恒定区杂交。在一些实施方案中,在(c)中对核酸子集或其衍生物进行测序。

在一些实施方案中,所述方法还包括从珠粒释放核酸条形码分子。在一些实施方案中,在生成条形码化核酸分子之前,从珠粒释放核酸条形码分子。在一些实施方案中,在生成条形码化核酸分子的同时,从珠粒释放核酸条形码分子。在一些实施方案中,在生成条形码化核酸分子之后,从珠粒释放核酸条形码分子。在一些实施方案中,珠粒是凝胶珠粒。

在一些实施方案中,条形码序列是多个条形码区段的组合组装体(assembly)。在一些实施方案中,所述多个条形码区段包括至少三个区段。

在一个方面中,本公开提供了一种用于生成标记的多核苷酸的方法。所述方法包括(a)在足以生成第一扩增产物的条件下对反应混合物进行第一扩增反应,其中反应混合物包含模板多核苷酸以及(i)具有与模板多核苷酸杂交的朝向3'末端的序列的引物和(ii)包含朝向5'末端的第一预定义序列的模板转换寡核苷酸;以及(b)在足以生成第二扩增产物的条件下、在条形码化寡核苷酸存在下对第一扩增产物进行第二扩增反应,其中条形码化寡核苷酸包含至少一段模板转换寡核苷酸的序列和至少第二预定义序列,其中(i)第二扩增反应使用第一扩增产物作为模板并且使用条形码化寡核苷酸作为引物,或者(ii)第二扩增反应使用条形码化寡核苷酸作为模板并且使用第一扩增产物的至少一部分作为引物,以生成第二扩增产物,其中第一扩增反应和第二扩增反应在相同的反应体积内进行。在一些实施方案中,第二扩增反应使用第一扩增产物作为模板并且使用条形码化寡核苷酸作为引物。在一些实施方案中,第二扩增反应使用条形码化寡核苷酸作为模板并且使用第一扩增产物的至少一部分作为引物。

在一个方面中,本公开提供了一种用于生成标记的多核苷酸的方法,其包括(a)在反应体积中提供反应混合物,其中反应混合物包含(i)模板多核苷酸、(ii)包含与模板多核苷酸杂交的朝向引物3'末端的序列的引物和(iii)模板转换寡核苷酸;(b)在反应体积中,在足以生成包含引物、模板多核苷酸序列的反向补体和与模板转换寡核苷酸的至少一部分互补的序列的第一核酸产物的条件下对反应混合物进行第一反应;以及(c)在反应体积中对第一核酸产物进行第二反应,所述第二反应包括(i)使用第一核酸产物作为模板并且使用条形码化寡核苷酸作为引物,所述条形码化寡核苷酸包含至少一段模板转换寡核苷酸的序列,或者(ii)使用条形码化寡核苷酸作为模板并且使用第一核酸的至少一部分作为引物,以生成第二核酸产物。

在一些实施方案中,模板多核苷酸获自单细胞。在一些实施方案中,单细胞是免疫细胞。在一些实施方案中,免疫细胞是t细胞。在一些实施方案中,免疫细胞是b细胞。在一些实施方案中,所述方法还包括在第一扩增反应中生成第一扩增产物之前,在相同反应体积中裂解单细胞以获得模板多核苷酸。

在一些实施方案中,模板多核苷酸包含t细胞受体基因或基因产物。在一些实施方案中,模板多核苷酸包含b细胞受体基因或基因产物。在一些实施方案中,模板多核苷酸是多个模板多核苷酸之一。

在一些实施方案中,相同反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸的浓度的至少两倍。在一些实施方案中,相同反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸的浓度的至少五倍。在一些实施方案中,相同反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸的浓度的至少十倍。在一些实施方案中,相同反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸的浓度的至少二十倍。在一些实施方案中,相同反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸的浓度的至少五十倍。在一些实施方案中,相同反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸的浓度的至少一百倍。在一些实施方案中,相同反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸的浓度的至少两百倍。

在一些实施方案中,引物包含不与模板多核苷酸特异性杂交的朝向5'末端的序列。

在一些实施方案中,使用具有聚合酶活性的酶促进第一扩增反应。在一些实施方案中,酶是dna依赖性聚合酶。在一些实施方案中,酶是逆转录酶。

在一些实施方案中,使用具有聚合酶活性的酶促进第二扩增反应。在一些实施方案中,酶是dna依赖性聚合酶。

在一些实施方案中,第一扩增反应包括聚合酶链反应。在一些实施方案中,第一扩增反应包括逆转录。在一些实施方案中,第二扩增反应包括聚合酶链反应。

在一些实施方案中,在不存在居间纯化步骤的情况下顺序地进行第一扩增反应和第二扩增反应。

在一些实施方案中,在第二扩增反应期间,模板转换寡核苷酸不可用于引物延伸。

在一些实施方案中,所述方法还包括在第二扩增反应之前降解模板转换寡核苷酸。在一些实施方案中,模板转换寡核苷酸包含核糖核酸(rna)。在一些实施方案中,模板转换寡核苷酸包含至少10%核糖核酸(rna)。

在一些实施方案中,所述方法还包括在第二扩增反应期间降解模板转换寡核苷酸。在一些实施方案中,模板转换寡核苷酸包含核糖核酸(rna)。在一些实施方案中,模板转换寡核苷酸包含至少10%核糖核酸(rna)。

在一些实施方案中,使用条形码化寡核苷酸的第二扩增反应的第一反应速率大于使用模板转换寡核苷酸的第二扩增的第二反应速率。

在一些实施方案中,相比于第一扩增产物和模板转换寡核苷酸的解链温度,第一扩增产物和条形码化寡核苷酸的解链温度较高。在一些实施方案中,第二扩增反应的引物退火温度比第一扩增反应的引物退火温度高至少0.5℃。

在一些实施方案中,模板转换寡核苷酸包含修饰核苷酸。在一些实施方案中,模板转换寡核苷酸包含至少10%修饰核苷酸。在一些实施方案中,模板转换寡核苷酸包含选自解锁核酸(una)、锁核酸(lna)和5-羟基丁炔-2'-脱氧尿苷的修饰核苷酸。

在一些实施方案中,条形码化寡核苷酸包含修饰核苷酸。在一些实施方案中,条形码化寡核苷酸包含至少10%修饰核苷酸。在一些实施方案中,条形码化寡核苷酸包含选自锁核酸(lna)、解锁核酸(una)和5-羟基丁炔-2'-脱氧尿苷的修饰核苷酸。

在一些实施方案中,相同的反应体积包括乳液、液滴或微孔。

在一些实施方案中,第一定义序列包含衔接子序列、条形码序列、唯一分子标识符序列、引物结合位点和测序引物结合位点中的至少一种。在一些实施方案中,第二定义序列包含衔接子序列、条形码序列、唯一分子标识符序列、引物结合位点和测序引物结合位点中的至少一种。

在一些实施方案中,引物是多个引物之一。在一些实施方案中,朝向引物3'末端的序列包含随机序列。在一些实施方案中,朝向引物3'末端的序列包含基因特异性序列。在一些实施方案中,朝向引物3'末端的序列包含polya序列。

在一些实施方案中,模板转换寡核苷酸是多个模板转换寡核苷酸之一。在一些实施方案中,条形码化寡核苷酸是多个条形码化寡核苷酸之一。

在一些实施方案中,所述方法还包括对第二扩增产物进行测序。

在一些实施方案中,条形码化寡核苷酸与微胶囊可释放地偶联。在一些实施方案中,所述方法还包括从微胶囊释放条形码化寡核苷酸。在一些实施方案中,在施加刺激时,从微胶囊释放条形码化寡核苷酸。在一些实施方案中,刺激是生物刺激、化学刺激、热刺激、电刺激、磁刺激、光刺激或其任何组合中的至少一种。在一些实施方案中,微胶囊是可降解的微胶囊并且释放条形码化寡核苷酸包括降解微胶囊。在一些实施方案中,微胶囊包含聚合物凝胶。在一些实施方案中,聚合物凝胶是聚丙烯酰胺。在一些实施方案中,微胶囊包括珠粒。在一些实施方案中,珠粒是凝胶珠粒。在一些实施方案中,微胶囊包含化学交联剂。在一些实施方案中,化学交联剂是二硫键。

在一个方面中,本公开提供了一种方法,其包括(a)提供反应体积,所述反应体积包含(i)细胞或细胞衍生物和(ii)包含与之可释放地偶联的条形码化寡核苷酸的珠粒,其中所述条形码化寡核苷酸是模板转换寡核苷酸;以及(b)从珠粒释放条形码化寡核苷酸以在反应体积中提供浓度为至少约0.20μm的条形码化寡核苷酸;以及(c)对所述反应体积进行扩增反应以生成扩增产物,其中在扩增反应期间,所述反应体积包含细胞或细胞衍生物的模板多核苷酸、条形码化寡核苷酸和具有与模板多核苷酸杂交的朝向3'末端的序列的引物,并且其中扩增产物具有与模板多核苷酸和条形码化寡核苷酸互补的序列。

在一个方面中,本公开提供了一种方法,其包括(a)提供包含细胞和微胶囊的反应体积,所述微胶囊包含与之可释放地偶联的条形码化寡核苷酸,其中所述条形码化寡核苷酸是模板转换寡核苷酸;以及(b)使反应体积经受足以从微胶囊释放条形码化寡核苷酸的解离条件,从而在反应体积中提供浓度为至少约0.20um的条形码化寡核苷酸;以及(c)对反应体积进行扩增反应以生成扩增产物,其中在扩增反应期间,反应体积包含细胞的模板多核苷酸、条形码化寡核苷酸和具有与模板多核苷酸杂交的朝向3'末端的序列的引物,并且其中扩增产物具有与模板多核苷酸和条形码化寡核苷酸互补的序列。

在一些实施方案中,所述方法还包括对扩增产物进行测序。在一些实施方案中,条形码化寡核苷酸不与模板多核苷酸杂交。在一些实施方案中,模板多核苷酸是mrna分子。在一些实施方案中,所述方法还包括使用扩增产物作为模板对反应体积进行第二扩增反应以生成另外的扩增产物。

在一些实施方案中,所述方法还包括对另外的扩增产物进行测序。

在一些实施方案中,细胞是哺乳动物细胞。在一些实施方案中,细胞是免疫细胞。在一些实施方案中,免疫细胞是b细胞。在一些实施方案中,免疫细胞是t细胞。在一些实施方案中,细胞是癌细胞。在一些实施方案中,癌细胞获自组织样品。在一些实施方案中,癌细胞获自生物流体。在一些实施方案中,生物流体包括血液。在一些实施方案中,生物流体包括淋巴液。

在一些实施方案中,模板多核苷酸包含t细胞受体基因序列、b细胞受体基因序列或免疫球蛋白基因序列。在一些实施方案中,模板多核苷酸是t细胞受体mrna分子、b细胞受体mrna分子或免疫球蛋白mrna分子。

在一些实施方案中,反应体积还包含酶。在一些实施方案中,酶是dna聚合酶。在一些实施方案中,酶是逆转录酶。

在一些实施方案中,反应体积还包含至少一种用于核酸扩增的试剂。在一些实施方案中,所述至少一种试剂包括dntp。在一些实施方案中,所述至少一种试剂包括寡核苷酸引物。

在一些实施方案中,微胶囊包含聚合物凝胶。在一些实施方案中,聚合物凝胶是聚丙烯酰胺。在一些实施方案中,微胶囊包括珠粒。在一些实施方案中,珠粒是凝胶珠粒。在一些实施方案中,微胶囊包含化学交联剂。在一些实施方案中,化学交联剂是二硫键。在一些实施方案中,解离条件是生物刺激、化学刺激、热刺激、电刺激、磁刺激、光刺激或其任何组合中的至少一种。

在一些实施方案中,条形码化寡核苷酸包含衔接子序列、条形码序列、唯一分子标识符序列、引物结合位点和测序引物结合位点中的至少一种。

在一些实施方案中,相同的反应体积包括乳液、液滴或微孔。

在一些实施方案中,所述方法还包括进行第三反应,其中所述第三反应特异性扩增可变区cdna,其中所述可变区cdna衍生自t细胞受体cdna、b细胞受体cdna或免疫球蛋白cdna。在一些实施方案中,第三反应包括使用在t细胞受体cdna、b细胞受体cdna或免疫球蛋白cdna的恒定区中特异性结合并且延伸通过t细胞受体cdna、b细胞受体cdna或免疫球蛋白cdna的可变区的引物。在一些实施方案中,第三反应产生富集产物,其包含(a)t细胞受体可变区序列、b细胞受体可变区序列和免疫球蛋白可变区序列中的至少一种以及(b)衔接子序列、条形码序列、唯一分子标识符序列、引物结合位点和测序引物结合位点中的至少一种。在一些实施方案中,在随后的短读测序反应中大于约25%的读数映射于t细胞受体、b细胞受体或免疫球蛋白基因。

在一个方面中,本公开提供了一种包括机器可执行代码的非暂态计算机可读介质,所述机器可执行代码在通过多个计算机处理器中的一个执行时实现用于核酸测序的方法,所述方法包括(a)提供多个液滴,其中所述多个液滴中的液滴包含(i)包含核酸序列的核糖核酸(rna)分子和(ii)包含与其偶联的核酸条形码分子的珠粒,其中所述核酸条形码分子包含条形码序列;(b)使用rna分子和核酸条形码分子生成条形码化核酸分子,所述条形码化核酸分子从5'末端到3'末端包含对应于rna分子的核酸序列的序列和条形码序列的补体;以及(c)对条形码化核酸分子或其衍生物进行测序。

在一个方面中,本公开提供了一种包括机器可执行代码的非暂态计算机可读介质,所述机器可执行代码在通过多个计算机处理器中的一个执行时实现用于生成标记的多核苷酸的方法,所述方法包括(a)在足以生成第一核酸产物的条件下,对反应混合物进行第一反应,其中所述反应混合物包含(i)模板多核苷酸、(ii)具有与模板多核苷酸杂交的朝向3'末端的序列的引物和(iii)模板转换寡核苷酸,其中所述第一核酸产物包含引物、模板多核苷酸序列的反向补体和与模板转换寡核苷酸的至少一部分互补的序列;以及(b)在足以生成第二核酸产物的条件下,在条形码化寡核苷酸存在下,对第一核酸产物进行第二反应,其中所述条形码化寡核苷酸包含至少一段模板转换寡核苷酸的序列,其中(i)第二反应使用第一核酸作为模板并且使用条形码化寡核苷酸作为引物,或(ii)第二反应使用条形码化寡核苷酸作为模板并且使用第一核酸的至少一部分作为引物,以生成第二核酸产物,其中第一反应和第二反应在相同的反应体积内进行。

在一个方面中,本公开提供了一种包括机器可执行代码的非暂态计算机可读介质,所述机器可执行代码在通过多个计算机处理器中的一个执行时实现用于生成标记的多核苷酸的方法。所述方法包括(a)在足以生成第一扩增产物的条件下对反应混合物进行第一扩增反应,其中反应混合物包含模板多核苷酸以及(i)具有与模板多核苷酸杂交的朝向3'末端的序列的引物和(ii)包含朝向5'末端的第一预定义序列的模板转换寡核苷酸;以及(b)在足以生成第二扩增产物的条件下、在条形码化寡核苷酸存在下对第一扩增产物进行第二扩增反应,其中条形码化寡核苷酸包含至少一段模板转换寡核苷酸的序列和至少第二预定义序列,其中(i)第二扩增反应使用第一扩增产物作为模板并且使用条形码化寡核苷酸作为引物,或者(ii)第二扩增反应使用条形码化寡核苷酸作为模板并且使用第一扩增产物的至少一部分作为引物,以生成第二扩增产物,其中第一扩增反应和第二扩增反应在相同的反应体积内进行。

本公开的另外的方面和优势从以下具体实施方式变得为本领域技术人员显而易知,其中仅示出并描述本公开的例示性实施方案。应当认识到的是,本公开能够具有其他以及不同的实施方案,并且其若干细节能够在各种不同方面做出修改,所有均不脱离公开内容。因此,附图和详述应被视为在本质上是说明性的而不是限制性的。

以引用的方式并入

在本说明书中提及的所有公布、专利和专利申请以引用的方式并入本文,其引用程度就如同每个单独的公布、专利或专利申请被具体和单独地指出以引用的方式并入一般。

附图说明

在所附权利要求中具体阐述本发明的新颖特征。通过参考阐述说明性实施方案的以下详细描述和附图(在本文中还有“图(figure和fig.)”)获得对本发明的特征和优点的更好理解,在所述说明性实施方案中利用本发明的原理,在附图中:

图1示意性地示出了用于分区单个细胞或小的细胞群组的微流体通道结构。

图2示意性地示出了用于共分区细胞和包含另外的试剂的微胶囊(例如,珠粒)的微流体通道结构。

图3示意性地示出了用于扩增和条形码化细胞核酸的示例性过程。

图4提供了在将序列数据归属到单个细胞或细胞群组以用于其表征中细胞核酸的条形码化的使用的示意图。

图5提供了与标记的细胞结合配体缔合的细胞的示意图。

图6提供了使用本文所述方法进行rna分析的示例性工作流程的示意图。

图7提供了在使用本文所述方法分析核糖核酸(rna)中使用的示例性条形码化寡核苷酸结构的示意图。

图8提供了与单个带有条形码的珠粒共分区的单个细胞的图像。

图9a至图9e提供了在分析rna中使用的示例性条形码化寡核苷酸结构和用于进行rna分析的示例性操作的示意图。

图10提供了在rna的示例分析中使用的示例性条形码化寡核苷酸结构和用于体外转录的序列的使用的示意图。

图11提供了在rna的分析中使用的示例性条形码化寡核苷酸结构和用于进行rna分析的示例性操作的示意图。

图12a至图12b提供了在rna的分析中使用的示例性条形码化寡核苷酸结构的示意图。

图13a至图13c提供了分区中模板转换逆转录和pcr的示例性产量的说明。

图14a至图14b提供了在各种细胞数的情况下分区中逆转录和互补脱氧核糖核酸(cdna)扩增的示例性产量的说明。

图15提供了在各种输入细胞浓度下cdna合成和实时定量pcr的示例性产量的说明,以及在固定细胞输入浓度下改变引物浓度对产量的影响。

图16提供了体外转录的示例性产量的说明。

图17示出了被编程或以其他方式被配置以实现本文提供的方法的示例性计算机控制系统。

图18提供了示例性条形码化寡核苷酸结构的示意图。

图19a和图19b示出了用于进行rna分析的示例性操作。

图20示出了从免疫分子如tcr、bcr和免疫球蛋白富集vdj序列的示意图。

图21a至图21c示出了(a)在cdna扩增之后、(b)在富集之后和(c)在测序文库制备之后靶序列的富集。

图22示出了在乳液-逆转录反应(gem-rt)中使用凝胶珠粒的12,000、6000或3,000个细胞的cdna产量。

图23示出了与未富集的cdna相比,使用恒定区引物富集的cdna的测序结果。

图24示出了使用不同浓度的模板转换寡核苷酸(tso)测试cdna产量。

图25a和图25b示出了使用6,000个原代t细胞(a)或2,200个jurkat细胞(b)的固定于凝胶珠粒(gb-tso)的tso的cdna产量。

图26a和图26b示出了使用嵌套富集引物使用溶液内rt反应(a)或gemrt反应(b)进行富集的cdna产量。

图27a至图27c示出了使用仅p7引物(a)、可变区引物与tcrβ链恒定区引物(b)以及可变区引物与tcrα链恒定区引物(c)的tcrcdna的富集。

图28a至图28d示出了使用p7引物与tcrα链恒定区引物(a)、可变区引物与tcrβ链恒定区引物(b)、可变区引物与tcrα链恒定区引物(c)以及可变区引物与tcrβ链恒定区引物(d),用8μm或200μmtso凝胶珠粒生成的富集产物的比较。

图29a和图29b示出了用于生成标记的多核苷酸的示意图的变化。

具体实施方式

虽然本文已经示出并描述本发明的各种实施方案,但是本领域技术人员显而易知这些实施方案仅作为举例来提供。许多改变、变化和取代可由本领域技术人员想到而不背离本发明。应了解可使用本文描述的本发明的实施方案的各种替代方案。

在将值描述为范围的情况下,应理解,此类公开内容包括公开在此范围内的所有可能子范围,以及落入此范围内的特定数值,而不管特定数值或特定子范围是否明确说明。

如本文所用,术语“条形码”通常是指可以是分析物的一部分的、传达关于分析物的信息的标记或标识符。除了分析物的内源特征(例如,分析物的大小或一个或多个末端序列)之外,条形码可以是连接于分析物(例如,核酸分子)的标签或标签的组合。条形码可以是唯一的。条形码可以具有多种不同的格式,例如,条形码可以包括:多核苷酸条形码;随机核酸和/或氨基酸序列;和合成核酸和/或氨基酸序列。条形码可以以可逆或不可逆的方式连接于分析物。在样品测序之前、期间和/或之后,可以将条形码添加到例如脱氧核糖核酸(dna)或核糖核酸(rna)样品的片段中。条形码可以允许实时识别和/或定量单个测序读数。在一些实施例中,条形码以组合方式生成。可以与本公开的方法、设备和系统一起使用的条形码(包括用于形成此类条形码的方法)描述于例如美国专利公开号2014/0378350中,其以全文引用的方式并入本文。

如本文所用,术语“受试者”通常是指动物,例如哺乳动物物种(例如人类)或禽类(例如鸟)物种,或其他生物体,例如植物。受试者可以是脊椎动物、哺乳动物、小鼠、灵长类动物、猿猴或人类。动物可包括但不限于农场动物、运动型动物和宠物。受试者可以是健康个体、患有或疑似患有疾病或易患疾病的个体、或需要治疗或疑似需要治疗的个体。受试者可以是患者。

如本文所用,术语“基因组”通常是指受试者遗传信息的整体。基因组可以在dna或rna中编码。基因组可以包含编码蛋白质的编码区以及非编码区。基因组可以包括生物体中所有染色体一起的序列。例如,人类基因组总共有46条染色体。所有这些染色体一起的序列可构成人类基因组。

术语“一个或多个衔接子”、“一个或多个接头”和“一个或多个标签”可以同义地使用。接头或标签可以通过任何方法包括连接、杂交或其他方法与待“加标签”的多核苷酸序列偶合。

如本文所用,术语“测序”通常是指用于确定一种或多种多核苷酸中的核苷酸碱基序列的方法和技术。多核苷酸可以是例如脱氧核糖核酸(dna)或核糖核酸(rna),包括其变体或衍生物(例如,单链dna)。测序可以通过目前可用的各种系统进行,例如限于illumina、pacificbiosciences、oxfordnanopore或lifetechnologies(iontorrent)的测序系统。此类设备可以提供对应于受试者(例如,人类)的遗传信息的多个原始遗传数据,如通过设备从受试者提供的样品所生成。在一些情况下,本文提供的系统和方法可与蛋白质组信息一起使用。

如本文所用,术语“变体”通常是指遗传变体,例如包含多态性的核酸分子。变体可以是结构变体或拷贝数变体,其可以是大于单核苷酸变体或短插入缺失的基因组变体。变体可以是受试者的核酸样品或基因组中的改变或多态性。单核苷酸多态性(snp)是多态性的一种形式。多态性可包括单核苷酸变异(snv)、插入、缺失、重复、小插入、小缺失、小重复、结构变体连接、可变长度串联重复和/或侧翼序列。拷贝数变体(cnv)、颠换和其他重排也是遗传变异的形式。基因组改变可以是碱基变化、插入、缺失、重复、拷贝数变异或颠换。

如本文所用,术语“珠粒”通常是指颗粒。珠粒可以是固体或半固体颗粒。珠粒可以是凝胶。珠粒可以由聚合物材料形成。珠粒可以是磁性的或非磁性的。

如本文所用,术语“样品”通常是指受试者的生物样品。样品可以是组织样品,例如活组织检查、核心活组织检查(corebiopsy)、针吸出物或细针吸出物。样品可以是流体样品,例如血液样品、尿液样品或唾液样品。样品可以是皮肤样品。样品可以是面颊拭子。样品可以是血浆或血清样品。样品可以是无细胞(cell-free或cellfree)样品。无细胞样品可包括细胞外多核苷酸。细胞外多核苷酸可以从身体样品中分离,所述身体样品可以选自由血液、血浆、血清、尿液、唾液、粘膜分泌物、痰液、粪便和泪液组成的群组。

如本文所用,术语“引物”通常是指rna或dna链,其用作核酸(例如,dna)合成的起始点。引物可以用于引物延伸反应,其可以是核酸扩增反应,诸如像聚合酶链反应(pcr)或逆转录pcr(rt-pcr)。引物可具有能够与核酸分子偶联的序列。此类序列可以与核酸分子互补,例如poly-t序列或预定序列,或者以其他方式能够与核酸分子偶联(例如,杂交)的序列,例如通用引物。

核酸测序技术已在对生物材料进行测序的方面取得了实质性成果,包括提供关于单个生物体以及相对纯的生物样品的实质性序列信息。然而,这些系统在传统上不能在单细胞水平上有效地识别和表征细胞。

许多核酸测序技术从获自组织或其他样品(例如生物流体(例如血液、血浆等))的细胞集合得到它们所测序的核酸。可以对细胞进行处理(例如,所有一起)以提取代表细胞群的平均程度的遗传物质,然后可以将其处理成被配置用于给定测序技术的测序就绪dna文库。尽管经常就dna或核酸进行讨论,但是衍生自细胞的核酸可以包括可以被处理以产生互补dna(cdna)以用于测序的dna或rna(包括例如mrna、总rna等)。在处理之后,不存在细胞特异性标记物,在这种集成方法中不可能将遗传物质归属为由细胞子集或单个细胞贡献。

除了不能将特征归属到特定的细胞子集或单个细胞之外,这种集成样品制备方法可以从一开始就倾向于主要识别并且表征细胞样品中的大多数成分,并且可能不被设计成挑选出少数成分,例如,由样品中的一个细胞、一些细胞或总细胞中一小部分贡献的遗传物质。同样地,在分析例如mrna的表达水平时,集成方法可以倾向于从表达水平不均匀的细胞群呈现潜在不准确的数据。在一些情况下,在分析的群体中少数细胞中的表达高并且在群体中的大多数细胞中不存在表达时,集成方法可以对于整个群体指示低水平表达。

通过在由这些样品生成测序文库中使用的处理操作,可以进一步放大这些不准确性。特别地,许多下一代测序技术(例如,大规模平行测序)可依赖于核酸片段的几何扩增,例如通过聚合酶链反应,以产生足够用于测序文库的dna。然而,这种扩增可能偏向于样品中大多数成分的扩增,并且可能无法保持这种少数组分和多数组分的起始比率。虽然这些困难中的一些可以通过利用不同的测序系统来解决,例如不需要扩增的单分子系统,但是单分子系统和其他下一代测序系统的集成测序方法一样还可能具有大的输入dna要求。例如,一些单分子测序系统可具有从500纳克(ng)到高达10微克(μg)的样品输入dna要求,这可能无法从单个细胞或甚至小的细胞亚群获得。同样,可以针对约50ng至约1μg的样品中样品dna的起始量优化其他ngs系统。

本文公开了用于表征小的细胞群的核酸,并且在一些情况下,用于表征单个细胞的核酸的方法和系统。本文描述的方法可以对单个细胞或小的细胞群的分析进行划分,包括例如单个细胞或小的细胞群组的核酸,然后使所述分析反向归属到衍生所述核酸的单个细胞或小的细胞群组。无论细胞群代表50/50细胞类型混合、90/10细胞类型混或几乎任何比率的细胞类型、以及完全异质的不同细胞类型混合、还是这些之间的任何混合,这都可以实现。不同的细胞类型可包括个体的不同组织类型或不同个体的相同组织类型或者生物学生物体例如不同属、种、菌株、变体或任何或所有前述的任何组合的微生物的细胞。例如,不同的细胞类型可包括个体的正常和肿瘤组织;获自人类受试者的各种细胞类型,例如多种免疫细胞(例如,b细胞、t细胞等);来自环境、法医、微生物组或其他样品的多种不同的细菌物种、菌株和/或变体;或细胞类型的任何其他各种混合物。

本文描述的方法和系统可以提供将单个细胞的核酸内容物从含有细胞的样品材料区室化、沉积或分区到离散的区室或分区(在本文中可互换地称为分区)中,其中每个分区保持其各自内容物与其他分区的内容物分离。在一些实施例中,分区是液滴或孔。可以预先、随后或同时将唯一标识符(例如条形码)递送到容纳区室化或分区细胞或细胞衍生物的分区中,以允许稍后将单个细胞的特征归属到特定区室。可以通过任何合适的机制例如使用珠粒(例如,凝胶珠粒)例如在寡核苷酸中将条形码递送至分区。在一些实施例中,细胞衍生物例如基体(例如,凝胶或聚合物基体)中的细胞或此类细胞的成分被区室化或分区在分区(例如,液滴或孔)中。

在一些实施方案中,条形码化寡核苷酸通过微胶囊被递送至分区。在一些情况下,条形码化寡核苷酸最初与微胶囊缔合,然后在施加使寡核苷酸解离或从微胶囊释放的刺激时从微胶囊释放。

在一些实施方案中,微胶囊包括珠粒。在一些实施方案中,珠粒可以是多孔的、无孔的、固体的、半固体的、半流体的或流体的。在一些实施方案中,珠粒可以是可溶解的、可破裂的或可降解的。在一些情况下,珠粒可以是不可降解的。在一些实施方案中,珠粒可以是凝胶珠粒。凝胶珠粒可以是水凝胶珠粒。凝胶珠粒可以由分子前体形成,例如聚合物或单体物质。半固体珠粒可以是脂质体珠粒。固体珠粒可包含金属,包括氧化铁、金和银。在一些情况下,珠粒是二氧化硅珠粒。在一些情况下,珠粒是刚性的。在一些情况下,珠粒可以是柔性的和/或可压缩的。

在一些实施方案中,珠粒可含有分子前体(例如,单体或聚合物),其可通过前体的聚合来形成聚合物网络。在一些情况下,前体可以是已经聚合的物质,其能够通过例如化学交联进行进一步聚合。在一些情况下,前体包含丙烯酰胺或甲基丙烯酰胺单体、低聚物或聚合物中的一种或多种。在一些情况下,珠粒可包含预聚物,其是能够进一步聚合的低聚物。例如,可以使用预聚物制备聚氨酯珠粒。在一些情况下,珠粒可含有可进一步聚合在一起的单个聚合物。在一些情况下,可以通过不同前体的聚合生成珠粒,使得它们包含混合聚合物、共聚物和/或嵌段共聚物。

珠粒可包含天然和/或合成材料。例如,聚合物可以是天然聚合物或合成聚合物。在一些情况下,珠粒包含天然和合成聚合物。天然聚合物的实例包括蛋白质和糖,例如脱氧核糖核酸、橡胶、纤维素、淀粉(例如,直链淀粉、支链淀粉)、蛋白质、酶、多糖、丝、聚羟基链烷酸酯、壳聚糖、葡聚糖、胶原、角叉菜胶、卵叶车前子、阿拉伯胶、琼脂、明胶、虫胶、梧桐树胶、黄原胶、玉米糖胶、瓜尔胶、刺梧桐树胶、琼脂糖、海藻酸、藻酸盐或其天然聚合物。合成聚合物的实例包括丙烯酸类、尼龙、硅氧烷、氨纶、粘胶人造丝、多元羧酸、聚乙酸乙烯酯、聚丙烯酰胺、聚丙烯酸酯、聚乙二醇、聚氨酯、聚乳酸、二氧化硅、聚苯乙烯、聚丙烯腈、聚丁二烯、聚碳酸酯、聚乙烯、聚对苯二甲酸乙二醇酯、聚(三氟氯乙烯)、聚(环氧乙烷)、聚(对苯二甲酸乙二醇酯)、聚乙烯、聚异丁烯、聚(甲基丙烯酸甲酯)、聚(甲醛)、聚甲醛、聚丙烯、聚苯乙烯、聚(四氟乙烯)、聚(乙酸乙烯酯)、聚(乙烯醇)、聚(氯乙烯)、聚(偏二氯乙烯)、聚(偏二氟乙烯)、聚(氟乙烯)以及其组合(例如,共聚物)。珠粒也可以由除聚合物之外的材料形成,包括脂质、胶束、陶瓷、玻璃陶瓷、材料复合物、金属、其他无机材料等。

在一些情况下,化学交联剂可以是用于在单体聚合期间交联单体的前体并且/或者可以用于将寡核苷酸(例如,条形码化寡核苷酸)连接至珠粒。在一些情况下,聚合物可以进一步与交联剂物质或其他类型的单体聚合以生成另外的聚合物网络。化学交联剂(本文中也称为“交联剂(crosslinker)”或“交联剂(crosslinkeragent)”)的非限制性实例包括胱胺、戊二醛、二甲基亚磺酰亚胺、n-羟基琥珀酰亚胺交联剂bs3、甲醛、碳二亚胺(edc)、smcc、磺基-smcc、乙烯基硅烷、n,n'-二烯丙基酒石酸二酰胺(datd)、n,n'-双(丙烯酰基)胱胺(bac)或其同系物。在一些情况下,本公开中使用的交联剂含有胱胺。

交联可以是永久性的或可逆的,这取决于所用的特定交联剂。可逆交联可允许聚合物在适当条件下线性化或解离。在一些情况下,可逆交联还可以允许结合至珠粒表面的物质的可逆连接。在一些情况下,交联剂可形成二硫键。在一些情况下,形成二硫键的化学交联剂可以是胱胺或改性胱胺。

在一些实施方案中,二硫键可以在掺入珠粒和寡核苷酸中的分子前体单元(例如,单体、低聚物或线性聚合物)或前体之间形成。例如,胱胺(包括改性胱胺)是包含二硫键的有机试剂,其可以用作珠粒的单个单体或聚合物前体之间的交联剂。聚丙烯酰胺可以在胱胺或包含胱胺的物质(例如,改性胱胺)的存在下聚合,以生成包含二硫键的聚丙烯酰胺凝胶珠粒(例如,包含可化学还原交联剂的可化学降解珠粒)。二硫键可以使珠粒在珠粒暴露于还原剂时被降解(或溶解)。

在一些实施方案中,壳聚糖(线性多糖聚合物)可以通过亲水链与戊二醛交联以形成珠粒。壳聚糖聚合物的交联可以通过由热、压力、ph变化和/或辐射引发的化学反应来实现。

在一些实施方案中,珠粒可在聚合物前体(例如,单体、低聚物、线性聚合物)、寡核苷酸、引物和其他实体之间包含共价键或离子键。在一些情况下,共价键包括碳-碳键或硫醚键。

在一些情况下,珠粒可包含丙烯酰胺亚磷酰胺(acrydite)部分,其在某些方面可用于将一种或多种寡核苷酸(例如,条形码序列、条形码化寡核苷酸、引物或其他寡核苷酸)连接到珠粒。在一些情况下,丙烯酰胺亚磷酰胺部分可以指由丙烯酰胺亚磷酰胺与一种或多种物质反应例如丙烯酰胺亚磷酰胺与其他单体和交联剂在聚合反应期间的反应所生成的丙烯酰胺亚磷酰胺类似物。可以修饰丙烯酰胺亚磷酰胺部分以与待连接的物质例如寡核苷酸(例如,条形码序列、条形码化寡核苷酸、引物或其他寡核苷酸)形成化学键。丙烯酰胺亚磷酰胺部分可以用能够形成二硫键的硫醇基团修饰,或者可以用已经包含二硫键的基团修饰。硫醇或二硫化物(通过二硫化物交换)可以用作待连接的物质的锚点,或者丙烯酰胺亚磷酰胺部分的另一部分可以用于连接。在一些情况下,连接是可逆的,使得当二硫键断裂时(例如,在还原剂存在下),连接的物质从珠粒释放。在其他情况下,丙烯酰胺亚磷酰胺部分包含可用于连接的反应性羟基。

用于连接寡核苷酸的珠粒的官能化可以通过多种不同的方法实现,包括活化聚合物内的化学基团、将活性或可活化的官能团掺入聚合物结构中或者在珠粒生产中的预聚物或单体阶段进行连接。

例如,聚合形成珠粒的前体(例如,单体,交联剂)可包含丙烯酰胺亚磷酰胺部分,使得当生成珠粒时,珠粒还包含丙烯酰胺亚磷酰胺部分。丙烯酰胺亚磷酰胺部分可以连接到寡核苷酸,例如需要掺入到珠粒中的引物(例如,用于扩增靶核酸、条形码化寡核苷酸等的引物)。在一些情况下,引物包含p5序列以用于连接到用于illumina测序的测序流动池。在一些情况下,引物包含p7序列以用于连接到用于illumina测序的测序流动池。在一些情况下,引物包含条形码序列。在一些情况下,引物还包含唯一分子标识符(umi)。在一些情况下,引物包含用于illumina测序的r1引物序列。在一些情况下,引物包含用于illumina测序的r2引物序列。

在一些情况下,包含具有反应性或能够被活化以使得变得具有反应性的官能团的前体可以与其他前体聚合以生成包含活化或可活化官能团的凝胶珠粒。然后官能团可以用于将另外的物质(例如,二硫化合物接头、引物、其他寡核苷酸等)连接到凝胶珠粒。例如,包含羧酸(cooh)基团的一些前体可与其他前体共聚合以形成也包含cooh官能团的凝胶珠粒。在一些情况下,丙烯酸(包含游离cooh基团的物质)、丙烯酰胺和双(丙烯酰基)胱胺可以共聚合在一起以生成包含游离cooh基团的凝胶珠粒。可以将凝胶珠粒的cooh基团活化(例如,通过1-乙基-3-(3-二甲基氨基丙基)碳二亚胺(edc)和n-羟基琥珀酰亚胺(nhs)或4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉氯化物(dmtmm))使得它们具有反应性(例如,具有与胺官能团的反应性,其中edc/nhs或dmtmm用于活化)。然后,活化的cooh基团可以与适当的物质(例如,包含胺官能团的物质,其中羧酸基团被活化以具有与胺官能团的反应性)反应,所述物质包含与珠粒连接的部分。

在聚合物网络中包含二硫键的珠粒可以通过将一些二硫键还原成游离硫醇来用另外的物质官能化。二硫键可以通过例如还原剂(例如dtt,tcep等)的作用被还原,以生成游离硫醇基团,而不会溶解珠粒。然后,珠粒的游离硫醇可以与物质的游离硫醇或包含另一个二硫键的物质(例如,通过硫醇-二硫化物交换)反应,使得物质可以与珠粒连接(例如,通过生成的二硫键)。在一些情况下,珠粒的游离硫醇可与任何其他合适的基团反应。例如,珠粒的游离硫醇可与包含丙烯酰胺亚磷酰胺部分的物质反应。珠粒的游离硫醇基团可通过迈克尔加成化学与丙烯酰胺亚磷酰胺反应,使得包含丙烯酰胺亚磷酰胺的物质与珠粒连接。在一些情况下,可以通过包含硫醇加帽剂如n-乙基马来酰胺或碘乙酸酯来防止不受控制的反应。

可以控制珠粒内二硫键的活化,使得仅少量二硫键被活化。例如,可以通过控制用于生成游离硫醇基团的还原剂的浓度和/或用于在珠粒聚合中形成二硫键的试剂的浓度来进行控制。在一些情况下,可使用低浓度(例如,还原剂分子:凝胶珠粒比率小于约10,000、100,000、1,000,000、10,000,000、100,000,000、1,000,000,000、10,000,000,000或100,000,000,000)的还原剂来还原。控制还原成游离硫醇的二硫键的数量可用于确保官能化期间的珠粒结构完整性。在一些情况下,光学活性剂(例如荧光染料)可以通过珠粒的游离硫醇基团与珠粒偶联,并且用于定量珠粒中存在的游离硫醇的数量和/或跟踪珠粒。

在一些情况下,在凝胶珠粒形成之后向凝胶珠粒中添加各部分可能是有利的。例如,在凝胶珠粒形成之后添加寡核苷酸(例如,条形码化寡核苷酸)可以避免在聚合期间可能发生的链转移终止期间物质的损失。此外,较小的前体(例如,不包含侧链基团和连接部分的单体或交联剂)可以用于聚合,并且由于粘性效应而可以最小程度地阻碍链末端生长。在一些情况下,在凝胶珠粒合成之后的官能化可以在潜在的破坏剂(例如,自由基)和/或化学环境的情况下使待负载的物质(例如,寡核苷酸)的暴露最小化。在一些情况下,所生成的凝胶可具有上限临界溶液温度(ucst),其可允许温度驱动的珠粒溶胀和塌陷。在随后用寡核苷酸官能化珠粒期间,这种官能团可有助于寡核苷酸(例如,引物)渗入珠粒中。产生后官能化也可用于控制珠粒中物质的负载比率,使得例如负载比率的可变性最小化。物质负载也可以在分批过程中进行,使得多个珠粒可以在单批次中用物质官能化。

在一些情况下,与前体连接的丙烯酰胺亚磷酰胺部分、与前体连接的另一种物质或前体本身包含不稳定键,例如化学、热或光敏感键,例如二硫键,uv敏感键等。一旦丙烯酰胺亚磷酰胺部分或包含不稳定键的其他部分被掺入珠粒中,珠粒也可包含不稳定键。例如,不稳定键可用于将物质(例如,条形码、引物等)可逆地连接(例如,共价连接)到珠粒。在一些情况下,例如,在寡核苷酸与连接于珠粒的补体杂交时,热不稳定键可以包括基于核酸杂交的连接,使得杂合体的热解链将寡核苷酸(例如含有条形码的序列)从珠粒或微胶囊释放。

向凝胶珠粒中添加多种类型的不稳定键可导致生成能够对不同刺激有反应的珠粒。每种类型的不稳定键可以对相关的刺激(例如,化学刺激、光、温度等)敏感,使得通过施加适当的刺激可以控制通过每个不稳定键连接到珠粒的物质的释放。这种官能团可用于从凝胶珠粒受控地释放物质。在一些情况下,包含不稳定键的另一物质可以在凝胶珠粒形成之后通过例如如上所述的凝胶珠粒的活化官能团与凝胶珠粒连接。如应当理解的,可释放地、可裂解地或可逆地连接到本文所述的珠粒的条形码包括通过条形码分子与珠粒之间的键联的裂解来释放或可释放的条形码,或通过下面的珠粒本身的降解来释放的条形码,允许条形码被其他试剂接近或可被其他试剂接近,或两者兼而有之。

如本文所述可释放的条形码有时可被称为可活化的,因为它们一旦释放就可用于反应。因此,例如,可通过从珠粒(或本文所述的其他合适类型的分区)释放条形码来活化可活化的条形码。在所描述的方法和系统的上下文中还设想了其他可活化配置。

除了可热裂解的键、二硫键和uv敏感键之外,可以与前体或珠粒偶合的不稳定键的其他非限制性实例包括酯键(例如,可用酸、碱或羟胺裂解)、邻位二醇键(例如,可通过高碘酸钠裂解)、狄尔斯-阿尔德(diels-alder)键(例如,可通过热裂解)、砜键(例如,可通过碱裂解)、甲硅烷基醚键(例如,可通过酸裂解)、糖苷键(例如,可通过淀粉酶裂解)、肽键(例如,可通过蛋白酶裂解)或磷酸二酯键(例如,可通过核酸酶(例如,dna酶)裂解))。

不参与聚合的物质也可以在珠粒生成期间(例如,在前体的聚合期间)被包封在珠粒中。此类物质可以进入聚合反应混合物中,使得生成的珠粒在珠粒形成时包含各物质。在一些情况下,可在形成之后将此类物质加入凝胶珠粒中。此类物质可包括例如寡核苷酸、用于核酸扩增反应的试剂(例如,引物、聚合酶、dntp、辅因子(例如,离子辅因子))包括本文所述的那些、用于酶促反应的试剂(例如,酶、辅因子、底物)或用于核酸修饰反应如聚合、连接或消化的试剂。此类物质的捕集可以通过在前体的聚合期间生成的聚合物网络密度、凝胶珠粒内离子电荷的控制(例如,通过与聚合物质连接的离子物质)或通过其他物质的释放来控制。可以在珠粒降解时和/或通过施加能够从珠粒释放物质的刺激从珠粒释放包封的物质。

珠粒可具有均匀尺寸或不均匀尺寸。在一些情况下,珠粒的直径可以是约1μm、5μm、10μm、20μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、100μm、250μm、500μm或1mm。在一些情况下,珠粒的直径可以是至少约1μm、5μm、10μm、20μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、100μm、250μm、500μm、1mm或更大。在一些情况下,珠粒的直径可以小于约1μm、5μm、10μm、20μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、100μm、250μm、500μm或1mm。在一些情况下,珠粒的直径可以在约40-75μm、30-75μm、20-75μm、40-85μm、40-95μm、20-100μm、10-100μm、1-100μm、20-250μm、或20-500μm的范围内。

在某些方面中,珠粒作为具有相对单分散尺寸分布的珠粒群或多个珠粒提供。在需要在分区内提供相对一致量的试剂的情况下,保持相对一致的珠粒特征(例如尺寸)可有助于总体一致性。特别地,本文所述的珠粒可具有其横截面尺寸的变异系数小于50%、小于40%、小于30%、小于20%,并且在一些情况下小于15%、小于10%、或甚至小于5%的尺寸分布。

珠粒可以具有任何合适的形状。珠粒形状的实例包括但不限于球形、非球形、椭圆形、长圆形、无定形、圆形、圆柱形及其变型形式。

除了上文所述的珠粒与缔合分子(例如含有条形码的寡核苷酸)之间的可裂解键之外或作为其替代,珠粒可以在自发地或在暴露于一种或多种刺激(例如,温度变化、ph变化、暴露于特定化学物质或相、暴露于光、还原剂等)时为可降解、可破坏或可溶解的。在一些情况下,珠粒可以是可溶解的,使得珠粒的材料组分在暴露于特定化学物质或环境变化(例如变化温度或ph变化)时溶解。在一些情况下,凝胶珠粒在升高的温度和/或碱性条件下降解或溶解。在一些情况下,珠粒可以是可热降解的,使得当珠粒暴露于适当的温度变化(例如,加热)时,珠粒降解。与物质(例如,寡核苷酸,例如条形码化寡核苷酸)结合的珠粒的降解或溶解可导致物质从珠粒中释放。

可降解珠粒可包含一种或多种具有不稳定键的物质,使得当珠粒/物质暴露于适当的刺激时,键断裂并且珠粒降解。不稳定键可以是化学键(例如,共价键、离子键)或可以是另一种类型的物理相互作用(例如,范德华相互作用、偶极-偶极相互作用等)。在一些情况下,用于产生珠粒的交联剂可包含不稳定键。在暴露于适当的条件时,不稳定键可以断裂并且珠粒降解。例如,当将包含胱胺交联剂的聚丙烯酰胺凝胶珠粒暴露于还原剂时,胱胺的二硫键可以断裂并且珠粒降解。

与不降解的珠粒相比,当将适当的刺激施加到珠粒上时,可降解的珠粒可用于更快地从珠粒中释放连接的物质(例如,寡核苷酸、条形码序列、引物等)。例如,对于与多孔珠粒的内表面结合的物质或在包封物质的情况下,物质在珠粒降解时可具有较大迁移率和溶液中的其他物质的可接近性。在一些情况下,物质也可以通过可降解的接头(例如,二硫化物接头)连接于可降解的珠粒。可降解的接头可以对与可降解珠粒相同的刺激有反应,或者两种可降解物质可以对不同的刺激有反应。例如,条形码序列可以通过二硫键连接到包含胱胺的聚丙烯酰胺珠粒上。在条形码化珠粒暴露于还原剂时,珠粒降解并且条形码序列在条形码序列与珠粒之间的二硫键断裂以及珠粒中胱胺的二硫键断裂时释放。

可以将可降解的珠粒引入到分区(例如乳液的液滴或孔)中,使得珠粒在分区内降解,并且当施加适当的刺激时,任何缔合的物质(例如,寡核苷酸)在液滴内释放。游离物质(例如,寡核苷酸)可以与分区中包含的其他试剂相互作用。例如,包含胱胺并通过二硫键与条形码序列连接的聚丙烯酰胺珠粒可以与油包水乳液的液滴中的还原剂组合。在液滴内,还原剂使各种二硫键断裂,导致珠粒降解并将条形码序列释放到液滴的水性内部环境中。在另一个实例中,加热在碱性溶液中包含结合珠粒的条形码序列的液滴也可导致珠粒降解并将连接的条形码序列释放到液滴的水性内部环境中。

从以上公开内容可以理解,虽然被称为珠粒的降解,但在如上所述的许多情况下,所述降解可以指在使物理珠粒本身的结构发生和不发生降解的情况下结合或夹带的物质从珠粒中解离。例如,可以通过例如由改变化学环境引起的渗透压差从珠粒中释放夹带的物质。举例来说,由渗透压差引起的珠粒孔径的改变通常可以在珠粒本身的结构没有降解的情况下发生。在一些情况下,由珠粒的渗透溶胀引起的孔径增加可以允许珠粒内的夹带物质的释放。在其他情况下,由于孔径收缩,珠粒的渗透收缩可能使珠粒更好地保留夹带物质。

在提供可降解珠粒的情况下,可能希望在所需时间之前避免将这些珠粒暴露于引起这种降解的一种或多种刺激,以避免过早的珠粒降解和由这种降解引起的问题,包括例如流动性差和聚集。举例来说,在珠粒包含可还原的交联基团例如二硫化物基团的情况下,希望避免使此类珠粒与还原剂例如dtt或其他二硫化物裂解试剂接触。在此类情况下,对本文所述珠子的处理将在一些情况下不提供还原剂,例如dtt。因为还原剂通常在商业酶制剂中提供,所以可能需要在处理本文所述的珠粒时提供不含还原剂(或不含dtt)的酶制剂。此类酶的实例包括例如聚合酶制剂、逆转录酶制剂、连接酶制剂、以及可用于处理本文所述珠粒的许多其他酶制剂。术语“不含还原剂”或“不含dtt”的制剂可以指具有用于降解珠粒的此类材料的小于1/10、小于1/50并且甚至小于1/100的较低范围的制剂。例如,对于dtt,不含还原剂的制剂通常具有小于0.01mm、0.005mm、0.001mmdtt、0.0005mmdtt或甚至小于0.0001mmdtt。在许多情况下,dtt的量将无法检测到。

在一些情况下,可以使用刺激来触发珠粒的降解,这可以导致内容物从珠粒释放。通常,刺激可以引起珠粒结构的降解,例如共价键的降解或其他类型的物理相互作用。这些刺激可用于诱导珠粒降解和/或释放其内容物。可以使用的刺激的实例包括化学刺激、热刺激、光学刺激(例如,光)及其任何组合,如下面更全面描述的。

可以使用许多化学触发剂来触发珠粒的降解。这些化学变化的实例可包括但不限于ph介导的珠粒内组分完整性的改变、通过交联键的裂解的珠粒组分的降解以及珠粒组分的解聚。

在一些实施方案中,珠粒可以由包含可降解的化学交联剂(例如bac或胱胺)的材料形成。此类可降解交联剂的降解可通过许多机制完成。在一些实施例中,可以将珠粒与化学降解剂接触,所述化学降解剂可以诱导氧化、还原或其他化学变化。例如,化学降解剂可以是还原剂,例如二硫苏糖醇(dtt)。还原剂的其他实例可包括β-巯基乙醇、(2s)-2-氨基-1,4-二巯基丁烷(二硫代丁胺或dtba)、三(2-羧乙基)膦(tcep)或其组合。还原剂可降解在形成珠粒的凝胶前体之间形成的二硫键,并且因此降解珠粒。在其他情况下,溶液的ph变化(例如ph增加)可触发珠粒的降解。在其他情况下,暴露于水性溶液(例如水)可触发水解降解,并且因此触发珠粒的降解。

在施加热刺激时,还可以诱导珠粒释放其内容物。温度的变化可导致珠粒的各种变化。例如,热可导致固体珠粒液化。热的变化可导致珠粒的熔化,使得珠粒的一部分降解。在其他情况下,热可增加珠粒组分的内压,使得珠粒破裂或爆炸。热还可以作用于用作构建珠粒的材料的热敏聚合物。

本公开的方法、组合物、设备和试剂盒可与任何合适的试剂一起使用以降解珠粒。在一些实施方案中,温度或ph的变化可用于降解珠粒内的热敏性或ph敏感性键。在一些实施方案中,化学降解剂可用于通过氧化、还原或其他化学变化降解珠粒内的化学键。例如,化学降解剂可以是还原剂,例如dtt,其中dtt可以降解在交联剂与凝胶前体之间形成的二硫键,因此降解珠粒。在一些实施方案中,可以添加还原剂以降解珠粒,其可以使或不使珠粒释放其内容物。还原剂的实例可包括二硫苏糖醇(dtt)、β-巯基乙醇、(2s)-2-氨基-1,4-二巯基丁烷(二硫代丁胺或dtba)、三(2-羧乙基)膦(tcep)或其组合。还原剂可以以约0.1mm、0.5mm、1mm、5mm或10mm的浓度存在。还原剂可以以至少约0.1mm、0.5mm、1mm、5mm、10mm或更高的浓度存在。还原剂可以以至多约0.1mm、0.5mm、1mm、5mm或10mm的浓度存在。

可以将任何合适数量的核酸分子(例如,引物,例如条形码化寡核苷酸)与珠粒缔合,使得在从珠粒释放时,核酸分子(例如,引物,例如条形码化寡核苷酸)以预定义浓度存在于分区中。可以选择这种预定义浓度以促进用于在分区内生成测序文库的某些反应(例如扩增)。在一些情况下,引物的预定义浓度受到产生带有寡核苷酸的珠粒的过程的限制。

在一些方面中,分区指容器或器皿(例如孔、微孔、管、小瓶、纳米阵列基底例如biotrove纳米阵列中的通孔或其他容器)。在一些方面中,区室或分区包括可在流体流内流动的分区。这些分区可包括例如具有围绕内部流体中心或核心的外部屏障的微囊泡,或者在一些情况下,它们可包括能够在其基体内夹带和/或保留物质的多孔基体。在一些方面中,分区包括在非水性连续相(例如油相)内的水性流体液滴。各种不同的器皿描述于例如美国专利申请公开号20140155295中,其全部公开内容出于所有目的以全文引用的方式并入将本文。用于在非水性或油连续相中产生稳定液滴的乳液体系详细描述于例如美国专利申请公开号20100105112中,其全部公开内容出于所有目的以全文引用的方式并入本文。

就乳液中的液滴而言,可通常通过将水性流体中流动的细胞流引入流动的非水性流体流中来实现将单个细胞分配到离散的分区,使得在这两个流的汇合点处生成液滴。通过提供在一定浓度的细胞下的水性含细胞的流,可以控制所得分区的占有率(例如,每个分区的细胞数)。在需要单细胞分区的情况下,可以选择流体的相对流速,使得平均来说,各分区包含每个分区少于一个细胞,以便确保被占有的那些分区主要是单占的。在一些实施方案中,可以选择流体的相对流速,使得大多数分区被占有,例如,仅允许一小部分未占有的分区。在一些方面中,控制流和通道架构以确保所需数量的单占分区、小于一定水平的未占分区和小于一定水平的多占分区。

可以操作本文描述的系统和方法,使得大多数占有的分区包括每个占有的分区不超过一个细胞。在一些情况下,进行分区过程使得少于25%占有的分区包含多于一个细胞,并且在许多情况下,少于20%占有的分区具有多于一个细胞。在一些情况下,少于10%或甚至少于5%占有的分区包括每个分区多于一个细胞。

在一些情况下,希望避免产生过多数量的空分区。例如,从成本和/或效率观点来看,可能希望使空分区的数量最少。虽然这可以通过向分区区域中提供足够数量的细胞来实现,但是泊松分布可预期地增加可包括多个细胞的分区的数量。因此,根据本文描述的各方面,将一个或多个细胞的流或其他流体引导到分区区域中,使得在许多情况下,不超过50%的所生成的分区、不超过25%的所生成的分区或不超过10%的所生成的分区未被占有。此外,在一些方面中,控制这些流以便呈现单占分区的非泊松分布,同时提供较低水平的未占有的分区。再次声明,在一些方面中,可以实现上述范围的未占有的分区,同时仍然提供上述任何单占有率。例如,在许多情况下,使用本文所述的系统和方法产生多占有率小于25%、小于20%、小于15%、小于10%并且在一些情况下小于5%,同时未占有的分区小于50%、小于40%、小于30%、小于20%、小于10%并且在某些情况下小于5%的所得分区。

如应当理解的,上述占有率也适用于包括细胞和其他试剂的分区,包括但不限于携带条形码化寡核苷酸的微胶囊。在一些方面中,相当大百分比的总体占有的分区可包括包含条形码化寡核苷酸的微胶囊(例如,珠粒)和细胞。

尽管在上文中关于提供基本上单占分区进行描述,但是在某些情况下,希望提供例如在单个分区中包含两个、三个、四个或更多个细胞和/或包含条形码化寡核苷酸的微胶囊(例如,珠粒)的多占分区。因此,如上所述,可以控制含有细胞和/或珠粒的流体和分区流体的流动特性,以提供此类多占分区。特别地,可以控制流动参数以提供大于50%的分区、大于75%并且在一些情况下大于80%、90%、95%或更高的期望占有率。

在一些情况下,使用另外的微胶囊以将另外的试剂递送到分区。在这种情况下,将不同珠粒从不同珠粒源(即含有不同相关试剂的珠粒源)通过通向共同通道或液滴生成汇合点中的不同通道入口引入到共同通道或液滴生成汇合点中可能是有利的。在此类情况下,可以控制不同珠粒进入通道或汇合点中的流动和频率,以提供所需的每个源的微胶囊的比,同时确保进入分区的此类珠粒与所需数量的细胞的所需配对或组合。

本文所描述的分区可以包括小体积,例如,小于10μl、小于5μl、小于1μl、小于900皮升(pl)、小于800pl、小于700pl、小于600pl、小于500pl、小于400pl、小于300pl、小于200pl、小于100pl、小于50pl、小于20pl、小于10pl、小于1pl、小于500纳升(nl)、或甚至小于100nl、50nl、或甚至更小。

例如,就基于液滴的分区而言,液滴的总体积可小于1000pl、小于900pl、小于800pl、小于700pl、小于600pl、小于500pl、小于400pl、小于300pl、小于200pl、小于100pl、小于50pl、小于20pl、小于10pl、或甚至小于1pl。在与微胶囊共分区的情况下,应当理解,分区内的样品流体体积(例如包括共分区的细胞)可小于上述体积的90%、小于80%、小于70%、小于60%、小于50%、小于40%、小于30%、小于20%或甚至小于上述体积的10%。

如本文其他地方所述,将物质分区可以生成分区群或多个分区。在此类情况下,可以生成任何合适数量的分区以生成多个分区。例如,在本文描述的方法中,可以生成多个分区,其包括至少约1,000个分区、至少约5,000个分区、至少约10,000个分区、至少约50,000个分区、至少约100,000个分区、至少约500,000个分区、至少约1,000,000个分区、至少约5,000,000个分区、至少约10,000,000个分区、至少约50,000,000个分区、至少约100,000,000个分区、至少约500,000,000个分区或至少约1,000,000,000个分区。此外,多个分区可以包括未占有的分区(例如,空分区)和占有的分区

微流体通道网络可用于生成如本文所述的分区。在单个细胞的分区中还可以采用替代机制,包括多孔膜,细胞的水性混合物通过多孔膜被挤出到非水性流体中。

图1中示出了用于分区单个细胞的简化微流体通道结构的实例。如本文其他地方所述,在一些情况下,大多数占有的分区包括每个占有分区不超过一个细胞,并且在一些情况下,一些生成的分区未被占有。但是,在一些情况下,一些占有的分区可能包含多于一个细胞。在一些情况下,可以控制分区过程,使得少于25%占有的分区包含多于一个细胞,并且在许多情况下,少于20%占有的分区具有多于一个细胞,而在一些情况下,少于10%或甚至少于5%占有的分区包含每个分区多于一个细胞。如图所示,通道结构可包括在通道汇合点110处连通的通道区段102、104、106和108。在操作中,包含悬浮细胞114的第一水性流体112可以沿着通道区段102被输送到汇合点110中,同时与水性流体112不混溶的第二流体116从通道区段104和106被递送到汇合点110,以产生包括单个细胞114的水性流体的离散液滴118,其流入到通道区段108中。

在一些方面中,这种第二流体116包括油,例如氟化油,其包括用于稳定所得液滴(例如,抑制所得液滴的后续聚结)的含氟表面活性剂。特别有用的分区流体和含氟表面活性剂的实例描述于例如美国专利申请公开号20100105112中,其全部公开内容出于所有目的以全文的引用方式并入本文。

在其他方面中,除了基于液滴的分区之外或作为基于液滴的分区的替代,细胞可以被包封在微胶囊中,所述微胶囊包括其中夹带有一个或多个单个细胞或小的细胞群体的外壳或外层或多孔基体,并且可以包括其他试剂。细胞的包封可以通过各种过程进行。此类过程将含有待分析细胞的水性流体与聚合物前体材料组合,所述聚合物前体材料在对聚合物前体施加特定刺激时可以能够形成凝胶或其他固体或半固体基体。这种刺激包括例如热刺激(加热或冷却)、光刺激(例如,通过光固化)、化学刺激(例如,通过交联)、前体的聚合引发(例如,通过添加的引发剂)等。

包含细胞的微胶囊的制备可以通过各种方法进行。例如,气刀液滴或气溶胶生成器可用于将前体流体液滴分配到胶凝溶液中,以形成包括单个细胞或小的细胞群组的微胶囊。同样地,基于膜的包封系统可用于生成如本文所述的包含包封细胞的微胶囊。在一些方面中,如图1中所示的微流体系统可以容易地如本文所述用于包封细胞。特别地,并且参考图1,包含细胞和聚合物前体物质的水性流体流动到通道汇合点110中,在此处,水性流体通过非水性流体116的流动被分区成包含单个细胞114的液滴118。就包封方法而言,非水性流体116还可包括引起聚合物前体的聚合和/或交联以形成包含夹带细胞的微胶囊的引发剂。聚合物前体/引发剂对的实例包括美国专利申请公开号20140378345中描述的那些,其全部公开内容出于所有目的以全文引用的方式并入本文。

例如,在聚合物前体物质包括线性聚合物物质(例如,线性聚丙烯酰胺、peg或其他线性聚合物物质)的情况下,活化剂可包括交联剂或者活化所形成的液滴内的交联剂的化学品。同样,对于包含可聚合单体的聚合物前体,活化剂可包括聚合引发剂。例如,在某些情况下,在聚合物前体包括丙烯酰胺单体与n,n'-双-(丙烯酰基)胱胺(bac)共聚单体的混合物的情况下,可在通道区段104和106中的第二流体流内提供诸如四乙基亚甲基二胺(temed)的剂,所述剂引发丙烯酰胺和bac共聚成交联聚合物网络或水凝胶。

在液滴的形成中,当第二流体流116与第一流体流112在汇合点110处接触时,temed可以从第二流体116扩散到包含线性聚丙烯酰胺的水性第一流体112中,这将活化液滴内聚丙烯酰胺的交联,导致形成凝胶(例如水凝胶),即微胶囊118,其呈夹带细胞114的固体或半固体珠粒或颗粒。尽管描述了聚丙烯酰胺包封,但是其他“可活化的”包封组合物也可以用于本文所述的方法和组合物的上下文中。例如,形成藻酸盐液滴,然后暴露于二价金属离子(例如ca2+)可以用作使用所述方法的包封方法。同样地,琼脂糖液滴也可以通过基于温度的胶凝(例如,在冷却时等)转化成胶囊。在一些情况下,例如通过时间的推移或者在施加特定刺激时,包封的细胞可以从微胶囊选择性地释放,所述刺激使微胶囊充分降解以使细胞或其内容物从微胶囊释放到例如分区如液滴中。例如,就上述聚丙烯酰胺聚合物而言,微胶囊的降解可以通过引入适当的还原剂(例如dtt等)以裂解与聚合物基体交联的二硫键来实现(参见例如,美国专利申请公开号20140378345,其全部公开内容出于所有目的以全文引用的方式并入本文。

包封的细胞或细胞群提供了具有可储存性的某些潜在优点,并且比基于液滴的分区细胞更具便携性。此外,在一些情况下,可能需要使待分析的细胞孵育一段选定的时间,以便表征在存在或不存在不同刺激的情况下此类细胞随时间推移的变化。在此类情况下,单个细胞的包封可以允许比分区在乳液液滴中长的孵育时间,但是在一些情况下,液滴分区的细胞也可以孵育不同的时间段,例如,至少10秒、至少30秒、至少1分钟、至少5分钟、至少10分钟、至少30分钟、至少1小时、至少2小时、至少5小时、或至少10小时或更长时间。细胞的包封可以构成细胞的分区,其他试剂被共分区到细胞中。替代地,如上所述,包封的细胞可以容易地沉积到其他分区(例如,液滴)中。

根据某些方面,细胞可以连同裂解试剂一起被分区,以释放分区内细胞的内容物。在此类情况下,裂解剂可以与例如通过通道汇合点110上游的另外一个或多个通道将细胞引入分区汇合点/液滴生成区域同时地或就在此之前与细胞悬浮液接触,。裂解剂的实例包括生物活性试剂,例如用于裂解不同细胞类型(例如革兰氏阳性或阴性细菌、植物、酵母、哺乳动物等)的裂解酶,例如溶菌酶、无色肽酶、溶葡球菌素、labiase、kitalase、溶细胞酶和可从例如sigma-aldrich公司(stlouis,mo)购得的各种其他裂解酶、以及其他可商购的裂解酶。其他裂解剂可以另外地或替代地与细胞共分区以引起细胞内容物向分区中的释放。例如,在一些情况下,基于表面活性剂的裂解溶液可用于裂解细胞,但是这些可能不太适用于基于乳液的系统,在基于乳液的系统中表面活性剂可干扰稳定的乳液。在一些情况下,裂解溶液可包括非离子表面活性剂,例如像tritonx-100和tween20。在一些情况下,裂解溶液可包括离子表面活性剂,例如像十二烷基肌氨酸钠和十二烷基硫酸钠(sds)。在某些情况下也可以使用电穿孔、热、声学或机械细胞破裂,例如,基于非乳液的分区,例如可以补充或代替液滴分区的细胞的包封,其中包封物的任何孔径足够小以在细胞破裂后保留所需大小的核酸片段。

除了上述与细胞共分区的裂解剂之外,其他试剂也可以与细胞共分区,包括例如dna酶和rna酶灭活剂或抑制剂(例如蛋白酶k)、螯合剂(例如edta)和用于消除或以其他方式降低不同细胞裂解物组分对后续核酸加工的负面活性或影响的其他试剂。另外,就包封的细胞而言,可以将细胞暴露于适当的刺激以从共分区的微胶囊释放细胞或其内容物。例如,在一些情况下,化学刺激可以连同包封的细胞共分区,以允许微胶囊的降解和细胞或其内容物向更大分区中的释放。在一些情况下,此刺激可以与本文其他地方描述的用于将核苷酸从其各自的微胶囊(例如珠粒)释放的刺激相同。在替代方面中,这可以是不同并且不重叠的刺激,以允许包封的细胞在与将寡核苷酸释放到相同分区不同的时间被释放到分区中。

另外的试剂也可以与细胞共分区,例如用于扩增细胞核酸片段并将条形码寡核苷酸连接到扩增的片段的片段化细胞dna的内切核酸酶、dna聚合酶和dntp。另外的试剂还可以包括逆转录酶,包括具有末端转移酶活性的酶、引物和寡核苷酸、以及可以用于模板转换的转换寡核苷酸(在本文中也称为“转换寡核苷酸”或“模板转换寡核苷酸”)。在一些情况下,模板转换可用于增加cdna的长度。在一些情况下,模板转换可用于将预定义的核酸序列附加到cdna。在模板转换的一个实例中,cdna可以从模板(例如细胞mrna)的逆转录产生,其中具有末端转移酶活性的逆转录酶可以以模板非依赖性方式向cdna添加另外的核苷酸,例如polyc。转换寡核苷酸可包括与另外的核苷酸(例如polyg)互补的序列。cdna上的另外核苷酸(例如polyc)可以与转换寡核苷酸上的另外核苷酸(例如polyg)杂交,由此转换寡核苷酸可以被逆转录酶用作模板以进一步延伸cdna。模板转换寡核苷酸可包含杂交区和模板区。杂交区可包含能够与靶杂交的任何序列。在一些情况下,如前所述,杂交区包含一系列g碱基以与cdna分子3'末端的突出c碱基互补。所述系列g碱基可包含1个g碱基、2个g碱基、3个g碱基、4个g碱基、5个g碱基或多于5个g碱基。模板序列可包含任何掺入cdna的序列。在一些情况下,模板区包含至少1个(例如,至少2、3、4、5个或更多个)标签序列和/或功能序列。转换寡核苷酸可包含脱氧核糖核酸;核糖核酸;修饰的核酸包括2-氨基嘌呤、2,6-二氨基嘌呤(2-氨基-da)、反向dt、5-甲基dc、2'-脱氧肌苷、supert(5-羟基丁炔-2'-脱氧尿苷)、superg(8-氮杂-7-脱氮鸟苷)、锁核酸(lna)、解锁核酸(una,例如una-a、una-u、una-c、una-g)、iso-dg、iso-dc、2'氟代碱基(例如,氟代c、氟代u、氟代a和氟代g)或任何组合。

在一些情况下,转换寡核苷酸的长度可以是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250个核苷酸或更长。

在一些情况下,转换寡核苷酸的长度可以是至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、或250个核苷酸或更长。

在一些情况下,转换寡核苷酸的长度可以是至多2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、或250个核苷酸。

一旦细胞的内容物被释放到其各自的分区中,其中包含的核酸可以在分区内被进一步处理。根据本文所述的方法和系统,单个细胞的核酸内容物可以具有唯一标识符,使得在表征那些核酸时,它们可以被归属为来源于相同的一个或多个细胞。通过将唯一标识符特定地分配给单个细胞或细胞群组来提供将特征归属于单个细胞或细胞群组的能力。可以分配例如以核酸条形码的形式的唯一标识符或将其与单个细胞或细胞群组缔合,以便用唯一标识符对细胞组分(并且因此其特征)加标签或进行标记。然后,可以使用这些唯一标识符将细胞组分和特征归属于单个细胞或细胞群组。在一些方面中,这通过将单个细胞或细胞群组与唯一标识符共分区来进行。在一些方面中,唯一标识符以寡核苷酸的形式提供,所述寡核苷酸包含核酸条形码序列,所述核酸条形码序列可连接于单个细胞的核酸内容物或以其他方式缔合,或连接于细胞的其他组分,并且尤其是连接于那些核酸的片段。将寡核苷酸分区,使得在给定分区中的寡核苷酸之间时,其中包含的核酸条形码序列是相同的,但是在不同分区之间时,寡核苷酸可以并且确实具有不同的条形码序列,或者至少表示给定分析中所有分区中的大量不同的条形码序列。在一些方面中,只有一个核酸条形码序列可以与给定的分区缔合,但是在一些情况下,可以存在两个或更多个不同的条形码序列。

核酸条形码序列可包含寡核苷酸序列内的6至约20个或更多个核苷酸。在一些情况下,条形码序列的长度可以是6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸或更长。在一些情况下,条形码序列的长度可以是至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸或更长。在一些情况下,条形码序列的长度可以是至多6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸或更长。这些核苷酸可以是完全连续的,即在相邻核苷酸的单个区段中,或者它们可以被分成两个或更多个由1个或多个核苷酸分开的单独子序列。在一些情况下,分开的条形码子序列的长度可为约4至约16个核苷酸。在一些情况下,条形码子序列可以是4、5、6、7、8、9、10、11、12、13、14、15、16个核苷酸或更长。在一些情况下,条形码子序列可以是至少4、5、6、7、8、9、10、11、12、13、14、15、16个核苷酸或更长。在一些情况下,条形码子序列可以是至多4、5、6、7、8、9、10、11、12、13、14、15、16个核苷酸或更长。

共分区的寡核苷酸还可以包含可用于处理共分区的细胞的核酸的其他功能序列。这些序列包括例如靶向或随机/通用扩增引物序列,其用于扩增分区内单个细胞的基因组dna,同时连接相关的条形码序列、测序引物或引物识别位点、杂交或探测序列,例如用于识别序列的存在或用于拉下条形码化核酸,或许多其他潜在的功能序列中任一种。还可以使用共分区寡核苷酸的其他机制,包括例如两个或更多个液滴的聚结,其中一个液滴包含寡核苷酸,或寡核苷酸微分配到分区中,例如微流体系统内的液滴。

简而言之,在一个实施例中,提供微胶囊(例如珠粒),其各自包括可释放地连接于珠粒的大量上述条形码化寡核苷酸,其中连接于特定珠粒的所有寡核苷酸将包括相同的核酸条形码序列,但是在所使用的珠粒群中表示大量不同的条形码序列。在一些实施方案中,水凝胶珠粒(例如,包含聚丙烯酰胺聚合物基质)用作寡核苷酸进入分区的固体支持物和递送载体,因为它们能够携带大量寡核苷酸分子,并且可以被配置为在暴露于特定刺激时释放那些寡核苷酸,如本文其他地方所述。在一些情况下,珠粒群将提供各种条形码序列文库,其包括至少1,000个不同的条形码序列、至少5,000个不同的条形码序列、至少10,000个不同的条形码序列、至少50,000个不同的条形码序列、至少100,000个不同的条形码序列、至少1,000,000个不同的条形码序列、至少5,000,000个不同的条形码序列或至少10,000,000个不同的条形码序列。另外,每个珠粒可以具有大量连接的寡核苷酸分子。特别地,在单个珠粒上包括条形码序列的寡核苷酸分子的数量可以是至少1,000个寡核苷酸分子、至少5,000个寡核苷酸分子、至少10,000个寡核苷酸分子、至少50,000个寡核苷酸分子、至少100,000个寡核苷酸分子、至少500,000个寡核苷酸、至少1,000,000个寡核苷酸分子、至少5,000,000个寡核苷酸分子、至少10,000,000个寡核苷酸分子、至少50,000,000个寡核苷酸分子、至少100,000,000个寡核苷酸分子并且在一些情况下至少10亿个寡核苷酸分子。

此外,当对珠粒群进行分区时,所得的分区群还可以包括各种条形码文库,其包括至少1,000个不同的条形码序列、至少5,000个不同的条形码序列、至少10,000个不同的条形码序列、至少50,000个不同的条形码序列、至少100,000个不同的条形码序列、至少1,000,000个不同的条形码序列、至少5,000,000个不同的条形码序列或至少10,000,000个不同的条形码序列。另外,群体的每个分区可包括至少1,000个寡核苷酸分子、至少5,000个寡核苷酸分子、至少10,000个寡核苷酸分子、至少50,000个寡核苷酸分子、至少100,000个寡核苷酸分子、至少500,000个寡核苷酸、至少1,000,000个寡核苷酸分子、至少5,000,000个寡核苷酸分子、至少10,000,000个寡核苷酸分子、至少50,000,000个寡核苷酸分子、至少100,000,000个寡核苷酸分子并且在一些情况下至少10亿个寡核苷酸分子。

在一些情况下,可能希望将多个不同的条形码掺入给定分区内,或者连接到分区内的单个或多个珠粒。例如,在一些情况下,混合但已知的条形码序列集合可以在后续处理中提供较大识别保证,例如,通过向给定分区提供较强的条形码地址或归属,作为对给定分区的输出的重复或独立的确认。

在对珠粒施加特定刺激时,寡核苷酸可从珠粒释放。在一些情况下,刺激可以是光刺激,例如通过裂解释放寡核苷酸的光不稳定键。在其他情况下,可以使用热刺激,其中珠粒环境的温度升高将导致键的裂解或寡核苷酸从珠粒的其他释放。在又其他情况下,使用化学刺激,其裂解寡核苷酸与珠粒的键,或者以其他方式导致寡核苷酸从珠粒释放。在一种情况下,此类组合物包括上文针对细胞的包封所述的聚丙烯酰胺基质,并且可以通过暴露于还原剂如dtt而降解以释放连接的寡核苷酸。

根据本文所述的方法和系统,将包含连接的寡核苷酸的珠粒与单个细胞共分区,使得单珠粒和单细胞包含在单个分区内。如上所述,虽然单细胞/单珠粒占有是最理想的状态,但是应当理解,经常存在多占分区(无论是细胞、珠粒还是两者),或未占分区(无论是细胞、珠粒还是两者)。图2中示意性地示出了用于共分区细胞和包含条形码寡核苷酸的珠粒的微流体通道结构的实例。如本文其他地方所述,在一些方面中,相当大百分比的总体占有的分区将包括珠粒和细胞,并且在一些情况下,所生成的一些分区将未被占有。在一些情况下,一些分区可能具有未按1:1分区的珠粒和细胞。在一些情况下,可能需要提供例如在单分区内包含两个、三个、四个或更多个细胞和/或珠粒的多占分区。如图所示,通道区段202、204、206、208和210被设置成在通道汇合点212处流体连通。包含单个细胞214的水性流流动通过通道区段202到通道汇合点212。如上所述,这些细胞可以在分区过程之前悬浮在水性流体中,或者可以被预包封。

同时,包含带有条形码的珠粒216的水性流流动通过通道区段204到通道汇合点212。非水性分区流体216从每个侧通道206和208引入通道汇合点212处,并且组合流流动到出口通道210中。在通道汇合点212内,通道区段202和204的两个组合的水性流组合,并且被分区成液滴218,其包括共分区的细胞214和珠粒216。如前所述,通过控制在通道汇合点212处组合的每种流体的流动特性,以及控制通道汇合点的几何形状,可以优化分区以实现珠粒、细胞或两者在所生成的分区218内的所需占有率水平。

在一些情况下,可以将裂解剂(例如细胞裂解酶)与例如流动通过通道区段204的珠粒流一起引入分区中,使得细胞的裂解仅在分区时或之后开始。在这种配置中还可以将另外的试剂添加到分区,例如用于扩增细胞核酸片段并将条形码寡核苷酸连接到扩增的片段的片段化细胞dna的内切核酸酶、dna聚合酶和dntp。如上所述,在许多情况下,可以使用诸如dtt的化学刺激以将条形码从它们各自的珠粒释放到分区中。在此类情况下,可能特别期望在通道区段202中提供化学刺激以及含细胞的流,使得条形码的释放仅在两个流已经组合之后发生,例如在分区218内。然而,在细胞被包封的情况下,引入常见的化学刺激,例如既将寡核苷酸其珠粒释放又将细胞从其微胶囊释放的化学刺激,通常可以从通道汇合点212上游或与其连接的单独的另外侧通道(未示出)提供。

可以将许多其他试剂与细胞、珠粒、裂解剂和化学刺激共分区,包括例如保护试剂,如蛋白酶k;螯合剂;核酸延伸、复制、转录或扩增试剂,例如聚合酶、逆转录酶、可用于基于转座子的方法(如nextera)的转座酶、核苷三磷酸或ntp类似物;引物序列和另外的辅助因子,如此类反应中使用的二价金属离子;连接反应试剂,如连接酶和连接序列;染料;标签;或其他标记试剂。

例如,如本文所述的通道网络可以流体地联接到适当的流体部件。例如,入口通道区段(例如,通道区段202、204、206和208)流体地联接到它们将递送到通道汇合点212的材料的适当来源。例如,通道区段202将流体地联接到待分析的细胞214的水性悬浮液的来源,而通道区段204可以流体地联接到珠粒216的水性悬浮液的来源。然后,通道区段206和208可以流体地连接到非水性流体的一个或多个来源。这些来源可包括各种不同的流体部件中的任一种,从在微流体设备的主体结构中限定或与其连接的简易储存器,到从设备外来源、歧管等递送流体的流体导管。同样地,出口通道区段210可以流体地联接到用于分区细胞的接收器皿或导管。同样,这可以是在微流体设备的主体中限定的储存器,或者其可以是用于将分区细胞递送到随后的过程操作、仪器或部件的流体导管。

图8示出了在油包水乳液中的水性液滴中连同含有条形码寡核苷酸的珠粒一起共分区的单个jurkat细胞的图像。如图所示,单个细胞可以容易地与单个珠粒共分区。如应当理解的,可以通过多种方法进行单个细胞负载的优化,包括通过将细胞群稀释液提供到微流体系统中以实现如本文其他地方所述的每个分区的所需细胞负载。

在操作中,一旦裂解,就可在分区内将单个细胞的核酸内容物用于进一步处理,包括例如片段化、扩增和条形码化,以及其他功能序列的连接。如上所述,可以通过剪切酶(例如内切核酸酶)的共分区来实现片段化,以便将核酸片段化成较小片段。这些内切核酸酶可包括限制性内切核酸酶,包括ii型和iis型限制性内切核酸酶以及其他核酸裂解酶,例如切刻内切核酸酶等。在一些情况下,可能不需要片段化,并且全长核酸可以保留在分区内,或者在包封的细胞或细胞内容物的情况下,可以在分区之前进行片段化,例如通过酶促方法,例如,本文所述的那些,或通过机械方法,例如机械、声学或其他剪切。

一旦共分区,并且细胞被裂解以释放其核酸,就可将置于珠粒上的寡核苷酸用于条形码化和扩增那些核酸的片段。简而言之,在一个方面中,存在于与细胞共分区的珠粒上的寡核苷酸从其珠粒释放到具有细胞核酸的分区中。寡核苷酸可以连同条形码序列一起包括在其5'末端的引物序列。这种引物序列可以是旨在随机引发细胞核酸上的许多不同区域的随机寡核苷酸序列,或者其可以是靶向引发细胞基因组的特定靶向区上游的特异性引物序列。

一旦释放,寡核苷酸的引物部分就可以与细胞核酸的互补区退火。也与细胞和珠粒共分区的延伸反应试剂例如dna聚合酶、核苷三磷酸、辅因子(例如,mg2+或mn2+)然后使用细胞核酸作为模板延伸引物序列,以产生与引物退火的细胞核酸链的互补片段,所述互补片段包括寡核苷酸及其相关的条形码序列。多个引物与细胞核酸的不同部分的退火和延伸将导致核酸的大量重叠互补片段,每个互补片段具有其自己的指示其产生的分区的条形码序列。在一些情况下,这些互补片段本身可以用作由分区中存在的寡核苷酸引发的模板,以产生补体的补体,其再次包括条形码序列。在一些情况下,配置这种复制过程,使得当第一补体被重复时,其在其末端处或附近产生两个互补序列,以允许形成发夹结构或部分发夹结构,降低分子成为产生进一步迭代拷贝的基础的能力。如本文所述,细胞核酸可包括细胞内的任何所需核酸,包括例如细胞dna(例如基因组dna)、rna(例如信使rna)等。例如,在一些情况下,本文描述的方法和系统用于表征表达的mrna,包括例如此类mrna的存在和定量,并且可以包括rna测序过程作为表征过程。替代地或另外地,连同细胞一起分区的试剂可包括用于将mrna转化为cdna的试剂,例如逆转录酶和试剂,以有利于采用dna测序的测序过程。在一些情况下,当待表征的核酸包含rna例如mrna时,其一个实例的示意图示于图3中。

如图所示,包含条形码序列的寡核苷酸连同样品核酸304一起共分区在例如乳液中的液滴302中。如本文其他地方所述,寡核苷酸308可以提供在与样品核酸304共分区的珠粒306上,所述寡核苷酸可从珠粒306释放,如图a所示。寡核苷酸308包括条形码序列312,以及一个或多个功能序列,例如序列310、314和316。例如,寡核苷酸308显示为包含条形码序列312,以及可用作给定测序系统的连接或固定序列的序列310,例如用于连接于illumina系统的流动池的p5序列。如图所示,寡核苷酸还包括引物序列316,其可包括用于引发样品核酸304的多个部分的复制的随机或靶向的n-mer。寡核苷酸308中还包括序列314,其可以提供测序引发区,例如“读取1”或r1引发区,其用于通过在测序系统中的合成反应引发聚合酶介导的模板指导测序。如应当理解的,可以选择功能序列以与各种不同的测序系统例如454测序、iontorrentproton或pgm、illuminax10等及其要求相容。在许多情况下,条形码序列312、固定序列310和r1序列314可以对于连接于给定珠粒的所有寡核苷酸来说是共同的。引物序列316可以针对随机n-mer引物而变化,或者可以针对某些靶向应用对于给定珠粒上的寡核苷酸来说是共同的。

如应当理解的,在一些情况下,功能序列可包括可用于rna-seq应用的引物序列。例如,在一些情况下,寡核苷酸可包括用于引发rna-seq的rna的逆转录的poly-t引物。在其他情况下,除了常见的条形码序列之外,给定分区中的寡核苷酸(例如包含在单个珠粒上的)可包括多种类型的引物序列,例如dna测序和rna测序引物,例如包含在与珠粒偶联的寡核苷酸内的poly-t引物序列。在此类情况下,可以对单分区细胞进行dna和rna测序过程。

基于引物序列316的存在,寡核苷酸可以引发样品核酸,如图b所示,其允许使用也与珠粒306和样品核酸304共分区的聚合酶和其他延伸试剂延伸寡核苷酸308和308a。如图c所示,在对于随机n-mer引物可以与样品核酸304的多个不同区退火的寡核苷酸的延伸之后,产生核酸的多个重叠的补体或片段,例如片段318和320。尽管包括与样品核酸的多个部分互补的序列部分,例如序列322和324,但这些构建体在本文中通常被称为包含样品核酸304的片段,其具有连接的条形码序列。

然后可以对条形码化核酸片段进行表征,例如通过序列分析,或者可以在所述过程中对它们进一步扩增,如图d所示。例如,也从珠粒306释放的另外的寡核苷酸例如寡核苷酸308b可以引发片段318和320。这里显示了片段318。特别地,同样,基于寡核苷酸308b中随机n-mer引物316b(其在许多情况下可以不同于给定分区中的其他随机n-mer,例如引物序列316)的存在,寡核苷酸与片段318退火并且被延伸以产生包括序列328的片段318的至少一部分的补体326,其包含样品核酸序列的一部分的重复。继续延伸寡核苷酸308b,直至其通过片段318的寡核苷酸部分308复制。如本文其他地方所述,并且如图d所示,寡核苷酸可以被配置成在期望的点处停止聚合酶的复制,例如,在通过片段318中包含的寡核苷酸308的序列316和314复制之后。如本文所述,这可以通过不同方法实现,包括例如掺入不能被所用聚合酶加工的不同核苷酸和/或核苷酸类似物。例如,这可以包括在序列区312内包含含尿嘧啶的核苷酸,以防止非尿嘧啶耐受的聚合酶停止那个区域的复制。结果,产生在其一端包括全长寡核苷酸308b的片段326,其包括条形码序列312、连接序列310、r1引物区314和随机n-mer序列316b。在序列的另一端可以包括第一寡核苷酸308的随机n-mer的补体316',以及全部或部分r1序列的补体,如序列314'所示。然后,r1序列314及其补体314'能够杂交在一起以形成部分发夹结构328。如应当理解的,因为随机n-mer在不同寡核苷酸之间有所不同,所以这些序列及其补体预期可能不会参与发夹形成,例如作为随机n-mer316的补体的序列316'预期可能不与随机n-mer序列316b互补。这可能不是其他应用的情况,例如靶向引物,其中n-mer可能在给定分区内的寡核苷酸中是共同的。

通过形成这些部分发夹结构,允许从进一步复制去除样品序列的第一级复制品,例如,防止拷贝的迭代拷贝。部分发夹结构还为随后处理所产生的片段(例如片段326)提供了有用的结构。

通常,对细胞核酸进行扩增,直到分区内的条形码化重叠片段构成特定部分或全部细胞基因组的至少1x覆盖率、基因组或其相关感兴趣部分的至少2x、至少3x、至少4x、至少5x、至少10x、至少20x、至少40x或更高覆盖率。一旦产生条形码化片段,就可以将它们直接在合适的测序系统上测序,例如illumina或x10系统,或者可以对它们进行另外的处理,例如进一步扩增,连接其他功能序列例如第二测序引物以用于反向读取、样品索引序列等。

然后可汇集来自多个不同分区的所有片段以用于在如本文所述的高通量测序仪上进行测序,其中汇集的片段包含源自不同细胞或小的细胞群的核酸的大量片段,但其中给定细胞的核酸的片段将共享相同的条形码序列。特别地,因为每个片段关于其原始分区被编码,并且因此关于其单细胞或小的细胞群被编码,所以所述片段的序列可以基于条形码的存在被反向归属于那个细胞或那些细胞,其还将有助于将来自多个分区的各种序列片段应用于不同细胞的单个基因组的组装体。这示意性地示出于图4。如一个实施例中所示,第一细胞400的第一核酸404和第二细胞402的第二核酸406如上所述各自连同它们自己的条形码寡核苷酸集合一起分区。核酸可包含染色体、整个基因组或细胞的其他大核酸。

在每个分区内,然后处理每个细胞核酸404和406以分开提供一个或多个第一片段的第二片段的重叠集合,例如第二片段集合408和410。这种处理还为第二片段提供条形码序列,所述条形码序列对于从特定第一片段衍生的每个第二片段来说是相同的。如图所示,第二片段集合408的条形码序列用“1”表示,而片段集合410的条形码序列用“2”表示。可以使用各种条形码文库来差异地条形码化大量不同的片段集合。然而,不必将来自不同第一片段的每个第二片段集合用不同的条形码序列进行条形码化。实际上,在许多情况下,可以同时处理多个不同的第一片段以包括相同的条形码序列。本文其他地方详细描述了各种条形码文库。

然后可以汇集例如片段集合408和410的条形码化片段以用于例如使用通过可从illumina或thermo-fisher公司的iontorrent分部获得的合成技术的序列进行测序。一旦测序,就可以至少部分地基于所包括的条形码,并且在一些情况下,部分地基于片段本身的序列将序列读数412归属于它们各自的片段集合,例如,如聚集的读数414和416所示。然后组装每个片段集合的归属序列读数以提供每个细胞核酸的组装序列,例如序列418和420,其继而可以归属于单个细胞,例如细胞400和402。

虽然在分析细胞内存在的遗传物质方面进行了描述,但本文所述的方法和系统可具有更广泛的适用性,包括通过允许将试剂分配到单个细胞,并提供那些细胞回应于那些试剂的归属分析或表征来表征单个细胞或细胞群的其他方面的能力。这些方法和系统在能够表征细胞以用于例如研究、诊断、病原体识别和许多其他目的方面特别有价值。举例来说,广泛的不同细胞表面特征,例如细胞表面蛋白如分化簇或cd蛋白,在诸如癌症的疾病的表征中具有显著的诊断相关性。

在一个特别有用的应用中,本文描述的方法和系统可用于表征细胞特征,例如细胞表面特征,例如蛋白质、受体等。特别地,本文描述的方法可用于将报告分子连接于这些细胞特征,当如上所述进行分区时,可以进行条形码化和分析,例如使用dna测序技术,以确定单个细胞或细胞群体此类细胞特征的存在,并且在一些情况下,其相对丰度或量。

在特定实施例中,可提供潜在细胞结合配体文库例如抗体、抗体片段、细胞表面受体结合分子等,其在例如不同的报告寡核苷酸序列与特定配体缔合的情况下与第一核酸报告分子集合缔合,并且因此能够结合特定的细胞表面特征。在一些方面中,文库的不同成员可以通过存在不同的寡核苷酸序列标记来表征,例如,针对第一类型细胞表面蛋白或受体的抗体可以具有与其缔合的第一已知的报告寡核苷酸序列,而针对第二受体蛋白的抗体可以具有与其缔合的不同的已知报告寡核苷酸序列。在共分配之前,可以将细胞与配体文库一起孵育,所述配体文库可以代表针对广泛的不同细胞表面特征的抗体,例如受体、蛋白质等,并且包括它们缔合的报告寡核苷酸。从细胞中洗去未结合的配体,然后将细胞连同上述条形码寡核苷酸一起共分区。因此,分区将包括一种或多种细胞,以及结合的配体和它们已知的缔合报告寡核苷酸。

在不需要裂解分区内的细胞的情况下,然后可以对报告寡核苷酸进行上文针对细胞核酸所述的条形码化操作,以产生条形码化报告寡核苷酸,其中报告寡核苷酸的存在可以指示特定细胞表面特征的存在,并且条形码序列将允许基于与细胞或细胞群共分区的条形码序列将大量不同细胞表面特征归属于给定的单个细胞或细胞群。因此,可以在更广泛的细胞群体内生成细胞表面特征的逐细胞概况。下面更详细地描述本文描述的方法和系统的这个方面。

这个实施例示意性地示出于图5。如图所示,将由细胞502和504代表的细胞群与细胞表面缔合试剂文库一起孵育,例如抗体、细胞表面结合蛋白、配体等,其中每种不同类型的结合群组包括与其缔合的缔合核酸报告分子,显示为配体和缔合报告分子506、508、510和512(其中报告分子由不同阴影的圆圈表示)。当细胞表达文库结合的表面特征时,配体及其缔合报告分子可以与细胞表面缔合或偶联。然后将单个细胞连同它们的缔合配体/报告分子一起以及如本文其他地方所述的单个条形码寡核苷酸珠粒例如珠粒522和524分别地分区到单独的分区中,例如液滴514和516。与本文所述的其他实施例一样,条形码化寡核苷酸从珠粒中释放并用于将每个分区内存在的报告分子的条形码序列与条形码连接,所述条形码是给定分区共同的,但在不同分区之间变化很大。例如,如图5所示,与分区514中的细胞502缔合的报告分子用条形码序列518条形码化,而与分区516中的细胞504缔合的报告分子用条形码520条形码化。因此,提供了寡核苷酸文库,其反映细胞的表面配体,如报告分子所反映的,但是由于共同的条形码序列而基本上可归属于单个细胞,允许单细胞水平分析细胞的表面特征。如应当理解的,此过程不限于细胞表面受体,而是可用于识别多种特定细胞结构、化学性质或其他特征的存在。

本文描述的单细胞处理和分析方法和系统可用于多种应用,包括特定单个细胞的分析,不同细胞类型的群体内不同细胞类型的分析,用于环境、人类健康、流行病学法医的大细胞群的分析和表征或者任何各种不同的应用。

本文描述的单细胞分析方法的特别有价值的应用是在患病细胞的测序和表征方面。患病细胞可具有改变的代谢特性、基因表达和/或形态特征。疾病的实例包括炎性病症、代谢病症、神经系统病症和癌症。

特别感兴趣的是癌细胞。特别地,传统的分析技术,包括上面提到的集成测序方法,在挑选癌细胞的基因组构成的微小变异方面不是很擅长,特别是在那些变异存在于正常组织细胞中的情况下。此外,即使在肿瘤细胞之间,也可以存在广泛的变化并且可以通过测序的集成方法掩盖(参见,例如,patel等人,single-cellrna-seqhighlightsintratumoralheterogeneityinprimaryglioblastoma,sciencedoi:10.1126/science.1254257(2014年6月12日在线发布)癌细胞可以源自实体瘤、血液恶性肿瘤、细胞系、或作为循环肿瘤细胞获得,并进行上述分区过程。在分析时,可以将单个细胞序列识别为源自单个细胞或小的细胞群组,并将那些区别于正常组织细胞序列。

癌细胞的非限制性实例包括癌症细胞,例如棘皮瘤、痤疮细胞癌、听神经瘤、肢端黑色素瘤、肢端汗腺瘤、急性嗜酸细胞性白血病、急性淋巴细胞白血病、急性巨核细胞白血病、急性单核细胞白血病、成熟的急性成髓细胞白血病、急性髓性树突状细胞白血病、急性髓细胞白血病、急性早幼粒细胞白血病、金刚病、腺癌、腺样囊性癌、腺瘤、腺瘤样牙源性肿瘤、肾上腺皮质癌、成人t细胞白血病、侵袭性nk细胞白血病、艾滋病相关癌症、艾滋病相关淋巴瘤、肺泡软组织肉瘤、成釉纤维瘤、肛门癌、间变性大细胞淋巴瘤、甲状腺未分化癌、血管免疫母细胞性t细胞淋巴瘤、血管平滑肌脂肪瘤、血管肉瘤、附件癌、星形细胞瘤、非典型畸胎瘤性横纹肌瘤、基底细胞癌、基底样癌、b细胞白血病、b细胞淋巴瘤、贝里尼导管癌、胆管癌、膀胱癌、胚细胞瘤、骨癌、骨肿瘤、脑干胶质瘤、脑肿瘤、乳腺癌、布伦纳瘤、支气管肿瘤、细支气管肺泡癌、棕色肿瘤、伯基特淋巴瘤、未知原发癌、癌类肿瘤、癌、原位癌、阴茎癌、未知原发癌、癌肉瘤、巨淋巴结增生症、中枢神经系统胚胎肿瘤、小脑星形细胞瘤、脑星形细胞瘤、宫颈癌、胆管癌、软骨瘤、软骨肉瘤、脊索瘤、绒毛膜癌、脉络丛乳头状瘤、慢性淋巴细胞白血病、慢性单核细胞白血病、慢性粒细胞白血病、慢性骨髓增生性疾病、慢性中性粒细胞白血病、透明细胞瘤、结肠癌、结肠直肠癌、颅咽管瘤、皮肤t细胞淋巴瘤、德戈斯病、皮肤粘膜囊肿、皮样囊肿、增生性小圆形细胞肿瘤、弥漫性大b细胞淋巴瘤、胚胎发育不良神经上皮肿瘤、胚胎癌、内胚窦瘤、子宫内膜癌、子宫内膜癌、子宫内膜样肿瘤、肠病相关t细胞淋巴瘤、室管膜母细胞瘤、室管膜瘤、上皮样肉瘤、红白血病、食道癌、鼻腔神经胶质瘤、尤文氏家族肿瘤、尤文氏家族肉瘤、尤文氏肉瘤、颅外生殖细胞肿瘤、外生殖细胞肿瘤、肝外胆管癌、乳腺外佩吉特氏病、输卵管癌、胎中胎、纤维瘤、纤维肉瘤、滤泡性淋巴瘤、滤泡性甲状腺癌、胆囊癌、胆囊癌、神经胶质瘤、神经节细胞瘤、胃癌、胃淋巴瘤、胃肠癌、胃肠道类癌肿瘤、胃肠道间质瘤、胃肠道间质瘤、生殖细胞肿瘤、生殖细胞瘤、妊娠绒毛膜癌、妊娠滋养细胞肿瘤、骨巨细胞瘤、多形性胶质母细胞瘤、胶质瘤、脑胶质瘤病、血管球瘤、高血糖素瘤、成性腺细胞瘤、颗粒细胞瘤、毛细胞白血病、毛细胞白血病、头颈癌、头颈癌、心脏癌、血管母细胞瘤、血管外皮细胞瘤、血管肉瘤、血液系统恶性肿瘤、肝细胞癌、肝脾t细胞淋巴瘤、遗传性乳腺癌综合征、霍奇金淋巴瘤、霍奇金淋巴瘤、下咽癌、下丘脑神经胶质瘤、炎症性乳腺癌、眼内黑色素瘤、胰岛细胞癌、胰岛细胞瘤、青少年髓单核细胞白血病、卡波西肉瘤、卡波西氏肉瘤、肾癌、克拉茨金肿瘤、克鲁根勃瘤、喉癌、喉癌、恶性雀斑样黑色素瘤、白血病、白血病、唇和口腔癌、脂肪肉瘤、肺癌、黄体瘤、淋巴管瘤、淋巴管肉瘤、淋巴上皮瘤、淋巴性白血病、淋巴瘤、巨球蛋白血症、恶性纤维组织细胞瘤、恶性纤维组织细胞瘤、骨恶性纤维组织细胞瘤、恶性胶质瘤、恶性间皮瘤、恶性周边神经腱鞘瘤、恶性横纹肌样瘤、恶性氚核瘤、malt淋巴瘤、套细胞淋巴瘤、肥大细胞白血病、纵隔生殖细胞瘤、纵隔肿瘤、甲状腺髓样癌、成神经管细胞瘤、成神经管细胞瘤、髓质口皮瘤、黑色素瘤、黑色素瘤、脑膜瘤、默克细胞癌、间皮瘤、间皮瘤、转移性鳞状颈癌伴隐匿性原发性、转移性尿路上皮癌、混合性缪勒肿瘤、单核细胞白血病、口腔癌、粘液瘤、多发性内分泌肿瘤综合征、多发性骨髓瘤、多发性骨髓瘤、真菌病、真菌病、骨髓增生异常病、骨髓增生异常综合征、骨髓性白血病、骨髓瘤、骨髓增生性疾病、粘液瘤、鼻腔癌、鼻咽癌、鼻咽癌、肿瘤、神经瘤、神经母细胞瘤、神经母细胞瘤、神经纤维瘤、神经瘤、结节性黑色素瘤、非霍奇金淋巴瘤、非霍奇金淋巴瘤、非黑色素瘤皮肤癌、非小细胞肺癌、眼肿瘤、少星形细胞瘤、少突神经胶质瘤、大嗜酸粒细胞瘤、视神经鞘膜瘤、口腔癌、口腔癌、口咽癌、骨肉瘤、骨肉瘤、卵巢癌、卵巢癌、卵巢上皮癌、卵巢生殖细胞肿瘤、卵巢低恶性潜能肿瘤、派杰病、肺上沟瘤、胰腺癌、胰腺癌、乳头状甲状腺癌、乳头状瘤病、副神经节瘤、鼻窦癌、甲状旁腺癌、阴茎癌、血管周围上皮样细胞瘤、咽癌、嗜铬细胞瘤、中间分化的松果体实质肿瘤、成松果体细胞瘤、垂体细胞瘤、垂体腺瘤、垂体瘤、浆细胞肿瘤、胸膜肺母细胞瘤、多胚胎瘤、前体t淋巴母细胞淋巴瘤、原发性中枢神经系统淋巴瘤、原发性积液淋巴瘤、原发性肝细胞癌、原发性肝癌、原发性腹膜癌、原始神经外胚层肿瘤、前列腺癌、腹膜假黏液瘤、直肠癌、肾细胞癌、涉及染色体15上的nut基因的呼吸道癌、视网膜母细胞瘤、横纹肌瘤、横纹肌肉瘤、里氏转化、骶尾部畸胎瘤、唾液腺癌、肉瘤、神经鞘瘤病、皮脂腺癌、继发性肿瘤、精原细胞瘤、浆液性肿瘤、卵巢支持间质细胞瘤、性索间质瘤、西泽里综合征、印戒细胞癌、皮肤癌、小蓝圆细胞肿瘤、小细胞癌、小细胞肺癌、小细胞淋巴瘤、小肠癌、软组织肉瘤、生长抑素瘤、烟尘疣、脊髓肿瘤、脊柱肿瘤、脾边缘区淋巴瘤、鳞状细胞癌、胃癌、浅表性扩散黑素瘤、幕上原始神经外胚层肿瘤、表面上皮-间质瘤、滑膜肉瘤、t细胞急性淋巴细胞白血病、t细胞大颗粒淋巴细胞白血病、t细胞白血病、t细胞淋巴瘤、t细胞淋巴细胞白血病、畸胎瘤、终末淋巴癌、睾丸癌、泡膜细胞瘤、喉癌、胸腺癌、胸腺瘤、甲状腺癌、肾盂和输尿管移行细胞癌、移行细胞癌、脐尿管癌、尿道癌、泌尿生殖系肿瘤、子宫肉瘤、葡萄膜黑色素瘤、阴道癌、弗纳-莫里森综合征、疣状癌、视觉通路胶质瘤、外阴癌、瓦尔登斯特伦巨球蛋白血、淋巴瘤性乳头状囊腺瘤、韦尔姆斯氏瘤及其组合。

在要分析癌细胞的情况下,可用于连接条形码序列和/或扩增反应的各种操作中的任一种的引物序列可包括靶向与癌症相关或疑似与癌症相关的基因或基因区域的基因特异性序列。例如,这可以包括其中与癌症相关的突变(例如,插入、缺失、多态性、拷贝数变异和基因融合)的存在疑似存在于细胞群中的基因或基因区域。

与癌细胞分析一样,使用常规技术通过分析胎儿细胞来分析和诊断胎儿健康或异常是一项困难任务。特别地,在不存在相对侵入性过程的情况下,例如羊膜穿刺术,获得胎儿细胞样品可以采用从母体循环中收获那些细胞。如应当理解的,这种循环胎儿细胞占此循环的总细胞群的极小部分。因此,进行复杂分析以表征所获得的数据中哪些可能来自胎儿细胞而不是母体细胞。然而,通过采用本文所述的单细胞表征方法和系统,可以将遗传构成归属于单个细胞,并基于它们各自的遗传构成将那些细胞分类为母体或胎儿。此外,胎儿细胞的遗传序列可用于识别许多遗传疾病中的任一种,包括例如非整倍性如唐氏综合征、爱德华兹综合征和帕托综合征。

同样感兴趣的是免疫细胞。本文公开的方法和组合物可用于免疫组库的序列分析。分析免疫组库中的序列信息可以在理解免疫系统的状态和功能方面提供显著的改进。

可以使用本文描述的方法分析的免疫细胞的非限制性实例包括b细胞、t细胞(例如,细胞毒性t细胞、天然杀伤t细胞、调节性t细胞和t辅助细胞)、天然杀伤细胞、细胞因子诱导的杀伤(cik)细胞;骨髓细胞,例如粒细胞(嗜碱性粒细胞、嗜酸性粒细胞、中性粒细胞/分叶过多的中性粒细胞)、单核细胞/巨噬细胞、肥大细胞、血小板/巨核细胞和树突细胞。在一些实施方案中,使用本文公开的方法分析单个t细胞。在一些实施方案中,使用本文公开的方法分析单个b细胞。

免疫细胞表达与免疫功能相关的各种适应性免疫受体,例如t细胞受体和b细胞受体。t细胞受体和b细胞受体通过特异性识别和结合抗原并帮助其破坏而在免疫应答中起作用。

t细胞受体或tcr是在t细胞表面上发现的分子,其通常负责识别抗原片段作为与主要组织相容性复合物(mhc)分子结合的肽。tcr通常是两条链的异二聚体,每条链是免疫球蛋白超家族的成员,具有n-末端可变(v)结构域和c末端恒定结构域。在人体中,在95%的t细胞中,tcr由阿尔法(α)和贝塔(β)链组成,而在5%的t细胞中,tcr由伽马和德尔他(γ/δ)链组成。这个比率可以在个体发育期和患病状态以及在不同物种中发生变化。当tcr与抗原肽和mhc(肽/mhc)结合时,通过信号转导活化t淋巴细胞。

tcr的两条链中的每一条均含有多个基因区段拷贝-可变‘v’基因区段、多样性‘d’基因区段和连接‘j’基因区段。tcrα链通过v和j区段的重组生成,而β链通过v、d和j区段的重组生成。类似地,tcrγ链的生成涉及v和j基因区段的重组,而tcrδ链的生成通过v、d和j基因区段的重组而发生。这些特定区域(对于α或γ链的v和j,或对于β或δ链的v、d和j)的交叉对应于对抗原-mhc识别来说重要的cdr3区。互补决定区(例如,cdr1、cdr2和cdr3)或高变区是抗原受体(例如,t细胞受体和免疫球蛋白)的可变结构域中的序列,其可以补充抗原。在cdr3中发现大多数cdr的多样性,其中多样性由t淋巴细胞发育期间的体细胞重组事件生成。在基因排列过程中出现的独特核苷酸序列可被称为克隆型。

b细胞受体或bcr是在b细胞表面上发现的分子。bcr的抗原结合部分由膜结合抗体组成,其与大多数抗体(例如,免疫球蛋白)一样,具有独特且随机确定的抗原结合位点。bcr的抗原结合部分包括一种同种型(例如,igd、igm、iga、igg或ige)的膜结合免疫球蛋白分子。当b细胞首次与同源抗原相遇时被活化时,细胞增殖并分化,生成一群抗体分泌血浆b细胞和记忆b细胞。各种免疫球蛋白同种型的生物学特征、结构、靶特异性和分布不同。存在多种分子机制以生成初始多样性,包括多个位点的遗传重组。

bcr由编码抗体重链和轻链的两个基因igh和igk(或igl)组成。免疫球蛋白通过基因区段之间的重组、这些区段的连接处的序列多样化以及整个基因的点突变形成。每个重链基因包含三个不同基因区段的多个拷贝-可变‘v’基因区段、多样性‘d’基因区段和连接‘j’基因区段。每个轻链基因包含蛋白质可变区的两个不同基因区段的多个拷贝-可变‘v’基因区段和连接‘j’基因区段。重组可以生成具有v、d和j区段中的每一个的分子。此外,可以缺失几个碱基,并且在两个连接的每一个处添加其他碱基(称为n和p核苷酸),从而生成进一步的多样性。在b细胞活化之后,通过体细胞超变发生亲和力成熟过程。在这个过程中,活化的b细胞的子代细胞在整个基因中累积不同的体细胞突变,其中cdr区中较高的突变浓度导致对抗原具有较高亲和力的抗体的生成。除了体细胞超突变之外,活化的b细胞经历同种型转换过程。具有相同可变区段的抗体可以根据恒定区段而具有不同的形式(同种型)。尽管所有初始b细胞表达igm(或igd),但活化的b细胞主要表达igg,但也表达igm、iga和ige。从igm(和/或igd)转换为igg、iga或ige的这种表达通过重组事件发生,导致一个细胞专门产生特定同种型。在基因排列过程中出现的独特核苷酸序列可以类似地称为克隆型。

在一些实施方案中,本文公开的方法、组合物和系统用于分析免疫细胞的tcr和bcr的各种序列,例如各种克隆型。在一些实施方案中,本文公开的方法、组合物和系统用于分析tcrα链、tcrβ链、tcrδ链、tcrγ链或其任何片段(例如,包括vdj或vj区的可变区、恒定区、跨膜区、其片段、其组合、以及其片段的组合)的序列。在一些实施方案中,本文公开的方法、组合物和系统用于分析b细胞受体重链、b细胞受体轻链或其任何片段(例如,包括vdj或vj区的可变区、恒定区、跨膜区、其片段、其组合、以及其片段的组合)的序列。

在要分析免疫细胞的情况下,可用于连接条形码序列和/或扩增反应的各种操作中的任一种的引物序列可包括靶向免疫细胞蛋白(例如免疫受体)的基因或基因区域的基因特异性序列。此类基因序列包括但不限于各种t细胞受体α可变基因(trav基因)、t细胞受体α连接基因(traj基因)、t细胞受体α恒定基因(trac基因)、t细胞受体β可变基因(trbv基因)、t细胞受体β多样性基因(trbd基因)、t细胞受体β连接基因(trbj基因)、t细胞受体β恒定基因(trbc基因)、t细胞受体γ可变基因(trgv基因)、t细胞受体γ连接基因(trgj基因)、t细胞受体γ恒定基因(trgc基因)、t细胞受体δ可变基因(trdv基因)、t细胞受体δ多样性基因(trdd基因)、t细胞受体δ连接基因(trdj基因)和t细胞受体δ恒定基因(trdc基因)的序列。

表征较大的不同细胞群的单个细胞的能力在环境试验和法医分析方面也具有重要价值,其中样品本质上可以由不同的细胞群和其他物质组成,相对于针对例如环境和食品安全测试所测试的样品(例如环境指示生物、有毒生物等)的细胞,针对性侵和其他暴力犯罪的法医分析中的受害者和/或犯罪者细胞等等,这些物质“污染”样品。

另外,本文公开的方法和组合物不仅允许确定免疫组库和不同的克隆型,而且还确定与结合相同或相似抗原的一种或多种克隆型相关的细胞的功能特征(例如,转录组)。这些功能特征可包括细胞因子、趋化因子或细胞表面缔合分子(例如共刺激分子、检查点抑制剂、细胞表面成熟标记或细胞粘附分子)的转录。这种分析使表达特定t细胞受体、b细胞受体或免疫球蛋白的细胞或细胞群与某些功能特征相关联。例如,对于任何给定的抗原,将存在与此抗原特异性结合的t细胞受体、b细胞受体或免疫球蛋白的多种克隆型。结合相同抗原的多种克隆型被称为独特型。

上述单细胞测序和表征过程的其他有用应用是在神经科学研究和诊断领域方面。特别地,神经细胞可以包括长散布核元件(line),或可以在基因组周围移动的‘跳跃’基因,其导致每个神经元与其相邻细胞不同。研究表明,人脑中line的数量超过其他组织(例如心脏和肝脏组织)的line数量,具有80与300之间个独特插入(参见,例如,coufal,n.g.等人nature460,1127–1131(2009))。这些差异被认为与人对神经系统疾病的易感性有关(参见,例如,muotri,a.r.等人nature468,443–446(2010)),或为大脑提供应对挑战的多样性。因此,本文描述的方法可用于单个神经细胞的测序和表征。

如上所述,本文所述的单细胞分析方法也可用于关于rna转录物的识别及其定量分析基因表达。特别地,使用本文所述的单细胞水平分析方法,可以分离和分析单个细胞、细胞群或细胞群的子集中存在的rna转录物。特别地,在一些情况下,条形码寡核苷酸可以被配置为引发、复制并因此从单个细胞产生rna的条形码化片段。例如,在一些情况下,条形码寡核苷酸可包括mrna特异性引发序列,例如,允许在逆转录反应中引发和复制mrna的poly-t引物区段或其他靶向引发序列。替代地或另外地,可使用条形码寡核苷酸的随机n-mer引物区段进行随机rna引发。

图6提供了使用本文描述的方法在单个细胞中进行rna表达分析的一种示例性方法的示意图。如图所示,在操作602,分选含有细胞的样品的活细胞,将其定量并稀释以用于随后的分区。在操作604,将单个细胞分别与带有如本文所述的条形码化寡核苷酸的凝胶珠粒共分区。在操作606,将细胞裂解并且将条形码化寡核苷酸释放到分区中,在操作608,它们在分区中例如借助于与mrna的poly-a尾部互补的poly-t引物序列与mrna相互作用并杂交。使用poly-t条形码寡核苷酸作为引发序列,在操作610进行逆转录反应以合成包含条形码序列的mrna的cdna转录物。然后在操作612,对条形码化cdna转录物进行另外的扩增,例如使用聚合酶链反应(pcr)过程,在操作614进行纯化,然后将它们置于核酸测序系统上以用于测定cdna序列及其一个或多个缔合条形码序列。在一些情况下,如图所示,操作602至608可以在试剂保留在其原始液滴或分区中时发生,而操作612至616可以本体发生(例如,在分区外)。在分区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物汇集以完成操作612至616。在一些情况下,在乳液被破坏后,可以用核酸外切酶消化条形码寡核苷酸。引物消化后,核酸外切酶活性可以被乙二胺四乙酸(edta)抑制。在一些情况下,操作610可以基于逆转录混合物(例如逆转录酶和缔合试剂)的共分区在分区内进行,或者可以本体进行。

如本文其他地方所述,除寡核苷酸条形码序列外,条形码寡核苷酸的结构可包括许多序列元件。如上所述用于rna分析的条形码寡核苷酸的一个实例示出在图7中。如图所示,整个寡核苷酸702通过可释放键706(例如二硫接头)与珠粒704偶联。寡核苷酸可包括用于后续处理的功能序列,例如功能序列708,其可包括测序仪特异性流动池连接序列,例如用于illumina测序系统的p5序列,以及测序引物序列,例如用于illumina测序系统的r1引物中的一种或多种。条形码序列710包括在结构内,用于条形码化样品rna。mrna特异性引发序列,例如poly-t序列712也包括在寡核苷酸结构中。可以包括锚定序列区段714以确保poly-t序列在mrna的序列末端杂交。这种锚定序列可以包括核苷酸的随机短序列,例如1-mer、2-mer、3-mer或更长的序列,这将确保poly-t区段更可能在mrna的poly-a尾部的序列末端杂交。可以在寡核苷酸序列内提供另外的序列区段716。在一些情况下,此另外的序列提供唯一分子标识符(umi)序列区段,例如,作为随机序列(例如,随机n-mer序列),其在与单珠粒偶联的单个寡核苷酸之间有所不同,而条形码序列710在与单个珠粒拴接的寡核苷酸中可以是恒定的。此唯一序列用于提供捕获的起始mrna分子的唯一标识符,以允许定量原始表达的rna的数量。如应当理解的,尽管显示为拴接在珠粒表面上的单寡核苷酸,但是单个珠粒可以包括数十至数十万或甚至数百万个单个寡核苷酸分子,其中,如所述,条形码区段对于给定的珠粒来说可以是恒定的或相对恒定的,但是可变或唯一序列区段将在单个珠粒之间有所不同。此唯一分子标识符(umi)序列区段在寡核苷酸序列内可以包含5至约8个或更多个核苷酸。在一些情况下,唯一分子标识符(umi)序列区段的长度可以是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸或更长。在一些情况下,唯一分子标识符(umi)序列区段的长度可以是至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸或更长。在一些情况下,唯一分子标识符(umi)序列区段的长度可以是至多2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸或更短。

在操作中,并且参考图6和7,将细胞连同带有条形码的珠粒一起共分区并裂解,同时使条形码化寡核苷酸从珠粒中释放。然后释放的条形码寡核苷酸的poly-t部分与mrna的poly-a尾部杂交。然后poly-t区段引发mrna的逆转录以产生mrna的cdna转录物,但其包括条形码寡核苷酸的序列区段708-716中的每一个。同样,因为寡核苷酸702包括锚定序列714,所以其更可能在mrna的poly-a尾部的序列末端杂交并引发逆转录。在任何给定的分区内,单个mrna分子的所有cdna转录物将包括共同的条形码序列区段710。然而,通过包括唯一随机n-mer序列,在给定分区内由不同mrna分子制成的转录物将在此唯一序列处有所不同。这提供了即使在对给定分区的内容物进行任何后续扩增之后也可以识别的定量特征,例如,与共同条形码缔合的唯一区段的数量可以指示源自单分区,并且因此单细胞的mrna的量。如上所述,然后对转录物进行扩增、清除和测序以识别mrna的cdna转录物的序列,以及对条形码区段和唯一序列区段进行测序。

如本文其他地方所述,虽然描述了poly-t引物序列,但其他靶向或随机引发序列也可用于引发逆转录反应。在一些情况下,引物序列可以是基因特异性引物序列,其靶向用于逆转录的特定基因。在一些实施例中,此靶基因包含t细胞受体基因、b细胞受体基因或免疫球蛋白受体基因。同样地,尽管描述为将条形码化寡核苷酸连同裂解的细胞的内容物一起释放到分区中,但是应当理解,在一些情况下,凝胶珠粒结合的寡核苷酸可以用于杂交并捕获凝胶珠粒的固相上的mrna,以促进rna与其他细胞内容物的分离。

用于rna分析(包括信使rna(mrna,包括从细胞获得的mrna)分析)的条形码寡核苷酸的另一个实例示出在图9a中。如图所示,整个寡核苷酸902可以通过可释放键906(例如二硫接头)与珠粒904偶联。寡核苷酸可包括用于后续处理的功能序列,例如功能序列908,其可包括测序仪特异性流动池连接序列,例如用于illumina测序系统的p5序列,以及功能序列910,其可包括测序引物序列,例如用于illumina测序系统的r1引物结合位点。条形码序列912包括在结构内,用于条形码化样品rna。rna特异性(例如,mrna特异性)引发序列,例如poly-t序列914也包括在寡核苷酸结构中。可以包括锚定序列区段(未示出)以确保poly-t序列在mrna的序列末端杂交。可以在寡核苷酸序列内提供另外的序列区段916。此另外的序列可以提供唯一分子标识符(umi)序列区段,例如,作为随机n-mer序列,其在与单珠粒偶联的单个寡核苷酸之间有所不同,而条形码序列912在栓接到单个珠粒的寡核苷酸中可以是恒定的。如本文其他地方所述,此唯一序列可以用于提供捕获的起始mrna分子的唯一标识符,以允许定量原始表达的rna的数量,例如mrna计数。如应当理解的,尽管显示为拴接在珠粒表面上的单寡核苷酸,但是单个珠粒可以包括数十至数十万或甚至数百万个单个寡核苷酸分子,其中,如所述,条形码区段对于给定的珠粒来说可以是恒定的或相对恒定的,但是可变或唯一序列区段将在单个珠粒之间有所不同。

在细胞rna(例如,mrna)分析的示例性方法中并且参考图9a,将细胞连同带有条形码的珠粒、转换寡核苷酸924和其他试剂(例如逆转录酶、还原剂和dntp)一起共分区到分区(例如,乳液中的液滴)中。在操作950中,将细胞裂解,同时使条形码化寡核苷酸902从珠粒中释放(例如,通过还原剂的作用),然后释放的条形码寡核苷酸的poly-t区段914与从细胞释放的mrna920的poly-a尾部杂交。接下来,在操作952中,使用mrna作为模板在逆转录反应中延伸poly-t区段914,以产生与mrna互补的cdna转录物922,并且还包括条形码寡核苷酸的序列区段908、912、910、916和914中的每一个。逆转录酶的末端转移酶活性可以向cdna转录物(例如,polyc)添加另外的碱基。然后,转换寡核苷酸924可以与添加到cdna转录物中的另外的碱基杂交并促进模板转换。然后可以使用转换寡聚物924作为模板,通过cdna转录物922的延伸将与转换寡核苷酸序列互补的序列掺入cdna转录物922中。在任何给定的分区内,单个mrna分子的所有cdna转录物将包括共同的条形码序列区段912。然而,通过包括唯一随机n-mer序列916,在给定分区内由不同mrna分子制成的转录物将在此唯一序列处有所不同。如本文其他地方所述,这提供了即使在对给定分区的内容物进行任何后续扩增之后也可以识别的定量特征,例如,与共同条形码缔合的唯一区段的数量可以指示源自单分区,并且因此单细胞的mrna的量。在操作952之后,然后在操作954中用引物926(例如,pcr引物)扩增cdna转录物922。接下来,然后在操作956中纯化扩增产物(例如,通过固相可逆固定化(spri))。在操作958,然后剪切扩增产物,连接至另外的功能序列,并进一步扩增(例如,通过pcr)。功能序列可以包括测序仪特异性流动池连接序列930,例如用于illumina测序系统的p7序列,以及功能序列928,其可包括例如用于illumina测序系统的r2引物的测序引物结合位点,以及功能序列932,其可包括例如用于illumina测序系统的i7样品索引序列的样品索引。在一些情况下,操作950和952可以在分区中发生,而操作954、956和958可以在本体溶液中发生(例如,在分区外的汇集混合物中)。在分区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物汇集以完成操作954、956和958。在一些情况下,可以在分区中完成操作954。在一些情况下,在乳液被破坏后,可以用核酸外切酶消化条形码寡核苷酸。引物消化后,核酸外切酶活性可以被乙二胺四乙酸(edta)抑制。尽管就用于某些测序系统(例如illumina系统)的特定序列参考方面进行了描述,但应理解,对这些序列的参考仅用于说明目的,并且本文描述的方法可被配置用于与其他测序系统一起使用,这些系统结合在这些系统中使用的特异性引发、连接、索引和其他操作序列,例如可从iontorrent、oxfordnanopore、genia、pacificbiosciences、completegenomics等获得的系统。

在如图9a中所示的用于rna(例如,细胞rna)分析的条形码寡核苷酸的替代实例中,功能序列908可以是p7序列,功能序列910可以是r2引物结合位点。此外,功能序列930可以是p5序列,功能序列928可以是r1引物结合位点,并且功能序列932可以是illumina测序系统的i5样品索引序列。由这种条形码寡核苷酸生成的构建体的构型可有助于在测序期间最小化(或避免)对poly-t序列的测序。

图9b所示是rna分析的另一个示例方法,包括细胞mrna分析。在这种方法中,将转换寡核苷酸924与单个细胞和条形码化珠粒以及诸如逆转录酶、还原剂和dntp的试剂共分区到一个分区(例如乳液中的液滴)中。转换寡核苷酸924可以用另外的标签934标记,例如生物素。在操作951中,将细胞裂解,同时使条形码化寡核苷酸902(例如,如图9a中所示)从珠粒中释放(例如,通过还原剂的作用)。在一些情况下,序列908是p7序列,并且序列910是r2引物结合位点。在其他情况下,序列908是p5序列,并且序列910是r1引物结合位点。接下来,释放的条形码寡核苷酸的poly-t区段914与从细胞释放的mrna920的poly-a尾部杂交。在操作953中,然后使用mrna作为模板在逆转录反应中延伸poly-t区段914,以产生与mrna互补的cdna转录物922,并且还包括条形码寡核苷酸的序列区段908、912、910、916和914中的每一个。逆转录酶的末端转移酶活性可以向cdna转录物(例如,polyc)添加另外的碱基。然后,转换寡核苷酸924可以与cdna转录物杂交并促进模板转换。然后可以使用转换寡聚物924作为模板,通过cdna转录物922的延伸将与转换寡核苷酸序列互补的序列掺入cdna转录物922中。接下来,可以使用分离操作960将cdna转录物922与分区中的试剂和寡核苷酸分离。另外的标签934(例如,生物素)可以与相互作用标签936(例如链霉抗生物素蛋白)接触,所述相互作用标签936可以连接到磁珠938。在操作960,可以在操作955中扩增(例如,通过pcr)之前用下拉操作(例如,通过磁分离、离心)分离cdna,然后在操作957中纯化(例如,通过固相可逆固定化(spri)),并且在操作959中进一步处理(剪切,连接序列928、932和930以及随后的扩增(例如,通过pcr))。在序列908是p7序列且序列910是r2引物结合位点的一些情况下,序列930是p5序列,并且序列928是r1引物结合位点,并且序列932是i5样品索引序列。在序列908是p5序列且序列910是r1引物结合位点的一些情况下,序列930是p7序列,并且序列928是r2引物结合位点,并且序列932是i7样品索引序列。在一些情况下,如图所示,操作951和953可以在分区中发生,而操作960、955、957和959可以在本体溶液中发生(例如,在分区外的汇集混合物中)。在分区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物汇集以完成操作960。然后,在汇集转录物以进行处理之后,可以在操作960之后执行操作955、957和959。

图9c所示是rna分析的另一个示例方法,包括细胞mrna分析。在这种方法中,将转换寡核苷酸924与单个细胞和条形码化珠粒以及诸如逆转录酶、还原剂和dntp的试剂共分区到一个分区(例如乳液中的液滴)中。在操作961中,将细胞裂解,同时使条形码化寡核苷酸902(例如,如图9a中所示)从珠粒中释放(例如,通过还原剂的作用)。在一些情况下,序列908是p7序列,并且序列910是r2引物结合位点。在其他情况下,序列908是p5序列,并且序列910是r1引物结合位点。接下来,释放的条形码寡核苷酸的poly-t区段914然后与从细胞释放的mrna920的poly-a尾部杂交。接下来,在操作963中,然后使用mrna作为模板在逆转录反应中延伸poly-t区段914,以产生与mrna互补的cdna转录物922,并且还包括条形码寡核苷酸的序列区段908、912、910、916和914中的每一个。逆转录酶的末端转移酶活性可以向cdna转录物(例如,polyc)添加另外的碱基。然后,转换寡核苷酸924可以与cdna转录物杂交并促进模板转换。然后可以使用转换寡聚物924作为模板,通过cdna转录物922的延伸将与转换寡核苷酸序列互补的序列掺入cdna转录物922中。在操作961和操作963之后,在操作962中使mrna920和cdna转录物922变性。在操作964,第二链从具有另外的标签942(例如生物素)的引物940延伸,并与cdna转录物922杂交。同样在操作964中,生物素标记的第二链可以与相互作用标签936(例如链霉抗生物素蛋白)接触,所述相互作用标签936可以连接到磁珠938。可以在操作965中扩增(例如,通过聚合酶链反应(pcr))之前用下拉操作(例如,通过磁分离、离心)分离cdna,然后在操作967中纯化(例如,通过固相可逆固定化(spri)),并且在操作969中进一步处理(剪切,连接序列928、932和930以及随后的扩增(例如,通过pcr))。在序列908是p7序列且序列910是r2引物结合位点的一些情况下,序列930是p5序列,并且序列928是r1引物结合位点,并且序列932是i5样品索引序列。在序列908是p5序列且序列910是r1引物结合位点的一些情况下,序列930是p7序列,并且序列928是r2引物结合位点,并且序列932是i7样品索引序列。在一些情况下,操作961和963可以在分区中发生,而操作962、964、965、967和969可以本体发生(例如,在分区外)。在分区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物汇集以完成操作962、964、965、967和969。

图9d所示是rna分析的另一个示例方法,包括细胞mrna分析。在这种方法中,将转换寡核苷酸924与单个细胞和条形码化珠粒以及诸如逆转录酶、还原剂和dntp的试剂共分区。在操作971中,将细胞裂解,同时使条形码化寡核苷酸902(例如,如图9a中所示)从珠粒中释放(例如,通过还原剂的作用)。在一些情况下,序列908是p7序列,并且序列910是r2引物结合位点。在其他情况下,序列908是p5序列,并且序列910是r1引物结合位点。接下来,释放的条形码寡核苷酸的poly-t区段914然后与从细胞释放的mrna920的poly-a尾部杂交。接下来,在操作973中,然后使用mrna作为模板在逆转录反应中延伸poly-t区段914,以产生与mrna互补的cdna转录物922,并且还包括条形码寡核苷酸的序列区段908、912、910、916和914中的每一个。逆转录酶的末端转移酶活性可以向cdna转录物(例如,polyc)添加另外的碱基。然后,转换寡核苷酸924可以与cdna转录物杂交并促进模板转换。然后可以使用转换寡聚物924作为模板,通过cdna转录物922的延伸将与转换寡核苷酸序列互补的序列掺入cdna转录物922中。在操作966,可以使mrna920、cdna转录物922和转换寡核苷酸924变性,并且可以使cdna转录物922与用另外的标签946(例如生物素)标记的捕获寡核苷酸944杂交。在此操作中,与cdna转录物杂交的生物素标记的捕获寡核苷酸944可以与相互作用标签936(例如链霉抗生物素蛋白)接触,所述相互作用标签936可以连接到磁珠938。在使用下拉操作(例如,通过磁分离、离心)与其他物质(例如,过量的条形码化寡核苷酸)分离后,可以在操作975用引物926扩增(例如,通过pcr)cdna转录物,然后在操作977中进行纯化(例如,通过固相可逆固定化(spri))并且在操作979中进一步处理(剪切,连接序列928、932和930以及随后的扩增(例如,通过pcr))。在序列908是p7序列且序列910是r2引物结合位点的一些情况下,序列930是p5序列,并且序列928是r1引物结合位点,并且序列932是i5样品索引序列。在序列908是p5序列且序列910是r1引物结合位点的其他情况下,序列930是p7序列,并且序列928是r2引物结合位点,并且序列932是i7样品索引序列。在一些情况下,操作971和973可以在分区中发生,而操作966、975、977(纯化)和979可以本体发生(例如,在分区外)。在分区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物汇集以完成操作966、975、977和979。

图9e所示是rna分析的另一个示例方法,包括细胞rna分析。在此方法中,将单个细胞连同带有条形码的珠粒、转换寡核苷酸990和其他试剂(例如逆转录酶、还原剂和dntp)一起共分区到分区(例如乳液中的液滴)中。在操作981中,将细胞裂解,同时使条形码化寡核苷酸(例如,如图9a中所示的902)从珠粒中释放(例如,通过还原剂的作用)。在一些情况下,序列908是p7序列,并且序列910是r2引物结合位点。在其他情况下,序列908是p5序列,并且序列910是r1引物结合位点。接下来,释放的条形码寡核苷酸的poly-t区段然后与从细胞释放的mrna920的poly-a尾部杂交。接下来,在操作983,然后在逆转录反应中延伸poly-t区段,以产生与mrna互补的cdna转录物922,并且还包括条形码寡核苷酸的序列区段908、912、910、916和914中的每一个。逆转录酶的末端转移酶活性可以向cdna转录物(例如,polyc)添加另外的碱基。然后,转换寡核苷酸990可以与cdna转录物杂交并促进模板转换。可以将与转换寡核苷酸序列互补并包括t7启动子序列的序列掺入cdna转录物922中。在操作968,合成第二链,并且在操作970,可以通过t7聚合酶使用t7启动子序列以在体外转录中产生rna转录物。在操作985,可以纯化rna转录物(例如,通过固相可逆固定化(spri)),逆转录以形成dna转录物,并且可以针对每种dna转录物合成第二链。在一些情况下,在纯化之前,可以使rna转录物与dna酶(例如,dna酶i)接触以分解剩余的dna。在操作987,然后将dna转录物片段化并连接至另外的功能序列,例如序列928、932和930,并且在一些情况下,进一步扩增(例如,通过pcr)。在序列908是p7序列且序列910是r2引物结合位点的一些情况下,序列930是p5序列,并且序列928是r1引物结合位点,并且序列932是i5样品索引序列。在序列908是p5序列且序列910是r1引物结合位点的一些情况下,序列930是p7序列,并且序列928是r2引物结合位点,并且序列932是i7样品索引序列。在一些情况下,在去除一部分dna转录物之前,可以使dna转录物与rna酶接触以分解剩余的rna。在一些情况下,操作981和983可以在分区中发生,而操作968、970、985和987可以本体发生(例如,在分区外)。在分区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物汇集以完成操作968、970、985和987。

图9a至图9e的方法可用于与各种靶区一起使用。在一些实施例中,这些靶区是tcr、bcr和/或免疫球蛋白区。在这些实施例中,与珠粒偶联的寡核苷酸可包括具有靶向这些靶区(例如,恒定区)的序列的引物。例如,polyt引物区可以替代为基因特异性引物序列。

用于rna分析(包括信使rna(mrna,包括从细胞获得的mrna)分析)的条形码寡核苷酸的另一个实例示出在图10中。如图所示,整个寡核苷酸1002通过可释放键1006(例如二硫接头)与珠粒1004偶联。寡核苷酸可包括用于后续处理的功能序列,例如功能序列1008,其可包括测序仪特异性流动池连接序列,例如p7序列,以及功能序列1010,其可包括测序引物序列,例如r2引物结合位点。条形码序列1012包括在结构内,用于条形码化样品rna。rna特异性(例如,mrna特异性)引发序列,例如poly-t序列1014可包括在寡核苷酸结构中。可以包括锚定序列区段(未示出)以确保poly-t序列在mrna的序列末端杂交。可以在寡核苷酸序列内提供另外的序列区段1016。此另外的序列可以提供唯一分子标识符(umi)序列区段,如本文其他地方所述。可以包括另外的功能序列1020用于体外转录,例如t7rna聚合酶启动子序列。如应当理解的,尽管显示为拴接在珠粒表面上的单寡核苷酸,但是单个珠粒可以包括数十至数十万或甚至数百万个单个寡核苷酸分子,其中,如所述,条形码区段对于给定的珠粒来说可以是恒定的或相对恒定的,但是可变或唯一序列区段将在单个珠粒之间有所不同。

在细胞rna分析的示例性方法中并且参考图10,将细胞连同带有条形码的珠粒和其他试剂(例如逆转录酶、还原剂和dntp)一起共分区到分区(例如,乳液中的液滴)中。在操作1050中,将细胞裂解,同时使条形码化寡核苷酸1002从珠粒中释放(例如,通过还原剂的作用),然后释放的条形码寡核苷酸的poly-t区段1014与从mrna1020的poly-a尾部杂交。接下来,在操作1052,然后使用mrna作为模板在逆转录反应中延伸poly-t区段,以产生mrna的cdna转录物1022,并且还包括条形码寡核苷酸的序列区段1020、1008、1012、1010、1016和1014中的每一个。在任何给定的分区内,单个mrna分子的所有cdna转录物将包括共同的条形码序列区段1012。然而,通过包括唯一随机n-mer序列,在给定分区内由不同mrna分子制成的转录物将在此唯一序列处有所不同。如本文其他地方所述,这提供了即使在对给定分区的内容物进行任何后续扩增之后也可以识别的定量特征,例如,与共同条形码缔合的唯一区段的数量可以指示源自单分区,并且因此单细胞的mrna的量。在操作1054,合成第二链,并且在操作1056,可以通过t7聚合酶使用t7启动子序列以在体外转录中产生rna转录物。在操作1058,将转录物片段化(例如,剪切),连接至另外的功能序列,并逆转录。功能序列可以包括测序仪特异性流动池连接序列1030,例如p5序列,以及功能序列1028,其可包括测序引物,例如r1引物结合序列,以及功能序列1032,其可包括样品索引,例如i5样品索引序列。在操作1060,可以将rna转录物逆转录为dna,扩增dna(例如,通过pcr),并测序以识别mrna的cdna转录物的序列,以及对条形码区段和唯一序列区段进行测序。在一些情况下,操作1050和1052可以在分区中发生,而操作1054、1056、1058和1060可以本体发生(例如,在分区外)。在分区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物汇集以完成操作1054、1056、1058和1060。

在如图10中所示的用于rna(例如,细胞rna)分析的条形码寡核苷酸的替代实例中,功能序列1008可以是p5序列,功能序列1010可以是r1引物结合位点。此外,功能序列1030可以是p7序列,功能序列1028可以是r2引物结合位点,并且功能序列1032可以是i7样品索引序列。

用于rna分析(包括信使rna(mrna,包括从细胞获得的mrna)分析)的条形码寡核苷酸的另一个实例示出在图11中。如图所示,整个寡核苷酸1102通过可释放键1106(例如二硫接头)与珠粒1104偶联。寡核苷酸可包括用于后续处理的功能序列,例如功能序列1108,其可包括测序仪特异性流动池连接序列,例如p5序列,以及功能序列1110,其可包括测序引物序列,例如r1引物结合位点。在一些情况下,序列1108是p7序列,并且序列1110是r2引物结合位点。条形码序列1112包括在结构内,用于条形码化样品rna。可以在寡核苷酸序列内提供另外的序列区段1116。在一些情况下,此另外的序列可以提供唯一分子标识符(umi)序列区段,如本文其他地方所述。可以包括另外序列1114以促进模板转换,例如polyg。如应当理解的,尽管显示为拴接在珠粒表面上的单寡核苷酸,但是单个珠粒可以包括数十至数十万或甚至数百万个单个寡核苷酸分子,其中,如所述,条形码区段对于给定的珠粒来说可以是恒定的或相对恒定的,但是可变或唯一序列区段将在单个珠粒之间有所不同。

在细胞mrna分析的示例性方法中并且参考图11,将细胞连同微胶囊(例如,带有条形码化寡核苷酸的珠粒)、polyt序列和其他试剂(例如dna聚合酶、逆转录酶、寡核苷酸引物、dntp和还原剂)共分区到分区(例如,乳液中的液滴)中。分区可以用作反应体积。如本文其他地方所述,用作反应体积的分区可包括容器或器皿,例如孔、微孔、小瓶、管、纳米阵列基底中的通孔、或围绕内部流体中心或核心具有外部屏障的微囊泡、乳液或液滴。在一些实施方案中,分区包含水性流体在非水性连续相(例如油相)内的液滴。在分区内,可以将细胞裂解并且条形码化寡核苷酸可以从珠粒中释放(例如,通过还原剂或其他刺激的作用)。细胞裂解和条形码化寡核苷酸从微胶囊中的释放可以在分区(例如,乳液中的液滴)或反应体积中同时发生。在一些实施方案中,细胞裂解先于条形码化寡核苷酸从微胶囊中的释放。在一些实施方案中,条形码化寡核苷酸从微胶囊中的释放先于细胞裂解。

在细胞裂解和条形码化寡核苷酸从微胶囊中释放之后,可以对反应体积进行扩增反应以产生扩增产物。在示例性扩增反应中,如操作1150所示,polyt序列与从细胞释放的mrna1120的polya尾部杂交。接下来,在操作1152中,然后使用mrna作为模板在逆转录反应中延伸polyt序列,以产生与mrna互补的cdna转录物1122。逆转录酶的末端转移酶活性可以以模板无关的方式向cdna转录物(例如,polyc)添加另外的碱基。然后,添加到cdna转录物(例如polyc)中的另外的碱基可以与条形码化寡核苷酸的1114杂交。这可以促进模板转换,并且可以将与条形码化寡核苷酸互补的序列掺入cdna转录物中。在各种实施方案中,条形码化寡核苷酸不与模板多核苷酸杂交。

条形码化寡核苷酸在从微胶囊中释放后,可以以任何合适的浓度存在于反应体积中。在一些实施方案中,条形码化寡核苷酸以约0.2μm、0.3μm、0.4μm、0.5μm、1μm、5μm、10μm、15μm、20μm、25μm、30μm、35μm、40μm、50μm、100μm、150μm、200μm、250μm、300μm、400μm或500μm的浓度存在于反应体积中。在一些实施方案中,条形码化寡核苷酸以至少约0.2μm、0.3μm、0.4μm、0.5μm、1μm、5μm、10μm、15μm、20μm、25μm、30μm、35μm、40μm、50μm、100μm、150μm、200μm、250μm、300μm、400μm、500μm或更大的浓度存在于反应体积中。在一些实施方案中,条形码化寡核苷酸以至多约0.2μm、0.3μm、0.4μm、0.5μm、1μm、5μm、10μm、15μm、20μm、25μm、30μm、35μm、40μm、50μm、100μm、150μm、200μm、250μm、300μm、400μm或500μm的浓度存在于反应体积中。

可以进一步处理转录物(例如,扩增、除去部分、添加另外的序列等),并如本文其他地方所述进行表征。在一些实施方案中,直接对转录物进行测序。在一些实施方案中,进一步处理转录物(例如,移除部分、添加另外的序列等),然后测序。在一些实施方案中,对反应体积进行第二扩增反应以生成另外的扩增产物。转录物或第一扩增产物可用作第二扩增反应的模板。在一些实施方案中,用于第二扩增反应的引物包含条形码化寡核苷酸和polyt序列。在一些实施方案中,用于第二扩增反应的引物包含与细胞共分区的另外的引物。在一些实施方案中,直接对这些另外的扩增产物进行测序。在一些实施方案中,进一步处理这些另外的扩增产物(例如,除去部分、添加另外的序列等),然后测序。通过这种方法生成的扩增产物(例如,第一扩增产物和第二扩增产物)的构型可有助于在测序期间最小化(或避免)对poly-t序列的测序。

用于rna分析(包括细胞rna分析)的条形码寡核苷酸的另一个实例如图12a所示。如图所示,整个寡核苷酸1202通过可释放键1206(例如二硫接头)与珠粒1204偶联。寡核苷酸可包括用于后续处理的功能序列,例如功能序列1208,其可包括测序仪特异性流动池连接序列,例如p5序列,以及功能序列1210,其可包括测序引物序列,例如r1引物结合位点。在一些情况下,序列1208是p7序列,并且序列1210是r2引物结合位点。条形码序列1212包括在结构内,用于条形码化样品rna。可以在寡核苷酸序列内提供另外的序列区段1216。在一些情况下,此另外的序列可以提供唯一分子标识符(umi)序列区段,如本文其他地方所述。如应当理解的,尽管显示为拴接在珠粒表面上的单寡核苷酸,但是单个珠粒可以包括数十至数十万或甚至数百万个单个寡核苷酸分子,其中,如所述,条形码区段对于给定的珠粒来说可以是恒定的或相对恒定的,但是可变或唯一序列区段将在单个珠粒之间有所不同。在使用此条形码的细胞rna分析的示例性方法中,将细胞连同带有条形码的珠粒和其他试剂(例如rna连接酶和还原剂)一起共分区到分区(例如,乳液中的液滴)中。将细胞裂解,同时使条形码化寡核苷酸从珠粒中释放(例如,通过还原剂的作用)。然后可以通过rna连接酶将条形码化寡核苷酸连接到mrna转录物的5'末端,但在分区中。随后的操作可以包括纯化(例如,通过固相可逆固定化(spri))和进一步处理(剪切、功能序列的连接和随后的扩增(例如,通过pcr)),并且这些操作可以本体发生(例如,在分区外)。在分配区是乳液中的液滴的情况下,可以破坏乳液并将液滴的内容物合并用于另外的操作。

用于rna分析(包括细胞rna分析)的条形码寡核苷酸的另一个实例如图12b所示。如图所示,整个寡核苷酸1222通过可释放键1226(例如二硫接头)与珠粒1224偶联。寡核苷酸可包括用于后续处理的功能序列,例如功能序列1228,其可包括测序仪特异性流动池连接序列,例如p5序列,以及功能序列1230,其可包括测序引物序列,例如r1引物结合位点。在一些情况下,序列1228是p7序列,并且序列1230是r2引物结合位点。条形码序列1232包括在结构内,用于条形码化样品rna。引发序列1234(例如,随机引发序列)也可以包括在寡核苷酸结构中,例如随机六聚体。可以在寡核苷酸序列内提供另外的序列区段1236。在一些情况下,此另外的序列提供了唯一分子标识符(umi)序列区段,如本文其他地方所述。如应当理解的,尽管显示为拴接在珠粒表面上的单寡核苷酸,但是单个珠粒可以包括数十至数十万或甚至数百万个单个寡核苷酸分子,其中,如所述,条形码区段对于给定的珠粒来说可以是恒定的或相对恒定的,但是可变或唯一序列区段将在单个珠粒之间有所不同。在使用图12b的条形码寡核苷酸的细胞mrna分析的示例性方法中,将细胞与带有条形码的珠粒和其他试剂(例如逆转录酶、还原剂和dntp)共分区到分区(例如,乳液中的液滴)中。将细胞裂解,同时使条形码化寡核苷酸从珠粒中释放(例如,通过还原剂的作用)。在一些情况下,序列1228是p7序列,并且序列1230是r2引物结合位点。在其他情况下,序列1228是p5序列,并且序列1230是r1引物结合位点。随机六聚体的引发序列1234可以随机杂交细胞mrna。然后可以使用细胞的mrna作为模板在逆转录反应中延伸随机六聚体序列,以产生与mrna互补的cdna转录物,并且随机六聚体序列还包括条形码寡核苷酸的序列区段1228、1232、1230、1236和1234中的每一个。随后的操作可以包括纯化(例如,通过固相可逆固定化(spri)),进一步处理(剪切,功能序列的连接和随后的扩增(例如,通过pcr)),并且这些操作可以本体发生(例如,在分区外)。在分区是乳液中的液滴的情况下,可以破坏乳液并且将液滴的内容物汇集用于另外的操作。可连同携带条形码的珠粒共分区的其他试剂可包括阻断核糖体rna(rrna)的寡核苷酸和消化细胞中基因组dna和cdna的核酸酶。替代地,可以在另外的处理操作期间应用rrna去除剂。通过这种方法生成的构建体的构型可有助于在测序期间最小化(或避免)对poly-t序列的测序。

本文描述的单细胞分析方法也可用于分析整个转录组。返回参考图12b的条形码,引发序列1234可以是随机n-mer。在一些情况下,序列1228是p7序列,并且序列1230是r2引物结合位点。在其他情况下,序列1228是p5序列,并且序列1230是r1引物结合位点。在使用此条形码进行整个转录组分析的示例性方法中,将单个细胞连同带有条形码的珠粒、poly-t序列和其他试剂(例如逆转录酶、聚合酶、还原剂和dntp)共分区到分区(例如,乳液中的液滴)中。在此方法的操作中,将细胞裂解,同时使条形码化寡核苷酸从珠粒中释放(例如,通过还原剂的作用),并且使poly-t序列与细胞mrna的poly-a尾部杂交。在使用mrna作为模板的逆转录反应中,可以产生细胞mrna的cdna转录物。然后可以用rna酶将rna降解。然后,可以使条形码化寡核苷酸中的引发序列1234随机地与cdna转录物杂交。寡核苷酸可以类似于图3所示使用与珠粒和细胞共分区的聚合酶和其他延伸试剂延伸,以生成扩增产物(例如,条形码化片段),类似于图3中所示的示例性扩增产物(图f)。在一些情况下,可以对条形码化核酸片段进行进一步处理(例如,扩增、添加另外的序列、清除过程等,如本文其他地方所述),其特征在于例如通过序列分析。在此操作中,测序信号可以来自全长rna。

在一些实施方案中,可以将条形码序列附加到模板多核苷酸序列(例如,mrna)的3'末端。例如,如果期望分析模板多核苷酸的3'末端的序列,则可能需要这样的构型。

在一些实施方案中,可以将条形码序列附加到模板多核苷酸序列(例如,mrna)的5'末端。例如,如果期望分析模板多核苷酸的5'末端的序列,则可能需要这样的构型。

在一些实施方案中,可以将条形码序列附加到模板多核苷酸的第一子集的3'末端,并且可以将条形码序列附加到模板多核苷酸的第二子集的5'末端。在一些实施方案中,将模板多核苷酸的第一子集和模板多核苷酸的第二子集附加到相同分区中的条形码序列。在一些情况下,附加到模板多核苷酸的3'末端的条形码不同于附加到模板多核苷酸的5'末端的条形码。例如,与附加到5'末端的条形码相比,附加到3'末端的条形码可以具有不同的条形码序列。在一些情况下,附加到模板多核苷酸的3'末端的条形码具有与附加到模板多核苷酸的5'末端的条形码相同的条形码序列。在一些情况下,珠粒用于将条形码寡核苷酸递送至分区。不同的条形码可以连接到相同或不同的珠粒上。

可以通过任何合适的方法将条形码序列附加到模板多核苷酸序列的5'末端。在一些情况下,模板多核苷酸是信使rna(mrna)分子。可以通过在引物延伸反应中使用包含条形码序列的引物将条形码序列附加到模板多核苷酸序列的5'末端。例如,条形码可以存在于用于引物延伸反应的引物中,其中模板多核苷酸或其衍生物(例如扩增产物)用作引物延伸的模板。在一些情况下,条形码可以存在于参与引物延伸反应的模板转换寡核苷酸上。作为替代方案,通过将包含条形码序列的寡核苷酸直接连接到模板多核苷酸,可以将条形码序列附加到模板多核苷酸的5'末端。

在另一方面,本公开提供了一种使用包含条形码序列的引物和模板多核苷酸或其衍生物作为引物延伸的模板,通过引物延伸反应将条形码序列附加到模板多核苷酸序列的5'末端的方法。引物延伸反应可以在分区中发生。在一些实施方案中,将细胞或其核酸衍生物与能够引物延伸的引物和包含条形码序列的模板转换寡核苷酸共分区。能够引物延伸的引物可以与细胞的核酸或核酸衍生物杂交。在一些情况下,包含条形码序列的模板转换寡核苷酸可释放地连接至珠粒,例如凝胶珠粒。在一些实施方案中,将细胞或其核酸衍生物与具有与模板多核苷酸杂交的朝向3'末端的序列的引物、具有朝向5'末端的第一预定义序列的模板转换寡核苷酸和具有与之可释放地偶联的条形码化寡核苷酸的微胶囊(例如珠粒)共分区。在一些实施方案中,与珠粒偶联的寡核苷酸包括相同的条形码序列(例如,所有寡核苷酸共享相同的条形码序列)。在一些方面中,与珠粒偶联的寡核苷酸另外包括唯一分子标识符(umi)序列区段(例如,所有寡核苷酸具有不同的唯一分子标识符序列)。

在一个实施例中,图18显示了与珠粒偶联的条形码化寡核苷酸。如图所示,整个寡核苷酸1802通过可释放键1806(例如二硫接头)与珠粒1804偶联。寡核苷酸可包括用于后续处理的功能序列,例如功能序列1808,其可包括测序仪特异性流动池连接序列,例如p5序列,以及功能序列1810,其可包括测序引物序列,例如r1引物结合位点。在一些情况下,序列1808是p7序列,并且序列1810是r2引物结合位点。条形码序列1812可以包括在结构内,用于条形码化模板多核苷酸。可以选择功能序列以与各种不同的测序系统例如454测序、iontorrentproton或pgm、illuminax10等及其要求兼容。在许多情况下,条形码序列1812、功能序列1808(例如,流动池连接序列)和1810(例如,测序引物序列)对于连接于给定珠粒的所有寡核苷酸可以是共同的。条形码化寡核苷酸还可以包含用以促进模板转换的序列1816(例如,polyg序列)。在一些情况下,另外的序列提供了唯一分子标识符(umi)序列区段,如本文其他地方所述。可以存在于寡核苷酸中的一种或多种功能序列可以以任何合适的顺序排列。

尽管显示为拴接在珠粒表面上的单寡核苷酸,但是单个珠粒可以包括数十至数十万或甚至数百万个单个寡核苷酸分子,其中,如前文所述,条形码区段对于给定的珠粒来说可以是恒定的或相对恒定的。

在使用条形码寡核苷酸生成标记的多核苷酸的示例性方法中,将细胞或由其衍生的核酸与带有条形码化寡核苷酸的珠粒和诸如逆转录酶、poly-t引物、dntp和化学刺激(例如,还原剂)的试剂共分区到分区中。连接于珠粒的条形码化寡核苷酸可包含促进模板转换的序列(例如,polyg或ribog)。分区可以是乳液中的液滴。在分区中提供细胞的情况下,分区可以还包含裂解细胞的裂解试剂。

在珠粒是可降解或可破裂的珠粒的情况下,当与化学刺激(例如,还原剂)接触时,条形码化寡核苷酸可以从珠粒中释放。从珠粒中释放后,条形码化寡核苷酸可以以任何合适的浓度存在于分区中。在一些实施方案中,条形码化寡核苷酸以一定浓度存在于分区中,所述浓度适于生成足够产量的扩增产物用于下游加工和分析,包括但不限于测序衔接子连接和测序分析。

参考图19a,在1901a中,使具有poly-t序列1914a,并且在一些情况下,与例如测序或pcr引物结合的另外的序列1916a的寡核苷酸与靶mrna1920a退火。在1902a中,延伸寡核苷酸,产生反义链1922a,其在3'末端附加有多个胞苷。在1903a中,使条形码化寡核苷酸的模板转换序列1990a(例如,polyg或ribog)与反义链1922a的胞苷配对,并使用条形码化寡核苷酸作为模板延伸反义链。除ribog序列外,条形码化寡核苷酸还可包含额外的功能序列1908a、1912a和1910a。在一些情况下,条形码化寡核苷酸包含唯一分子标识符(umi,例如1908a)、条形码序列(例如1912a)和读取1序列(r1,例如1910a)。可以在分区(例如,液滴或孔)中执行操作1901a、1902a和1903a。在1902a和1903a中的延伸可以通过包含聚合酶活性的酶来促进。例如,延伸可以通过dna依赖性聚合酶或逆转录酶(例如,rna依赖性)促进。在一些实施方案中,延伸包括聚合酶链反应。在一些实施方案中,延伸包括逆转录。酶可以以模板独立的方式添加核苷酸。在一些情况下,以模板独立的方式将至少三个胞苷附加到cdna转录物的3'末端。

在1903a之后,核酸产物(例如,cdna产物)可以从分区中释放并进行进一步的加工反应,例如另外的扩增。在一些情况下,将核酸产物与来自其他分区的产物汇集,用于随后的本体处理。在一些情况下,可以对一部分扩增产物进行富集以获得对应于感兴趣的基因的核酸子集。

在一些情况下,获得对应于感兴趣的基因的核酸子集的富集包括一个或多个扩增反应。使用cdna分子作为模板,可以使用一种或多种基因特异性引物进行引物延伸。多种聚合酶中的任一种都可以在本文的实施方案中用于引物延伸,其非限制性实例包括外切核酸酶减去dna聚合酶i大(klenow)片段、phi29dna聚合酶、taqdna聚合酶、t4dna聚合酶、t7dna聚合酶等。可用于本文实施方案的聚合酶的其他实例包括热稳定聚合酶,包括但不限于嗜热栖热菌(thermusthermophilus)hb8;奥飞氏栖热菌(thermusoshimai);水管致黑栖热菌(thermusscotoductus);嗜热栖热菌1b21;嗜热栖热菌gk24;水生栖热菌(thermusaquaticus)聚合酶amplitaq(r)fs或taq(g46d;f667y)、taq(g46d;f667y;e6811)和taq(g46d;f667y;t664n;r660g);激烈火球菌(pyrococcusfuriosus)聚合酶;蛇发女怪热球菌(thermococcusgorgonarius)聚合酶;火球菌种gb-d聚合酶;深海嗜热古菌(thermococcussp.)(菌株9deg.n-7)聚合酶;嗜热脂肪芽孢杆菌(bacillusstearothermophilus)聚合酶;tsp聚合酶;黄栖热菌(thermusflavus)聚合酶;海岸栖热菌(thermuslitoralis)聚合酶;栖热菌z05聚合酶;δz05聚合酶(例如δz05金dna聚合酶);以及其突变体、变体或衍生物。在一些实施方案中,使用热启动聚合酶。热启动聚合酶是dna聚合酶的修饰形式,其可以通过在升高的温度下孵育来活化。

可以将另外的功能序列添加到核酸产物或其扩增产物中。另外的功能序列可以允许扩增或样品识别。这可能发生在分区中,或者可能是本体发生的。在一些情况下,可以将扩增产物剪切,连接到衔接子并扩增以添加另外的功能序列。在一些情况下,对富集和未富集的扩增产物均进行分析。

在使用图18的条形码寡核苷酸的细胞多核苷酸分析的示例性方法中,将细胞连同带有条形码化寡核苷酸的珠粒和其他试剂(例如逆转录酶、引物、寡核苷酸(例如模板转换寡核苷酸)、dntp和还原剂)共分区到分区(例如乳液中的液滴)中。在分区内,可以裂解细胞以产生多个模板多核苷酸(例如dna(例如基因组dna)、rna(例如mrna)等)。在一些情况下,使用与细胞共分区的裂解试剂裂解细胞。

在珠粒是可降解或可破裂的珠粒的情况下,条形码化寡核苷酸可以在施加如本文先前所述的刺激后从珠粒中释放。从珠粒中释放后,条形码化寡核苷酸可以以任何合适的浓度存在于分区中。在一些实施方案中,条形码化寡核苷酸以一定浓度存在于分区中,所述浓度适于生成足够产量的扩增产物用于下游加工和分析,包括但不限于测序衔接子连接和测序分析。在一些实施方案中,条形码化寡核苷酸的浓度受带有条形码的珠粒的负载能力或珠粒可递送的寡核苷酸的量的限制。

可以与细胞、带有条形码化寡核苷酸的珠粒等共分区的模板转换寡核苷酸可以以任何合适的浓度存在于分区中。在一些实施方案中,模板转换寡核苷酸以在扩增反应期间适合于有效模板转换的浓度存在于分区中。模板转换寡核苷酸的浓度可取决于用于液滴生成的试剂。在一些实施方案中,模板转换寡核苷酸是多个模板转换寡核苷酸之一。

在一些实施方案中,条形码化寡核苷酸和模板转换寡核苷酸以相似的浓度存在于分区中。在一些实施方案中,条形码化寡核苷酸和模板转换寡核苷酸可以以反映待使用每种寡核苷酸生成的扩增产物的所需量的比例存在。在一些实施方案中,模板转换寡核苷酸以比条形码化寡核苷酸高的浓度存在于分区中。这种浓度差异可能是由于带有条形码的珠粒的容量的限制。在一些实施方案中,当条形码化寡核苷酸在分区中是游离的(例如,不连接到珠粒上)时,反应体积中模板转换寡核苷酸的浓度是相同反应体积中条形码化寡核苷酸浓度的浓度的至少2倍、5倍、10倍、20倍、50倍、100倍、200倍或更多倍。

如图19b所示,可以对反应混合物进行扩增反应以产生第一扩增产物,所述反应混合物包含细胞的模板多核苷酸1920b和(i)引物1924b,其具有与模板多核苷酸杂交的朝向3'末端的序列(例如,polyt)和附加序列元件1900b和(ii)包含朝向5'末端的第一预定义序列1810的模板转换寡核苷酸1926b。在一些情况下,模板多核苷酸是具有polya尾部的mrna,并且与模板多核苷酸杂交的引物包含朝向3'末端的polyt序列,其与polya区段互补。第一预定义序列可包含衔接子序列、条形码序列、唯一分子标识符(umi)序列、引物结合位点和测序引物结合位点或其任何组合中的至少一种。在一些情况下,第一预定义序列1810是对于多个分区的所有分区来说共同的序列。例如,第一预定义序列可包含流动池连接序列、扩增引物结合位点或测序引物结合位点,并且第一扩增反应促进预定义序列连接到细胞的模板多核苷酸。在一些实施方案中,第一预定义序列包含引物结合位点。在一些实施方案中,第一预定义序列包含测序引物结合位点。在一些实施方案中,第一预定义序列包含条形码序列。如操作1950b所示,引物1924b的朝向3'末端的序列(例如,polyt)与模板多核苷酸1920b杂交。在第一扩增反应中,也共分区的延伸反应试剂例如逆转录酶、核苷三磷酸、辅因子(例如,mg2+或mn2+)可以使用细胞的核酸作为模板延伸引物1924b序列,以产生转录物(例如cdna转录物)1922b,其具有与引物退火的核酸的互补的片段。在一些情况下,逆转录酶具有末端转移酶活性,并且逆转录酶以模板独立方式向cdna转录物中添加另外的核苷酸,例如polyc。如操作1952b所示,模板转换寡核苷酸1926b,例如包含polyg序列的模板转换寡核苷酸,可以与cdna转录物1922b杂交并促进第一扩增反应中的模板转换。因此,转录物可包含引物1924b的序列、与细胞的模板多核苷酸互补的序列和与模板转换寡核苷酸互补的序列。

在多个分区中,引物和模板转换寡核苷酸可以是所有分区通用的。分区可以单独包含多于一个细胞、一个细胞、无细胞或源自细胞的核酸。在需要分析mrna的情况下,例如,引物可以包含至少一个能够杂交mrna的polya区段并且自其引发延伸反应的polyt区段。在需要分析多种多核苷酸的情况下,引物可以包含能够杂交各种多核苷酸模板并且在其上随机引发延伸反应的随机序列。由于模板转换可以在使用具有末端转移酶活性的酶的情况下发生,所以具有能够与所附加的碱基杂交的序列的模板转换寡核苷酸可以以与待分析的多核苷酸模板的序列无关的方式用于模板转换。在一些实施方案中,模板转换寡核苷酸可包含朝向5'末端的第一预定义序列,其不与模板特异性杂交。在一些实施方案中,期望分析特定基因。在此类情况下,引物可以包含能够与包含特定基因的模板杂交并且从其引发延伸反应的基因特异性序列。在一些实施方案中,要分析多个基因并且引物是多种引物之一。多种引物中的单个引物可以靶向不同的基因。多种引物中的每一种可以具有特定基因的序列。

在第一扩增反应之后,可以对第一扩增产物或转录物进行第二扩增反应以生成第二扩增产物。在一些情况下,要附加另外的序列(例如,功能序列,例如流动池连接序列、测序引物结合序列、条形码序列等)。第一和第二扩增反应可以在相同的体积中进行,例如在液滴或孔中。在一些情况下,在条形码化寡核苷酸存在下对第一扩增产物进行第二扩增反应,以生成具有条形码序列的第二扩增产物。条形码序列对于分区可以是唯一的,即,每个分区具有唯一条形码序列。条形码化寡核苷酸可包含至少一段模板转换寡核苷酸的序列和至少第二预定义序列。条形码化寡核苷酸上的模板转换寡核苷酸区段可促进条形码化寡核苷酸与转录物(例如cdna转录物)的杂交,以促进第二扩增产物的生成。除条形码序列外,条形码化寡核苷酸可包含第二定义序列,例如衔接子序列、唯一分子标识符(umi)序列、引物结合位点和测序引物结合位点或其任何组合中的至少一种。

在一些实施方案中,第二扩增反应使用第一扩增产物作为模板并且使用条形码化寡核苷酸作为引物。如操作1954b所示,条形码化寡核苷酸1928b上的模板转换寡核苷酸区段可以与具有与模板转换寡核苷酸互补的序列或从模板转换寡核苷酸拷贝的序列的cdna转录物或互补片段1922b的部分杂交。在第二扩增反应中,也共分区的延伸反应试剂,例如聚合酶、核苷三磷酸、辅因子(例如,mg2+或mn2+)可以使用第一扩增产物作为模板延伸引物序列,如操作1956b所示。第二扩增产物可包含第二预定义序列(例如,1808、1812和1810)、模板多核苷酸区段的序列(例如,mrna)和与引物互补的序列(例如,1924b)。在模板多核苷酸是mrna分子的情况下,自其衍生的扩增产物可以包含相应的dna序列,例如胸腺嘧啶而不是尿嘧啶碱基。

在一些实施方案中,第二扩增产物使用条形码化寡核苷酸作为模板并使用第一扩增产物的至少一部分作为引物。如操作1954b所示,具有与模板转换寡核苷酸互补的序列的第一扩增产物(例如,cdna转录物)的区段可以与包含至少一段模板转换寡核苷酸的序列的条形码化寡核苷酸区段杂交。在第二扩增反应中,也共分区的延伸反应试剂,例如聚合酶、核苷三磷酸、辅因子(例如,mg2+或mn2+)可以使用条形码化寡核苷酸作为模板延伸引物序列(例如,第一扩增产物),如操作1958b所示。第二扩增产物可包含引物序列(例如,1924b)、与模板多核苷酸(例如mrna)的序列互补的序列和与第二预定义序列互补的序列(例如,1808、1812和1810)。

在一些实施方案中,在居间纯化步骤的存在下,第二扩增反应在第一扩增反应之后进行。可以使用居间纯化步骤,例如,以从过量的试剂中纯化模板(例如,第一扩增产物),所述过量的试剂包括过量的引物,例如模板转换寡核苷酸。在一些实施方案中,在不存在居间纯化步骤的情况下进行扩增反应。在某些实施方案中,不进行居间纯化步骤,使得所有样品制备均在相同的反应体积中进行。在不存在居间纯化步骤的情况下,模板转换寡核苷酸可在第二扩增反应中与条形码化寡核苷酸竞争,因为条形码化寡核苷酸包含至少一段模板转换寡核苷酸。在第二扩增反应中模板转换寡核苷酸与条形码化寡核苷酸之间的竞争以产生另外的扩增产物可导致缺乏条形码序列的第二扩增产物。缺乏条形码序列的这种扩增产物可能是不合需要的,因为它们缺少可以提供模板的唯一识别信息的条形码序列。在一些实施方案中,如果模板转换寡核苷酸在反应体积中以比条形码化寡核苷酸高的浓度存在,那么模板转换寡核苷酸可以在第二扩增反应中胜过条形码化寡核苷酸。在条形码化寡核苷酸在反应体积中以比模板转换寡核苷酸低的浓度存在的情况下,可利用各种方法促进条形码化寡核苷酸在第二扩增反应中的使用,以生成具有条形码序列的扩增产物。

在一些实施方案中,在第二扩增反应期间,模板转换寡核苷酸不可用于引物延伸。在一些实施方案中,模板转换寡核苷酸在第二扩增反应之前降解。在一些实施方案中,模板转换寡核苷酸在第二扩增反应期间降解。模板转换寡核苷酸可包含核糖核酸(rna)。包含rna的模板转换寡核苷酸可以例如通过升高的温度或碱性条件被降解。在一些实施方案中,模板转换寡核苷酸包含至少10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%或95%rna。在一些实施方案中,模板转换寡核苷酸包含100%rna。在一些实施方案中,使用条形码化寡核苷酸的第二扩增反应的第一反应速率大于使用模板转换寡核苷酸的第二扩增的第二反应速率。

在一些实施方案中,与模板转换寡核苷酸相比,条形码化寡核苷酸可以在较高退火温度下与第一扩增产物杂交。例如,相比于第一扩增产物和模板转换寡核苷酸的解链温度,第一扩增产物和条形码化寡核苷酸的解链温度可较高。在此类情况下,第二扩增反应可以在一退火温度下进行,在所述退火温度下条形码化寡核苷酸能够与第一扩增产物杂交并且启动引物延伸,并且在所述退火温度下模板转换寡核苷酸不能与第一扩增产物杂交并且启动引物延伸。在一些实施方案中,第二扩增反应的引物退火温度比第一扩增反应的引物退火温度高至少约0.5℃、1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃或更多。解链温度的差异可以由模板转换寡核苷酸中存在修饰核苷酸引起。在一些实施方案中,模板转换寡核苷酸包含至少10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%或95%修饰核苷酸。在一些实施方案中,模板转换寡核苷酸包含100%修饰核苷酸。在一些实施方案中,解链温度的差异可以是条形码化寡核苷酸中存在修饰核苷酸的结果。在一些实施方案中,条形码化寡核苷酸包含至少10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%或95%修饰核苷酸。在一些实施方案中,条形码化寡核苷酸包含100%修饰核苷酸。修饰核苷酸包括但不限于2-氨基嘌呤、2,6-二氨基嘌呤(2-氨基-da)、反向dt、5-甲基dc、2'-脱氧肌苷、supert(5-羟基丁炔-2'-脱氧尿苷)、superg(8-氮杂-7-脱氮鸟苷)、锁核酸(lna)、解锁核酸(una,例如una-a、una-u、una-c、una-g)、iso-dg、iso-dc和2'氟代碱基(例如,氟代c、氟代u、氟代a和氟代g)。

在各种实施方案中,使用具有聚合酶活性的酶促进第一扩增反应。例如,第一扩增反应可以通过dna依赖性聚合酶或逆转录酶(例如,rna依赖性)促进。在一些实施方案中,第一扩增反应包括聚合酶链反应。在一些实施方案中,第一扩增反应包括逆转录。在各种实施方案中,使用具有聚合酶活性的酶促进第二扩增反应。例如,第二扩增反应可以通过dna依赖性聚合酶促进。在一些实施方案中,第二扩增反应包括聚合酶链反应。

在另一方面中,可以首先将包含mrna的模板多核苷酸逆转录为cdna(例如,模板多核苷酸的扩增产物)。可以使用逆转录酶和引物(例如poly-t引物)将mrna分子逆转录为cdna。在本文的实施方案中可用于逆转录的酶的非限制性实例包括hiv-1逆转录酶、m-mlv逆转录酶、amv逆转录酶、端粒酶逆转录酶以及其变体、修饰产物和衍生物。

然后可以使用cdna分子(例如,模板多核苷酸的扩增产物)作为模板,将具有条形码序列的基因特异性引物用于引物延伸。包含条形码的引物可以通过序列互补性与cdna分子杂交。使用cdna分子作为模板延伸引物可以产生包含模板多核苷酸序列和位于模板多核苷酸序列的5'末端的条形码序列的多核苷酸产物。多种聚合酶中的任一种都可以在本文的实施方案中用于引物延伸,其非限制性实例包括外切核酸酶减去dna聚合酶i大(klenow)片段、phi29dna聚合酶、taqdna聚合酶、t4dna聚合酶、t7dna聚合酶等。可用于本文实施方案的聚合酶的其他实例包括热稳定聚合酶,包括但不限于嗜热栖热菌hb8;奥飞氏栖热菌;水管致黑栖热菌;嗜热栖热菌1b21;嗜热栖热菌gk24;水生栖热菌聚合酶amplitaq(r)fs或taq(g46d;f667y)、taq(g46d;f667y;e6811)和taq(g46d;f667y;t664n;r660g);激烈火球菌聚合酶;蛇发女怪热球菌聚合酶;火球菌种gb-d聚合酶;深海嗜热古菌(菌株9deg.n-7)聚合酶;嗜热脂肪芽孢杆菌聚合酶;tsp聚合酶;黄栖热菌聚合酶;海岸栖热菌聚合酶;栖热菌z05聚合酶;δz05聚合酶(例如δz05金dna聚合酶);以及其突变体、变体或衍生物。在一些实施方案中,使用热启动聚合酶。热启动聚合酶是dna聚合酶的修饰形式,其可以通过在升高的温度下孵育来活化。这种聚合酶可用于例如进一步提高灵敏度、特异性和产量;和/或进一步改善低拷贝靶扩增。

在另一个方面中,通过将包含条形码序列的寡核苷酸直接连接到模板多核苷酸的5'末端,将条形码序列附加到模板多核苷酸序列的5'末端。将包含条形码序列的寡核苷酸连接到模板多核苷酸可以通过各种方法实现。在本文的一些实施方案中,将包含条形码序列的寡核苷酸连接至模板多核苷酸涉及酶,例如连接酶(例如,rna连接酶或dna连接酶)。在本文实施方案中可用于连接的酶的非限制性实例包括atp依赖性双链多核苷酸连接酶、nad+依赖性dna或rna连接酶和单链多核苷酸连接酶。可用于本文实施方案的连接酶的非限制性实例包括circligasei和circligaseii(epicenter;madison,wi)、大肠杆菌dna连接酶、丝状栖热菌(thermusfiliformis)dna连接酶、tthdna连接酶、水管致黑栖热菌dna连接酶(i和ii)、t3dna连接酶、t4dna连接酶、t4rna连接酶、t7dna连接酶、taq连接酶、ampligase(technologiescorp.)、vanc型连接酶、9°ndna连接酶、tspdna连接酶、dna连接酶i、dna连接酶iii、dna连接酶iv、sso7-t3dna连接酶、sso7-t4dna连接酶、sso7-t7dna连接酶、sso7-taqdna连接酶、sso7-大肠杆菌dna连接酶、sso7-ampligasedna连接酶和热稳定连接酶。连接酶可以是野生型、突变体同种型和基因工程变体。

在条形码寡核苷酸与包含mrna的模板多核苷酸连接的一些实施方案中,可以在连接之前处理mrna分子以产生5'单磷酸基团。可以采用任何合适的反应来产生5'单磷酸基团。例如,mrna分子可以用酶如焦磷酸水解酶处理。可用于本文实施方案的焦磷酸水解酶的实例是rna5'焦磷酸水解酶(rpph)。在一些情况下,除去分子5'末端的所有磷酸基团,并将单个磷酸基团加回到5'末端。在一些情况下,从三磷酸基团中除去两个磷酸基团以产生单磷酸。在一些情况下,单一酶既除去mrna分子上存在的磷酸基团又添加单磷酸基团。在一些情况下,第一酶除去mrna分子上存在的磷酸基团,并且第二酶添加单磷酸基团。在一些情况下,磷酸基团从mrna分子的5'末端除去,并且将5'末端腺苷酸化。在本文的实施方案中可用于5'腺苷酸化的酶包括mthrna连接酶。

在一些情况下,将包含条形码序列的寡核苷酸与分区(例如,液滴或孔)内的模板多核苷酸连接。在一些情况下,分区包含含有模板多核苷酸的多核苷酸样品、具有条形码序列的寡核苷酸、连接酶和用于连接的任何其他合适的试剂。连接酶可以实现包含条形码序列的寡核苷酸与模板多核苷酸在分区内的连接。在一些情况下,模板多核苷酸是mrna分子,并且与其连接的寡核苷酸是dna分子。在一些情况下,将包含条形码序列的寡核苷酸与模板多核苷酸在分区外连接。

在将包含条形码序列的寡核苷酸连接到模板多核苷酸(例如mrna多核苷酸)的5'末端之后,可以对条形码化模板进行进一步扩增。在一些情况下,在分区内进行一个或多个进一步的扩增反应。在一些情况下,在分区外进行一个或多个进一步的扩增反应。在一些情况下,将例如来自多个分区的多个条形码化mrna多核苷酸汇集并进行进一步本体处理。在一些实施方案中,对条形码化模板多核苷酸进行聚合酶链反应。在一些实施方案中,模板多核苷酸包含mrna,并且对条形码化模板多核苷酸进行逆转录,产生cdna转录物。在逆转录在分区中进行的实施方案中,分区可包含具有能够与条形码化mrna的poly-a区杂交的poly-t区的引物。在分区内,具有poly-t区的引物可以与条形码化模板杂交并在逆转录中启动引物延伸。在本文的实施方案中可用于逆转录的酶的非限制性实例包括hiv-1逆转录酶、m-mlv逆转录酶、amv逆转录酶、端粒酶逆转录酶以及其变体、修饰产物和衍生物。分区可以含有能够逆转录模板多核苷酸的逆转录酶,所述模板多核苷酸的5'末端连接到条形码化寡核苷酸。在逆转录本体进行的实施方案中,可将来自多个分区的多个条形码化mrna多核苷酸汇集用于本体处理。用于进行逆转录的反应体积可包括具有能够与条形码化mrna的poly-a区杂交的poly-t区的引物。在一些情况下,用于逆转录的引物还包含另外的元件,例如标签,其可用于例如分离cdna转录物。例如,通过用链霉抗生物素蛋白或能够结合生物素的其他分子进行纯化反应,可以从反应体积的组分(例如,过量引物、逆转录酶、条形码化mrna分子)中分离包含生物素标签的cdna转录物。

在生成条形码化模板多核苷酸或其衍生物(例如,扩增产物)之后,可以进行后续操作,包括纯化(例如,通过固相可逆固定化(spri))或进一步处理(例如,剪切,添加功能序列,和随后的扩增(例如,通过pcr))。可以通过连接添加功能序列,例如流动池序列。这些操作可以本体发生(例如,在分配区外)。在分区是乳液中的液滴的情况下,可以破坏乳液并且将液滴的内容物汇集用于另外的操作。可连同携带条形码的珠粒共分区的其他试剂可包括阻断核糖体rna(rrna)的寡核苷酸和消化细胞中基因组dna的核酸酶。替代地,可以在另外的处理操作期间应用rrna去除剂。通过这种方法生成的构建体的构型可有助于在测序期间最小化(或避免)poly-t序列的测序和/或对多核苷酸序列的5'末端进行测序。可以对扩增产物(例如第一扩增产物和/或第二扩增产物)进行测序以进行序列分析。

尽管已经单独讨论了利用各种条形码设计的操作,但是单个珠粒可以包括用于同时使用的各种设计的条形码寡核苷酸。

除了表征来自较大群体的单个细胞或细胞亚群之外,本文所述的方法和系统还可用于表征单个细胞,作为提供细胞群或其他生物群的总体概况的方式。各种应用需要评估细胞群内不同细胞或生物类型的存在和量化,包括例如微生物组分析和表征、环境测试、食品安全测试、流行病学分析,例如追踪污染等。特别地,上述分析方法可用于单独表征、测序和/或识别群体内的大量单个细胞。然后可以使用这种表征来组装起源群体的整体概况,其可以提供重要的预后和诊断信息。

例如,人类微生物组(包括例如肠、口腔、表皮微生物组等)的变化已经被识别为对不同病症或一般健康状态的诊断和预后。使用本文所述的单细胞分析方法和系统,可以同样表征、测序和识别整个群体中的单个细胞,并识别群体内可能指示诊断相关因子的变化。举例来说,细菌16s核糖体rna基因的测序已被用作细菌分类学上的分类的高度准确的方法。使用上述靶向扩增和测序方法可以提供对细胞群内单个细胞的识别。可以进一步定量群体内不同细胞的数量,以识别当前状态或状态随时间的变化。参见,例如,morgan等人,ploscomput.biol.,ch.12,2012年12月,8(12):e1002808,和ram等人,syst.biol.reprod.med.,2011年6月,57(3):162-170,其各自出于所有目的以引用方式整体并入本文。同样,感染或潜在感染的识别和诊断也可受益于本文所述的单细胞分析,例如,以识别存在于其他细胞或其他生物材料、细胞和/或核酸的大混合物中的微生物物种,包括上述环境,以及任何其他诊断相关的环境,例如脑脊髓液、血液、粪便或肠样品等。

上述分析也可特别用于通过分析不同抗性标记物/突变在给定样品的细胞群中的分布和概况,表征不同细胞或病原体(例如癌细胞、细菌病原体等)的潜在耐药性。另外,随着时间的推移表征这些标记物/突变在细胞群中的变化可以提供对特征为这种耐药性问题的各种疾病的进展、改变、预防和治疗的有价值的理解。

尽管关于细胞进行了描述,但应理解,本说明书中包括各种单个生物有机体或有机体组分中的任一种,包括例如细胞、病毒、细胞器、细胞内含物、囊泡等。另外,在提及细胞时,应当理解,这种提及包括任何类型的细胞,包括但不限于原核细胞、真核细胞、细菌、真菌、植物、哺乳动物或其他动物细胞类型、支原体、正常组织细胞、肿瘤细胞或任何其他细胞类型,无论是来自单细胞还是多细胞生物。

类似地,分析不同环境样品以剖析这些样品中存在的微生物、病毒或其他生物污染物,可以提供有关疾病流行病学的重要信息,并可能有助于预测疾病爆发、流行病和大范围流行。

如上所述,本文所述的方法、系统和组合物还可用于分析和表征单个细胞或细胞群的其他方面。在一个示例性方法中,提供了样品,其包含待分析和表征其细胞表面蛋白质的细胞。还提供了抗体、抗体片段或对针对细胞要表征的细胞表面蛋白或抗原(或其他细胞特征)具有结合亲和力的其他分子(在本文中也称为细胞表面特征结合基团)的文库。为了便于讨论,这些亲和基团在本文中称为结合基团。结合基团可包括报告分子,其指示结合基团所结合的细胞表面特征。特别地,对一种类型的细胞表面特征具特异性的结合基团类型将包含第一报告分子,而对不同细胞表面特征具特异性的结合基团类型将具有与其缔合的不同报告分子。在一些方面中,这些报告分子将包含寡核苷酸序列。基于寡核苷酸的报告分子提供了能够在序列方面产生显著多样性,同时还易于连接于大多数生物分子(例如抗体等)以及易于检测(例如使用测序或阵列技术)的优点。在示例性方法中,结合基团包括与其连接的寡核苷酸。因此,第一结合基团类型,例如针对第一类型的细胞表面特征的抗体,将具有与其缔合的具有第一核苷酸序列的报告寡核苷酸。不同的结合基团类型(例如对其他不同细胞表面特征具有结合亲和力的抗体)将具有与其缔合的包含不同核苷酸序列的报告寡核苷酸,例如具有部分或完全不同的核苷酸序列。在一些情况下,对于每种类型的细胞表面特征结合基团,例如抗体或抗体片段,报告寡核苷酸序列可以是已知的并且易于识别为与已知的细胞表面特征结合基团缔合。这些寡核苷酸可以直接与结合基团偶联,或者它们可以连接到珠粒、分子晶格例如线性、球状、交联或其他聚合物,或连接或以其他方式与结合基团缔合的其他框架,其允许将多个报告寡核苷酸连接到单个结合基团上。

在多个报告分子与单个结合基团偶联的情况下,此类报告分子可包含相同的序列,或者特定的结合基团将包括一组已知的报告寡核苷酸序列。在不同的结合基团之间,例如对不同的细胞表面特征具有特异性的结合基团,报告分子可以是不同的并且可归属于特定的结合基团。

报告基团与结合基团的连接可以通过各种直接或间接、共价或非共价缔合或连接中的任一种来实现。例如,在寡核苷酸报告基团与基于抗体的结合基团缔合的情况下,可以使用化学缀合技术(例如,可从innovabiosciences获得的lightning-抗体标记试剂盒),以及其他非共价连接机制,例如,使用具有抗生物素蛋白或链霉抗生物素蛋白接头的生物素化抗体和寡核苷酸(或包含一个或多个生物素化接头的珠粒,其与寡核苷酸偶联),将这种寡核苷酸共价连接至抗体或抗体片段的一部分。可获得抗体和寡核苷酸生物素化技术(参见,例如,fang等人,fluoride-cleavablebiotinylationphosphoramiditefor5'-end-labelingandaffinitypurificationofsyntheticoligonucleotides,nucleicacidsres.2003年1月15日;31(2):708-715,dna3'末端生物素化试剂盒,可从thermoscientific获得,其全部公开内容出于所有目的以全文引用的方式并入本文)。同样地,已经开发了蛋白质和肽生物素化技术并且容易获得(参见,例如,美国专利号6,265,552,其全部公开内容出于所有目的以全文引用的方式并入本文)。

根据所需报告分子的多样性或给定的分析、所采用的序列检测方案等,可以提供具有任何不同长度的报告寡核苷酸。在一些情况下,这些报告序列的长度可以大于约5个核苷酸、长度大于约10个核苷酸、长度大于约20、30、40、50、60、70、80、90、100、120、150或甚至200个核苷酸。在一些情况下,这些报告核苷酸的长度可以小于约250个核苷酸、长度小于约200、180、150、120、100、90、80、70、60、50、40或甚至30个核苷酸。在许多情况下,可以选择报告寡核苷酸以提供已经确定大小的条形码化产物,并且以其他方式配置以在测序系统上进行分析。例如,可以以理想地为特定测序系统产生所需长度的可序列化产物的长度提供这些序列。同样地,除了报告序列之外,这些报告寡核苷酸可以包括另外的序列元件,例如测序仪连接序列、测序引物序列、扩增引物序列或这些中任一个的补体。

在操作中,对于需要分析的任何细胞表面特征,将含有细胞的样品与结合分子及其缔合报告寡核苷酸一起孵育。孵育后,洗涤细胞以除去未结合的结合基团。洗涤后,将细胞连同上述携带条形码的珠粒一起分区到单独的分区(例如液滴)中,其中每个分区包括有限数量的细胞,例如在一些情况下,单细胞。在从珠粒中释放条形码后,它们将引发报告寡核苷酸的扩增和条形码化。如上所述,报告分子的条形码化复制物可另外包括功能序列,例如引物序列、连接序列等。

然后对条形码化报告寡核苷酸进行序列分析以识别哪些报告寡核苷酸与分区内的细胞结合。此外,还通过对缔合条形码序列进行测序,可以识别给定细胞表面特征可能来自与报告序列包括相同的条形码序列的其他不同细胞表面特征相同的细胞,即它们来源于相同的分区。

基于报告分子基于条形码序列的存在而从单个分区出来,然后可以从细胞群产生单个细胞的细胞表面概况。可以将单个细胞或细胞群的概况与其他细胞(例如,‘正常’细胞)的概况进行比较,以识别细胞表面特征的变化,这可以提供诊断相关信息。特别地,这些概况可特别用于诊断特征在于细胞表面受体的变化的各种病症,例如癌症和其他病症。

本公开还提供了用于减少单细胞5'基因表达测定中的非特异性引发的方法。在产生允许同时测量1)细胞条形码序列(条形码)、2)唯一分子标识符序列(umi)和3)mrna转录物的5'序列的测定中,一种策略是将这些序列置于连接于mrna转录物的5'末端的序列上,在本公开中,这可以通过将条形码和umi置于模板转换寡核苷酸(tso)上来实现。此寡核苷酸可以通过模板转换反应连接到第一链cdna上,其中逆转录(rt)酶1)由靶向mrna的3'末端的引物将信使rna(mrna)序列逆转录成第一链互补dna(cdna),2)将未模板化的胞苷添加到第一链cdna的5'末端,3)将模板转换为tso,其可含有与添加的胞苷杂交的3'胍或胍衍生物。结果是与tso序列互补的第一链cdna分子:细胞条形码、umi、胍和mrna的5'末端。

在一些情况下,tso可以与rt酶和细胞的总rna内容物共存于溶液中。如果tso是单链dna(ssdna)分子,那么其可以作为rt引物而不是作为模板转换底物参与。例如,鉴于超过90%的细胞总rna内容物包括非编码核糖体rna(rrna),这可能会产生条形码化副产物,其对5'基因表达或v(d)j测序分析无贡献,但会消耗测序读数,增加实现相同测序深度所需的成本。此外,如果将umi实现为随机物,那么在tso的3'末端存在这种随机物极大地增加了其充当rrna模板的引物的能力。

在一些情况下,可以使用通过在umi与末端ribog之间引入特定间隔区序列而不太可能用作rt引物的tso。另一种方法是设计并包括一组辅助阻断寡核苷酸,其可以与rrna杂交并防止tso的结合。

可以通过选择使针对所有人核糖体rna分子的(间隔区-ggg):rrna双链体的预测解链温度最小化的序列来优化间隔序列。

可以通过选择使针对所有人核糖体rna分子的(阻断区):rrna双链体的预测解链温度最大化的序列来优化阻断区序列。

本文提供通过在umi与末端ribog之间引入特定间隔区序列而不太可能用作rt引物的tso。另外,本文描述与rrna杂交并阻止tso的结合的辅助阻断寡核苷酸。

表1提供了通过选择使针对所有人核糖体rna分子的(间隔区-ggg):rrna双链体的预测解链温度最小化的序列来优化的间隔区序列的实例。

表2提供了通过选择使针对所有人核糖体rna分子的(阻断区):rrna双链体的预测解链温度最大化的序列来优化的阻断区序列的实例。

表3提供了全构建体条形码的实例。

x表示构成条形码序列的核苷酸。一个珠粒上的所有寡核苷酸可以具有相同的条形码序列,不同珠粒上的寡核苷酸可以具有不同的条形码序列。

n和w分别表示构成umi序列的{a,c,g,t}中的任一个和{a,t}中的任一个。umi在相同珠粒上的不同寡核苷酸之间可以是不同的。

n1是{a,c,g,t}中的任一个;n1位置,四种核苷酸的比率为25%、25%、25%和25%。

n2是{a,c,g,t}中的任一个;n2位置,四种核苷酸的比率为40%、10%、10%和40%。

在一些实例中,细胞条形码可以是作为从约737,000个序列的随机选择的具有16个碱基的序列。条形码的长度(16)可以改变。潜在条形码序列(737k)的多样性可以改变。条形码的定义性质可以改变,例如,其也可以是完全随机的(16个n)或半随机的(16个碱基来自核苷酸的偏态分布)。

规范的umi序列可以是具有10个核苷酸的随机物。umi的长度可以改变。umi的随机性质可以改变,例如,其可以是半随机的(碱基来自核苷酸的偏态分布)。在某一情况下,一个或多个umi核苷酸的分布可能有偏向;例如,不含g或c的umi序列可能不太可能充当引物。

间隔区可在给定或预定参数内改变。例如,一种方法可以给出tttcttatat的最佳序列,但是使用稍微不同的优化策略产生可能同样或几乎一样好的序列。

所选模板转换区可包括3个连续的ribog或更多个ribog。所选模板转换区可包括4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个连续的ribog或更多个ribog。可以使用替代核苷酸,例如脱氧ribog、lnag'以及其可能的任何组合。

本公开还提供了富集cdna序列的方法。富集可用于tcr、bcr和免疫球蛋白基因分析,因为这些基因可具有相似但多态的可变区序列。这些序列可以负责抗原结合和肽-mhc相互作用。例如,由于单个发育的t细胞中的基因重组事件,单个人或小鼠将天然地表达数千种不同的tcr基因。此t细胞组库可以在t细胞发育期间发生超过100,000种或更多种不同的tcr重排,产生就其tcr基因序列而言具有高度多态性的总t细胞群,特别是对于可变区。对于免疫球蛋白基因,同样适用,除了可能存在较大多样性之外。如前所述,每个不同的序列可以对应于克隆型。在某些实施方案中,富集增加了在单细胞水平上测序tcr、bcr和免疫球蛋白基因的方法的准确性和灵敏度。在某些实施方案中,富集增加了映射到tcr、bcr或免疫球蛋白基因的测序读数的数量。在一些实施方案中,富集导致映射到tcr、bcr或免疫球蛋白基因的大于或等于25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更多的总测序读数。在一些实施方案中,富集导致映射到tcr、bcr或免疫球蛋白基因的可变区的大于或等于25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更多的总测序读数。

为了帮助测序、检测和分析感兴趣的序列,可以采用富集步骤。富集可用于测序和分析可能相关但具有高度多态性的基因。在一些实施方案中,富集的基因包含tcr序列、bcr序列或免疫球蛋白序列。在一些实施方案中,富集的基因包含线粒体基因或细胞色素家族基因。在一些实施方案中,在第一轮逆转录(例如,cdna产生)后采用富集。在一些实施方案中,在第一轮逆转录和cdna扩增至少5、10、15、20、25、30、40或更多个循环后采用富集。在一些实施方案中,在cdna扩增后采用富集。在一些实施方案中,可以在富集步骤之前使用柱、凝胶提取或珠粒对扩增的cdna进行清除步骤,以除去未掺入的引物、未掺入的核苷酸、非常短或非常长的核酸片段和酶。在一些实施方案中,在对文库制备进行测序之前,进行富集,然后进行清除步骤。

通过在靶基因的已知序列内退火的引物可以促进基因或cdna序列的富集。在一些实施方案中,为了富集tcr、bcr或免疫球蛋白基因,与基因或cdna的恒定区退火的引物可以与与tso功能序列退火的测序引物配对。在一些实施方案中,富集的cdna落入大致对应于基因可变区的长度范围内。在一些实施方案中,大于约50%、60%、70%、80%、85%、90%、95%或更多的cdna或cdna片段落入约300个碱基对至约900个碱基对、约400个碱基对至约800个碱基对、约500个碱基对至约700个碱基对或约500个碱基对至约600个碱基对的范围内。

图20显示了示例性富集方案。在操作2001中,使具有poly-t序列2014,并且在一些情况下,与例如测序或pcr引物结合的另外的序列2016的寡核苷酸与靶rna2020退火。在操作2002中,延伸寡核苷酸,产生反义链2022,其在3'末端附加有多个胞苷。提供与凝胶珠粒2038连接的模板转换寡核苷酸,并且使tso的ribog与有义链的胞苷配对并延伸以产生有义链和反义链。在一些情况下,模板转换寡核苷酸在延伸期间从凝胶珠粒中释放。在一些情况下,模板转换寡核苷酸在延伸之前从凝胶珠粒中释放。在一些情况下,模板转换寡核苷酸在延伸后从凝胶珠粒中释放。除了ribog序列之外,tso还包括条形码2012和一个或两个另外的功能序列2008和2012。例如,另外的功能序列可以包含用于连接至illumina测序流动池的p7或r2序列。可以在分区(例如,液滴或孔)中执行操作2001和2002。在操作2002之后,可以将操作2001和2002的核酸产物从分区中移除,并且在一些情况下与其他分区的其他产物汇集用于后续处理。

接下来,可以添加允许扩增或样品识别的另外的功能序列。这可能发生在分区中或本体发生。此反应产生扩增的cdna分子,如在2003中,其是包含条形码和测序引物的混合模板。在一些情况下,并非所有这些cdna分子都包含靶可变区序列。在操作2004中示出的一种富集方案中,与tcr、bcr或免疫球蛋白可变区2020的序列3'退火的引物2018特异性扩增包含cdna的可变区,产生如操作2005中所示的产物。可以对本文描述的各种方法执行这种富集,比如,例如,上文在图19a和图19b的上下文中描述的方法。

在某些方面中,引物2018在tcr(例如,tcr-α或tcr-β)、bcr或免疫球蛋白基因的恒定区中退火。扩增后,剪切产物,连接衔接子并进行第二次扩增以添加另外的功能序列2007和2011以及样品索引2009,如操作2006中所示。另外的功能序列可以在功能上补充第一对2008和2010,并且包括例如p5或r1序列。图21示出cdna扩增后但富集前(a)、富集后但测序文库制备前(b)以及测序文库制备后(c)的示例性大小分布。在一些实施方案中,包含序列2016和2014的初始poly-t引物可以连接于凝胶珠粒而不是tso。在一些实施方案中,包含poly-t的引物包含功能序列和条形码序列2008、2010、2012,并且tso包含序列2016。可以本体执行操作2003-2006。

在一些实施方案中,来源于由细胞rna制备的cdna的下一代测序数据的克隆型信息与其他靶向或非靶向cdna富集组合,以阐明表达给定tcr、bcr或免疫球蛋白的b细胞和t细胞的功能和存在论方面。在一些实施方案中,将克隆型信息与免疫相关cdna的表达的分析组合。在一些实施方案中,cdna编码细胞谱系标记、细胞表面功能标记、免疫球蛋白同种型、细胞因子和/或趋化因子、细胞内信号传导多肽、细胞代谢多肽、细胞周期多肽、凋亡多肽、转录激活剂/抑制剂、mirna或lncrna。

本文还公开了用于无参考克隆型识别的方法和系统。这些方法可以通过软件执行算法来实现。用于组装t细胞受体(tcr)序列的工具可以使用已知的v和c区的序列来“锚定”组装体。这可能使这些工具仅适用于具有充分表征的参考物的生物(人和小鼠)。然而,大多数哺乳动物t细胞受体具有相似的氨基酸基序和相似的结构。在不存在参考物的情况下,方法可以对具有多样性或半多样性的区扫描组装的转录物,找到应具有高度多样性的连接区,然后扫描已知的氨基酸基序。在一些情况下,互补cdr(例如cdr1、cdr2或cdr3)区被准确定界不是关键的,仅发现可以唯一地识别克隆型的多样化序列。此方法的一个优点是软件可能不需要一组参考序列并且可以完全从头操作,因此此方法能够利用表征不佳的基因组/转录组在真核生物中进行免疫研究。

本文描述的方法允许同时获得具有单细胞免疫受体序列(tcr/bcr)的单细胞基因表达信息。这可以使用本文描述的方法实现,例如通过扩增与淋巴细胞功能和状态相关的基因(以靶向或非偏态方式),同时扩增tcr/bcr序列以用于克隆分型。这可以允许以下应用:1)在单克隆型或单细胞水平上询问淋巴细胞对抗原的激活/应答的变化;或者2)基于基因表达将淋巴细胞分类成亚型,同时对它们的tcr/bcr进行测序。在tcr(或通常转录组)组装期间通常忽略umi。

根据本文描述的方法参与克隆型测序的关键分析操作包括:1)分别组装每个umi,然后合并高度相似的组装序列。在tcr测序中每分子的高深度使得这是可行的。这可能导致“嵌合”组装体的机会减少;2)将每个细胞中的所有umi组装在一起,但使用umi信息以在组装图中选择路径。这类似于使用条形码和读取对信息来解析wgs组装中的“气泡”;3)碱基质量评估。umi信息和短读取的比对可用于组装重叠群以计算各位置碱基质量分数。碱基质量评分可能是重要的,因为cdr序列中的一些碱基差异可以将一种克隆型与另一种克隆型区分开。这可能与依赖于使用长读取测序的其他方法形成对比。

因此,组装的重叠群的碱基质量估计可以告知克隆型推断。错误可能使具有相同(真实)克隆型的细胞具有错配的组装序列。此外,结合碱基质量估计和克隆型丰度来纠正克隆型分配。例如,如果10个细胞具有克隆型x并且一个细胞具有与x仅相差几个碱基的克隆型并且这些碱基具有低质量,那么此细胞可以被指定为克隆型x。在一些实施方案中,可以区分相差单个氨基酸或核酸的克隆型。在一些实施方案中,可以区分相差小于50、40、30、20、15、10、9、8、7、6、5、4、3或2个氨基酸或核酸的克隆型。示例性非限制性基本错误计算方案在以下实施例vii中示出。

本文还提供了用于如上所述分区细胞的微流体设备。这种微流体设备可以包括用于执行分区过程的通道网络,如图1和2中所示的那些。简而言之,这些微流体设备可包括通道网络,例如本文所述的那些,用于将细胞分区到单独的分区中,并将这些细胞与寡核苷酸条形码文库成员(例如,设置在珠粒上)共分区。这些通道网络可以设置在限定了通道的固体主体例如玻璃、半导体或聚合物主体结构内,其中这些通道在其末端与用以从通道网络的输出接收各种输入流体,并且用于最终沉积分区细胞等的储存器连通。举例来说,并且参考图2,流体联接到通道202的储存器可以具有细胞214的水性悬浮液,而联接到通道204的储存器可以具有携带寡核苷酸的珠粒216的水性悬浮液。通道区段206和208可以具有非水性溶液,例如油,水性流体在通道汇合点212处作为液滴被分区到其中。最后,出口储存器可以流体联接到通道210,分区的细胞和珠粒可以被递送到其中,并且可以从中将它们收获。如应当理解的,虽然被描述为储存器,但是应当理解,通道区段可以联接到各种不同流体源或接收部件中的任一种,包括管道、歧管或其他系统的流体部件。

还提供了控制这些流体流动通过通道网络系统,例如通过施加的压力差、离心力、电动泵送、毛细管或重力流等。

本文还提供了用于分析单个细胞或小细胞群的试剂盒。所述试剂盒可包括一种、两种、三种、四种、五种或更多种、多至所有分区流体,包括水性缓冲液和非水性分区流体或油;与珠粒可释放地缔合的核酸条形码文库,如本文所述;微流体设备;用于破坏细胞扩增核酸,以及在细胞核酸片段或其复制品上提供另外的功能序列的试剂;以及在本文所述方法中使用任何前述物质的说明书。

本公开提供了被编程为实现本公开的方法的计算机控制系统。图17示出计算机系统1701,其被编程或以其他方式被配置成实施本公开的方法,包括核酸测序方法、对细胞核酸例如rna(例如mrna)的核酸测序数据和分析的解释以及由测序数据表征细胞。计算机系统1701可以是用户的电子设备或相对于电子设备远程定位的计算机系统。电子设备可以是移动电子设备。

计算机系统1701包括中央处理单元(cpu,在本文中也称为“处理器”和“计算机处理器”)1705,其可为单一核心或多核心处理器,或用于并行处理的多个处理器。计算机系统1701还包括存储器或存储单元1710(例如,随机存取存储器、只读存储器、闪速存储器),电子存储单元1715(例如,硬盘),与一个或多个其他系统通信的通信接口1720(例如,网络适配器),和外围设备1725,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器1710、存储单元1715、接口1720和外围设备1725经由通信总线(实线)诸如母板与cpu1705通信。存储单元1715可为用于存储数据的数据存储单元(或数据储存库)。计算机系统1701可借助于通信接口1720来可操作地耦接至计算机网络(“网络”)1730。网络1730可为互联网、互联网和/或外联网或与互联网通信的内部网和/或外联网。网络1730在一些情况下为电信和/或数据网络。网络1730可包括一个或多个计算机服务器,其可实现分布式计算,诸如云计算。网络1730在一些情况下借助于计算机系统1701,可实施对等网络,其可使得耦接至计算机系统1701的设备能够作为客户端或服务器来运作。

cpu1705可执行序列机器可读指令,所述指令可在程序或软件中具体实现。指令可存储于存储单元,诸如存储器1710中。指令可被引导至cpu1705,其可随后编程或另外配置cpu1705来实施本公开的方法。由cpu1705执行的操作的实例可包括撷取、解码、执行和写回。

cpu1705可为电路的一部分,诸如集成电路。系统1701的一个或多个其他部件可包含于电路中。在一些情况下,电路是专用集成电路(asic)。

存储单元1715可存储文件,诸如驱动程序、文库和保存程序。存储单元1715可存储使用者数据,例如,使用者偏好和使用者程序。计算机系统1701在一些情况下可包括一个或多个额外数据存储单元,所述单元在计算机系统1701外部,诸如位于经由内部网或互联网与计算机系统1701通信的远程服务器上。

计算机系统1701可经由网络1730与一个或多个远程计算机系统通信。例如,计算机系统1701可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式pc)、板式pc或平板pc(例如,ipad、galaxytab)、电话、智能电话(例如,iphone、支持android的设备、)或个人数字助理。用户可以经由网络1730访问计算机系统1701。

如本文描述的方法可经由机器(例如,计算机处理器)可执行代码来实施,所述代码存储于计算机系统1701的电子存储位置上,例如像,存储器1710或电子存储单元1715。机器可执行或机器可读代码可以软件形式提供。在使用期间,代码可由处理器1705执行。在一些情况下,代码可从存储单元1715撷取并且存储在存储器1710上准备由处理器1705访问。在一些情况下,可排除电子存储单元1715,并且机器可执行指令存储于存储器1710上。

代码可预先编译并且被配置来供具有适于执行代码的处理器的机器来使用,或可在执行时间期间加以编译。代码可以程序语言来提供,可选择所述程序语言以使得代码能够以预先编译或原样编译方式来执行。

本文提供的系统和方法,诸如计算机系统1701的各个方面可在程序编制中具体实现。技术的各个方面可被认为是通常呈机器(或处理器)可执行代码和/或相关数据形式的“产品”或“制品”,所述数据承载或具体实现于一定类型的机器可读介质中。机器可执行代码可存储于电子存储单元,诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”类型介质可包括计算机、处理器等的任何或所有有形存储器,或其相关联模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可在任何时候为软件编程提供非暂时性存储。软件的全部或一部分可有时经由互联网或各种其他电信网络来传送。这类通信,例如,可使得将软件从一个计算机或处理器加载至另一个计算机或处理器,例如,从管理服务器或主机计算机加载至应用服务器的计算机平台中。因此,可承载软件元件的另一种类型的介质包括光、电和电磁波,诸如跨越本地设备之间的物理接口、经由有线和光学陆地线网络和各种空中链路所使用的光、电和电磁波。携带这些波的物理元件,诸如有线或无线链路、光链路等也可被认为是承载软件的介质。如本文使用,除非限于非暂时性、有形“存储”介质,术语诸如计算机或机器“可读介质”是指参与提供指令至处理器供执行的任何介质。

因此,机器可读介质,诸如计算机可执行代码,可采用许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储器介质包括,例如,光盘或磁盘,诸如任何计算机等中的任何存储设备,诸如在附图中示出的可用于实施数据库等的存储设备。易失性存储器介质包括动态存储器,诸如这类计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光导纤维,包括构成计算机系统中的总线的导线。载波传输介质可采用电或电磁信号,或声或光波的形式诸如在射频(rf)和红外(ir)数据通信期间产生的信号。常见形式的计算机可读介质因此包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁介质、cd-rom、dvd或dvd-rom、任何其他光学介质、冲孔卡纸带、具有孔图案的任何其他物理存储器介质、ram、rom、prom和eprom、快闪eprom、任何其他存储器芯片或盒、运输数据或指令的载波、运输这类载波的电缆或链路,或计算机可读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可涉及运送一个或多个指令的一个或多个序列至处理器供执行。

计算机系统1701可包括电子显示器1735或与其通信,电子显示器1735包括用户界面(ui)1740,用于提供例如核酸测序的结果、核酸测序数据的分析、核酸测序样品的表征、细胞表征等。ui的实例包括但不限于图形用户界面(gui)和基于web的用户界面。

本公开的方法和系统可经由一个或多个算法来实施。算法可在由中央处理单元1705执行时经由软件来实施。此算法可以例如启动核酸测序、处理核酸测序数据、解释核酸测序结果、表征核酸样品、表征细胞等。

实施例

给出以下非限制性实施例,用以说明本公开的各种实施方案。

实施例i:使用乳液的细胞rna分析

在一个实施例中,在乳液液滴中进行利用模板转换的逆转录和cdna扩增(通过pcr),操作如图9a所示。被分区用于逆转录和cdna扩增(通过pcr)的反应混合物包括1,000个细胞、或10,000个细胞、或10ngrna;带有条形码化寡核苷酸/0.2%tx-100/5xkapa缓冲液的珠粒;2xkapahshifi预混合物;4μm转换寡核苷酸和smartscribe。在存在细胞的情况下,将混合物分区,使得大部分或全部液滴包含单细胞和单珠粒。将细胞裂解,同时条形码化寡核苷酸从珠粒中释放,并且条形码化寡核苷酸的poly-t区段与从细胞中释放的mrna的poly-a尾部杂交,如操作950。如操作952,poly-t区段在逆转录反应中延伸,并且如操作954,将cdna转录物扩增。热循环条件为在42℃下持续130分钟;在98℃下持续2分钟;并且以下35个循环:在98℃下持续15秒,在60℃下持续20秒,并且在72℃下持续6分钟。在热循环后,乳液破裂并且用dynabeads和0.6xspri纯化转录物,如操作956。

显示了针对图13a中的1,000个细胞和图13c中的10,000个细胞和图13b中的10ngrna的乳液中模板转换逆转录和pcr的产量(smartscribe线)。将针对10ngrna在乳液中进行的rt和pcr的cdna转录物剪切并连接到功能序列上,用0.8xspri清除,并通过pcr进一步扩增,如操作958。用0.8xspri清除扩增产物。此处理的产量如图13b所示(ssii线)。

实施例ii:使用乳液的细胞rna分析

在另一个实施例中,在乳液液滴中进行利用模板转换的逆转录和cdna扩增(通过pcr),操作如图9a所示。被分区用于逆转录和cdna扩增(通过pcr)的反应混合物包括jurkat细胞;带有条形码化寡核苷酸/0.2%tritonx-100/5xκ缓冲液的珠粒;2xκhshifi预混合物;4μm转换寡核苷酸和smartscribe。将混合物分区,使得大部分或全部液滴包含单细胞和单珠粒。将细胞裂解,同时条形码化寡核苷酸从珠粒中释放,并且条形码化寡核苷酸的poly-t区段与从细胞中释放的mrna的poly-a尾部杂交,如操作950。如操作952,poly-t区段在逆转录反应中延伸,并且如操作954,将cdna转录物扩增。热循环条件为在42℃下持续130分钟;在98℃下持续2分钟;并且以下35个循环:在98℃下持续15秒,在60℃下持续20秒,并且在72℃下持续6分钟。在热循环后,乳液破裂并且用dynabeads和0.6xspri清除转录物,如操作956。利用各种细胞数(625个细胞、1,250个细胞、2,500个细胞、5,000个细胞和10,000个细胞)的反应的产量显示在图14a中。用图14b中所示的gadphqpcr测定结果证实了这些产量。

实施例iii:使用乳液的rna分析

在另一个实施例中,在乳液液滴中进行逆转录,并以类似于图9c所示的方式本体进行cdna扩增。被分区用于逆转录的反应混合物包括带有条形码化寡核苷酸的珠粒、10ngjurkatrna(例如,jurkatmrna)、5x第一链缓冲液和smartscribe。条形码化寡核苷酸从珠粒中释放,并且条形码化寡核苷酸的poly-t区段与rna的poly-a尾部杂交,如操作961。如操作963,poly-t区段在逆转录反应中延伸。逆转录的热循环条件是在42℃下持续2小时的一个循环和在70℃下持续10分钟的一个循环。热循环后,乳液破裂,并且将rna和cdna转录物变性,如操作962。然后如操作964,利用具有生物素标签的引物通过引物延伸合成第二链。此引物延伸的反应条件包括作为第一链的cdna转录物和浓度为0.5-3.0μm的生物素化延伸引物。热循环条件是在98℃下持续3分钟的一个循环以及在98℃下持续15秒、在60℃下持续20秒和在72℃下持续30分钟的一个循环。引物延伸后,用dynabeadsmyone链霉抗生物素蛋白c1和t1下拉第二链,并用agilentsureselectxt缓冲液清除。第二链通过pcr如操作965进行预扩增,利用以下循环条件:在98℃下持续3分钟的一个循环以及在98℃下持续15秒、在60℃下持续20秒和在72℃下持续30分钟的一个循环。各种浓度的生物素化引物(0.5μm、1.0μm、2.0μm和3.0μm)的产量显示在图15中。

实施例iv:使用乳液的rna分析

在另一个实施例中,通过t7聚合酶的体外转录用于产生rna转录物,如图10所示。被分区用于逆转录的混合物包括带有条形码化寡核苷酸的珠粒(其还包括t7rna聚合酶启动子序列)、10ng人rna(例如人mrna)、5x第一链缓冲液和smartscribe。将混合物分区,使得大部分或全部液滴包含单珠粒。条形码化寡核苷酸从珠粒中释放,并且条形码化寡核苷酸的poly-t区段与rna的poly-a尾部杂交,如操作1050。如操作1052,poly-t区段在逆转录反应中延伸。热循环条件是在42℃下持续2小时的一个循环以及在70℃下持续10分钟的一个循环。在热循环之后,乳液破裂并且剩余的操作本体进行。然后如操作1054,通过引物延伸合成第二链。此引物延伸的反应条件包括作为模板的cdna转录物和延伸引物。热循环条件是在98℃下持续3分钟的一个循环以及在98℃下持续15秒、在60℃下持续20秒和在72℃下持续30分钟的一个循环。在此引物延伸后,用0.6xspri纯化第二链。如在操作1056中,然后进行体外转录以产生rna转录物。过夜进行体外转录,并用0.6xspri纯化转录物。体外转录的rna产量显示在图16中。

实施例v:t细胞受体(tcrs)的分析

在此实施例中,本文公开的方法用于测定t细胞受体。为了生成包含t细胞受体基因序列的标记的多核苷酸,将t细胞与包含条形码化模板转换寡核苷酸的凝胶珠粒共分区。在分区之前,任选地从细胞样品中富集t细胞,例如通过荧光活化细胞分选(facs)或其他分选技术。用于生成标记的多核苷酸的其他试剂(包括但不限于反转录酶、聚(dt)引物和dntp)作为主混合物的一部分被递送至分区。在分区内,将细胞裂解,从而产生包含t细胞的核酸的模板多核苷酸。如图19中示意性所示,对包含mrna的t细胞来源模板多核苷酸(例如,1920)、聚(dt)引物(例如,1924)和模板转换寡核苷酸(例如,1926)进行扩增反应,产生第一扩增产物。聚(dt)引物与mrna模板多核苷酸的polya尾部杂交,并且充当通过与t细胞共分区的逆转录酶进行逆转录的引物(例如,1950)。逆转录酶具有末端转移酶活性,并以模板独立的方式向cdna转录物中添加另外的核苷酸,例如polyc。模板转换寡核苷酸(例如,1926)与cdna转录物杂交并在第一扩增反应中促进模板转换(例如,1952)。

使用本文公开的方法,在分区内进行的逆转录产生无偏cdna,其包含测序衔接子、细胞条形码和转录物的5'末端上的唯一分子标识符(umi)。为了富集包含tcr基因序列的转录物,对第一扩增反应产物或cdna转录物进行第二扩增反应以生成第二扩增产物。聚合酶链反应(pcr)用用于转录物的5'末端的一种引物和用于所需tcr/ig恒定区的一种或多种引物(例如,靶向tcr阿尔法(α)和/或贝塔(β)链的引物,在某些情况下为伽马和/或德尔塔(γ/δ)链)进行。可以组合多个分区的内容物,使得第二扩增反应本体进行。

接下来,对扩增产物进行酶促片段化并进一步处理以连接测序衔接子以生成测序文库。另外的序列包括功能序列,例如流动池连接序列和测序引物结合序列。对标记的多核苷酸进行测序以产生测序读数,并使用测序读数来组装全部或部分tcr受体基因序列。另外的分析包括转录物计数,对此分析流水线可包括例如(i)条形码处理、(ii)读取过滤、(iii)逐细胞共有组装、(iv)v(d)j注释和(v)克隆型推断和聚类。

其他受体(例如,b细胞受体(bcr)和ig受体)可以使用本文所述的方法通过分区适当的免疫细胞类型以生成标记的多核苷酸并使用受体特异性引物以生成扩增产物来类似地分析。

实施例vi:t细胞受体(tcr)转录物的富集

在这个实施例中,将3,000、6000或12,000个原代人t细胞的细胞悬浮液负载在gemcode单细胞仪器(10xgenomics,pleasanton,ca)上,以生成单细胞-凝胶珠粒乳液(sc-gem)。修饰凝胶珠粒以在8μm下携带如图18或图20中所示的模板转换寡核苷酸(tso),在gem中产生0.32μm的最终浓度。在产生sc-gem后,使用poly-t引物和逆转录酶在55℃下进行5分钟,然后在52℃下进行1小时55分钟对乳液中的细胞进行逆转录。rt后,gem破裂,并且用myonetm硅烷珠粒和spriselect试剂盒(0.6xspri)清除单链cdna。将cdna在1分钟延伸的情况下扩增15个循环并且用spriselect试剂盒(0.6xspri)清除扩增的cdna产物。图22示出了所有三种细胞悬浮液的cdna产量。12,000个细胞的cdna产量大于产生相似的量的6,000或3,000个细胞的cdna产量。

使用gemcode单细胞3'文库试剂盒构建索引的测序文库,遵循以下步骤:1)末端修复和a-加尾;2)衔接子连接;3)用spriselect进行连接后清除;4)样品索引pcr和清除。使用illuminamiseq测序仪对这些测序文库进行测序。将poly-t引发文库的测序性能与通过使用富集引发方法产生的富集cdna文库构建的文库进行比较,所述富集引发方法用结合tcrα、tcrβ或两者的恒定区的引物取代poly-t引物。图23示出富集导致测序读数与转录组的映射减少(利用poly-t引发的不可映射读数为8.9%相对于tcrα引发的49.3%、tcrβ引发的45.7%或两者的39%)。然而,更多读数映射到tcr转录物的vdj区域,表明富集对于靶向vdj测序是重要的(利用poly-t引发的vdj可映射片段为0.3%相对于tcrα引发的15.5%、tcrβ引发的19.7%或两者的29.50%)。参见图23,映射到vdj栏的分数片段。

为了在测序文库制备之前增加cdna产量,测试了不同浓度的tso。在32、16、8、4、2、1和0.5μm的浓度下测试tso(其可以对应于800、400、200、100、50、25和12.5μm固定到凝胶珠粒上)。jurkatt细胞用于此实验,并且结果显示在图24中,其中cdna产量与tso浓度直接相关,并且在约16μm的浓度下稳定。使用如图25a所示的6,000个原代t细胞或如图25b所示的2,200个jurkat细胞,使用固定在凝胶珠粒上的tso(gb-tsto)重复这些实验。测试了8、20、100和200μm的gb-tso浓度,并且100和200μm的浓度显示出优于8和20μm的较低浓度的显著增加。

测试了不同的富集方案以确定最佳富集方法。使用非gem方案,使用poly-t引发由3,000个原代t细胞制备cdna,然后使用与tcr恒定区退火的引物进行富集,产生38.5%vdj可映射读数,此富集的定量显示在图26a中。在乳液-逆转录反应(gem-rt)方案中使用凝胶珠粒,使用poly-t引发和tso浓度为8、100或200μm的凝胶珠粒由6,000个原代t细胞制备cdna,然后使用两阶段嵌套方法进行富集。这种嵌套富集包括pcr,其使用与tcrα和β退火的与p7引物配对的外部引物,循环10次,使用60℃延伸,然后进行pcr,其使用与tcrα和β退火的与p7引物配对的内部引物,循环10次,使用60℃延伸。其结果显示在图26b中,其中使用较低浓度的凝胶珠粒(8μm)显示出最大量的富集。

为了进一步优化富集,在使用p7引物与可变区特异性引物以及恒定区引物组合进行cdna扩增之间进行比较。使用的引物序列示于表4中。

使用poly-t引发进行gem-rt,然后使用8μmtso-gb进行模板转换,接着进行清除、15个循环的cdna扩增和20个循环的富集。图27a至图27c中显示的结果显示,相比于与恒定区引物配对的p7引物,使用v区引物以及恒定区引物特异性地富集tcrα(图27b)和tcrβ序列(图27c)。图28进一步显示通过增加tso-gb的量(从8μm到200μm),相比于一般富集(28a和b;p7引物+c区引物),使用特异性富集(28c和d;v区+c区引物),特异富集产物的产量增加。这与使用p7-恒定区引物富集观察到的情况相反,后者在gem-rt反应中需要使用较少的tso-gb(8μm)来产生更富集的产物。总体而言,使用p7恒定区富集允许在随后的测序反应中保留条形码信息。此配置产生至少30%的可映射到vdj基因的读数。

实施例vii:生成标记的多核苷酸

在该实施例中,并参考图29a和29b,在包含凝胶珠粒乳液(gem)的分区中使单个细胞裂解。例如,gem可以是包含凝胶珠粒的水性液滴。在gem内,包含mrna分子的模板多核苷酸可以通过逆转录酶和包含聚(dt)区的引物逆转录。存在于gem中的模板转换寡核苷酸(tso),例如通过凝胶珠粒递送的tso,可以促进模板转换,使得由逆转录产生的多核苷酸产物或cdna转录物包含引物序列、mrna分子序列的反向补体以及与模板转换寡核苷酸互补的序列。模板转换寡核苷酸可包含另外的序列元件,例如唯一分子标识符(umi)、条形码序列(bc)和读取1序列。参见图29a。在一些情况下,将细胞的多个mrna分子在gem内逆转录,产生具有各种核酸序列的多种多核苷酸产物。逆转录后,可以对多核苷酸产物进行本体靶向富集。在靶向富集之前,可以任选地对多核苷酸产物进行另外的反应以产生双链多核苷酸。靶标可包含t细胞和/或b细胞受体基因序列的vdj序列。如图29a右图上部所示,可使用与读取1区杂交的引物和与受体序列(例如,tcr或bcr)的恒定区(c)的第一区杂交的第二引物,对多核苷酸产物(显示为双链分子,但可任选为单链转录物)进行第一靶向富集聚合酶链反应(pcr)。可以对第一靶标富集pcr的产物进行第二任选的靶标富集pcr。在第二靶标富集pcr中,可以使用与受体的恒定区(c)的第二区杂交的第二引物。在一些情况下,此第二引物可以与恒定区的更接近于第一靶标富集pcr中使用的引物的vdj区的区杂交。在第一和第二(任选的)靶标富集pcr之后,可以进一步处理所得的多核苷酸产物以添加可用于下游分析(例如测序)的另外序列。可以对多核苷酸产物进行片段化、末端修复、a加尾、衔接子连接和一个或多个清除/纯化操作。

在一些情况下,可以对cdna扩增的多核苷酸产物的第一子集进行靶标富集(图29b,右图),并且不对cdna扩增的多核苷酸产物的第二子集进行靶标富集(图29b,左下图)。可以对第二子集进行进一步处理而不进行富集以产生未富集的、测序便利的多核苷酸群。例如,可以对第二子集进行片段化、末端修复、a加尾、衔接子连接和一个或多个清除/纯化操作。

然后可以对标记的多核苷酸进行测序分析。富集的多核苷酸的测序读数可以产生关于细胞中mrna分子的特定群的序列信息,而富集的多核苷酸可以产生关于细胞中各种mrna分子的序列信息。

实施例viii:碱基错误计算

此实施例的所有计算用于单碱基。假设转录物与umi之间存在1-1关系,术语转录物和umi将可互换使用。令d是给定碱基的所有观测数据(读数、质量、umi)并且du,u=1,...,m是umiu的数据。令r是给定位置的真实模板碱基,并且tu是转录物/umiu上给定位置的(未观察到的)碱基。令rui和rui是基于umiu的第i个读数的真实碱基(测序前错误)和观察到的(测序后错误)碱基并且qui是相应的碱基质量。令prt是rt错误的概率,并且ppcr是pcr错误的概率。令ps(q)=10-q/10也是测序错误的概率,假定碱基质量为q。最后,令l={a,c,g,t}。在真实的模板碱基下,转录物是条件独立的,并且在转录物的碱基下,转录物的读数是条件独立的(即错误完全彼此独立地发生)。下面,可以通过对给定位置处的转录物u的未观察到的值c和此位置处的每个读数的(也是未观察到的)真实值d求和来导出等式i。

等式i

如果假设ppcr可忽略不计(与测序和rt错误相比),即测序碱基rui总是等于转录物碱基tu,则可导出等式ii的简化形式如下。

等式ii

令x是此位置的被称碱基(即组装序列中的碱基)。错误的概率是:

本公开的设备、系统、组合物和方法可用于各种应用,比如例如,处理单细胞的单个分析物(例如,rna、dna或蛋白质)或多种分析物(例如,dna和rna、dna和蛋白质、rna和蛋白质、或rna、dna和蛋白质)。例如,将生物颗粒(例如,细胞或细胞珠)分区在分区(例如,液滴)中,并处理生物颗粒的多种分析物以用于后续处理。多种分析物可以来自单细胞。这可以实现例如对细胞的蛋白质组、转录组和基因组同时分析。

尽管文中已经示出和描述了本发明的一些实施方案,但是对于本领域技术人员来说明显的是,此类实施方案仅被提供作为实例。本发明不旨在受到本说明书中提供的具体实施例限制。尽管已经参考上述说明书描述本发明,但本文中的实施方案的描述和说明不意图以限制意义解释。本领域技术人员现在将想到许多变化、改变和替换而不偏离本发明。此外,应当理解,本发明的所有方面均不限于本文所述的具体描述、配置或相对比例,其取决于多种条件和变量。应当理解的是,可以在实践本发明时采用在本文中描述的本发明的实施方案的各种替代方案。因此,预期本发明还应涵盖任何此类替代方案、修改、变型或等同物。所意图的是,以下权利要求限定本发明的范围以及由此涵盖这些权利要求及其等同物范围内的方法和结构。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1