具有减少的扩增偏倚的高通量单细胞测序的制作方法

文档序号:20888155发布日期:2020-05-26 17:41阅读:539来源:国知局
相关申请的交叉引用本申请要求2018年5月17日提交的美国临时申请序列号62/673,023和2019年3月21日提交的美国临时申请序列号62/821,864的权益,其各自通过引用全部合并于此。政府支持本发明是在美国国立卫生研究院授予的dp1hg007811号政府资助下完成的。政府拥有本发明的某些权利。本公开的实施方案涉及核酸测序。特别地,本文提供的方法和组合物的实施方案涉及产生索引的单细胞测序文库并从中获得用于表征稀有事件(包括交换(crossover)和染色体错误分离事件)的序列数据。在一些实施方案中,该方法涉及在单细胞水平上解析癌症异质性。
背景技术
::当代的单细胞基因组测序技术有两个主要限制。首先,大多数方法需要对单个细胞区室化,这可能限制通量。第二,大多数扩增方法是基于pcr的,且因此存在指数扩增偏倚。为了解决第一个问题,我们和同事们开发了单细胞组合索引(“sci-”),其中执行数轮分割-合并条码化以唯一地标记单细胞的核酸内容物,从而实现每一个相继的索引轮次通量的指数增长。已成功开发出sci-方法来分析大量单细胞中的染色质可及性(sci-atac-seq)、转录组(sci-rna-seq)、基因组(sci-dna-seq)、甲基化组(sci-met)、染色体构象(sci-hi-c)(cao等,2017,science357:661–667;cusanovich等,2015,science,348:910-914;mulqueen等,2018,nat.biotechnol.36:428-431;ramani等,2017,nat.methods14:263-266;vitak等,2017,nat.methods14:302-308)。为了解决第二个问题,通过基于t7的转录的线性扩增提供了一种可能的解决方案,其先前已用于单细胞分析的情况中(eberwine等,1992;proceedingsofthenationalacademyofsciences89:3010-3014;hashimshony等,2012,cellrep.2:666-673;sos等,2016,genomebiolol.,17:20)。例如,最近,chen等人开发了通过转座子插入的线性扩增(“lianti”),其使用tn5转座子使基因组片段化,并同时插入用于体外转录(ivt)的t7rna启动子。从dna模板产生的rna拷贝不能用作进一步扩增的模板。因此,所有拷贝直接来源于原始dna模板。通过避免指数扩增,lianti保持均匀性并使序列错误最小化。但是,该方法是低通量的,因为它需要从每个单细胞制备系列文库(chen等,2017,science356:189-194)。技术实现要素:本文描述了整合单细胞组合索引和线性扩增以最小化扩增偏倚而同时实现通量的指数增长的方法。通过多轮分子条码化,该方法将每实验的通量提高到至少数千个和可能数百万个细胞,同时保留了线性扩增的优势。发明人通过单细胞全基因组测序(“sci-l3-wgs”)、靶向基因组测序(“sci-l3-靶-seq”)及基因组和转录组的共分析(“sci-l3-rna/dna”)的概念验证演示证明了该方法的普遍适用性。作为进一步的证明,单细胞全基因组测序应用于定位来自不育的、种间(b6xspretus)f1雄性小鼠以及可育的、种内(b6xcast)f1雄性小鼠的不成熟和成熟雄性生殖细胞中前所未有数量的减数分裂交换和稀有染色体错误分离事件。定义除非另有说明,否则本文中使用的术语应理解为具有相关领域中的普通含义。本文列出本文中使用的几个术语及其含义。如本文所用,术语“生物体”、“受试者”可互换使用,并且是指微生物(例如原核或真核的)、动物和植物。动物的例子是哺乳动物,例如人。如本文所用,术语“细胞类型”旨在基于形态、表型、发育起源或其他已知或可识别的区别性细胞特征来鉴定细胞。可以从单个生物体(或从相同物种的生物体)获得多种不同的细胞类型。示例性细胞类型包括但不限于配子(包括雌配子,例如卵或卵细胞,和雄配子,例如精子)、卵巢上皮、卵巢成纤维细胞、睾丸、膀胱、免疫细胞、b细胞、t细胞、自然杀伤细胞、树突状细胞、癌细胞、真核细胞、干细胞、血细胞、肌肉细胞、脂肪细胞、皮肤细胞、神经细胞、骨细胞、胰腺细胞、内皮细胞、胰腺上皮、胰腺α、胰腺β、胰腺内皮、骨髓淋巴母细胞、骨髓b淋巴母细胞、骨髓巨噬细胞、骨髓成红细胞、骨髓树突状、骨髓脂肪细胞、骨髓骨细胞、骨髓软骨细胞、早幼粒细胞、骨髓原巨核细胞、膀胱、脑b淋巴细胞、脑神经胶质、神经元、脑星形胶质细胞、神经外胚层、脑巨噬细胞、脑小胶质细胞、脑上皮、皮质神经元、脑成纤维细胞、乳腺上皮、结肠上皮、结肠b淋巴细胞、乳腺上皮、乳腺肌上皮、乳腺成纤维细胞、结肠肠上皮细胞、子宫颈上皮、乳腺导管上皮、舌上皮、扁桃体树突状、扁桃体b淋巴细胞、外周血成淋巴细胞、外周血t成淋巴细胞、外周血皮肤t淋巴细胞、外周血自然杀伤、外周血b淋巴母细胞、外周血单核细胞、外周血成肌细胞、外周血成单核细胞、外周血早幼粒细胞、外周血巨噬细胞、外周血嗜碱性粒细胞、肝内皮、肝肥大、肝上皮、肝b淋巴细胞、脾内皮、脾上皮、脾b淋巴细胞、肝脏肝细胞、肝脏、成纤维细胞、肺上皮、支气管上皮、肺成纤维细胞、肺b淋巴细胞、肺雪旺氏细胞、肺鳞状、肺巨噬细胞、肺成骨细胞、神经内分泌、肺泡、胃上皮和胃成纤维细胞。如本文所用,术语“组织”旨在表示一起发挥作用以在生物体中执行一种或多种具体功能的细胞的集合或聚集体。细胞可以任选地在形态上相似。示例性组织包括但不限于胚胎、附睾、眼睛、肌肉、皮肤、肌腱、静脉、动脉、血液、心脏、脾脏、淋巴结、骨骼、骨髓、肺、支气管、气管、肠、小肠、大肠、结肠、直肠、唾液腺、舌头、胆囊、阑尾、肝脏、胰腺、脑、胃、皮肤、肾脏、输尿管、膀胱、尿道、性腺、睾丸、卵巢、子宫、输卵管、胸腺、垂体、甲状腺、肾上腺或甲状旁腺。组织可以源自人类或其他生物体的多种器官中的任何一种。组织可以是健康组织或不健康组织。不健康组织的例子包括但不限于生殖组织、肺、乳腺、结肠直肠、前列腺、鼻咽、胃、睾丸、皮肤、神经系统、骨骼、卵巢、肝脏、血液组织、胰腺、子宫、肾脏、淋巴组织等的恶性肿瘤。恶性肿瘤可以是多种组织学亚型,例如癌、腺癌、肉瘤、纤维腺癌、神经内分泌或未分化的。如本文所用,术语“核小体”是指染色质的基本重复单元。人类基因组由压实在平均直径约10μm的细胞核内的几米dna组成。在真核细胞细胞核中,dna被包装成核蛋白复合物,称为染色质。核小体(染色质的基本重复单元)通常包括约146个碱基对的dna,其在核心组蛋白八聚体周围包绕约1.7次。组蛋白八聚体由组蛋白h2a、h2b、h3和h4各自的两个拷贝组成。核小体以成串的珠的方式沿dna规则间隔。如本文所用,术语“隔室”旨在表示将某物与其他事物分离或隔离的区域或体积。示例性的隔室包括但不限于小瓶、管、孔、液滴、大丸、珠、容器、表面特征或通过诸如流体流、磁性、电流等物理力分开的区域或体积。在一个实施方案中,隔室是多孔板的孔,例如96或384孔板。如本文所用,液滴可以包括水凝胶珠,其是用于包封一个或多个细胞核或细胞的珠,并且包括水凝胶组合物或基于液滴的微流体装置。在一些实施方案中,液滴是水凝胶材料的均质小滴或具有聚合物水凝胶壳的中空小滴。不论是均质的还是中空的,液滴可能能够包封一个或多个细胞核或细胞。如本文所用,“转座体复合物”是指整合酶和包括整合识别位点的核酸。“转座体复合物”是能够催化转座反应的由转座酶和转座酶识别位点形成的功能性复合物(参见,例如,gunderson等人,wo2016/130704)。整合酶(integrationenzyme)的实例包括但不限于整合酶(intergrase)或转座酶。整合识别位点的实例包括但不限于转座酶识别位点。如本文所用,术语“核酸”旨在与其在本领域中的使用一致,并且包括天然存在的核酸或其功能类似物。特别有用的功能类似物能够以序列特异性的方式与核酸杂交,或者能够用作复制特定核苷酸序列的模板。天然存在的核酸通常具有包含磷酸二酯键的主链。类似物结构可具有替代的主链连接,包括本领域已知的多种主链中的任一种。天然存在的核酸通常具有脱氧核糖(例如在脱氧核糖核酸(dna)中发现的)或核糖(例如在核糖核酸(rna)中发现的)。核酸可包含本领域已知的这些糖部分的多种类似物中的任何类似物。核酸可包括天然或非天然碱基。在这方面,天然脱氧核糖核酸可以具有选自由腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤的一种或多种碱基,而核糖核酸可以具有选自由腺嘌呤、尿嘧啶、胞嘧啶或鸟嘌呤的一种或多种碱基。可以包含在核酸中的有用的非天然碱基是本领域已知的。非天然碱基的实例包括锁核酸(lna)、桥核酸(bna)和伪互补碱基(trilinkbiotechnologies,sandiego,ca)。lna和bna碱基可掺入到dna寡核苷酸中,并增加寡核苷酸杂交的强度和特异性。lna和bna碱基以及此类碱基的用途是本领域技术人员已知的并且是常规的。如本文所用,术语“靶”当用于指核酸时,在本文所提出的方法或组合物的情况中旨在作为核酸的语义标识,并且不一定限制核酸的结构或功能超出另外明确指示的范围。靶核酸基本上可以是已知或未知序列的任何核酸。例如,它可以是基因组dna(例如,染色体dna)的片段、染色体外dna(如质粒)、无细胞dna、rna(例如rna或非编码rna)、蛋白质(例如,细胞或细胞表面蛋白)或cdna。测序可导致确定靶分子全部或部分的序列。靶可以源自初级核酸样品,例如细胞核。在一个实施方案中,可以通过将通用序列置于每个靶片段的一个或两个末端上将靶标处理成适合扩增的模板。靶还可以通过逆转录成cdna从初级rna样品获得。在一个实施方案中,靶用于指细胞中存在的dna、rna或蛋白质的子集。靶向测序通常通过pcr扩增(例如,区域特异性引物)或基于杂交的捕获方法(例如,使用捕获探针)或抗体来使用目标基因或区域或蛋白质的选择和分离。靶向富集可以发生在方法的各个阶段。例如,可以在逆转录步骤中使用靶特异性引物或使用来自更复杂文库中的子集的基于杂交的富集获得靶rna表示。一个例子是外显子组测序或l1000分析(subramanian等人,2017,cell,171;1437-1452)。靶向测序可以包括本领域普通技术人员已知的任何富集过程。如本文所用,术语“通用”当用于描述核苷酸序列时,是指两个或更多个核酸分子共有的序列区域,其中所述分子也具有彼此不同的序列区域。存在于分子集合的不同成员中的通用序列可以允许使用通用捕获核酸的群体捕获多个不同的核酸,例如捕获与通用序列的一部分(例如通用捕获序列)互补的寡核苷酸。通用捕获序列的非限制性实例包括与p5和p7引物相同或互补的序列。类似地,存在于分子集合的不同成员中的通用序列可以允许使用与通用序列的一部分(例如,通用锚序列)互补的通用引物群体来复制(例如测序)或扩增多个不同的核酸。通用锚序列的非限制性实例包括与间隔区如sp1和sp2序列相同或互补的序列。在一个实施方案中,通用锚序列用作通用引物(例如,用于阅读片段1或阅读片段2的测序引物)与其退火以进行测序的位点。因此,捕获寡核苷酸或通用引物包括可以与通用序列特异性杂交的序列。当涉及通用捕获序列或捕获寡核苷酸时,可以使用术语“p5”和“p7”。术语“p5’”(p5撇号)和“p7’”(p7撇号)分别指p5和p7的互补序列。应理解的是,任何合适的通用捕获序列或捕获寡核苷酸可用于本文提出的方法中,并且p5和p7的使用仅是示例性的实施方案。如wo2007/010251、wo2006/064199、wo2005/065814、wo2015/106941、wo1998/044151以及wo2000/018957的公开所举例说明的,捕获寡核苷酸如p5和p7或其互补序列在流动池上的使用是本领域已知的。例如,任何合适的正向扩增引物,无论是固定的还是在溶液中,可用于本文提出的方法中用于与互补序列杂交和序列扩增。类似地,任何合适的反向扩增引物,无论是固定的还是在溶液中,可用于本文提出的方法中用于与互补序列杂交和序列扩增。本领域技术人员将理解如何设计和使用适用于捕获和/或扩增本文所述核酸的引物序列。如本文所用,术语“引物”及其衍生物通常是指可以与目标靶序列杂交的任何核酸。通常,引物充当核苷酸可通过聚合酶聚合到其上或核苷酸序列(例如索引)可与其连接的底物;然而,在一些实施方案中,引物可并入合成的核酸链中,并提供另一引物可与之杂交以启动与合成的核酸分子互补的新链的合成的位点。引物可以包括核苷酸或其类似物的任何组合。在一些实施方案中,引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文中可互换使用以指任何长度的核苷酸的聚合形式,并且可以包括核糖核苷酸、脱氧核糖核苷酸,其类似物或它们的混合物。该术语应理解为等同地包括由核苷酸类似物制成的dna、rna、cdna或抗体-寡聚体缀合物的类似物,并且适用于单链(例如有义或反义)和双链多核苷酸。如本文所用,该术语还涵盖cdna,其是从rna模板产生(例如通过逆转录酶的作用)的互补或副本dna。该术语仅指分子的一级结构。因此,该术语包括三链、双链和单链脱氧核糖核酸(“dna”),以及三链、双链和单链核糖核酸(“rna”)。如本文所用,术语“接头(adapter)”及其衍生词,例如通用接头,通常是指可以连接至本公开的核酸分子的任何线性寡核苷酸。在一些实施方案中,接头基本上与样品中存在的任何靶序列的3'端或5'端不互补。在一些实施方案中,合适的接头长度在约10-100个核苷酸,约12-60个核苷酸或约15-50个核苷酸的范围内。通常,接头可以包括核苷酸和/或核酸的任何组合。在一些方面,接头可在一个或多个位置处包括一个或多个可切割基团。在另一方面,接头可以包括与引物例如通用引物的至少一部分基本上相同或基本上互补的序列。在一些实施方案中,接头可以包括条码(在本文中也称为标签或索引)以辅助下游纠错、鉴别或测序。术语“衔接子(adaptor)”和“接头”可互换使用。如本文所使用的,术语“每个(各个)”当用于指项目集合时,旨在确认该集合中的单个项目,但不一定指该集合中的每一个项目,除非上下文另有明确规定。如本文所用,术语“转运”是指分子通过流体的运动。该术语可包括被动转运,例如分子沿其浓度梯度的运动(例如被动扩散)。该术语还可以包括主动转运,从而分子可以沿着其浓度梯度或逆着其浓度梯度移动。因此,转运可包括施加能量以使一个或多个分子沿期望的方向移动或移动至期望的位置,例如扩增位点。如本文所用,“扩增”、“扩增的”或“扩增反应”及其衍生词通常是指至少一部分核酸分子由此被复制或拷贝到至少一个另外的核酸分子中的任何作用或过程。另外的核酸分子任选地包括与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可以是单链或双链的,且另外的核酸分子可以独立地是单链或双链的。扩增任选地包括核酸分子的线性或指数复制。在一些实施方案中,可以使用等温条件进行此类扩增;在其他实施方案中,这种扩增可以包括热循环。在一些实施方案中,扩增是多重扩增,其包括在单个扩增反应中多个靶序列的同时扩增。在一些实施方案中,“扩增”包括单独地或组合地扩增基于dna和rna的核酸的至少一些部分。扩增反应可以包括本领域普通技术人员已知的任何扩增方法。在一些实施方案中,扩增反应包括聚合酶链反应(pcr)。如本文所用,“扩增条件”及其衍生词通常是指适于扩增一个或多个核酸序列的条件。这样的扩增可以是线性的或指数的。在一些实施方案中,扩增条件可包括等温条件或可选地可包括热循环条件,或者等温和热循环条件的组合。在一些实施方案中,适合于扩增一个或多个核酸序列的条件包括聚合酶链反应(pcr)条件。通常,扩增条件是指足以扩增核酸,例如通用序列侧邻的一个或多个靶序列,或扩增与一个或多个接头连接的扩增靶序列的反应混合物。通常,扩增条件包括用于扩增或用于核酸合成的催化剂,例如聚合酶;具有与待扩增核酸某种互补性水平的引物;和核苷酸,如三磷酸脱氧核糖核苷酸(dntps),以在一旦与核酸杂交时促进引物的延伸。扩增条件可能需要引物与核酸杂交或退火、引物的延伸以及其中延伸的引物与正进行扩增的核酸序列分离的变性步骤。通常,但非必须,扩增条件可包括热循环;在一些实施方案中,扩增条件包括其中退火、延伸和分离的步骤重复的多个循环。通常,扩增条件包括阳离子如mg2+或mn2+,且还可以包括离子强度的各种调节剂。如本文所用,“再扩增”及其衍生词通常是指扩增的核酸分子的至少一部分由此通过任何合适的扩增过程进一步扩增的任何过程(在一些实施方式中称为“二次”扩增),从而产生再扩增的核酸分子。二次扩增不必与扩增的核酸分子由此产生的原始扩增过程相同;再扩增的核酸分子也不需要与扩增的核酸分子完全相同或完全互补;所需要的只是再扩增的核酸分子包括扩增的核酸分子或其互补序列的至少一部分。例如,再扩增可涉及使用与初级扩增不同的扩增条件和/或不同的引物,包括不同的靶特异性引物。如本文所用,术语“聚合酶链反应”(“pcr”)是指mullis的美国专利号4,683,195和4,683,202的方法(其描述了一种增加基因组dna混合物中目的多核苷酸的片段的浓度而无需克隆或纯化的方法)。这一用于扩增目的多核苷酸的方法包括将大量过量的两种寡核苷酸引物引入包含所需目的多核苷酸的dna混合物中,然后在dna聚合酶存在下进行一系列热循环。这两个引物与目的双链多核苷酸的其相应链互补。混合物首先在较高温度下变性,然后引物与目的多核苷酸分子内的互补序列退火。退火后,引物用聚合酶延伸以形成一对新的互补链。变性、引物退火和聚合酶延伸的步骤可以重复多次(称为热循环)以获得高浓度的所需目的多核苷酸的扩增片段。所需的目的多核苷酸的扩增片段(扩增子)的长度通过引物相对于彼此的相对位置确定,且因此该长度是可控的参数。通过重复该过程,该方法称为pcr。由于目的多核苷酸的所需扩增片段成为混合物中的主要核酸序列(就浓度而言),它们被称为“pcr扩增的”。在对以上讨论的方法的改进中,可以使用多个不同的引物对,在某些情况下,每个目的靶核酸分子一个或多个引物对,对靶核酸分子进行pcr扩增,从而形成多重pcr反应。如本文所定义,“多重扩增”是指使用至少一个靶特异性引物对样品中的两个或更多个靶序列进行选择性和非随机扩增。在一些实施方案中,进行多重扩增以使得一些或全部靶序列在单个反应容器内被扩增。给定的多重扩增的“多层(plexy)”或“多重(plex)”通常是指在该单一多重扩增期间扩增的不同靶特异性序列的数目。在一些实施方案中,所述多重可以是约12-重、24-重、48-重、96-重、192-重、384-重、768-重、1536-重、3072-重、6144-重或更高。也可能通过几种不同的方法(例如,凝胶电泳,然后进行光密度测定、用生物分析仪或定量pcr进行定量、与标记的探针杂交;生物素化引物的掺入,随后抗生物素蛋白-酶缀合物检测;32p标记的脱氧核苷酸三磷酸掺入扩增的靶序列中)来检测扩增的靶序列。如本文所用,“扩增的靶序列”及其衍生词通常是指通过使用靶特异性引物和本文提供的方法扩增靶序列而产生的核酸序列。扩增的靶序列相对于靶序列可以是同样有义的(即,正链)或反义的(即,负链)。如本文所用,术语“连接”、“接合”及其衍生词通常是指将两个或更多个分子共价连接在一起的过程,例如将两个或多个核酸分子彼此共价连接的过程。在一些实施方案中,连接包括接合在核酸的相邻核苷酸之间的切口。在一些实施方案中,连接包括在第一核酸分子的末端和第二核酸分子的末端之间形成共价键。在一些实施方案中,连接可包括在一个核酸的5'磷酸酯基团和第二核酸的3'羟基之间形成共价键,从而形成连接的核酸分子。通常,出于本公开的目的,可将扩增的靶序列与接头连接以产生接头连接的扩增的靶序列。如本文所用,“连接酶”及其衍生词通常是指能够催化两个底物分子的连接的任何试剂。在一些实施方案中,连接酶包括能够催化核酸的相邻核苷酸之间切口的接合的酶。在一些实施方案中,连接酶包括能够催化一个核酸分子的5'磷酸酯与另一核酸分子的3'羟基之间的共价键形成从而形成连接的核酸分子的酶。合适的连接酶可以包括但不限于t4dna连接酶、t4rna连接酶和大肠杆菌dna连接酶。如本文所用,“连接条件”及其衍生词通常是指适于将两个分子彼此连接的条件。在一些实施方案中,连接条件适合于密封核酸之间的切口或缺口。如本文所用,术语切口或缺口与该术语在本领域中的使用一致。通常,可以在合适的温度和ph下在酶(例如连接酶)存在下连接切口或缺口。在一些实施方案中,t4dna连接酶可以在约70-72℃的温度下连接核酸之间的切口。如本文所用,术语“流动池”是指包括固体表面的腔室,一种或多种流体试剂可以流过该固体表面。可以容易地在本公开的方法中使用的流动池以及相关的流体系统和检测平台的实例例如在bentley等人,nature456:53-59(2008),wo04/018497;us7,057,026;wo91/06678;wo07/123744;us7,329,492;us7,211,414;us7,315,019;us7,405,281和us2008/0108082中描述。如本文所用,术语“扩增子”在用于提及核酸时是指复制核酸的产物,其中该产物具有与该核酸的至少一部分核苷酸序列相同或互补的核苷酸序列。扩增子可以通过使用核酸或其扩增子作为模板的多种扩增方法中的任一种来产生,包括例如聚合酶延伸、聚合酶链反应(pcr)、滚环扩增(rca)、连接延伸或连接链反应。扩增子可以是具有特定核苷酸序列的单个拷贝(例如pcr产物)或核苷酸序列的多个拷贝(例如rca的串接(concatameric)产物)的核酸分子。靶核酸的第一扩增子通常是互补拷贝。后续的扩增子是在产生第一扩增子后从靶核酸或从第一扩增子产生的拷贝。后续的扩增子可具有与靶核酸基本上互补或与靶核酸基本上相同的序列。如本文所用,术语“扩增位点”是指阵列中或阵列上可产生一个或多个扩增子的位点。扩增位点可以进一步配置为包含、保持或附着在该位点产生的至少一个扩增子。如本文所用,术语“阵列”是指可以根据相对位置彼此区分的位点群体。处于阵列的不同位点的不同分子可以根据阵列中位点的位置彼此区分开。阵列的单个位点可包括一个或多个特定类型的分子。例如,位点可以包括具有特定序列的单个靶核酸分子,或者位点可以包括具有相同序列(和/或其互补序列)的几个核酸分子。阵列的位点可以是位于相同基质上的不同特征。示例性特征包括但不限于,基质中的孔、基质中或基质上的珠(或其他颗粒)、基质的突起、基质上的脊或基质中的通道。阵列的位点可以是各自带有不同分子的单独的基质。附着于单独基质的不同分子可以根据在基质与其结合的表面上的基质位置,或者根据在液体或凝胶中的基质位置来鉴别。其中单独的基质位于表面上的示例性阵列包括但不限于在孔中具有珠的那些。如本文所用,术语“容量”当用于提及位点和核酸材料时,是指可以占据该位点的核酸材料的最大量。例如,该术语可以指在特定条件下可以占据该位点的核酸分子的总数。也可以使用其他量度,包括例如在特定条件下可占据该位点的核酸材料的总质量或特定核苷酸序列的总拷贝数。通常,对于靶核酸的位点的容量基本上等同于对于靶核酸的扩增子的位点的容量。如本文所用,术语“捕获剂”是指能够附着、保留或结合靶分子(例如靶核酸)的材料、化学物质、分子或其部分。示例性的捕获剂包括但不限于与靶核酸的至少一部分互补的捕获核酸(本文也称为捕获寡核苷酸)、能够结合靶核酸(或与其附接的连接部分)的受体-配体结合对的成员(例如抗生物素蛋白、链霉亲和素、生物素、凝集素、碳水化合物、核酸结合蛋白、表位、抗体等)或能够与靶核酸(或与其附接的连接部分)形成共价键的化学试剂。如本文所用,术语“报告体部分”可以指能够确定所研究的分析物的组成、身份和/或来源的任何可识别的标签、标记、索引、条码或基团。在一些实施方案中,报告体部分可包括与蛋白质特异性结合的抗体。在一些实施方案中,抗体可以包括可检测的标记。在一些实施方案中,报告体可以包括用核酸标签标记的抗体或亲和试剂。核酸标签可以是可检测的,例如,通过邻近连接测定法(pla)或邻近延伸测定法(pea)或基于测序的读数(shahi等人,scientificreports,第7卷,articlenumber:44447,2017)或cite-seq(stoeckius等naturemethods14:865-868,2017)。如本文所用,术语“克隆群体”是指对于特定核苷酸序列同质的核酸群体。同源序列通常至少10个核苷酸长,但是可以甚至更长,包括例如至少50、100、250、500或1000个核苷酸长。克隆群体可以源自单一靶核酸或模板核酸。通常,克隆群体中的所有核酸具有相同的核苷酸序列。应理解的是,在不脱离克隆性的情况下,少数突变(例如由于扩增伪影(amplificationartifact))可存在于克隆群体中。如本文所用,术语“独特分子标识”或“umi”是指可以附接于核酸分子的分子标签(随机的、非随机的或半随机的)。在并入核酸分子中时,umi可用于通过直接计数扩增后测序的独特分子标识(umi)来校正后续扩增偏倚。如本文所用,在组合物、制品、核酸或细胞核的情况中“提供”是指制备组合物、制品、核酸或细胞核,购买组合物、制品、核酸或细胞核,或以其他方式获得化合物、组合物、物品或细胞核。术语“和/或”是指所列元素的一个或全部或者所列元素中的任何两个或多个的组合。词语“优选的”和“优选地”是指在某些情况下可以提供某些益处的本公开的实施方式。然而,在相同或其他情况下,其他实施方案也可能是优选的。此外,一个或多个优选实施方案的列举并不意味着其他实施方案是不可用的,并且不旨在将其他实施方案排除在本公开的范围之外。术语“包含”及其变体在说明书和权利要求书中出现这些术语时不具有限制意义。应理解,本文中无论何实施方案用语言“包括”、“包含”或“包括有”等描述,也提供以“由……组成”和/或“基本上由……组成”描述的另外类似的实施方案。除非另有说明,否则“一个”、“一种”、“该”和“至少一个”可互换使用并且表示一个或多于一个。另外在本文中,通过端点对数值范围的叙述包括归入该范围内的所有数字(例如,1-5包括1、1.5、2、2.75、3、3.80、4、5等)。对于本文公开的包括离散步骤的任何方法,步骤可以以任何可行的顺序进行。并且,适当地,可以同时进行两个或更多个步骤的任何组合。在整个说明书中提及“一个实施方案”、“实施方案”、“某些实施方案”或“一些实施方案”等是指结合该实施方案描述的特定特征、配置、组成或特性包括在本公开的至少一个实施方案中。因此,在整个说明书中这些短语在各个地方的出现不一定是指本公开的相同实施方案。此外,在一个或多个实施方案中,可以以任何合适的方式组合特定的特征、配置、组成或特性。附图说明当结合以下附图阅读时,可以最好地理解本公开的说明性实施方案的以下详细描述。图1a-c示出了根据本公开的单细胞组合索引的一般说明性方法的总体框图。图2示出了根据本公开的单细胞组合索引的一般说明性方法的总体框图。图3a-f显示sci-l3-wgs能够实现高通量、单细胞、线性全基因组扩增。(a)具有三级索引的sci-l3-wgs工作流程的示意图。(b)顶部:与各种文库制备方法相容的所得扩增dna双链体的条码结构。bc,条码;sp,间隔区;gdna,基因组dna。中间:sci-l3-wgs的示例文库结构。p5和p7测序接头通过a-加尾和连接添加。注意,由于连接的对称性,在umi端具有p7和在gdna端具有p5同样是可能的。底部:sci-l3-靶-seq的示例文库结构。p5和p7测序接头分别通过从间隔区2(sp2)和基因组中的靶向目标基因座启动来添加。注意,新的第三轮条码bc3'也通过wgs库中对应于每个bc3的pcr添加,并且新的umi'在bc3'之外添加。(c)以低测序深度,24bc1x64bc2x6bc3sci-l3-wgs,每孔分选的100至300个细胞,来自人和小鼠细胞的独特tn5插入位点数的散点图。蓝色,推断的小鼠细胞(小鼠阅读片段>95%的百分比,中位数为98.7%,n=315);红色,推断的人类细胞(人阅读片段>95%的百分比,中位数为99.8%,n=719);灰色,推断的冲突(n=48,4%)。(d)显示了以每细胞平均2.4m的原始阅读片段和1.78x深度,每细胞的独特tn5插入位点数的箱形图。深度定义为独特ivt转录物数与独特tn5插入位点数之间的比率。粗水平线,中位数;上下盒边缘,分别为第一和第三四分位数;盒须,1.5倍四分位距;圆圈,离群值。对于使用该方案的改进形式制备的文库的表征也参见图5和实施例2,“sci-l3-wgs和sci-l3-靶-seq的方法和分子设计”部分。(e)单个细胞的示例染色体cnv图。上部,hek293t细胞,2.6m原始阅读片段,2.4m独特分子,1.3m独特tn5插入位点,mapq>1。下部,3t3细胞,2.7m原始阅读片段,2.4m独特分子,1.2m独特tn5插入位点,mapq>1。(f)822个293t细胞或1,453个hap1细胞间拷贝数变异的箱形图。y轴表示通过染色体长度标准化的每染色体的阅读片段分数,使得没有分段拷贝(segmentalcopy)增加或损失的整倍体染色体预期具有1的值。图4a-f显示了每个步骤中sci-lianti的分子结构。虚线:rna,实线:dna。(a)tn5接头的两个5'端被磷酸化,一个末端是插入需要的,而另一个是连接需要的。退火的转座子的突出端包含第一轮条码(“bc1”)和用于连接的间隔区(“sp1”)。(b)连接分子作为发夹环预退火,其将分子间连接从三个分子减少到两个分子;发夹结构还有助于提高下游步骤的rt效率。发夹包含1)与用于连接的“sp1”退火的突出端,2)第二轮条码(“bc2”)和间隔区(“sp2”),其用作下游步骤中用于sss的茎(stem)中的启动位点,和3)用于ivt的环中的t7启动子。(c)缺口延伸将环状的t7启动子转化为双链体。注意,如果连接在两端成功,则t7启动子存在于两侧;但是,如果连接在一端成功,则将缺失加框的部分。然而,两者都可以在下游步骤中使用不同的rt引物进行逆转录。(d)ivt产生在t7启动子下游的单链rna扩增子。(e)如果连接在两端成功,则rt优选由自身环状的rt引物启动,其继承自环状的连接分子;如果连接仅在一端成功,则rt通过过量添加的另外的rnart引物启动。过量的rna引物然后在sss之前去除以避免干扰后续的sss反应。(f)双链dna分子通过sss产生,其从“sp2”启动(primesoff)以同时对每个转录物添加第三轮条码和umi标签。实施例2,“sci-l3-wgs和sci-l3-靶-seq的方法和分子设计”部分提供了更详细的说明。图5a-g显示了在不同sci-l3-wgs实验中以及以不同的tn5转座体浓度的阅读片段数。显示在指定深度下每细胞的独特tn5插入位点数的箱形图。深度定义为独特ivt转录物数与独特tn5插入位点数之间的比率。粗水平线,中位数;上下盒边缘,分别第一和第三四分位数;盒须,1.5倍四分位距;圆圈,离群值。浓缩的tn5转座体:0.2μm,稀释的tn5转座体:0.1μm。(a)具有浓缩的tn5的yi128(中位数深度:1.19x)人vs.小鼠独特阅读片段(中位数人独特阅读片段:215k,n=115个细胞;中位数小鼠独特阅读片段:169k,n=44);具有浓缩的tn5(中位数独特阅读片段:215k)vs.稀释的tn5(中位数独特阅读片段:46k)的人独特阅读片段。(b)具有浓缩的tn5(中位数独特阅读片段:635k)vs.稀释的tn5(中位数独特阅读片段:183k)的yi129(中位深度:1.78x)人独特阅读片段。小鼠独特阅读片段呈现于图3d中。(c)具有浓缩的tn5的yi140和yi141(中位深度:1.37x;中位数人独特阅读片段:660k)。也参见表2和实施例2。(d)具有浓缩的tn5的yi144和yi145(中位深度:1.05x;中位数人独特阅读片段:97.3k)。也参见表2。注意,yi140、yi141、yi144和yi145是具有实施例2中讨论的优化方案的文库。(e)具有浓缩tn5的yi174(中位深度:1.06x)人/小鼠独特阅读片段(中位数人独特阅读片段:100k,n=103;中位数小鼠独特阅读片段:23k,n=35);具有浓缩tn5(中位数独特阅读片段:100k)和稀释tn5(中位数独特阅读片段:54k)的人独特阅读片段。(f)小鼠生殖细胞的文库:用稀释的tn5制备yi186、yi187、yi188;用浓缩的tn5制备yi190、yi192、yi193。(g)作为测序深度的函数的独特tn5插入位点数。蓝线和红线分别显示具有与不具有rnart引物的sci-l3-wgs(实施例2)。具有浓缩的(中位数独特插入:635k)的yi129(如图面b中,中位深度:1.78x)人独特插入。当投影到5x和10x深度时,预期的独特插入数分别为1.9m和2.6m。yi140和yi141组合的中位深度为1.37x,中位数独特插入为660k。当投影到1.78x、5x和10x深度时,预期的独特插入数分别为1.5m、4.2m和6.0m。图6a-e显示基于sci-l3的rna/dna共分析能够联合地对于来自相同单细胞的基因组和转录组实现高通量和线性扩增。(a)具有三级索引的sci-l3-rna/dna共分析工作流程的示意图。注意,tn5转座子和cdna合成引物在第一轮条码外的5'突出端处含有相同的磷酸化连接着陆垫(粉红色)。(b)与各种文库制备方法相容的对应于基因组和转录组(分别左和右)的所得扩增双链体的条码结构。bc,条码;sp,间隔区;gdna,基因组dna。(c)在一起绘制的低和高测序深度,24bc1x64bc2x6bc3sci-l3-rna/dna共分析,每孔分选的100至300个细胞下,来自人和小鼠细胞的独特tn5插入位点数的散点图。蓝色,推断的小鼠细胞(小鼠阅读片段>95%的百分比,中位数99.5%,n=2002);红色,推断的人细胞(人阅读片段>95%的百分比,中位数99.8%,n=2419);灰色,推断的冲突(n=149,组合低深度和高深度6.6%;5/270,高深度3.7%)。(d)对于rna与(c)中相同。蓝色,推断的小鼠细胞(小鼠阅读片段的中位纯度为95.1%);红色,推断的人细胞(人阅读片段的中位纯度为91.5%);灰色,推断的冲突(n=272,低深度和高深度组合12%;7/270,高深度5.2%)。(e)具有rna-seq信号的seurat显示对应于bj-5ta人皮肤成纤维细胞(雄性)和hek293t细胞(雌性)的不同簇。根据y染色体是否存在,正确分配了988/1024个细胞(96.5%)。图7a-e显示了有和没有交换的情况下的有丝分裂/均等和减数分裂/减数染色体分离。每个垂直节段代表一个染色单体(未显示dna链)。黑色和蓝色代表同源物。椭圆形代表着丝粒。注意,小鼠染色体是具端着丝粒的。灰色十字表示在4c阶段dna复制后的交换位点。红色框表示杂合的有丝分裂的子代细胞,而黑色和蓝色框表示在着丝粒近端区域处对于相应品系背景纯合的减数分裂i(mi)的子代细胞。子代细胞中的loh区通过花括号标记。(a)有丝分裂/均等分离,无交换。两个子代细胞保留杂合性。(b)有丝分裂/均等分离,具有同源物之间的交换。重组的染色单体分开分离,导致对于交换着丝粒远端的loh。(c)有丝分裂/均等分离,具有同源物之间的交换。重组的染色单体一起分离,使得两个子代细胞保持杂合性,但是一个子代细胞具有连锁开关(linkageswitch)。(d)具有交换的减数分裂/减数分离,导致对于交换的着丝粒近端的loh,与(b)不同。(e)没有交换的减数分裂/减数分离,导致子代细胞中的相互单亲二倍性(upd)。注意,具有均等染色体分离的mi类似于(b)和(c)。在文本中,由于我们的研究主要集中于mi,因此将mi期间的预期减数分裂/减数分离(其中姐妹染色单体一起分离)称为“减数分离”,及将mi期间的未预期的有丝分裂样/均等分离(其中姐妹染色单体分开分离)称为“均等分离”。图8a-g显示了通过facs的精子和精子前体及其倍性。(a)b6精子的可视化。(b)(b6xspret)f1精子的可视化。我们观察到未知倍数的圆形生殖细胞的低数量,及极少的形态学上成熟的精子(箭头)。(c)从附睾中分离的(b6xspret)f1精子和精子前体出人意料地包含大比例的2c细胞。dapi电压(dapivoltage)为375。(d)hek293/patski混合物,dapi电压为350。由于dapi电压较低,patski峰(2c)相对于(c)中的2c峰略微向左偏移。(e)从附睾中分离的(b6xcast)f1精子几乎完全由1c细胞组成。dapi电压为375。(f)(b6xcast)f1精子前体,对于来自解离的睾丸的2c细胞预分选;仍然存在大量的1c细胞。dapi电压为375。(g)在sci-l3-wgs过程中的facs步骤(两轮条码化后)的(b6xcast)f1精子和精子前体仍主要由1c细胞组成。基于来自(f)的预分选2c细胞核中污染的1c细胞核的比例,我们估计作为2c的标签化细胞核的比例为18%,相对于均质化睾丸中2.5%的2c细胞核7.2倍的富集。我们从2c群体分选(所有细胞的约15.4%,类似于对于标签化步骤估计的18%)。dapi电压为375。图9a-f证明种间杂种小鼠雄性种系的sci-l3-wgs揭示了mi中非独立均等分离的许多实例。在(a)、(b)和(c)中,红线描绘通过hmm的拟合交换过渡(crossovertranstion)。着丝粒位于每个染色体的图片的最左侧。(a)1c细胞的示例交换图。灰色点对于spret等位基因的值为1,和对于b6等位基因的值为0。在(b)和(c)中,灰色点显示spret的等位基因频率,平均40个snp位点。(b)对于具有减数分离的m2细胞的示例loh图(也参见图7d)。loh存在于交换位点的着丝粒近端区。(c)对于具有均等分离的m2细胞的示例loh图(也参见图7b)。loh存在于交换位点的着丝粒-远端区域,与(b)中不同。(d-f)每个m2细胞的减数(红色、粉红色、黑色)和均等(蓝色、绿色)分离的染色体的数目。每列代表一个单m2细胞(每细胞19个染色体,如通过颜色所示分布的)。(d)基于二项式分布并假设减数分离的概率p等于0.76(来自观察的数据的mle)预期的减数分离vs.均等分离的分布。(e)在m2细胞中观察的数据。在罕见情况(27/5,548染色体)中,由于零散snp覆盖率(图面顶部的空白),我们不能区分减数分离vs.均等分离。黑色条描绘了mi不分离(ndj,总共40个染色体),其中我们观察到0或4个拷贝的染色单体。注意,ndj被认为是减数分离,因为姐妹染色单体一起分离。(f)与(e)相同,但进一步根据有或没有交换(缩写为“co”)的染色体数细分。细胞首先按照均等分离的染色体的数目(浅绿色和蓝色,降序),和然后按照没有交换的情况下观察的均等分离染色体的数目(蓝色,降序)进行排序。图10a-g显示了减数分裂交换和染色体尺度上的单亲染色体分布。(a)在对于染色体大小标准化后,每个染色体上具有至少一个交换的单倍体细胞的数量与染色体大小呈负相关(r=-0.87,p=2e-6)。显示(b6xspret)杂交。对于(b6xcast)杂交参见图14c。(b)对于m2细胞与(a)相同(r=-0.91,p=8e-8)。对于(b6xcast)杂交参见图14d。(c)每个单倍体细胞每染色体的交换(co)计数的分布(对于(b6xspret)平均值=0.62,和对于(b6xcast)平均值=0.58)。(d)对于m2细胞与(c)相同(对于(b6xspret)平均值=0.92,和对于(b6xcast)平均值=1.03)。(e)对于具有至少两个交换的染色体,所有染色体的交换距离。预期数的分布通过每染色体随机放置2个交换来生成。显示(b6xspret)杂交。对于(b6xcast)杂交参见图14e。(f)patski细胞中upd和loh事件的数目(顶部)和染色体分布(底部)。(g)对于m2细胞分解的线粒体拷贝数(标准化的),相对于均等分离,该m2细胞的大部分染色体减数分离。(b6xspret)杂交。图11a-e显示了种内杂种小鼠雄性种系的sci-l3-wgs也揭示了非独立均等分离的许多实例。(a-b)来自条码组1的人工“2c”细胞的减数(红色)和均等(蓝色)分离的染色体的数目,其源自两个随机1c细胞的双重峰。每列代表一个单2c细胞(每细胞19个染色体,如颜色所示分布)。(a)基于二项式分布并假设均等分离的概率p等于0.5的减数vs.均等分离的预期分布。(b)2c细胞中的观察数据,其与(a)中所示的预期分布相匹配。(c-e)对于来自条码组2的非1c细胞的减数(红色、粉红色、黑色)和均等(蓝色、绿色)分离的染色体的数目,其是两个随机1c细胞核的人工双重和实际2c次级精母细胞的混合物。每列代表一个非1c单细胞(每细胞19个染色体,如通过颜色所示分布的)。(c)来自条码组2的所有非1c细胞。(d)仅具有偏倚的染色体分离的非1c细胞,即,至少15个染色体均等或减数地分离。黑色条描绘减数分裂i不分离(ndj,共2185个染色体中的2个),其中我们观察到0或4个拷贝的染色单体。(e)与(d)相同,但进一步根据有或没有交换(缩写为“co”)的染色体数进行分解。细胞首先按照均等分离的染色体的数目(浅绿色和蓝色,降序),和然后按照观察到的没有交换的情况下均等分离的染色体的数目(蓝色,降序)对细胞进行排序。图12a-c显示了与来自小鼠雄性种系的sci-l3-wgs的观察数据(底部)相比,具有三个二项式分布的拟合有限混合模型(顶部)。有关混合建模的详细信息参见实施例2。(a)(b6xcast)杂种中来自条码组1的非1c细胞的混合建模。(b)(b6xcast)杂种中来自条码组2的非1c细胞的混合建模。(c)来自(b6xspret)杂交的2c细胞的混合建模。图13a-i显示了减数分裂交换和在染色体尺度上的单亲染色体分布。(a)通过染色体大小(cm/mb)标准化的交换数与单倍体细胞中的染色体大小负相关(r=-0.66,p=0.002)。显示了(b6xspret)杂交。(b6xcast)杂交参见图14a。(b)对于m2细胞与(a)相同(r=-0.83,p=1e-5)。显示了(b6xspret)杂交。对于(b6xcast)杂交参见图14b。(c)每单倍体细胞每染色体的交换(co)频率的分布。计数的分布参见图10c。(d)对于m2细胞与(c)相同。计数的分布参见图s6d。(e)对于具有至少两个交换的染色体,染色体1、2、12和13的交换之间的距离(mb)。对于所有染色体参见图s6e。显示了(b6xspret)杂交。(b6xcast)杂交参见图14e。预期计数的分布通过每染色体随机放置2个交换来生成。箱形图显示(b6xcast)杂交比(b6xspret)杂交有更强的交换干扰(p=5e-91)。(f)每个单倍体(中位数=8,平均值=8.1)、m2细胞(中位数=1,平均值=1.1)或其他二倍体/4c(中位数=0,平均值=0.4)细胞的单亲染色体数的直方图。显示了(b6xspret)杂交。(b6xcast)杂交参见图14f。(g)单倍体(r=-0.87,p=2e-6)、m2细胞(r=-0.75,p=2e-4)和其他二倍体/4c(r=-0.68,p=0.001)细胞的单亲染色体分布。显示了(b6xspret)杂交。(b6xcast)杂交参见图14g。(h)(b6xspret)(左)和(b6xcast)(右)杂交中反向分离(reversesegregation)事件的染色体分布。(i)对于单倍体、m2细胞和其他二倍体/4c二倍体细胞,每细胞的线粒体阅读片段数,通过阅读深度标准化。(b6xspret)杂交。图14a-g显示了减数分裂交换和upd,(b6xcast)的染色体分布。(a)通过染色体大小(cm/mb)标准化的交换数与单倍体细胞中的染色体大小负相关(r=-0.65,p=0.003)。(b6xcast)杂交。(b)在m2细胞中与(a)相同(r=-0.9,p=2e-7)。(b6xcast)杂交。(c)在对染色体大小标准化后,每个染色体上至少具有一个交换的单倍体细胞数与染色体大小负相关(r=-0.85,p=5e-6)。(b6xcast)杂交。(d)对于m2细胞与(c)相同(r=-0.94,p=3e-9)。(b6xcast)杂交。(e)对于具有至少两个交换的染色体,所有染色体的交换距离。预期数量的分布通过每个染色体随机放置2个交换生成。(b6xcast)杂交。(f)每单倍体(中位数=8,平均值=8.9)和m2细胞(中位数=0,平均值=0.54)的单亲染色体数。(b6xcast)杂交。(g)单亲染色体分布(与括号中显示的染色体大小相关),单倍体(r=-0.8,p=4e-5)和m2细胞(r=-0.45,p=0.05)。(b6xcast)杂交。图15a-c示出了交换断裂点堆积分布。(a)自上而下:对于b6、cast和(b6xcast)f1杂种通过ssds图谱的减数分裂dsb热点,该研究中生成的(b6xspret)和(b6xcast)的交换图谱。对于单倍体vs.m2细胞的断裂以及spol1-oligo图谱参见(b)和(c)。(b)自上而下:1)对于(b6xcast)f1杂种通过ssds的减数分裂dsb热点图谱,2)(b6xcast)中的单倍体交换图谱,以及3)(b6xcast)中的m2细胞交换图谱。(c)自上而下:1)具有“对称”热点的通过spo11-oligo图谱的减数分裂dsb热点,2)具有所有热点的通过spo11-oligo图谱的减数分裂dsb热点:不考虑prdm9基序。3)(b6xspret)中的单倍体交换图谱,和4)(b6xspret)中的m2细胞交换图谱。图16a-f显示了减数分裂交换热度和解释性基因组特征。(a)通过bma对于与交换热度相关的特征的边际包含概率。x轴通过后验概率对模型进行分级,其中灰色框描绘每个模型中未包括的特征(垂直线,显示了前20个模型),和橙色标度描绘模型的后验概率。此处显示了(b6xspret)和(b6xcast)杂交的组合数据集。对于单独分析的两个杂交参见图15。(b)用于断裂点解析的大小分布(对数正态分布)。左:(b6xspret),中位数150kb。右:(b6xcast),中位数250kb。(c-d)每个染色体最右侧交换的位置。染色体的长度通过最右侧snp(黑色条)而不是红线的范围指示。(c)m2细胞。(b6xcast)(左)杂交中的交换偏好染色体的着丝粒远端末端,而(b6xspret)杂交(右)中的交换偏好每个染色体臂的中间区域。在考虑染色体间变异性后,我们估计(b6xspret)杂交中的交换更朝向着丝粒近端平均5.5mb。参见图20a,其是相似的,但是对于1c细胞。(d)比较1c和m2细胞,(b6xspret)杂交。在考虑染色体间变异性后,我们估计在(b6xspret)杂交中,m2细胞(右)中的交换在1cs(左)更朝向着丝粒近端平均9.4mb。在(b6xcast)杂交中观察到较低程序的相同趋势(参见图20b)。(e)如果从小鼠基因组提取的区域来自b6xspret交换轨迹或相等数目的随机采样轨迹,0.73的auc量化了预测的预期准确性。左:所有76个特征。右:来自bma的mip>0.5的25个特征的子集。(f)如果从小鼠基因组提取的区域是来自b6xcast交换轨迹或相等数目的随机采样轨迹,0.85的auc量化了预测的预期准确性。左:所有69个特征。右:来自bma的mip>0.5的25个特征的子集。图17a-b示出了通过bma与交换热度相关的特征的边际包含概率。x轴通过后验概率对模型进行分级。(a)(b6xcast)杂交。(b)(b6xspret)杂交。图18显示了(b6xcast)杂交中交换事件和基因组特征的相关矩阵。在这里我们显示了在100kb窗口上计算的各种交换堆积轨迹与基因组特征之间所有可能的成对相关性。交换堆积轨迹是前五列或行(“事件”前缀;红色文本标记),而其余部分是建模中使用的相同基因组特征(蓝色文本标记)。以“hp_m2”、“hp”、“m2”、“mt”和“me”后缀的交换堆积轨迹分别来自单倍体和m2细胞、单倍体、m2细胞、具有偏倚的均等分离的m2细胞和具有偏倚的减数分离的m2细胞。蓝色方块表示正相关,和红色方块表示负相关。特征通过分层聚类排序。空心椭圆形突出显示特征“端粒”和“分位数_75_100”,其在如文本中所述的两个杂交中显示出不同的趋势。图19显示了(b6xspret)杂交中交换事件和基因组特征的相关矩阵。与图18图例中描述的格式相同。图20a-e显示了每个染色体上最右侧交换的位置。(a)单倍体细胞。在两个杂交中,交换偏好染色体的着丝粒远端末端。(b)比较单倍体和m2细胞(b6xcast杂交)。在考虑了染色体间变异性后,我们估计在(b6xcast)杂交中,m2细胞中的交换比在单倍体中更朝向着丝粒近端平均5.2mb。(c)比较具有偏倚的染色体分离的m2细胞。在考虑染色体间变异性后,我们估计(b6xcast)杂交中,具有偏倚的均等分离的m2细胞中的交换比具有偏倚的减数分离的m2细胞中的交换更朝向着丝粒远端平均13.7mb。(d)(b6xspret)杂交中与(c)中相同。交换更朝向着丝粒远端平均8.7mb。(e)交换的位置对正确染色体分离的影响的模型。更接近着丝粒的交换(在中间两个四分位而不是最后四分位中)可通过具有更强的臂粘连来促进减数分离;但是,靠近染色体臂末端的交换可能通过较强的cen粘连来促进mii分离。图21显示了b6xspret杂交中区分交换热点的特征的主成分分析。注意,“chr3_bp(断裂点)”和“chr1_upc(单亲染色体)”代表了对于所有染色体包含的特征。我们显示115个总特征中的44个。除了省略的36个其他染色体断裂点和upc特征外,由于缺乏明显的趋势,未显示35个其他特征。图22示出了对于b6xcast杂交区分交换热点的特征的主成分分析。注意,“chr3_bp(断裂点)”和“chr1_upc(单亲染色体)”代表了对于所有染色体包含的特征。我们显示了108个总特征中的19个。除了省略的36个其他染色体断裂点和upc特征外,由于缺乏明显的趋势,未显示53个其他的特征。图23示出了对于减数分裂交换与染色体错误分离之间的关系的模型。“mi”:减数分裂i,“cen”:着丝粒(卵圆形或圆形),“ih”:同源物间。当结合以下附图阅读时,可以更好地理解本公开的说明性实施方案的以下详细描述。示意图不一定按比例绘制。在附图中使用的相同数字指代相同的组件、步骤等。然而,应理解,在给定附图中使用数字来指代组件并非旨在限制另一附图中用相同数字标记的组件。另外,使用不同的数字来指代部件并不旨在限定指示不同编号的部件不能与其他编号的部件相同或相似。具体实施方式本文提供的方法可用于产生多个单细胞或细胞核的单细胞组合索引(sci)测序文库,包括例如全基因组(sci-wgs)、转录组(sci-rna)、基因组和转录组共分析(sci-dna/rna)和/或甲基化组(sci-met)。在一个实施方案中,该方法可以用于一个或多个特定的目标区域的靶向测序。例如,与特定区域(例如,编码区、非编码区等)杂交的引物、指导rna或通过指导rna插入的核苷酸序列可用于选择性地富集靶向序列。在一个实施方案中,可以收集和分析关于来自细胞或细胞核的个体基因编辑、dna、编辑或用于编辑的标志物、基因签名、扰动和/或功能性阅读片段(rna、dna、蛋白质或组合)的信息(perturb-seq)。在其他实施方案中,该方法可用于评估染色质可及性(sci-atac)、染色质构象(hi-c)和其他单细胞组合索引方法。该方法包括提供分离的细胞核或细胞、将细胞核或细胞的子集分布到隔室中、处理细胞核或细胞使其包含核酸片段、向该核酸片段添加隔室特异性索引以及通过线性扩增来扩增该核酸片段。这些步骤可以以不同的顺序发生,并且可以以不同的方式组合。图1a和1b示出了三个实施方案。在一个实施方案中,该方法包括提供包含核酸片段的分离的细胞核或细胞的分布的子集(图1a,方框1,和图1b,方框1)。如图1ab所示中,通过线性扩增来扩增核酸片段(图1a,方框2)后向扩增的核酸片段添加索引(图1a,方框3)。如图1b中所示,分布的细胞核或细胞中的核酸片段包括索引,并且核酸片段通过线性扩增来扩增(图1b,方框2)。本文描述了提供分离的细胞核或细胞、分布分离的细胞核或细胞的子集、处理分离的细胞核或细胞以包括核酸片段、添加隔室特异性指数以及通过线性扩增来扩增核酸片段的步骤。提供分离的细胞核或细胞本文提供的方法包括提供来自多个细胞的细胞或分离的细胞核。细胞和细胞核可以来自任何样品,例如任何生物体,以及来自生物体的任何细胞类型或任何组织。在一实施方案中,细胞可以是生殖细胞,例如,精细胞或卵细胞。在一实施方案中,组织可以是生殖组织,例如附睾。在一实施方案中,细胞或细胞核可以来自癌症或患病组织。该方法可以进一步包括解离细胞和/或分离细胞核。用于从细胞中分离细胞核的方法是本领域技术人员已知的并且是常规的。细胞核或细胞的数目可以是至少两个。上限取决于在本文所述的方法的其他步骤中使用的设备(例如多孔板)的实际限制。可以使用的细胞核或细胞的数量并非旨在进行限制,且可以达到数十亿。例如,在一个实施方案中,细胞核或细胞的数目可以不大于100,000,000,不大于10,000,000,不大于1,000,000,000,不大于100,000,000,不大于10,000,000,不大于1,000,000,不大于100,000,大于10,000,不大于1,000,不大于500或不大于50。可以提供一个或多个样品。例如,样品可以是来自一个生物体的一种细胞类型或组织。使用本文所述的索引方法,可以用第一索引单独地对多个样品,例如来自一个生物体的不同细胞类型、来自两个或更多个生物体的一种细胞类型或组织或来自两个或更多个生物体的不同细胞类型或组织,进行索引以鉴别样品,和然后组合。本领域技术人员将认识到,在一些实施方案中,每个细胞核中的核酸分子代表生物体的整个遗传补充(也称为生物体的全基因组),并且是包括内含子和外显子序列以及非编码调控序列如启动子和增强子序列的基因组dna分子。细胞核分离可通过将细胞在细胞裂解缓冲液中孵育至少1至20分钟,例如5、10或15分钟来完成。任选地,细胞可以暴露于外力以帮助裂解,例如通过移液管的移动。细胞裂解缓冲液的示例包括10mmtris-hcl,ph7.4、10mmnacl,3mmmgcl2、0.1%igepalca-630和1%superaseinrnase抑制剂。技术人员将认识到,可以在不降低细胞裂解缓冲液用于分离核的有效性的情况下稍微改变组分的这些水平。技术人员将认识到,rna酶抑制剂、bsa和/或表面活性剂在用于分离核的缓冲液中可能是有用的,并且可将其他添加剂添加至缓冲液中以用于其他下游单细胞组合索引应用。在一个实施方案中,细胞核从粘附或悬浮的单个细胞分离。用于从单个细胞分离细胞核的方法是本领域普通技术人员已知的。在一个实施方案中,从细胞核存在于组织中的细胞分离。获得分离的细胞核的方法通常包括制备组织并从制备的组织分离细胞核。在一个实施方案中,所有步骤都在冰上完成。组织制备可以包括将组织在液氮中速冻,然后使组织经受切碎或钝力作用以将组织的尺寸减小至直径为1mm或更小的块。任选地,可以使用冷蛋白酶和/或其他破坏细胞-细胞连接的酶。切碎可用刀片完成以将组织切成小块。施加钝力可以通过用锤子或类似物体砸碎组织来实现,并且砸碎组织的所得组合物称为粉末。常规的组织细胞核提取技术通常在高温(例如37℃)下用组织特异性酶(例如胰蛋白酶)将组织孵育30分钟至几小时,然后用细胞裂解缓冲液裂解细胞以进行细胞核提取。本文中和美国临时专利申请号62/680,259中描述的细胞核分离方法具有几个优点:(1)不引入人工酶,并且所有步骤在冰上完成。这减少了对细胞状态(例如转录组状态、染色质状态或甲基化状态)的潜在扰动。(2)这在包括脑、肺、肾、脾、心脏、小脑和疾病样本(如肿瘤组织)的大多数组织类型中经过验证。与对不同组织类型使用不同酶的常规组织细胞核提取技术相比,该新技术在比较来自不同组织的细胞状态时可以潜在地减少偏差。(3)该方法还通过取消酶处理步骤降低成本并提高效率。(4)与其他细胞核提取技术(例如,dounce组织研磨机)相比,该技术对不同组织类型更稳定(例如,dounce方法需要针对不同组织优化dounce循环),并能够以高通量处理大块样品(例如,dounce方法受限于研磨机的尺寸)。分离的细胞核或细胞可以包括核小体,可以是无核小体的,或可以经受耗尽细胞核的核小体从而产生核小体耗尽的细胞核的条件。核小体耗尽的细胞核可用于确定细胞的整个基因组或其一部分的dna序列的方法中。在一个实施方案中,用于核小体耗尽的条件维持分离的细胞核的完整性。通常,在单细胞的沉淀或悬浮液上使用核小体耗尽的方法,因此在其中使用粘附细胞培养物或组织作为细胞来源的那些实施方案中,对来源进行处理以获得单细胞的沉淀或悬浮液。核小体耗尽的方法是已知的和常规的,且包括但不限于酶处理和化学处理。在一个实施方案中,用于核小体耗尽的条件包括用能够破坏核酸-蛋白质相互作用的离液剂进行的化学处理。有用的离液剂的实例包括但不限于3,5-二碘水杨酸锂。使用3,5-二碘水杨酸锂的条件包括将其添加到细胞沉淀中并在冰上孵育。在优选的实施方案中,条件包括用能够破坏核酸-蛋白质相互作用的清洁剂进行的化学处理。有用的清洁剂的例子包括但不限于十二烷基硫酸钠(sds)。使用sds的条件包括将其添加到细胞沉淀中并在高温(例如42℃)下孵育,然后添加非离子清洁剂(例如tritontmx-100)并在高温(例如42℃)下孵育。在一些实施方案中,当使用清洁剂如sds时,在核小体耗尽之前将细胞核暴露于交联剂(wo2018/018008)。在一个实施方案中,细胞核在细胞内部时暴露于交联剂,而在另一实施方案中,分离的细胞核暴露于交联剂。交联剂的有用实例包括但不限于甲醛(hoffman等人,2015,j.biol.chem.,290:26404-26411)。用甲醛处理细胞可以包括将甲醛添加到细胞悬浮液中并在室温下孵育。在一个实施方案中,在甲醛处理之后,可将细胞核暴露于甘氨酸和非离子、非变性清洁剂,例如在耗尽分离的细胞核的核小体的过程中,保持分离的细胞核的完整性。可以通过常规方法(例如相衬成像)可视化细胞核的状态来确定在暴露于用于核小体耗尽的条件后细胞核是否保持完整。在一个实施方案中,核小体耗尽后完整的细胞核数可以是1至1,000、1,000至10,000、10,000至100,000、100,000至1,000,000、1,000,000至10,000,000或10,000,000至100,000,000。细胞核或细胞的操作,包括本文所述的提供、汇合和分布步骤,可包括使用细胞核缓冲液。细胞核缓冲液的示例包括10mmtris-hcl,ph7.4、10mmnacl、3mmmgcl2、1%superaseinrnase抑制剂(20u/μl,ambion)和1%bsa(20mg/ml,neb)。技术人员将认识到,可以在不降低细胞核悬浮于其中的细胞核缓冲液的有效性的情况下稍微改变组分的这些水平。技术人员还将认识到,各种组分可以在不降低细胞核悬浮于其中的细胞核缓冲液的有效性的情况下替换。在一个实施方案中,细胞(包括从中分离细胞核的细胞)已经暴露于不同的预定条件。例如,细胞的子集可以暴露于不同的预定条件。不同的条件可以包括例如不同的培养条件(例如,不同的培养基、不同的环境条件)、不同的试剂剂量、不同的试剂或试剂的组合。本文描述了试剂。细胞的每个子集和/或一个或多个样品的细胞核或细胞用一个或多个索引序列对进行索引,合并,和然后通过大规模复用的单细胞核或单细胞测序方法进行分析。基本上可以使用任何单细胞核或单细胞测序方法,包括但不限于单细胞核转录组测序(us临时专利申请号62/680,259和gunderson等(wo2016/130704))、单细胞核的全基因组测序(美国专利申请公开号us2018/0023119)或转座子可及染色质的单细胞核测序(美国专利号10,059,989)、sci-hic(ramani等,naturemethods,2017,14:263-266)、drug-seq(ye等,naturecommun.,9,articlenumber4307)、perturb-seq(dixit等,cell,2016,167(7):1853–1866.e17),或来自dna、rna和蛋白质分析物的任意组合,例如sci-car(cao等,science,2018,361(6409):1380-1385)。基于液滴的单细胞分析也可以在初始分割-合并索引之后应用(实例包括10x基因组学chromiumtm系统或bioradddseq系统),包括使用索引作为样品索引。核散列(nuclearhashing)用于从不同条件解复用和鉴别单个细胞或细胞核。在一个实施方案中,细胞的每个子集暴露于试剂或扰动。试剂基本上可以是导致起细胞的变化的任何事物。例如,试剂可以改变细胞的转录组、改变细胞的染色质结构、改变细胞中蛋白质的活性、改变细胞的dna、改变细胞的dna编辑或引起其他变化。试剂的实例包括但不限于诸如蛋白质(包括抗体)、非核糖体蛋白、聚酮化合物、有机分子(包括900道尔顿或更小的有机分子)、无机分子、rna或rnai分子、碳水化合物、糖蛋白、核酸或其组合的化合物。在一个实施方案中,试剂引起遗传扰动,例如dna编辑蛋白和/或指导rna如crispr或talen。在一个实施方案中,试剂是治疗药物。在一个实施方案中,细胞可以是野生型细胞,并且在另一实施方案中,可以对细胞进行遗传修饰以包括遗传扰动,例如基因敲入或基因敲除(szlachta等,natcommun.,2018,9:4275)。可以将细胞的子集暴露于相同试剂,但是可以在多孔装置的隔室中改变不同的变量,从而允许在单个实验中测试多个变量。例如,可以在单一平板中测试不同的剂量、不同的暴露持续时间和不同的细胞类型。在一个实施方案中,细胞可以表达具有已知活性的蛋白质,并且在不同条件下评估试剂对活性的作用。使用索引序列标记核酸片段允许稍后鉴定源自细胞核或细胞的特定子集,例如来自多孔板的一个孔。分布子集本文提供的方法包括将细胞核(例如,核小体耗尽的细胞核)或细胞的子集分布到多个隔室中。该方法可以包括多个分布步骤,其中将分离的细胞核或细胞的群体(在本文中也称为池)分成子集。通常,分离的细胞核或细胞的子集从池分布到多个隔室在将索引添加到存在于分离的细胞核或细胞的子集中的核酸片段之前进行。因此,该方法包括获取合并的分离的细胞核或细胞并分配它们的至少一个“分割和合并”步骤,其中“分割和合并”步骤的数目可以取决于添加至核酸片段的不同索引的数目。索引后,可以将子集合并,分割成子集,进行索引并根据需要再次合并,直到将足够数量的索引添加到核酸片段。子集中且因此在每个隔室中存在的细胞核或细胞的数目可以至少为1。在一个实施方案中,子集中存在的细胞核或细胞的数目不大于100,000,000,不大于10,000,000,不大于1,000,000,不大于100,000,不大于10,000,不大于4,000,不大于3,000,不大于2,000或不大于1,000,不大于500或不大于50。在一个实施方案中,子集中存在的细胞核或细胞的数目可以是1至1,000、1,000至10,000、10,000至100,000、100,000至1,000,000、1,000,000至10,000,000或10,000,000至100,000,000。在一个实施方案中,每个子集中存在的细胞核或细胞的数量近似相等。子集中且因此在每个隔室中存在的细胞核的数目部分地基于减少索引冲突(其是在该方法的这一步骤中最终在同一隔室中存在具有相同转座酶索引的两个细胞核)的需求。用于将细胞核或细胞分布到子集中的方法是本领域技术人员已知的并且是常规的。实例包括但不限于荧光激活细胞分选(facs)细胞计数和简单稀释。任选地,不同倍性的细胞核可以通过染色,例如dapi(4’,6-二脒基-2-苯基吲哚)染色来门控和富集。分布步骤(以及随后索引的添加)中隔室的数量可以取决于所使用的格式。例如,隔室的数量可以是2到96个隔室(使用96孔板时)、2到384个隔室(使用384孔板时)或2到1536个隔室(当使用1536孔板时)。在一个实施例中,每个隔室可以是液滴。当使用的隔室类型是包含两个或更多个细胞核或细胞的液滴时,可以使用任何数量的液滴,例如至少10,000,至少100,000,至少1,000,000或至少10,000,000个液滴。在一个实施方案中,隔室的数量为24。处理以产生核酸片段在一个实施方案中,处理分离的细胞核或细胞可以用于将分离的细胞核或细胞中dna核酸例如染色体和/或质粒片段化为核酸片段。当待测序的靶核酸来自细胞核或细胞中存在的dna时,处理通常是必要的;然而,在一些实施方案中,当待测序的靶核酸源自存在于细胞核或细胞中的rna(例如,mrna和/或非编码rna)时,处理是任选的,因为rna分子通常不需要被片段化。处理细胞核或细胞中的核酸通常将核苷酸序列添加至通过处理产生的核酸片段的一端或两端,并且该核苷酸序列可以并且通常确实包括一个或多个通用序列。通用序列可以例如在后续步骤中用作“着陆垫”以使可以用作引物用于在后续连接、引物延伸或扩增步骤中添加另一核苷酸序列(例如索引)的核苷酸序列与核酸片段退火。这种引物的核苷酸序列可以任选地包括索引序列。处理细胞核或细胞中的核酸可以向通过处理产生的核酸片段的一端或两端添加一个或多个独特的分子标识。在该方法中存在几个可以发生核酸处理成核酸片段的点。例如,在一个实施方案中,可以在分布分离的细胞核或细胞的子集之前处理分离的细胞核或细胞。在如该实施方案的实施方案中,处理通常包括向核酸片段添加通用序列和/或通用分子标识,但非隔室特异性索引,因为当所有分离的细胞核或细胞组合时添加隔室特异性索引通常没有用。在另一个实施方案中,可以在将子集分布到不同的隔室中之后处理分离的细胞核或细胞(例如,图1a和图1b)。在该实施方案的一个方面,处理不添加索引(图1a,方框1),并且在该实施方案的另一个方面,处理可以包括添加隔室特异性索引(图1b,方框1)。该方法中任何点的处理可包括向核酸片段的一端或两端添加通用序列和/或通用分子标识。用于将细胞核或细胞中的核酸处理成核酸片段的各种方法是已知的。实例包括crispr和talen样酶,以及可以形成dna片段可以与其杂交并启动延伸或扩增的单链区域的解开dna的酶(例如解旋酶)。例如,可以使用基于解旋酶的扩增(vincent等,2004,emborep.,5(8):795-800)。在一个实施方案中,延伸或扩增用随机引物启动。在一个实施方案中,使用转座体复合物。转座体复合物是与转座酶识别位点结合的转座酶,并且可以在有时称为“标签化(tagmentation)”的过程中将转座酶识别位点插入细胞核内的靶核酸中。在一些此类插入事件中,转座酶识别位点的一条链可以转移到靶核酸中。这样的链被称为“转移链”。在一个实施方案中,转座体复合物包括具有两个亚基的二聚体转座酶和两个不连续的转座子序列。在另一个实施方案中,转座酶包括具有两个亚基的二聚体转座酶和连续转座子序列。在一个实施方案中,转座酶识别位点的一条或两条链的5'末端可以被磷酸化。一些实施方案可以包括使用超活性的tn5转座酶和tn5型转座酶识别位点(goryshin和reznikoff,j.biol.chem.,273:7367(1998)),或mua转座酶和包含r1和r2末端序列的mu转座酶识别位点(mizuuchi,k.,cell,35:785,1983;savilahti,h等,emboj.,14:4893,1995)。tn5mosaic末端(me)序列也可以由技术人员优化而使用。可与本文提供的组合物和方法的某些实施方案一起使用的转座系统的更多实例包括金黄色葡萄球菌tn552(colegio等人,j.bacteriol.,183:2384-8,2001;kirbyc等人,mol.microbiol.,43:173-86,2002)、ty1(devine&boeke,nucleicacidsres.,22:3765-72,1994和国际公开wo95/23875)、转座子tn7(craig,nl,science.271:1512,1996;craig,nl,currtopmicrobiolimmunol.中综述,204:27-48,1996)、tn/o和is10(klecknern等人,currtopmicrobiolimmunol.,204:49-82,1996)、mariner转座酶(lampedj等人,emboj.,15:5470-9,1996)、tc1(plasterkrh,curr.topicsmicrobiol.immunol.,204:125-43,1996)、p元件(gloor,gb,methodsmol.biol.,260:97-114,2004)、tn3(ichikawa&ohtsubo,jbiol.chem.265:18829-32,1990)、细菌插入序列(ohtsubo&sekine,curr.top.microbiol.immunol.204:1-26,1996)、逆转录病毒(brown等人,procnatlacadsciusa,86:2525-9,1989)和酵母的逆转录转座子(boeke&corces,annurevmicrobiol.43:403-34,1989)。更多实例包括is5、tn10、tn903、is911和转座酶家族酶的工程化形式(zhang等人,(2009)plosgenet.5:e1000689.epub2009oct16;wilsonc.等人(2007)j.microbiol.methods71:332-5)。可与本文提供的方法和组合物一起使用的整合酶的其他例子包括逆转录病毒整合酶和用于这种逆转录病毒整合酶的整合酶识别序列,例如来自hiv-1、hiv-2、siv、pfv-1、rsv的整合酶。可用于本文所述的方法和组合物的转座子序列在美国专利申请公开no.2012/0208705、美国专利申请公开no.2012/0208724和国际专利申请公开no.wo2012/061832中提供。在一些实施方案中,转座子序列包括第一转座酶识别位点和第二转座酶识别位点。在其中使用转座体复合物引入索引序列的那些实施方案中,索引序列可以存在于转座酶识别位点之间或转座子中。本文中可用的一些转座体复合物包括具有两个转座子序列的转座酶。在一些这样的实施方案中,两个转座子序列不彼此连接,换句话说,转座子序列是彼此不连续的。这些转座体的实例是本领域已知的(参见,例如,美国专利申请公开no.2010/0120098)。在一些实施方案中,转座体复合物包括结合两个转座酶亚基以形成“成环复合物”或“成环转座体”的转座子序列核酸。在一个实例中,转座体包括二聚体转座酶和转座子序列。成环复合物可以确保将转座子插入靶dna中而同时保持原始靶dna的有序信息且不需要靶dna片段化。如应理解的,成环结构可以将所需的核酸序列如索引插入到靶核酸中而同时保持靶核酸的物理连接性。在一些实施方案中,成环转座体复合物的转座子序列可包含片段化位点,使得转座子序列可被片段化以产生包含两个转座子序列的转座体复合物。这样的转座体复合物可用于确保转座子插入其中的邻近靶dna片段接收条码组合,该编码组合可在测定的后期阶段明确地组装。在一个实施方案中,核酸片段化通过使用核酸中存在的片段化位点来实现。通常,通过使用转座体复合物将片段化位点引入靶核酸中。在一个实施方案中,在核酸片段化后,转座酶保持附接在核酸片段上,使得源自同一基因组dna分子的核酸片段保持物理连接(adey等人,2014,genomeres,24:2041-2049)。例如,成环的转座体复合物可包括片段化位点。片段化位点可用于切割已插入靶核酸中的索引序列之间的物理而非信息联系。切割可以通过生化、化学或其他方式进行。在一些实施方案中,片段化位点可包括核苷酸或可以通过各种方式片段化的核苷酸序列。片段化位点的实例包括但不限于限制性核酸内切酶位点、可用rna酶切割的至少一个核糖核苷酸、在某种化学试剂存在下可被切割的核苷酸类似物、可通过用高碘酸盐处理而切割的二醇连接、可用化学还原剂切割的二硫化物基团、可经历光化学切割的可切割部分以及可通过肽酶或其他合适方式切割的肽(参见,例如,美国专利申请公开号2012/0208705、美国专利申请公开号2012/0208724和wo2012/061832)。转座体复合物可任选地包括至少一个索引序列,且也可称为转座酶索引。索引序列作为转座子序列的部分存在。在一个实施方案中,索引序列可以存在于转移链(转移到靶核酸中的转移链识别位点的链)上。转座体复合物可以任选地包括至少一个索引序列,并且可以被称为转座酶索引。索引序列作为转座子序列的部分存在。在一个实施方案中,索引序列可以存在于转移链(转移到靶核酸中的转座酶识别位点的链)上。转座体复合物可以任选地包括至少一个可以被线性扩增介体使用的核苷酸序列。当核酸片段包括噬菌体启动子(例如与t7启动子一起使用的t7rna聚合酶)和线性扩增引物时,此类核苷酸序列的实例包括但不限于rna聚合酶。线性扩增引物的实例包括用于pcr型扩增的单一引物或线性扩增介体。线性扩增介体可以使用的核苷酸序列的其他实施方案是被链置换聚合酶识别的序列。介体可以包含切口位点以启动复制。在某些情况下,切口位点会被再生用于另外的扩增。添加隔室特异性索引索引序列,也称为标签或条码,可用作其中存在特定核酸的隔室的标志物特征。因此,索引是附接于存在于特定隔室中的每个靶核酸上的核酸序列标签,其存在指示或用于鉴定在该方法的特定阶段其中分离的细胞核或细胞群体存在的隔室。索引添加到核酸片段用分布到不同隔室的分离的细胞核或细胞的子集来实现。索引序列的长度可以是任何合适的核苷酸数,例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个。四核苷酸的标签在同一阵列上给出复用256个样品的可能性,而六碱基的标签能够在同一阵列上处理4096个样品。在一个实施方案中,索引的添加在核酸处理成核酸片段的过程中实现。例如,可以使用包括索引的转座体复合物。在其它实施方案中,索引在通过处理产生在一端或两端包含核苷酸序列的核酸片段后添加。添加索引的方法包括但不限于连接、延伸(包括使用逆转录酶的延伸)、杂交、吸附、引物的特异性或非特异性相互作用或扩增。添加到核酸片段的一个或两个末端的核苷酸序列还可以包括一个或多个通用序列和/或独特的分子标识。通用序列可以在随后的步骤中例如用作“着陆垫”以使核苷酸序列退火,该核苷酸序列可以用作向核酸片段添加另一核苷酸序列(如另一索引和/或另一通用序列)的引物。例如,在包括使用衍生自mrna的核酸片段的实施方案中,可以使用各种方法在一或两个步骤中向mrna添加索引。例如,可以使用用于产生cdna的方法的类型来添加索引。可将3'端带有聚t序列的引物与mrna分子退火,并使用逆转录酶进行延伸。在适合于逆转录的条件下将分离的细胞核或细胞暴露于这些组分导致索引添加的一个步骤,从而得到索引的细胞核或细胞群体,其中每个细胞核或包含索引的核酸片段。或者,具有聚t序列的引物包括通用序列而不是索引,并且索引通过连接、引物延伸、扩增。索引的核酸片段可以并且通常确实在合成链上包括指示特定隔室的索引序列。在包括使用源自非编码rna的核酸片段的实施方案中,可以使用各种方法在一个或两个步骤中向非编码rna添加索引。例如,可以使用包括随机序列和模板转换引物的第一引物添加索引,其中任一引物可以包含索引。可以使用具有末端转移酶活性的逆转录酶以导致在合成链的3'端添加非模板核苷酸,并且模板转换引物包括与通过逆转录酶添加的非模板核苷酸退火的核苷酸。有用的逆转录酶的例子是莫洛尼氏鼠白血病病毒逆转录酶。在特定的实施方案中,购自takarabiousa,inc.的smartertm试剂(目录号634926)用于模板转换的用途以向非编码rna和mrna(如果需要)添加索引。或者,第一引物和/或模板转换引物可包括通用序列而不是索引,并且该索引通过连接、引物延伸或扩增的后续步骤添加。索引的核酸片段可以并且通常确实在合成链上包括指示特定隔室的索引序列。其他实施方案包括rna的5'或3'分型或全长rna分型。可以使用其他方法向核酸片段添加索引,并且如何添加索引并不意图是限制性的。例如,在一个实施方案中,索引序列的并入包括将引物连接至核酸片段的一个或两个末端。连接引物的连接可以通过在核酸片段的末端存在通用序列来辅助。引物的非限制性实例是发夹连接双链体。连接双链体可连接至核酸片段的一端或优选两端。在一个实施方案中,引物如发夹连接双链体可以包含被线性扩增介体识别的核苷酸序列。实施例1,图2中描述了包含这类核苷酸的发夹接头的实例。引入仅需要在条码分子的两个末端之一成功连接以产生该分子的扩增产物的扩增介体的分析方案(例如实施例1中所描述的一种)是理想的,因为其具有提高模板转化效率的优点。例如,如果单个连接事件的效率为50%,则该修饰在扩增分子的连接步骤中获得75%的成功率,而不是25%(实施例1,图2)。在另一个实施方案中,索引序列的并入包括单链核酸片段的使用和第二dna链的合成。在一个实施方案中,使用包括与单链核酸片段末端存在的核苷酸互补的序列的引物产生第二dna链。在另一个实施方案中,索引的并入发生在一轮、两轮、三轮或更多轮的分割-合并条码化中,从而产生单、双、三或多索引的单细胞文库。在另一个实施方案中,索引和扩增介体可以使用的核苷酸序列的并入设计为单向的,从而允许制备靶向的单细胞测序文库(参见实施例1,图3b)。核酸片段的线性扩增本文提供的方法包括核酸片段的线性扩增。大多数扩增方法是基于pcr的,且因此存在指数扩增偏倚。如本文所使用的线性扩增可以减少或消除指数扩增偏倚,从而导致更好的均匀性和减少的序列误差。在利用全基因组扩增的所有单细胞基因组学方法中,扩增产物被隔室(例如孔或液滴)包含,并且条码直接或间接地连接于扩增产物。这样,每个隔室仅存在单细胞,从而限制了通量并增加了成本。本发明的独特方面是可以在单个隔室中无指数扩增偏倚的情况下扩增多个单细胞文库。来自单细胞的文库可以基于用于每个独特单细胞的一个或多个独特条码分配。在一个实施方案中,通过将噬菌体启动子添加至核酸片段的一端或两端来实现线性扩增。当置于核酸片段的上游时,噬菌体启动子可用于通过产生单链rna的体外转录使用相应的噬菌体rna聚合酶来驱动转录。从dna模板产生的rna拷贝不能用作进一步扩增的模板。因此,所有拷贝直接源自原始dna模板,并避免指数扩增。在一个实施方案中,后续步骤可以包括rna拷贝的逆转录以获得单链dna,和然后进行第二链合成以将单链dna拷贝转化成双链分子。第二链合成通常需要使用引物,并且该引物可用于引入索引、通用序列和/或通用分子标识中的一个或多个。可以使用线性扩增的其他方法。例如,pcr扩增可以用一种引物或两种引物(其中一种过量)。在一些实施方案中,线性pcr可以用于扩增与转座子插入位点邻近的侧翼序列(xianbo等ambexpress,2017,7:195)。关联线性扩增(linkedlinearamplification)(reyes等,clin.chem.,2001,47(1):31-40)、线性延伸及线性延伸和连接、链置换扩增(sda)(walker等,nucl.acidsres.,1992,20(7):1691–1696)和滚环扩增(ali等,chem.soc.rev.,2014,43:3324-3341)也可以在一些实施方案中使用。在一些实施方案中,可以在线性扩增期间将索引、通用序列和/或独特的分子标识添加至核酸片段。通常,线性扩增包括将线性扩增介体引入到分离的细胞核或细胞。当核酸片段包括噬菌体启动子(例如与t7启动子一起使用的t7rna聚合酶)和线性扩增引物时,线性扩增介体的实例包括rna聚合酶。线性扩增引物的实例包括用于pcr型扩增中的单一引物或线性扩增介体。扩增介体的其他实施方案是识别核苷酸序列的链置换聚合酶。介体可以包含切口位点以启动复制。在某些情况下,切口位点被再生以用于另外的扩增。介体可以包含独特的条码或引物,从而允许条码在扩增或扩增产物的标记过程中复制。添加用于固定的通用序列在一个实施方案中,在处理和/或索引步骤期间添加核苷酸增加了可用于固定和测序片段的通用序列。在另一个实施方案中,索引的核酸片段可以进一步处理以添加可用于固定和测序核酸片段的通用序列。技术人员将认识到,在其中隔室是液滴的实施方案中,可用于固定核酸片段的序列是任选的。在一个实施方案中,可用于固定和测序片段的通用序列的并入包括连接相同的通用衔接体(也称为“错配的接头”,其一般特征在gormley等人,us7,741,463和bignell等人,us8,053,192中有所描述)到索引的核酸片段的5'和3'端。在一个实施方案中,通用接头包括测序所需的所有序列,包括用于将索引的核酸片段固定在阵列上的序列。在一个实施方案中,可以使用平端连接。在另一个实施方案中,通过例如某些类型的dna聚合酶(例如taq聚合酶或klenowexo负聚合酶)(其具有非模板依赖性的末端转移酶活性)以添加单个脱氧核苷酸例如脱氧腺苷(a)到索引的核酸片段的3'端的活性用单个突出核苷酸制备核酸片段。在一些情况下,突出核苷酸超过一个碱基。此类酶可用于添加单个核苷酸“a”到核酸片段的每条链的平端3'末端。因此,可以通过与taq或klenowexo负聚合酶反应将“a”添加到双链靶片段的每条链的3'末端,而待添加到核酸片段的每个末端的其他序列可以包括待添加的双链核酸每个区域的3'末端上存在的相容性“t”突出端。该末端修饰也防止核酸的自连接,使得存在导致朝向于形成在该实施方案中添加的序列侧翼的索引的核酸片段的偏倚。在另一个实施方案中,当连接至索引的核酸片段的通用接头不包括测序所需的所有序列时,则可以在固定和测序之前使用扩增步骤,例如pcr,来进一步修饰每个索引核酸片段中存在的通用接头。例如,可以使用与索引的核酸片段中存在的通用序列互补的通用锚序列来进行初始引物延伸反应,其中形成与各单个索引核酸片段的两条链互补的延伸产物。通常,pcr添加另外的通用序列,例如通用捕获序列。添加通用接头后,通过连接包括测序所需的所有序列的通用接头的单步方法,或通过连接通用接头和然后扩增以进一步修饰通用接头的两步方法,最终索引片段包括通用捕获序列和锚序列。在每个末端添加通用接头的结果是多个索引的核酸片段或索引的核酸片段的文库。所得的索引的核酸片段共同提供了可以固定和然后测序的核酸文库。术语文库,在本文中也称为测序文库,是指来自单个细胞核或细胞的在其3'和5'端包含已知通用序列的核酸片段的集合。索引的核酸片段可以经受针对预定大小范围选择的条件,例如长度150至400个核苷酸,如150至300个核苷酸。合并所得的索引核酸片段,并任选地可以进行清理过程以通过去除至少一部分未并入的通用接头或引物来提高dna分子的纯度。可以使用任何合适的清理过程,例如电泳、尺寸排阻色谱等。在一些实施方案中,可采用固相可逆固定顺磁性珠以将所需的dna分子与未连接的通用接头或引物分离,并基于大小选择核酸。固相可逆固定顺磁珠可购自beckmancoulter(agencourtampurexp)、thermofisher(magjet)、omegabiotek(mag-bind)、promegabeads(promega)和kapabiosystems(kapapurebeads)。本公开的非限制性说明性实施方案在图2中示出并在实施例1中描述。在这一实施方案中,该方法包括提供来自多个细胞的分离的细胞核(图2,方框22)。分离的细胞核可以是无核小体的,或可以经受耗尽细胞核的核小体的条件,从而产生核小体耗尽的细胞核(图2,方框23)。在这一实施方案中,该方法包括将核小体耗尽的细胞核的子集分布到第一多个隔室中(图2,方框24)。在第一分布步骤(图2,方框24)中隔室的数量可以取决于使用的格式。在一个实施方案中,隔室的数量为24。每个隔室包括转座体复合物。可以在将细胞核的子集添加到隔室之前、之后或同时将转座体复合物添加到每个隔室。转座体复合物包括至少一个索引序列和至少一个通用序列。作为转座体复合物的部分存在的通用序列可以称为间隔区序列。间隔区序列作为转座子序列的部分存在。在一个实施方案中,间隔区序列可以存在于转移链(转移到靶核酸中的转移酶识别位点的链)上。间隔区序列可用作与互补序列退火的位点。例如,间隔区序列可以是通用引物,或通用引物的互补序列。对于每个隔室,转座体复合物的间隔区序列可以相同。在一个实施例中,索引(“bc1”)和间隔区(“sp1”)存在于突出端中,其以实施例1的图s2a中所示的定向排列。该方法还包括产生索引的细胞核(图2,方框25)。在一个实施方案中,产生索引的细胞核包括将核小体耗尽的细胞核的子集中存在的核酸(例如,每个隔室中存在的核酸)处理成多个核酸片段。在一个实施方案中,在核酸片段化后,转座酶保持附接于核酸片段,使得源自同一基因组dna分子的核酸片段保持物理连接(adey等,2014,genomeres.,24:2041-2049)。片段化的结果是索引的细胞核的群体,其中每个细胞核包含索引的核酸片段。转座体复合物的索引序列对于每个隔室是不同的,因此,索引的核酸片段可以并且通常确实在至少一条链上包括指示特定隔室的索引序列。索引的核酸片段的实例显示在实施例1的图s2a的加框部分中。来自多个隔室的索引的细胞核可以被组合(图2,方框26)。然后,这些组合的索引细胞核的子集分布到第二多个隔室中。子集中存在的细胞核的数目以及因此在每个隔室中的其数目部分地基于减少索引冲突(其是在该方法的这一步骤中最终在同一隔室中具有相同转座酶索引的两个细胞核的存在)的需求。在一个实施方案中,每个子集存在的细胞核数目近似相等。细胞核分布到子集中后将第二索引序列并入每个隔室中的索引的核酸片段中以产生双索引片段。这导致索引的核酸片段的进一步索引(图2,方框27)。在其中细胞通过交联剂交联的那些实施方案中,可以将与索引的核酸片段连接的转座酶从索引的核酸片段解离。可以使用清洁剂使转座酶解离,并且在一个实施方案中,清洁剂是十二烷基硫酸钠(sds)。在一个实施方案中,第二索引序列的并入包括将发夹连接双链体连接至每个隔室中的索引的核酸片段。连接双链体可以连接至双索引的核酸片段的一端或优选两端。在一个实施方案中,连接双链体包括五个元件:1)第一间隔区序列(例如,实施例1的图s2b中的“sp1”)的反向互补序列,其在本文所述的连接步骤中用作“着陆垫”;2)第二轮条码的反向互补序列;3)第二链合成(sss)引物的反向互补序列;4)t7启动子,其优选为发夹的环区域;5)用于增强t7转录的以ggg开始的第二链合成(sss)引物区(第二间隔区序列,实施例1的图s2b中的“sp2”);和6)第二轮条码第二索引序列(实施例1的图s2b中的“bc2”)。对于其中分布的索引的细胞核在通过标签化添加第一索引后放置的每个隔室,第二索引序列是独特的(图2,方框27)。来自多个隔室的索引的细胞核可以被组合(图2,方框28)。然后将这些组合的索引细胞核的子集分配到第三多个隔室中。子集中且因此在每个隔室中存在的细胞核的数目部分地基于减少索引冲突(其是在该方法的这一步骤中最终在相同隔室中具有相同转座酶索引的两个细胞核的存在)的需求。在一个实施方案中,100至300个细胞分布至每个孔。在一个实施方案中,多达300个细胞分布至每个孔。在一个实施方案中,每个子集存在的细胞核数近似相等。将双索引的细胞核分布到子集中之后进行裂解和进一步操作(图2,方框29)。用于细胞核的裂解的方法是技术人员已知的和常规的。进一步的操作包括但不限于缺口延伸、体外转录(ivt)和逆转录。缺口延伸将发夹t7启动子结构转化为双链体(实施例1的图s2c)。具有链置换活性的聚合酶通常用于缺口延伸。具有这种活性的聚合酶,例如bst聚合酶,是可获得的。ivt在t7启动子的下游产生线性扩增的单链rna分子(实施例1的图s2d)。ivt的方法是已知且常规的。逆转录可以通过两种途径之一发生(实施例1的图s2e)。本文所述的连接反应产生两种类型的核酸片段:在两端具有连接双链体的核酸片段和在一端具有连接双链体的核酸片段。如果连接在两端成功,则可以通过自身成环的逆转录引物启动逆转录,该引物是从成环的连接双链体继承的;如果连接仅在一端成功,则通过过量添加的另外的rna逆转录引物启动逆转录。核酸的裂解和核酸片段的处理后将第三索引序列并入每个隔室中的双索引的核酸片段中以产生三索引的片段,其中每个隔室中的第三索引序列与其他隔室中的第一和第二索引序列不同,并且每个隔室中的第三索引序列与其他隔室中的第三索引序列不同。这导致在固定和测序之前索引的核酸片段的进一步索引(图2,方框30;实施例1的图s2f)。第三索引可以通过第二dna链的合成并入。在一个实施方案中,第二dna链使用包括与双索引的核酸片段的末端处存在的核苷酸互补的序列的引物产生。例如,引物可以包括第二间隔区序列(sp2),其将与第二间隔区序列的反向互补序列退火(实施例1的图s2f)。引物进一步包括第三索引(实施例1的图s2f中的“bc3”)和其他独特分子标识(umi)。可以使用常规方法纯化所得的双链dna。可以制备多个三索引的片段用于测序。在合并三索引的片段后,在测序之前通常通过固定和/或扩增来富集它们(图2,方框31)。用于测序的固定样品的制备可以制备多个索引的片段用于测序。例如,在其中产生三索引片段的文库的那些实施方案中,三索引的片段在测序之前被富集,通常通过固定和/或扩增(图2方框21)。用于将来自一个或多个来源的索引片段附接到基质的方法是本领域已知的。在一个实施方案中,使用对索引的片段具有特异性的多种捕获寡核苷酸富集索引的片段,并且可以将捕获寡核苷酸固定在固体基质的表面上。例如,捕获寡核苷酸可包括通用结合对的第一成员,并且其中结合对的第二成员固定在固体基质的表面上。同样,用于扩增固定的双索引片段的方法包括但不限于桥接扩增和动力学排除。测序之前用于固定和扩增的方法描述于例如bignell等(us8,053,192)、gunderson等(wo2016/130704)、shen等(us8,895,249)和pipenburg等(us9,309,502)中。可以将合并的样品固定以准备测序。测序可以作为单分子阵列进行,或可以在测序前进行扩增。可以使用一种或多种固定的引物进行扩增。固定的引物可以是例如平面上或珠的池上的草坪(lawn)。可以将珠的池分离到乳液中,每个乳液的“隔室”中具有单个珠。每个“隔室”仅一个模板的浓度下,仅一个模板在每个珠上扩增。如本文所用,术语“固相扩增”是指在固体支持物上或与固体支持物结合进行的任何核酸扩增反应,使得全部或部分扩增产物在其形成时固定在固体支持物上。特别地,该术语涵盖固相聚合酶链反应(固相pcr)和固相等温扩增,其是类似于标准溶液相扩增的反应,除了将正向和反向扩增引物之一或两者固定在固体支持物上。固相pcr涵盖了如乳液(其中一个引物锚定在珠上,另一个在游离溶液中),和固相凝胶基质中的菌落形成(其中一个引物锚定在表面上,和一个引物在游离溶液中)的系统。在一些实施方案中,固体支持物包括图案化的表面。“图案化表面”是指固体支持物的暴露层中或其上不同区域的布置。例如,一个或多个区域可以是其中存在一种或多种扩增引物的特征。这些特征可以通过其中不存在扩增引物的间隙区域分开。在一些实施方案中,图案可以是成行和列的特征的x-y格式。在一些实施方案中,图案可以是特征和/或间隙区域的重复排列。在一些实施方案中,图案可以是特征和/或间隙区域的随机排列。可以在本文阐述的方法和组合物中使用的示例性图案化表面在美国专利no.8,778,848、8,778,849和9,079,148及美国公开no.2014/0243224中有所描述。在一些实施方案中,固体支持物包括表面中的孔或凹陷的阵列。这可以如本领域中一般所知的使用多种技术来制造,包括但不限于光刻、压印技术、模制技术和微蚀刻技术。如本领域技术人员理解的,使用的技术取决于阵列基质的组成和形状。图案化表面中的特征可以是玻璃、硅、塑料或具有图案化的、共价连接的凝胶(例如聚(n-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺(pazam,参见,例如,美国公开号2013/184796、wo2016/066586和wo2015/002813))的其他适合的固体支持物上的孔(例如微孔或纳米孔)阵列中的孔。该过程建立了用于测序的凝胶垫,该凝胶垫在具有大量循环的测序运行中可以是稳定的。聚合物与孔的共价连接有助于在各种用途期间在结构化基质的整个寿命中保持在结构化特征中的凝胶。但是,在许多实施方案中,凝胶不需要与孔共价连接。例如,在某些条件中,可以将未共价连接到结构化基质的任何部分上的无硅烷丙烯酰胺(sfa,参见例如美国专利号8,563,477)用作凝胶材料。在特定的实施方案中,可以通过用孔(例如微孔或纳米孔)对固体支持材料进行图案化,用凝胶材料(例如pazam、sfa或其化学修饰的变体,如sfa的叠氮基化(azidolyzed)形式(azido-sfa))涂覆图案化的支持物和抛光凝胶涂覆的载体(例如,通过化学或机械抛光)来制备结构化基质,从而将凝胶保留在孔中,但从结构化基质表面上的间隙区域去除或灭活孔之间的基本上所有凝胶。引物核酸可以附着于凝胶材料。然后可以使索引的片段的溶液与抛光的基质接触,使得单个索引的片段通过与附着于凝胶材料上的引物的相互作用接种单个孔;然而,由于凝胶材料的缺乏或无活性,靶核酸不占据间隙区域。索引的片段的扩增被局限于孔,因为在间隙区域中凝胶的缺乏或失活阻止了生长的核酸集落的向外迁移。该方法可以方便地制造、可扩展和利用常规的微米或纳米制造方法。虽然本公开涵盖其中仅固定一个扩增引物(另一引物通常存在于游离溶液中)的“固相”扩增方法,但是在一个实施方案中,优选为固体支持物提供固定的正向和反向引物两者。实际上,由于扩增过程需要过量的引物来维持扩增,因此存在固定在固体支持物上的“多个”相同的正向引物和/或“多个”相同的反向引物。除非上下文另外指出,本文对正向和反向引物的引用应相应地解释为涵盖“多个”此类引物。如本领域技术人员理解的,任何给定的扩增反应需要对扩增的模板具有特异性的至少一种类型的正向引物和至少一种类型的反向引物。然而,在某些实施方案中,正向和反向引物可以包括相同序列的模板特异性部分,并且可以具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换句话说,有可能仅使用一种引物进行固相扩增,并且这种单引物方法涵盖在本公开的范围内。其他实施方案可以使用包含相同的模板特异性序列但在某些其他结构特征上不同的正向和反向引物。例如,一种类型的引物可以包含在另一引物中不存在的非核苷酸修饰。在本公开的所有实施方案中,用于固相扩增的引物优选通过在引物的5'端处或附近单点共价连接至固体支持物而固定,使引物的模板特异性部分自由与其同源模板退火,并且3'羟基自由用于引物延伸。为此目的,可以使用本领域已知的任何合适的共价连接方式。选择的连接化学取决于固体支持物的性质以及应用于其的任何衍生化或功能化。引物本身可以包括可以是非核苷酸化学修饰的部分以促进连接。在特定的实施方案中,引物可在5'末端包括含硫亲核试剂,例如硫逐磷酸酯或硫代磷酸酯。在固体负载的聚丙烯酰胺水凝胶的情况下,该亲核试剂结合水凝胶中存在的溴乙酰胺基团。如wo05/065814中所述,将引物和模板附接到固体支持物上的更具体的方式是经由与由聚合的丙烯酰胺和n-(5-溴乙酰胺基戊基)丙烯酰胺(brapa)组成的水凝胶的5'硫逐磷酸酯连接。本公开的某些实施方案可以利用包括已“功能化”(例如通过施加包括反应性基团的中间材料的层或涂层)的惰性基材或基质(例如载玻片,聚合物珠等)的固体载体,该反应性基团允许共价连接到生物分子,如多核苷酸。此类载体的实例包括但不限于负载在惰性基质如玻璃上的聚丙烯酰胺水凝胶。在这样的实施方案中,生物分子(例如多核苷酸)可以直接共价连接至中间材料(例如水凝胶),但是中间材料本身可以非共价连接至基材或基质(例如玻璃基质)。术语“与固体支持物共价连接”相应地解释为涵盖这种类型的布置。合并的样品可以在珠上扩增,其中每个珠子包含正向和反向扩增引物。在特定的实施方案中,索引片段的文库用于制备核酸集落的簇集阵列,类似于美国公开no.2005/0100900、美国专利no.7,115,400、wo00/18957和wo98/44151中所述的,通过固相扩增和更特别地通过固相等温扩增。术语“簇”和“集落”在本文中可互换使用以指固体支持物上的离散位点,其包括多个相同的固定的核酸链和多个相同的固定的互补核酸链。术语“簇集阵列”是指由这样的簇或集落形成的阵列。在这种情况中,术语“阵列”不应被理解为需要簇的有序排列。术语“固相”或“表面”用于表示其中引物连接于平坦表面的平面阵列,例如玻璃、二氧化硅或塑料显微镜载玻片或类似的流动池装置;珠,其中一个或两个引物连接于珠,并且珠被扩增;或在珠扩增后在表面上的珠阵列。可以使用如wo98/44151中所述的热循环方法或其中温度保持恒定并且使用试剂的改变进行延伸和变性的循环的方法来制备簇集阵列。这样的等温扩增方法在专利申请号wo02/46456和美国公开no.2008/0009420中描述。由于在等温过程中可用的较低温度,这在一些实施方案中是特别优选的。应当理解,本文所述或本领域通常已知的任何扩增方法可与通用或靶特异性引物一起使用以扩增固定的dna片段。合适的扩增方法包括但不限于聚合酶链反应(pcr)、链置换扩增(sda)、转录介导扩增(tma)和基于核酸序列的扩增(nasba),如美国专利no.8,003,354中所述。可以采用上述扩增方法来扩增一种或多种目的核酸。例如,可以利用pcr,包括多重pcr、sda、tma、nasba等来扩增固定的dna片段。在一些实施方案中,特异性针对目的多核苷酸的引物包括在扩增反应中。用于多核苷酸扩增的其他合适方法可包括寡核苷酸延伸和连接、滚环扩增(rca)(lizardi等人,nat.genet.19:225-232(1998))和寡核苷酸连接测定(ola)技术(一般参见美国专利号7,582,420、5,185,243、5,679,524和5,573,907;ep0320308b1;ep0336731b1;ep0439182b1;wo90/01069;wo89/12696;和wo89/09835)。应当理解,可以设计这些扩增方法以扩增固定的dna片段。例如,在一些实施方案中,扩增方法可包括连接探针扩增或寡核苷酸连接测定(ola)反应,其包含特异性针对目的核酸的引物。在一些实施方案中,扩增方法可以包括引物延伸-连接反应,其包含特异性地针对目的核酸的引物。作为可以特别地设计来扩增目的核酸的引物延伸和连接引物的非限制性例子,扩增可以包括用于goldengate分析的引物(illumina,inc.,sandiego,ca),如通过美国专利no.7,582,420和7,611,869示例的。dna纳米球也可以与本文所述的方法和组合物结合使用。产生和利用dna纳米球进行基因组测序的方法可以在例如美国专利和公开u.s.专利no.7,910,354、2009/0264299、2009/0011943、2009/0005252、2009/0155781、2009/0118488中找到且在例如drmanac等人,2010,science327(5961):78-81中描述。简而言之,在将基因组文库dna片段化接头连接至片段后,接头连接的片段通过与环状连接酶的连接环化并进行滚环扩增(如lizardi等,1998.nat.genet.19:225-232和us2007/0099208a1中所述)。扩增子的延伸的串接结构促进了卷曲,从而产生了紧密的dna纳米球。dna纳米球可以捕获在基质上,优选地以产生有序的或图案化的阵列,使得维持各纳米球之间的距离从而允许对单独的dna纳米球进行测序。在一些实施方案中,例如由completegenomics(mountainview,ca)使用的那些实施方案,在环化之前进行连续轮的接头连接、扩增和消化以产生具有通过接头序列分开的几个基因组dna片段的头-尾构建体。可以在本公开的方法中使用的示例性等温扩增方法包括但不限于,例如由dean等人,proc.natl.acad.sci.usa99:5261-66(2002)所例示的多重置换扩增(mda)或例如由美国专利no.6,214,587所例示的等温链置换核酸扩增。可以在本公开中使用的其他基于非pcr的方法包括例如链置换扩增(sda),其在例如walker等人,molecularmethodsforvirusdetection,academicpress,inc,1995;美国专利no.5,455,166和5,130,238以及walker等人,nucl.acidsres.20:1691-96(1992)中描述,或超分支链置换扩增,其在例如lage等人,genomeres.13:294-307(2003)中描述。等温扩增方法可以用于例如链置换phi29聚合酶或bstdna聚合酶大片段(5'->3'exo-)用于基因组dna的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力使聚合酶产生长度为10-20kb的片段。如上所述,可以使用具有低持续合成能力和链置换活性的聚合酶,例如klenow聚合酶,在等温条件下产生较小的片段。在美国专利号7,670,810的公开中详细给出了扩增反应、条件和组分的其他描述。在本公开中有用的另一多核苷酸扩增方法是标记pcr,其使用具有恒定的5'区然后随机3'区的两结构域引物的群体,例如在grothues等nucleicacidsres.21(5):1321-2(1993)中所述。进行第一轮扩增以允许基于来自随机合成3'区的个体杂交在热变性dna上的大量启动。由于3'区的性质,启动的位点被认为在整个基因组中是随机的。此后,未结合的引物可以除去,并且可以使用与恒定5'区互补的引物进行进一步的复制。在一些实施方案中,可以使用动力学排除扩增(kea),也称为排阻扩增(examp)进行等温扩增。可以使用包括以下步骤的方法来制备本公开的核酸文库:使扩增试剂反应以产生多个扩增位点,每个扩增位点包括来自已接种该位点的单个靶核酸的基本上克隆的扩增子群体。在一些实施方案中,扩增反应进行直到产生足够数量的扩增子以填充相应扩增位点的容量。以这种方式填充已接种的位点抑制了靶核酸在该位点着陆和扩增的能力,从而在该位点产生了扩增子的克隆群体。在一些实施方案中,即使扩增位点在第二靶核酸到达该位点之前未填充至其容量,也可以实现明显的克隆性。在一些条件下,第一靶核酸的扩增可以进行到制备足够数量的拷贝以有效地竞争或压倒运输至该位点的第二靶核酸的拷贝的产生的点。例如,在对直径小于500nm的圆形特征上使用桥连扩增过程的实施方案中,已经确定在对第一靶核酸进行14个循环的指数扩增后,来自相同位点的第二靶核酸的污染产生数量不足的污染扩增子而不利地影响illumina测序平台上的合成测序分析。在一些实施方案中,阵列中的扩增位点可以但不一定是完全克隆的。而是,对于某些应用,单个扩增位点可以主要由来自第一索引片段的扩增子填充,并且还可以具有来自第二靶核酸的低水平的污染扩增子。阵列可以具有一个或多个具有低水平污染扩增子的扩增位点,只要污染水平不会对阵列的后续使用产生不可接受的影响。例如,当阵列用于检测应用中时,可接受的污染水平是不会以不可接受的方式影响信噪比或检测技术的分辨率的水平。因此,明显的克隆性通常与通过本文阐述的方法制成的阵列的特定用途或应用有关。对于特定应用在单个扩增位点处可接受的示例性污染水平包括但不限于至多0.1%、0.5%、1%、5%、10%或25%的污染扩增子。阵列可以包括一个或多个具有这些示例性污染扩增子水平的扩增位点。例如,阵列中多达5%、10%、25%、50%、75%或甚至100%的扩增位点可以具有一些污染扩增子。应理解,在阵列或其他位点集合中,至少50%、75%、80%、85%、90%、95%或99%或更多的位点可以是克隆的或明显克隆的。在一些实施方案中,当过程以足够快的速率发生以有效地排除另一事件或过程发生时,可以发生动力学排除。以制备其中将阵列的位点用来自溶液的三索引片段随机接种且在扩增过程中产生三索引片段的拷贝以填充每个接种位点至容量的核酸阵列为例。根据本公开的动力学排除方法,接种和扩增过程可以在其中扩增速率超过接种速率的条件下同时进行。这样,在已经被第一靶核酸接种的位点处形成拷贝的相对快速速率有效地排除第二核酸接种该位点用于扩增。动力学排除扩增方法可以如美国专利申请公开no.2013/0338042中详细描述的进行。动力学排除可以利用相对缓慢的启动扩增的速率(例如,形成索引片段的第一拷贝的缓慢速率)与相对较快的形成三索引片段(或索引片段的第一拷贝)的后续拷贝的速率。在之前段落的示例中,由于索引片段接种的相对较慢速率(例如,相对缓慢的扩散或转运)与扩增发生以用索引片段种子的拷贝填充位点的相对较快速率而发生动力学排除。在另一示例性实施方案中,动力学排除可由于已接种位点的索引片段的第一拷贝的形成延迟(例如延迟或缓慢激活)与形成后续拷贝以填充位点的相对较快速率而发生。在该示例中,单个位点可能已接种了几个不同的索引片段(例如,在扩增之前每个位点可以存在几个索引片段)。但是,可以随机激活任何给定索引片段的第一拷贝形成,使得与产生后续拷贝的速率相比,第一拷贝形成的平均速率相对较慢。在这种情况下,尽管单个位点可能已接种几个不同的索引片段,但动力学排除仅允许扩增那些索引片段中的一个。更具体地,一旦第一索引片段被激活用于扩增,该位点迅速用其拷贝填充至容量,从而防止第二索引片段的拷贝在该位点形成。在一个实施方案中,进行该方法以同时(i)以平均转运速率将索引片段运输至扩增位点,和(ii)以平均扩增速率扩增位于该扩增位点的索引片段,其中平均扩增速率超过平均转运速率(美国专利号9,169,513)。因此,在此类实施方案中,可以通过使用相对较慢的转运速率来实现动力学排除。例如,可以选择足够低的索引片段浓度以实现所需的平均转运速率,较低的浓度导致较慢的平均转运速率。替代地或另外地,可以使用高粘度溶液和/或溶液中分子拥挤试剂(molecularcrowdingreagent)的存在来降低转运速率。有用的分子拥挤试剂的实例包括但不限于聚乙二醇(peg)、聚蔗糖(ficoll)、葡聚糖或聚乙烯醇。示例性分子拥挤试剂和制剂在美国专利no.7,399,590中给出,其通过引用并入本文。可以调节以实现所需转运速率的另一因素是靶核酸的平均大小。扩增试剂可包括促进扩增子形成并且在某些情况下增加扩增子形成速率的其他组分。一个实例是重组酶。重组酶可通过允许重复的侵入/延伸来促进扩增子形成。更具体地,重组酶可以使用索引片段作为用于扩增子形成的模板促进聚合酶的索引片段侵入和聚合酶的引物延伸。该过程可以作为链反应重复,其中每轮侵入/延伸产生的扩增子在随后的轮中用作模板。由于不需要变性循环(例如通过加热或化学变性),该过程可以比标准pcr更快地发生。这样,重组酶促进的扩增可以等温地进行。通常期望在重组酶促进的扩增试剂中包括atp或其他核苷酸(或在某些情况下,不可水解的其类似物)以促进扩增。重组酶和单链结合(ssb)蛋白的混合物特别有用,因为ssb可以进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由twistdx(cambridge,uk)以twistamp试剂盒商业出售的那些。在us5,223,414和us7,399,590中阐述了重组酶促进的扩增试剂的有用成分和反应条件。可以包括在扩增试剂中以促进扩增子形成并且在某些情况下增加扩增子形成速率的组分的另一个实例是解旋酶。解旋酶可通过允许扩增子形成的链反应来促进扩增子形成。由于不需要变性循环(例如通过加热或化学变性),该过程可以比标准pcr更快地发生。这样,可以等温地进行解旋酶促进的扩增。解旋酶和单链结合(ssb)蛋白的混合物特别有用,因为ssb可以进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括由biohelix(beverly,ma)作为isoamp试剂盒商业出售的那些。此外,在us7,399,590和us7,829,284中描述了包括解旋酶蛋白的有用制剂的实例。可以包括在扩增试剂中以促进扩增子形成并且在某些情况下增加扩增子形成速率的组分的又一个实例是源点结合蛋白(originbindingprotein)。测序用途/测序方法在将索引的片段连接到表面上之后,确定固定和扩增的索引片段的序列。可以使用任何合适的测序技术进行测序,并且用于确定固定的和扩增的索引片段的序列的方法,包括链再合成,在本领域中是已知的,并且例如在bignell等人(us8,053,192)、gunderson等人(wo2016/130704)、shen等人(us8,895,249)和pipenburg等人(us9,309,502)中进行了描述。本文描述的方法可以与多种核酸测序技术结合使用。特别适用的技术是其中核酸连接在阵列中的固定位置使得它们的相对位置不变,并且其中阵列被重复成像的那些。特别适用的是其中以不同颜色通道获得图像的实施方案,例如,与用于区分一种核苷酸碱基类型与另一核苷酸碱基类型的不同标记一致。在一些实施方案中,确定索引片段的核苷酸序列的过程可以是自动化过程。优选的实施方案包括合成测序(“sbs”)技术。sbs技术通常涉及通过针对模板链的核苷酸的迭代添加的新生核酸链的酶促延伸。在sbs的传统方法中,可以在每次递送中在聚合酶存在下将单核苷酸单体提供给靶核苷酸。但是,在本文所述的方法中,在递送中存在聚合酶的情况下,可以向靶核酸提供一种以上类型的核苷酸单体。在一个实施方案中,核苷酸单体包括锁核酸(lna)或桥接核酸(bna)。核苷酸单体中lna或bna的使用提高核苷酸单体与固定的索引片段上存在的测序引物序列之间的杂交强度。sbs可以使用具有终止子(terminator)部分的核苷酸单体或没有任何终止子部分的那些核苷酸单体。使用缺少终止子的核苷酸单体的方法包括,例如,焦磷酸测序和使用γ-磷酸酯标记的核苷酸的测序,如本文中进一步详述的。在使用缺少终止子的核苷酸单体的方法中,每个循环中添加的核苷酸数量通常是可变的,并且取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的sbs技术而言,终止子在使用的测序条件下可能是有效地不可逆的,如在用于双脱氧核苷酸的传统sanger测序的情况下,或终止子可以是可逆的,如在用于通过solexa(nowillumina,inc.)开发的测序方法的情况下。sbs技术可以使用具有标记部分的核苷酸单体或缺少标记部分的那些核苷酸单体。因此,可以基于标记的特性,例如标记的荧光;核苷酸单体的特性,例如分子量或电荷;核苷酸掺入的副产物,例如焦磷酸的释放;等等来检测掺入事件。在其中测序试剂中存在两种或更多种不同核苷酸的实施方案中,不同核苷酸可以彼此区分,或者可替代地,在所使用的检测技术下,两种或更多种不同标记可能是无法区分的。例如,测序试剂中存在的不同核苷酸可以具有不同的标记,并且它们可以使用适当的光学器件来区分,如由solexa(现在illumina,inc.)开发的测序方法所举例说明的。优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测随着特定的核苷酸掺入到新生链中的无机焦磷酸(ppi)释放(ronaghi,m.,karamohamed,s.,pettersson,b.,uhlen,m.和nyren,p.(1996)“real-timednasequencingusingdetectionofpyrophosphaterelease.”analyticalbiochemistry242(1),84-9;ronaghi,m.(2001)“pyrosequencingshedslightondnasequencing.”genomeres.11(1),3-11;ronaghi,m.,uhlen,m.和nyren,p.(1998)“asequencingmethodbasedonreal-timepyrophosphate.”science281(5375),363;美国专利no.6,210,891;6,258,568和6,274,320)。在焦磷酸测序中,释放的ppi可以通过被atp硫化酶立即转化为三磷酸腺苷(atp)来检测,并且产生的atp的水平通过荧光素酶产生的光子来检测。可以将待测序的核酸连接到阵列中的特征上,并且阵列可以进行成像以捕获由于在阵列的特征处核苷酸掺入而产生的化学发光信号。用特定的核苷酸类型(例如a、t、c或g)处理阵列后,可以获得图像。每个核苷酸类型添加后获得的图像关于阵列中的哪些特征被检测到而不同。图像中的这些差异反映了阵列上特征的不同序列内容。但是,每个特征的相对位置在图像中保持不变。图像可以使用本文阐述的方法存储、处理和分析。例如,在用各种不同核苷酸类型处理阵列后获得的图像可以以与本文示例的针对基于可逆终止子的测序方法从不同检测通道获得的图像的相同方式处置。在另一示例性的sbs类型中,循环测序通过逐步添加可逆的终止子核苷酸来完成,所述可逆的终止子核苷酸包含例如可切割的或可光漂白的染料标记,例如在wo04/018497和美国专利no.7,057,026中所述。该方法由solexa(现在illuminainc.)商业化,并且也在wo91/06678和wo07/123,744中进行了描述。其中终止子可被逆转且荧光标记可被切割的荧光标记终止子的可用性促进有效的循环可逆终止(crt)测序。聚合酶也可以被共同工程化以有效地掺入修饰的核苷酸并从这些修饰的核苷酸延伸。在一些基于可逆终止子的测序实施方案中,标记在sbs反应条件下基本上不抑制延伸。但是,检测标记可以例如通过切割或降解而去除。图像可以在标记掺入阵列化的核酸特征中之后捕获。在特定实施方案中,每个循环涉及将四种不同核苷酸类型同时递送至阵列,并且每种核苷酸类型具有光谱上不同的标记。然后可以获得四个图像,每个图像使用对四个不同标记之一选择性的检测通道。或者,可以顺序添加不同的核苷酸类型,并且可以在每个添加步骤之间获得阵列的图像。在这样的实施方案中,每个图像显示已掺入的特定类型的核苷酸的核酸特征。由于每个特征的不同序列内容,在不同的图像中存在或不存在不同的特征。但是,特征的相对位置在图像中保持不变。如本文所述,可以存储、处理和分析从这种可逆终止子-sbs方法获得的图像。在图像捕获步骤之后,可以去除标记并且可以去除可逆终止子部分以用于随后的核苷酸添加和检测循环。在特定循环中检测到标记之后及在后续周期之前去除标记可以提供减少背景信号和循环之间的串扰的优点。本文阐述了有用的标记和去除方法的实例。在特定的实施方案中,一些或全部核苷酸单体可包括可逆终止子。在这样的实施方案中,可逆终止子/可切割荧光团可包括通过3'酯键连接至核糖部分的荧光团(metzker,genomeres.15:1767-1776(2005))。其他方法将终止子化学与荧光标记的切割分离(ruparel等人,procnatlacadsciusa102:5932-7(2005))。ruparel等人描述了可逆终止子的开发,其使用小的3'烯丙基来阻断延伸,但是可以容易地通过用钯催化剂的短处理而解封。荧光团经由可容易地通过30秒的长波长紫外线照射切割的可光切割的接头连接到碱基上。因此,二硫化物还原或光切割可以用作可切割的接头。可逆终止的另一种方法是使用在dntp上布置大体积染料后确保的自然终止。dntp上带电的大体积染料的存在可通过位阻和/或静电障碍充当有效的终止子。除非去除染料,一个掺入事件的存在阻止进一步的掺入。染料的切割去除荧光团并有效地逆转终止。修饰核苷酸的实例也描述于美国专利no.7,427,673和7,057,026中。可与本文描述的方法和系统一起使用的另外的示例性sbs系统和方法在美国公开no.2007/0166705、2006/0188901、2006/0240439、2006/0281109、2012/0270305和2013/0260372,美国专利申请no.7,057,026,pct公开no.wo05/065814,美国专利申请公开no.2005/0100900及pct公开no.wo06/064199和wo07/010,251中描述。一些实施方案可以使用少于四个不同标记的四种不同核苷酸的检测。例如,sbs可以使用在美国公开no.2013/0079232的并入材料中描述的方法和系统来执行。作为第一实例,可以在相同波长下检测一对核苷酸类型,但是基于该对的一个成员相对于另一个成员的强度差异,或基于该对的一个成员与对于该对的另一成员检测的信号相比导致明显的信号出现或消失的变化(例如,通过化学修饰、光化学修饰或物理修饰)区分。作为第二实例,可以在特定条件下检测四种不同核苷酸类型中的三种,而第四种核苷酸类型缺少在那些条件下可检测的标记,或者在这些条件下最少检测(例如,由于背景荧光等而导致的最小检测)。可以基于其各自信号的存在来确定将前三种核苷酸类型掺入核酸中,并且可以根据对任何信号的不存在或最小检测来确定第四核苷酸类型掺入核酸中。作为第三实例,一种核苷酸类型可包括在两个不同通道中检测的标记,而在不多于一个通道中检测其他核苷酸类型。前述的三个示例性配置不被认为是互斥的,并且可以以各种组合使用。组合所有三个实例的示例性实施方案是基于荧光的sbs方法,其使用在第一通道中检测的第一核苷酸类型(例如,具有在第一通道中被第一激发波长激发时检测的标记的datp)、在第二通道中检测的第二核苷酸类型(例如,具有在第二通道中通过第二激发波长激发时检测的标记的dctp)、在第一和第二通道中检测的第三核苷酸类型(例如,具有在两个通道中通过第一和/或第二激发波长激发时检测的至少一个标记的dttp)和缺少标记的第四核苷酸类型,其在任一通道中未检测或最少检测(例如,不具有标记的dttp)。此外,如美国公开no.2013/0079232的并入材料中所述的,可以使用单个通道获得测序数据。在这种所谓的单染料测序方法中,标记第一核苷酸类型,但是标记在产生第一图像之后去除,并且仅在产生第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中保留其标记,和第四核苷酸类型在两个图像中保持未标记。一些实施方案可以使用通过连接技术的测序。这样的技术使用dna连接酶以并入寡核苷酸并鉴定这种寡核苷酸的并入。寡核苷酸通常具有与寡核苷酸与其杂交的序列中的特定核苷酸的身份相关的不同标记。与其他sbs方法一样,图像可以在用标记的测序试剂处理核酸特征的阵列后获得。每个图像显示具有掺入的特定类型标记的核酸特征。由于每个特征的不同序列内容,在不同的图像中存在或不存在不同的特征,但是特征的相对位置在图像中保持不变。如本文所述,可以存储、处理和分析从基于连接的测序方法获得的图像。可以与本文描述的方法和系统一起使用的示例性sbs系统和方法在美国专利no.6,969,488、6,172,218和6,306,597中描述。一些实施方案可以使用纳米孔测序(deamer,d.w.&akeson,m.“nanoporesandnucleicacids:prospectsforultrarapidsequencing.”trendsbiotechnol.18,147-151(2000);deamer,d.和d.branton,“characterizationofnucleicacidsbynanoporeanalysis”,acc.chem.res.35:817-825(2002);li,j.,m.gershow,d.stein,e.brandin和j.a.golovchenko,“dnamoleculesandconfigurationsinasolid-statenanoporemicroscope”nat.mater.2:611-615(2003))。在这样的实施方案中,索引的片段穿过纳米孔。纳米孔可以是合成的孔隙或生物膜蛋白,例如α-溶血素。随着索引片段穿过纳米孔,可以通过测量孔隙的电导率的波动来鉴别每个碱基对(美国专利no.7,001,792;soni,g.v.&meller,“a.progresstowardultrafastdnasequencingusingsolid-statenanopores.”clin.chem.53,1996-2001(2007);healy,k.“nanopore-basedsingle-moleculednaanalysis.”nanomed.2,459-481(2007);cockroft,s.l.,chu,j.,amorin,m.&ghadiri,m.r.“asingle-moleculenanoporedevicedetectsdnapolymeraseactivitywithsingle-nucleotideresolution.”j.am.chem.soc.130,818-820(2008))。如本文所述,可以存储、处理和分析从纳米孔测序获得的数据。特别地,根据本文阐述的光学图像和其他图像的示例性处理,可以将数据作为图像处理。一些实施方案可以使用涉及实时监测dna聚合酶活性的方法。可以通过带有荧光团的聚合酶和γ-磷酸酯标记的核苷酸之间的荧光共振能量转移(fret)相互作用来检测核苷酸的掺入(如例如在美国专利no.7,329,492和7,211,414中描述的),或者核苷酸掺入可用零模波导(如例如在美国专利no.7,315,019中描述的)和使用荧光核苷酸类似物和工程化聚合酶(如例如在美国专利no.7,405,281和美国公开no.2008/0108082中描述的)来检测。可以将照明限制于表面束缚的聚合酶周围的zeptoliter规模的体积,使得可以在低背景下观察到荧光标记核苷酸的掺入(levene,m.j.等人“zero-modewaveguidesforsingle-moleculeanalysisathighconcentrations.”science299,682-686(2003);lundquist,p.m.等人“parallelconfocaldetectionofsinglemoleculesinrealtime.”opt.lett.33,1026-1028(2008);korlach,j.等人“selectivealuminumpassivationfortargetedimmobilizationofsinglednapolymerasemoleculesinzero-modewaveguidenanostructures.”proc.natl.acad.sci.usa105,1176-1181(2008))。如本文所述,可以存储、处理和分析从这些方法获得的图像。一些sbs实施方案包括检测在核苷酸掺入到延伸产物中时释放的质子。例如,基于释放质子的检测的测序可以使用电检测器和可从iontorrent(guilford,ct,lifetechnologies子公司)商购的相关技术或者在美国公开no.2009/0026082;2009/0127589;2010/0137143;和2010/0282617中描述的测序方法和系统。本文阐述的使用动力学排除来扩增靶核酸的方法可以容易地应用于用于检测质子的基质。更具体地,本文阐述的方法可以用于产生用于检测质子的扩增子的克隆群体。可以以多重格式有利地执行上述sbs方法,使得同时操作多个不同的索引片段。在特定的实施方案中,不同的索引片段可以在共同反应容器中或在特定基质的表面上处理。这允许以多重方式方便地递送测序试剂、去除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中,索引的片段可以为阵列形式。在阵列形式中,索引的片段通常可以以空间可区分的方式结合到表面。索引的片段可以通过直接共价连接、附接至珠或其他颗粒或者附接至聚合酶或附着于表面的其他分子来结合。阵列可以在每个位点(也称为特征)包括索引片段的单个拷贝,或者可以在每个位点或特征处存在具有相同序列的多个拷贝。如本文进一步详细描述的,多拷贝可以通过扩增方法例如桥连扩增或乳液pcr产生。本文阐述的方法可以使用具有多种密度中任一种的特征的阵列,包括例如至少约10个特征/cm2、100个特征/cm2、500个特征/cm2、1,000个特征/cm2、5,000个特征/cm2、10,000个特征/cm2、50,000个特征/cm2、100,000个特征/cm2、1,000,000个特征/cm2、5,000,000个特征/cm2或更高。本文阐述的方法的优点在于,它们用于快速且有效地平行检测多个cm2。因此,本公开提供了能够使用本领域已知的技术例如本文举例说明的那些来制备和检测核酸的集成系统。因此,本公开的集成系统可以包括能够将扩增试剂和/或测序试剂递送至一个或多个固定的索引片段的流体组件,该系统包括诸如泵、阀、储库、流体管线等的组件。流动池可以在集成系统中配置和/或使用用于检测靶核酸的集成系统中。示例性的流动池在例如美国公开no.2010/0111768和美国系列no.13/273,666中描述。如对于流动池举例说明的,集成系统的一个或多个流体组件可以用于扩增方法和检测方法。以核酸测序实施方案为例,集成系统的一个或多个流体组件可以用于本文所述的扩增方法和用于在测序方法(例如上文举例说明的那些)中测序试剂的递送。可选地,集成系统可以包括单独的流体系统以执行扩增方法和执行检测方法。能够产生扩增的核酸并确定核酸的序列的集成测序系统的例子包括但不限于miseqtm平台(illumina,inc.,sandiego,ca)和us系列no.13/273,666中描述的装置。本文还提供了组合物。在实施本文描述的方法的过程中,可以得到各种组合物。例如,可以得到包括三索引的核酸片段的组合物。还提供了多孔板,其中所述多孔板的孔包括索引的核酸片段。本文还提供了试剂盒。在一个实施方案中,试剂盒用于制备测序文库。试剂盒包括在合适的包装材料中足以用于至少一种测定或用途的量的本文所述的转座体和/或线性扩增介质。任选地,可以包括其他组分,如一种或多种核酸(包括引物、索引、通用序列或其组合)。可以包括的其他组分是如缓冲剂和溶液的试剂。通常还包括包装组分的使用说明。如本文所用,短语“包装材料”是指用于容纳试剂盒内容物的一种或多种物理结构。包装材料通过常规方法构造,一般提供无菌的、无污染的环境。包装材料可具有标签,其表明可以使用产生测序文库的组分。另外,包装材料包含说明如何使用试剂盒中的材料的说明。如本文所用,术语“包装”是指诸如玻璃、塑料、纸、箔等的容器,其能够将试剂盒的组分保持在固定的限制内。“使用说明”通常包括描述试剂浓度或至少一种测定方法参数的有形表达,如待混合的试剂和样品的相对量、试剂/样品混合物的维持时间、温度、缓冲条件等等。示例性实施方案实施方案1.一种用于制备测序文库的方法,所述测序文库包含来自多个单细胞核或单细胞的核酸,所述方法包括:在第一多个隔室中提供多个分离的细胞核或细胞,其中每个隔室包含分离的细胞核或细胞的子集,和其中所述细胞核或细胞包含核酸片段;所述细胞或细胞核引入线性扩增介体;通过线性扩增来扩增所述核酸片段;处理细胞核或细胞的每个子集以生成索引的细胞核或细胞,其中所述处理包括向所述分离的细胞核或细胞中存在的核酸片段添加第一隔室特异性索引序列以产生在分离的细胞核或细胞中存在的索引的核酸,其中所述处理包括连接、引物延伸、杂交、扩增或转座;和组合索引的细胞核或细胞以产生合并的索引的细胞核或细胞,从而从所述多个细胞核或细胞产生测序文库。实施方案2.实施方案1所述的方法,其中所述扩增在所述处理之前发生。实施方案3.实施方案1所述的方法,其中所述处理在所述扩增之前发生。实施方案4.一种用于制备测序文库的方法,所述测序文库包含来自多个单细胞核或单细胞的核酸,所述方法包括:提供多个分离的细胞核或细胞,其中细胞核或细胞包含核酸片段;向所述分离的细胞核或细胞引入线性扩增介体;将所述分离的细胞核或细胞分布到第一多个隔室中,其中每个隔室包含分离的细胞核或细胞的子集;通过线性扩增来扩增所述核酸片段;处理分离的细胞核或细胞的每个子集以生成索引的细胞核或细胞,其中所述处理包括向所述分离的细胞核或细胞中存在的核酸片段添加第一隔室特异性索引序列以产生在分离的细胞核或细胞中存在的索引的核酸,其中所述处理包括连接、引物延伸、扩增或转座;组合所述索引的细胞核以产生合并的索引的细胞核或细胞,从而从所述多个细胞核或细胞产生测序文库。实施方案5.一种用于制备测序文库的方法,所述测序文库包含来自多个单细胞核或单细胞的核酸,所述方法包括:在第一多个隔室中提供多个分离的细胞核或细胞,其中每个隔室包含分离的细胞核或细胞的子集,和其中细胞核或细胞包含核酸片段;处理细胞核或细胞的每个子集以生成索引的细胞核或细胞,其中所述处理包括向存在于所述分离的细胞核或细胞中的核酸片段添加(i)第一隔室特异性索引序列以产生存在于分离的细胞核或细胞中的索引的核酸和(ii)被线性扩增介体识别的核苷酸序列;其中所述处理包括连接、引物延伸、杂交、扩增或转座;向所述细胞或细胞核引入线性扩增介体;通过线性扩增来扩增所述核酸片段;和组合所述索引的细胞核或细胞以产生合并的索引的细胞核或细胞,从而从所述多个细胞核或细胞产生测序文库。实施方案6.实施方案1-5中任一项所述的方法,其中所述线性扩增介体包括噬菌体rna聚合酶或线性扩增引物。实施方案7.实施方案1-6中任一项所述的方法,其中所述核酸片段包含t7启动子,且所述噬菌体rna聚合酶包括t7rna聚合酶。实施方案8.实施方案1-7中任一项所述的方法,其中引入所述线性扩增介体包括向存在于所述分离的细胞核或细胞中的核酸片段添加线性扩增介体。实施方案9.实施方案1-8中任一项所述的方法,其进一步包括将每个隔室的所述多个分离的细胞核或细胞暴露于预定条件。实施方案10.实施方案1-9中任一项所述的方法,其进一步包括在所述暴露后从所述多个细胞分离细胞核。实施方案11.实施方案1-10中任一项所述的方法,其进一步包括将所述多个分离的细胞核或细胞暴露于预定条件。实施方案12.实施方案1-11中任一项所述的方法,其进一步包括使所述分离的细胞核经受产生核小体耗尽的细胞核而同时保持所述分离的细胞核的完整性的条件。实施方案13.实施方案1-12中任一项所述的方法,其中,所述处理包括:使每个子集与转座体复合物接触,其中在每个隔室中的所述转座体复合物包含与其他隔室中的第一索引序列不同的所述第一索引序列;和使所述子集中的核酸片段化为多个核酸,并将所述第一索引序列并入所述核酸的至少一条链中,以生成包含所述索引的核酸的所述索引的细胞核或细胞。实施方案14.实施方案1-13中任一项所述的方法,其中所述处理包括:使每个子集接触逆转录酶及与所述分离的细胞核中的rna分子退火的引物,其中每个隔室中的所述引物包含与其他隔室中的第一索引序列不同的所述第一索引序列,以生成包含所述索引的核酸的所述索引的细胞核或细胞。实施方案15.实施方案1-14中任一项所述的方法,其中所述接触进一步包括与特定核苷酸序列退火的靶特异性引物。实施方案16.实施方案1-15中任一项所述的方法,其中添加所述第一隔室特异性索引序列的所述处理包括将包含通用序列的核苷酸序列添加至所述核酸片段和然后添加所述第一隔室特异性索引序列至所述核酸片段的两步过程。实施方案17.实施方案1-16中任一项所述的方法,其中所述添加包括包含通用序列的转座体复合物。实施方案18.实施方案1-17中任一项所述的方法,其中所述处理包括向所述分离的细胞核或细胞中存在的dna核酸添加第一索引,向所述分离的细胞核或细胞中存在的rna核酸添加第一索引,或其组合。实施方案19.实施方案1-18中任一项所述的方法,其中所述向rna核酸添加第一索引序列包括:使每个子集接触逆转录酶和与所述分离的细胞核或细胞中的rna分子退火的引物,其中每个隔室中的所述引物包含所述第一隔室特异性索引序列以产生包含所述索引的核酸的所述索引的细胞核或细胞。实施方案20.实施方案1-19中任一项所述的方法,其中所述向dna核酸添加第一索引序列包括:使每个子集与转座体复合物接触,其中每个隔室中的所述转座体复合物包含所述第一隔室特异性索引序列;使所述子集中的核酸片段化为多个核酸,并将所述第一隔室特异性索引序列并入所述核酸的至少一条链中,以生成包含所述索引的核酸的所述索引的细胞核或细胞。实施方案21.实施方案1-20中任一项所述的方法,其中在每个隔室中添加到dna核酸的所述第一索引序列和添加到rna核酸的所述第一索引序列是相同的。实施方案22.实施方案1-21中任一项所述的方法,其中在每个隔室中添加到dna核酸的所述第一索引序列和添加到rna核酸的所述第一索引序列是不同的。实施方案23.实施方案1-22中任一项所述的方法,其进一步包括所述核酸片段的指数扩增,其中所述指数扩增包括与特定核苷酸序列退火的靶特异性引物。实施方案24.实施方案1-23中任一项所述的方法,进一步在所述组合之后包括:将所述合并的索引的细胞核或细胞的子集分布到第二多个隔室中;和向索引的核酸引入第二隔室特异性索引序列以生成包含双索引的核酸的双索引的细胞核或细胞,其中所述引入包括连接、引物延伸、扩增或转座。实施方案25.实施方案1-24中任一项所述的方法,进一步包括组合所述双索引的细胞核以生成合并的双索引的细胞核或细胞,将所述合并的双索引的细胞核或细胞的子集分布到第三多个隔室中;和向索引的核酸引入第三隔室特异性索引序列以生成包含三索引的核酸的三索引的细胞核或细胞,其中所述引入包括连接、引物延伸、扩增或转座。实施方案26.实施方案1-25中任一项所述的方法,进一步包括处理用于甲基化分析的所述索引的细胞核或细胞以生成适合于甲基化分析的核酸片段。实施方案27.实施方案1-26中任一项所述的方法,其进一步包括使所述索引的细胞核或细胞进行邻位连接以产生适合于分析染色质构象的核酸片段。实施方案28.实施方案1-27中任一项所述的方法,其进一步包括扩增所述测序文库的核酸片段以产生dna纳米球。实施方案29.实施方案1-28中任一项所述的方法,其中所述隔室包括孔或液滴。实施方案30.实施方案1-29中任一项所述的方法,其中所述第一多个隔室中的每个隔室包含50至100,000,000个细胞核或细胞。实施方案31.实施方案1-29中任一项所述的方法,其中所述第二多个隔室中的每个隔室包含50至100,000,000个细胞核或细胞。实施方案32.实施方案1-31中任一项所述的方法,进一步包括:提供包含多个扩增位点的表面,其中所述扩增位点包含至少两个具有游离3'端的附着单链捕获寡核苷酸的群体,和使包含扩增位点的表面与所述索引的片段接触,其条件适合于产生多个扩增位点的,每个扩增位点包含来自包含多个索引的单个片段的扩增子的克隆群体。实施方案33.一种制备包含来自多个单细胞的核酸的测序文库的方法,该方法包括:(a)提供来自多个细胞的分离的细胞核;(b)对所述分离的细胞核进行化学处理以产生核小体耗尽的细胞核而同时保持所述分离的细胞核的完整性;(c)将所述核小体耗尽的细胞核的子集分布到第一多个隔室中,并使每个子集与转座体复合物接触,其中每个隔室中的所述转座体复合物包含转座酶和与其它隔室中的第一索引序列不同的第一索引序列;(d)将所述核小体耗尽的细胞核的子集中的核酸片段化为多个核酸片段,并将所述第一索引序列并入所述核酸片段的至少一条链中以生成包含索引的核酸片段的索引的细胞核,其中所述索引的核酸片段保持与所述转座酶连接;(d)组合所述索引的细胞核以生成合并的索引的细胞核;(e)将所述合并的索引的细胞核的子集分布到第二多个隔室中,并使每个子集在适合于发夹连接双链体与索引的核酸片段的一端或两端连接的条件下与所述发夹连接双链体接触,从而产生双索引的核酸片段,其中所述发夹连接双链体包含与其他隔室中的第二索引序列不同的第二索引序列;(f)组合所述双索引的细胞核以生成合并的索引的细胞核;(g)将所述合并的双索引的细胞核的子集分布到第三多个隔室中;(h)裂解所述双索引的细胞核;(i)处理所述双索引的核酸片段以包括与其他隔室中的第三索引序列不同的第三索引序列;和(j)组合所述三索引的片段,从而产生包含来自所述多个单细胞的全基因组核酸的测序文库。实施例通过以下实施例说明本公开。应该理解的是,特定的实施例、材料、量和过程将根据本文所述的本公开的范围和精神来广义地解释。实施例1使用线性扩增的高通量单细胞测序用于单细胞基因组测序的常规方法在均匀性和产量方面受到限制。在这里,我们描述了“sci-l3”,一种高通量、高覆盖率的单细胞测序方法,其结合了单细胞组合索引(“sci”)和线性(“l”)扩增。sci-l3方法采用单向3级(“3”)索引方案,其最小化扩增偏倚,同时实现通量的指数增长。我们通过单细胞全基因组测序(“sci-l3-wgs”)、靶向基因组测序(“sci-l3-target-seq”)及基因组和转录组的共同测定(“sci-l3-rna/dna”)的概念验证论证证明了sci-l3框架的普遍适用性。我们应用sci-l3-wgs对来自f1杂种雄性小鼠的>10,000个精子和精子前体的基因组分型,定位了86,786个交换并表征雄性减数分裂中罕见的染色体错误分离事件,包括全基因组均等染色体分离的情况。我们预期sci-l3分析可应用于全面表征重组情景,结合crispr扰动和基因组稳定性的测量,以及达到其他需要高通量、高覆盖率单细胞基因组测序的目标。引言当代的单细胞基因组测序技术有两个主要限制。首先,大多数方法需要对单个细胞区室化,这限制了通量。第二,大多数扩增方法是基于pcr的,且因此存在指数扩增偏倚的问题。为了解决第一个问题,我们和同事们开发了单细胞组合索引(‘sci-’),其中执行几轮分割-合并分子条码标记以唯一地标记单细胞的核酸内容,从而实现每一轮索引通量的指数增长。已成功开发出sci-方法来分析大量单细胞的染色质可及性(sci-atac-seq)、转录组(sci-rna-seq)、基因组(sci-dna-seq)、甲基化组(sci-met)、染色体构象(sci-hi-c)(cao等,2017;cusanovich等,2015;mulqueen等,2018;ramani等,2017;vitak等,2017)。为了解决第二个问题,通过基于t7的转录进行的线性扩增提供了一种可能的解决方案,其先前已用于单细胞测定的背景中(eberwine等,1992;hashimshony等,2012;sos等,2016)。例如,最近,chen等人开发了通过转座子插入的线性扩增技术(“lianti”),其使用tn5转座子使基因组片段化,并同时插入用于体外转录(ivt)的t7rna启动子。从dna模板产生的rna拷贝不能用作进一步扩增的模板。因此,所有拷贝直接来自原始dna模板。通过避免指数扩增,lianti保持均匀性并使序列错误最小化。但是,该方法是低通量的,因为它需要从每个单细胞制备系列文库(chen等,2017,science356:189-194)。为了使扩增偏倚最小化而同时实现通量的指数增长,我们开发了sci-l3,它整合了单细胞组合索引和线性扩增。通过三轮分子条码化,sci-l3将lianti的通量提高到每个实验至少数千个甚至上百万个细胞,同时保留了线性扩增的优势。我们通过单细胞全基因组测序(“sci-l3-wgs”)、靶向基因组测序(“sci-l3-靶-seq”)及基因组和转录组的共分析(“sci-l3-rna/dna”)的概念验证展示证明sci-l3框架的普遍适用性。作为进一步的证明,我们应用sci-l3-wgs以定位来自不育的种间(b6xspretus)f1雄性小鼠以及可育的种内(b6xcast)f1雄性小鼠的不成熟和成熟雄性生殖细胞中前所未有数量的减数分裂交换和稀有染色体错误分离事件。设计在增加通量的同时最小化扩增偏倚的潜在技术途径将是简单地组合“sci”和“lianti”方法。但是,其中t7启动子通过tn5转座子插入的lianti的分子结构提供了仅两轮细胞条码化的机会,这将使每个实验的通量限制为数千个单细胞。此外,它仅限于基因组dna的分型(chen等,2017;sos等,2016)。在开发sci-l3时,我们整合了单细胞组合索引、线性扩增和通过连接而引入t7启动子的三轮细胞条码化(“三级”)(图3a)。与简单地组合“sci”和“lianti”相比,sci-l3方法具有几个主要优势。首先,通过三级索引,每个实验的潜在通量以大大降低的成本指数增加到每个实验超过一百万个细胞(cao等,2019)。其次,单细胞条码化的单向性质使sci-l3在全基因组测序(“wgs”)之外容易地转化为靶向测序(“靶-seq”),其使得能够将crispr扰动耦合和所得的基因组不稳定性偶联,以及希望对大量单个细胞进行特定基因组基因座测序的其他应用。第三,作为可广泛应用的线性扩增和高通量细胞条码化方案,sci-l3提供了以对方案的少量修改适应于其他单细胞分析和共分析的灵活性,如本文的基于sci-l3的单细胞rna/dna共分析的概念验证所证明的。结果sci-l3-wgs和sci-l3-靶-seq的概念验证sci-l3-wgs和sci-l3-靶-seq的三级组合索引和扩增方案如图3a所示:(i)细胞用甲醛固定,并用sds核小体耗尽(vitak等,2017)。然后将得到的细胞核均匀地分布到24个孔中。(ii)通过在24个孔的每个孔内的索引tn5插入(“标签化”)添加第一轮条码。与lianti(其中tn5转座子包含t7启动子而没有条码)不同,在条码的5'包含间隔区序列,其充当后续连接步骤的“着陆垫”(关于tn5转座子设计的详细信息,参见图4和示例2,“sci-l3-wgs和sci-l3-靶-seq的方法和分子设计”部分)。(iii)将所有细胞核合并并均匀分布到64个新孔中;通过连接添加第二轮条码,其包括位于两个条码之外的t7启动子序列。(iv)将所有细胞核再次合并在一起,并通过荧光激活细胞分选(facs)细胞术进行分选和以每孔最多300个细胞分布到最后一轮孔中。注意,可以通过dapi(4',6-二脒基-2-苯基吲哚)染色对不同倍体的细胞核进行门控和富集。而且,简单稀释是可以减少损失率的facs的替代方式。(v)裂解分选的细胞核并进行原位缺口延伸以形成双链体t7启动子。这之后是ivt、逆转录(rt)和第二链合成(sss)而以线性方式扩增基因组。在sss步骤中添加第三轮条码,以及独特分子标识(umi)以标记单个ivt转录物。(vi)则各自包含定义其起源细胞的三个条码的双链dna分子(图3b,顶部)与常规文库构建方法相容(如果目标是单细胞wgs(例如通过连接(图3b,中间)或标签化附接序列接头)),或与略微修改的方法相容(如果目标是单细胞靶向dna-seq(例如,添加pcr步骤,其中引物之一是靶特异性的(图3b,底部))。作为初始概念验证,我们混合了小鼠和人类细胞并进行了sci-l3-wgs。对于超过95%的所得单细胞基因组,绝大多数映射于小鼠或人类基因组阅读片段,偶然的“冲突”是由于两个或多个细胞偶然使用相同的条码组合而导致的(图3c)。表1中将sci-l3-wgs的性能与lianti以及我们先前基于pcr的sci-dna-seq方法进行了比较。我们强调了sci-l3-wgs的几个优点:1)我们通常回收90%的分选细胞,与基于pcr的sci-dna-seq的60%回收率相比(vitak等,2017);2)利用少40%的原始阅读片段读(通过sci-l3-wgs的329mvs.通过sci-dna-seq的549m),sci-l3-wgs产生的序列覆盖率为每细胞约97,000个独特tn5插入,与通过sci-dna-seq的约30,000个独特插入相比,>3倍的提高。对较少数量的细胞测序到更高的深度,我们观察到每细胞约660,000个独特tn5插入,同时保持了比sci-dna-seq更高的文库复杂性,表明>20倍的进一步提高;3)可映射阅读片段率从lianti的61%提高到sci-l3-wgs的86%。这可能是因为lianti完全在管内,且因此难以去除人为序列(例如继发于tn5的自身插入),而对于sci-l3-wgs,细胞核被沉淀数次以去除过量的游离dna;4)与其中重复阅读片段对于snp调用不是信息性的基于pcr的扩增不同,而sci-l3-wgs的“重复”阅读片段几乎总是来自从原始模板聚合的独立ivt转录物,且因此可用于从头进行snv发现或用于对已知的snp进行基因分型。表1.sci-dna-seq与sci-l3-wgs与lianti的性能比较。来自(vitak等,2017)的xsds方法的sci-dna-seq数据。来自(chen等,2017)的管内方法的lianti。对于sci-l3-wgs,我们显示了文库yi140和yi141(以高测序深度)及yi144和yi145(以低测序深度)的结果。这四个文库使用其中我们使用了浓缩的tn5转座体(0.2μm)的优化方案,及使用另外的rna引物的改进rt反应(详细信息参见图5和实施例2,“sci-l3-wgs和sci-l3-靶-seq的方法和分子设计”部分)。相同的颜色表示感兴趣的比较。绿色:与sci-dna-seq相比,使用sci-l3-wgs从分选回收的单细胞的百分比提高1.9倍;粉色:与lianti相比,使用sci-l3-wgs将原始读取的映射率提高1.4倍;黄色:不同测序深度的独特插入位点;与sci-dna-seq相比,第1行和第2行以相似的原始阅读片段数进行比较,与sci-dna-seq相比,sci-l3-wgs以少40%的原始阅读片段数具有3.3倍的改善,且第1行和第3行以相似的文库复杂度进行比较,与lianti相比,sci-l3-wgs以高20%的tn5插入复杂度具有22.4倍的改善;蓝色:中位数文库复杂度,其显示包括lianti和sci-l3-wgs两者的方法具有最少的pcr重复;橙色:与lianti相比,使用sian-l3-wgs回收的具有大于50k独特阅读片段的细胞数提高1.8倍。对于sci-l3-wgs,tn5插入为平均人类基因组的每0.5-1.5kb,且ivt产生~1,000个转录物。这对应于每单细胞2-6百万个独特tn5插入,且因此20-60亿个独特的基因组来源的ivt转录物。目前将所得的文库相对于独特ivt转录物的数量测序至饱和显然是不切实际的。在这里,我们将每个文库的“测序深度”定义为测序的独特转录物数与映射的独特tn5插入位点数之间的比率。在这项研究中,大多数文库的测序深度为1.1x到2x,导致每个细胞的基因组的0.5%到5%覆盖度。人类/小鼠概念验证实验中每细胞的独特tn5插入位点的分布如图3d中所示,且对于其他实验如图5中所示。代表性单细胞的估计相对染色体拷贝数如图3e中所示,且如图3f中所示它们在所有细胞上分布。为了推断更高测序深度下每单细胞的预期基因组覆盖率,我们将独特插入位点数作为测序深度的函数进行拟合(图5g)。我们期望分别以5x和10x的测序深度观察每细胞4.2m和6.0m的独特插入,其对应于单个细胞基因组的16%和22%覆盖率。如上所述,由sci-l3产生的双链扩增子(图3b,顶部)不仅与单细胞wgs(sci-l3-wgs;图3b,中间)相容,而且也与单细胞靶向dna测序(“sci-l3-靶-seq”)相容。具体而言,对于靶向测序,在第二链合成后,可以使用带有第三细胞条码的一个引物通过pcr添加测序接头,而另一引物靶向基因组的特定区域(图3b,底部)。为了量化sci-l3-靶-seq的回收效率,我们以低moi整合慢病毒crispr文库(详细信息参见实施例2,“sci-l3-wgs和sci-l3-靶-seq的方法和分子设计”部分)并通过sci-l3-靶-seq回收与sgrna间隔区对应的dna序列。对于1003个单细胞中的97个,我们能够成功回收单一整合sgrna。每单倍型的这一10%的效率与以上通过投影测序深度估计的22%的基因组覆盖率大体一致(图5g)。注意,在分子水平上,我们以几种方式修改了“sci”和“lianti”方法。总而言之,我们:1)将tn5转座子的设计改为与连接相容,并因此实现超过两轮的“sci”,一种可能推广到其他单细胞分析的途径,2)添加t7启动子的环结构以促进分子内连接,和3)改变rt方案,使得我们只需要在第一轮条码化分子的两个末端之一处的成功连接。假设单个连接事件的效率为50%,则此修改在连接步骤产生75%的成功率,而不是25%(图5中的比较)。我们在图4中的每个条码化步骤之后描绘了分子的结构,并在实施例2,“sci-l3-wgs和sci-l3-靶t-seq的方法和分子设计”部分中讨论了这些设计的原理。实施例2和表2中还讨论了可扩展性和成本。对于100、1000、10,000和1百万单细胞的文库,我们估计sci-l3-wgs的成本分别为用lianti处理同等数量的细胞的14%、1.5%、0.26%和0.014%。可以利用三级而不是两级的组合索引来提高通量(例如,用3级sci-l3-wgs以5%的冲突率对于100万细胞构建文库的成本为约8,000美元),或降低冲突率(例如,使用3级sci-l3-wgs以1%的冲突率对于10,000个细胞构建文库的成本为约1,500美元)。表2.sci-l3-wgs的成本计算。当前的方法涉及三级的索引,其不仅增加通量并减少条码冲突,而且还显著降低文库制备的每细胞成本。这是由于两个原因:1)采用2级索引,需要以更多的tn5转座体复合物开始以分析相似数量的细胞,这显著增加了成本;2)采用2级索引,还仅限于在ivt、rt和柱纯化之前分选每孔少得多的细胞核数量,这也显著增加了成本。对于处理约10k和约1m的细胞,我们估计3级sci-l3-wgs与lianti相比成本低近400倍和7,000倍。利用sci-l3-wgs用于单细胞rna/dna共分析我们认识到,sci-l3-wgs方案可利用对方案的少量修改适应于分子生物学的其他方面。为了证明这一点,我们进行了sci-l3-rna/dna共分析的概念验证实验。简而言之,与sci-l3-wgs中一样,第一轮dna条码化通过tn5插入进行,但是我们同时进行第一轮rna条码化,从而通过用条码和带有umi的聚t引物的逆转录标记mrna(图6a)。tn5插入和rt引物均带有突出端,其可以介导第二轮条码以及t7启动子的连接,从而以与sci-l3-wgs基本相同的方式有效地实现三级索引和随后基于ivt的线性扩增(图6a-6b,实施例2,“sci-l3-rna/dna共分析的方法和分子设计”部分)。作为概念验证,我们将小鼠细胞与来自两种人类细胞系的细胞混合在一起,并进行sci-l3-rna/dna共分析。对于绝大多数细胞,rna(5.2%冲突率)和dna(6.6%冲突率)的阅读片段都映射到小鼠或人类基因组(图6c-6d)。此外,与成功的共分析一致,100%的细胞通过其rna和dna谱分配相同的物种标记。作为进一步的检查,我们基于其rna谱在t-sne空间的人类细胞中可视化。如预期的,它们分为两个簇。基于y染色体的存在或不存在标记单个细胞以96.5%的准确度一致地将簇鉴定为对应于bj细胞(雄性)或hek293t细胞(雌性)(图6e)。sci-l3-wgs的小鼠生殖细胞的单细胞dna分析在正常的有丝分裂细胞分裂中,二倍体染色体经历复制以产生四个拷贝的dna,并且姐妹染色单体分离成相互的子代细胞。子代细胞接受每个母本和父本遗传dna序列的一个副本,并且几乎总是在着丝粒近端序列中保持杂合性(图7a)。很少地,染色体在染色体同源物之间经历有丝分裂交换,其有时可导致在交换远端着丝粒序列处具有杂合性丢失(loh)的二倍体细胞,如果两个重组的染色单体分离到不同的子细胞中(图7b-c)。在减数分裂中,姐妹染色单体首先共分离到相同的子细胞中,并且同源物在减数分裂i(“mi”)阶段分离到相互的子代细胞中,也称为“减数分离”,从而产生具有着丝粒近端序列的杂合性丢失(loh)的2c细胞(未复制的二倍体细胞中的dna含量)(图7d-e)。为了mi中染色体的成功减数分离(图7d),交换通过spo11催化的双链断裂(dsb)引发(baudat等,2000;keeney等,1997;romanienko和camerini-otero,2000),提供染色体同源物之间的关联和必要的张力(hong等,2013)。很少地,染色体以减数分裂方式分离而没有任何同源物间交换,从而导致单亲二体性(upd)。mi后,这些2c细胞随后在减数分裂ii(“mii”)中经历有丝分裂样染色体分离,也称为“均等分离”,使得姐妹染色单体分离以形成1c配子(图7e)。下面,由于我们的研究主要集中于mi,因此我们将mi期间的减数分裂/减数分离(其中姐妹染色单体一起分离)称为“减数分离”,和在mi期间的丝分裂样/均等分离(其中姐妹染色单体分开分离)称为“均等分离”。迄今为止,关于交换位置和染色体分离之间的关系的大多数工作已经通过成像进行(wang等,2017a,2017b),其未能完全表征易于发生减数分裂交换的基础基因组序列。几种检测方法能够实现减数分裂dsb热点的详细定位(lange等,2016;smagulova等,2011,2016),但这些分析方法不直接定位减数分裂交换。确实很好地剖析交换与非交换的测定法限于几个热点(cole等,2014)。因此,与减数分裂dsb热点相比,我们对交换和染色体尺度的特征(如复制域)之间关系的了解要少得多(baudat等,2013;choiandhenderson,2015;yamada等,2017)。全基因组的减数分裂交换图谱通过定位酵母中的四联体(mancera等,2008;zhang等,2017),单个人精子和完整人类女性减数分裂(hou等,2013;lu等,2012;ottolini等,2015;wang等,2012)产生。除了对人类女性减数分裂的研究(其总共分析了87个完整减数分裂)(hou等,2013;ottolini等,2015)外,大多数交换图谱至少在三个方面受到限制:1)分析其中细胞完成两轮减数分裂的成熟的1c配子,这阻止了直接观察更高信息的中间2c细胞来评估染色体在mi期间是否以及多久发生减数分离vs.均等分离(图7);2)异常细胞针对由于不能进入成熟配子状态而选择;3)通过单个精子或卵母细胞测序进行的分析在通量上受到限制,且最多几百个细胞,因此可能会错失稀有事件。即使对于可育的杂交,可合理产生并进行基因分型的后代数量也非常有限(liu等,2014)。为了立即解决所有这些局限性,我们将sci-l3-wgs应用于种间杂交(雌性家鼠(musmusculusdomesticus)c57bl/6('b6')x地中海小鼠(musspretus)spret/ei(随后称为'spret'))的不育后代以及种内杂种(雌性b6xmusmusculuscastaneouscast/ei('cast'))的可育后代。通过使用高度可扩展的技术对精子进行测序,我们能够定位哺乳动物系统以及不育和可育杂种中史无前例数量的交换事件。此外,通过利用sci-l3-wgs的通量从稀有的2c次生精细胞中恢复特征谱,我们还可以同时评估相同单细胞的交换和染色体错误分离。与近交雄性以及(b6xcast)f1雄性(其附睾中储存有数百万成熟精子)不同,(b6xspret)f1雄性(berletch等,2015)的附睾包含极少形态上成熟的精子和有限数量的未知倍性的圆形生殖细胞(图8a-b)。有趣的是,我们观察到在facs期间比对于“正常”附睾(其以1c精子为主)预期的高得多的2c细胞分数(图8c-d)。在表3中列出了回收细胞的数量及其估计的倍性。相反和如预期的,(b6xcast)f1雄性的附睾几乎完全含1c精子(图8e)。因此,对于这一杂交,我们从解剖的睾丸分选1c和2c细胞(图8f)。表3.回收的细胞数目和细胞倍性,(b6xspret)附睾。注意,我们没有对于所有分选的细胞制备测序文库;例如,exp1中的2c库仅包含细胞的子集。我们还对1c细胞进行了广泛的门控(某些孔的dapi信号高达58),且由于此杂交中的丰富2c细胞,我们对于1c细胞仅富集到大约51-55%。对于来自(b6xspret)和(b6xcast)杂交的f1雄性的细胞,我们进行了线性扩增、第二链合成以添加第三轮条码、文库制备和测序(在实施例2,“(b6xspret)杂交和(b6xcast)杂交中sci-l3-wgs实验的设置”部分中详述)。重要的一点是,尽管1c和2c细胞可以通过信息进行区分,但它们的相对丰度仍会影响我们的分析。具体而言,在(b6xspret)杂交中,1c细胞很少见,使得任何“双重”(例如,两个粘在一起或偶然接收相同条码的1c细胞)基本上不会对2c群体产生影响。相反,在(b6xcast)杂交中,尽管经过富集,大多数细胞仍是1c(约85%,图8g),使得可能有许多模拟2c细胞的1c双重。在后面的部分中,我们讨论如何从信息上区分1c双重与真正2c细胞。m2细胞表现出簇集的减数或均等染色体分离来自不育(b6xspret)杂交的m2细胞中的染色体分离我们首先试图分析如上所述获得的不育(b6xspretus)f1雄性的附睾中细胞的减数分裂。在两个sci-l3-wgs实验中,我们分析了2689个(具有>10k的原始阅读片段的2919个分选的细胞的92%)和4,239个(具有>30k的原始阅读片段的4497个分选的细胞的94%)单细胞的基因组。唯一映射阅读片段的数目在图5f中示出。在两个文库的1.6x和1.4x测序深度下(图5中详述),我们获得每细胞约70k和约144k的独特tn5位点的中位数,分别对应于为0.7%和1.4%的中值基因组覆盖率。为了识别交换断裂点,我们实施了隐马尔可夫模型(hmm),其依赖于可以明确分配给b6vs.spret的高质量阅读片段(参见实施例2,“生物信息学和统计分析的方法”部分)。我们对1,663个1c细胞中的交换进行了表征,其典型示例如图9a所示。此外,我们在约5,200个2c细胞中搜索了交换事件。尽管这5,200个中的大多数可能仅仅是体细胞,但令我们惊讶的是,我们确定了292个具有大量的交换的2c细胞,我们称之为“m2细胞”(图9b和9c)。甚至更令人惊讶的是,这些细胞中的很大一部分表现出均等的分离,而不是减数的分离。在两个染色体同源物之间发生交换之后,如果染色体以减数方式分离,则着丝粒和交换位置之间的区域将变为纯合的,而杂合性将在交换的下游保持(图7d)。但是,如果染色体以均等方式分离,则在重组的染色单体分离时,观察到loh对于着丝粒是交换远端的(图7b)。我们在图9b中显示了其染色体经历了预期的减数分离的一个m2细胞的例子(注意着丝粒和交换点之间的一致纯合性),及在图9c中显示了其染色体意外地经历均等分离的m2细胞的一个例子(注意着丝粒和交换点之间的一致杂合性)。总共,在292个m2细胞中,我们观察到4,162个染色体进行减数型分离的实例,其中3,740个带有交换(90%),及1,310个染色体进行均等分离的实例,其中636个带有交换(49%)。但是,值得注意的是,均等分离的染色体中的交换事件数可能更高,因为我们无法确定交换结果的子集(图7c);同时,我们可以检测减数分离的染色体的所有交换。尽管我们观察到其中一些染色体表现出减数分离,而其他染色体表现出均等分离的许多细胞的例子,但是m2细胞内单个染色体的分离模式似乎并不是独立的。如果每个细胞中的染色体独立地选择减数分离与均等分离,我们预期减数分离和均等分离的染色体的二项式分布,以减数分离的概率p的最大似然估计(mle)为中心(来自数据的p=0.76,4162/5472),大约四分之三的染色体减数分离,四分之一均等分离(图9d)。但是,在我们分析的292个m2细胞中,我们观察到202个细胞中至少15个染色体以减数方式分离,而38个细胞中至少15个染色体以均等方式分离(图9e;这与在独立性假设下分别预期的148和0个细胞相反;p=4e-23,fisher精确检验)。单个m2细胞偏向于压倒性地发生均等分离,这表明细胞自主的全局感测机制决定细胞是否继续减数分裂或返回有丝分裂的可能性。我们可以通过m2细胞中的染色体是否具有交换来进一步分类细胞(图9f)。减数分离的染色体(图9f中的粉红色)似乎比均等分离的染色体(图9f中的绿色)具有更多的交换。但是,与其中我们可以检测所有交换为着丝粒loh的减数分离的染色体中不同,均等分离的染色体仅当两个重组的染色单体分离到相互的子细胞中时具有loh(图7b)。如果相反重组的染色单体共分离,尽管没有可检测的连锁开关(linkageswitch),杂合性在整个染色体中维持(图7c)。在图9f中,在均等分离的染色体中具有(以绿色示出)与没有(以蓝色示出)可观察的loh的比率大约为1:1。这可能意味着,如果那些完全杂合的染色体(以蓝色显示)确实具有连锁开关,那么均等分离的染色体有50%的机会将重组的染色单体一起分离。或者可替换地,均等分离的染色体总是将重组的染色单体分开分离,并且与减数分离的染色体相比,交换频率降低一半。已知分段或全染色体loh在哺乳动物有丝分裂细胞中很少见。但是,为排除此类事件的有丝分裂起源,我们检查了patski细胞系中的此类事件,该细胞系是源自雌性(b6xspret)f1小鼠的自发永生细胞系。我们用sci-l3-wgs分析了来自patski的1,107个单细胞,其中我们发现平均每个细胞的0.36个upd染色体和0.098个分段loh事件,与m2细胞相比发生率大大降低。我们还注意到,这些事件不一定是独立的。例如,在细胞系传代中早期出现的upd可以在大部分后代细胞中共有,使得独立loh事件的发生率甚至可能更低。这些事件的分布(spretus来源染色体相对均匀,和b6来源染色体相对不均匀)绘制在图10f中。总的来说,通过相同技术测量的有丝分裂loh的低发生率(预期的)和显示均等分离的2c细胞相对较高的发生率(未预期的)之间的对比证实了后者极不可能对应于体细胞。在下一节中,通过分析可育的(b6xcast)杂交,我们进一步显示:1)这里观察到的全基因组均等分离事件不是两个1c细胞的双重的假象,以及2)这种分离事件也发生在可育种内杂种中,尽管发生率降低。来自可育(b6xcast)杂交的m2细胞中的染色体分离我们想知道在种内(b6xcast)f1雄性的可育后代中mi期间是否还发生均等分离。如上所示,来自该杂交的附睾几乎全部由1c成熟精子组成;因此,我们从整个睾丸中富集2c次生精细胞。然后,我们对附睾和睾丸两者的细胞进行sci-l3-wgs。在该杂交的第一sci-l3-wgs实验中,主要用于质量控制以评估回收率和条码冲突率,我们将1c圆形精细胞均匀地分布,并且仅在两轮条码化后对1c细胞进行分选。通过它们非1c这一事实确定的双重使我们能够量化条码冲突率。在2400个分选的细胞中(200个/孔),我们回收了2127个具有>7,000阅读片段每细胞的细胞(89%);其中2,008个是具有减数分裂交换的1c,表明条码冲突率为5.5%。以1.06x的测序深度,我们获得了每细胞约60k独特tn5插入的中位数,相当于约0.6%的中位基因组覆盖率。在该杂交上的第二sci-l3-wgs实验中,我们在第一轮条码化过程中,在单独的孔中对来自睾丸的1c圆形精细胞(“条码组1”)、来自睾丸的2c细胞(“条码组2”;被大量1c精子污染,如图8f所示)和来自附睾的1c成熟精子(“条码组3”,实施例2,“在(b6xspret)杂交和(b6xcast)杂交中sci-l3-wgs实验的设置”部分)标签化。作为进一步的富集,在sci-l3-wgs的facs步骤中,对于孔的子集,我们特特别地对2c细胞门控(所有细胞的15.5%,图8g)。以1.09x的测序深度,我们获得约94k的每细胞tn5独特插入的中位数,相当于约0.9%的中位数基因组覆盖率。总共,我们从这一第二sci-l3-wgs实验回收了3539个1c和1477个非1c细胞。有趣的是,>97%的1c细胞来自条码组1(n=1,853)和条码组2(n=1,598),而不是条码组3(n=88),表明来自附睾的成熟精子未通过sci-l3-wgs良好回收。这表明从以上(b6xspret)杂交回收的1c细胞也可能不是来自成熟精子而是圆形精细胞,与图8b中具有成熟形态的低数量精子一致。1477个非1c细胞来自条码组1(n=1,104;推测1c圆形精细胞的双重)和条码组2(n=373;推测真性m2细胞和1c双重的混合物)。为了识别1c双重的特征,我们检查了来自条码组1的非1c细胞的分布(其特别地针对1c含量预分选,使得不太可能包含真正m2细胞)。已完成两轮减数分裂的1c细胞的着丝粒近端snp应该是b6或cast来源的。对于1c双重,这些区域表现出杂合或纯合的机会均等。因此,在任何给定的1c双重中,表现为均等地分离的染色体数目以及表现为减数地分离的染色体数目应遵循n=19和p=0.5的二项式分布。确实,这就是我们从条码组1对于1c双重观察到的(对于与二项式(19,0.5)偏离的均等分离染色体比例的分布,p=0.53,卡方检验,图11a-b)。事实上,只有11个1c双重细胞具有至少15条表现为以一致的方式分离的染色体,无论是均等还是减数。相反,来自条码组2的非1c细胞表现出非常不同的分布。在373个此类细胞中,258个与条码组1的1c双重相似,因为它们具有相似数量的具有均等或减数分离模式的染色体。剩余的115个细胞为偏倚的,至少15个染色体以一致的方式分离,无论均等或减数(图11c-e;条码组2的115/373vs条码组1的11/1,104;p=3e-70,卡方检验),其中许多表现出完全均等(n=6)或完全减数(n=91)模式。用于拟合三个非1c细胞群体的有限混合模型为了更正式地考虑这一点,我们将来自每个实验的数据拟合于三个二项式分布的贝叶斯有限混合。实施例2,“用于拟合三个非1c细胞群体的有限混合模型”部分和图12中提供了详细信息,此处总结了关键结论。首先,估计来自种内(b6xcast)f1雄性的睾丸的非1c细胞(即来自条码组2)包括减数(28%)vs.均等(2%)分离的细胞的子集,以及可能地1c双重(69%)(图12b)。来自种间(b6xspret)f1雄性的m2细胞的比例不同,其据估计包括减数(66%)vs.均等(14%)分离的细胞的子集,以及可能地1c双重(20%)(图12c)。这些分析支持以下结论:不育性(b6xspret)杂交具有高得多比例的细胞倾向于均等而非减数分离。染色体水平上减数分裂交换的分布我们接下来试图研究交换事件的基因组相关性。我们总共分析了来自(b6xspret)杂交的带有19,601个交换断裂点的1,663个1c细胞和具有4,184个交换断裂点点的240个m2细胞,以及来自(b6xcast)杂交的带有60,755个交换断裂点的5,547个1c细胞和具有2,246个交换断裂点点的115个m2细胞。据我们所知,这是关于与哺乳动物减数分裂相关的交换事件数量的前所未有的数据集。sci-l3-wgs的高通量性质使我们能够分析大量的不成熟生殖细胞,并鉴定具有完成的mi但非mii的稀有细胞群体,且因此观察到相同细胞中的减数分裂交换和染色体错误分离事件。在染色体水平上比较不育的种间(b6xspret)杂种与可育的种内(b6xcast)杂种时,我们观察到mi中的以下缺陷:1)所有19个常染色体上具有至少一个交换的m2细胞的比例从(b6xcast)中的约2/3降低到(b6xspret)中的约1/2;2)每m2细胞的平均交换数在(b6xspret)中降低,但每1c细胞的平均交换数较高;3)交换干扰在(b6xspret)中较弱,其中相邻交换之间的中值距离从97mb减少到82mb;4)在(b6xspret)m2细胞中,交换倾向于在每个染色体臂的中间一半中发生,与两个杂交的1c和(b6xcast)m2细胞相反,其中它们倾向于最着丝粒-远端四分位;5)在具有偏倚的均等或减数染色体分离的m2细胞中,(b6xspret)的全基因组均等分离比例(38/240)比(b6xcast)(8/115)高得多。6)在m2细胞中mi的全基因组减数分离中,零散均等分离(也称为反向分离(ottolini等人,2015))的平均数从0.2增加到1.1。这些发现表明可能造成或反映导致(b6xspret)f1雄性不育的潜在因素的机制(包括交换形成和定位方面的缺陷),用于确保每染色体至少一个交换的折衷机制,以及零散和全基因组均等分离两者的增加。这些分析的详细信息在图10、图13和图14以及实施例2,“染色体水平上减数分裂交换的分布”部分中给出。与基因组情景相关的减数分裂交换事件的分布调节交换热度的基因组特征为了在更精细的尺度上评估交换的分布,我们折叠(collapse)所有交换事件以沿着每个鼠染色体产生“热度图谱”。我们首先将这些图谱与单链dna测序(ssds)图谱(brick等,2018;smagulova等,2011,2016)和spo11寡核苷酸复合图谱(lange等,2016)进行比较,其以最高分辨率鉴定减数分裂dsb热点(图15a)。在b6品系株中这两种映射方法的dsb图谱沿着100kb窗口彼此强相关(rho=0.87,p<2e-308)。尽管我们的1c和m2细胞交换堆叠彼此相关(对于(b6xspret)杂交rho=0.67,和对于(b6xcast)杂交的rho=0.55,两者p<2e-308,图15b-c),两者偏离dsb图谱。与此相关的是,prdm9基因(热点规范的主要参与者)已经进化为结合多样小鼠品系之间甚至小鼠亚种之间的不同基序(davies等,2016;gregorova等,2018)。我们在实施例2,“prdm9对交换热度的影响”部分中讨论其对两个杂交之间差异的潜在影响。只有10%的减数分裂特异性dsb被修复为交换。接下来,我们通过使用贝叶斯模型平均(bma)建立线性模型研究了spo11以外的哪些因素导致交换形成(clyde等,2011)。如此处所应用的,bma对所探索的超过15,000个变量选择模型进行加权平均,并通过每个模型的后验概率对它们进行加权,这说明了模型选择的不确定性,与一些其他变量选择技术(例如lasso回归)不同。我们量化了约80个潜在解释变量的边际包含概率(mip)。几乎所有具有高概率的模型包括已知与减数分裂交换相关的特征,例如spo11断裂位点、gc含量等(图16a,图17);例如,具有高gc含量的区域对于交换形成更热。我们还发现了一些以前未涉及减数分裂交换的更多特征,例如特定的重复序列家族和染色质标记,且特别是早期复制域。交换热度与所有特征之间的相关矩阵对于每个杂交绘制在图18-19中。包括使用的特征以及简单线性模型和bma的总结。断裂点分辨率(中位数对于(b6xspret)约150kb,和对于(b6xcast)约为250kb;图16b)与以前通过单细胞测序(150-500kb)定位减数分裂交换的工作(lu等,2012;ottolini等,2015;wang等,2012)相当。但是,通过sci-l3-wgs提供的更高文库复杂性使我们能够以低得多的测序深度实现这一目标。与交换形成相关的许多特征在(b6xspret)和(b6xcast)杂交之间是一致的,但有一些不是。例如,交换形成的位置偏倚似乎是不同的。在两个杂交的1c细胞以及(b6xcast)杂交的m2细胞中,交换在距着丝粒10mb内充分代表,而是倾向于在最右位置“四分位”端粒附近发生(图18)。但是,在(b6xspret)杂交的m2细胞中,着丝粒附近以及端粒附近交换未充分代表,而倾向于在中间四分位中发生(图19)。这种趋势在线性模型中保持,其中我们考虑了所有其他特征的贡献。交换的位置可以极大地影响染色体同源物之间施加的张力的量,这反过来促进了适当的染色体分离。因此,我们通过仅获取每个细胞中每个染色体最右边的交换并检查其在每个杂交中沿染色体臂的位置来对这一点进行更详细的研究(deboer等人,2015)。考虑到线性混合效应模型的染色体间变异性,我们估计(b6xspret)杂交中最右边交换的位置在1c细胞中比(b6xcast)杂交中平均更着丝粒近端1.6mb(图20a,p=1e-13,f检验),但在m2细胞中更丝粒近端5.5mb(图16c,p=2.2e-15)。注意,在两个杂交中,m2细胞中最右边的交换比1c细胞中的那些更丝粒近端,但在(b6xspret)杂交中(图16d)比在(b6xcast)杂交中程度更高(图20b)。这些差异表明,(b6xspret)杂交中的m2细胞子集(其交换太靠近着丝粒发生)可能无法成熟为1c细胞,可能是由于mii分离中的缺陷。类似地,尽管事件数量有限,但我们还比较了具有偏倚染色体分离的m2细胞中交换的位置,且发现在两个杂交中,具有偏倚的均等偏向的细胞中的交换比具有偏倚的减数分离的细胞中的那些更着丝粒远端,具有(b6xcast)杂交(p=4e-15)中的13.7mb和(b6xspret)杂交(p=6e-14)中的8.7mb的差异(图20c-d)。这表明交换太接近端粒的细胞中可能的mi分离缺陷。我们提出了假设模型来解释图20e中的这一观察结果。就交换断裂点而言的细胞异质性尽管在交换堆积中1c和m2细胞看起来大体相似(图15),但我们想知道是否存在影响单细胞子集中交换分布的特征的任何结构。为了研究这一点,我们对于78个特征中的每一个汇总了每个单细胞中交换相关的信息(实施例2,“生物信息学和统计分析的方法”部分)。然后,我们在每一行为一个细胞和每一列作为一个总结的特征值的矩阵上使用主成分分析(pca)。对于(b6xspret)杂交,前两个主成分(pc)捕获26%的方差,而对于(b6xcast)杂交,pc1和pc3捕获17%的方差。在两个杂交中,通过这些pc将1c和m2细胞分为两个簇。在图21和图22中,我们绘制了投影在这些pc上的每个特征。交换的染色体分布、单亲染色体以及交换在染色体四分位中的位置是表现为驱动1c和m2细胞的分离的特征。根据基因组特征预测交换轨迹最后,我们试图利用此处观察的大量事件来构建交换位置的预测模型。具体来说,我们建立了二元反应的线性模型,其中1个是交换轨迹和0个是来自相同轨迹分布的从基因组采样的随机轨迹(实施例2,“生物信息学和统计分析的方法”部分中详述)。使用与bma分析中相同的76个特征,我们可以对于(b6xspret)杂交用0.73的平均接收者操作曲线(roc)曲线下面积(auc)在保留数据上预测交换轨迹。利用通过bma识别的25个高包含概率(mip>0.5)变量的子集,我们获得了类似的0.72的平均auc(图16e)。类似地,对于(b6xcast)杂交,当使用所有特征或mip>0.5的25个特征的子集时,我们获得0.85的平均auc(图16f)。讨论在此,我们描述sci-l3,一种结合3级单细胞组合索引和线性扩增的框架。我们证明sci-l3适用于单细胞全基因组测序(sci-l3-wgs)、单细胞靶向dna测序(sci-l3-靶-seq)以及基因组和转录组的单细胞共分析(sci-l3-rna/dna)。使用sci-l3-wgs,可以在两天的实验中处理至少数万个(且可能数百万个)单细胞基因组,文库构建成本为对于10k个细胞每细胞0.14美元和对于100万个细胞每细胞0.008美元。sci-l3-wgs的通量比基于线性扩增的替代单细胞wgs方法(例如“管中(in-tube)”lianti(chen等,2017))高几个数量级。此外,它还提高了从每个单个细胞回收的独特分子的数量,从几千(pellegrino等,2018)或几万(vitak等,2017)到数十万。我们将sci-l3-wgs应用于研究雄性小鼠减数分裂并鉴定出人意料的m2细胞群体。数据的单细胞性质也使我们能够同时表征减数分裂交换和染色体错误分离。反向分离事件以前在对人类女性减数分裂的完整分析中观察到(ottolini等,2015),且我们在小鼠雄性减数分裂的情况下也观察到了类似的事件(即一个或几个染色体的均等分离)。在我们从(b6xspret)杂交分析的292个m2细胞中,单个细胞偏向于均等或减数染色体分离,表明用于决定细胞是否继续减数分裂或返回其染色体的有丝分裂分离的总体感应机制。同样,据我们了解的,首次在哺乳动物减数分裂中,我们在mi期间观察到全基因组均等分离的多种情况,表明均等分离的细胞自主模式而非染色体自主模式。我们在两个杂交中鉴定了此类事件,尽管在可育(b6xcast)杂交中更为罕见。当与对于染色体自主机制(发生率2-19)所预期的相比时,全基因组反向分离的高发生率,特别是在种间(b6xspret)杂交中,引起了比其回答的更多的问题。我们在图23中描绘了该模型,并突出了几个未解决的问题。在正常mi中,着丝粒粘连(centromerecohesion)保持在减数分离中,并且对于交换着丝粒近端的姐妹染色单体不分裂直到mii(图23d中的模式1)。mi中的均等分离表明过早的着丝粒粘连蛋白分离(图23d中的模式2和/或3)。先前的工作还表明,由于prdm9结合位点的侵蚀,这些f1杂交中的同源物配对可能存在缺陷(davies等人,2016;gregorova等人,2018;smagulova等人,2016),并且配对问题在种间杂交中可能更严重。在实施例2,“关于反向分离的原因和后果的推测”部分中,我们推测:1)什么可能导致过早的着丝粒粘连蛋白分离;2)一个交换是否足以进行适当的减数分离,以及3)在mi中均等分离可能有什么后果。与其他单细胞测序方法相比,改进的基因组覆盖率能够实现交换断裂点的高分辨率定位,而对于定位约87,000个交换的通量使我们用堆积数据更好地表征与交换热度相关的基因组和表观基因组特征。我们在实施例2,“交换热度和相关的(表观)基因组因素”部分中讨论了如何通过多种因素形成交换热度的连续统。在sci-l3的开发中与简单地将高通量单细胞组合索引(“sci”)方案与通过转座子插入的线性扩增(lianti)结合的一个关键差异是,我们通过连接引入t7启动子,其不仅能够进行两轮以上的细胞条码化和以大大降低的成本进一步提高通量,而且提供了以少量的方案调整将该方法推广到其他单细胞分析的灵活性。作为第一示例,我们证明sci-l3-wgs可以容易地适应于sci-l3-靶-seq。尽管已报道了使用10xgenomics平台的单细胞靶向测序,但据我们所知,它是rna转录物,而不是dna基因座的。尽管目前每单倍型10%的“回收率”对于靶向测序可能并不理想,但这通过可以分析的大量细胞缓解。作为第二示例,我们证明sci-l3-wgs也可以适用于sci-l3-rna/dna共分析。我们预期,进一步可能的是使sci-l3适应于atac-seq、亚硫酸氢盐-seq和hi-c以分别用于染色质可及性、甲基化组和染色质构象的单细胞分析,这可能比已发表的科学方法更具优势(cusanovichetal。,2015;mulqueenetal。,2018;ramanietal。,2017)在吞吐率和扩增均匀性方面实现这些目标。总之,sci-l3-wgs、sci-l3-靶-seq和sci-l3-rna/dna共分析扩展了用于单细胞测序的工具集。在这项研究中,我们进一步显示了sci-l3-wgs可如何提供减数分裂重组的系统的和定量的景象,并以空前的通量组合揭示罕见的全基因组染色体错误分离事件。我们预期sci-l3方法在单细胞基因组测序提供转化性的其他情况下将非常有用,例如用于研究罕见的同源同源有丝分裂交换,和用于剖析癌症的遗传异质性和进化。参考文献baudat,f.,manova,k.,yuen,j.p.,jasin,m.和keeney,s.(2000).chromosomesynapsisdefectsandsexuallydimorphicmeioticprogressioninmicelackingspo11.mol.cell6,989-998.baudat,f.,imai,y.和demassy,b.(2013).meioticrecombinationinmammals:localizationandregulation.nat.rev.genet.14,794-806.berletch,j.b.,ma,w.,yang,f.,shendure,j.,noble,w.s.,disteche,c.m.和deng,x.(2015).escapefromxinactivationvariesinmousetissues.plosgenet.11,e1005079.deboer,e.,jasin,m.和keeney,s.(2015).localandsex-specificbiasesincrossovervs.noncrossoveroutcomesatmeioticrecombinationhotspotsinmice.genesdev.29,1721-1733.brick,k.,pratto,f.,sun,c.-y.,camerini-otero,r.d.和petukhova,g.(2018).analysisofmeioticdouble-strandbreakinitiationinmammals.methodsenzymol.601,391-418.cao,j.,packer,j.s.,ramani,v.,cusanovich,d.a.,huynh,c.,daza,r.,qiu,x.,lee,c.,furlan,s.n.,steemers,f.j.等(2017).comprehensivesingle-celltranscriptionalprofilingofamulticellularorganism.science357,661-667.cao,j.,spielmann,m.,qiu,x.,huang,x.,ibrahim,d.m.,hill,a.j.,zhang,f.,mundlos,s.,christiansen,l.,steemers,f.j.等(2019).thesingle-celltranscriptionallandscapeofmammalianorganogenesis.nature.chen,c.,xing,d.,tan,l.,li,h.,zhou,g.,huang,l.和xie,x.s.(2017).single-cellwhole-genomeanalysesbylinearamplificationviatransposoninsertion(lianti).science356,189-194.choi,k.和henderson,i.r.(2015).meioticrecombinationhotspots-acomparativeview.plantj.83,52-61.clyde,m.a.,ghosh,j.和littman,m.l.(2011).bayesianadaptivesamplingforvariableselectionandmodelaveraging.j.comput.graph.stat.20,80-101.cole,f.,baudat,f.,grey,c.,keeney,s.,demassy,b.和jasin,m.(2014).mousetetradanalysisprovidesinsightsintorecombinationmechanismsandhotspotevolutionarydynamics.nat.genet.46,1072-1080.cusanovich,d.a.,daza,r.,adey,a.,pliner,h.a.,christiansen,l.,gunderson,k.l.,steemers,f.j.,trapnell,c.和shendure,j.(2015).multiplexsinglecellprofilingofchromatinaccessibilitybycombinatorialcellularindexing.science348,910-914.davies,b.,hatton,e.,altemose,n.,hussin,j.g.,pratto,f.,zhang,g.,hinch,a.g.,moralli,d.,biggs,d.,diaz,r.等(2016).re-engineeringthezincfingersofprdm9reverseshybridsterilityinmice.nature530,171-176.eberwine,j.,yeh,h.,miyashiro,k.,cao,y.,nair,s.,finnell,r.,zettel,m.和coleman,p.(1992).analysisofgeneexpressioninsingleliveneurons.proceedingsofthenationalacademyofsciences89,3010-3014.gregorova,s.,gergelits,v.,chvatalova,i.,bhattacharyya,t.,valiskova,b.,fotopulosova,v.,jansa,p.,wiatrowska,d.和forejt,j.(2018).modulationofcontrolledmeioticchromosomeasynapsisoverrideshybridsterilityinmice.elife7.hashimshony,t.,wagner,f.,sher,n.和yanai,i.(2012).cel-seq:single-cellrna-seqbymultiplexedlinearamplification.cellrep.2,666-673.hong,s.,sung,y.,yu,m.,lee,m.,kleckner,n.和kim,k.p.(2013).thelogicandmechanismofhomologousrecombinationpartnerchoice.mol.cell51,440-453.hou,y.,fan,w.,yan,l.,li,r.,lian,y.,huang,j.,li,j.,xu,l.,tang,f.,xie,x.s.等(2013).genomeanalysesofsinglehumanoocytes.cell155,1492-1506.keeney,s.,giroux,c.n.和kleckner,n.(1997).meiosis-specificdnadouble-strandbreaksarecatalyzedbyspo11,amemberofawidelyconservedproteinfamily.cell88,375-384.lange,j.,yamada,s.,tischfield,s.e.,pan,j.,kim,s.,zhu,x.,socci,n.d.,jasin,m.和keeney,s.(2016).thelandscapeofmousemeioticdouble-strandbreakformation,processing,andrepair.cell167,695-708.e16.liu,e.y.,morgan,a.p.,chesler,e.j.,wang,w.,churchill,g.a.和pardo-manueldevillena,f.(2014).high-resolutionsex-specificlinkagemapsofthemouserevealpolarizeddistributionofcrossoversinmalegermline.genetics197,91-106.lu,s.,zong,c.,fan,w.,yang,m.,li,j.,chapman,a.r.,zhu,p.,hu,x.,xu,l.,yan,l.等(2012).probingmeioticrecombinationandaneuploidyofsinglespermcellsbywhole-genomesequencing.science338,1627-1630.mancera,e.,bourgon,r.,brozzi,a.,huber,w.和steinmetz,l.m.(2008).high-resolutionmappingofmeioticcrossoversandnon-crossoversinyeast.nature454,479-485.mulqueen,r.m.,pokholok,d.,norberg,s.j.,torkenczy,k.a.,fields,a.j.,sun,d.,sinnamon,j.r.,shendure,j.,trapnell,c.,o’roak,b.j.等(2018).highlyscalablegenerationofdnamethylationprofilesinsinglecells.nat.biotechnol.36,428-431.ottolini,c.s.,newnham,l.,capalbo,a.,natesan,s.a.,joshi,h.a.,cimadomo,d.,griffin,d.k.,sage,k.,summers,m.c.,thornhill,a.r.等(2015).genome-widemapsofrecombinationandchromosomesegregationinhumanoocytesandembryosshowselectionformaternalrecombinationrates.nat.genet.47,727-735.pellegrino,m.,sciambi,a.,treusch,s.,durruthy-durruthy,r.,gokhale,k.,jacob,j.,chen,t.x.,geis,j.a.,oldham,w.,matthews,j.等(2018).high-throughputsingle-celldnasequencingofacutemyeloidleukemiatumorswithdropletmicrofluidics.genomeres.ramani,v.,deng,x.,qiu,r.,gunderson,k.l.,steemers,f.j.,disteche,c.m.,noble,w.s.,duan,z.等shendure,j.(2017).massivelymultiplexsingle-cellhi-c.nat.methods14,263-266.romanienko,p.j.等camerini-otero,r.d.(2000).themousespo11geneisrequiredformeioticchromosomesynapsis.mol.cell6,975-987.smagulova,f.,gregoretti,i.v.,brick,k.,khil,p.,camerini-otero,r.d.和petukhova,g.v.(2011).genome-wideanalysisrevealsnovelmolecularfeaturesofmouserecombinationhotspots.nature472,375-378.smagulova,f.,brick,k.,pu,y.,camerini-otero,r.d.和petukhova,g.v.(2016).theevolutionaryturnoverofrecombinationhotspotscontributestospeciationinmice.genesdev.30,266-280.sos,b.c.,fung,h.-l.,gao,d.r.,osothprarop,t.f.,kia,a.,he,m.m.和zhang,k.(2016).characterizationofchromatinaccessibilitywithatransposomehypersensitivesitessequencing(ths-seq)assay.genomebiol.17,20.vitak,s.a.,torkenczy,k.a.,rosenkrantz,j.l.,fields,a.j.,christiansen,l.,wong,m.h.,carbone,l.,steemers,f.j.和adey,a.(2017).sequencingthousandsofsingle-cellgenomeswithcombinatorialindexing.nat.methods14,302-308.wang,j.,fan,h.c.,behr,b.和quake,s.r.(2012).genome-widesingle-cellanalysisofrecombinationactivityanddenovomutationratesinhumansperm.cell150,402-412.wang,s.,kleckner,n.和zhang,l.(2017a).crossovermaturationinefficiencyandaneuploidyinhumanfemalemeiosis.cellcycle16,1017-1019.wang,s.,hassold,t.,hunt,p.,white,m.a.,zickler,d.,kleckner,n.和zhang,l.(2017b).inefficientcrossovermaturationunderlieselevatedaneuploidyinhumanfemalemeiosis.cell168,977-989.e17.yamada,s.,kim,s.,tischfield,s.e.,jasin,m.,lange,j.和keeney,s.(2017).genomicandchromatinfeaturesshapingmeioticdouble-strandbreakformationandrepairinmice.cellcycle16,1870-1884.zhang,k.,wu,x.-c.,zheng,d.-q.和petes,t.d.(2017).effectsoftemperatureonthemeioticrecombinationlandscapeoftheyeast.mbio8.实施例2用于拟合三个非1c细胞群体的有限混合模型条码组2的从(b6xcast)杂种回收的非1c细胞包括1c双重、表现为偏向均等分离的细胞和表现为偏向减数分离的细胞。为了量化它们的相对比例,我们将数据拟合于三个二项式分布的混合物,染色体均等分离的概率分别为0.01、0.48和0.95,且混合比例为0.28、0.69和0.02(图12a)。相反,当我们尝试将来自条码组1的非1c细胞类似地拟合于三个二项式分布的混合物时,我们得到分别0.46、0.5和0.53(均接近0.5)的染色体均等分离的概率,且混合比例为0.24、0.44和0.31(图12b)。对于询问可育和不育杂交之间偏向均等分离vs减数分离的m2细胞的比例是否不同,我们可以类似地拟合来自(b6xspret)杂交的染色体数据(图9e),其产生0.05、0.39和0.91的染色体均等分离的概率,以及0.66、0.2和0.14的混合比例(图12c)。这些比例表明,不育(b6xspret)杂交的偏向均等分离而非减数分离的细胞比例较高。染色体水平上减数分裂交换的分布基于来自(b6xspret)杂交的具有19,601个交换断裂点的1,663个1c细胞和具有4,184个交换断裂点240个m2细胞以及goth(b6xcast)杂交的具有60,755个交换断裂点的5,547个1c细胞和具有2,246个交换断裂点115个m2细胞,我们首先考虑了整个染色体上减数分裂交换的分布。交换密度在此定义为每mb每次分裂每细胞的平均交换数乘以2(在1c细胞中)或1(在m2细胞中)。在(b6xspret)杂交中,我们观察到1c细胞中染色体大小与交换密度之间的强负相关性(图13a,r=-0.66,p=0.002)。与以前的发现一致(lange等人,2016),这种相关性只能由spo11寡核苷酸复合物密度部分地解释(r=-0.46,p<0.05),表明较小的染色体维持较多的dsb,且那些dsb更有可能产生交换。在m2细胞中,这种负相关性甚至更强(图13b,r=-0.83,p=1e-5)。在图10a-b中,我们将每细胞每个染色体的多次交换的情况视为单个事件,这甚至进一步增强了负相关性(对于1c细胞,r=-0.87,p=2e-6;对于m2细胞r=-0.91,p=为8e-8)。这些观察结果表明,较小的染色体对于交换更热,特别是对于每次细胞分裂至少有一个交换。在(b6xcast)杂交图中观察到了相同的趋势(图14a-d)。在种间和种内杂交中,1c细胞分别具有每细胞每染色体0.62和0.58的平均交换,而m2细胞具有每细胞每染色体0.92和1.03的平均交换(图13c-d,10c-d)。种间m2细胞的交换率仅比b6近交小鼠的4c精母细胞中通过mlh1基因座测量的交换读数低9%(froenicke等,2002),尽管具有2%的序列趋异。1c细胞中的交换率比单个人精子测序中观察到的低45%(lu等,2012;wang等,2012)。后一差异可能主要是由于小鼠染色体的端中心粒性质导致的。尽管种间(b6xspret)杂交比(b6xcast)杂交在1c检测到更高的平均交换数(p=7e-26,mann-whitney检测),但m2细胞中的平均交换数较低(p=2e-10)。我们注意到,每一个染色体上具有交换的所有91个常染色体减数分离m2细胞的比例(b6xcast)杂交(60/91或66%)比(b6xspret)杂交(41/80%或51%高(p=0.06,fisher精确检验),这可能导致后者的不孕。为了检查交换干扰,我们采用具有至少两个交换的染色体并绘制相邻交换之间的距离,并且基于随机模拟将这一分布与期望值进行比较(图13e,图10e,图14e)。交换之间的中位观察距离对于(b6xspret)为82mb和对于(b6xcast)为97mb;两者都大大超过了预期的39mb和42mb(分别p=1e-267和p<2e-308,mann-whitney检验)。这与近距离中交换的排斥相一致。注意,在(b6xcast)杂交中,交换干扰比(b6xspret)杂交中更强,相邻交换之间的距离更长(p=5e-91)。我们还分析了(b6xspret)杂交中每个单细胞(图13f)和每个染色体(图13g)中单亲染色体(即没有观察的交换)的分布((b6xcast)杂交保持相同的趋势,如图14f-g中所示)。尽管按长度标准化后,较短的染色体显示出升高的交换率,但单亲染色体的发生率(在所有类型的细胞中折叠)仍与染色体大小负相关(图13g;r=-0.91,p=4.6e-8)。尽管我们已经显示m2细胞强烈偏向于其染色体的均等分离或减数分离,但是我们还观察到具有至少15条具有减数分离的染色体的细胞之间的数百个零散均等分离事件。以前已经观察到这种现象,并将其称为“反向分离”(ottolini等人,2015)。在图13h中,我们显示了这些反向分离事件的染色体分布。注意,尽管(b6xspret)杂交(平均值=1.1)的反向分离率显著高于(b6xcast)杂交(平均值=0.2,p=2e-14,mann-whitney检验),两个杂交中染色体7和11的反向分离率最高。然后我们检查了每细胞中映射到线粒体基因组的阅读片段的标准化比例(图13i,图10g)。1c细胞在线粒体dna的“拷贝数”方面表现出双峰分布,对此我们缺乏令人满意的解释。我们观察到线粒体阅读片段比例与交换数之间存在适度的负相关(rho=-0.11,p=3e-6)。有趣的是,尽管数量有限,但其染色体的至少15条均等或减数分离的m2细胞具有非常不同的线粒体阅读比例分布(图10g)。与此相一致,线粒体阅读比例与m2细胞中减数分离的染色体数正相关(r=0.18,p=0.005)。注意,我们不能在(b6xcast)杂交中对此进行评估,因为超过90%的测序单细胞没有映射到线粒体基因组的任何阅读片段。用于从睾丸(b6xcast)vs附睾(b6xspret)分离细胞核所用的不同方法,与来自睾丸的细胞核的预分选偶联,可能将线粒体从整体细胞核分级分离。prdm9对交换热度的影响基于通过在整个基因组中沿着染色体的堆积交换断裂点的交换热度图(图15),我们发现在种内(b6xcast)杂交中,交换热度与cast雄性中映射的dsb热域比b6雄性更好地相关(rho=0.28和0.12,分别p<2e-308和p=1e-83),可能是由于castprdm9等位基因在f1杂种中是半显性的。这种相关性对于(b6xcast)f1动物中映射的dsb热域(rho=0.3,p<2e-308)更强。对于(b6xspret)杂交,prdm9共有结合位点的侵蚀导致通过spo11寡核苷酸-复合物图谱定义的四种类型的dsb热点:b6和spret之间保守的那些热点(称为“对称”热点),仅在b6或spret中存在的那些热点(称为“不对称”热点),及在这任一物种中不包含prdm9结合位点的那些热点。所有四种类型的dsb热域与(b6xspret)杂交的交换具有低相关性(对于使用b6中映射的所有spo11热点,rho=0.13,p=4e-87);如果仅使用“对称热点”,rho=0.11,p=3e-63)。一种可能性是(b6xspret)杂交中的dsb位点主要由spretprdm9等位基因主导,使得在b6品系背景中映射的dsb热点不能预测交换位点。关于反向分离的原因和后果的推测我们已经观察到反向分离的高发生率,特别是在种间(b6xspret)杂交中。下面我们推测:1)什么可能导致过早的着丝粒粘连蛋白分离;2)是否一个交换足以用于适当的减数分离;3)mi中均等分离可能具有什么后果。首先,有可能由于b6和spret染色体之间不充分的同源物配对,原本应该在减数分裂过程中从同源物修复的dsb通常反而使用姐妹染色单体作为模板来修复。这可能会导致粘连的破坏(storlazzi等,2008),并导致过早的着丝粒粘连蛋白分离。第二,当前模型表明,尽管种间杂交中具有最初不足的同源物配对,一个同源物间交换和适当的姐妹染色单体粘附足以形成交叉(chiasmata)(图23)。一旦成功形成交换,不应损害染色体分离。在我们的研究中,在单个染色体水平上,观察到的大量均等分离的染色体确实具有正常的交换,如由着丝粒-远端loh证明的,这可能表明初始同源物配对的缺陷影响最终结果。但是,在基因组水平上,我们不能可信地评估具有偏倚的均等分离的那些细胞是否具有与其减数偏倚的细胞相似的交换数,因为我们可以检测到减数分离的染色体的所有交换,但当两个重组的染色单体分离开时,我们只能检测均等分离的染色体中的交换(图5b-c和图16d,模式2和3)。假设重组的染色单体同样可能一起分离或分开分离,交换数在那些基因组水平的均等分离情况中并不小,尽管我们不能排除由于未解析的重组中间体而使分离偏离50/50的可能性(图23,模式3)。第三,这些均等分离的染色体的后果是什么?它们返回有丝分裂,从而携带广泛的loh,还是进入mii,从而(如果是)导致形成1c配子?在酵母中表征了称为“恢复至生长”的现象,其中启动减数分裂程序的细胞可以在存在适当营养物的情况下回复到正常的有丝分裂,从而导致大量的loh事件(dayani等人,2011年)。在人类女性减数分裂中,具有反向分离的染色体进入mii,从而导致一个整倍体的卵母细胞和一个整倍体的极体2,与正常的mii分离一致;作者提出,未解析的重组中间体可能通过连接其他方面不相关的同源染色单体引起mi中的反向分离,且促进正确的mii分离(图23,图3)(ottolini等,2015)。mlh1在错配修复(mmr)和解析减数分裂中的holliday结中间体是重要的。给定b6和spret之间2%的序列趋异,有可能的是,mlh1由于密集的mmr是有限的,并且可能没有足够的mlh1用于解析重组中间体。但是,我们强调,如果重组同源染色单体共分离,这不会导致loh(图5c)。因此,无法通过未解析中间体的共分离来解释具有loh和均等分离的m2细胞。最后,在图23中,我们还显示了从染色体形成配子而没有任何同源物间交换(可能由于同源物配对不足)的可能贡献,因为其中一种模式(模式4)与具有交换但共分离的重组染色单体(模式3)不能区分。但是,如果这些没有交换的细胞显著构成1c细胞,我们应该在1c细胞中观察到更高数量的无交换染色体。在两个杂交中我们观察的1c细胞中,有和没有交换的染色体数量大约为50-50,这表明它们主要来源于图23中模式1-3的一些组合,而没有同源物间交换的2c细胞(模式4和5)对成功完成mii的1c细胞没有实质性贡献。交换热度和相关的(表观)基因组因子交换热是由许多因素形成的连续统。(b6xcast)杂交中的交换与f1杂交中映射的减数分裂dsb热点的相关性比两个亲本品系的单独映射中的相关性更强,这预期是基于先前的发现,即可以在f1杂种中形成新的减数分裂热点(smagulova等人,2016)。在(b6xspret)杂交中,交换与spo11断裂弱但正相关。注意,spo11图谱仅说明了b6等位基因的prdm9蛋白所结合的prdm9位点,而prdm9的spret拷贝可能结合不同的位点并建立新的减数分裂dsb热点,这在我们的分析中并未说明。我们观察到与减数分裂交换正相关的基因组特征包括富gc区域(酵母减数分裂也是如此(petes,2001;petes和merker,2002))、品系之间的cnv增长(lilue等,2018)、基因体、假基因转录物、ctcf结合位点、复制结构域(marchal等,2018)、dna转座子、卫星dna和包括h3k4me1、h3k27me3和h3k36me3的组蛋白修饰子集(mu等,2017)。有趣的是,参与调节雄性生殖细胞从有丝分裂向减数分裂的转换的dmrt6的结合位点(zhang等人,2014)与减数分裂交换热度强相关。与减数分裂交换显著负相关的基因组特征包括3'utr、line和低复杂性dna。与酵母不同,在其中rdna对于减数分裂交换非常冷的酵母中不同(petes和botstein,1977),小鼠rdna不表现为抑制交换。利用这些基因组特征,我们能够在小鼠基因组中区分出真正的减数分裂交换起始位点与随机采样的轨迹,(b6xspret)和(b6xcast)中准确度分别为0.73和0.85,而(b6xcast)中0.85的预期准确度对于25个基因组特征的子集保持。我们强调,尽管各种特征在建模方法之间的行为在很大程度上是一致的,但是如果没有进一步的实验,我们就无法确定任何因果性。方法sci-l3-wgs和sci-l3-靶-seq的方法和分子设计单细胞制备和核小体耗尽通过从皮氏培养皿进行胰蛋白酶消化或从组织匀浆来制备细胞悬液。根据华盛顿大学iacuc批准的方案,将雄性f1小鼠co2处死随后进行颈脱位。为了分离雄性生殖细胞,我们通过将管切成薄片并在室温下将组织在1ml的补充10%fbs的1xpbs中孵育15分钟来解剖附睾。孵育后,通过移液收集细胞悬浮液。从附睾分离的细胞用于(b6xspret)杂交实验,且也用作(b6xcast)杂交的成熟精子(“条码组3”)的来源。为了从整个睾丸分离细胞核作为(b6xcast)杂交的2b细胞的富集方法,我们首先将睾丸细胞用1%甲醛交联,然后使用低渗缓冲液提取细胞核。然后,我们主要根据dapi信号通过dna含量facs分选1c和2c细胞核。培养的人和小鼠细胞在4℃下以550g沉淀5分钟,且雄性生殖细胞在4℃下以2400g沉淀10分钟。核小体耗尽主要遵循sci-dna-seq中的xsds方法(vitak等,2017),除了将裂解缓冲液改变为与下游lianti方案(chen等,2017)相容。在室温下将细胞在含有406μl37%甲醛(最终浓度1.5%)的10mldmem完全培养基中交联10分钟(轻轻倒转试管)。然后加入800μl2.5m甘氨酸,和在冰上孵育5分钟。沉淀细胞并用1ml裂解缓冲液(60mmtris-acph8.3,2mmedtaph8.0,15mmdtt)洗涤。将沉淀重悬于含0.1%igepal(i8896,sigma)的1ml裂解缓冲液中,并在冰上孵育20分钟。然后将细胞核沉淀,用1xnebuffer2.1洗涤,并重悬于800μl含0.3%sds的1xnebuffer2.1中用于在42℃下耗尽核小体(剧烈振荡30分钟,500rpm)。然后,我们添加180ul10%triton-x,并在42℃下下剧烈振摇(500rpm)30分钟。然后在1ml裂解缓冲液中洗涤透化的细胞核两次,然后以20,000个细胞核/μl重悬在裂解缓冲液中。转座体设计和组装合成转座子dna寡聚体,其中两条链的5'磷酸化,一个是tn5插入所需的(5'/phos/ctgtctcttatacacatct,idt,page纯化(seqidno:1)),类似于lianti和nextera,另一个是连接所需的(5'/phos/gtcttgxxxxxxxx[第一轮条码]agatgtgtataagagacag,idt,标准脱盐(seqidno:2))。在伴随梯度冷却(95℃5分钟,-0.1℃/循环,9秒/循环,700循环至25℃)于退火缓冲液(10mmtris-hclph8.0、50mmnacl,1mmedta,ph8.0)中1:1退火后,将具有5'突出端的tn5双链体稀释至1.5μm。然后,我们将7.2μl存储缓冲液(含50%甘油的1xte)添加到12μl的约1μmtn5转座酶(lucigen,tnp92110)中,并在室温下将0.79μl稀释的转座酶与0.4μl1.5μmtn5双链体一起孵育。30分钟转座体二聚化至终浓度0.2μm。转座体复合物可以在-20℃下稳定储存长达一年。我们在第一轮中设置了24个反应用于条码标记24个孔,但根据应用情况可能需要更多的孔。对于每种新的生物学应用,我们首先进一步将转座体稀释至0.1μm以进行测试实验。独特阅读片段的数量和文库复杂性不是最佳的(图5),但可用于低分辨率的映射。在图7中,我们显示了每个步骤的sci-l3-wgs的分子结构。在商用nextera文库制备中,由于以下原因损失至少一半的可测序dna物质:1)tn5插入在片段化基因组dna的两端引入对称的转座子序列,其可在变性时导致形成发夹环并防止pcr扩增;和2)如果两个末端以50%的机会用i5或i7两者标签化,该分子不能测序。与基于nextera的文库制备相比,lianti的一个关键优势在于环状tn5设计打破了通过转座体二聚体引入的对称性,并通过使用分子内rt引物(也是环状转座子的特征)促进逆转录(rt)。但是,环状转座子与多于两轮的条码化不相容,这限制了通量并显著增加了文库成本(比较参见表2)。在对sci-l3-wgs进行的改变中,我们保留了在连接步骤中通过环状tn5带来的优势。标签化(第一轮条码)和连接(第二轮条码)然后,我们将20,000/μl浓度的1.5μl的细胞核分布到lo-结合的96孔板中的每个孔中,添加6.5μlh2o和0.7μl50mmmgcl2(最终浓度3.24mm,考虑裂解缓冲液中的edta)。将上面制备的1.2μl转座体添加到每个孔中,然后将板在55℃下孵育20分钟(建议使用热混合器,但不是必需的)。然后,我们添加5μl终止溶液(40mmedta和1mm亚精胺),并将细胞核汇集在槽中。在沉淀之前,将另外的1ml裂解缓冲液添加到细胞核悬液中。小心去除上清液后,我们将细胞核重悬于312μl重悬缓冲液(24μl10mmdntp,48μl10x标签化缓冲液[50mmmgcl2、100mmtris-hclph8.0],96μlh2o,144μl裂解缓冲液)中,并将4.7μl细胞核混合物分布到新的lo-结合96孔板的每个孔中。发夹连接双链体(1.caagac2.y'y'y'y'y'y'y'[第二轮条码的反向互补序列]3.caggagcgagctgcatccc4.aatttaatacgactcactata5.gggatgcagctcgctcctg6.yyyyyyy[第二轮条码](seqidn:3))与tn5转座子双链体类似地预退火,并稀释至1.5μm。注意,连接双链体包含五个元件:1)tn5上连接接头的反向互补序列;2)第二轮条码的反向补码序列;3)第二链合成(sss)引物的反向互补序列;4)t7启动子,注意这是发夹的环区域;5)以ggg开始的用于增强t7转录的第二链合成(sss)引物区(图4b中的“sp2”);6)第二轮条码(图4b中的“bc2”)。我们向具有细胞核悬液的每个孔添加0.8μl的这些双链体,并向每个孔中添加1.18μl连接混合物(0.6μl10xnebt4连接酶缓冲液,0.48μlpeg-4000、0.1ult4dna连接酶[thermoel0011])并在20℃下孵育30分钟。注意,连接后,环状结构模拟lianti的结构,并促进rt步骤的效率(如下所述),并且两轮条码存在于t7启动子的3'端,且因此包含在扩增的分子中。通过加入4μl终止溶液终止连接反应。然后将细胞合并到新的槽中(约630μl),用终浓度5μg/ml的dapi染色,并分选100-300个在细胞分选前具有添加的3μl裂解缓冲液的每个新孔中。注意,每个使用facs的分选事件根据喷嘴的大小与约3-5nlfacs缓冲液相关,我们建议将添加到每个孔中的液体总量保持在<1μl以保持盐浓度低。细胞裂解、缺口延伸和通过体外转录的线性扩增然后,我们通过在75℃下孵育45分钟,冷却至4℃并在55℃下用新稀释的qiagen蛋白酶(终浓度2mg/ml)处理8小时,每个孔中共3.5-4μl分选的细胞核用于细胞裂解。然后通过在75℃下孵育30分钟来热灭活蛋白酶。细胞裂解物可在-80℃下保存。对于每个实验,我们建议处理不超过32孔的样品(约9600个单细胞),因为随后的扩增步骤涉及rna,并且是时间敏感的。对于缺口延伸(图4c),通过添加2μlh2o,0.7μl10x标签化缓冲液,0.35μl10mmdntp和0.35μl具有链置换活性的bstwarmstart2.0聚合酶的混合物来使用具有链置换活性的聚合酶,并在68℃下孵育5分钟。注意,如果连接在两端成功,则双链体在两侧对于t7启动子是对称的,但如果连接仅在一端成功,则虚线框中的区域在一端丢失。分子间连接通常是无效率的。尽管我们包括预退火的发夹环以最小化分子间连接的必要性,但仍然需要两个分子(而不是在没有发夹环的情况下的三个分子)相互发现。如果连接效率为50%,则两端上的连接具有25%的发生率,但任一端上的连接具有75%的发生率。随后在rt步骤中,我们显示仅一端需要成功的连接。缺口延伸后,通过添加2μlh2o,2μlt7pol混合物和10μlrnmp混合物(neb,hiscribetmt7快速高产率rna合成试剂盒)组装20μlt7体外转录系统。将混合物在37℃下孵育10-16小时。rna纯化、rt和sss(或靶向测序)转录通过添加2.2μl0.5medta终止。扩增的rna分子然后用rcc-5(zymoresearch,r1016)纯化,并用18μl0.1xte洗脱。30μlrt系统通过首先添加0.6μlrnart引物(rargrarurgrurgrurarurarargrargrarcrarg,idt(seqidno:4))、2μl10mmdntp和0.5μlsuperase·intmnase抑制剂(20u/μl,thermofisheram2696)组装。然后,我们在70℃下孵育1分钟,在90℃下20秒用于变性和去除二级结构,并在冰上骤冷。superscripttmv逆转录酶(ssiv,thermofisher18090050)与6μl5xrt缓冲液,1.5μl0.1mdtt,1μlsuperase·intm和1μlssiv一起用于rt。将rt反应在55℃下孵育15分钟,60℃下10分钟,65℃下12分钟,70℃下8分钟,75℃下5分钟,和80℃下10分钟。将反应冷却至室温,之后加入0.5μlrnaseh(neb)和0.3μlrnasea(lifetechnologies,am2270)并在37℃下孵育30分钟。注意,图4e描绘了rt步骤中的两种情境:1)如果两端均具有成功连接,则rt可能像lianti中那样由折返环启动。2)如果只有一端具有成功连接,则rt可能通过在变性步骤之前添加的rnart引物启动。cdna合成后,过量的rna引物和rna转录物降解。最后,我们通过添加27μlh2o,20μl5xq5缓冲液,20μlq5gc增强子,1μlq5聚合酶和1μlsss引物(nnnn[umi]zzzzzz[第三轮条码]gggatgcagctcgctcctg,idt,标准脱盐(seqidno:5))用q5聚合酶合成第二链。可以用dcc-5(zymoresearch,d4014)纯化所得的双链dna,且使用文库制备试剂盒(如nebnextultraii)以最少3个pcr循环进行用于添加测序接头。值得注意的是,通过使用具有p5末端的单细胞条码引物(aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatctnnnnnnnzzzzzz[第三轮条码]gggatgcagctcgctcctg(seqidno:6))以及对于基因组中一个区域的靶向引物(图3b),sss步骤可以容易地改进以使得能够靶向测序。例如,在其中整合基于慢病毒的crispr文库的应用(shalem等人,2014)中,每个单细胞中的指导rna序列可以使用具有慢病毒整合的crispr文库引物的p7端(caagcagaagacggcatacgagattcgccttg[索引1]gtgactggagttcagacgtgtgctcttccgatctccgactcggtgccactttttcaa(seqidno:7))读取,因此无需对整个基因组进行测序和针对感特定目标区域富集。在这种情况下,可以省略文库制备步骤,并用凝胶或珠子纯化代替以除去引物二聚体。sci-l3-rna/dna共分析的方法和分子设计单细胞制备和核小体耗尽除了与下面指出的区别之外,细胞悬液以与sci-l3-wgs中相同的方案制备。hek293t、bj-5ta和3t3细胞从培养皿胰蛋白酶消化,并在室温下以1m/ml细胞浓度在1xpbs中用2%pfa固定10分钟。随后的淬灭(用甘氨酸)、洗涤、细胞核分离(用0.1%igepal),核小体耗尽(xsds方法)步骤与sci-l3-wgs相同,除了我们向所有裂解缓冲液和1xnebuffer2添加1%superase-in。将细胞核以每微升20,000个细胞核重悬于含1%superase-in的裂解缓冲液中。转座体和逆转录(rt)引物设计对于单细胞基因组扩增组分,转座体的设计和组装与sci-l3-wgs相同。对于单细胞转录组谱分析组分,逆转录引物对于逆转录方面与sci-rna-seq共有相似的结构(cao等,2017;cusanovich等,2015;mulqueen等,2018;ramani等,2017;vitak等,2017),即寡核苷酸的聚t启动部分,但包含用于后续连接步骤的不同条码结构和着陆垫(/5phos/gtcttg[与sci-l3-wgs中相同的着陆垫]nnnnnn[用于标记独特转录物的umi1]x'x'x'x'x'x'x'x'[转录组的第一轮条码,其与tn5转座子条码的序列不同]tttttttttttttttttttttttttttttvn,idt,标准脱盐(seqidno:8)。rt和标签化(第一轮条码)、连接(第二轮条码)、facs和细胞裂解然后,我们将1.5μl浓度20,000/μl的细胞核分布到lo-结合96孔板的每个孔中,加入上述0.2μlh2o,0.3μl50mmmgcl2(以中和裂解缓冲液中的edta),0.25μl10mmdntp和1μl25μmrt引物以准备rt步骤。然后将细胞核混合物在55℃下孵育5分钟以去除二级结构并在冰上快速淬灭。然后,我们添加1μl5xrt缓冲液,0.03μl100mmdtt(注意,存在来自裂解缓冲液的dtt,最终浓度5mm),0.25μlssiv,0.25μlrnaseout(thermofishercat.no.10777019),对于rt反应在25℃下孵育1分钟,37℃下1分钟,42℃下1分钟,50℃下1分钟,55℃下15分钟。然后加入0.4μlmgcl2和3.52μlh2o及上面制备的1.2μl转座体到每个孔中。直到细胞裂解后的所有后续步骤均与sci-l3-wgs相同。缺口延伸和通过体外转录的线性扩增我们使用随机七聚体通过部分nebnextread1引物作为5'突出端(cacgacgctcttccgatctnnnnnnn(seqidno:9))来进行缺口延伸。我们加入1μl的20μm寡聚体,在95℃下孵育3分钟以使dna变性,然后逐渐冷却至室温(约5分钟)以使寡聚体退火。然后加入2μlh2o、0.8μl10xnebuffer2、0.4μl10mmdntp、0.4μlklenow片段(3'→5'exo-,nebm0212s)并在30℃下孵育8分钟和75℃下10分钟。缺口延伸后,通过相同的sci-l3-wgs方案组装20μlt7体外转录系统。rna纯化、rt和sss除了不同的寡聚体序列外,所有步骤与sci-l3-wgs相同。在ivt后的rt步骤,代替使用0.6μlrnart引物,我们使用0.6μlnebnextread1引物(aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatct,illumina测序的p5末端,idt(seqidno:10))。对于sss引物,我们使用aagcagaagacggcatacgagat[p7末端]nnnn[umi2]z’z’z’z’z’z’[第三轮条码]cgtctctacgggatgcagctcgctcctg(seqidno:11)添加测接头。注意,所得的双链dna现在包含用于illumina测序的p5和p7末端,且可以用1.1xampurexp珠纯化和进行测序。文库制备步骤和在sci-l3-wgs中最少3个pcr循环(用于添加测序接头)对于共分析不是必要的(unessaccery)。在(b6xspret)杂交和(b6xcast)杂交中sci-l3-wgs实验的设置(b6xspret)杂交我们在两个单独的实验中合并分别从70天和88天龄的(b6xspret)f1雄性的6和3个附睾中分离的细胞,并用1%甲醛固定。对于每个实验,核小体耗尽后,我们每孔分布30,000个细胞,并在24个孔中进行原位索引的tn5插入以添加第一轮条码。然后,我们合并所有细胞,并将它们重新分布到64个孔中以通过连接添加第二轮条码和t7启动子。再次合并所有细胞后,我们以1:6分割细胞混合物,facs分选大多数细胞(6/7),并稀释其余细胞(1/7)。所得的孔每孔包含100到360个细胞,估计的冲突率为4-11%。(b6xcast)杂交从6个睾丸,我们回收了约12m1c圆形精细胞和约0.5m2c细胞。但是,由于1c细胞数高>20倍,因此我们仍然在对于2c细胞分选的群体中发现许多1c细胞(图8f)。在其中我们尝试富集2c细胞的sci-l3-wgs实验之一中,我们估计,对来自附睾中约160k的精子、约160k的1c圆形精细胞和约70k的2c细胞标签化,并在sci-l3-wgs的facs步骤过程中进一步富集2c细胞(图8g)。但是,尽管进行两轮富集,但1c细胞仍然占主导地位。表4.sci-l3的寡聚体。生物信息学和统计分析的方法阅读片段处理、比对和snv识别(calling)通过bcl2fastq将碱基识别转换为fastq文件,其中1个错配允许索引中的错误。然后,我们使用定制的shell脚本“sci_lianti_v2.sh”进行解复用(python脚本和rmarkdown文件分别作为“sci_lianti_inst.tar.gz”上载;包含用于生成所有主要和补充图的中间数据文件的r包可以通过以下链接下载和安装:https://drive.google.com/file/d/19nfubouhrahz8wobll-tcdrrtlizepjh/view?usp=sharing),其调用python脚本或ngs工具用于以下步骤:1)订购阅读片段对,使得所有单细胞组合条码处于阅读片段1(r1)中;2)解复用第三轮(sss,6nt,不允许错误)条码,并将条码和转录物的umi附加到阅读片段名称上,并按第三轮条码分割文库。注意,所有后续步骤对于通过第三轮条码分割的单个文库平行进行,其包含100-300个单细胞;3)使用cutadapt在r1中分割第一轮(tn5,8nt,允许1个错误)和第二轮(连接,7nt,允许1个错误)的条码,误差通过levenshtein距离计算,并将两轮条码附加到阅读片段名称上。此步骤以末端配对方式进行,即,如果r1没有正确的条码和间隔区结构,将配对的阅读片段2(r2)丢弃;4)使用cutadapt清理r2;5)用bwamem以末端配对方式与hg19或mm10基因组比对(li和durbin,2009)。对于其中评估条码冲突的实验,我们使用hg19和mm10的级联参考(concatenatedreference),并使用唯一比对的阅读片段来确定与人或小鼠基因组的相对映射率;6)使用阅读片段名称中附加的第一轮和第二轮条码将bam文件拆分为单细胞bam文件;7)使用bedtools将bam文件转换为bed文件(quinlan和hall,2010年),并如果r1或r2共有相同端点,确定独特插入位置。独特tn5插入位点定义为其中阅读片段对的两端需要不同的片段;8)使用“lianti”包(https://github.com/lh3/lianti/blob/master/pileup.c)(chen等,2017)中的“pileup”函数来调用等位基因-知晓模式的变体。注意,在此步骤中,我们包括组合批量bam文件(由所有约6900个单细胞的samtools合并生成(chen等人,2017年;li和durbin,2009年),超过30x)及每个单细胞bam文件,使得每个snp位置处深度的阈值只需要在批量文件中对于包括在最终vcf文件中的snp识别超过,因此ref和alt等位基因的原始计数包括在单细胞列中,只要该变体在批量文件中以杂合snp存在。通过将从头snp识别问题转换为基因分型问题,避免了由于单细胞中的低深度测序导致的高假阴性的问题;9)通过spret的参考snpvcf文件(从mousegenomeproject下载的spret_eij.mgp.v5.snps.dbsnp142.vcf.gz)在每个单个细胞中根据snp质量注释识别的snv。注释的snp文件随后用作后续交换断裂点分析的输入。用于识别断裂点的hmm通过比较支持参考和替代等位基因的阅读片段数目来确定给定snp位点的基因型。对于1c细胞,通过将隐马尔可夫模型与三种状态拟合来确定交换位置:参考、替代和杂合。转移矩阵(transitionmatrix)在表5中指定。表5.转移矩阵。主要参数改变两个数量级时结果不发生明显变化的视觉评估来手动选择参数。transprob取非常小的数[在这种情况下1e-10/(给定染色体上的snp总数)]以反映在任何单个snp位点处的状态转变应是非常罕见的事件的理念。transprob按照0.3和0.7的分数的进一步分解目的是抑制参考-替代-参考或替代-参考-替代形式的快速连续转变。表6中规定了发射矩阵(emissionmatrix)。表6.发射矩阵。状态\发射参考替代参考0.90.1替代0.10.9杂合0.50.5在对于每个单独的snp识别隐藏状态后,通过删除短于50kb的状态块来调用连续的长状态块。然后通过长状态块切换到不同状态的位置来确定交换位置,其中断裂点轨迹开始位置是之前状态块的最后snp位置,而轨迹结束位置是之后状态块的第一snp位置。对于m2细胞,首先通过对40个snp的窗口内的等位基因求平均来获得平均等位基因频率。然后将合并的(binned)等位基因频率用于从具有单一高斯概率分布的隐马尔可夫模型推断基础的染色体状态。转换矩阵在表7中指定。表7.转移矩阵。发射矩阵在表8中指定表8.发射矩阵。状态发射参考正常(0.05,0.1)替代正常(0.5,0.1)杂合正常(0.95,0.1)通过去除短于50kb的状态块来调用连续的长状态块,然后通过长状态块切换到不同状态的位置来确定近似的断裂点位置。然后,通过似然比检验对近似断裂点位置进行细化,目的是发现在近似断裂点附近上游20和下游20个snp内可能的断裂点。对于每个snp,在表9中指定了观察到所观察的基因型的概率。表9.观察到的所观察的基因型的可能性。状态\观察的参考替代参考1-error_proberror_prob替代error_prob1-error_prob杂合0.50.5error_prob被指定为1e-3,其反映了snp被错误识别的可能性。对于在近似断裂点附近的每个snp,通过上述分布计算其为实际断裂点的可能性。所有可能性大于0.01*最大可能性的snp被认为在断点范围内。断裂轨迹的开始被确定为这些snp中最左侧的snp,而断裂轨迹的终点被确定为最右侧的snp。如同在1c的情况中,进一步手动检查所有m2细胞断裂轨迹以去除伪影,例如其中两个紧邻的开关存在于50kb内。我们还在有丝分裂的patski细胞中执行了相同的断裂点识别。对于m2细胞和patski细胞,我们还通过以稀疏基因组覆盖率比较细胞的10和40个snp的箱元(bin)大小来手动检查断裂点轨迹。该步骤产生交换断裂点。我们基于着丝粒区域(即每个染色体的起始区域)是杂合的(“mt”,有丝分裂分离)还是纯合的(“me”,减数分裂分离)进行后处理以添加染色体分离信息。单亲染色体的分析此步骤从hmm输出获取rds文件,并生成单亲染色体调用。在染色体水平上减数分裂交换和染色体分离的分析该步骤产生了图10、13和14中所示的减数分裂交换的染色体水平的特征。将有限混合模型与(b6xcast)杂交中条码组2中的2c细胞拟合我们将数据与分别通过p1、p2、p3参数化的三个二项式分布的混合拟合,从而表示其染色体均等分离的概率。这三个二项式分布的相对贡献由长度3向量θ表示。我们通过使用r包rstan(http://mc-stan.org/users/interfaces/rstan)从它们的后验分布抽取样本来估计p1、p2、p3及θ,具有θ的均匀dirichlet先验分布:θ~dir(k=3,α=1),和p的beta先验分布:p~beta(a=5,b=5)。有关模型规范的更多详细信息,参见stan文件mt_mixture_model.stan。来自其他基因组学研究的数据集的预处理用于建立交换热和细胞聚类的线性模型。我们根据各种基因组元件处理来自先前基因组研究以及来自gff3格式的下载的小鼠注释文件和来自ucscgenomebrowser(https://genome.ucsc.edu/cgi-bin/hgtables)的repeatmasker的数据集。首先将基于mm9的数据集提升到mm10。这些数据集大致分为两类:以bed格式的计数数据或bedgraph格式的各种遗传或表观遗传标记的信号。对于细胞聚类和预测建模,交换轨迹的长度不同。我们通过将用于细胞聚类分析的每个单细胞中从所有交换累加的序列总量相除对计数数据进行标准化;并通过对每个交换道或随机采样的轨道除以轨道长度加1kb,使得极短的轨道不过分加权处理来标准化。注意,中位数轨道长度为150kb,使得添加1kb不包括太多额外序列。对于具有各种标记的连续信号的数据集,我们获取与交换或随机轨道相交的平均标记信号。对于交换堆积数据集,由于我们使用大小均匀的100kb窗口,我们在使用计数数据时不对轨迹长度进行标准化。除了讨论部分中提到的数据集,其中特征与交换发生率统计学显著地关联,我们还使用了以下数据集:1)序列趋异(lilue等,2018);2)从纯化的粗线期精母细胞映射的atac-seq和h3k27ac(maezawa等,2018);3)精原细胞亚硫酸氢盐测序(inoue等,2017);4)精母细胞中基于mnase的核小体定位(barral等,2017);5)精母细胞中的h4k5和h4k8丁酰化和乙酰化(goudarzi等,2016);6)精母细胞中的h2a泛素化(hasegawa等,2015);7)ctcfl的结合位点,ctcf结合位点的睾丸特异性旁系同源物(sleutels等,2012);8)粗线期精母细胞中的5hmc图谱(gan等,2013);9)依托泊苷处理后的end-seq以及活化b细胞中的ctcf和rad21chip-seq,mef中top2a和top2bchip-seq(canela等,2017);10)patski等位基因atac-seq数据(bonora等,2018)。用于细胞聚类的pca、用于交换热度的线性模型的bma以及用于交换和随机轨道的预测模型的随机森林主成分分析用于基于断裂点特征以2d形式可视化1c和m2细胞的分离。我们为每个单细胞汇总交换相关的信息,总共有对应于三种类型的78个特征。作为第一类型,我们简单地计算每个细胞中每个染色体的交换或全染色体loh事件的数量。作为第二类型,对于诸如gc含量、序列趋异、染色质标记的强度的特征,我们计算了每个细胞中交换断裂点的中位数。作为第三类型,我们计算基因组元件如基因体、长末端重复序列(ltr)、每个细胞中与交换断裂点重叠的line元件的标准化计数。bayesianmodelaveragingusingthe“bas”package(clydeetal.,2011)isusedtoconstructlinearmodelspredictingcrossoverhotness(functionbas.lmsampling214modelswithdefaultsettings),andvariablesimportantforpredictinghotnessareidentifiedbasedontheirmarginalinclusionprobabilities.randomforestsaretrainedtodistinguishtruecrossovertractsfromtractsrandomlysampledfromthegenomeresemblingthe“null”distribution.modelaccuracyisdeterminedbyfullnested5-foldcrossvalidation,with5externalfoldsand5foldswithineachtrainingset(seesectioncalled“models”insci-l3-wgs-figures.rmdforrcodeandannotations).toestimatethestrain(orcelltype)effectonthepositioningoftherightmostcrossoversalongchromosomes,weusealinearmixedeffectmodelwithfixedeffectforstrain(orcelltype)andrandominterceptforchromosometoaccountforinter-chromosomevariability(seesectioncalled“karyotypeplots”insci-l3-wgs-figures.rmdforrcodeandannotations).使用“bas”程序包(clyde等人,2011)的贝叶斯模型平均被用于构建预测交换热度的线性模型(具有默认设置的函数bas.lm采样214个模型),并根据他们的边际包含概率识别了对预测热度重要的变量。对随机森林进行训练以区分真实的交换轨迹与类似于“零”分布的从基因组随机采样的轨迹。模型准确性通过完全嵌套5折交驻验证确定,具有5个外部折叠和每个训练集中的5个折叠(有关r代码和注释,参见sci-l3-wgs-figures.rmd中称为“模型”的部分)。为了估计品系(或细胞类型)对沿着染色体的最右边交换的定位的影响,我们使用对品系(或细胞类型)具有固定作用的线性混合效应模型和对染色体的随机截距来解释染色体间变异性(有关r代码和注释,参见sci-l3-wgs-figures.rmd中称为“核型图”的部分)。参考文献barral,s.,morozumi,y.,tanaka,h.,montellier,e.,govin,j.,dedieuleveult,m.,charbonnier,g.,couté,y.,puthier,d.,buchou,t.等(2017).histonevarianth2a.l.2guidestransitionprotein-dependentprotamineassemblyinmalegermcells.mol.cell66,89-101.e8.bonora,g.,deng,x.,fang,h.,ramani,v.,qiu,r.,berletch,j.b.,filippova,g.n.,duan,z.,shendure,j.,noble,w.s.等(2018).orientation-dependentdxz4contactsshapethe3dstructureoftheinactivexchromosome.nat.commun.9,1445.canela,a.,maman,y.,jung,s.,wong,n.,callen,e.,day,a.,kieffer-kwon,k.-r.,pekowska,a.,zhang,h.,rao,s.s.p.等(2017).genomeorganizationdriveschromosomefragility.cell170,507-521.e18.cao,j.,packer,j.s.,ramani,v.,cusanovich,d.a.,huynh,c.,daza,r.,qiu,x.,lee,c.,furlan,s.n.,steemers,f.j.等(2017).comprehensivesingle-celltranscriptionalprofilingofamulticellularorganism.science357,661-667.chen,c.,xing,d.,tan,l.,li,h.,zhou,g.,huang,l.和xie,x.s.(2017).single-cellwhole-genomeanalysesbylinearamplificationviatransposoninsertion(lianti).science356,189-194.clyde,m.a.,ghosh,j.和littman,m.l.(2011).bayesianadaptivesamplingforvariableselectionandmodelaveraging.j.comput.graph.stat.20,80-101.cusanovich,d.a.,daza,r.,adey,a.,pliner,h.a.,christiansen,l.,gunderson,k.l.,steemers,f.j.,trapnell,c.和shendure,j.(2015).multiplexsinglecellprofilingofchromatinaccessibilitybycombinatorialcellularindexing.science348,910-914.dayani,y.,simchen,g.和lichten,m.(2011).meioticrecombinationintermediatesareresolvedwithminimalcrossoverformationduringreturn-to-growth,ananalogueofthemitoticcellcycle.plosgenet.7,e1002083.froenicke,l.,anderson,l.k.,wienberg,j.和ashley,t.(2002).malemouserecombinationmapsforeachautosomeidentifiedbychromosomepainting.am.j.hum.genet.71,1353-1368.gan,h.,wen,l.,liao,s.,lin,x.,ma,t.,liu,j.,song,c.-x.,wang,m.,he,c.,han,c.等(2013).dynamicsof5-hydroxymethylcytosineduringmousespermatogenesis.nat.commun.4,1995.goudarzi,a.,zhang,d.,huang,h.,barral,s.,kwon,o.k.,qi,s.,tang,z.,buchou,t.,vitte,a.-l.,he,t.等(2016).dynamiccompetinghistoneh4k5k8acetylationandbutyrylationarehallmarksofhighlyactivegenepromoters.mol.cell62,169-180.hasegawa,k.,sin,h.-s.,maezawa,s.,broering,t.j.,kartashov,a.v.,alavattam,k.g.,ichijima,y.,zhang,f.,bacon,w.c.,greis,k.d.等(2015).scml2establishesthemalegermlineepigenomethroughregulationofhistoneh2aubiquitination.dev.cell32,574-588.inoue,k.,ichiyanagi,k.,fukuda,k.,glinka,m.和sasaki,h.(2017).switchingofdominantretrotransposonsilencingstrategiesfromposttranscriptionaltotranscriptionalmechanismsduringmalegerm-celldevelopmentinmice.plosgenet.13,e1006926.lange,j.,yamada,s.,tischfield,s.e.,pan,j.,kim,s.,zhu,x.,socci,n.d.,jasin,m.和keeney,s.(2016).thelandscapeofmousemeioticdouble-strandbreakformation,processing,andrepair.cell167,695-708.e16.li,h.和durbin,r.(2009).fastandaccurateshortreadalignmentwithburrows-wheelertransform.bioinformatics25,1754-1760.lilue,j.,doran,a.g.,fiddes,i.t.,abrudan,m.,armstrong,j.,bennett,r.,chow,w.,collins,j.,czechanski,a.,danecek,p.等(2018).multiplelaboratorymousereferencegenomesdefinestrainspecifichaplotypesandnovelfunctionalloci.lu,s.,zong,c.,fan,w.,yang,m.,li,j.,chapman,a.r.,zhu,p.,hu,x.,xu,l.,yan,l.等(2012).probingmeioticrecombinationandaneuploidyofsinglespermcellsbywhole-genomesequencing.science338,1627-1630.maezawa,s.,yukawa,m.,alavattam,k.g.,barski,a.和namekawa,s.h.(2018).dynamicreorganizationofopenchromatinunderliesdiversetranscriptomesduringspermatogenesis.nucleicacidsres.46,593-608.marchal,c.,sasaki,t.,vera,d.,wilson,k.,sima,j.,rivera-mulia,j.c.,trevilla-garcía,c.,nogues,c.,nafie,e.和gilbert,d.m.(2018).genome-wideanalysisofreplicationtimingbynext-generationsequencingwithe/lrepli-seq.nat.protoc.13,819-839.mu,w.,starmer,j.,shibata,y.,yee,d.和magnuson,t.(2017).ezh1ingermcellssafeguardsthefunctionofprc2duringspermatogenesis.dev.biol.424,198-207.mulqueen,r.m.,pokholok,d.,norberg,s.j.,torkenczy,k.a.,fields,a.j.,sun,d.,sinnamon,j.r.,shendure,j.,trapnell,c.,o’roak,b.j.等(2018).highlyscalablegenerationofdnamethylationprofilesinsinglecells.nat.biotechnol.36,428-431.ottolini,c.s.,newnham,l.,capalbo,a.,natesan,s.a.,joshi,h.a.,cimadomo,d.,griffin,d.k.,sage,k.,summers,m.c.,thornhill,a.r.等(2015).genome-widemapsofrecombinationandchromosomesegregationinhumanoocytesandembryosshowselectionformaternalrecombinationrates.nat.genet.47,727-735.petes,t.d.(2001).meioticrecombinationhotspotsandcoldspots.nat.rev.genet.2,360–369.petes,t.d.和botstein,d.(1977).simplemendelianinheritanceofthereiteratedribosomaldnaofyeast.proc.natl.acad.sci.u.s.a.74,5091-5095.petes,t.d.和merker,j.d.(2002).contextdependenceofmeioticrecombinationhotspotsinyeast:therelationshipbetweenrecombinationactivityofareporterconstructandbasecomposition.genetics162,2049-2052.quinlan,a.r.和hall,i.m.(2010).bedtools:aflexiblesuiteofutilitiesforcomparinggenomicfeatures.bioinformatics26,841-842.ramani,v.,deng,x.,qiu,r.,gunderson,k.l.,steemers,f.j.,disteche,c.m.,noble,w.s.,duan,z.和shendure,j.(2017).massivelymultiplexsingle-cellhi-c.nat.methods14,263-266.shalem,o.,sanjana,n.e.,hartenian,e.,shi,x.,scott,d.a.,mikkelson,t.,heckl,d.,ebert,b.l.,root,d.e.,doench,j.g.等(2014).genome-scalecrispr-cas9knockoutscreeninginhumancells.science343,84-87.sleutels,f.,soochit,w.,bartkuhn,m.,heath,h.,dienstbach,s.,bergmaier,p.,franke,v.,rosa-garrido,m.,vandenobelen,s.,caesar,l.等(2012).themalegermcellgeneregulatorctcflisfunctionallydifferentfromctcfandbindsctcf-likeconsensussitesinanucleosomecomposition-dependentmanner.epigeneticschromatin5,8.smagulova,f.,brick,k.,pu,y.,camerini-otero,r.d.和petukhova,g.v.(2016).theevolutionaryturnoverofrecombinationhotspotscontributestospeciationinmice.genesdev.30,266-280.storlazzi,a.,tesse,s.,ruprich-robert,g.,gargano,s.,s.,kleckner,n.和zickler,d.(2008).couplingmeioticchromosomeaxisintegritytorecombination.genesdev.22,796-809.vitak,s.a.,torkenczy,k.a.,rosenkrantz,j.l.,fields,a.j.,christiansen,l.,wong,m.h.,carbone,l.,steemers,f.j.和adey,a.(2017).sequencingthousandsofsingle-cellgenomeswithcombinatorialindexing.nat.methods14,302-308.wang,j.,fan,h.c.,behr,b.和quake,s.r.(2012).genome-widesingle-cellanalysisofrecombinationactivityanddenovomutationratesinhumansperm.cell150,402-412.zhang,t.,murphy,m.w.,gearhart,m.d.,bardwell,v.j.和zarkower,d.(2014).themammaliandoublesexhomologdmrt6coordinatesthetransitionbetweenmitoticandmeioticdevelopmentalprogramsduringspermatogenesis.development141,3662-3671.本文引用的所有专利、专利申请和公开的完整公开以及可电子获得的材料(例如,包括在例如genbank和refseq中的核苷酸序列提交,以及在例如swissswt、pir、prf、pdb中的氨基酸序列提交,及来自genbank和refseq中注释的编码区的翻译)均通过引用全文并入本文。出版物中引用的补充材料(例如补充表格、补充图形、补充材料和方法和/或补充实验数据)同样全文以引用方式并入。在本申请的公开与通过引用并入本文的任何文件的公开之间存在任何不一致的情况下,以本申请的公开为准。仅出于清楚理解的目的给出了前面的详细描述和示例。由此理解没有不必要的限制。本公开不限于所示出和描述的确切细节,因为对于本领域技术人员显而易见的变化将包括在由权利要求书限定的公开之内。除非另有说明,否则在说明书和权利要求书中使用的所有表示组分、分子量等的数量的数字在所有情况下均理解为由术语“约”修饰。因此,除非另有相反指示,否则说明书和权利要求书中列出的数字参数是近似值,其可以根据本公开寻求获得的期望性质而变化。至少且并非试图将等同原则限制在权利要求的范围内,每个数字参数应至少根据所报告的有效位数的数目并通过应用普通的舍入技术来解释。尽管阐述本公开的广泛范围的数值范围和参数是近似值,但是在具体示例中阐述的数值尽可能精确地报告。但是,所有数值固有地包含一个范围,该范围必然是由它们各自的测试测量中的标准偏差得出的。所有标题都是为了方便读者,且除非另有说明,不应将其用于限制标题后面的文本的含义。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1