核酸的多重末端标记扩增的制作方法

文档序号:21322796发布日期:2020-06-30 20:56阅读:527来源:国知局
核酸的多重末端标记扩增的制作方法

相关申请信息

本申请要求于2017年3月23日提交的第62/509,981号美国临时申请的优先权,并通过引用将其整体纳入本文用于所有目的。

政府权益声明

本发明是在国立卫生研究院(nationalinstitutesofhealth)的ca186693下于政府资助下完成。政府对本发明享有某些权利。

序列表

本申请包含序列表,该序列表已经以ascii格式电子提交,并且其全部内容通过引用并入本文。在2018年5月23日创建的所述ascii拷贝被命名为010498_01103_wo_sl.txt,大小为4,971字节。

背景

发明领域

本发明的实施方式一般涉及用于单个细胞基因组测序的方法和组合物,诸如来自单个细胞的dna。



背景技术:

在细胞间变异和种群异质性起关键作用的研究中,如肿瘤生长、干细胞重编程、胚胎发育等,进行单个细胞基因组测序的能力非常重要。当进行测序的细胞样品非常珍贵或稀有或以微量存在时,单个细胞基因组测序也同样非常重要。准确的单个细胞基因组测序的重要之处在于基因组dna(可以是处于微量的)的初始扩增。

多重置换扩增(mda)是在测序和其它分析之前采用单个细胞基因组dna进行操作的领域的常用方法。在该方法中,随机引物退火后,利用具有强链置换活性的dna聚合酶进行延伸。来自单个细胞的原始基因组dna以级联样的形式指数扩增,以形成超支化dna结构。扩增来自单个细胞的基因组dna的其它方法述于zong,c.,lu,s.,chapman,a.r.,和xie,x.s.(2012),单个人细胞的单核苷酸和拷贝数变异的基因组范围检测(genome-widedetectionofsingle-nucleotideandcopy-numbervariationsofasinglehumancell),science338,1622-1626,其中描述了基于多次退火和成环的扩增循环(malbac)。本领域所知的另一方法是简并寡核苷酸引发的pcr或dop-pcr。用于单个细胞基因组dna的若干其他方法包括:cheung,v.g.和s.f.nelson,使用简并寡核苷酸引物的全基因组扩增允许成百上千个基因型以少于一纳克的基因组dna进行(wholegenomeamplificationusingadegenerateoligonucleotideprimerallowshundredsofgenotypestobeperformedonlessthanonenanogramofgenomicdna),proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica,1996.93(25):14676-9页;telenius,h.,等,简并寡核苷酸引发的pcr:通过单个简并引物的常规扩增(degenerateoligonucleotide-primedpcr:generalamplificationoftargetdnabyasingledegenerateprimer),genomics,1992.13(3):718-25页;zhang,l.,等,单个细胞的全基因组扩增:对基因分析的启示(wholegenomeamplificationfromasinglecell:implicationsforgeneticanalysis).proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica,1992,89(13):5847-51页;lao,k.,n.l.xu,和n.a.straus,使用单个引物的pcr的全基因组扩增(wholegenomeamplificationusingsingle-primerpcr),biotechnologyjournal,2008,3(3):378-82页;dean,f.b.,等,使用多重置换扩增的完整人基因组扩增(comprehensivehumangenomeamplificationusingmultipledisplacementamplification),proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica,2002.99(8):5261-6页;lage,j.m.,等,使用超支化链置换扩增和列阵-cgh对小dna样品中基因变异的全基因组分析(wholegenomeanalysisofgeneticalterationsinsmalldnasamplesusinghyperbranchedstranddisplacementamplificationandarray-cgh),genomeresearch,2003,13(2):294-307页;spits,c.,等,单个细胞全基因组置换扩增的优化和评价(optimizationandevaluationofsingle-cellwhole-genomemultipledisplacementamplification),humanmutation,2006,27(5):496-503页;gole,j.,等,使用纳升微孔进行单个细胞大规模平行聚合酶克隆和基因组测序(massivelyparallelpolymerasecloningandgenomesequencingofsinglecellsusingnanolitermicrowells),naturebiotechnology,2013.31(12):1126-32页;jiang,z.,等,使用多重置换扩增的单个精子的基因组扩增(genomeamplificationofsinglespermusingmultipledisplacementamplification),nucleicacidsresearch,2005,33(10):e91页;wang,j.,等,人精子细胞中重组活性和新生突变率的基因组范围单个细胞分析(genome-widesingle-cellanalysisofrecombinationactivityanddenovomutationratesinhumansperm),cell,2012.150(2):402-12页;ni,x.,肺癌患者单循环肿瘤细胞中可再生拷贝数变异模式(reproduciblecopynumbervariationpatternsamongsinglecirculatingtumorcellsoflungcancerpatients),pnas,2013,110,21082-21088;navin,n.,通过单个细胞测序推测肿瘤进化(tumorevolutioninferredbysinglecellsequencing),nature,2011,472(7341):90-94;evrony,g.d.,等,人大脑中11个反转录转座和体细胞突变的单个神经元测序分析(single-neuronsequencinganalysisofl1retrotranspositionandsomaticmutationinthehumanbrain),cell,2012.151(3):483-96页;和mclean,j.s.,等,使用高通量单个细胞基因组学平台从医院槽中的生物膜中回收牙龈卟啉单胞菌病原体的基因组(genomeofthepathogenporphyromonasgingivalisrecoveredfromabiofilminahospitalsinkusingahigh-throughputsingle-cellgenomicsplatform),genomeresearch,2013.23(5):867-77页。关于全基因组扩增方面的方法报道于wo2012/166425、us7,718,403、us2003/0108870和us7,402,386。

体外转座已经用于dna扩增的某些应用中。在这类方法中,靶dna被同时片段化和标记,产生标记有所需dna序列的片段,用于下游处理。作为一种文库制备方法,体外转座已经被用于亿明达有限公司(illumina,inc)的nextera技术,以同时片段化dna并用适当序列标记各片段,用于下一代测序(us20110287435)。作为用于研究单细胞基因组和表观基因组的工具,体外转座已经被buenrostro等用于概述染色质可及性(buenrostro,j.d.,wu,b.,litzenburger,u.m.,ruff,d.,gonzales,m.l.,snyder,m.p.,...和greenleaf,w.j.(2015)。单细胞染色质可及性揭示调节性变异的原理(single-cellchromatinaccessibilityrevealsprinciplesofregulatoryvariation).nature,523(7561),486-490),被ramani等用于间研究三维染色体构象(ramani,v.,deng,x.,qiu,r.,gunderson,k.l.,steemers,f.j.,disteche,c.m.,...和shendure,j.(2017).大规模多重单细胞hi-c(massivelymultiplexsingle-cellhi-c).naturemethods,14(3),263-266),和被zahn等用于将单细胞基因组直接扩增到测序文库(zahn,h.,steif,a.,laks,e.,eirew,p.,vaninsberghe,m.,shah,s.p.,...和hansen,c.l.(2017)不需要前置扩增的可扩展全基因组单细胞文库制备(scalablewhole-genomesingle-celllibrarypreparationwithoutpreamplification).naturemethods,2017)。然而,所有这些方法都将损失约50%的原始靶核酸。这是因为使用两个转座子序列进行标记,以下分别用a和b表示:在转座子a和b标记靶dna后,可生成4种不同类型的dna片段,它们是在各片段的两个末端标记有a-a、b-b、a-b或b-a的片段。只有标记有a-b或b-a的片段(其占全部转座产物的50%)适用于pcr扩增或成对末端测序。另50%的片段(其经a-a或b-b标记)将是损失的。对于具有有限数量的dna的样品,包括稀有、独特或有价值的单细胞样品,诸如用于胚胎植入前遗传筛选的单细胞,这样的损失率当然是不期望的,并且潜在地是不可接受的。另一种转座方法述于wo2016/073690,然而,该方法并不能降低由转座偏差而导致的50%损失。

因此,存在对于扩增(如从单个细胞或一小群细胞扩增)小量基因组dna的其它方法的需求,其中扩增损失被降低。



技术实现要素:

本公开提供了用于使用多种转座体(transposome)进行基因组dna片段化的方法,其中多种转座体的各成员包括具有引发位点序列(primingsitesequence)的转座子核酸序列。根据一个方面,转座体的各转座子核酸序列的引发位点序列是相同的。根据一个方面,转座体的各转座子核酸序列的引发位点序列是不同的。根据一个方面,多个转座体的各成员可包含独特且/或不同的引发位点序列。根据一个方面,多个转座体的各成员可以包含两个独特且/或不同的引发位点序列,转座体中的各转座子各用一个。以此方式,提供了一组转座体,其具有与此相关的独特引物结合位点序列(或者两个独特且/或不同的引发位点序列)并且可以用于区分转座体。不同地是,转座体内转座子的所述引物结合序列可以是相同的或者可以是不同的或不等同的(nonidentical)。连接靶核酸序列并用于制备片段的两个邻近转座体中的转座体的引物结合位点序列是不等同的,诸如具有高可能性(highprobability)。只要转座体内各转座子具有不同引发位点序列,那么转座子可以被称为多重转座子。只要各转座体具有与转座体组内其他转座体内的其他引发位点不同的或不等同或相较独特的引发位点,那么转座体文库内的引发位点可以被称为多重引发位点。根据一个方面,该方法提供了沿着靶核酸序列结合转座体文库或多个转座体的转座体的步骤,从而使邻近转座体具有不同的引物结合位点序列。以此方式,片段化位点的末端将会以不同的引物结合位点序列标记。无论转座体对其两个转座子dna之各者是否具有相同的引物结合位点序列,或者无论转座体对其两个转座子dna之各者是否具有不同的引物结合位点序列,这都可以实现。以此方式,本文所述的多重末端标记(end-tagging)扩增方法使用多个引发序列以产生在两个末端被不同序列标记的靶dna片段。无论转座体内的两个转座子序列是相同的还是不同的,只要两个邻近转座体(即直接相邻,从而形成片段序列)携带不同的转座子引物结合位点序列(其中所述片段在各末端处具有不同的引物结合位点序列),就可以进行多重末端标记扩增方法。

根据一个方面,当使用转座方法片段化和标记基因组核酸序列,诸如单细胞的基因组核酸序列时,在转座体组(asetoftransposomes)内使用多重引发位点序列降低损失率(lossrate)。根据本文的教导,当在反应混合物中存在n个不同转座子序列时,即当独特的引发位点的数量为n时,被相同转座子序列标记的dna片段的可能性(即损失率)是1/n。因此,本公开提供了用于改变独特的引发位点序列的数量(即数量n)以控制损失率的方法。例如,当有20个不同的转座子序列与获自人单细胞的dna使用时,损失率是1/20或5%。

本文所述的产生多个片段的方法使用转座体组,其中转座体组的各成员具有一个或两个不同的引物结合位点序列并且其中转座体组的各成员相较于该转座体组的各其他成员具有一个或两个独特或不同的引发结合位点,诸如具有高可能性。以此方式,在片段化过程期间使用不同和/或独特的末端条码序列对片段的邻近末端进行条码化,以产生在各末端具有独特条码序列(引发位点序列)的片段。以此方式,在片段化过程期间,片段的相对末端由不同和/或独特的末端条码序列条码化,以产生在各末端具有不同条码序列(引发位点序列)的片段。以此方式,在片段化过程期间使用不同和/或独特末端条码序列对片段的两个末端进行条码化,以产生在各末端具有独特条码序列(引发位点序列)的片段。根据一个方面,在水性介质中使用转座体文库制备基因组dna的片段,其中将独特条码序列在已被转座体的转座酶切割的位点处插入或连接至基因组dna的各末端。因为各转座体相较于文库组或多个文库的其他转座体成员具有一个或两个不同和/或独特引发位点序列,各片段将在各末端具有独特的引发位点序列(条码序列)。本公开考虑了使用本文所述的转座体文库将基因组dna片段化成多个片段,如5或更多片段,10或更多片段,100或更多片段,1000或更多片段,10,000或更多片段,100,000或更多片段,1,000,000或更多片段,或10,000,000或更多片段。根据取决于独特且/或不同的引物结合位点序列的一个方面,转座体文库包括5-10个类型或种类的转座体成员,10-100个类型或种类的转座体成员,100或更多个类型或种类的转座体成员,1000或多个类型或种类的转座体成员,10,000或更多个类型或种类的转座体成员,100,000或更多个类型或种类的转座体成员,1,000,000或更多个类型或种类的转座体成员,或10,000,000或更多个类型或种类的转座体成员,或5-50个类型或种类的转座体成员。

根据一个方面,各转座体包含两个转座酶和两个转座子dna。转座体的两个转座子dna各自包含转座酶结合位点和引物结合位点序列。根据一个方面,转座子dna包含单个转座酶结合位点和独特引物结合位点序列。各转座子dna是在转座酶结合位点处与转座酶结合的单独(separate)的核酸。转座体是各自与其自身的转座子dna结合的两个单独的转座酶的二聚体。二聚体在各转座子上可以具有相同的引物结合位点序列或者在各转座子上可以具有不同引物结合位点序列。根据一个方面,转座体包含两个单独的和个体的转座子dna,各自结合其自身相应的转座酶。根据一个方面,转座体仅包含两个转座酶和两个转座子dna。根据一个方面,作为转座体部分的两个转座子dna是单独的、个体的或非连接的转座子dna,其各自结合其自身相应的转座酶。

根据一个方面,文库的各转座体成员包含独特且/或不同的引发位点序列。转座体的各转座子dna上可以存在相同的独特或不同引发位点序列,或者转座体的各转座子dna上可以存在不同的独特或不同引发位点序列。以此方式,各转座体包括独特且不同的引发位点序列,其相较转座体文库中任何其他转座体的引发位点序列而言独特且不同。根据一个方面,转座体文库可以包括转座体成员,其具有与其他转座体成员相同的引发位点序列,虽然可能性相对小或者不显著。以此方式,可以认为转座体文库是制备的转座体集合的子集,其中该子集仅包括具有独特且不同的引发位点序列的转座体,因为目标是将基因组dna片段化,其中各片段切割位点具有不同引发位点序列。应当理解的是,可以实现对基因组dna进行片段化(其中各片段切割位点具有不同引发位点序列)的目标,其中邻近转座体各自具有独特且不同的引发位点序列,虽然其可被转座体的两个转座子共有。应当理解的是,可以实现对基因组dna进行片段化(其中各片段切割位点具有不同引发位点序列)的目标,其中邻近转座体各自具有两个独特且不同的引发位点序列,其中转座体的各转座子具有独特且不同的引发位点序列。

应当理解的是,由于转座体文库制备,不显著数量的切割位点可能共有相同的引发位点序列。例如,对于给定的文库制备方法,数学上可能存在具有相同引发位点序列的多个转座体分子,但是制备文库使得不同引发位点序列的数量显著地超过实际将要被插入靶基因组的转座体分子的数量。根据一个方面,转座体文库可以包括具有相同的两个引发位点序列的转座体成员,即引发位点序列是等同的或相同的,虽然该引发位点序列相较于转座体文库的转座体成员的任何其他转座子dna而言是独特的。为了制备这样的转座体文库,通过将转座酶与包含独特引发位点序列的转座子dna混合来分开地制备各转座体成员。然后将所有转座体成员混合在一起以形成转座体文库。

根据一个方面,通过将所有转座子序列与转座酶混合在一起以形成转座体来制备转座体文库。在该方法中,大多数转座体具有不同的转座子序列,但携带相同转座子序列的转座体的概率是1/n。根据制备转座体文库的另一方法,将各种类型的转座子序列与转座酶单独地混合,然后将所有转座体混合以形成转座体文库。在该方法中,所有转座体将具有相同的转座子序列。

根据一个方面,独特且/或不同的引发位点序列的数量为5-50,10-50,15-45,20-40或1-1,000,1-10,000,1-100,000,1-1,000,000或1-10,000,000。根据一个方面,基因组dna中切割位点的数量通过转座体的浓度确定或调整,较高的浓度导致较高数量的切割位点,而较低的浓度导致较少数量的切割位点。根据一个方面,选择转座体以及相关不同和/或独特引发位点序列的数量,从而使基本上所有切割位点具有两个不同和/或独特的引发位点序列。根据一个方面,超过90%的切割位点具有两个不同和/或独特的引发位点序列,超过95%的切割位点具有两个不同和/或独特的引发位点序列,96%的切割位点具有两个不同和/或独特的引发位点序列,97%的切割位点具有两个不同和/或独特的引发位点序列,98%的切割位点具有两个不同和/或独特的引发位点序列,99%的切割位点具有两个不同和/或独特的引发位点序列,99.5%的切割位点具有两个不同和/或独特的引发位点序列或100%的切割位点具有两个不同和/或独特的引发位点序列。

然后使用转座体文库切割基因组dna,并且各转座体将其引发位点序列插入或连接位于切割位点末端处的各转座子dna中。当邻近转座体相较于彼此而言具有独特且不同的引发位点序列时,切割位点将在位点的各末端具有独特且不同的引发位点序,即插入的引发位点序列将不相同。以此方式,通过转座体文库产生的多个或大多数或基本上所有片段在片段的各末端(即相对末端)具有不同和/或独特的引发位点序列,在此范围内邻近转座体相较于彼此而言具有独特且/或不同的引发位点序列。然后,可以通过缺口填平(gapfill-in)步骤,例如通过聚合酶延伸步骤,将转座酶从各片段去除。然后可以使用例如多重pcr扩增对所得双链核酸片段序列进行扩增。然后可以对片段进行测序并且可以确定基因组dna的序列。

根据一个方面,转座体的转座子dna可以包括促进扩增方法的序列,如特异性引物序列或转录启动子序列,其可以与片段连接,从而片段可在测序之前被扩增,诸如通过使用本领域技术人员已知的方法的pcr或rna转录。应当理解的是,本公开考虑了用于扩增片段的不同的扩增方法并且用于对扩增子进行测序的不同的测序方法并不限于任何特定的扩增或测序方法。

本公开的实施方式涉及多重末端标记扩增核酸的方法,所述核酸如基因组dna,如小量基因组dna或有限量的dna,如一个或多个基因组序列,其获自单个细胞或具有相同细胞类型的多个细胞,或来自获自个体或基质的组织、液体或血液样品。根据本公开的某些方面,本文所述的方法可以在具有单一反应混合物的单管中进行。根据本公开的某些方面,核酸样品可以在来自单个细胞的未纯化的或未处理的裂解物中。待进行本文所述方法的核酸,在将其与各种试剂接触并且经历本文所述的各种条件之前,不需要被纯化,如通过柱纯化。本文所述方法能降低损失率,即原始靶核酸的损失,以便协助提供单个细胞的整个基因组的大量且均匀的覆盖性,产生用于高通量测序的扩增dna。

本发明的实施方式一般涉及制备dna片段的方法和组合物,所述dna片段例如来自单个细胞全基因组的dna片段,随后可对其进行本领域技术人员已知的以及本文所述的扩增和测序方法。根据某些方面,本文所述制备核酸片段的方法利用转座体文库。根据一个方面,作为转座体一部分的转座酶用于产生一组双链基因组dna片段。根据某些方面,转座酶具有结合转座子dna以及当接触到一起时(如将其置于反应容器或反应体积内时)二聚化,形成转座酶/转座子dna复合物二聚体的能力,该转座酶/转座子dna复合物二聚体被称为转座体。转座体的各转座子dna包含双链转座酶结合位点和第一核酸序列,其包含引发位点序列和任选地功能性序列,如转录启动子位点。第一核酸序列可以处于单链延伸的形式。转座体文库的各转座体包含不同于转座体文库中各剩余成员的引发位点序列的独特且不同的引发位点序列。根据一个方面,转座体文库的各转座体包含不同于转座体文库中各剩余成员的引发位点序列的两个独特且不同的引发位点序列。

转座体具有随机结合沿双链核酸(如双链基因组dna)分布的靶位置,形成包括转座体和双链基因组dna的复合物的能力。转座体中的转座酶切割双链基因组dna,其中一个转座酶切割上链,一个转座酶切割下链。转座体中各转座子dna在切割位点的各末端与双链基因组dna连接,即转座体的一个转座子dna与左侧切割位点连接,而转座体的另一转座子dna与右侧切割位点连接。当转座体的转座子dna各自具有不同的引物结合位点序列时,使用不同和独特条码(即引发位点)序列“条码化(barcode)”左侧切割位点和右侧切割位点。当转座体的转座子dna各自具有相同的引物结合位点序列时,使用相同条码(即引发位点)序列“条码化”左侧切割位点和右侧切割位点。当用于制备片段的邻近转座体各自具有不同和独特引物结合位点序列时,所得片段在片段的各末端将具有不同和独特的引物结合位点。根据某些方面,例如,多个转座酶/转座子dna复合物二聚体(即,转座体)结合沿双链基因组dna分布的相应的多个靶位置,并且然后将双链基因组dna切割成多个双链片段,其中各片段具有转座子dna,其具有连接于双链片段各末端处的不同条码序列。

根据一个方面,转座子dna连接于双链基因组dna,并且单链缺口存在于基因组dna的一条链和转座子dna的一条链之间。根据一个方面,进行缺口延伸以填平缺口并产生双链基因组dna和双链转座子dna之间的双链连接。根据一个方面,包含转座酶结合位点和引发位点序列的核酸序列连接于双链片段的各末端。根据某些方面,转座酶连接转座子dna,所述转座子dna连接于双链片段的各末端。根据一个方面,将转座酶从转座子dna去除,所述转座子dna连接于双链基因组dna片段的各末端。

根据本发明的一个方面,然后用转座子dna作为模板对双链基因组dna片段进行缺口填平和延伸,所述双链基因组dna片段具有转座子dna,其具有连接于双链基因组dna片段各末端的不同引发位点序列。相应地,产生双链核酸延伸产物,其包含双链基因组dna片段以及位于双链基因组dna各末端的双链转座子dna,所述双链转座子dna包含不同引发位点序列。

在该阶段,可以使用本领域技术人员已知的方法扩增双链核酸延伸产物以产生具有位于各末端的不同引物结合位点和基因组dna片段的扩增子,所述双链核酸延伸产物包含基因组dna片段,和位于各末端的不同的引发位点序列。pcr引物序列和试剂可以用于扩增。本文所述转座子还可以包括用于产生rna转录本的rna聚合酶结合位点,所述rna转录本然后可以被逆转录成cdna用于线性扩增。包含基因组dna片段和位于各末端的不同引发位点序列的双链核酸延伸产物可以与扩增试剂合并,然后可以使用本领域技术人员已知的方法扩增双链基因组核酸片段,以产生双链基因组核酸片段的扩增子。

然后在进一步分析之前可以收集和/或纯化扩增子。可以使用本领域技术人员已知的方法对扩增子进行测序。一旦测序,即可以通过计算分析序列以鉴定基因组dna。

本公开的实施方式涉及使用多重末端标记来扩增dna的方法,其中dna是小量基因组dna或有限量的dna,如一个或多个基因组序列,其获自单个细胞或具有相同细胞类型的多个细胞,或来自获自个体或基质的组织、液体或血液样品。根据本公开的某些方面,本文所述方法可以在单个试管中进行以产生在各末端具有不同和独特的序列的片段,然后对其进行扩增并使用本领域技术人员已知的高通量测序平台进行测序。

本文所述的转座体片段化和条码化方法能够用于扩增小量或有限量的dna,然后对其进行测序。本文所述方法在以高异质细胞群(如肿瘤和神经块)为特征的组织样品或生物系统中具有特定应用。本文所述的方法可以利用不同来源的dna材料,包括遗传异质性组织(例如,癌症),稀有和珍贵样品(例如,胚胎干细胞),和非分裂细胞(例如,神经元)等,以及本领域技术人员已知的测序平台和基因分型方法。

本公开的某些实施方式的其他特征和优势将在权利要求中以及以下附图和实施方式的说明下更为显而易见。

附图说明

结合附图,通过以下示例性实施方式的详述能够更全面地理解本发明实施方式的上述和其他特征和其他优点,其中:

图1在示意图中描述了具有线性5'延伸的转座子dna的结构,其中t是双链转座酶结合位点,而m是位于延伸的一个末端的多重引发位点。

图2是转座酶和转座子dna自发地形成转座体的一般实施方式的示意图,其可以在液滴或其他形成介质中出现。转座体形成之前,各转座子具有通过不同模式表示的不同和独特的引发位点序列。转座体形成之后,转座体的各转座子具有通过不同模式表示的不同和独特的引发位点序列。

图3a是这样的转座体的示意图,所述转座体结合基因组dna,切割成片段并且添加或插入转座子dna,所述转座子dna包含转座酶结合位点(黑色)以及位于各转座体的各转座子上的独特且不同的引发位点序列,如在各转座体中通过不同模式表示。

图3b是这样的转座体的示意图,所述转座体结合基因组dna,切割成片段并且添加或插入转座子dna,所述转座子dna包含转座酶结合位点(黑色)以及代表转座体的独特且不同的引发位点序列,即相同的独特且不同的(thesameuniqueanddifferent)引物结合位点序列存在于转座体的各转座子上,如在各转座体中通过相同模式表示。各转座体之间的不同引物结合位点序列通过不同的模式所表示。

图4是转座酶去除、缺口填平以形成核酸延伸产物的示意图,所述核酸延伸产物包含基因组dna、转座酶结合位点以及延伸产物各末端上的独特且不同的引发位点序列。

图5是显示图4的多重pcr扩增片段的示意图。

图6描述了经由错误引发(mis-priming)而事实(defacto)多重化的方法。

图7是显示单核苷酸变异(snv)的真和假阳性之间区别的示意图。

图8是显示单独分析本文所述的多重末端标记扩增方法中的两个dna链(watson和crick)的示意图。

具体实施方式

除非另有说明,某些实施方式的实践或某些实施方式的特征可以采用分子生物学、微生物学、重组dna中的常规技术,这些常规技术为本领域普通技术人员所知。这些技术在文献中已有充分描述。参见,例如,sambrook,fritsch,和maniatis,《分子克隆:实验室手册(molecularcloning:alaboratorymanual)》,第二版(1989),《寡核苷酸合成(oligonucleotidesynthesis)》(m.j.gait编著,1984),《动物细胞培养(animalcellculture)》(r.i.freshney编著,1987),《酶学方法(methodsinenzymology)》丛书(学术出版社有限公司(academicpress,inc.));《哺乳动物细胞的基因转移载体(genetransfervectorsformammaliancells)》(j.m.miller和m.p.calos编著.1987),《免疫学实验手册(handbookofexperimentalimmunology)》,(d.m.weir和c.c.blackwell编著),《新编分子生物学实验指南(currentprotocolsinmolecularbiology)》(f.m.ausubel,r.brent,r.e.kingston,d.d.moore,j.g.siedman,j.a.smith,和k.struhl编著,1987),《新编免疫学实验指南(currentprotocolsinimmunology)》(j.e.coligan,a.m.kruisbeek,d.h.margulies,e.m.shevach和w.strober编著,1991);《免疫学年鉴(annualreviewofimmunology)》;以及如《免疫学进展(advancesinimmunology)》等期刊中的专著。本文上下文中提及的所有专利、专利申请和出版物均以参考的方式用全文纳入本文。

本文所用的核酸化学、生物化学、遗传学和分子生物学的术语和符号遵循本领域的标准论述和文本中的术语和符号,例如,kornberg和baker,dnareplication(《dna复制》),第二版(w.h.弗里曼出版社(w.h.freeman),纽约,1992);lehninger,biochemistry(《生物化学》),第二版(沃斯出版社(worthpublishers),纽约,1975);strachan和read,humanmoleculargenetics(《人类分子遗传学》),第二版(wl出版社(wiley-liss),纽约,1999);eckstein编,oligonucleotidesandanalogs:apracticalapproach(《寡核苷酸和类似物:实践方法》)(牛津大学出版社(oxforduniversitypress),纽约,1991);gait编,oligonucleotidesynthesis:apracticalapproach(《寡核苷酸合成:实践方法》)(irl出版社,牛津,1984);等。

本发明部分基于发现了用于制备核酸片段模板的方法,如从dna或基因组dna开始,使用转座酶或转座体使原始或起始核酸序列(如基因组dna)片段化,并且将不同引发位点序列连接于切割或片段化位点的各末端,从而产生片段的集合,其中该集合的各成员具有两个独特且不同的引发位点序列。扩增核酸片段模板以产生扩增子。可以收集核酸片段模板的扩增子并对其进行测序。收集的扩增子形成原始核酸(如基因组dna)片段扩增子的文库。

根据一个方面,获得基因组dna,如获自裂解的单个细胞的基因组核酸。使用多个转座体或转座体文库将基因组dna切割成双链片段。多个转座体或转座体文库中的每一个转座体是结合于转座子dna的转座酶的二聚体,即,各转座体包含2个单独的转座子dna。转座体的各转座子dna包含转座酶结合位点和引物结合位点序列。引物结合位点序列对转座体是独特的。根据一个方面,转座体的各转座子的引发位点序列可以是独特的和/或不同的。根据一个方面,转座体的各转座子的引发位点序列可以是相同的。根据一个方面,大部分的转座体具有含有不同引发位点序列的两个转座子dna,并且只有小部分的转座体具有含有相同引发位点序列的两个转座子dna。根据一个方面,各转座体成员的两个转座子dna的引发位点序列可以是相同的,但是来自不同转座体成员的一个或多个引发位点序列是独特的和不同的。

根据一个方面,转座体的各转座子dna的引发位点序列是独特的和不同的。根据一个方面,转座体的转座子dna的一个或多个引发位点序列相较于多个转座体或转座体文库的剩余成员而言是独特且不同的。根据一个方面,多个转座体或转座体文库的各转座体具有其自己的独特且不同的引发位点序列,它们不同于多个转座体或转座体文库的剩余成员,并且可以具有两个独特且不同的引发位点序列,其不同于多个转座体或转座体文库的剩余成员。转座子dna在各切割或片段化位点连接各双链片段的上链和下链。因为引发位点序列对于各转座子dna可以是不同的,所以用不同引发位点序列标记切割或片段化位点。因为引发位点序列对于各转座子dna可以是相同的,所以用相同引发位点序列标记切割或片段化位点。在用于生成片段的邻近转座体各自具有与其相关的不同引物结合位点序列时,片段在片段的各末端具有不同引物结合位点序列。相应地,片段将具有两个独特且不同的引物结合位点序列。因为各转座体具有其自己的与其相关的独特且/或不同的引发位点序列(并且可以具有与其相关的两个独特且/或不同的引发位点序列),转座体文库被用于产生许多切割或片段化位点,各切割或片段化位点将具有连接于切割位点末端之一的不同和独特的引发位点序列,并且各片段在片段的各末端上将具有不同和/或独特的引发位点序列。相应地,通过转座体文库产生原始核酸序列的许多片段,并且各片段在片段的各末端具有不相似的引发位点序列。然后处理双链片段以填平缺口。使用合适的扩增试剂扩增片段,诸如用于pcr扩增的引物序列,dna聚合酶和核苷酸,并且使用本领域技术人员已知的方法进行测序。

使用本文所述方法制造的dna片段模板可以使用本领域技术人员已知的方法在微滴内进行扩增。微滴可以作为油相或水相的乳液形成。乳液可以包括连续油相内分离的水性体积或水性液滴。描述了乳液全基因组扩增方法,使用油内的小体积水性液滴来分离各片段,用于单个细胞基因组的统一扩增。通过将各片段分配到其自身的液滴或分离的水性反应体积,允许各液滴达到dna扩增的饱和。然后,将各液滴内的扩增子通过反乳化作用合并,产生单个细胞全基因组所有片段的均一扩增。

在某些方面,扩增使用pcr实现。pcr是这样一种反应,其中使用由上游和下游引物组成的一组引物或一对引物和聚合催化剂(如dna聚合酶,通常为热稳定的聚合酶),由靶多核苷酸制备复制拷贝。pcr的方法在本领域是公知的,并且在例如macpherson等.(1991)pcr1:使用方法(pcr1:apracticalapproach)牛津大学出版社(oxforduniversitypress)irl出版社(irlpress)中教导。mullis(美国专利号4,683,195、4,683,202和4,965,188)的术语“聚合酶链反应”(“pcr”)指无需克隆或纯化即可提高靶序列区段浓度的方法。用于扩增靶序列的该方法包括提供具有所需靶序列的寡核苷酸引物和扩增试剂,然后在聚合酶(例如,dna聚合酶)存在的情况下进行准确的一连串热循环。引物与双链靶序列各自对应的链(“引物结合序列”)互补。为了进行扩增,将双链靶序列变性,然后将引物退火至靶分子中的其互补序列。退火后,用聚合酶延伸引物,从而形成一对新的互补链。变性、引物退火和聚合酶延伸步骤可以重复多次(即,变性、退火或延伸组成一个“循环”;可以存在许多“循环”)以获得所需靶序列的高浓度扩增区段。所需靶序列的扩增区段的长度由引物相对于彼此的相对位置确定,并且因此,长度是可控参数。由于该过程的重复,该方法被称为“聚合酶链式反应”(下文称之为“pcr”)并且靶序列被称为是“pcr扩增的”。

通过pcr,有可能将基因组dna中的特定靶序列的单拷贝扩增至通过几种不同方法(例如,与标记探针杂交;纳入生物素化引物,然后进行抗生物素蛋白-酶偶联物检测;将32p-标记的脱氧核苷酸三磷酸(如dctp或datp)纳入扩增区段)可检测的水平。除了基因组dna,任何寡核苷酸或多核苷酸都可以用适当的引物分子组进行扩增。特别是,在各微滴内通过pcr过程其自身产生的扩增区段本身就是用于后续pcr扩增的有效模板。用于进行pcr的方法和试剂盒是本技术领域已熟知的。产生多核苷酸复制拷贝的所有方法(如pcr或基因克隆)在本文中统称为复制。引物还可以用作杂交反应中的探针,如southern或northern印迹分析。

“扩增”或“进行扩增”这样的表述指通过其将形成特定多核苷酸的额外或多个拷贝的过程。扩增包括诸如pcr、连接扩增(或连接酶链反应,lcr)和其他扩增方法的方法。这些方法在本领域中是已知且广泛应用的。参见,例如,美国专利号4,683,195和4,683,202,以及innis等.,“pcr方法:方法和应用的指南”(pcrprotocols:aguidetomethodandapplications),学术出版社股份有限公司(academicpress,incorporated)(1990)(针对pcr);和wu等.(1989)genomics4:560-569(针对lcr)。通常,pcr过程描述了一种基因扩增方法,其包括(i)引物与dna样品(或文库)中特定基因的序列特异性杂交,(ii)随后的扩增,涉及使用dna聚合酶的多轮退火、延伸和变性,和(iii)筛选pcr产物以获得正确大小的条带。使用的引物是具有足够长度和适当序列的寡核苷酸以引发聚合,即特异性地设计各引物,使其与待扩增的基因组基因座的各条链互补。

进行扩增反应的试剂和硬件是市售可得的。用于从特定基因区域扩增序列的引物优选与目标区域或其侧接区中的序列互补并与其特异性杂交,并且可以使用本领域技术人员已知道的方法制备。通过扩增生成的核酸序列可以直接进行测序。

当杂交以两个单链多核苷酸之间的反平行构型发生时,该反应被称为“退火”,并且这些多核苷酸被描述为“互补的”。如果杂交可以发生在第一多核苷酸的一条链与第二多核苷酸的链之间,那么双链多核苷酸可以与另一多核苷酸互补或同源。根据普遍接受的碱基配对规则,互补性或同源性(一个多核苷酸与另一个多核苷酸互补的程度)可依据相对链中预计将彼此之间形成氢键的碱基的比例来定量。

术语“pcr产物”、“pcr片段”和“扩增产物”指在变性、退火和延伸pcr步骤的两个或更多个循环完成后得到的化合物混合物。这些术语包括已经扩增了一个或多个靶序列的一个或多个片段的情况。

术语“扩增试剂”可以指除了引物、核酸模板和扩增酶以外扩增所需的那些试剂(脱氧核糖核苷三磷酸,缓冲液等)。通常,将扩增试剂与其他反应组分一起放置并容纳在反应容器中(试管,微孔等)。扩增方法包括本领域技术人员已知的pcr方法,并且还包括滚环扩增(blanco等.,j.biol.chem.,264,8935-8940,1989)、超支化滚环扩增(lizard等.,nat.genetics,19,225-232,1998)和环介导的等温扩增(notomi等.,nuc.acidsres.,28,e63,2000),其各自通过引用将其全部内容纳入本文。

对于乳液pcr,通过剧烈振荡或搅拌“油包水”混合物以生成数百万个微米级水性隔室来产生乳液pcr反应。设备可以装备微流体芯片以通过摇晃或搅拌油相和水相产生乳液。或者,通过将某些油与水相合并或通过将水相导入油相可以自发地形成水性液滴。待扩增的dna文库在乳化之前以有限稀释混合。隔室大小(即微滴尺寸)以及产生待扩增dna片段文库有限稀释的微滴数量的组合被用于生成平均只包含一个dna分子的隔室。基于微滴形成或乳化步骤中生成的水性隔室的大小,可以在同一管中同时进行每μl多至3x109个单独的pcr反应。基本上乳液中的各小水性隔室微滴形成微型pcr反应器。乳液中隔室的平均尺寸根据乳化的条件范围从亚微米直径至超过100微米,或从1皮升(picoliter)至1000皮升,或从1纳升至1000纳升,或从1皮升至1纳升,或从1皮升至1000纳升。

其他扩增方法,如英国专利申请号gb2,202,328以及pct专利申请号pct/us89/01025中所述的方法,各自通过引用纳入本文,可以依据本公开使用。在前一申请中,“修饰的”引物被用于pcr样模板和酶依赖性合成中。引物可以通过用捕获部分(例如,生物素)和/或检测器部分(例如,酶)标记来修饰。在后一申请中,将过量的标记探针添加到样品。在靶序列存在的情况中,探针结合并且被催化切割。切割后,靶序列被完整的释放,以被过量的探针结合。标记探针的切割表面靶序列的存在。

其它合适的扩增方法包括“racepcr”和“单侧pcr”(frohman,述于《pcr方案:方法和引用的指南(pcrprotocols:aguidetomethodsandapplications)》,学术出版社,纽约,1990,其各自通过引用纳入本文)。基于在具有所得“二寡核苷酸”序列的核酸存在的情况下连接两个(或多个)寡核苷酸并因此扩增该二寡核苷酸的方法也可以用于根据本公开扩增dna(wu等.,genomics4:560-569,1989,通过引用纳入本文)。

根据某些方面,示例性的转座子系统包含tn5转座酶,mu转座酶,tn7转座酶或is5转座酶等。其它可用的转座子系统是本领域技术人员已知的,并且包括tn3转座子系统(参见maekawa,t.,yanagihara,k.,和ohtsubo,e.(1996),tn3转座的无细胞系统和转座免疫(acell-freesystemoftn3transpositionandtranspositionimmunity),genescells1,1007-1016)、tn7转座子系统(参见craig,n.l.(1991),tn7:靶向位点特异性转座子(tn7:atargetsite-specifictransposon),mol.microbiol.5,2569-2573)、tn10转座子系统(参见chalmers,r.,sewitz,s.,lipkow,k.,和crellin,p.(2000),tn10的完整核苷酸序列(completenucleotidesequenceoftn10),j.bacteriol182,2970-2972)、piggybac转座子系统(参见li,x.,burnight,e.r.,cooney,a.l.,malani,n.,brady,t.,sander,j.d.,staber,j.,wheelan,s.j.,joung,j.k.,mccray,p.b.,jr.,等.(2013),用于基因组工程的piggybac转座酶工具(piggybactransposasetoolsforgenomeengineering),proc.natl.acad.sci.usa110,e2279-2287)、睡美人转座子系统(参见ivics,z.,hackett,p.b.,plasterk,r.h.,和izsvak,z.(1997),来自鱼类的睡美人、tcl样转座子的分子重建及其在人细胞中的转座(molecularreconstructionofsleepingbeauty,atc1-liketransposonfromfish,anditstranspositioninhumancells),cell91,501-510)、tol2转座子系统(参见kawakami,k.(2007),tol2:脊椎动物中多功能基因转移载体(tol2:aversatilegenetransfervectorinvertebrates),genomebiol.8增刊.1,s7.)。

待扩增的dna可以获得自单个细胞或小细胞群。本文所述方法允许由反应混合物中的任何物种或生物体扩增dna,如在单个反应容器中进行的单一反应混合物。在一个方面中,本文所述方法包括由任何来源进行dna的序列非依赖性扩增,所述来源包括但不限于人、动物、植物、酵母、病毒、真核和原核dna。

根据一个方面,提供了单细胞全基因组扩增、测序和组装的方法,其包括使来自单个细胞的双链基因组dna与各自结合转座子dna的tn5转座酶接触,其中转座子dna包含双链19bp的转座酶(tnp)结合位点和包含独特且不同的引发位点序列的第一核酸序列,以形成被称为转座体的转座酶/转座子dna复合物二聚体。第一核酸序列可以处于单链延伸的形式。根据一个方面,第一核酸序列可以是突出端,如5’突出端,其中该突出端包含独特且不同的引发位点序列。突出端可以包括所需其他功能性序列。该突出端可以具有适合包含引发位点序列、或所需其他功能性序列的任何长度。转座体结合排列于双链基因组dna上的各靶位置并将双链基因组dna切割成多个双链片段,各双链片段具有通过tnp结合位点连接上链的第一复合物,以及通过tnp结合位点连接下链的第二复合物。转座子结合位点,以及(因而)连同引物结合位点的转座子dna,被连接至双链片段的各5’末端。根据一个方面,将tn5转座酶从复合物去除。双链片段沿着转座子dna延伸以制备双链延伸产物,所述双链延伸产物在双链延伸产物的各末端具有不相似或不同或独特的引发位点序列。根据一个方面,可能由于tn5转座酶结合位点与双链基因组dna片段所导致的缺口可以被填平。经缺口填平的双链延伸产物与扩增试剂混合,并将双链基因组dna片段扩增。使用例如本领域技术人员已知的高通量测序方法,对在各末端包含不相似或不同或独特引发位点序列(其可以作为条码序列)的扩增子进行测序。

在一个具体方面中,实施方式涉及用于在不丧失特异性位点的表现度的情况下扩增、测序和组装基本上整个基因组的方法(本文定义为“全基因组扩增”)。在特定实施方式中,全基因组扩增包括同时扩增基因组文库基本上所有片段或所有片段。在另一个特定实施方式中,“基本上整个”或“基本上所有”指基因组中所有序列的约80%、约85%、约90%、约95%、约97%、或约99%。

根据一个方面,dna样品是基因组dna,显微解剖的染色体dna,酵母人工染色体(yac)dna,质粒dna,粘粒dna,噬菌体dna,p1衍生的人工染色体(pac)dna或细菌人工染色体(bac)dna,线粒体dna,叶绿体dna、司法鉴定样品dna或来自待测试的自然或人工来源的其他dna。在另一优选实施方式中,dna样品是哺乳动物dna、植物dna、酵母dna、病毒dna或原核生物dna。在又一优选实施方案中,dna样品获自人、牛、猪、羊、马、啮齿动物、禽、鱼、虾、植物、酵母、病毒或细菌。优选地,dna样品是基因组dna。

根据某些示例性方面,将转座系统用于制备核酸片段,以供按需进行的扩增、测序和组装。根据一个方面,将转座系统用于将基因组dna片段化成具有转座子dna插入其中的双链基因组dna片段,所述转座子dna具有不同的引发位点序列。如图1所示,转座子dna包含双链转座酶结合位点和独特且不同的引发位点序列m。双链转座酶结合位点可以是双链19bp的tn5转座酶(tnp)结合位点,其诸如通过共价键连接或接合单链突出端,所述单链突出端包含诸如位于突出端一个末端的引发位点序列。将转座子dna插入单个细胞的基因组dna,同时使用转座酶产生片段。转座酶去除和缺口填平后,使用引物以及dna聚合酶、核苷酸和扩增试剂扩增基因组dna片段,以pcr扩增单细胞的全基因组,所述基因组dna片段在片段的各末端具有不相似或不同或独特的引发位点序列。

根据某些方面,当扩增小量dna(如来自单细胞的dna)时,不进行dna柱纯化步骤,从而使可以在扩增前从单细胞内获得的小量(约6pg)基因组dna最大化。dna可以从细胞裂解物或其它不存条件直接扩增。相应地,dna样品可以是不纯的、未纯化的或未分离的。相应地,本方法的一些方面允许人们最大化基因组dna以供扩增,并相较于其他方法(即非多重化方法)减少由于在各末端具有相同引发位点序列的片段而导致的损失。根据其它方面,本文所述方法可以利用不同于pcr的扩增方法。

根据一个方面并如图2大致所示,将转座酶(tnp,灰色圆圈)和转座子dna(其各自具有通过不同模式突出端序列表示的独特且不同的引发位点序列)组合以形成多个转座体。各转座体具有两个不同和独特的引发位点序列。各转座体相较于多个转座体中的各其他转座体具有两个不同和独特的引发位点序列。

如图3a所示,转座体文库的转座体随机捕获或以其它方式与靶标单个细胞基因组dna结合成二聚体。代表性的转座体编号为1、2和3,虽然转座体的数量可视所需应用而更大。具有不同和/或独特的引物结合位点序列的转座子的代表性数量为5-50。各转座体包含两个独特且/或不同的引发位点序列。例如,转座体1包含两个独特且/或不同的引发位点序列,转座体2包含两个独特且/或不同的引发位点序列,转座体3包含两个独特且/或不同的引发位点序列等。独特且/或不同的引发位点序列位于转座体的各转座子dna内。转座体中的转座酶切割基因组dna,通过一个转座酶切割上链并且一个转座酶切割下链以产生基因组dna片段。多个转座体产生多个基因组dna片段。因此,来自转座子dna二聚体的一个转座子dna连接切割位点或片段化位点的各末端,即来自转座体1的一个转座子dna与左侧切割位点连接,而来自转座体1的另一转座子dna与右侧切割位点连接。引物转座体文库将核酸切割成片段,各片段在片段的各末端将具有不相似的引发位点序列。这通过两个示例性片段表示,其中上片段在一个末端上具有独特且不同的引发位点序列1并在另一末端上具有独特且不同的引发位点序列2。同样,下片段在一个末端上具有独特且不同的引发位点序列2并在另一末端上具有独特且不同的引发位点序列3。如其所示,两个片段之间的切割位点通过转座体2产生,和左侧切割位点(即,图3a中上片段的右侧视角)包含具有独特且不同的引发位点序列2的一个转座子,而右侧切割位点(即,图3a中下片段的左侧视角)包含独特且不同的引发位点序列2(其中“2”指代转座体2)。

如图3b所示,转座体文库的转座体随机捕获或以其它方式与靶标单个细胞基因组dna结合成二聚体。代表性的转座体编号为1、2和3,虽然转座体的数量可视所需应用而更大。具有不同和/或独特的引物结合位点序列的转座子的代表性数量为5-50。各转座体在转座体的各转座子处包含相同的独特且/或不同的引发位点序列。例如,转座体1在各转座子上包含相同的引物结合位点序列,转座体2在各转座子上包含相同的引物结合位点序列,转座体3在各转座子上包含相同的引物结合位点序列等。然而,各转座体具有与其相关的独特且不同引物结合位点,从而使各转座体相较于转座体文库的其他成员具有与其相关的不同引物结合位点。转座体中的转座酶切割基因组dna,通过一个转座酶切割上链并且一个转座酶切割下链以产生基因组dna片段。多个转座体产生多个基因组dna片段。因此,来自转座子dna二聚体的一个转座子dna连接切割位点或片段化位点的各末端,即来自转座体1的一个转座子dna与左侧切割位点连接,而来自转座体1的另一转座子dna与右侧切割位点连接。因为转座体文库将核酸切成片段,因而各片段将在该片段的各末端具有不相似的引发位点序列,因为产生该片段的核酸结合的邻近转座体各自具有不同的引物结合位点序列。这通过两个示例性片段表示,其中上片段在一个末端上具有独特且不同的引发位点序列1并在另一末端上具有独特且不同的引发位点序列2。同样,下片段在一个末端上具有独特且不同的引发位点序列2(其是与上片段右末端上的引物结合位点序列相同的引物结合位点序列)并在另一末端上具有独特且不同的引发位点序列3。如其所示,两个片段之间的切割位点通过转座体2产生,和左侧切割位点(即,图3b中上片段的右侧视角)包含具有独特且不同的引发位点序列2的一个转座子,而右侧切割位点(即,图3b中下片段的左侧视角)包含独特且不同的引发位点序列2(其中“2”指代转座体2)。因此,即使转座体在各转座子上具有相同引物结合位点序列,该方法产生在片段的各末端具有不同引物结合位点序列的片段。

如图4所示,基因组dna的片段化在转座/插入位点的两个末端处留下缺口。缺口可能是任何长度,但是示例性的是9个碱基缺口。结果是这样的基因组dna片段,其具有连接上链的5'位置的转座子dnatnp结合位点以及连接下链的5'位置的转座子dnatnp结合位点。示出了由于连接或插入转座子dna而产生的缺口。在转座后,转座酶被去除并且进行缺口延伸以填平缺口并且与最初设计在如图4所示的转座子dna中的单链突出端互补。

如图5进一步所示,对图4中所示片段进行多重pcr扩增以产生扩增子。

描述了特定的tn5转座子系统,并且其是本领域技术人员可使用的。参见goryshin,i.y.和w.s.reznikoff,tn5体外转座(tn5invitrotransposition).thejournalofbiologicalchemistry,1998.273(13):7367-74页;davies,d.r.,等.,tn5突触复合物转座中间体的三维结构(three-dimensionalstructureofthetn5synapticcomplextranspositionintermediate).science,2000.289(5476):77-85页;goryshin,i.y.,等.,通过电穿孔释放的tn5转座复合物的插入转座子突变(insertionaltransposonmutagenesisbyelectroporationofreleasedtn5transpositioncomplexes).naturebiotechnology,2000.18(1):97-100等以及steiniger-white,m.,i.rayment,和w.s.reznikoff,tn5转座的结构/功能研究(structure/functioninsightsintotn5transposition).currentopinioninstructuralbiology,2004.14(1):50-7页,其各自通过引用出于所有目的将其全部内容纳入本文。利用tn5转座系统进行dna文库制备和其它应用的试剂盒是已知的。参见adey,a.,等.,通过高密度体外转座来快速、低输入、低偏倚构建鸟枪片段文库(rapid,low-input,low-biasconstructionofshotgunfragmentlibrariesbyhigh-densityinvitrotransposition).genomebiology,2010.11(12):r119页;marine,r.,等.,评估用于从纳克量的dna快速生成鸟枪高通量测序文库的转座酶方案(evaluationofatransposaseprotocolforrapidgenerationofshotgunhigh-throughputsequencinglibrariesfromnanogramquantitiesofdna).appliedandenvironmentalmicrobiology,2011.77(22):8071-9页;parkinson,n.j.,等.,由微微克量的靶dna制备高质量下一代测序文库(preparationofhigh-qualitynext-generationsequencinglibrariesfrompicogramquantitiesoftargetdna).genomeresearch,2012.22(1):125-33页;adey,a.和j.shendure,超低输入、基于标签作用的全基因组亚硫酸氢盐测序(ultra-low-input,tagmentation-basedwhole-genomebisulfitesequencing).genomeresearch,2012.22(6):1139-43页;picelli,s.,等.,使用smart-seq2由单个细胞的全长rna-seq(full-lengthrna-seqfromsinglecellsusingsmart-seq2).natureprotocols,2014.9(1):171-81页,以及buenrostro,j.d.,等.,天然染色质的转座用于开放染色质、dna结合蛋白和核小体位置的快速和敏感表观基因组概况(transpositionofnativechromatinforfastandsensitiveepigenomicprofilingofopenchromatin,dna-bindingproteinsandnucleosomeposition).naturemethods,2013,其各自通过引用出于所有目的将其全部内容纳入本文。同样参见wo98/10077、ep2527438和ep2376517,其各自通过引用出于所有目的将其全部内容纳入本文。市售可得的转座试剂盒以nextera的名称销售并可从illumina公司获得。

本文所用术语“基因组”被定义为由个体、细胞或细胞器携带的总体基因(collectivegene)集合。本文所用术语“基因组dna”被定义为这样的dna材料,其包含由个体、细胞或细胞器携带的部分或全部集体基因集合。

本文所用术语“核苷”是指具有与核糖或脱氧核糖共价连接的嘌呤或嘧啶碱基的分子。示例性的核苷包括腺苷、鸟苷、胞苷、尿苷和胸苷。其它示例性的核苷包括肌苷、1-甲基肌苷、假尿苷、5,6-二氢尿苷、核糖胸核苷、2n-甲基鸟苷和2,2n,n-二甲基鸟苷(也称为“稀有”核苷)。术语“核苷酸”是指具有一个或多个与糖部分以酯键连接的磷酸基团的核苷。示例性的核苷酸包括核苷单磷酸、二磷酸和三磷酸。术语“多核苷酸”、“寡核苷酸”和“核酸分子”在本文中可互换使用,并指通过5'和3'碳原子之间的磷酸二酯键连接在一起的任何长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸)的聚合物。多核苷酸可以具有任何三维结构并且可以进行已知或未知的任何功能。以下是多核苷酸的非限制性例子:基因或基因片段(例如,探针、引物、est或sage标签)、外显子、内含子、信使rna(mrna)、转运rna、核糖体rna、核酶、cdna、重组多核苷酸、支链多核苷酸、质粒、载体、任意序列的分离dna、任意序列的分离rna、核酸探针和引物。多核苷酸可以包括修饰的核苷酸,如甲基化的核苷酸和核苷酸类似物。该术语也指双链和单链分子。除非另有说明或要求,本发明包含多核苷酸的任何实施方式都包括双链形式和已知或预测构成双链形式的两种互补单链形式中的每一种。多核苷酸由4种核苷酸碱基的特定序列组成:腺嘌呤(a);胞嘧啶(c);鸟嘌呤(g);胸腺嘧啶(t);并且当多核苷酸是rna时,尿嘧啶(u)替代胸腺嘧啶(t)。因此,术语多核苷酸序列是多核苷酸分子的字母表示。可以将该字母表示输入具有中央处理单元的计算机中的数据库中,并用于生物信息学应用,如功能基因组学和同源性搜索。

术语“dna”、“dna分子”和“脱氧核糖核酸分子”指脱氧核糖核苷酸的聚合物。可以自然合成dna(例如,通过dna复制)。可以对rna进行转录后修饰。也可以化学合成dna。dna可以是单链(即ssdna)或多链(例如,双链,即dsdna)。

术语“核苷酸类似物”、“改变的核苷酸”和“修饰的核苷酸”指非标准核苷酸,包括非天然存在的核糖核苷酸或脱氧核糖核苷酸。在某些示例性实施方式中,在任何位置修饰核苷酸类似物,从而改变核苷酸的某些化学性质,但仍保留核苷酸类似物行使其预期功能的能力。可被衍生化的核苷酸位置的示例包括5位,例如,5-(2-氨基)丙基尿苷、5-溴尿苷、5-丙炔尿苷,5-丙烯基尿苷等;6位,例如,6-(2-氨基)丙基尿苷:腺苷和/或鸟苷的8-位,例如,8-溴鸟苷,8-氯鸟苷,8-氟鸟苷等。核苷酸类似物还包括脱氮核苷酸,例如,7-脱氮腺苷;o-和n-修饰的(例如,烷基化的,例如,n6-甲基腺苷,或如本领域其他已知的)核苷酸;以及其他杂环修饰的核苷酸类似物,如herdewijn,antisensenucleicaciddrugdev.,2000年8月,10(4):297-310中所述的那些。

核苷酸类似物还可以包括对于核苷酸糖部分的修饰。例如,2'oh-基团可被选择如下的基团取代:h、or、r、f、cl、br、i、sh、sr、nh2、nhr、nr2、coor、或or,其中,r是取代的或未取代的c1-c6烷基、链烯基、炔基、芳基等。其它可能的修饰包括在美国专利号5,858,988,和6,291,438中所述的那些。

也可对核苷酸的磷酸基团进行修饰,例如,通过用硫取代磷酸基团的一个或多个氧(例如,硫代磷酸酯),或通过进行允许核苷酸发挥其预期功能的其他取代方式,如在例如eckstein,antisensenucleicaciddrugdev.2000年4月,10(2):117-21、rusckowski等.antisensenucleicaciddrugdev.2000年10月,10(5):333-45、stein,antisensenucleicaciddrugdev.2001年10月,11(5):317-25、vorobjev等.antisensenucleicaciddrugdev.2001年4月,11(2):77-85和美国专利号5,684,143中所述。例如,某些上述修饰(例如,磷酸基团修饰)降低了包含所示类似物的多核苷酸的体内或体外水解速率。

术语“体外”具有其本技术领域公认的含义,例如,涉及纯化的试剂或提取物,例如,细胞提取物。术语“体内”还具有其本技术领域公认的含义,例如,涉及活细胞,例如,生物体中的永生化细胞、原代细胞、细胞系和/或细胞。

本文所用术语“互补”和“互补性”用于指通过碱基配对规则相关联的核苷酸序列。例如,序列5'-agt-3'与序列5'-act-3'互补。互补性可以是部分的或完全的。部分互补性发生在当一个或多个核酸碱基根据碱基配对规则不匹配时。核酸间完全或完整互补性发生在每个核酸碱基各自在碱基配对规则下与另一个碱基匹配时。核酸链间的互补性程度对于核酸链间杂交的效率和强度有显著影响。

术语“杂交”是指互补核酸的配对。杂交和杂交的强度(即核酸之间关联的强度)受诸如如下因素的影响:核酸之间的互补性程度,涉及条件的严谨性,形成的杂交体的tm和核酸内g:c比例。认为在其结构中包含互补核酸配对的单个分子是“自交的”。

术语“tm”指核酸的解链温度。解链温度是双链核酸分子群体一半解离成单链的温度。计算核酸tm的等式是本领域熟知的。如标准参考文献所示,当核酸处于1mnacl水性溶液中时,通过tm=81.5+0.41(%g+c)等式可以简单估计tm值(参见,例如,anderson和young,定量滤膜杂交(quantitativefilterhybridization),nucleicacidhybridization(1985))。其他参考文献包括更复杂的计算,它们将结构以及序列特性考虑到tm的计算中。

术语“严谨性”指进行核酸杂交的温度,离子强度和存在其他化合物(如有机溶剂)的条件。

当述及核酸杂交时,“低严谨性条件”包括等同于使用约500个核苷酸长度的探针时,在42℃的溶液中结合或杂交的如下条件,所述溶液由5xsspe(43.8g/lnacl、6.9g/lnah2po4(h2o)和1.85g/ledta,用naoh将ph调至7.4)、0.1%sds、5xdenhardt试剂(50xdenhardt试剂,其每500ml含:5gficoll(400型,法玛西亚公司(pharmacia))、5gbsa(组分v;西格玛公司(sigma)))和100mg//ml变性的鲑鱼精dna组成,然后在42℃包括5xsspe、0.1%sds的溶液中洗涤。

当述及核酸杂交时,所用的“中等严谨性条件”包括等同于使用约500个核苷酸长度的探针时,在42℃的溶液中结合和杂交的如下条件,所述溶液由5xsspe(43.8g/lnacl、6.9g/lnah2po4(h2o)和1.85g/ledta、用naoh将ph调节至7.4)、0.5%sds、5xdenhardt试剂和100mg/ml变性的鲑鱼精dna组成,然后在42℃包括1.0xsspe、1.0%sds的溶液中洗涤。

当述及核酸杂交时,所用的“高严谨性条件”包括等同于使用约500个核苷酸长度的探针时,在42℃的溶液中结合和杂交的如下条件,所述溶液由5xsspe(43.8g/lnacl、6.9g/lnah2po4(h2o)和1.85g/ledta、用naoh将ph调节至7.4)、0.5%sds、5xdenhardt试剂和100mg/ml变性的鲑鱼精dna组成,然后在42℃包括0.1xsspe、1.0%sds的溶液中洗涤。

在某些示例性实施方式中,鉴定细胞,然后分离单个细胞或多个细胞。本公开范围内的细胞包括任何类型的细胞,对于其中dna内容物的理解被本领域技术人员认为是有用的。根据本公开的细胞包括任何类型的癌细胞、肝细胞、卵母细胞、胚胎、干细胞、ips细胞、es细胞、神经元、红细胞、黑素细胞、星形胶质细、生殖细胞、少突胶质细胞、肾细胞等。根据一个方面,本发明的方法使用来自单个细胞的细胞dna进行。多个细胞包括约2至约1,000,000个细胞,约2至约10个细胞,约2至约100个细胞,约2至约1,000个细胞,约2至约10,000个细胞,约2至约100,000个细胞,约2个至约10个细胞或约2至约5个细胞。

通过本文所述方法处理的核酸可以是dna,并且它们可以由任何有用的来源获得,例如人样品。在具体的实施方式中,双链dna分子被进一步定义为包含基因组,例如从来自人的样品获得的基因组。样品可以是来自人的任何样品,如血液、血清、血浆、脑脊液、脸颊刮擦物、乳头抽吸物、活组织检查、精液(可以称为射精液)、尿液、粪便、毛囊、唾液、汗液、免疫沉淀或物理分离的染色质等。在具体的实施方式中,样品包括单个细胞。在具体的实施方式中,样品仅包括单个细胞。

在特定实施方式中,由样品扩增和组装的核酸分子提供诊断或预后信息。例如,由样品制备的核酸分子可提供基因组拷贝数和/或序列信息、等位基因变异信息、癌症诊断、产前诊断、亲子信息、疾病诊断、检测、监测和/或治疗信息、序列信息等。

本文所用“单个细胞”指一个细胞。可用于本文所述方法中的单个细胞可获自感兴趣组织,或活组织检查,血液样本,或细胞培养物。此外,可以获得来自特定器官、组织、肿瘤、赘生物等的细胞并将其用于本文所述的方法中。此外,通常,来自任何群体的细胞都可以用于所述方法中,如原核或真核单细胞生物体的群体,包括细菌或酵母。使用本领域已知的标准方法,可以获得单个细胞悬浮液,包括例如使用胰蛋白酶或木瓜蛋白酶酶促消化蛋白质,所述蛋白质在组织样品中连接细胞,或在培养中释放贴壁细胞,或在样品中机械地分离细胞。可以将单细胞置于任何合适的反应容器中,在其中可以单独处理单个细胞。例如96孔板,从而将各单个细胞置于单个孔中。

用于操作单个细胞的方法是本领域已知的,并且包括荧光激活细胞分选术(facs)、流式细胞术(herzenberg.,pnasusa76:1453-551979)、显微操作以及使用半自动细胞选择器(picker)(例如,来自stoelting有限公司的quixelltm细胞转移系统)。例如,可以基于通过显微镜观察可检测的特征(如位置、形态或报告基因表达)单独选择个体细胞。此外,还可以使用梯度离心和流式细胞术的组合来增加分离或分选效率。

一旦鉴定到所需细胞,使用本领域技术人员已知的方法将细胞裂解以释放包括dna的细胞内容物。细胞内容物被包含在容器或收集体积内。在本发明的一些方面,细胞内容物(如基因组dna)可通过裂解细胞从细胞释放。例如,裂解可以通过这样实现,加热细胞,或通过使用洗涤剂或其它化学方法,或通过这些方法的组合。然而,可以使用本领域已知的任何合适的裂解方法。例如,在存在吐温20的情况下,于72℃加热细胞2分钟足以将细胞裂解。或者,可以将细胞于65℃水中加热10分钟(esumi等.,neuroscires60(4):439-51(2008));或于70℃在补充有0.5%np-40的pcr缓冲液ii(应用生物系统公司(appliedbiosystems))中90秒(kurimoto等.,nucleicacidsres34(5):e42(2006));获自裂解可以使用蛋白酶实现,如蛋白酶k,或通过使用离液盐,如异硫氰酸胍(美国公布号2007/0281313)。根据本文所述方法扩增基因组dna可以直接在细胞裂解物上进行,从而使得可以将反应混合物添加到细胞裂解物。或者,可以使用本领域技术人员已知的方法将细胞裂解物分成两个或更多个体积,如分到两个或更多个容器、管或区域,其中各体积容器、管或区域包含细胞裂解物的一部分。然后,通过本文所述方法或本领域技术人员已知的方法,可以扩增包含在各容器、管或区域中的基因组dna。

用于本发明的核酸还可以包括天然或非天然碱基。就此而言,天然脱氧核糖核酸可以具有选自腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤的一个或多个碱基,并且核糖核酸可以具有选自尿嘧啶,腺嘌呤,胞嘧啶或鸟嘌呤的一个或多个碱基。可以包括在核酸中的示例性非天然碱基(不论具有天然骨架还是类似物结构)包括但不限于,肌苷,黄嘌呤(xathanine),次黄嘌呤(hypoxathanine),异胞嘧啶,异鸟嘌呤,5-甲基胞嘧啶,5-羟甲基胞嘧啶,2-氨基腺嘌呤,6-甲基腺嘌呤,6-甲基鸟嘌呤,2-丙基鸟嘌呤,2-丙基腺嘌呤,2-硫尿嘧啶(2-thioliracil),2-硫代胸腺嘧啶,2-硫代胞嘧啶,15-卤代尿嘧啶,15-卤代胞嘧啶,5-丙炔基尿嘧啶,5-丙炔基胞嘧啶,6-偶氮尿嘧啶,6-偶氮胞嘧啶,6-偶氮胸腺嘧啶,5-尿嘧啶,4-硫尿嘧啶,8-卤代腺嘌呤或鸟嘌呤,8-氨基腺嘌呤或鸟嘌呤,8-硫醇腺嘌呤或鸟嘌呤,8-硫代烷基腺嘌呤或鸟嘌呤,8-羟基腺嘌呤或鸟嘌呤,5-卤代尿嘧啶或胞嘧啶,7-甲基鸟嘌呤,7-甲基腺嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,7-脱氮鸟嘌呤,7-脱氮腺嘌呤,3-脱氮鸟嘌呤,3-脱氮腺嘌呤等。一个特定实施方式可以利用核酸中的异胞嘧啶和异鸟嘌呤以减少非特异性杂交,如美国专利号5,681,702中所概述。

本文所用术语“引物”通常包括这样的天然或合成的寡核苷酸,其与多核苷酸模板形成双链体时能够用作核酸合成的起点(如测序引物)并从其3’末端沿模板延伸以形成延伸的双链体。在延伸过程中添加的核苷酸序列由模板多核苷酸的序列决定。通常,引物通过dna聚合酶延伸。引物通常具有这样范围内的长度:3-36个核苷酸、5-24个核苷酸或14-36个核苷酸。本发明范围内的引物还包括正交引物、扩增引物、构建引物等。成对的引物可以侧接于感兴趣的序列或一组感兴趣的序列。引物和探针可以按顺序简并或准简并(quasi-degenerate)。本发明范围内的引物结合于靶序列邻近处。“引物”可以被认为是短多核苷酸,通常具有游离的3'-oh基团,其通过与靶标杂交结合潜在地存在于感兴趣样品中的模板或靶标,并在此后促进与该靶标互补的多核苷酸的聚合。本发明的引物由核苷酸组成,其范围在17-30个核苷酸。在一个方面,引物是至少17个核苷酸、又或者至少18个核苷酸、又或者至少19个核苷酸、又或者至少20个核苷酸、又或者至少21个核苷酸、又或者至少22个核苷酸、又或者至少23个核苷酸、又或者至少24个核苷酸、又或者至少25个核苷酸、又或者至少26个核苷酸、又或者至少27个核苷酸、又或者至少28个核苷酸、又或者至少29个核苷酸、又或者至少30个核苷酸、又或者至少50个核苷酸、又或者至少75个核苷酸又或者至少100个核苷酸。

“扩增”或“进行扩增”这样的表达指通过其将形成特定多核苷酸的额外或多个拷贝的过程。

使用本领域技术人员已知的方法,可以对根据本文所述方法扩增的dna进行测序和分析。使用本领域已知的多种测序方法可以确定感兴趣的核酸序列的序列,所述方法包括但不限于通过杂交测序(sbh),通过连接测序(sbl)(shendure等.(2005)science309:1728),定量增量荧光核苷酸加法测序(qifnas),逐步连接和切割,荧光共振能量转移(fret),分子信标,taqman报告探针消化,焦磷酸测序,荧光原位测序(fisseq),fisseq珠(美国专利号7,425,431),摇摆测序(pct/us05/27695),多重测序(美国系列号12/027,039,提交于2008年2月6日;porreca等(2007)nat.methods4:931),聚合集落(polony)测序(美国专利号6,432,360、6,485,944和6,511,803,以及pct/us05/06425);纳米网格滚环测序(rolony)(美国系列号12/120,541,2008年5月4日提交)、等位基因特异性寡聚体连接试验(例如,寡聚体连接试验(ola),使用连接的线性探针和滚环扩增(rca)读出的单模板分子ola,连接的锁式探针,和/或使用连接的环状锁式探针和滚环扩增(rca)读出的单模板分子ola)等。也可以利用高通量测序方法,例如,使用诸如roche454、illuminasolexa、ab-solid、helicos、polonator平台等的平台。本领域已知各种基于光的测序技术(landegren等.(1998)genomeres.8:769-76;kwok(2000)pharmacogenomics1:95-100;以及shi(2001)clin.chem.47:164-172)。

扩增的dna可以通过任何合适的方法进行测序。具体而言,可以使用高通量筛选方法扩增的dna进行测序,如应用生物系统公司(appliedbiosystems)的solid测序技术或亿明达公司(illumina)的基因组分析仪.在本发明的一个方面,可以对扩增的dna进行鸟枪法测序。读数的数量可以是至少10,000、至少100万、至少1000万、至少1亿或至少10亿。在另一个方面,读数的数量可以是10,000-100,000,或者100,000-100万,或者100万-1000万,或者1000万-1亿、或者1亿到10亿。“读数(read)”是通过测序反应获得的连续核酸序列的长度。

“鸟枪法测序”是指用于非常大量dna(如整个基因组)测序的方法。在该方法中,首先将待测序的dna切碎成较小的片段,可以对其进行单独测序。然后根据这些片段的重叠序列将这些片段的序列重组为它们的原始顺序,从而产生完整的序列。可以使用多种不同的技术来完成dna的“切碎”,包括限制酶消化或机械剪切。重叠序列通常由适当编程的计算机对齐。鸟枪法测序cdna文库的方法和程序在本领域中是公知的。

扩增和测序方法在预测医学领域是有用的,其中诊断试验、预后试验、药物基因组学和监测临床试验用于预后(预测)目的,从而预防性地治疗个体。相应地,本发明的一个方面涉及诊断试验,其用于确定基因组dna以便确定个体是否处于患病症和/或疾病的风险中。这样的试验可用于预后或预测目的,从而因此在病症和/或疾病发作之前预防性治疗个体。相应地,在某些示例性实施方式中,提供了使用本文所述一种或多种表达谱方法来诊断和/或预测一种或多种疾病和/或病症的方法。

本文所用术语“生物样品”旨在包括但不限于从对象中分离的组织、细胞、生物液体和分离物,以及对象中存在的组织、细胞和液体。

在某些示例性实施方式中,提供了包含本文所述的一种或多种基因组dna序列的电子设备可读介质。本文所用“电子设备可读介质”指用于存储、携带或保持可由电子设备直接读取和访问的数据或信息的任何合适的介质。这样的介质可以包括但不限于磁存储介质、如软盘,硬盘存储介质和磁带;光存储介质,如光盘;电子存储介质,如ram,rom,eprom,eeprom等;普通硬盘和这些类别的混合物,如磁/光存储介质。介质适用于或被配制成用于以使其上记录有本文描述的一个或多个表达概况。

本文所用术语“电子设备”旨在包括被配置成或适用于存储数据或信息的任何合适的计算或处理设备或其他设备。适合用于本发明的电子设备的示例包括独立计算设备;网络,包括局域网(lan)、广域网(wan)互联网、内联网和外联网;电子设备,如个人数字助理(pda)、蜂窝电话、寻呼机等;和本地和分布式处理系统。

本文所用“记录的”指用于在电子设备可读介质上存储或编码信息的处理。本领域技术人员可以容易地采用任何目前已知用于在已知介质上记录信息的方法来生成包含本文描述的一个或多个表达谱的制品。

可使用各种软件程序和格式来将本发明的基因组dna信息存储在电子设备可读介质上。例如,核酸序列可以用文字处理文本文件来表示,以如wordperfect和微软word等市售可得软件对其进行格式化,或以ascii文件的形式表示,存储在数据库应用程序,诸如db2、sybase、oracle等,以及以其他形式。可使用任何数量的数据处理器结构格式(例如,文本文件或数据库),从而获得或创建其上记录有本文所述一个或多个表达谱的介质。

应理解的是,已描述的本发明的实施方式仅用于说明本发明的一些应用和原理。基于本文的教导,本领域技术人员可进行多种修改而不偏离本发明的真正精神与范围。贯穿本发明中所引用的所有参考文献、专利和公开专利申请的内容通过引用全文纳入本文并用于所有目的。

以下实施例是本发明的代表。这些实施例并不构成对本发明范围的限制,因为这些和其他等价实施方式将对于本发明、附图和所附权利要求而言是显而易见的。

实施例i

一般方案

下述一般方案能够用于全基因组扩增。在裂解缓冲液中裂解单个细胞。将包含多个转座体的转座体文库以及转座缓冲液添加到细胞裂解物,将其充分混合并在55℃孵育10分钟,所述转座体各自具有本文所述的不同和独特的引物结合位点序列(或者各自具有两个不同和独特的引物结合位点序列)。转座后添加1mg/ml蛋白酶以将与单细胞基因组dna结合的转座酶去除。将q5dna聚合酶、dntp、pcr反应缓冲液和引物添加到反应混合物,加热至72℃10分钟以填平因转座子插入而产生的缺口。进行5-25个pcr反应循环以扩增单个细胞基因组dna。将扩增产物纯化用于进一步分析,如高通量深度测序。

实施例ii

细胞裂解

选择细胞,将其从培养皿上割下并使用激光解剖显微镜(lmd-6500,莱卡公司(leica))以如下方式分配到管中。将细胞铺板到膜包覆的培养皿上,并用10倍物镜明场显微镜(莱卡公司)观察。然后使用uv激光切割单独选择的细胞周围的膜,从而使其落入pcr管的帽中。对管进行短暂离心以使细胞下降至管的底部。向pcr管的侧面添加3-5μl的裂解缓冲液(30mmtris-clph7.8、2mmedta、20mmkcl、0.2%曲通x-100、500μg/ml凯杰公司(qiagen)蛋白酶)并向下离心。然后,在pcr仪器上使用如下温度方案对捕获的细胞进行热裂解:50℃3小时,75℃30分钟。或者,将单个细胞用口吸管吸移到含有edta和蛋白酶(如10-5000μg/ml浓度的qiagen蛋白酶(凯杰公司(qiagen)))的低盐裂解缓冲液中。孵育条件根据使用的蛋白酶变化。在qiagen蛋白酶的情况中,孵育是37-55℃下进行1–4小时。然后将蛋白酶加热至80℃失活,并进一步通过特异性蛋白酶抑制剂,如4-(2-氨基乙基)苯磺酰氟盐酸盐(aebsf)或苯基甲磺酰氟(pmsf)(西格玛奥德里奇公司(sigmaaldrich))使其失活。细胞裂解物保存在-80℃。

实施例iii

转座

单个细胞裂解物和转座体文库在含有1–100mmmg2+和任选地还含有1–100mmmn2+或co2+或ca2+的缓冲液系统中混合,并于37-55℃孵育5-240分钟。反应体积根据细胞裂解物体积变化。反应中添加的转座体文库的量可根据所需片段化尺寸随时调整。通过使用edta和任选地egta或其它离子螯合剂来螯合mg2+以停止转座反应。任选地,可以向混合物添加短双链dna作为加入物(spike-in)。残留转座体通过蛋白酶消化失活,如以1-500μg/ml最终浓度的qiagen蛋白酶在37-55℃下进行10-60分钟的蛋白酶消化。然后通过加热和/或蛋白酶抑制剂如aebsf使蛋白酶失活。

实施例iv

缺口填平

转座和转座酶去除后,将包含mg2+、dntp混合物、引物和热稳定dna聚合酶如deepvent外切-dna聚合酶(新英格兰生物实验室公司)的pcr反应混合物在合适的温度下添加到溶液,并持续合适的时间段以填平经转座反应留下的9bp的缺口。缺口填平孵育温度和时间取决于所用特异性dna聚合酶。反应后,通过加热和/或蛋白酶处理,如qiagen蛋白酶,任选地使dna聚合酶失活。如果使用蛋白酶,其后通过加热和/或蛋白酶抑制剂使蛋白酶失活。

实施例v

dna片段扩增

根据一个方面,使用本领域技术人员已知的常规方法扩增dna片段。将来自上述实施例的缺口填平的双链产物(包括具有引物结合位点的dna片段)添加到水性介质中的pcr反应试剂。然后,使水性介质经历pcr条件以对各dna片段进行pcr扩增。

实施例vi

dna片段扩增子的测序

根据一个方面,使用本领域技术人员已知的方法对片段进行测序,并将序列储存在计算机可读储存器中。然后可以将序列比对并组装成基因组序列,这使用本领域技术人员已知的方法,包括软件方法进行。

实施例vii

使用包含20个不同转座子dna的转座体文库进行单个bj细胞的全基因组扩增

转座子序列的组合物包含双链tn5转座酶结合位点(t)和单链5'引发突出端以用作多重引发位点(m),如图1所示。转座子序列的各种类型具有相同的t区域,但是在m区域方面不同。为了产生20种转座子序列的转座子混合物的库,将相等摩尔量的各种类型的转座子序列在含有10mmtrisph=8,50mmnacl和1mmedta的缓冲液中混合。为了组装转座体复合物,将20种转座子的库与tn5转座酶以等摩尔比例混合并在室温孵育30分钟(图2)。

单个bj细胞经facs分选至3ul裂解缓冲液,其包含20mmtrisph=8,20mmnacl,0.1%曲通x100,15mmdtt,1mmedta和1mg/mlqiagen蛋白酶。然后将细胞于50度下孵育3小时,之后于70度下30分钟。然后将100nm转座体添加到细胞裂解物,并将转座反应混合物于55度下孵育10分钟,其中,镁终浓度为5mm。去除转座酶后,将基因组dna切割成百万计的小dna片段,其各自以20种转座子序列中的一种在各末端标记。(图3a)以此方式,转座体文库可以包括本文所述的20种不同和/或独特的引物结合位点序列,而转座体文库的成员将接近数以百万计的成员。两个末端被相同转座子序列标记的dna片段的概率为1/20=5%。然后添加dna聚合酶反应混合物,其包含200um的各种dntp,1xnebq5反应缓冲液,20种引物各125nm和0.02u/ulq5dna聚合酶,并于72℃孵育3分钟以填平转座所导致的缺口(图4)。然后如下进行15个循环的pcr反应:98℃30秒,65℃1分钟,72℃2分钟,如图5所示,以扩增靶基因组dna。然后通过zymodna纯化柱纯化扩增产物。

然而,在m位点的序列和数量n中存在这样的限制:因为在多重pcr的情况中,可能发生引物之间的随机退火,并且这在引物序列的数量(n)增加时或者当引物浓度增加时更有可能发生。因此需要选择m的正交序列,从而使得对n个类型的m位点具有特异性的引物不形成引物二聚体。

虽然本领域技术人员可以容易地由多重pcr研究中找到正交引物序列(并因此找到m位点的序列),但是需要确保20种转座子序列中每一种的转座的可能性尽可能地等同。例如,如果转座子序列a比所有其他序列插入靶dna的可能性大40倍左右,那么在dna片段的两个末端具有a-a的可能性对于n=20而言将为大约(40/(40+n-1))2=46%。预期这将导致46%的损失率,几乎违背了避免50%损失率的初衷。为了甚至在有插入倾向(insertionpropensity)的情况下实现正交性,本领域技术人员可以设计与转座子一起使用的正交引物结合位点序列。例如,下述20种转座子引物结合位点序列满足正交性。应当理解的是,本领域技术人员可以设计许多其他这类引物结合位点序列的集合,并且下述20种转座子引物结合位点序列并不旨在以任何方式进行限制。序列如下所示(由5'-3')。

转座子a:agaagccgtgtgccggtcta(seqidno:1),

转座子b:atcgtgcggacgagacagca(seqidno:2),

转座子c:aatcctagcaccggttcgcc(seqidno:3),

转座子d:acgtgttgcaggtgcactcg(seqidno:4),

转座子e:acaccacacggcctagagtc(seqidno:5),

转座子f:tggacaatcacgcgaccagc(seqidno:6),

转座子g:tcatctaacgcgcaccgtgc(seqidno:7),

转座子h:ttcgtcggctctctcgaacc(seqidno:8),

转座子i:tggtggagcgtgcagactct(seqidno:9),

转座子j:tatcttcctgcgcagcggac(seqidno:10),

转座子k:ctgacgtgtgaggcgctaga(seqidno:11),

转座子l:ccatcatccaaccggcttcg(seqidno:12),

转座子m:cacgagaagccgtccgctta(seqidno:13),

转座子n:cgtacgtgcaacactccgct(seqidno:14),

转座子o:cttggtcaggcgagaagcac(seqidno:15),

转座子p:ggcgtgatcagtgcgtggat(seqidno:16),

转座子q:gagcgtttggtgaccgccat(seqidno:17),

转座子r:gcctgcggtccattgaccta(seqidno:18),

转座子s:gtaagccactccagcgtcac(seqidno:19),

转座子t:gatctgttgcgcgtctggtg(seqidno:20)。

使用上述转座子序列的组合用于多重末端标记和扩增,可以将单细胞dna制备成测序文库用于下一代测序。在illumina测序平台上进行6个单个bj细胞的浅度测序(shallowsequencing)(每个细胞的平均数据量为8.3gb)实现56%的平均全基因组覆盖(表1)。4个单个bj细胞的深度测序(每个细胞一个hiseq4000泳道)实现79%的平均覆盖。这些细胞中的snv检测非常精确,假阴性率为70%且假阳性率为8×10-7/bp。下表1显示了浅度测序后通过多重末端标记扩增(meta)扩增的单个细胞的全基因组覆盖。

实施例viii

用于事实多重化的错误引发的方法

尽管细致选择转座子序列的组合,但是在不同序列的转座子之间仍然存在系统性插入偏好(bias)的情况并不罕见。例如,对于实施例vii中20种序列的组合,在某些单细胞数据中观测到偏好,并且最丰富和最不丰富的序列的频率可以相差高达10倍,导致超过1/20理论预测的损失率,即使该率已经小于50%。

提供了用于“错误引发(mis-priming)”以实现事实多重化的方法。如图6所示,在两个末端上均具有相同序列的经标记的dna片段在解链后可以通过具有不同序列的引物引发,产生延伸后在两个末端具有不同序列的新片段。部分特异性引物的退火(“错误引发”)通常是不可能的(因此前述方法中存在50%的损失),因为完全特异性引物的退火(“正确引发(proper-priming)”)比其部分特异性引物的退火更有利。然而,当将各m位点设计成相较于t位点较短时,错误引发可与正确引发以及自成环(self-looping)更有利地竞争。注意到,当n大于2时,部分特异性引物比完全特异性引物更多(假设将相同浓度的各引物添加到反应混合物),这有助于增加错误引发的机会并实现事实多重化。

此外,可以将通用序列添加到t位点,从而使得m位点相较于t变得相对短,而这可以帮助错误引发。为了进一步增加错误引发的动力学有利度(kineticfavorability),还可以增加插入长度(例如,通过添加较少浓集的转座体混合物),从而使片段平均变得更长,并且自成环变得更不可能与错误引发竞争。

本领域技术人员可以因此调整引物的浓度,m位点的长度,通用t位点的长度和插入长度,以达到用于事实多重化的错误引发和正确引发之间的平衡,从而使dna的损失最小化。

实施例ix

通过测序和比对插入位点滤除扩增伪像(artifact)以进行变异检测

除了将假阴性最小化,核酸的多重末端标记扩增还提供了使遗传变异的假阳性检测最小化的优势。最近,假阳性检测已经通过chen等和dong等降低,但是仍然存在成百或成千个snv(chen,c.,xing,d.,tan,l.,li,h.,zhou,g.,huang,l.,和xie,x.s.(2017))。通过经由转座子插入的线性扩增(lianti)分析单细胞全基因组.science,356(6334),189-194;dong,x.,zhang,l.,milholland,b.,lee,m.,maslov,a.y.,wang,t.,和vijg,j.(2017).在全基因组扩增的单细胞中准确鉴定单个核苷变异(accurateidentificationofsingle-nucleotidevariantsinwhole-genome-amplifiedsinglecells).naturemethods)。为了进一步使假阳性降低至近乎于零,提供了变异检测的方法。

图7显示了核酸的多重末端标记扩增如何允许鉴定snv假阳性。在对使用多重末端标记扩增法扩增的dna进行测序后,将与相同基因组区域比对上并在两个末端上共有相同m序列(“条码”)的读数分组在一起。(在图7的示例中,m序列表示为m1和m2)。在相同组的读数内,如果在50%或更少的读数中检测到snv,其应当是伪像并且应该被过滤掉,因为真snv阳性原则上将存在于100%的读数中。本文所述多重末端标记扩增方法确保各个扩增的分子在两个末端上均包含条码,即不同和/或独特的引物结合位点序列,从而使得与参照基因组匹配并比对上的两个条码均可以用于将测序读数分组在一起

相似的方案可以用于鉴定结构变异(sv)假阳性。因此,测序读数的分组可以仅基于一个条码以及邻近靠近条码的t位点的靶dna序列,而不是基于两个末端的条码和对应的dna序列。以此方式,如果pcr期间发生嵌合体伪像,那么分组中50%或更少的读数将与其他读数仅共有一个条码,而不是两个,并且共有邻近于共有条码旁的t位点的dna序列。另一方面,当存在sv的真阳性时,具有真阳性的原始dna片段将被扩增到这样的分子的分组中,所述分子共有相同的条码于两个末端以及邻近各条码旁的t位点的相同的dna序列。所以当测序读数如上所述仅基于一个条码和附近靶dna序列进行分组时,可以区分真和假嵌合阳性。因此,多重末端标记扩增不仅通过使损失最小化来减少假阴性,而且还能够清除假阳性,用于准确检测遗传变异。

实施例x

dna分子两条链的单独分析以进行准确的变异检测

准确检测单个细胞中的基因组变异对于早期癌症检测和胚胎植入前遗传筛查而言至关重要。然而,现有的全基因组扩增(wga)方法产生许多假阳性(fp)。例如,细胞裂解过程中胞嘧啶和腺嘌呤脱氨基以及wga期间dna聚合酶错误产生fp单核苷酸变异(snv),而wga期间的嵌合体形成产生fp结构变异(sv)。最近的研究通过线性扩增(chen,c.,xing,d.,tan,l.,li,h.,zhou,g.,huang,l.,和xie,x.s.(2017).通过经由转座子插入的线性扩增(lianti)的单细胞全基因组分析(single-cellwhole-genomeanalysesbylinearamplificationviatransposoninsertion(lianti)).science,356(6334),189-194)或温和裂解条件(dong,x.,zhang,l.,milholland,b.,lee,m.,maslov,a.y.,wang,t.,和vijg,j.(2017).准确鉴定全基因组扩增的单个细胞中的单核苷酸变异(accurateidentificationofsingle-nucleotidevariantsinwhole-genome-amplifiedsinglecells).naturemethods)减少了fp;但是仍然存在成百个或成千个fp。对同源细胞(kindredcell)进行测序(zong,c.,lu,s.,chapman,a.r.,和xie,x.s.(2012).单个人细胞的单核苷酸和拷贝数量变异的全基因组检测(genome-widedetectionofsingle-nucleotideandcopy-numbervariationsofasinglehumancell).science,338(6114),1622-1626)可以进一步减少fp;但是当感兴趣的细胞不可以体外分裂时,并不可以获得同源细胞,例如,在人脑神经元的情况中(lodato,m.a.,woodworth,m.b.,lee,s.,evrony,g.d.,mehta,b.k.,karger,a.,...和luquette,l.j.(2015).单个人神经元中的体细胞突变追踪发育和转录史(somaticmutationinsinglehumanneuronstracksdevelopmentalandtranscriptionalhistory).science,350(6256),94-98)。在本文所述的方法中,这些fp可以通过单独地分析各dna分子的两条链并要求由两条链观察各变异来消除。因为fp不可能在两条链上以相同模式并在相同位置发生(例如,胞嘧啶脱氨基作用的fpsnv对应互补链上的鸟嘌呤,其对脱氨基作用并不易感),单独分析各dna分子的两条链的方法将分别导致近乎为零的fp。

根据一个方面,双链dna分子的两条链可以物理上或实际上彼此分离,并从两条链观察各变体。因为fp不可能在两条链上以相同模式并在相同位置发生(例如,胞嘧啶脱氨基作用的fpsnv对应互补链上的鸟嘌呤,其对脱氨基作用并不易感),本文所述单独分析双链dna分子的各条链的方法将导致近乎为零的fp。根据一个方面,可以使用任何全基因组测序方法,只要两条链可以单独地进行扩增和测序即可。具体的示例包括:在第一轮pcr后通过移液到多个试管中分离meta反应(即多重末端标记扩增),通过pcr的多个步骤实际上分离两条链,或在碱变性后将mda反应分离到多个试管中。就灵敏度(sensitivity)而言,假设样品经物理分离成具有相等体积的n个隔室,并且wga方法对于各条链的损失可能性为p,那么理论上的假阴性率为1-(1-p)2(1-n-1),这是由于(1)将去往相同隔室的两条链和/或(2)任一条链的损失所导致的。

对于该应用,本文所述多重末端标记扩增方案的pcr扩增将分成3个阶段(参见图8)。首先两个阶段各自仅包含一组metapcr引物和单个pcr循环,其中adp1引物在第一阶段,而adp2引物在第二阶段。adp1和adp2引物包含两个部分,一个是adp1或adp2序列,而另一个是可以引发meta转座子dna的引发位点序列的引发区域。第三个阶段包含靶向两个衔接子的两个引物(例如,标准illuminapcr引物)。以此方式,获自illumina测序仪的最终序列将保留原始dna分子的链信息,并且可以用于进行准确变异检测。根据一个方面,adp1和adp2序列可以是illumina的测序文库衔接子序列的部分。

实施例xi

使用多重末端标记扩增(meta-c,也称为二倍体细胞的dip-c)及其针对单倍型设算(haplotypeimputation)的相应算法进行灵敏染色质构象捕获

本文所述方法涉及灵敏染色质构象捕获,其使用多重末端标记扩增(meta-c),并且当应用于二倍体细胞时,涉及二倍体染色质构象捕获(dip-c)及其针对单倍型设算的相应算法。当输入材料是染色质构象捕获(3c)(dekker,j.,rippe,k.,dekker,m.,和kleckner,n.(2002).捕获染色体构象(capturingchromosomeconformation).science,295(5558),1306-1311)或相关试验诸如hi-c(lieberman-aiden,e.,vanberkum,n.l.,williams,l.,imakaev,m.,ragoczy,t.,telling,a.,...和sandstrom,r.(2009).长范围相互作用的综合作图揭示了人类基因组的折叠原理(comprehensivemappingoflong-rangeinteractionsrevealsfoldingprinciplesofthehumangenome).science,326(5950),289-293)的产物时,本文所述多重末端标记扩增方法(meta)可以检测单个细胞或小量材料中的染色质构象。meta这样的修改形式称为meta-c,其在9个单个gm12878细胞中检测各细胞7×105-2×106个染色质触点(chromatincontact),这比现有方法更灵敏(nagano,t.,lubling,y.,stevens,t.j.,schoenfelder,s.,yaffe,e.,dean,w.,...和fraser,p.(2013).单细胞hi-c揭示了染色体结构中的细胞间变异性(single-cellhi-crevealscell-to-cellvariabilityinchromosomestructure).nature,502(7469),59-64;nagano,t.,lubling,y.,varnai,c.,dudley,c.,leung,w.,baran,y.,...和tanay,a.(2016).单细胞分辨率下染色体组织的细胞周期动力学(cellcycledynamicsofchromosomalorganisationatsingle-cellresolution).biorxiv,094466;stevens,t.j.,lando,d.,basu,s.,atkinson,l.p.,cao,y.,lee,s.f.,...和cramard,j.(2017).通过单细胞hi-c研究个体哺乳动物基因组的3d结构(3dstructuresofindividualmammaliangenomesstudiedbysingle-cellhi-c).nature,544(7648),59-64;flyamer,i.m.,gassler,j.,imakaev,m.,h.b.,ulianov,s.v.,abdennur,n.,...和tachibana-konwalski,k.(2017).单核hi-c揭示了卵母细胞到受精卵转变时的独特染色质重组(single-nucleushi-crevealsuniquechromatinreorganizationatoocyte-to-zygotetransition).nature,544(7648),110-114)。

大多数的功能细胞是二倍体的。当应用于二倍体细胞时,本文所述方法利用染色质触点的统计学性质来设算(impute)各个联系的单体型信息。对于各触点,提供了这样的算法,其使用附近触点的单倍型以确定其单倍型。例如,对于接合一个染色体上位置x(在碱基对中)和另一染色体上位置y的触点,接合相同染色体对的x'和y'从而使(|x'-x|0.5+|y'-y|0.5)2≤10mb的所有触点均可以用于确定其单倍型。然后,该算法(称之为dip-c算法)迭代地生成拟3d结构,并将这些结构用于进一步设算单倍型。例如,对于各触点,选择单倍型从而使所得3d距离最小。将该算法应用于9个gm12878单细胞,并设算大多数触点的单倍型,以20kb的分辨率生成3d基因组结构。

实施例xii

使用多重末端标记扩增(metatac)的开放染色质的灵敏检测

本文所述方法涉及使用多重末端标记扩增(metatac)进行的开放染色质的灵敏检测。当输入材料是天然的或固定的细胞核时,如在atac-seq(buenrostro,j.d.,giresi,p.g.,zaba,l.c.,chang,h.y.,和greenleaf,w.j.(2013).天然染色质的转座易位用于对开放染色质、dna结合蛋白和核小体位置进行快速且敏感的表观基因组概况(transpositionofnativechromatinforfastandsensitiveepigenomicprofilingofopenchromatin,dna-bindingproteinsandnucleosomeposition).naturemethods,10(12),1213-1218)中,多重末端标记和扩增可以检测单个细胞或小量材料中的开放染色质。meta这样的修改形式称为metatac,其在18个单个gm12878细胞中检测各细胞6%-33%的全部开放染色质区域,这比现有方法更灵敏(buenrostro,j.d.,wu,b.,litzenburger,u.m.,ruff,d.,gonzales,m.l.,snyder,m.p.,...和greenleaf,w.j.(2015).单细胞染色质可及性揭示调节变异的原则(single-cellchromatinaccessibilityrevealsprinciplesofregulatoryvariation).nature,523(7561),486-490;cusanovich,d.a.,daza,r.,adey,a.,pliner,h.a.,christiansen,l.,gunderson,k.l.,...和shendure,j.(2015).通过组合细胞标引对染色质可及性进行多重单细胞分析(multiplexsingle-cellprofilingofchromatinaccessibilitybycombinatorialcellularindexing.science),348(6237),910-914)。

实施例xiii

试剂盒

公开的扩增方法所需的材料和试剂可在试剂盒中组装在一起。本公开的试剂盒通常将至少包括进行所要求保护的方法所需的转座体(由转座酶和转座子dna组成)、核苷酸和dna聚合酶、与所需引物组。在优选实施方式中,试剂盒还将包括用于由dna样品扩增dna的说明。示例性的试剂盒是那些适合用于扩增全基因组dna的试剂盒。在各种情况中,试剂盒将优选具有对各种单独试剂、酶或反应物不同的容器。通常,将各物质在其各自的容器中适当分装。试剂盒的容器装置通常包括至少一个小瓶或试管。也可以是能够将试剂放置并分装于其中的细颈瓶、瓶子和其他容器装置。试剂盒的单个容器将优选保持密闭状态以用于商业销售。合适的较大容器可包括注塑或吹塑的塑料容器,其中保留所需小管。优选说明书与试剂盒一起提供。

实施例xiv

实施方式

本公开描述了dna扩增的方法,其包括将基因组dna与转座体文库接触,所述文库的各转座体具有两个转座酶和两个转座子dna,其中各转座子dna包含转座酶结合位点和引物结合位点序列,其中所述引物结合位点序列不同于所述转座体文库的其他成员的引物结合位点,其中所述转座体文库结合排列于所述基因组dna上的各个靶位置,而所述转座酶将所述基因组dna切割成代表基因组dna片段文库的多个双链基因组dna片段,其中各双链基因组dna片段在所述基因组dna片段的各末端上包含独特且不同的引物结合位点序列,填平所述转座子dna和基因组dna片段之间的缺口,以形成双链基因组dna片段延伸产物的文库,所述双链基因组dna片段延伸产物在各末端具有独特且不同的引物结合位点序列,和扩增所述双链基因组dna片段延伸产物以产生扩增子。根据一个方面,该方法还包括对扩增子进行测序。根据一个方面,转座体文库内的各转座体包含两个不同的引物结合位点序列。根据一个方面,转座体文库内的各转座体在转座体的各转座子上包含两个相同的引物结合位点序列,它们不同于转座体文库的其他转座体中的引物结合位点序列。根据一个方面,基因组dna是获自单个细胞的全基因组dna。根据一个方面,所述转座酶是tn5转座酶、mu转座酶、tn7转座酶或is5转座酶。根据一个方面,所述转座子dna包含双链19bptnp结合位点和突出端,其中所述突出端在突出端的5'末端包含独特且不同的引物结合位点序列。根据一个方面,在缺口填平和延伸所述双链基因组dna片段之前,将结合的转座酶从所述双链片段去除。根据一个方面,基因组dna来自产前细胞。根据一个方面,基因组dna来自癌细胞。根据一个方面,基因组dna来自循环肿瘤细胞。根据一个方面,基因组dna来自单个产前细胞。根据一个方面,基因组dna来自单个癌细胞。根据一个方面,基因组dna来自单个循环肿瘤细胞。根据一个方面,基因组dna是来自单个细胞或小样品的染色质构象捕获的产物。根据一个方面,基因组dna是来自单个细胞或微量样品的天然或固定的染色质。根据一个方面,所述独特且/或不同的引物结合位点序列是特异性pcr引物结合位点。根据一个方面,转座体文库包含1-100个独特且/或不同的引物结合位点序列。根据一个方面,转座体文库包含1-10个独特且/或不同的引物结合位点序列。根据一个方面,转座体文库包含5-50个独特且/或不同的引物结合位点序列。根据一个方面,转座体文库包含30-100个独特且/或不同的引物结合位点序列。根据一个方面,转座体文库包含15-25个独特且/或不同的引物结合位点序列。根据一个方面,转座体文库包含100-1,000个独特且/或不同的引物结合位点序列。根据一个方面,转座体文库包含1,000-10,000个独特且/或不同的引物结合位点序列。根据一个方面,转座体文库包含10,000-100,000个独特且/或不同的引物结合位点序列。根据一个方面,不同引物结合位点序列是正交的。

本公开描述了产生在各末端具有独特且/或不同的引发位点序列的双链dna扩增子的方法,其包括将在各末端具有转座酶结合序列以及相同引发位点序列的靶双链dna分成第一单链和第二链,使第一引物退火至所述第一链,所述第一引物具有与所述转座酶结合位点互补的第一序列和与所述引发位点序列不互补的第二序列,使第二引物退火至第二链,所述第二引物具有与所述转座酶结合位点互补的第一序列和与所述引发位点序列互补的第二序列,沿着所述第一链延伸所述第一引物并沿着所述第二链延伸所述第二引物,和扩增所述延伸产物以产生在各末端具有独特且/或不同引发位点序列的双链dna扩增子。

本公开提供了扩增在各末端具有不同引发位点的双链核酸序列的两条链的方法,其包括将所述双链核酸序列分成第一链和第二链,在不存在所述第二链的情况下扩增所述第一链以产生第一链扩增子,在不存在所述第一链的情况下扩增所述第二链以产生第二链扩增子,对所述第一链扩增子进行测序,并对所述第二链扩增子进行测序。根据一个方面,该方法还包括使所述第一链和第二链的3'末端与引物退火,所述引物包含与所述第一链和第二链的3'末端互补的引发区域和第一衔接子序列,通过dna聚合酶合成互补链,用外切核酸酶去除过量的引物,使所述第一链和第二链的合成互补链的3'末端与引物退火,所述引物包含与所述第一链和第二链的3'末端互补的引发区域和第二衔接子序列,通过dna聚合酶合成互补链,用外切核酸酶去除过量的引物,通过pcr使用引物扩增所述靶序列,所述引物退火至所述第一衔接子序列和第二衔接子序列以产生针对所述第一链和第二链的扩增子,对所述扩增子进行测序以区分所述第一链和所述第二链,其中,所述第一链的第一末端以所述第一衔接子标记,所述第一链的第二末端以所述第二衔接子标记,并且其中所述第二链的第一末端以所述第二衔接子标记,所述第二链的第二末端以所述第一衔接子标记。根据一个方面,染色质构象捕获来自二倍体样品,并确定各捕获的染色质触点的单倍型信息。

序列表

<110>哈佛学院董事及会员团体(presidentandfellowsofharvardcollege)

<120>核酸的多重末端标记扩增

<130>010498.01103/wo

<140>

<141>

<150>62/509,981

<151>2017-05-23

<160>20

<170>patentinversion3.5

<210>1

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>1

agaagccgtgtgccggtcta20

<210>2

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>2

atcgtgcggacgagacagca20

<210>3

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>3

aatcctagcaccggttcgcc20

<210>4

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>4

acgtgttgcaggtgcactcg20

<210>5

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>5

acaccacacggcctagagtc20

<210>6

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>6

tggacaatcacgcgaccagc20

<210>7

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>7

tcatctaacgcgcaccgtgc20

<210>8

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>8

ttcgtcggctctctcgaacc20

<210>9

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>9

tggtggagcgtgcagactct20

<210>10

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>10

tatcttcctgcgcagcggac20

<210>11

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>11

ctgacgtgtgaggcgctaga20

<210>12

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>12

ccatcatccaaccggcttcg20

<210>13

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>13

cacgagaagccgtccgctta20

<210>14

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>14

cgtacgtgcaacactccgct20

<210>15

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>15

cttggtcaggcgagaagcac20

<210>16

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>16

ggcgtgatcagtgcgtggat20

<210>17

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>17

gagcgtttggtgaccgccat20

<210>18

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>18

gcctgcggtccattgaccta20

<210>19

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>19

gtaagccactccagcgtcac20

<210>20

<211>20

<212>dna

<213>人工序列

<220>

<223>人工序列的描述:合成寡核苷酸

<400>20

gatctgttgcgcgtctggtg20

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1