测序技术中的脱靶捕捉降低的制作方法

文档序号:15303885发布日期:2018-08-31 20:41阅读:417来源:国知局

本申请要求于2015年10月7日提交的标题为“data-guideddesignofhybridcaptureoff-targetreducers”的美国临时申请no.62/238,411的优先权,其公开内容通过引用并入本文用于所有目的。

发明背景

本公开一般涉及核酸测序技术领域。更具体地,本公开涉及用于富集靶物捕捉并且降低靶向测序工作流中待测序的核酸的脱靶捕捉的技术。

下一代测序(ngs)平台的测序方法通常利用核酸片段文库。在靶向测序技术中,从核酸文库中分离含有基因组的感兴趣基因或区域的片段的亚组并对其测序。使用ngs的靶向性方法使研究人员将时间、费用和数据分析集中在特定的感兴趣领域。此类靶向分析可以包括外显子组(基因组的蛋白质编码部分)、感兴趣的特定基因(定制内容)、基因内的靶物、或线粒体dna。靶向性方法与更全面的全基因组测序方法形成对比,但也涉及对所有用户可能不感兴趣的基因组测序区域。

在靶向测序技术的一个实例中,杂合捕捉方法使用与核酸文库中的靶序列杂交的探针组或集。探针与靶序列的杂交允许将这些序列与测序文库中的片段的剩余部分分开。通过仅靶向核酸文库的一部分,杂合捕捉方法避免了不含感兴趣序列的脱靶(off-target)核酸片段的测序。然而,与基于扩增子的靶物富集方法不同,杂合捕捉方法具有较高的脱靶测序率,并且继而降低了中靶(on-target)特异性。例如,尽管使用商业杂交封闭剂如cot1、trna、鲑鱼精dna、聚(didc)和靶向文库片段通用衔接头的封闭剂,但某些杂合捕捉方法通常仅实现40%-60%的效率。脱靶读段不仅浪费测序产率,而且还潜在地损害低频率的体细胞突变的变体调用(variantcalling)。因此,需要改进的富集方法,其在靶向测序技术中提供较高的特异性。

发明概述

本文中呈现了用于富集核酸文库中的靶序列并通过一组靶物杂交探针降低脱靶序列捕捉的技术。因为靶物杂交探针对它们的核酸靶物具有不完全特异性,所以使用一组靶物杂交探针的测序运行也可以包括代表脱靶的序列的一定百分比的读段。例如,在外显子组测序反应中,某些杂交探针可以连同靶序列一起从核酸文库中拉下内含子或基因间序列。这些脱靶片段一旦被拉下就存在于被测序的核酸片段合并物中。虽然通常弃去代表脱靶读段的测序信息,但是本技术使用获得的这些脱靶读段的测序信息来设计杂交探针,所述杂交探针对于脱靶序列是特异性的并且用于从通过靶物特异性杂交探针捕捉的片段合并物中分离和/或除去包含这些序列的片段。脱靶杂交探针是基于分析用一组靶物杂交探针进行的杂合捕捉测序运行的脱靶读段而设计的。在某些实施方案中,中靶探针设计也可以基于样品间的系统性脱靶分析以改善靶物杂交探针对其期望靶物的特异性。

本文中呈现了降低靶向测序反应中的脱靶捕捉的方法。方法包括以下步骤:提供一组脱靶杂交探针,所述脱靶杂交探针特异性结合存在于从样品产生的核酸文库中的多个脱靶序列,所述核酸文库包含多个核酸片段并提供一组靶物特异性杂交探针,所述靶物特异性杂交探针特异性结合存在于核酸文库中的多个靶序列。方法还包括以下步骤:在脱靶杂交探针与脱靶序列杂交的条件下使脱靶杂交探针与核酸文库接触,并在靶物特异性杂交探针与靶序列杂交的条件下使靶物特异性杂交探针与核酸文库接触。方法还包括以下步骤:从核酸文库中选择与靶物特异性杂交探针结合的一组核酸片段;并且对与靶物特异性杂交探针结合的该组核酸片段测序。

本文中还呈现了提供用于靶向测序反应中的脱靶序列捕捉的探针的方法。方法包括接收针对一组靶物特异性杂交探针的请求的步骤。方法还包括以下步骤:使靶物特异性杂交探针与从参照样品产生的参照核酸文库接触,所述核酸文库包含多个核酸片段,以产生与靶物特异性杂交探针结合的靶物特异性和脱靶核酸片段的参照组,并将与靶物特异性杂交探针结合的核酸片段的参照组与未结合的核酸片段分开。方法还包括以下步骤:对核酸片段的参照组测序以产生参照测序数据;鉴定参照测序数据中的脱靶序列;以及基于鉴定的脱靶序列提供一组脱靶杂交探针。

本文中还呈现了用于降低靶向测序反应中的脱靶捕捉的测序试剂盒,其包括一组脱靶杂交探针,该脱靶杂交探针特异性结合存在于从样品产生的核酸文库中的多个脱靶序列,所述核酸文库包含多个核酸片段,和一组特异性结合存在于核酸文库中的多个靶序列的靶物特异性杂交探针。

在下面的附图和描述中阐述了一个或多个实施方案的细节。其它特征、目的和优点将从说明书和附图以及权利要求书中显而易见。

附图简述

图1是结合核酸文库的脱靶片段的靶物特异性杂交探针的示意图;

图2显示了来自两种细胞系的六个样品的脱靶读段的基因组浏览器视图,所述脱靶读段具有相似覆盖的靶向区域(左侧)和脱靶区域(右侧)处的读段分布;

图3是显示脱靶读段的基因组分布的图;

图4是证明第一样品的靶探针和脱靶峰之间的相似性的图;

图5是证明第二样品的靶探针和脱靶峰之间的相似性的图;

图6是根据本公开的实施方案的提供脱靶杂交探针的方法的流程图;

图7是根据本公开的实施方案的降低靶向测序反应中的脱靶捕捉的方法的流程图;

图8是根据本公开的实施方案的降低靶向测序反应中的脱靶捕捉的竞争性封闭方法的示意图;

图9是根据本公开的实施方案的降低靶向测序反应中的脱靶捕捉的预封闭方法的示意图;

图10是根据本公开的实施方案的降低靶向测序反应中的脱靶捕捉的预澄清(pre-clearing)方法的示意图;

图11是根据本公开内容的实施方案的降低与衔接子封闭剂结合使用的靶向测序反应中的脱靶捕捉的方法的示意图;

图12是根据本公开的实施方案的降低与衰减剂(attenuator)结合使用的靶向测序反应中的脱靶捕捉的方法的示意图;

图13是根据本公开实施方案的根据探针结合分离的核酸文库片段的示意图;

图14是证明在预澄清之后在脱靶峰上的显著覆盖下降的图,其中每个点表示对照(x轴)和来自预澄清方案的相同样品(y-轴)中的脱靶峰的读段覆盖;

图15是证明预澄清后的脱靶峰上的显著覆盖下降的图,其中每个点代表对照(x轴)和来自预澄清方案的相同样品(y轴)中的脱靶峰的读段覆盖;

图16是证明预澄清后的脱靶峰上的显著覆盖下降的图,其中每个点代表对照(x轴)和来自预澄清方案的相同样品(y-轴)中的脱靶峰的读段覆盖;

图17是证明中靶区域上的覆盖增加和下降的图,其中点表示对照(x轴)和具有预清洁(pre-cleaning)的相同样品(y轴)中的中靶区域的读段覆盖;

图18是证明在中靶区域上的覆盖增加和下降的图,其中点表示对照(x轴)中和具有预清洁的相同样品(y轴)中的中靶区域的读段覆盖;

图19是证明在中靶区域上的覆盖增加和下降的图,其中点表示对照(x轴)和具有预清洁的相同样品(y轴)中的中靶区域的读段覆盖;和

图20是可以结合本公开的实施方案使用的测序装置的框图。

发明详述

经由通过杂交探针的结合选择靶序列的杂合捕捉方法与高脱靶结合率和低中靶特异性相关联。本技术通过使用数据引导方法降低杂合捕捉测序工作流中的脱靶序列的存在来改善测序效率。虽然某些技术可以使用封闭剂或结合衰减剂来影响探针结合,但此类方法不是数据引导的。例如,鲑鱼精dna可以用于防止探针与反应表面的非特异性结合。然而,非特异性封闭剂不能阻止靶物特异性探针结合与靶序列具有相似性的脱靶序列。靶物特异性探针对其意图靶物具有特异性。然而,存在于脱靶区域中的序列可以与靶序列足够相似(例如具有与靶物具有同源性的短段,高串相似性)以允许靶探针的至少一些脱靶结合,尽管相对于靶序列结合,特异性较低。相对于其它靶向测序方法,杂合捕捉技术中的脱靶结合更为普遍,部分原因在于靶物特异性杂交探针通常在基于pcr的方法中相对于引物(25-30mer)是较长的寡核苷酸(80-120mer),这可以促进探针结合与靶序列具有足够相似性的脱靶序列。基于pcr的靶向测序通常需要引物的两端结合到特定区域。与中靶结合相比双重结合需要使随机脱靶结合更慢扩增,这继而降低脱靶扩增。在另一个实例中,较长的寡核苷酸在统计学上比较短的寡核苷酸更可能在与脱靶序列相似的寡核苷酸内具有连续的碱基段。此类互补或高度相似性的连续段可以有助于脱靶结合。

本技术使用关于脱靶序列的信息来改善杂合捕捉并降低脱靶捕捉的百分比。杂合捕捉测序反应可以由于靶物特异性杂交探针的不想要的脱靶结合而从脱靶序列获得序列数据。虽然通常弃去此类脱靶测序数据,但是本技术利用脱靶序列的测序信息来设计针对这些脱靶区域特异性的探针。使用对脱靶具有高特异性的探针有助于减少存在于测序片段合并物中的脱靶区域的总数。作为数据引导方法的结果,在给定的测序运行中脱靶测序读段的百分比会降低。因此,本技术通过减少测序运行中产生的原始数据的总量而提供了改善测序装置的效率的益处。此外,测序数据中存在的脱靶读段的减少也通过减少待鉴定并从分析中排除的脱靶序列数据的量来改善数据分析的效率。

转到附图,本技术的实施方案包括获取脱靶序列数据作为用于脱靶杂交探针的数据引导设计的输入。图1是导致脱靶序列数据获取的靶物特异性杂交探针的脱靶结合的示意图。首先参照图1,显示了具有靶物特异性杂交探针的脱靶结合的杂合捕捉工作流的示意图。可以使用如所示的此类脱靶结合来获取用于表征如本文所提供的脱靶序列的测序数据。在靶向测序杂合捕捉工作流中,靶物特异性杂交探针设计为与样品中感兴趣区域中存在的序列杂交。工作流包括制备从来自样品,例如包含基因组dna(例如,人基因组、动物基因组、细菌基因组)或其它核酸的样品的多个核酸片段12形成的核酸文库10。核酸文库包括具有来自包含靶序列14的感兴趣区域的序列的片段(例如,片段12a)以及作为仅具有脱靶序列16的脱靶物的片段(例如片段12b)。应当理解的是,包括靶序列14的片段12可以完全自感兴趣的区域形成,或者可以包括不感兴趣的其它区域。靶物特异性杂交探针20设计成与片段12上的一个或多个靶序列14互补。因此,在杂交条件下,一个或多个靶物特异性杂交探针20(例如探针20a,20b)将结合互补靶序列14。这有助于将具有靶序列14的片段12与没有靶序列14的片段12(例如仅具有脱靶序列16的片段)分离,从而产生富含靶物的样品用于测序。

如本文所提供,靶序列14是存在于与靶物特异性杂交探针20互补的核酸文库中的核酸序列。根据期望的测序结果,靶序列14可以是用于外显子组测序的外显子序列。因此,在一些实施方案中,靶物特异性杂交探针20针对外显子的靶序列14。在另一个实施方案中,靶序列14可以是定制序列,或疾病或等位基因特异性序列。靶序列14可以是核酸样品中感兴趣的区域的一部分,并且靶物特异性杂交探针20可以基于各种度量设计为对感兴趣区域的一部分是特异性的。

如本文所提供,探针(例如靶物特异性杂交探针20)是寡核苷酸,如单链核酸分子。靶物特异性杂交探针20可以是靶物特异性杂交探针20的集或组的一部分。靶物特异性杂交探针20可以是80-120个碱基的长度、80-100个碱基的长度、90-110个碱基的长度、100-120个碱基的长度,等等。在某些实施方案中,若靶物特异性杂交探针20的长度为80-120个碱基,则靶物特异性杂交探针的至少30-50个碱基与靶序列14互补。应当理解,可以使用一组靶物特异性杂交探针20进行杂合捕捉测序反应,其中不同的探针代表核酸文库中的不同靶序列14。例如,该组靶物特异性杂交探针20可以代表至少2000个不同的靶序列14、至少5000个不同的靶序列14、至少10,000个不同的靶序列14,等等。此外,尽管关于杂合捕捉技术讨论了所公开的实施方案,但本文中提供的技术的并入也可以使用基于pcr或基于扩增子的测序技术来实施。在此类实施方案中,靶物特异性杂交探针20的长度可以是约20-40个碱基。

在某些实施方案中,靶物特异性杂交探针20可以具有有助于分开结合片段12与未结合片段12的修饰。此类修饰可以包括探针的生物素化以促进通过链霉亲合素(例如链霉亲合素珠粒)的选择。然而,应当理解,本文中提供的探针可以与作为结合对的一部分的其它亲和结合分子偶联。例如,生物素和链霉亲合素、生物素和亲合素,或洋地黄毒苷和结合洋地黄毒苷的特异性抗体是特异性结合对的实例。亲和结合分子可以是能够与核苷酸缀合的抗体配体。在某些实施方案中,在探针的5’或3’末端提供修饰。此外,在其它实施方案中,探针可以是未修饰的。靶物特异性杂交探针20还可以包含有助于鉴定的独特条形码或序列。此类序列可以是探针20中与靶序列14不互补的区域的一部分。靶物特异性杂交探针20可以处于溶液中或固定在固体支持物(例如阵列)上。

如图1所示,片段12b包括在脱靶结合的实例中与靶物特异性杂交探针20c结合的脱靶序列16。一旦与靶物特异性杂交探针20c结合,将脱靶片段12b与包含靶序列14的片段12一起与核酸文库10的剩余部分分开,并通过测序反应处理。因此,测序数据中包括来自片段12b的脱靶序列读段。尽管相对于脱靶序列16,探针20c对其靶序列14具有更高的特异性,但结合条件仍允许一些靶物特异性杂交探针20c与脱靶序列16结合。换言之,某些脱靶序列16可以与探针20c的靶序列14共享足够的相似性以允许发生结合。

如本文所提供,脱靶序列16的序列不是一个或多个靶物特异性杂交探针20的意图靶物。在一个实例中,若靶物特异性杂交探针20用于外显子组测序,则脱靶序列16可以是内含子或基因间序列。在某些实施方案中,靶物特异性杂交探针20能够以比针对意图靶序列更低的特异性结合脱靶序列16。

进行脱靶序列的检查以证明脱靶序列在样品之间相对稳定。图2显示了系统性脱靶区域的测序结果,所述系统性脱靶区域在不同样品和来自两种细胞系的6个样品的重复间高度可重复,如具有相似覆盖的(a)靶向区域和(b)脱靶区域处的读段分布的基因组浏览器视图中显示。每条迹线是一个样品。图2证明了脱靶结合倾向于稳定,并且脱靶的发生、分布和呈现是系统性的,而非随机的。

图3是显示脱靶读段的基因组分布的图。脱靶区域在不同重复间显示相似的覆盖。在研究的样品中,45%的脱靶序列位于内含子中,48%位于基因间区域,7%位于外显子。

脱靶区域和捕捉探针之间的序列相似性还指示脱靶读段可能被探针,而非通过随机结合拉下。图4-5显示的图证明靶探针和脱靶峰之间相似性。系统性脱靶区域与不同样品中显示的靶探针具有序列相似性。10kb下游区域与阴性对照进行相同的分析。每个点代表与脱靶峰(x轴)和其10kb下游区域(y轴)共享序列相似性的探针的数目。因此,数据显示了对于给定的一组靶物特异性杂交探针,脱靶序列可能是特异性的且在样品之间可重复。从测序数据中观察到存在具有显著高于一般背景且与实际靶物相当或甚至高于实际靶物的覆盖的脱靶区域。若按照对覆盖的贡献排序,则脱靶基因座的部分促成大多数脱靶读段。若可以在测序过程中减少这些区域的片段,则因此可以改善实际目标上的覆盖。为此目的,本技术包括对样品之间稳定和/或普遍的脱靶序列特异性的脱靶杂交探针。此外,在某些实施方案中,可以针对促成大多数脱靶读段的脱靶基因座设计脱靶杂交探针。

图6是如本文所提供的用于鉴定脱靶序列的方法30的流程图。使用一组靶物特异性杂交探针进行靶向测序(例如杂合捕捉测序)(步骤32),并且获取测序数据(步骤34)以鉴定杂合捕捉测序数据中的高频率脱靶读段的基因座(步骤36)。基于脱靶读段的基因座,设计脱靶杂交探针(步骤38)并提供与靶物特异性杂交探针一起使用(步骤40)。

如本文所提供,测序数据可以包括核酸文库的测序片段的原始数据以及碱基调用数据。此外,测序数据可以经过比对和组装,以便可以鉴定组装的片段的基因组基因座。因此,序列数据可以包括用于组装片段的序列信息和位置信息,使得脱靶数据至少部分基于测序片段的位置是可鉴定的。另外,测序数据可以包括脱靶序列读段的覆盖数据,使得可以评估脱靶普遍性以及位置。以此种方式,可以鉴定各种脱靶基因座的最高普遍性的序列读段(即最高覆盖)。在某些实施方案中,根据覆盖对脱靶读段进行排序以鉴定最高频率的脱靶基因座。可以基于最高的50、100、1000或2000个基因座来设计脱靶杂交探针。在一个实施方案中,设计基于用户规定数目的排序序列。

在一个实施方案中,可以作为用于生成一组靶物特异性杂交探针的工作流的一部分来进行方法30。基于对特定的一组靶物特异性杂交探针的要求,在参照样品上启动方法30以鉴定和评估脱靶序列。参照样品可以是已知为高质量样品的内部标准品。在另一个实施方案中,在收到对定制的一组靶物特异性杂交探针的客户请求后启动方法30。作为合成定制组的一部分,进行方法30以鉴定潜在的脱靶序列。因此,可以响应用户或客户输入进行方法30。

基于鉴定的脱靶序列,可以鉴定并合成一组脱靶杂交探针以作为测序试剂盒的一部分提供。脱靶杂交探针可以是任选的附加物,以改善测序产率并降低脱靶序列捕捉。在另一个实施方案中,方法30还可以包括基于脱靶测序读段的估计减少来生成参照样品的测序成本降低的估计。例如,若典型的杂合捕捉测序运行产生60%的靶读段和40%的脱靶读段,则测序成本的40%归因于脱靶序列。若将该组脱靶杂交探针设计为对应于代表参照测序数据中脱靶覆盖的约50%的脱靶序列,则脱靶杂交探针能够将脱靶读段减少50%。因此,相对于对照,可以估计使用脱靶杂交探针减少脱靶捕捉的测序运行将成本降低20%。以此种方式,用户可以测定脱靶杂交探针的成本是否会对测序产生足够的节省。方法30还可以允许基于可变用户输入的动态估计。例如,减少脱靶杂交探针的脱靶序列的总数将降低探针成本,但可以与脱靶序列捕捉的轻微增加相关,相对于选择较高数目的脱靶杂交探针的脱靶序列,导致估计的测序成本的相关上升。在另一个实施方案中,用户可以为给定样品提供总的测序预算,包括任何靶物和脱靶探针成本,并且若可以使用脱靶杂交探针实现成本节省,则可以做出测定。

如本文中所提供,相对于任何靶序列,脱靶杂交探针(例如,脱靶杂交探针60,参见图8-13)对脱靶序列(例如,脱靶序列16,参见图1)具有较高的特异性。脱靶杂交探针是寡核苷酸,如单链核酸分子。脱靶杂交探针可以是一组脱靶杂交探针的一部分。脱靶杂交探针可以是80-120个碱基的长度、80-100个碱基的长度、90-110个碱基的长度、100-120个碱基的长度,等等。在某些实施方案中,若脱靶杂交探针是80-120个碱基的长度,则脱靶杂交探针的至少30-50个碱基与脱靶序列互补。此外,尽管关于杂合捕捉技术讨论了所公开的实施方案,但本文提供的技术的并入也可以使用基于pcr或基于扩增子的测序技术来实施。在此类实施方案中,脱靶杂交探针20的长度可以是约20-40个碱基。在一个实施方案中,脱靶杂交探针可以与靶物特异性杂交探针是大致相同的长度。在另一个实施方案中,相对于靶物特异性杂交探针,脱靶杂交探针可以是不同的长度(例如,更短或更长)。

应当理解,可以使用一组靶物特异性杂交探针20以及(例如,平行或按顺序)脱靶杂交探针进行靶向测序反应,其中脱靶杂交探针代表核酸文库中不同的脱靶序列。例如,该组脱靶杂交探针可以代表至少50种不同的脱靶序列、至少100种不同的脱靶序列、至少10000种不同的脱靶序列,等等。在另一个实施方案中,一组靶序列代表比杂合捕捉测序中使用的探针的一组脱靶序列更多数目的不同序列,如本文中提供。例如,在某些实施方案中,靶物特异性杂交探针中不同靶序列的数目与脱靶杂交探针中不同脱靶序列的数目的比率可以是2:1、3:1、4:1、5:1或更大。由于制造供使用的额外探针的成本,提供有限数目的脱靶杂交探针具有某些优点。因此,可以使用脱靶序列普遍性的排序来允许用户选择期望的脱靶杂交探针的数目。此外,某些高度普遍的脱靶序列可以以下述的高程度存在于脱靶序列的总体合并物中,使得具有有限数目的对高度普遍的脱靶物特异性的脱靶杂交探针可以仍然产生脱靶序列捕捉中的高度降低。

在某些实施方案中,脱靶杂交探针可以具有促进分开结合片段与未结合片段的修饰。此类修饰可以包括探针的生物素化以促进通过链霉亲合素(例如链霉亲合素珠粒)的选择。然而,应当理解,如本文中提供的探针可以与作为结合对的一部分的其它亲和结合分子偶联。例如,生物素和链霉亲合素,生物素和亲合素,或洋地黄毒苷和结合洋地黄毒苷的特异性抗体是特异性结合对的实例。在某些实施方案中,在探针的5’或3’末端提供修饰。此外,在其它实施方案中,探针可以是未修饰的。

脱靶杂交探针还可以包含有助于鉴定的独特条形码或序列。此类序列可以是与脱靶序列不互补的探针区域的一部分。脱靶杂交探针可以在溶液中或固定在固体支持物(例如阵列)上。在另一个实施方案中,靶物特异性杂交探针和脱靶杂交探针以类似长度的探针提供,即全部在一定范围内。因此,在一个具体实施方案中,靶物特异性杂交探针和脱靶杂交探针的长度都在80-120个碱基范围内。在另一个实施方案中,靶物特异性杂交探针和脱靶杂交探针的长度都在20-40个碱基范围内。在又一个实施方案中,靶物特异性杂交探针具有全部在第一范围内的长度,并且脱靶杂交探针具有全部在第二范围内的长度,由此第一范围和第二范围不同。在一个实施方案中,第一范围包含比第二范围长的探针长度。在另一个实施方案中,第一范围包括比第二范围短的探针长度。

在本公开的某些实施方案中,提供脱靶杂交探针包括提供脱靶杂交探针作为测序试剂盒的一部分,用于与靶物特异性杂交探针一起使用。脱靶杂交探针可以仅对某些类型的脱靶序列(例如,内含子、基因间区域)是特异性的。以此种方式,用户可以选择感兴趣的脱靶序列。在另一个实施方案中,提供脱靶杂交探针包括提供脱靶杂交探针作为定制靶物特异性杂交探针组的请求或订购的一部分。当接受针对定制组的请求时,合成设施还可以进行方法30的步骤以测定定制组的关注的脱靶序列(例如,高度普遍的脱靶序列),并提供脱靶杂交探针以减少来自这些鉴定的脱靶序列的脱靶读段。

在另一个实施方案中,可以提供通用的一组脱靶杂交探针。也就是说,不管所使用的特定组的靶物特异性杂交探针如何,某些脱靶读段在物种间可以是共同的。在一个实施方案中,可以使用物种特异性的一组脱靶杂交探针来使样品脱宿主(de-host),诸如在微生物学、传染病、食品安全性和质量监测中。可以使用如本文提供的数据引导技术来测定通用组和/或物种特异性组。例如,可以通过使用不同组的靶物特异性杂交探针(例如,使用多个人特异性组或使用多个癌症特异性组)对参照样品进行测序,并从来自所有不同组的测序数据中选择顶部排序(即最普遍的)脱靶序列以设计脱靶杂交探针来选择通用组或物种特异性组。在一个实施方案中,顶部排序的组可以仅包括在使用不同组测序的样品之间共同的脱靶序列。在另一个实施方案中,顶部排序的组可以代表使用不同组的测序数据中所有脱靶序列的合并物,使得合并物中的一些序列仅是针对给定组的脱靶物。然而,顶部排序的组将包括在每个样品的测序数据中呈现的许多脱靶读段,使得通用组在与任何组结合使用时将减少脱靶捕捉。

本文中还提供了使用脱靶杂交探针实施靶向测序的方法,如本文中提供。图7是减少靶向测序反应中的脱靶捕捉的方法50。可以根据期望的技术制备核酸文库(步骤52)以促进合适大小的片段形成。一旦制备,文库在允许探针结合的条件下以顺序或平行方式与脱靶杂交探针和靶物特异性杂交探针(步骤54)接触。例如,可以将双链片段变性以产生单链片段。选择与靶物特异性杂交探针结合的片段用于测序(步骤56),例如,通过图8-10中公开的技术。在一个实施方案中,通过将与靶物特异性杂交探针结合的片段与结合脱靶杂交探针的片段以及与未与任何探针结合的片段分开来完成选择。在另一个实施方案中,通过首先除去与脱靶杂交探针结合的片段,然后除去未与任何探针结合的片段来完成选择。一旦选择,对与靶物特异性杂交探针结合的片段测序(步骤58)以产生相对于对照具有脱靶序列读段减少的测序数据。例如,样品的对照仅与靶物特异性杂交探针接触而不与脱靶杂交探针接触。

图8是使用竞争性封闭进行的方法50的实施方案的示意图。在所示的实施方案中,将脱靶杂交探针60以5’未修饰(无生物素)合成,并且与具有生物素化的末端62的靶物特异性杂交探针20一起(即同时或在同一溶液中)在杂交反应中使用。未修饰的脱靶杂交探针60与靶物特异性杂交探针20竞争与脱靶基因座的结合。这继而使得脱靶基因座不易接近或不太接近靶物特异性杂交探针20。可以使用链霉亲合素完成与片段12结合的靶物特异性杂交探针20的分离,所述链霉亲合素结合生物素化末端62而不结合脱靶杂交探针60。与片段12结合的分离的靶物特异性杂交探针20的所得组富集靶序列14并且相对于不使用脱靶杂交探针60的对照组具有脱靶序列16的减少。

图9是使用预封闭进行的方法50的实施方案的示意图。在所示的实施方案中,首先使未修饰的脱靶杂交探针60与文库接触以预封闭相应的脱靶序列16。在发生了预封闭后,即仅在结合脱靶杂交探针60后,使靶物特异性杂交探针20与文库接触。脱靶杂交探针60合成为5’未修饰(无生物素),而靶物特异性杂交探针20具有生物素化末端62。可以使用链霉亲合素实现与片段12结合的靶物特异性杂交探针20的分离,所述链霉亲合素结合生物素化的末端62而不结合脱靶杂交探针60。与片段12结合的分离的靶物特异性杂交探针20的所得组富集靶序列14并且相对于不使用脱靶杂交探针60的对照组具有脱靶16序列的减少。

图10是使用预清除的方法50的实施方案的示意图。在所示的实施方案中,首先使显示具有生物素化末端68的经修饰的脱靶杂交探针60与文库接触并允许与相应的脱靶序列16结合。使用链霉亲合素珠粒拉下与包含脱靶序列16的片段结合的脱靶杂交探针60以预澄清,即在反应中拉出不想要的脱靶基因座。保留预澄清(pre-clearedsupernatant)的上清液用于随后与具有生物素化末端62的经修饰的靶物特异性杂交探针20进行杂合捕捉反应。将与靶物特异性杂交探针20结合的剩余的靶序列14与任何未结合的片段分开,并且然后测序。与片段12结合的预澄清且分离的靶物特异性杂交探针20的所得组富集了靶序列14,并且相对于不使用脱靶杂交探针60的对照组具有脱靶16序列的减少。

应当理解,如本文提供的靶物特异性杂交探针20和脱靶杂交探针60可以与用于杂合捕捉的封闭剂或其它方法结合使用以减少探针自退火、粘性探针、或非特异性结合。图11-12显示了可以与脱靶杂交探针60和本文公开的实施方案平行或顺序组合以获得改善的结果的方法的实例。这些实例仅仅是示例性的,并不意图为限制性的。图11显示了防止衔接头72自退火的反义衔接头封闭剂70的实例。图12显示了一种或多个探针衰减剂76的实例,所述探针衰减剂是针对“超”或粘性靶序列14的靶物特异性杂交探针20反义的。

在一个实施方案中,脱靶杂交探针对高度富集的脱靶区域是特异性的,以提供最普遍的脱靶读段的减少。在脱靶序列具有与实际靶物区域高度相似的序列的情况下,使用对该高度相似序列特异的脱靶杂交探针可以引起具有相似序列的靶区域的非有意覆盖降低。为了防止这种情况发生,在一个实施方案中,可以根据一个或多个相似性度量(例如,damerau-levenshtein距离、needleman-wunsch算法、blast评分)仅从与靶序列具有小于阈值的相似性的脱靶区域中选择脱靶杂交探针。在一个实施方案中,使用阈值百分比同一性或同一性得分来限制脱靶杂交探针,仅与靶序列具有小于预先确定百分比同一性(例如小于50%,小于25%)的脱靶序列合适。例如,在一个实施方案中,仅不含与靶序列的15个或更多个连续碱基的匹配的脱靶序列适合于脱靶杂交探针设计。那些具有与靶序列共同的15个或更多个连续碱基的脱靶序列不用作任何脱靶杂交探针的基础,即使此类脱靶序列是高度普遍的。在另一个实例中,因为脱靶序列的基因座是已知的,所以脱靶杂交探针特异性针对的序列可以远离高度相似的区域在5’或3’偏移,例如5’或3’移动20-50个碱基,使得靶向区域具有较低的相似性得分。

如图13所示,以顺序或平行方式使如本文所提供的杂合捕捉测序中使用的核酸文库与靶物特异性杂交探针20和脱靶杂交探针60接触。接触产生包含与靶物特异性杂交探针20结合的靶序列14的片段12的靶组80、包括与脱靶杂交探针60结合的脱靶序列的片段12的脱靶组82、和未与任何探针结合的片段12的未结合组84。未结合组84包括未设计靶物特异性杂交探针20或脱靶杂交探针60的序列。可以通过本文公开的技术来选择用于测序的靶组80而非脱靶组82和/或未结合组84。例如,可以通过与偶联至珠粒或支持物的亲合素或链霉亲和素结合来选择包含生物素修饰的靶物特异性杂交探针20。在未修饰脱靶杂交探针60的情况下,可以通过清洗除去脱靶组和未结合组84。

在另一个实施方案中,可以期望保留脱靶组82以评估探针质量。可以使用预澄清技术(参见图10)拉出与脱靶杂交探针60结合的片段12(即脱靶组82)。可以对脱靶组82中的这些片段12测序,并且评估任何靶序列14的存在。然后可以评估存在于脱靶组82中的任何靶序列与一个或多个脱靶杂交探针的相似性,所述脱靶杂交探针继而可以从所述组中除去或再设计。

在一个实例中,为了找到一致性脱靶区域,选择一组代表性的样品,例如,以良好质量测序的一组不同细胞系/组织的样品。首先,从测序数据中过滤中靶读段,然后使用用于encode项目的峰值调用工具gem调用高度富集脱靶读段的区域。然而,也可以使用其它峰值调用算法。然后提取来自不同样品的重叠峰,并合并50bp内的峰,并且仅保持距靶物400bp以上的那些峰。根据平均覆盖分选先前鉴定的脱靶峰值。根据排序,选择那些具有显著较高覆盖的峰设计减速剂(reducersagainst)。脱靶杂交探针设计为对脱靶区域是特异的,所述脱靶区域占总脱靶读段的约50%。利用designstudio(illuminainc.)设计脱靶杂交探针,其代表约2000个脱靶序列。

使用如本文所概述的脱靶探针设计,图14-16显示的图证明了在预澄清后在脱靶峰上的显著覆盖下降。每个点表示对照(x轴)和来自预澄清方案(y轴)的相同样品中的脱靶峰的读段覆盖。图14中的框100突出显示了相对于预澄清方案在对照的读段覆盖中的显著差异。

图17-19显示的图证明中靶区域上覆盖增加和下降。每个点代表对照(x轴)和具有预清洁的相同样品(y轴)的中靶区域的读段覆盖。区域104突出显示覆盖增加,而框102对覆盖下降加下划线,如图17所示。

本文提供的技术通过使用来自在脱靶区域上的数据分析的引导信息来解决高脱靶捕捉率的问题。为解决此问题的先前尝试已经利用cot1、trna、聚(di-dc)、衔接头封闭剂和用于高呈现基因的封闭剂(例如抗线粒体基因封闭剂)。与那些方法形成对比,本文呈现的方法代表第一种数据驱动的方法。此外,在靶物特异性结合之前使用脱靶杂交探针从样品文库中清除或除去不想要的dna片段是一种新方法。此外,根据传统观点,可以不必鉴定样品以及杂交探针的不同集或组之间稳定的鉴定的系统脱靶区域。例如,它们可以不必是可鉴定的重复元件,如alu、sine、line等。在一些实施方案中,本文所述的方法可以应用于其它基因组以开发物种特异性脱靶杂交探针,用于宏基因组(metagenomic)应用或样品制备中的污染消除。

本文公开的技术可以结合测序装置和/或序列分析装置来实施。图20是可用于例如获取和评估脱靶读段的测序装置120的示意图,所述脱靶读段继而可以用于设计脱靶杂交探针。在另一个实例中,测序装置120可用于在使用脱靶杂交探针后获取和评估测序数据。相对于未与脱靶杂交探针接触的对照,获得的测序数据将具有减少的脱靶读段。测序装置120可以根据任何测序技术来实施,例如那些并入美国专利公开nos.2007/0166705;2006/0188901;2006/0240439;2006/0281109;2005/0100900;美国专利no.7,057,026;wo05/065814;wo06/064199;wo07/010,251中描述的合成测序(sequencing-by-synthesis)方法的技术,其公开内容通过引用整体并入本文。或者,可以在测序装置120中使用连接测序(sequencingbyligation)技术。此类技术使用dna连接酶来掺入寡核苷酸并鉴定此类寡核苷酸的掺入并且记载于于美国专利no.6,969,488;美国专利no.6,172,218;以及美国专利no.6,306,597;其公开内容通过引用整体并入本文。一些实施方案可以利用纳米孔测序,其中靶核酸链或从靶核酸以外切核水解方式除去的核苷酸通过纳米孔。当靶核酸或核苷酸通过纳米孔时,可以通过测量孔的电导率波动来鉴定每种类型的碱基(美国专利no.7,001,792;soni&meller,clin.chem.53,1996–2001(2007);healy,nanomed.2,459–481(2007);以及cockroft,etal.j.am.chem.soc.130,818–820(2008),其公开内容通过引用整体并入本文)。其它实施方案包括检测在将核苷酸掺入延伸产物中时释放的质子。例如,基于释放质子的检测的测序可以使用可购自iontorrent(guilford,ct,alifetechnologiessubsidiary)的电检测器和相关技术或us2009/0026082a1;us2009/0127589a1;us2010/0137143a1;或us2010/0282617a1(其公开内容通过引用整体并入本文)中描述的测序方法和系统。具体实施方案可以利用涉及dna聚合酶活性的实时监测的方法。可以通过带有荧光团的聚合酶和γ-磷酸盐标记的核苷酸之间的荧光共振能量转移(fret)相互作用或用零模式波导来检测核苷酸掺入,如记载于例如leveneetal.science299,682–686(2003);lundquistetal.opt.lett.33,1026–1028(2008);korlachetal.proc.natl.acad.sci.usa105,1176–1181(2008),其公开内容通过引用整体并入本文。其它合适的备选技术包括例如荧光原位测序(fisseq)和大规模并行签名测序(massivelyparallelsignaturesequencing,mpss)。在具体的实施方案中,测序装置120可以是来自illumina(lajolla,ca)的hiseq、miseq或hiscansq。

在描述的实施方案中,测序装置120包括分开的样品处理装置122和相关联的序列分析装置124。此外,涵盖的是,序列分析装置124可以以单独形式,而不与样品处理装置122相关联实施。因此,在此类实施方案中,序列分析设备124从远程样品处理装置122接收数据。然而,这些可以作为单一装置实施。此外,相关联的序列分析装置124可以位于样品处理装置122本地或与样品处理装置122联网。在描述的实施方案中,可以将生物样品作为样品载玻片126加载入样品处理装置122中,所述样品载玻片126经成像以产生序列数据。例如,与生物样品相互作用的试剂响应由成像模块128产生的激发束在特定波长处发荧光,由此返回用于成像的放射。例如,可以通过与组分的互补分子杂交的荧光标记的核酸或使用聚合酶掺入寡核苷酸中的荧光标记的核苷酸产生荧光组分。如本领域技术人员将理解,样品的染料被激发的波长以及它们发出荧光的波长将取决于特定染料的吸收和发射光谱。此类返回的放射可以通过导向光学器件传播回来。此反射束(retrobeam)通常可以指向成像模块128的检测光学器件。

成像模块检测光学器件可以基于任何合适的技术,并且可以是例如基于撞击器件中的位置的光子产生像素化图像数据的电荷耦合器件(ccd)传感器。然而,将理解的是,还可以使用多种其它检测器中的任何一种,包括但不限于配置用于时间延迟积分(tdi)操作的检测器阵列、互补金属氧化物半导体(cmos)检测器、雪崩光电二极管(apd)检测器、盖革模式光子计数器或任何其它合适的检测器。tdi模式检测可以与行扫描相结合,如美国专利no.7,329,860中所描述,其通过引用并入本文。其它有用的检测器记载于例如本文先前在各种核酸测序方法的背景下提供的参照文献中。

成像模块128可以例如经由处理器130处于处理器控制下,并且样品制备装置122还可以包括i/o控制132、内部总线134、非易失性存储器136、ram138和使得存储器能够存储可执行指令的任何其它存储器结构,以及可以与就图2而言所描述的那些组件类似的其它合适的硬件组件。此外,相关联的序列分析装置124还可以包括处理器140、i/o控制器144、通信模块152和存储器架构,包括ram146和非易失性存储器148,使得存储器架构能够存储可执行指令150。硬件组件可以通过内部总线153连接,所述内部总线153也可以连接到显示器154。在测序装置122作为一体化装置实现的实施方案中,可以消除某些冗余硬件元件。

测序装置120可以用于请求靶物特异性杂交探针。此外,测序装置120可以用于提供用于脱靶杂交探针制备的用户输入。用户可以提供规定期望数目的待制备的最高排序序列作为脱靶杂交探针组的输入。或者/另外,这些选择可以基于期望的脱靶减少百分比。

在整个申请中已经引用了各种出版物、专利和/或专利申请。这些出版物的全部公开内容在此通过引用并入本申请。术语“包括”在本文中意图是开放式的,不仅包括所列举的要素,而且还涵盖任何附加要素。尽管本文仅仅阐述和描述了本发明的某些特征,但是本领域技术人员将会想到许多修改和变化。因此,应当理解的是覆盖落入本发明真实精神内的所有这些修改和变化。此外,可以组合或交换所公开的实施方案的要素。因此,其它实施方案在所附权利要求书的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1