使用专门捕获探针(heatseq)的序列捕获方法

文档序号:10617466阅读:854来源:国知局
使用专门捕获探针(heatseq)的序列捕获方法
【专利摘要】本发明是用于大量平行生产改进的MIP的新方法。对MIP的分子改进涵盖探针的制备、工作流、意味着样品特异性的独特序列元件的添加、和独特地鉴别存在于最初样品群体中的特定分子的序列标签。最后,本发明还与克服了基因座呈现和等位基因偏差二者的问题的经验优化策略组合。该改进的技术是可缩放的,且可以用于将包含单个基因座的扩增子的靶标扩大至靶向超过100万基因座。
【专利说明】使用专门捕获探针(HEATSEQ)的序列捕获方法
【背景技术】
[0001] 本发明涉及用于捕获基因组或复杂DNA样品的目标区域以实现在所述目标区域内 发现的遗传多态性的有效测试和/或检测的方法的领域。有效地捕获基因组的目标区域的 方法可以实现与疾病或其它性状有关的遗传多态性或其它特性的快速的测序介导的发现 和检测。目前,利用双链连接物连接的测序文库作为靶标捕获的输入的基于杂交的技术是 耗时的和资源集中的。传统的实现靶标捕获的基于分子倒置探针(MIP)的方法可以缩减测 序之前的工作流时间,但是由于基因座扩增/呈现偏差、等位基因偏差和与特定测序平台关 联的系统伪像(systematic art if act)而受到限制。
[0002] 发明概述 本发明是用于大量平行生产改进的MIP的新方案。对MIP的分子改进涵盖探针的制备、 工作流、意味着样品特异性的独特序列元件的添加、和独特地鉴别存在于最初样品群体中 的特定分子的序列标签。最后,本发明还与克服了基因座呈现和等位基因偏差二者的问题 的经验优化策略组合。该改进的技术是可缩放的,且可以用于将包含单个基因座的扩增子 的靶标扩大至靶向超过100万基因座。
【附图说明】
[0003] 通过结合附图参考本公开内容的实施方案的以下描述,本公开内容的特征和实现 它们的方式将变得更明显,并且将更好地理解公开内容本身。
[0004] 图1的示意图描述了 MIP前体、扩增的MIP前体和扩增产物的限制酶切消化。
[0005] 图2是酶消化产物的琼脂糖凝胶纯化。
[0006] 图3描绘了与基因组DNA的目标链杂交的70-merMIP探针和所述MIP探针的延伸/连 接。
[0007] 图4是延伸/连接(即,具有"捕获的"产物)以后MIP探针的凝胶纯化。
[0008] 图5的图显示了具有20-mer靶区域的探针的熔点范围和具有可变长度靶区域的探 针的恪点范围(平衡过Tm的)。
[0009] 图6的图显示了固定长度探针(插图)和平衡过Tm的可变长度探针(主图)的序列覆 盖。
[0010] 图7的示意图描述了具有UID的MIP前体、所述MIP前体的扩增、扩增产物的切割和 在序列捕获过程中使用的封闭寡核苷酸。
[0011] 图8描绘了具有UID序列的MIP探针与DNA靶标的杂交和MIP探针的环化。
[0012] 图9显示了延伸/连接以后MIP探针的凝胶纯化。
[0013] 图10描绘了UID序列的用途。
[0014]图11的示意图描绘了 MIP探针的合成。
[0015]图12 (12A和12B)是使用MIP探针的工作流的描绘。
[0016]图13描绘了样品索引(MID)用于鉴别样品来源的用途。
[0017]图14描绘了 UID序列用于事件计数的用途。
[0018]图15显示了来自一个探针的UID标签的分布。
[0019]图16证实了探针重新平衡的结果。
[0020] 尽管附图代表本公开内容的实施方案,但是附图不一定按比例绘制,并且可以放 大某些特征以便更好地图解和解释本公开内容。本文中阐述的例证以一种形式说明了本公 开内容的一个示例性实施方案,并且这样的例证不应解释为以任何方式限制本公开内容的 范围。
[0021] 发明详述 传统上,分子倒置探针(MIP)是在它们的末端处或附近具有与单链靶核苷酸序列的两 个单独部分特异性地互补的区域的单链核酸探针。所述探针"倒置",因为它们基本上呈现 圆形构型,使得末端靶标特异性的部分与靶序列适当地对齐且互补,或相反,所述靶标"倒 置"以便允许靶区域和靶标特异性的部分之间的相同相互作用。本发明提供了通过提供有 用序列用于分析数据而对MIP的改进、用于制备这样的MIP的改进的合成方法、和用于优化 MIP探针库的有用方法。
[0022] 本发明包括用于减小核酸样品的复杂性的核酸捕获探针集合,其中所述集合中的 每个探针含有:第一末端序列,其与存在于复杂样品中的第一靶序列特异性地杂交;第二末 端序列,其与存在于复杂样品中的第二靶序列特异性地杂交,其中所述第一靶序列和第二 靶序列都位于相同靶链上;和连接所述第一末端序列和所述第二末端序列的接头序列,所 述接头序列含有唯一标识符(Unique Identifier (UID))序列,其中所述UID是随机地产生 的标签序列,其在探针形成过程中通过随机核苷酸合成针对探针集合中的每个单个探针产 生。
[0023]本发明包括MIP探针,其具有改进的用于确定等位基因偏差、基因座扩增/呈现偏 差和与特定测序平台关联的系统伪像的特征。此外,本发明还包括使用阵列作为制备MIP探 针的模板来制备这样的改进的MIP探针的某些方法。在一些实施方案中,使用阵列作为MIP 探针的模板来制备MIP探针。在某些实施方案中,本发明包括用无掩膜阵列合成(Maskless Array Synthesis (MAS))制备MIP探针(参见Singh-Gasson等人,Nature Biotechnology, 17: 974-978,1999,在此通过引用并入)。
[0024]在一些实施方案中,使用用于优化探针设计的方法设计MIP探针。在某些实施方案 中,使用探针再分布来设计探针库。通过在合成过程中增加或降低特定探针的相对浓度(通 过在阵列表面上合成相同探针的多个副本)来执行探针再分布。在一些实施方案中,使用探 针长度优化来设计探针库中的探针。在一些实施方案中,使用探针动力学优化来设计探针, 例如使用Tm (熔化温度)来确定最佳探针设计。
[0025]在一些实施方案中,所述MIP探针含有分子ID标签(MID)。这样的MID基本上是用于 鉴别捕获核酸来源的样品的目的的"条形码"核酸序列。因而,所述MID序列允许通过样品特 异性的标识符来鉴别原始样品,其中来自特定样品的每个捕获序列共有一个共同的条形码 序列。可以以许多不同的方式将MID序列加给样品,所述方式包括与含有MID序列的衔接子 序列连接,或通过使用含有MID序列的引物扩增。
[0026]在某些实施方案中,所述MID条形码不存在于MIP探针中,直到所述引物使用含有 引物位点和含有MID条形码的单独位点复制和延伸探针之后。在一些实施方案中,没有添加 所述MID条形码,直到所述MIP探针已经与靶序列接触以后。当MIP探针(没有MID条形码)接 触它的靶序列且特异性地杂交时,发生该实施方案的一个例子。通过延伸和连接,使所述 MIP探针环化(circularized),然后使用具有另外MID条形码序列的引物复制/扩增环化的 MIP探针。
[0027] 本发明包括用于降低核酸样品的复杂性的核酸捕获探针集合,其中所述集合中的 每个探针。所述探针包含:第一末端序列,其与存在于复杂样品中的第一靶序列特异性地杂 交,和第二末端序列,其与存在于复杂样品中的第二靶序列特异性地杂交。在该实施方案 中,所述第一靶序列和第二靶序列都位于相同靶链上。所述探针还具有连接所述第一末端 序列和所述第二末端序列的接头序列,所述接头序列包含唯一标识符(UID)序列。所述UID 是随机地产生的标签序列,其在探针形成过程中通过化学衍生的随机核苷酸合成针对探针 集合中的每个单个探针产生。
[0028] 在某些实施方案中,所述探针进一步包含MID条形码,其中为特定核酸样品使用的 探针都含有相同的MID条形码序列。以此方式,可以追踪得自特定样品的所有结果。
[0029]本发明的某些实施方案也涉及包括以下的方法:a)在阵列上合成MIP前体,其中所 述前体包含一个或多个引物、一个或多个限制位点以及在MIP前体的一个末端附近的第一 末端靶序列和在相对末端附近的第二末端靶序列;b)在溶液中扩增MIP前体;c)收集所述溶 液;和d)使用一种或多种限制性酶消化扩增的前体以形成MIP探针。在某些实施方案中,所 述MIP前体进一步包含唯一标识符(UID)序列。
[0030] 本发明的某些实施方案也涉及这样的方法,其中改变第一末端靶序列和/或第二 末端靶序列的长度,以便紧密地接近或匹配两个靶序列的熔化温度。熔点温度的这种匹配 会增加 MIP探针库的序列覆盖。
[0031] 在一个实施方案中,在有封闭寡核苷酸存在下执行所述杂交步骤,所述封闭寡核 苷酸被设计成阻止MIP探针与MIP前体或其扩增产物的元件重新杂交。
[0032]将使用切口酶(或其它对于该过程有用的酶,诸如可以建立链断裂的酶,例如, UDG/UNG)从MIP前体产生的MIP探针用于由区域X和Y限定的区域的靶向捕获。MIP是带切口 的,但是是双链的,使得当在杂交步骤中变性时,将从双链MIP释放有活性的单链MIP。为了 阻止该单链有活性的MIP与它的补体重新杂交从而形成原始双链MIP,加入30-mer封闭寡物 (300-24-1)。由于以较高摩尔过量加入,该寡物(300-24-1)将优先杂交双链MIP盒,从而阻 止以前释放的有活性的单链MIP形成双链体。所述有活性的单链MIP现在可用于后续延伸+ 连接反应中的靶向捕获,所述反应将产生环状MIP。
[0033] 本发明还包括这样的实施方案,其中如下使用MIP探针来鉴别靶序列的某些部分: a)使MIP探针与核酸样品杂交;b)用聚合酶环化MIP探针,使得所述核酸样品的一部分被复 制并掺入环化的MIP探针中;c)使用核酸外切酶基本上消化直链核酸;和d)确定所述MIP探 针的序列。测序后,可以将UID序列(如果用在特定实施方案中)用于确定任何UID序列是否 相对于预期的结果过表达或低表达。
[0034] 在本发明的方法的一个实施方案中,使用无掩膜阵列合成进行阵列合成。MAS具有 是核酸合成的经济的且高度灵活的平台的优点,且因此MAS的应用可以比其它合成方法更 有利。
[0035] 在本发明的某些实施方案中,探针选择可能仅需要一个探针进行单个外显子的覆 盖,例如,在靶向的外显子较小(通常小于150碱基对)的情况下。在其它实施方案中,探针选 择将需要多个探针来覆盖较大靶标,诸如较大外显子,并且将使用测序步骤来确定靶向的 重叠序列和组装所述靶序列。在一些实施方案中,靶向大区域和小区域二者,因而需要两个 方法的混合物。
[0036] 在本发明公开内容中,某些术语具有在以下段落中描述的含义。
[0037] 术语" 一个"、"一种"和"所述"通常包括复数指示物,除非上下文另外清楚地指出。
[0038] 术语"扩增"通常表示从靶核酸生产多个核酸分子,其中引物与靶核酸分子上的特 定位点杂交,从而提供通过聚合酶延伸的起始位点。可以通过本领域普遍已知的任意方法 进行扩增,所述方法例如但不限于:标准PCR、长PCR、热启动PCR、qPCR、RT_PCR和等温扩增。 本文中使用的术语"扩增"通常表示从靶核酸生产多个核酸分子,其中至少一个引物与靶核 酸分子上的特定位点杂交,从而提供通过聚合酶延伸的起始位点。可以通过本领域普遍已 知的任意方法进行扩增,所述方法例如但不限于:标准PCR、长PCR、热启动PCR、qPCR、RT-PCR 和等温扩增。其它扩增反应尤其包括连接酶链式反应、聚合酶连接酶链式反应、Gap-LCR、修 复链式反应、3SR、NASBA、链置换扩增(SDA)、转录介导的扩增(TMA)和Qb-扩增。
[0039] 术语"互补"通常表示在适当的温度和离子缓冲液条件下,在两个核苷酸的碱基之 间形成有利的热力学稳定性和特异性配对的能力。该配对依赖于每个核苷酸的氢键合性 能。这方面的最基本的例子是胸腺嘧啶/腺嘌呤和胞嘧啶/鸟嘌呤碱基之间的氢键对。在本 发明中,用于扩增靶核酸的引物可以在它们的整个长度上与靶核酸分子完全互补,或是"半 互补的",其中所述引物含有最低限度地能够或不能与靶核酸杂交的额外非互补序列。
[0040] 本文中使用的术语"检测"涉及一种定性测试,其目的在于评估靶核酸在样品中的 存在或不存在。
[0041] 本文中使用的术语"富集"涉及处理包含靶核酸的样品的任何方法,其允许将靶核 酸与存在于样品中的其它材料的至少一部分分离。因而,"富集"可以理解为与其它材料相 比更高量的靶核酸的生产。
[0042] 术语"过量"通常表示与另一种试剂相比,量或浓度更大的某一种或多种试剂。
[0043] 术语"杂交"通常表示与它们的核苷酸序列一致的不同核酸分子之间的碱基配对。 术语"杂交"和"退火"可以互换使用。
[0044] 术语"核酸"或"多核苷酸"可以互换使用,且表示可以与核糖核酸(RNA)或脱氧核 糖核酸(DNA)聚合物对应的聚合物,或其类似物。这包括核苷酸(诸如RNA和DNA)的聚合物, 以及它们的合成形式、修饰(例如,化学修饰或生化修饰)形式,和混合的聚合物(例如,包括 RNA和DNA亚基两者)。示例性修饰包括甲基化、用类似物置换一个或多个天然存在的核苷 酸、核苷酸间修饰诸如不带电荷的键(例如,膦酸甲酯、磷酸三酯、氨基磷酸酯 (口1108口11031]11(^丨6)、氨基甲酸酯等)、单键延伸的部分(例如,多肽)、嵌入剂(例如,吖啶、补 骨脂素等)、螯合剂、烷基化剂和经修饰的键(例如,α端基异构的核酸等)。也包括合成的分 子,其在它们的通过氢键合和其它化学相互作用结合指定序列的能力方面模仿多核苷酸。 通常,经由磷酸二酯键连接核苷酸单体,尽管合成形式的核酸可以包含其它键(例如,如在 Nielsen等人(Science 254:1497-1500,1991)中所述的肽核酸)。核酸可以是或可以包括, 例如,染色体或染色体段、载体(例如,表达载体)、表达盒、裸露DNA或RNA聚合物、聚合酶链 式反应(PCR)的产物、寡核苷酸、探针和引物。核酸可以是,例如,单链的、双链的、或三链的, 且不限于任何特定长度。除非另有说明,除了明确地指出的任何序列以外,特定核酸序列包 含或编码互补序列。
[0045] 除了表示天然存在的核糖核苷酸或脱氧核糖核苷酸单体以外,术语"核苷酸"在本 文中应当理解为表示其有关的结构变体,包括衍生物和类似物,它们就在其中使用所述核 苷酸(例如,与互补碱基杂交)的特定背景而言在功能上等同,除非上下文另外清楚地指出。
[0046] 术语"寡核苷酸"表示包括至少两个核酸单体单元(例如,核苷酸)的核酸。寡核苷 酸通常包括约6至约175个核酸单体单元,更通常地约8至约100个核酸单体单元,且还更通 常地约10至约50个核酸单体单元(例如,约15个、约20个、约25个、约30个、约35个或更多个 核酸单体单元)。寡核苷酸的确切大小取决于许多因素,包括寡核苷酸的最终功能或用途。 任选地通过任意合适的方法制备寡核苷酸,所述方法包括、但不限于,现有或天然序列的分 离、DNA复制或扩增、倒置录、适当序列的克隆和限制酶切消化、或通过以下方法的直接化学 合成:诸如Narang等人的磷酸三酯方法(Meth. Enzymol. 68:90-99,1979) ;Brown等人的 磷酸二酯方法(Meth. Enzymol. 68:109-151,1979) ;Beaucage等人的二乙基氨基亚磷酸 酯方法(Tetrahedron Lett. 22:1859-1862,1981) ;Matteucci等人的三酯方法(J. Am. Chem. Soc. 103:3185-3191,1981);自动化合成方法;在Singh-Gasson等人,Nature Biotechnology, 17: 974-978,1999中公开的无掩膜阵列合成,或美国专利号4,458,066 的固体支持方法,或本领域技术人员已知的其它方法。
[0047] 术语"引物"表示这样的多核苷酸:当置于在其中起始多核苷酸延伸的条件下(例 如,在包括存在于适当缓冲液中的必要核苷三磷酸(由要拷贝的模板决定)和聚合酶和在合 适温度或温度循环(例如,在聚合酶链式反应中)的条件下)时,其能够充当模板指导的核酸 合成的起始点。为了进一步解释,引物还可以用在多种其它的寡核苷酸介导的合成方法中, 包括作为从头RNA合成和体外转录相关的过程(例如,基于核酸序列的扩增(NASBA)、转录介 导的扩增(TMA)等)的引发剂。引物通常是单链寡核苷酸(例如,寡脱氧核糖核苷酸)。引物的 适当长度取决于引物的预期用途,但是通常在6-40个核苷酸范围内,更通常地在15-35个核 苷酸范围内。短引物分子通常需要更冷的温度以与模板形成充分稳定的杂交复合物。引物 不需要反映模板的确切序列,但是必须充分互补以与模板杂交从而发生引物延伸。在某些 实施方案中,术语"引物对"是指引物的集合,其包括与要扩增的核酸序列的5'末端的补体 杂交的5'同义引物(有时称作"正向")和与要扩增的序列的3'末端杂交的3'反义引物 (有时称作"反向(例如,如果靶序列被表达为RNA或是RNA)。如果需要的话,通过掺入可 通过光谱方式、光化学方式、生化方式、免疫化学方式或化学方式检测的标记,可以标记引 物。例如,有用的标记包括32P、荧光染料、电子密度试剂、酶(如在ELI SA测定中常用的)、生 物素或可得到其抗血清或单克隆抗体的半抗原和蛋白。
[0048] 在本发明意义上,核酸的"纯化"、"分离"或"提取"涉及以下:在可以例如通过扩增 在诊断测定中分析核酸之前,所述核酸通常必须从含有不同组分的复杂混合物的生物样品 中纯化、分离或提取。对于第一步,可以使用允许富集核酸的方法。本文描述了这样的富集 方法。
[0049] 本文中使用的术语"定量"涉及存在于样品中的靶核酸的量或浓度的确定。
[0050] "靶核酸"在本文中用于表示要分析的样品中的核酸,即要确定所述核酸在样品中 的存在、不存在、核酸序列和/或其量。靶核酸可以是基因组序列,例如特定基因、RNA、cDNA 或任意其它形式的核酸序列的一部分。在一些实施方案中,所述靶核酸可以是病毒或微生 物。
[0051] 术语"靶核酸"和"靶分子"可以互换使用,且表示是扩增反应的对象的核酸分子, 其可以任选地通过测序反应来探究以便导出它的序列信息。
[0052] 术语"靶标特异性区域"或"目标区域"可以互换使用,且表示具有科学兴趣的特定 核酸分子的区域。这些区域通常具有至少部分地已知的序列,以便设计用在扩增反应中的 侧接一个或多个目标区域的引物,并由此回收含有这些目标区域的靶核酸扩增子。
[0053]术语"热稳定的聚合酶"表示这样的酶:其是对热稳定的,是热抗性的,且保留足够 的活性以实现随后的多核苷酸延伸反应,并且当遭受高温持续实现双链核酸的变性所需的 时间时不会变得不可逆地变性(灭活)。核酸变性所需的加热条件是本领域众所周知的,且 在例如美国专利号4,683,202、4,683,195和4,965,188中举例说明。本文中使用的热稳定的 聚合酶适合用在温度循环反应诸如聚合酶链式反应("PCR")中。用于本文中的目的的不可 逆变性表示酶活性的持久的且完全的丧失。对于热稳定的聚合酶,酶活性表示以适当方式 催化核苷酸的组合,以形成与模板核酸链互补的多核苷酸延伸产物。得自嗜热细菌的热稳 定的DNA聚合酶包括,例如,得自海栖热袍菌(Tiei-ffloioga ?ariiiffia)、水生栖热菌(Tier皿/s a<7t/aiict/s)、嗜热栖热菌(Zfteim/s 黄栖热菌(Zfteim/s /7aras)、丝状栖热 菌(Zfteivm/s 栖热菌属种(Tier皿/s 栖热菌属种淡5、Zfteim/s 热坚芽抱杆菌(ca_/c/o ie/3ax)、那不勒斯栖热袍菌(rAerffioioga /3e〇j〇o_/iia/?a)和非洲栖热腔菌(Zfter_ffl〇sij〇Ao a/rica/3t/s)的DNA聚合酶。
[0054] 术语"无掩膜阵列合成"(MAS)表示在没有物理掩蔽物存在下在作为阵列的衬底的 表面上光指导的寡核苷酸合成,诸如Singh-Gasson等人,Nature Biotech, 17: 974-978 (Oct. 1999)所述的方法,其教导在此通过引用并入。简而言之,MAS技术通常使用由微镜组 成的数字微阵列镜装置(DMD)来形成虚拟掩蔽物。这些镜可个别地寻址,且可以用于在宽波 长范围内建立任何给定的模式或图像。DMD在衬底的表面上形成图像,其中所述衬底含有被 光活化的化学部分。然后用含有给定核苷酸的溶液洗涤衬底的表面并结合至活化的区域。 所述溶液中的核苷酸被光不稳定的保护基光保护。在第二轮合成中,DMD在选定的衬底区域 上形成第二个图像,由此选择性地活化那些区域中的衬底,并用第二种给定的核苷酸(还被 光保护)在衬底上洗涤。该第二种核苷酸结合至在第二轮照射中已经被活化的那些区域。因 而,可以将选择的核苷酸加入选择的区域,从而允许在没有掩蔽物存在下通过光指导的合 成来合成寡核苷酸阵列。将该过程重复多次,以便在逐个单体基础上构建寡核苷酸序列。
[0055] 其它构建阵列的方法也可以用在本发明中,诸如铬掩蔽物的应用或寡核苷酸在阵 列上的点滴(spotting)。当用在本发明中时MAS会提供改进的灵活性和简单性,但是形成阵 列的其它方式同样是有用的。除了MAS以外,可以用在本发明中的合成系统的例子是 Affymetrix、Oxford Gene Technologies和Agilent使用的那些众所周知的方法。
[0056]本发明涉及在阵列表面上合成MIP前体分子,然后在溶液中扩增那些MIP前体,然 后可以在所述溶液中执行其它制备步骤。在某些实施方案中,通过扩增系统诸如PCR,扩增 所述MIP前体。在这样的实施方案中,通常合成MIP前体,使得它们含有可用于这样的以后扩 增步骤的引物位点。
[0057]在本发明的某些方面,在阵列上制备探针,使得它们含有UID区域。UID区域是单个 探针独有的探针区段,且基于存在的特定UID序列可以鉴别探针。可以以几种不同的方式设 计UID序列,所述方式包括:预先计划要用于探针的特定UID序列,通过计算机或其它方式随 机产生UID序列并随后合成探针以将UID序列掺入探针中,或化学衍生的随机合成。"化学衍 生的随机合成"是指,将几种核苷酸混合,并在探针合成过程中同时暴露于合成表面,并允 许随机地形成序列,而没有预先计划或先前随机序列确定。在一个实施方案中,将可用于光 指导的合成(例如,掩蔽阵列或无掩膜阵列合成)的所有四种常见核苷酸(A、C、T、G)的混合 物混合,并在几个连续的合成循环中加入,并允许随机地结合至表面或阵列的光活化的部 分。在该实施方案中,在没有预先计划序列的情况下,A、C、T或G的次序将是随机的。化学衍 生的随机合成会提供使探针生产方法流线化的优点,因为没有步骤被加入工作流中以预先 计划序列。 实施例
[0058] 实施例1: MIP探针库生产和纯化 在图1中详述了将MIP-前体转化成MIP的方案。图1A显示了关于MIP-前体分子的一个实 施例。在该实施例中,如下形成MIP前体:在MAS单元上合成,使得所述前体在阵列表面上形 成。在该实施例中的MIP前体分子在5 '和3 '末端上含有两个15 mer引物位点。在末端引物位 点附近有两个是靶标特异性区域的20 mer位点X20和Y20,它们与作为样品中的特定靶区域 的边框的特定位点互补。在X20和Y20之间是接头区域,在该情况下,是30 mer序列,其将两 个靶标特异性的序列连接在一起。
[0059]然后使用两种引物对MIP前体进行扩增,在该情况下,所述引物显示在图1B中。存 在正向引物和反向引物两者。正向引物含有与在MIP前体分子的5'末端段上所见相同的序 列,而反向引物含有与在MIP前体的3'末端处的序列互补的序列,如在图1B中所示。因而,在 第一个扩增步骤中,反向引物与MIP前体杂交并延伸,从而提供正向引物可以在以后扩增步 骤中与其结合的互补序列。在本实施例中,将具有入口和出口的腔室(Grace Bio-Lab,部 件05876702001或05871158001)附着于MIP-前体阵列,从而形成在其中进行扩增的腔室,所 述扩增使用MIP-前体分子作为扩增模板。使用Slide Griddle Adaptor (BioRad, SGP0196)在热循环仪中进行所述扩增。制备含有以下组分的原位PCR主混合物:
[0060]将含有主混合物的试管放在95°C加热块中保持5分钟以脱气。将HotStartTaq酶 (11 uL [5U/ul])加入混合物中并开始扩增方案。在该实施例中,在涉及的步骤中使用的方 案如下:1)加热阵列至97°C/15 min,在该时间结束时将1 mL PCR混合物加载进腔室中,将 加载孔密封,除去任何气泡,并将第二个孔密封;2)通过100°C/1 min、48°C/1.5 min、78°C/ 1 min的加热步骤,将腔室循环30次;3)将腔室保持在72°C/15 min;和4)作为最终的步骤, 将腔室冷却至4 °C。
[0061 ]扩增以后,除去一个密封件,并从腔室取出液体和使用Qiaquick PCR纯化试剂盒 (Qiagen)根据说明书进行纯化。纯化以后,使用光密度测量来确定纯化的MIP-前体的浓度。 在所述过程的该时点,MIP前体已经被扩增且呈双链形式,如在图1C中证实的。
[0062]进行MIP前体的进一步加工。具体地,使用两种切割限制性酶,进一步消化双链前 体分子。具体地,用在 1〇〇μ1 IX NeB2中的5μ1 Nt.Alwl (10 U/μΙ, New England Biolabs) 在37°C消化Syg (21.3μ1) PCR产物3小时。将产物在2%琼脂糖溴化乙锭凝胶上泳动。该最初 消化以后,将产物用5μ1 Nb.BsrDl (lOU/yl, New England Biolabs)在65°C进一步消化6 小时,随后在80°C消化20分钟。温育时间可以几乎确定地变化,使用的酶、浓度、反应条件等 也是如此。消化反应结束后,用Qiagen核苷酸除去试剂盒纯化样品。使用30μ1标准洗脱缓冲 液进行洗脱。确定DNA浓度(106 ng/μ 1 ),并将样品在4%琼脂糖凝胶上泳动,如在图2中所示。 [0063]凝胶的泳道1(显示在图2中)含有0.5μ1 25碱基对梯度分子量标准品。在泳道2中, 泳动0.7μ1 235 ng/μL PCR产物(即,在扩增以后、但是在限制性酶消化以前的产物)。泳道3 显示了当泳动3μ1 2-酶消化物时的凝胶产物。因此,泳道3含有用于与样品杂交的最终ΜΙΡ 探针库。
[0064]实施例2:ΜΙΡ探针库用于捕获目标区域的用途 来自上面实施例1的方案会产生可用于与基因组DNA杂交的70-merMIP。为了这些实施 例的目的,将该集合命名为MIP480混合物。还容易认识到,可以制备这样的MIP用于与其它 形式的核酸靶标(包括cDNA、RNA等)一起使用。在图3中描绘了杂交和延伸步骤,其中使MIP 探针与基因组DNA接触。
[0065] 在本实施例中,使用大约750即1^0嫩或2.25 1105个1^0嫩拷贝。保持]\0?:基因 组等同物比率为大约100:1,每个探针(500 ?8 = 0.5 1^11?480混合物)使用1?8。这些 MIP计算假定仅存在70个核苷酸MIP片段。对于杂交反应,使用下述试剂:
[0066] 作为对照,用H20替换gDNA。在95°C变性10 min,在60°C温育36 h。
[0067] 然后将捕获的DNA序列(在该情况下,外显子)环化。制备10μ1连接酶和聚合酶的混 合物,并加入每个25μ1捕获反应物中。连接酶/聚合酶混合物具有下述试剂:
[0068]将共计10μ1加入25μ1捕获反应物中,在60°C温育24小时。延伸/环化步骤描绘在图 3中。
[0069] 用下述试剂(都得自New England Biosciences)制备核酸外切酶的混合物:
[0070] 为了除去线性DNA,将2 ul核酸外切酶混合物加入每个35 ul ampligase反应物 中。将样品在37°C温育1小时,在80°C温育10 min,和在95°C温育5 min。
[0071]除去线性DNA以后,将剩余的产物在25 ul反应物中进行PCR扩增和纯化。对于该 PCR扩增(倒置PCR),使用下述试剂:
[0072]在该反应中,多重引物含有用于样品鉴别的MID序列。对于PCR扩增,将反应物在98 。(:保持30分钟,然后循环30次(98°C保持10分钟/60°C保持30分钟/72°C保持1 min),然后在 72°C保持2 min。在4%琼脂糖凝胶中分析PCR产物(图4)。在图4中,泳道1含有在20 ul TE中 的5 ul gDNA MIP捕获PCR产物,泳道2含有对照物(水替换gDNA),泳道3含有0.5 ul 25碱基 对梯度物。将来自泳道1的DNA浓度测量为23.5 ng/ul或130 nM。然后可以将该扩增和纯化 产物用于测序,例如使用Illumina TruSeq测序。
[0073] 实施例3:用经平衡的熔化温度(Tm)使用474个具有X和Y的可变长度(20-30个核苷 酸)的MIP进行外显子捕获的MIP方案. 在该实施例中,利用的MIP探针具有可变的X和Y区域长度,在20-30个核苷酸之间。在该 实施方案中,使用标准公式计算Tm,使得X和Y熔化温度几乎相等。
[0074]在以前的实施例中,制备具有如下表示的固定长度的20-核苷酸靶标特异性区域 的MIP探针: 5 '- (X20)AGATCGGAAGAGCACATCCGACGGTAGTGT(Y20),其中X和Y代表两个20个核苷酸长 的靶标特异性区域。在本实施方案中,MIP探针具有可以如下表示的可变区: 5'- (X20-30) AGATCGGAAGAGCACATCCGACGGTAGTGT(Y20-30),其中所述X区域和所述Y 区域不一定具有相同长度。在图5中描绘了固定长度20-核苷酸探针的Tm分布和Tm平衡的 20-30-核苷酸探针。在图5中,X-轴代表探针的熔化温度,而Y轴代表探针的数目。可以看出, 与当固定X和Y区域长度时相比,改变探针的Tm会将该群体浓缩在更小的熔点范围中。下表 含有在图5中使用的数据:
[0075]运行实验以确定20-核苷酸固定的MIP探针库相对于20-30-核苷酸可变的MIP探针 库表现出的序列覆盖。在图6中可见这些实验的结果。图6表示了将用固定Tm设计的MIP探针 (插图)与Tm平衡的设计进行对比的序列覆盖的频率分布(读出的数目)。插图表明45%的MIP 不具有任何覆盖(0覆盖),而对于Tm平衡的设计,不具有覆盖的MIP的数目下降至3%,从而代 表对于由474个MI P代表的目标区域而言捕获的约15倍改善。对于Tm平衡的设计中的大多数 MIP,序列覆盖相对较高,对一些MIP检测到多达数百万的读出。在图6中,X-轴描绘了序列覆 盖,它是针对每种MIP在11 lumina HiSeq上的该特异性运行所检测到的读出的数目的量度。 将覆盖表示为二进制化的(binned)频率分布。
[0076]在该图(参见插图)中,固定长度MIP探针库表现出集合群体的大部分,其没有有效 地表现出任何序列覆盖。实际上,215/474探针(45%)没有有效地覆盖靶序列。相反,该图的 主要部分显示了当将Tm平衡时的序列覆盖。容易看出,没有表现出序列覆盖的探针的数目 急剧下降,低至15/474 (3%)。因而,其中X和Y靶区域的Tm几乎相同的实施方案会赋予相对 于其它实施方案(其中X和Y区域具有设定的长度)的改善。
[0077] 实施例4:用平衡的Tm和N6 UID使用474个具有在20_30个核苷酸之间的X和Y区域 可变长度的MIP进行外显子捕获的MIP方案. 在图7A中描绘了 MIP前体、UID序列的一般形式。在该实施例中,MIP探针具有可变长度 靶区域X和Y,它们由含有UID区域(表示为NNNNNN (N6))的接头区域连接。当然可以合成具 有除了 6个核苷酸以外的其它链长度的UID区域,且仅需要足够长以衍生出特定实验或应用 所需的随机性。该段是在每个探针中合成的随机地产生的序列(即,每个探针具有它自身的 随机UID序列)。该序列可以在测序工作流末端附近使用,以确定任何特定探针靶标是否通 过扩增偏差、基因座扩增/呈现偏差和与特定测序平台关联的系统伪像而过表达。在如上所 述的类似工作流中,合成MIP探针,然后使用引物扩增(参见图7B),然后用限制性酶切割,并 释放为单链MIP库(参见图7C)。
[0078]使单链MIP与DNA (例如,基因组DNA,但是可以使用任意核酸分子)杂交。使用封闭 寡核苷酸封闭单链MIP的互补链,所述封闭寡核苷酸的一个例子描绘在图7D中。
[0079] 在该实施方案中,使用无掩膜阵列合成(MAS)在阵列上合成MIP前体模板。如在以 上实施例中,将MIP前体阵列附着于Grace Biolab Chamber,并制备原位PCR主混合物。所述 原位PCR主混合物与在以上实施例1中基本上相同,但是将dNTP浓度降低至10mM,并在所述 主混合物中使用更大的体积(13.75μ1)。通过正向引物和反向引物的体积的减小(从20μ1至 18μ1)和使用的水的体积的减小,补偿dNTP试剂的增加的体积。将含有主混合物的试管放在 95°C加热块中保持5分钟以脱气。将HotStartTaq酶(11 uL [5U/ul ])加入所述混合物中,并 开始扩增方案。在该实施例中,使用的方案涉及以下步骤:1)加热阵列至97°C/15 min,在该 时间结束时将1 mL PCR混合物加载进腔室中,将加载孔密封,除去任何气泡,并将第二个孔 密封;2)通过100°C/1 min、48°C/1.5 min、78°C/l min的加热步骤,将腔室循环15-18次;3) 将腔室保持在72°C/15 min;和4)作为最终的步骤,将腔室冷却至4°C。
[0080] 扩增以后,除去一个密封件,并从腔室取出液体和使用Qiaquick PCR纯化试剂盒 (Qiagen)根据说明书进行纯化。纯化以后,使用光密度测量来确定纯化的MIP-前体的浓度。 使用在一个载玻片上的15个扩增循环产生了0.MIP-前体,而使用在另一个载玻片上的 18个循环产生了2.3狀。在1 ml PCR中执行低扩增样品的额外扩增:5X HF缓冲液(200μ1)、 50μΜ引物300-20-1 (10μ1)、50μΜ引物300-22-2 (10μ1)、10 mM dNTP (20μ1)、ΜΙΡ前体、5 ng/μ 1 (5μ 1)、水(750μ 1)、Phusion聚合酶(5μ 1)。将样品加热至98 °C,然后循环10次(98°C保 持20分钟,60°C保持1 min,72°C保持1 min)。在50μ1 H20中纯化PCR产物(Qiagen)。该额外 扩增以后,确定DNA浓度为117 ng/μL。
[0081 ] 扩增以后,用限制性酶处理MIP前体:在100μΙ IX NEB2中用5μ1 Nt.AlwI (10 u/μ 1,NEB)在37°C消化2.5yg PCR产物3h。加入5μ1 Nb.BsrDI (10 u/μL, NEB)。在65°C温育 3h,随后在80°C温育20 min。将消化反应物用Qiagen核苷酸除去试剂盒纯化,并在30μ1洗脱 缓冲液中洗脱。将DNA浓度测量为47 ng/μL,86个核苷酸Tm平衡的Ν6 ΜΙΡ的浓度是47*86/ (126+86)=19 ng/μLο
[0082] 酶处理以后,使MIP探针与基因组DNA杂交,如图8中所示。为了清楚起见,应当指 出,图8以环化的方式描绘了基因组DNA,这不同于先前以环化构型描绘MIP的图。技术人员 容易在概念上认识到,任一种排列适当地起作用,并且因为显影的特定偏好仅选择任一种 构型。
[0083]在该实施例中,使用下述试剂使探针与基因组DNA杂交:

[0084] 作为对照,用水替换gDNA。将样品在95°C变性10 min,并在61°C温育36小时。
[0085] 在该实施方案中,在用Phusion聚合酶填补间隙以后,用Ampligase环化与基因组 DNA杂交的MIP。用下述试剂制备连接酶/聚合酶混合物:
[0086]将共计10μ1连接酶/聚合酶混合物加入每个25μ1捕获反应物中,并在60°C温育24 小时。
[0087]为了消化线性DNA,对样品施加由下述试剂组成的核酸外切酶混合物:
[0088 ] 为了消化线性DNA,将2μ 1核酸外切酶混合物加入每个3 5μ 1 Phu s i on /amp 1 i ga s e反 应物中。将样品在37°C温育1小时,在80°C温育10 min,在95°C温育5 min。
[0089] 然后将捕获后样品在50μ1反应物中扩增和纯化:
[0090] 然后用热循环扩增样品:98°C保持30分钟,然后是28个热循环(98°C保持10 min/ 60°C保持30 min/72°C保持1 min)。扩增以后,在4%琼脂糖凝胶中分析5μ1 PCR产物,30 min。结果呈现在图9中。泳道i显示了25-碱基对梯度物,泳道2显示了PCR产物。
[0091]然后将扩增的样品在II lumina测序仪上测序。
[0092]实施例5:用于外显子组捕获的MIP设计 在该实施例中,使用与在上面实施例4中所述相同的方案,但是替代性地合成474个MIP 探针的库,将所述库增加至包括437,202个MIP探针("437K库"),其具有在20-30个核苷酸之 间的X和Y靶区域的可变长度,具有经平衡的Tm和在各个探针上的N6 UID序列。
[0093]使用437K库执行测序分析以确定捕获成功率。经确定,437K集合具有大约82%捕获 成功率(g卩,该集合中82%的探针成功地捕获靶向序列)。
[0094] 实施例6:UID的应用 可以使用UID来确定测序结果中特定探针的过表达或低表达,并且也可用于其中追踪 与各个探针有关的特定读出对于数据分析而言具有重要性的其它目的。在一个实施方案 中,使用UID来确定在有扩增诱导的潜在等位基因偏差存在下的接合性,如图10中所示。对 于每种MIP探针,测序读出将揭示为该探针合成的UID序列(可能出现在读出1、读出2或二 者)中,且也含有预期的捕获序列(参见图10A)。
[0095] 图10B表明,MIP是基于引物的探针,并且所以将产生比对的序列在预期靶标上的 '堆叠'。使用探针特异性的UID来区分分子捕获事件。一个UID由于扩增可能具有多个测序 读出对。为了变体发现的目的,从每个含有相同UID的读出对集合选择代表性的读出对或共 有序列。如果优先扩增捕获事件,还已经一起携带UID。该基于UID的副本读出对减少会除去 该潜在扩增偏差(参见图10C)。
[0096] 图11举例说明了本发明的MIP探针的制备方法的一个实施方案。使用无掩膜阵列 合成,在阵列(在该实施例中,2.1M特征微阵列)上逐个单体地合成前体分子。所述前体分子 可以锚定在阵列表面的3'末端处。合成后,对阵列进行原位PCR以溶解、扩增和掺入单个尿 嘧啶到一个探针链上。扩增后,前体是在溶液中的双链分子,其含有单个尿嘧啶碱基。扩增 后,对双链分子进行消化,在该实施例中,用尿嘧啶-DNA糖基化酶(UDG)和核酸内切酶VIII, 且Nb. DSRDI仅在探针链上建立单链切口,从而精确地脱离两种原位引物连接物。变性PAGE 凝胶电泳证实探针的形成,并且还显示探针补体。
[0097]图12A和12B举例说明了关于MIP探针的工作流的一个实施方案。在图12A1中,将单 链MIP探针以适当的比率与靶DNA混合。使MIP探针和靶标杂交适当的时间量(图12A2),所述 时间依赖于探针和靶标的复杂性和比率。杂交以后,将MIP探针延伸并连接以拷贝靶序列和 环化探针/靶序列(图12A3)。使用DNA聚合酶和DNA连接酶的混合物完成延伸和连接。
[0098]延伸/连接以后,消化单链模板和探针(图12B1)。在一些实施方案中,将核酸外切 酶(诸如ΕχοΙ和ΕχοΙΙΙ)的混合物用于单链分子的消化。一旦消化单链分子,扩增探针/靶 标。在某些实施方案中,掺入测序连接物和样品索引条形码(MID)序列(在图12B2中表示为 "N")。所述MID代码为每种试验的样品利用不同的序列,并允许在测序之前进行扩增后合 并,因为所述样品可以通过它们的MID代码来鉴别。图12B3证实了扩增后的双链产物的结 构,其然后准备好测序。
[0099]图13举例说明了使用本发明的样品跟踪的一个实施方案。样品跟踪的目的是允许 来自多个实验(每个测定不同的基因组DNA样品)的捕获的、扩增的DNA序列在测序之前合 并。这允许在通常的第二代仪器上运行的每个测序所产生的极大量的测序数据与关于任何 单个样品的捕获序列分析通常低得多的序列数据要求更有效匹配,由此降低成本、增加效 率和允许更高的样品处理量。
[0100] 通过将样品跟踪指标(通常6-14核苷酸序列)包括在用于扩增环化的MIP探针的 PCR引物之一中,完成样品跟踪。源自相同DNA样品的捕获广物的所有扩增子将具有相同的 跟踪指标,尽管它们靶向该DNA样品的基因组内的许多不同区域。将合并的捕获产物测序以 后,通过读出有关的指标序列,可以弄清每个读出对的起源。
[0101] 图14举例说明了使用掺入MIP探针中的UID序列,来自事件计数的一个实施方案的 模拟数据。事件计数的目的是,除去扩增偏差或其它错误的影响以后,鉴别变体调用的独特 捕获事件。UID是掺入每个探针中(没有掺入PCR引物本身中)的随机序列,并且在扩增后复 制。每个探针分子(即使它用于精确地靶向与另一个探针分子相同的样品中的相同外显子) 应当具有不同的UID序列。测序以后,除了一个(具有最高序列质量评分的那个)以外,具有 相同UID序列的所有读出对被抛弃,因为可能是PCR副本。假定所有保留的序列携带相等的 信息价值,并代表样品的真实复杂性。该能力可用于确定突变事件(诸如样品中的体细胞突 变,或混合群体中的任何变体)的真实频率。在图14中,描绘了经过和不经过UID校正的得自 单个外显子的模拟数据。在不经过UID校正的数据中,由于突变体等位基因的偏差扩增,在 样品DNA中以50%的频率不准确地测量突变(X)。对于UID校正,样品DNA中的突变的实际频率 被揭示为17%。
[0102] 图15显示了与较大MIP探针库设计内的单个探针靶标(PTEN外显子4)对应的23, 517个读出对的分析。该分析揭示了729种独特的6-merUID标签。一些标签的高(>300)频率 证实了强扩增偏差的潜力,而UID会促进代表重复信息的96.4%的读出的消除。
[0103] 图16显示了探针重新平衡的结果。用6个HEAT-Seq探针(得自IDT)靶向EGFR基因的 4个外显子。使50 pM探针与500 ng gDNA退火,并环化4小时,然后扩增。然后将探针/靶标构 建体测序。将99%的映射的读出与靶向的外显子比对,具有至多~100,000X的可变覆盖深度 (在UID deduplification之前)。在EGFR实验中得到的高度可变的序列覆盖深度例证了大 多数高度多重的、基于扩增的、靶向的测序方法固有的重大无效。探针比率的重新平衡(右) 可以改变靶标之间的序列分布,但是以不能预见的方式。探针设计的经验和迭代方法目前 是最有效的解决方案(对照=210,634个读出 ;11?条件1 = 429,202个读出;11?条件2 = 313,346个读出)。
【主权项】
1. 核酸捕获探针的集合,其用于降低核酸样品的复杂性,其中所述集合中的每个探针 包含: -第一末端序列,其与存在于复杂样品中的第一靶序列特异性地杂交; -第二末端序列,其与存在于复杂样品中的第二靶序列特异性地杂交,其中所述第一靶 序列和第二靶序列都位于相同靶链上;和 -连接所述第一末端序列和所述第二末端序列的接头序列,所述接头序列包含唯一标 识符(UID)序列, 其中所述UID是随机地产生的标签序列,其在探针形成过程中通过随机核苷酸合成针 对探针集合中的每个单个探针产生。2. 根据权利要求1所述的核酸探针,其中所述探针进一步包含MID条形码,其中特定核 酸样品所用的探针都含有相同的MID条形码序列。3. 根据权利要求1所述的核酸探针,其中通过化学衍生的随机合成产生UID序列。4. 根据权利要求1所述的核酸探针,其中所述第一末端序列和/或所述第二末端序列的 序列长度是不同的长度。5. -种方法,其包括: a) 在阵列上合成MIP前体,其中所述前体包含一个或多个引物、一个或多个限制位点、 以及在所述MIP前体的一个末端附近的第一末端靶序列和在相对末端附近的第二末端靶序 列; b) 在溶液中扩增MIP前体; c) 收集所述溶液;和 d) 使用一种或多种限制性酶消化扩增的前体以形成MIP探针。6. 根据权利要求5所述的方法,其中所述MIP前体进一步包含唯一标识符(UID)序列。7. 根据权利要求5所述的方法,所述方法进一步包括 e) 使MIP探针与核酸样品杂交;和 f) 用聚合酶环化MIP探针,使得所述核酸样品的一部分被复制并掺入环化的MIP探针 中; g) 使用核酸外切酶基本上消化直链核酸;和 h) 确定所述MIP探针的序列。8. 根据权利要求6所述的方法,所述方法进一步包括,评价所述MIP探针的序列,和确定 任何UID序列与预期的结果相比是否过表达或低表达。9. 根据权利要求5所述的方法,其中使用无掩膜阵列合成执行所述阵列合成。10. 根据权利要求5所述的方法,其中改变所述第一末端靶序列和/或第二末端靶序列 的长度,以便紧密地接近两个靶序列的熔化温度。11. 根据权利要求7所述的方法,其中在有封闭寡核苷酸存在下执行所述杂交步骤,所 述封闭寡核苷酸被设计成阻止MIP探针与MIP前体或其扩增产物的元件重新杂交。
【文档编号】C12Q1/28GK105980574SQ201480043472
【公开日】2016年9月28日
【申请日】2014年7月31日
【发明人】T.艾伯特, J.诺顿, J.帕特尔, D.布格斯, V.莱米切夫, M.布罗克曼
【申请人】豪夫迈·罗氏有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1