Rna分析方法

文档序号:393115阅读:1091来源:国知局
专利名称:Rna分析方法
RNA分析方法本发明涉及分析复杂的核酸混合物的领域,以及涉及用于表征方法和测序,尤其是高通量测序如二代测序(NGS)的样品制备。NGS是当前最主要的全序列分析方法。NGS是通过聚合进行平行测序的高通量DNA测序方法的通用术语。NGS读取上百万个通常为十到几百碱基对长度的片段。通过比对这些读段(read)获得全序列,这是一项具有挑战性的工作。一些NGS方法依赖基因组或转录组数据库中的一致蓝图。结果的质量取决于读段的长度和数目、读取的精确度、参照数据库中的信息的质量以及所应用的生物信息学算法。迄今为止,很多读段只提供有限的信息。例如,很多读段因无法被唯一分配而被废弃。分配的不确定性的两个基本原因是1) 一个读段可与两个或以上基因对齐;2) —个读段可源于同一基因的不同转录物变体。此外,测序深度受限,从而对低丰度核酸的检测也是有限的。对于RNA分析,这就意味着,在含有不同细胞、细胞群或疾病生物体的大量不同的RNA分子的样本中,罕有RNA或其部分不太可能被搜索到。事实上,即使是简单生物体的转录组中,罕有RNA转录物也不 太可能被检测和定量。更详细地说,为了生成可检测的信号,多数NGS方法必须扩增单个RNA分子或他们的DNA拷贝。乳液聚合酶链反应(PCR)可用油相内的水泡中的引物包被的珠分离单个DNA分子。另一种选择是例如通过严格的稀释的DNA分子的单个化(singularization)。另一种体外克隆扩增的方法是桥式PCR,在该方法中,通过固定在固体表面的引物扩增片段。另一种选择是跳过此扩增步骤,直接将DNA分子固定到一个表面。该DNA分子或上述DNA包被珠被固定化于表面上,并进行平行测序。通过合成测序,如经典的染料终止电泳测序,采用DNA聚合酶测定碱基序列。可逆终止剂法采用可逆的染料终止剂,每次添加一核苷酸,检测每个位置处的荧光,并通过重复去除保护基团使另一核苷酸聚合。焦磷酸测序(pyrosequencing)也采用DNA聚合,一次添加一种核苷酸,并通过由于所连接的焦磷酸盐释放而发生的光发射来检测和定量添加至给定位置的核苷酸的数目。连接法测序采用DNA连接酶确定目标序列。该方法被用于polony方法和技术,其采用区分特定长度的所有可能的寡核苷酸,所述寡核苷酸根据测序的位置进行标记。使寡核苷酸退火和连接。DNA连接酶对匹配序列的优选连接会产生该位点上双核苷酸编码的颜色空间信号。NGS技术基本上基于输入DNA的随机扩增。这简化了制备但是测序没有方向性。同时造成的样品信息的严重的复杂性是读段正确比对的主要障碍。因此,降低复杂性对于提闻结果质量而目是必需的。降低DNA复杂性的传统途径,如人类基因组计划中采用的,是在测序前生成细菌人工染色体(BAC)克隆。基因组DNA的不同区段被克隆到细菌宿主细胞中、扩增、提取,并用做Sanger测序的模板。大型BAC文库的生产、维护和核查是艰苦的过程,并且成本可观。由于这些不实际且和现有NGS平台的不兼容,因此通常寻求避免细菌克隆。另一种降低复杂性的选择是首先根据各自大小选择多核苷酸。不同的方法包括但不限于用于分级的琼脂糖凝胶电泳或尺寸排除色谱法。小RNA测序法采用此方法来获得例如称为微RNA (miRNA)的大小介于15到30个核苷酸的RNA分子级分。
或许最直接的降低复杂性的方法是将输入的核酸样品的量限制为单细胞。单细胞测序法依赖于高度稀释的溶液的扩增反应,事实上无法降低细胞内容物固有的复杂性,因为它包含整个转录组,并且仅基于对输入细胞的选择。一种将输入核酸的量减少到低于单个细胞含有的量的不同的方法被称为有限稀释。基因组核酸样品首先被片段化,然后被稀释到使所述核酸片段在样品体积中的空间分布变得显著的程度。然后,通过在总样品体积中取出这样的小体积来创建子池(subpool),使得大部分子池不含有核酸,若干子池各自含有一个核酸,更少的子池含有两个核酸。它导致了核酸的单个化,也因此比起全长基因组降低了复杂性,因为每个单个化的核酸是基因组的一个片段。因此含有单个核酸的片段的子池的序列拼接效率增加。因此,使得大基因组的拼接和框架建立更加容易。在转录组分析中这样的有限稀释法不会降低由于同一基因或不同基因的表达上的变化引入的复杂性,因为每个转录物分子会占据一个子池,所以需要有和样品中分子数目一样多的子池来显示样品的完整的转录组。另一种选择是序列特异性地排除RNA,例如在基于杂交的方法中,该方法从整个 RNA样品中除去了核糖体RNA。与依靠先验序列信息或直接针对一种特定RNA级分(例如PoIyA筛选)的其它分级方法相反,如果研究的是例如mRNA,则rRNA的去除并不导致测序样品的偏差。从总RNA样品中去除rRNA的方法用来增加涵盖mRNA和其它转录物的读段的数量。然而,没有减少特定基因或基因转录物的读段比对的复杂性。也可以采用序列特异性的选择方法,例如基因组区域如特定外显子的靶向测序。这种捕获阵列背后的想法是在测序前插入一个选择步骤。这些阵列被编程为只捕获感兴趣的基因组区域,因此使用户可以将NGS机器的全部能力用对在感兴趣的特定基因组区域的测序上。低密度,阵列上的捕获杂交可应用于测序。这种技术不是“假说中性的”,因为筛选过程需要特定的序列信息。类似的正选择可应用于靶向再测序。例如,对其互补的基因组靶有高特异性的生物素化的RNA链可用于提取DNA片段来进行后续的扩增和测序。这种降低复杂性的形式必须建立在可获得的序列信息上,因此不是假说中性的。WO 2006/137734和WO 2007/073171A2中揭示了降低样品复杂性的基因组的制备。它们基于 AFLP 技术(EP 0534858and Breyne et al. (MGG Mol. Genet. Genom.,269(2)(2003): 173-179))。AFLP也被应用于源于RNA的双链cDNA。其中,先用限制性内切酶切割双链cDNA,然后分离片段。尽管每个子池中的核酸片段的复杂性降低,在绝大多数情况下,一个核酸的每个片段会被分离到至少两个不同的子池。这意味着,例如测序后子池的信息无法被用于样品的核酸的组装,因为核酸的各个限制性片段可能在不同的子池。因此,在cDNA的AFLP中,当cDNA被限制性酶切时,丢失了 cDNA全长信息。本质上,如AFLP的方法,其在分离之前对样品片段化,对于全长转录物序列的比对来说无法降低复杂性。这种不确定性进一步增加,因为为了涵盖具有至少一个限制位点的大多数cDNA序列,必须使用多种限制性内切酶。此外,在cDNAAFLP方法中,仅在统计学上涵盖转录组,因为限制性内切酶的池可能切或可能不切核酸。在差异显示(Liang 1992,Matz 1997)中,仅呈现mRNA或其cDNA的部分序列,因此再一次地,全长序列无法被组装,读段也无法被分配为共有相同3’序列的基因的转录变体。
微生物的混合样品的16S rDNA或16S rRNA序列的测序通常被用于检测这些样品中的罕有物种。通过将测序方法限制到微生物的具体特征,复杂性和信息含量都会减少。通常,仅获得系统进化信息。基于标签的转录物的鉴定包括SAGE (基因表达系列分析),其中提取并测序特定长度的序列标签。由于对NGS而言起初的标签连接体的构建是一个缺点,因此使用衍生方案来省略这一步。一种相关的方法是CAGE (基因表达帽分析)。CAGE旨在获得转录物的5’端的信息,并因此获得在他们各自转录起始位点。在末端标签提取和测序前筛选带5’帽的RNA分子。尽管只提取转录组的特定部分用作分析,SAGE和CAGE有他们的局限性,因为它们不允许全面的分离。
Nagalakshmi et al. (Science,320 (5881) (2008) : 1344-1349)和 Wilhelm etal. (Methods, 48 (3) (2009) : 249-257)涉及 RNA-Seq 方法,包括用 poly-A 和随机六聚体引物生成cDNA。该方法无法降低复杂性以将读段分配至单一转录物变体。Armour et al. (Nature Methods, 6 (9) (2009) :647)涉及从 RNA 池生成 cDNA用于测序。通过用所谓的“不那么随机”(NSR)的引物去除rRNA。在此方法中,仅短序列被分离。因此该方法没有降低全长转录物的复杂性。因此,需要一种方法,它可以提供核酸样品的更小级分,还可以提供改进测序或检测方法的手段,尤其改进在例如含高浓度的核酸池中的罕有核酸样品的检测,所述高浓度的核酸池减少罕有核酸信号的获取机会。因此,本发明提供一种对衍生自潜在地多样的RNA分子池的核酸分子片段序列进行划分(order)的方法,其包括 任选地逆转录所述RNA分子以提供cDNA分子池, 从所述模板RNA或cDNA池中分离核酸,选择潜在地不同的模板,所述模板具有所分离的模板共有的区别性核酸特征,从而提供至少第一核酸子池, 任选地进一步从所述模板RNA或cDNA分离核酸一或多次,选择性地分离具有不同的区别性核酸特征的核酸,从而提供一或多个进一步的核酸子池, 通过片段化或获得所述分离的核酸分子的片段拷贝生成所述分离的核酸分子的片段,其中通过物理分离子池或通过给子池的片段添加识别子池的标记使每个子池或合并的子池的片段保持可与其它子池或其它合并的子池的片段分开,或者测定所述分离的核酸分子的部分序列并优选地将至少两个序列或部分序列比对成连接的序列。本发明中的分离步骤具有如下优点可提供核酸子池,并且子池信息可被用于进一步改进测序反应,例如基于获得核酸小片段的读段的NGS或其它核酸表征方法。在本发明方法中,子池信息伴随核酸和片段,并且此信息被用于比对测序读段以及测定子池中核酸序列的浓度。另外,建立子池可以使复杂性降低到使得以不同浓度存在于生物体的转录物和/或不同细胞或细胞群的转录物和/或不同生物体的转录物可被分离的程度,以增加检测富含RNA实体的样品中的罕有核酸的可能性。此外,它允许检测和识别属于不同转录物变体如剪接变体的测序读段。为了明确地比对测序读段和后续精确组装序列,需要有效的降低样本复杂性的方法。原始材料的高度的复杂性归结于其无序性、不同浓度的序列的混合。本发明可提供的一些优点为分离方法,该方法可以i.提供具有共同特征的确定的核酸样品子池,ii.提供将子池特异性信息与核酸和核酸片段结合的手段,和iii.使得有利于子池中序列的浓度测量,从而有利于原始样品中序列的浓度测量,由此提高测序读段比对的质量和/或由此通过其它手段分析原始样品。用此方法,转录组样品的复杂性可被降低到使得罕有转录物可从所有其它可能是高丰度的转录物的主要竞争信号中检测出的程度。该方法适合于定量地测量从非常罕有到高丰度形式的序列及其片段。
本发明的核心是在片段化步骤(如NGS所需)前,将核酸池分为子池,其中所有核酸片段获得其母分子的额外的子池信息。该信息可在整个序列读取(例如部分序列测定)过程中被保留。然后,每个读段包含序列和子池信息,为读段比对方法提供显著优势。只需要解开若干平行小谜团而不是一个大谜团。此项工作的复杂性大大地降低。因此,i)多位置分配更不可能,ii)之前被分类为“无匹配”的读段的来源可以被确定,iii)在转录物分析中,有更高可能性检测出剪接和转录起始位点变化,iv)能够检测更多全长转录物。将转录物池划分为子池可通过带有不同附加信息内容的子池实现。所得益处取决于所选方法。分离为子池可通过使用转录物的特性作为区别性核酸特征进行,该特性直接或间接与序列相关。所述特性为,例如对吸附物质如各种柱材料(例如硅胶)的亲和力,或者在盐、聚合物或其它添加剂存在的条件下的可溶性。在这样的间接序列相关的分离中,所需的样品核酸的信息是有限的,例如,沉降主要取决于长度、GC含量和二级结构。区别性核酸特征可为吸附或溶解特性。或者/此外,子池可通过利用区别性序列信息的方法生成,所述序列信息如i)部分内部或末端序列,和/或ii)转录物大小。i)利用区别性序列(通常为小核苷酸序列部分)是最有力的分离工具。例如,区别性核酸特征可以是源于模板RNA或cDNA的核酸的部分序列。所述区别性序列可以是单核苷酸类型(如选自A,T,U,G或C)或在待分离的核酸内特定位点上的多核苷酸类型。例如,可以根据存在于5’或3’末端或离所述末端给定的距离上的一个或多个核苷酸类型或序列而分离核苷酸。一方面,杂交探针阵列可用于创建子池,该杂交探针阵列涵盖所述核酸的区别性部分的一或多种序列可能性。即使子池包含不同核酸并且一些核酸会出现在若干子池,该分离方法已经降低了原始池的复杂性。在收集所有的读段后,比对算法知道转录物包含子池特异性序列,优选地比对算法必须确保每个转录物呈现至少一个子池特异性序列。通过选择区别性核酸特征如区别性序列(例如,如上所述的在特定位置的单核苷酸或者部分序列)实现的分离,既可通过选择具有区别性序列的核酸进行,也可通过特异性扩增带有区别性序列的核酸再进一步将这些扩增子用于本发明方法中来进行。一种优选的分离方法采用两端的序列信息,即核酸的起始和终止位点。在末端特异性扩增后,且如果序列特异性的冗余度为零(无错配),那么所有子池均含有的确具有那些末端的扩增子,例如PCR产物。因此,子池可以含有RNA分子的若干核酸,如转录物,但每种核酸仅存在于一个子池。通过这种方式,比对方法的复杂性被大大降低。ii)根据每个RNA核苷酸的数目,通过电泳技术(如凝胶或毛细管电泳)或其它方法,可以使用RNA分子的大小来分离RNA。之后的每个子池的不同读段的比对可受益于特定的相当窄的大小范围的边界条件。如本文所用,衍生于RNA分子的核酸分子是指与来自样品的RNA具有相同序列的任何类型的核酸。尤其优选地,在分离步骤中,从模板RNA或cDNA池中分离或选择全长或完整的核酸。此步骤中,片段化前的全长或完整核酸的分离带来的益处是,即使是在片段化后,每个分离的池包含完整的核酸的序列信息,其可以改进序列测定后的序列组装。这意味着,如果源于不同子池的读段可与同一个基因对齐,他们一定源于该基因的不同转录物变体。因此,可检测序列变化例如RNA编辑,或这些转录物变体之间的浓度差异。此外,可以比较不同样品之间的这些差异。表型不同的样品间的这种对比与研究此表型背后的因果关系尤其相关。“全长”或“完整”在本文中意为待测序的完整的核酸,例如逆转录后得到的。其可包含 从5’帽子开始至poly A尾巴的RNA序列,但大多数情况下不包括polyA尾巴,但还可是尚未完全(逆)转录的核酸序列,然而不包括经过人工切割的(如用内切核酸酶)核酸序列。本发明的范畴包括RNA被降解或被片段化或被核酸酶活性消化,而衍生自这种RNA的cDNA分子仅为部分序列。此外,cDNA可为RNA的部分拷贝,例如以寡脱氧胸腺嘧啶(oligo dT)为引物的mRNA的转录,在全长cDNA拷贝聚合之前停止。这可通过如时间限制或通过逆转录酶在二级结构区域停止聚合的条件下实现。之后,这样的片段可根据共同特征被分离,所述共同特征例如mRNA上poly A尾巴前的序列。优选地,cDNA池(cDNA文库)包含转录开始和/或终止位点的核苷酸,例如前25个核苷酸和/或最后25个核苷酸。cDNA池还可以仅由这样的开始和/或终止核苷酸组成。例如在CAGE (Shiraki-2003)中,生成了代表mRNA的5’端的20个核苷酸标签。当然这样的方法将排除全长转录物的组装或其浓度的测定。然而这样的标签可用于测定全基因水平上的表达,即所有转录起始位点的浓度可被测定。由于仅测序RNA的一小部分,测序深度增力口,且低水平表达的基因将更可能出现在读段中。然而,相比低丰度的转录物,高丰度的转录物仍然会更频繁的被测序。因此,分离方法可增加低丰度的起始位点被检测到的可能性。例如,用于制备CAGE文库的短的5’标签序列可根据5’或3’端的这种标签序列的核苷酸分离入基质区域。因此,低丰度转录物的5’标签序列会更易出现在其制备包括分离步骤的CAGE文库中。因此,可以对RNA、其cDNA或其它核酸,例如RNA片段、cDNA片段或由它们扩增的核酸进行分离。可任选地重复分离步骤以得到具有不同特征性核酸特征的不同子池。进一步的子池的生成可与第一或其它子池的生成顺序地或平行地进行。本发明本质上是以下的组合选择多样的RNA分子的池,任选地生成cDNA,分离RNA、cDNA或任何衍生自它们的其它核酸(如扩增产物),任选地针对不同参数重复所述分离,将分离的核酸片段化,得到片段池。片段被认为是长度比其所源自的完整核酸分子短的核酸部分。这种片段可用于例如NGS方法或其它核酸表征方法。NGS是目前最主要的完全分析方法。然而,本发明即不局限于也不依赖于NGS。其它测序技术可同样受益于本发明中的分离方法。
清楚地表征特定子池的分布通常需要的不只是核酸的完全测序。任何其它方法(如与分子探针的特异性相互作用或溶解行为)也可以应用于通过独特的特征描述原始核酸池。例如分子探针可为杂交探针,如可与互补序列杂交的寡核苷酸。该原理被应用于微阵列分析以同时研究大量基因的表达。使用这样的cDNA或寡核苷酸微阵列的可能的最详细的基因(DNA)表达分析为外显组(exome)或剪接组(splicosome)分析。然而,即使是对这些高分辨率的分析,将信号分配到基因的特定转录物变体也是不可能的。然而,如本发明方法中所教导,当mRNA分子或它们的全长cDNA拷贝被分离为不同的子池,每个子池可以分别用微阵列分析。若两个或更多不同子池给出涉及同一探针(阵列上的一点)的信号,该信号一定属于至少两种不同的转录物。当比较不同样品的表达时,这尤其重要。一些在没有在分析前进行分离的情况下无法区分的表达上的差别,如果进行分离则能够被检测到。例如,基因剪接位点的选择性探针在第一个样品中获得信号值100,在第二个样品中获得信号值100。因此表达比率为1,不认为存在任何区别。将每个样品分别分离为例如12个子池,并用微阵列分析每个子池,第一个样品中发现了两个子池,第一个相对信号为90,第二个相对信号为10。第二个样品中,第一个子池给出信号值10,第二个子池给出信号值90。虽然两样品在子池合并后的比率仍然是1,两样品间第一子池的比率为9,第二子池的比率为1/9。 因此,通过分离,在没有分离的情况下无法检测的基因的两种转录物变体的表达上的差别变得可以检测。换句话说,如果源于两种不同转录物变体的信号没有被分离,一种变体掩盖第二种变体的信号。如果进行分离,每种可以单独测量。同样的原理可被应用于NGS实验。如果两个子池的读段与同一基因对齐,这就意味着该读段一定源于不同转录物,如果分离能力是100%此外,分离转录组,将不同基因的转录物以及同一基因的转录物分离到特定的子池中,也是将相当短的序列读段组装为更长的甚至全长序列的强大的工具。接着,本发明改进了对大量单独的测序读段的比对,以测定核酸序列和/或他们的拷贝数。在一个实施方式中,片段(部分)序列的生成是在测序步骤中完成的,而不是先分段化再对片段测序。这里,随机(通用)引物被用来起始单个分子内的测序反应。因此,测序反应在大多数情况下会生成分子内的片段序列。如果该分子有子池特异性标记,该标记可在测序反应后被读出,提供具有子池特异标记的片段序列。同样的分子可进行进一步的测序,从而提供大量片段序列,其可被组装成核酸分子、RNA或转录cDNA的重叠群(contig)或全长序列。由于特定的核酸可以多个拷贝存在,这种测序也可平行进行。这里,大量随机(通用)引物起始大量核酸分子的测序反应,所述核酸分子产生大量的片段序列,该片段序列可作为整体用于比对或组装所分离的核酸的序列。本发明的范畴包括在测序前将片段相互连接。核酸为单个核苷酸的线性聚合物。这些分子载有遗传信息(参见三联体编码)或形成在细胞中执行其它功能的结构(例如调控)。本发明分析的核酸为核糖核酸(RNA)。由于单个细胞内RNA群的复杂性,RNA (测序)分析是特别困难的工作。本发明涉及鉴别(特别是序列测定)细胞中所有类型的RNA,包括mRNA (转录物)、微小RNA、核糖体RNA、siRNA和snoRNAo转录组为细胞产生的所有RNA分子或转录物的组。不像对于给定细胞系来说是大致固定的基因组,转录组根据细胞种类、组织、器官和发育阶段而变化。它可根据外界环境条件发生变化。由于它包含细胞内所有转录物,转录组反映了任何给定时间上活跃表达的基因,它包括降解现象如转录弱化。转录组学是对转录物的研究,也被称作表达谱分析。一个应用本发明的对RNA样品的分离方法的创造性益处为,低拷贝数的转录物或在样本中以低浓度存在任何其它类型的RNA在子池中都有更大的机会被测序和分析。NGS的一个弊端是高丰度的核酸降低了低浓度的片段被测序的机会。创造性的分离允许高拷贝数的实体和低拷贝的核酸间的区分。因此防止低拷贝数的核酸从检测中或在任何其它进行的步骤中(如在扩增中)被排除。一般原理是通过对分离的更小的部分进行测序来降低核酸池的复杂性。这些更小的部分被称作子池。在一个优选的实施方案中,所有子池一起含有待分析的原始池中的所有核酸。然而,原则上不必分析所有的RNA分子,因此一些子池可被忽略或甚至不被生成/可以保持为空的。核酸池的复杂性可归结于三个主要因素。第一个因素取决于不同序列的组合长度。由于序列是由四种碱基编码的(I^PU被认为是等同的因为它们载有相同的信息),复杂性随变异增加,等同于长度四次幂。然而, 基因组含有冗余信息如重复或任何其它类型的次序,如通过基因进化产生的。因此不同基因可包含相同的或者非常相似的序列段。这在从头组装重叠群或全长转录物序列中产生歧义,并限制了可被构建的重叠群的长度。甚至在可获得参考序列的比对过程中,这种歧义也限制了单个读段的比对。这种歧义随着测序过程中的读段长度的减小而增加。在转录组分析中,这种歧义性更高,因为基因(或基因组的区域)可编码多于一种转录物。源于同一基因的不同转录物(有时被称作转录物变体)如剪接变体在序列组成上非常相似。因此,由转录物变体产生的多数读段无法被唯一地分配。例如,即使一个剪接点被检测到,它属于一种还是多种转录物仍是未知的。第二个因素取决于样品内不同序列的数目。复杂性随着排列数增加,因此以不同序列的阶乘增加。两种序列有两种排列可能性,三种序列有六种可能性,以此类推。第三个因素是拷贝数的差异(转录物浓度)和更小程度上是对这种差异的预见量,例如,如果知道某拷贝的差异在1/1000的数量级。每个不同序列属于以拥有特定的拷贝数为特征的组。这些组的分布水平决定了由浓度差异引入的复杂性。本发明的分离可帮助区分原始样品池中不同的RNA分子。该分离步骤也可以被重复一次或多次。这里的重复不该被解读为必须在第一次分离步骤结束后进行附加的分离步骤,虽然这当然是一个可选项,但还涉及同时进行一次或多次分离步骤。因此,生成一或多个子池,分享共同特征的特异性核酸在每个子池中存在(或富集),而没有此分享的区别性核酸特征的所有其它核酸可从每个池中排除(或至少不富集)。这些因素直接造成测定所有的尤其样品中罕有分子的正确序列和浓度的困难。本发明的一般原理为,在测序读段生成之前,构建子池,使这些因素得以被控制,并同时降低池的复杂性。因此,本方法简化了在线序列比对。通过分离方法形成子池,是在本发明的研究范畴之内。在本发明的一个优选的实施方案中,所述方法进一步包括测定第一子池和任选地更多子池的片段的序列或部分序列。所述片段或其部分的序列可以通过本领域已知的任何合适的方法测定。优选地是可放大为高通量测序方法尤其是第二代测序的测定方法。在这种方法中,可测定所述片段至少5个,优选至少8个、至少10个、至少15个、至少20个、至少22个核苷酸或更长的序列。优选地,可测定所述片段的全长。如果只测序所述片段的部分,这可为5’端或3’端的部分,也可为可被特异性或非特异性(例如随机的)引物选择的内部部分。测定核酸的部分序列优选地包括测定至少10个,更优选为至少15个,至少18个,尤其至少20个或更优选为至少25个核苷酸的序列部分,但不包括测定核酸的完整序列。根据本发明,可能通过片段化或获得片段拷贝(例如扩增核酸分子的部分)来生成所分离的核酸分子的片段,然后测定其序列;也可能测定所分离的核酸分子的片段的序列或部分序列,并优选地将至少2,优选至少3个,尤其优选至少4个,至少6个或至少8个序列或部分序列比对成连接的序列。根据此可选项,无需物理上提供这些片段,而可能仅获得序列部分(其可从核酸分子自身在无需物理片段化步骤的情况下被测定)并通过比对这样的部分序列生成连接的序列。因此,根据此实施方案,无需提供提供分离池的信息的特异性标记,因为序列直接在子池中核酸分子上测定。这是可能的,通过例如随机引物法(从核酸分子内部的引物延伸)或通过可读出任何点的序列的纳米孔,因此生成“片段读段”。然后这些读段可如本文所述进行比对。 具体地,提供所有所提供的片段的全长序列并不总是必须的。由其它片段测定缺失序列部分也是可能的,例如所述片段可能重叠,因此提供与不完整的测序片段里缺失的序列相同的序列。例如,仅从片段的一端测定序列以及测定如上所述的例如至少10个核苷酸的部分序列通常更为有效。然后,这些部分序列可被比对成连接的序列。虽然根据一个实施方案,可能通过本发明的方法测定分离的核酸分子的全长序列,也可能仅测定足够长以识别所述核酸分子的部分。优选地,关于子池来源的信息在测序运行期间均伴随核酸分子和其每个片段。一方面,子池信息可通过标记来传递。每个片段可接受识别核苷酸序列(例如添加如1、2、3、4、
5、6、7、8或更多个子池相关核苷酸的子池特异性的序列标签),报告子模块如荧光染料、纳米点或其它。优选地,该子池特异性标签为添加到片段的核苷酸序列(条码)。此外,优选该条码在该核酸片段测序后或测序中被读出。另一方面,子池信息可通过空间的或时间的分隔而永久保存,这意味着每个子池在机器的不同区域(载玻片上的簇)或在有差别的时间点上(例如,每个子池可以顺序地进行测序)测序。对大多数方法来说无需额外的过程。在报告分子标记的个体的情况下,报告信号必须被识别并与读段相关连。子池可分开测序。每个子池的读段或者被比对至基因组蓝图,或者通过将其与同一子池中的(而不是总池中的)所有其它读段进行比较而从头对比。因此,原始样品池的复杂性被大大降低。大量的RNA分子,尤其转录物,只干扰它们出现的子池并因此损害其读取深度,但在其余子池中则没有。由于读取各片段的可能性与它们在池或子池中相对浓度分别成比例,仅以千分之一存在的片段当其它片段读取上千次时平均只被读取一次。对于读段的比对,所有读段被分组,并且如果可能根据子池地址确定方向。其次,所有读段互相比对,或与蓝图序列数据库比对。如果例如除子池信息外还已知完整序列的进一步的信息如长度,比对必须满足所有临界条件。然而,通常不必对片段进行完整的测序,可仅获得其序列的一部分。有时,此部分已经足够识别核苷酸或与其它片段的其它测序的部分比对为全序列(例如,如果所述片段包含重叠序列)。除了对片段的部分进行测序,还可能仅获得片段,即含原核酸的部分的较小的核酸分子,并测定其序列或其部分。“生成所述分离的核酸分子的片段”因此也涉及获得包含任何类型的序列部分的片段。片段化可以通过例如物理手段实现,可以是序列依赖的方法如通过内切核酸酶消化,或非序列依赖的方法如超声处理或剪切作用。片段生成还涉及获得片段拷贝。核酸分子可例如扩增成更多拷贝,这些拷贝然后被片段化。如果采用随机片段化方法,这可以造成每个核酸分子生成不同片段。另一方面,如果采用序列依赖的方法,如限制性内切核酸酶消化或序列特异性的扩增,核酸分子的所有片段都会相同。此外,可能通过扩增生成片段,即对片段测序。这也可以通过如序列依赖或非序列依赖的方法实现,尤其优选随机引物法,以获得带所述片段的内部序列部分。所述片段或测定的部分序列的实例大小可为,例如至少10、至少20、至少25、至少30、至少35或至少40个核苷酸。片段或测定的部分序列可长达20000、长达10000、长达5000、长达4000、长达3000、长达2000、长达1000、长达800、长达700、长达600、长达500或长达400个核苷酸。优选的范围为10-10000个核苷酸,优选25-500个核苷酸。 在测序前连接片段是在本发明的研究范畴之内。优选地,这些连接的片段被不同序列段分散,该不同序列段允许测序引物引起连续的测序循环。分离的核酸分子或待分离的核酸分子可为单链也可为双链。在单链分子被分离的情况下,片段相比其母分子的链型(strandedness)是清楚的,因为它有5’端和3’端。用使用双链核酸分子时,则需要在一条链而不在另一条链上的区分特征(例如甲基化),因为双链在两条链上均有5’端和3’端。在mRNA或cDNA的5’和/或3’端的特征(优选为序列部分)被用作核酸特征的情况下,分子的方向在片段化前仍然是已知的。因此,双链中的一条链可被用于片段化。双链中的一条链可通过本领域任何已知手段进行选择。例如在分离的过程中可标记一条链的末端。例如,PCR引物之一可含标记基团如生物素,然后可通过带亲和素偶联基质的柱层析法进行选择。另一种可能性是,采用一种具有5’磷酸的引物而另一种引物没有5’磷酸,并用优先消化有5’磷酸的链的\外切核酸酶处理PCR产物。通过在分离和片段化的全过程中保留核酸分子的链型或链信息,改善了后续的组装和比对的效果。例如,如果片段的链型被保留,每个片段可被比对到基因组的正链或负链上,由此区分正义和反义转录物。同样适用于簇构建或从头组装转录物,因为正义和反义簇/转录物可被区分。所以,优选在片段化时保留链型或链信息,优选地通过用、核酸酶消化另一条链来选择一条链。在分离期间可能选择一条待分离的链(正义或反义链)或标记所选链来保留链信息。优选地,所选链的片段根据链信息进行标记,也可能针对池信息进行标记(例如上面所提及的条形编码)。在进一步优选的实施方案中,这些片段的至少2、4、5、6、7、8、9、10、12、14、16、18
或至少20个核苷酸,尤其是连续的核苷酸被测序。潜在地多样的RNA分子的原始池可以是任何来源的,尤其是来源于任何生物样品,优选来源于病毒、原核生物、真核生物。对于任何类型的RNA测序方法,本发明的复杂性降低方法都非常重要,甚至是在使用单个细胞的时候(其含有多样的转录组),但当然也包括含多个细胞的样品,尤其是多种来源的样品,其例如含有多种生物体的许多不同细胞或具有不同的或修饰的基因表达的相似细胞(例如肿瘤细胞)。在本发明的一个尤其优选的实施方案中,用于分离的核酸特征是给定的核苷酸类型,优选地选自A、T、U、G、C中的任一种,位于核酸分子的特定位置,优选地在核酸分子离5’端、3’端或两端100个核苷酸内。这种选择一或多种特异核苷酸来例如获得全长序列来源的方法在WO 2007/062445中公开(通过引用并入本文)。在一个优选的实施方案中,本发明的分离步骤可因此包含从所述模板RNA或cDNA池中分离核酸,选择潜在地不同的模板,所述模板在全长核酸分子模板的5’或3’端100个核苷酸之内的特定位置上具有至少一种给定核苷酸类型(所分离的模板共有的),从而提供至少第一核酸子池。根据本发明,可能在分离步骤中扩增或选择特异性的核酸分子,其通过使用例如特异于RNA或cDNA的例如一端(3’或5’端)的引物,所述引物含有一个或多个额外的核苷酸特异性,其作用为根据在(通用或摆动(wobble))引物部分后的互补核苷酸来分离核酸分子。如果要分离全长RNA,那么可能采用特异于末端的引物,所述末端例如polyA-尾巴(或对应的cDNA上的polyT-尾巴),或者给RNA或cDNA附加人工尾巴并使用特异于该尾巴的 引物。所述引物可对接着的1-100,尤其1-10个核苷酸,例如接着的1、2、3、4、5、6、7、8、9或10个核苷酸具有特异性。通过在所述引物上使用摆动核苷酸,也可能选择这些末端后面的特异性核苷酸。优选地,特异性的区分核苷酸位于核酸分子5’或3’端前100个核苷酸内。当然也可能用引物选择任何内部区域,其中核酸分子可在分离步骤中被分开。提及的对于引物的相同原理当然也可应用于寡核苷酸探针,该探针对这种区分核苷酸类型具有特异性。优选地,针对位于紧接5’和/或3’端的10个核苷酸内的共同核苷酸而选择核酸分子,优选地,针对一或多个共同5’和/或3’端核苷酸类型而选择。这些引物或探针优选地与针对不同的核酸特征而选择的引物或探针联合使用。这样的引物可以例如单独或顺序应用以生成特异于所述核酸特征的子池。这样联合使用的引物或寡核苷酸(即“引物矩阵”)可以例如是含通用部分和区分部分的引物,其中区分部分可以例如是第一引物中的A,第二引物中的T,第三引物中的G,和第四引物中的C。优选地,多于一个的核苷酸被用做核酸特征,其组合可以例如是以AA、AT、AG、AC、TA、TT、TG、TC、GA、GT、GG、GC、CA、CT、CG或CC结尾的引物或寡核苷酸探针,因此用互补核苷酸将核酸分离到不同的子池中。在一个进一步优选的实施方案中,所述核酸特征包含3个或更多,例如4、5、
6、7、8个或更多特异性核苷酸类型。在一个进一步优选的实施方案中,引物的组合为针对位于5’和/或3’端的区分核苷酸而选择的寡核苷酸,例如引物或探针均对两个或多个5’核苷酸和两个或多个3’核苷酸具有特异性。如上面提及,也可能选择内部区域,其中也可能用这样的引物对组合,其在扩增子的每一侧选择两个核酸类型。通过使用末端特异性的引物或探针也可选择内部区域,所述引物或探针带有一定数目的在特定内部区域的互补核苷酸之前的非特异性核苷酸(例如摆动或者通用核苷酸)。在一个优选的实施方案中,用于分离的核酸特征在短读段的组装(或比对)中用作组装的(或比对的)序列的质检特性(qualifying property)。例如,如果核酸特征是特定长度或长度范围,那么正确组装的序列的限定将是此长度或长度范围。如果核酸特征是特定序列,那么当对此核酸的片段测序时,所述片段例如36个碱基长,那么除了这36个碱基夕卜,对于每个片段,另外n个碱基是已知的,其中n为核酸特征的碱基数。如果,例如核酸特征是分子5’侧的6个已知碱基和3’侧的6个碱基,那么除了每个片段的这36个碱基外,2x6个碱基已知位于已测序的片段的一定距离(片段化的分子的长度)之内。因此,如果核酸特征是特定序列,那么此序列必须再次包含在组装的序列中。优选核酸特征在分离的核酸的特定位置上,优选地,位于模板RNA或cDNA的5’或3’端特定的距离上。优选地,核酸特征是序列,且该序列在组装中被使用。核酸特征可包含例如2、3、4、5、6、7、8、9或10个已知核苷酸的两个序列部分,置于一定碱基距离,例如20-1000nts,优选地30-5000nts,尤其优选50_1000nts的距离。在一个优选的实施方案中,分离的核酸包含模板RNA或cDNA的全长序列。这将大大增加重叠群或甚至全长序列的从头组装,因为所有在测序过程中生成的片段读段可在子池内比对,即与一个子池中获得的片段或部分序列比对。如果模板全长RNA的5’和/或3’端核苷酸被用做用于分离的核酸特征,全长RNA分子的起始和/或终止位点上的核苷酸对于该子池中的所有片段是已知的。这种信息允许例如将片段或它们组装的重叠群正确地定位于基因组DNA的正链或者负链上,由此分开基 因的有义和反义转录物。在一个优选的实施方案中,根据本发明方法应用的RNA分子为全长RNA。全长RNA可以例如用上述方法选择。同样也可应用于对应于全长RNA的全长cDNA。如在本文所用,术语“全长RNA”或“全长cDNA”被定义为包括与从RNA的第一个碱基到最后一个碱基的RNA序列互补的序列的RNA或DNA。该方法在WO 2007/062445 (通过引用并入本文)被公开,并包括对末端特异性核酸特征的选择性扩增,例如通过在全长RNA上进行分离的扩增或选择(如本文所描述)。在RNA分子有帽子结构和/或polyA尾巴的情况下,正如在大部分真核mRNA的情况下,“全长RNA”被定义为包括与RNA模板从RNA帽子结构(如RNA 7-甲基鸟苷帽子)后第一个碱基到polyA尾巴之前的最后一个碱基的RNA序列互补的序列的RNA。为了在扩增和/或测序反应期间将引物结合到核酸或片段末端,可能将接头(linker)或连接物(adaptor)连接到所述核酸分子或片段上来允许引物结合。将RNA分子池划分为本发明的子池,使大大降低原始样品的复杂性成为可能,生成具有更少核酸实体的子池并因此增加核酸检测或成功测序和后续拼接的机会。在优选的实施方案中,核酸被分成子池,其中所有子池中至少10%包含所有子池的平均核酸量+/_50%。通过对给定的样品采用合适的分离方法将核酸均匀分为子池,降低复杂性的方法被充分利用。当然,也可存在进一步的子池,其中存在更少的核酸,例如甚至没有任何原始池的核酸的空子池可被用作对照。在优选的实施方案中,所有子池的至少15%、至少20%、至少25%、至少30%、至少35%、至少40%包含所有子池平均核酸量+/-50%。+/-50%的误差幅度在优选的实施方案中为最高+/-50%、最高+/-45%、最高+/-40%、最高+/-35%、最高 +/-30%、最高 +/-25%、最高 +/-20%。优选地,样品包括至少I种,优选地2、3、4、5、6、7或8种罕有RNA分子。罕有的含义为浓度低于1%、低于0. 5%、低于0. 1%、低于0. 05%、低于0. 01% (lOOppm),优选地低于50ppm、低于lOppm、低于5ppm、低于lppm、低于500ppb、低于IOOppb或低于50ppb。优选地待分析样品中存在至少I种、至少2种、至少4种、至少6种或至少8种罕有核酸。在一个进一步的实施方案中,核酸被分到子池,其中至少10%的子池包含2个或更少核酸,优选地含I个核酸。对于非常罕有的核酸这种高稀释度尤其有利,如果也存在来自其它原始池中的核酸(尤其以原始浓度存在),这些罕有的核酸很难检测。在一个进一步优选的实施方案中,分离核酸的步骤包括从所述模板池特异性地扩增所述核酸。具体地,扩增是通过核苷酸引物延伸(优选通过PCR)进行,尤其优选地,其中扩增是通过核苷酸引物延伸(优选通过PCR)进行,尤其优选地,其中扩增使用选择非特异性引物部分后面的至少一个、优选选择至少两个、尤其至少两个相邻的不同碱基的引物进行,由此包含所选的作为子池特异性核酸特征的核苷酸的核酸分子被扩增。上述本发明方法的片段化步骤可用做序列测定步骤中的第一个步骤。测定子池中核酸的序列包括,如上所述将子池中的核酸分子片段化,使给定子池的每个片段与子池特异性标记连接,测定合并的池中片段化的多核苷酸的核苷酸序列(或可选地测定有或没有连接标记的独立的池的核苷酸序列),根据子池特异性标记将片段序列分配至核苷酸分子,以及与其它片段重叠序列,由此测定核酸序列。
因此,在优选的实施方案中,子池特异性标记与片段连接。所述子池特异性标记可为优选在序列测定中共同测定的核苷酸。在进一步的优选实施方案中,原始池中的核酸在分离步骤中被分为至少2个,优选为至少3个、至少4个、至少5个、至少6个、至少7个、至少8个子池,其核酸各自共有对各个子池不同的核苷酸特征。在优选的实施方案中,用于在分离步骤中选择核酸的弓I物或探针优选被固定于固体表面,尤其是一个微阵列或芯片。在测序步骤中也可以进行如上述的用于区分核酸的同样类型的分离,其用来区分不同片段。在一个尤其优选的实施方案中,本方法进一步包括扩增核酸分子,优选地在分离之后,在测定序列之前,尤其优选的是其中所述扩增是通过PCR实现,并且至少一种核苷酸分子被扩增到PCR的饱和阶段。尤其优选的是,不同核苷酸分子的至少10%被扩增到PCR的饱和阶段。这样的扩增反应可以用于将池或子池中的核酸分子的浓度归一化。PCR反应,举例来说有指数阶段,在此阶段核酸分子基本上在每个PCR循环中被加倍。在核酸分子相比引物浓度达到一定浓度的时候,竞争反应开始抑制扩增。因此,大量的核酸分子的扩增开始因为可以阻止引物结合的核酸分子的自身抑制而减慢。或者反应成分如引物、dNTP被用尽。这个阶段被称作饱和阶段。优选地,高丰度的核酸分子达到这个饱和阶段并且扩增被抑制,然而低丰度的分子继续指数扩增。优选地,不同核酸分子中的至少10%,尤其优选至少20%进入饱和阶段。这些扩增反应可以例如通过qPCR (定量PCR)监控。当然,所述反应在常规的PCR反应(但可能未被监控)或其它具有自身抑制的扩增反应中,例如在20、22、24、26、28或30个扩增循环之后发生,这是本发明扩增优选的最小循环数。当例如通过PCR扩增平行分离子池时,含高丰度转录物的子池会较早的达到饱和阶段。因此,不含有这些高丰度的转录物的子池内的转录物会在后面的循环中仍然被扩增,而这时含有高丰度转录物的子池已经处于饱和阶段。因此,当对所有这些子池测序时,罕有转录物被检测到的机会更高。本发明中子池化(sub-pooling)程序还可以用来去除高拷贝转录物,例如从序列测定中排除具有高丰度核酸的子池。优选地,这些从序列测定中排除的具有高丰度核酸分子的子池包含所有子池(可能含有样品中所有核酸分子)的平均量的多于100%的,尤其优选多于150%、更优选多于200%、尤其优选多于300%,例如多于400%、例如多于500%、尤其优选多于1000%的核酸分子。这种子池可以比如是包含占整个原始池的多于0. 1%、0. 5%、甚至多于1%、例如多于2%或多于5%或多于10%的核酸的子池。有待用此方法排除的或归一化的高丰度转录物属于例如看家基因,GAPDH、肌动蛋白、微管蛋白、RPLl、核糖体蛋白或PGKl。本发明进一步通过下图及实施例阐述,但不局限于此。


图I :RNA的分离-NGS方法流程2 :用对数-对数-正态函数模拟基因数目对mRNA (所有基因转录物的总拷贝数)的函数。活跃基因G,16657 ;总转录物T,3. SMio ;最常见转录物数,10 ;对数-对数-正态函数的标度值U,1 ;和形状参数S,0.4。 图3 :根据参数始,33,t结束,1,所有基因总和,25200和转录物的四倍量(100269),定性描述转录物数目与基因数目的关系的指数衰减函数。图4 :根据参数c开始,10000,c结束,1,衰减常数T =0.0522,所有转录物总和,100128,所有拷贝数的总和3. 8Mio描述mRNA (拷贝数)与转录物的相关性的指数衰减函数。图5 :子池化和片段化的一般流程图。图6 :使用核苷酸特异性扩增(分离)的一般原理。在此实例中,5’端前两个核苷酸被用于定义子池,并成为序列标签。图7 =RNA矩阵分离。在此实例中值得注意的是片段F2和F4的序列相同,除非分离为子池(参见步骤10)否则无法被区分。如步骤2所示的将接头序列添加至mRNA的5’端可用任何本领域已知的方法如寡聚加帽法(Maruyama 1994)实现。图8:通过随机引物聚合生成片段。步骤1-4同图9。仅显示子池n。第6步的Sn代表子池特异性标签。图9:随机引物测序,产生片段读段。步骤1-4同图7。在此实例中子池n的分子X是双链的,每条链可以作为测序模板。随机引物结合于测序芯片的表面。子池中每个分子的单链均被杂交到芯片上的引物。因为随机引物可以与分子的任何部分杂交,测序将从分子产生“片段”读段。图10:小鼠基因组覆盖度的比较,覆盖度通过一个未分离的样品(A组)和一个12子池矩阵(Ixl)中的6个的分离的样品(B组)的NGS读段比对得到。一致长度(y_轴)描述唯一检测到的序列的总长。X-轴描述读段的和(十亿碱基)。平均读段长度为65个碱基。虚线连接通过随机抽取读段亚类并将其单独地比对到小鼠基因组得到的数据点。实线为数据点的内插或外推。GC,基因组覆盖度。图11:比较一个子池(子池6)和实施例I中B组的6个合并的子池的基因表达的散点图。基因表达在snRPKM中被描述,snRPKM为RPKM (Mortazavi 2008)归一化到全部6个子池中所有读段的总和。在所有值中随机取10%来减少数据点的数量,以更好地显示。在双对数刻度中的对角线描述第六部分的区段。图中所示为snRPKM值介于0. 01-1000的中心区段。6个6/6线上方的值是因CLC软件中的比对算法的歧义性导致的。图12:显示实施例I中B组的15个最高丰度基因的子池分布。在不同的子池中,基因以不同的浓度存在,显示不同基因的转录物变体被分离,呈现不同的转录物变体浓度。图13 Nnmt基因转录起始位点分析,起始位点通过RNA_seq、0和Ixl矩阵实验的读段分配。示意性画出基因组注释,并显示Nnmt的起始区域。读段用各自的位置描述。碱基读段的相对频率对应于“读段序列的频度” 一行的深灰色区域。
实施例实施例I :通过末端特异性矩阵分离进行的cDNA分离,接着进行NGS分析。所用寡核苷酸见表I。2u g纯化的小鼠肝脏样品RNA与寡核苷酸引物杂交,该寡核苷酸含有在其3’端锚定了 V (C,G,或A)的寡脱氧胸腺嘧啶序列(Seq-2;Linker2-T27-V),逆转录产生cDNA。采用逆转录酶的模板转换活性,在逆转录反应过程中,通过逆转录模板转换寡核苷酸(Seq-1;Linkerl) (US 5962271,US 5962372),将接头序列添加至 cDNA 的 3’端。然后,生成的cDNA的5’端包含由该寡核苷酸引入的polyT区段,其对应于该mRNA的原始polyA尾 巴加上该Linker2序列。cDNA的3’端包含Linkerl序列的反向互补序列接着依赖帽子结构而添加的额外的C核苷酸。准备了两组不同的样品用于测序。通过在50iU反应中,用杂交到CDNA3’端的模板转换序列(Seq-3 ; Linker I)和5’端的polyT序列(Seq-4, Linker2_T27)的引物,用PCR将约27pg的cDNA扩增至约800ng,制备比较组A的单个样品(未分离;0矩阵)。为生成足够的材料用于后续的测序样品制备,8个纯化的PCR反应物混合在一起,且约5 ii g被进一步加工。实际上,该样品包含非特异性的矩阵,只有一个域(field)代表全部cDNA可作为模板的扩增。B组(有分离)由6个样品组成,这6个样品相当于12子池矩阵(1x1矩阵)的6个子池。这里用的表述“1x1矩阵”指的是在cDNA的3’端的I个选择性核苷酸和在cDNA的5’端的一个选择性核苷酸。对于每个选择性核苷酸来说,针对四种核苷酸中的每种都可能分离成池。然而,如果mRNA用作含polyA尾巴的模板,位于该尾巴旁边的核苷酸(或者cDNA上的相应的polyT区段)只能选择其它三种核苷酸(因此核苷酸可用于分离为3个子池)。一个含polyA尾巴的mRNA的Ixl矩阵(分离为末端核酸类型,S卩;临近该尾巴)因此可以分离为4x3=12个子池。例如,其它的矩阵如一个2x0矩阵分离成为4x4=16个子池,一个0x2矩阵分离为3x4=12个子池,或者,一个2x2矩阵分离为3x4x4x4=192个子池。为了生成12个子池,带有CDNA3’端特异性的3’端A、G、C或T的四种引物中的一种,带有CDNA5’端特异性的3’端A、G或C的三种引物中的一种应用每个矩阵域中,选择性地只扩增带有特异性末端组合的cDNA。为了生成B组的6个样品(子池),只需要6个5,/3,(cDNA)引物组合(Seq-9/Seq_5 (C/G);Seq-10/Seq-5 (G/G);Seq-ll/Seq_6 (A/A);Seq-9/Seq-7 (C/C) ;Seq-10/Seq-7 (G/C)) ;Seq-ll/Seq-8 (A/T)),每个扩增大约 27pg 的cDNA至800ng;每个引物组合的8个重复合并成的5iig用于后续的反应中。实际上,B组的6个PCR样品中的每一个平均用cDNA的1/12做模板。表I :用于实施例I中RNA逆转录和矩阵PCR的寡核苷酸。星号代表硫代磷酸酯键,核糖核苷酸冠以“r”。Seq-ID序列
Seq-IA^CTGTAAAACGACGGCCAGTATAGTTATTGATATGTAATACGACTCACTATArG^rG^rG
Seq-2A^CGGAGCCTATCTATATGTTCTTGACATTTTTTTTTTTTTTTTTTTTTTTTTT^T^V
Seq-3G^TTATTGATATGTAATACGACTCACTAT^A
Seq-4G*ACATTTTTTTTTTTTTTTTTTTTTTTTTT*T
Seq-5T^AATACGACTCACTATAGGGG^G
Seq-6T^AATACGACTCACTATAGGGG^A
Seq-7T^AATACGACTCACTATAGGGG^C
Seq-8T^AATACGACTCACTATAGGGG^T
Seq-9N*NTTTTTTTTTTTTTTTTTTTTTTTTT*C
Seq-ION*NTTTTTTTTTTTTTTTTTTTTTTTTT*G
Seq-IlN*NTTTTTTTTTTTTTTTTTTTTTTTTT*A

为制备两组样品用于二代测序,每个PCR样品被片段化(超声处理)成平均长200_1000bp的片段。然后,这些样品经过使用Illumina Genomic Prep试剂盒(IlluminaGenomic Prep Kit ;#FC-102-1001 ;Illumina Inc. ,USA)的标准 Illumina 基因组 DNA 测序样品的制备流水线。事实上,连接物被接到这些片段的末端,所述连接物被用来将这些样品结合到流动池。它们允许簇生成,且可使一个测序引物杂交并开始测序。另外,B组的这6个样品通过使用标准Illumina多重标签,采用多重样品制备寡核苷酸试剂盒(Multiplexing Sample Preparation Oligonucleotide Kit ;#PE-400_2002 ;Illumina Inc.,USA)标上条码。对连接连接物的200_600bp大小的片段进行大小选择用于测序。A组的单个的样品被加载到流动池的一个通道,而B组的这6个样品等量混合并加载到第二通道。通过在cBot (Illumina Inc. , USA)仪器上,使用簇生成试剂盒(Clustergeneration Kit ;#GD-203-2001, version 2 ;Illumina Inc. , USA)生成族。然后通过使用测序试剂盒(Sequencing Reagent Kit ;#FC-104-3002,version 3 ;Illumina Inc. ,USA)在基因组分析仪II (Genome Analyzer II ;Illumina Inc.)上进行76bp的测序操作。B组的6个样品的多重标签通过使用多重测序引物和PhiX对照试剂盒(PhiXControl Kit ;#PE400-2002, version 2 ;Illumina Inc. , USA)读出。对于每个通道,获得短(76bp)读段,且B组的多重读段根据它们的条码被分开。然后,通过随机抽取A组4950084个读段,对两个数据组的读段的数目进行归一化。对于B组的6个样品中的每一个,随机抽取825014个读段,因此B组一共由4950084个读段组成。米用CLC 基因组平台(Genomics Workbench V3. 6. 5 ;CLC bio, Denmark)进行读段组的生物信息分析。从读段剪除5’引物序列,所有错误核苷酸(Ns)从读段中去除,且低于20个核苷酸的临界长度的读段从进一步分析中排除。得到的A组和B组的4940840个和4948650个读段用于后续分析。a)与参考mRNA数据库的比对refMrna数据库于2009年10月4日从UCSC的基因组浏览器的网页6上下载,包含24570个参考mRNA序列,这些序列基于小鼠的基因组组装(mm9,NCBI built 37)。为研究这些参考mRNA中有多少可以通过使用/不使用分离作用而被检测到,进行A组读段和 B组读段与参考mRNA的比对。两个比对采用如下CLC参数(加入冲突注释=否;冲突解决=投票;生成报告=是;生成序列表=是;匹配模式=随机;序列屏蔽=否;相似度=0. 8 ;长度比例=0. 5 ;插入罚分=3 ;缺失罚分=3 ;错配罚分=2)。A组(未分离)检测到15652种mRNA。对于B数据组,可观察到所检测到的mRNA增加到15702种。因为B数据组只包含12个可能的子池中的6个,所以这个小量的增加是显著的。然而,因为该refMrna数据组只包括每个已知基因的一种转录物,需要将两个组与一个更完整的数据组比对,该数据组还包括基因的更多的转录物变体(如剪接变体)。b)与328358个mRNA序列的比对328358个GenBank的mRNA序列5于2009年10月4日从UCSC基因组学浏览器数据库6下载。采用和a)相同的CLC参数,将A组和B组与这328358个GenBank的mRNA序列比对。用A组可以检测到83199个序列,而用B组可以检测到87794个序列。这意味着,当在测序前进行分离时,可以多检测到大约5%的mRNA分子。尽管观察到的改进很明显,这种大mRNA数据库在宽度(基因数量)和深度(基因的转录物变体)上都是有限的。因此,在基因组的背景下进行额外的可选分析。c)针对小鼠基因组的组装完整的参考小鼠基因组3于2009年是10月4日从UCSC基因组浏览器数据库6下载。采用与a)相同的CLC参数进行比对,获得数据组A的基因覆盖率为0. 494%、数据组B为0. 561% (图10)。因此,B组检测到比A组大约多13. 5%的基因组。这对应于约1835663个额外地定位的核苷酸。如果小鼠外显子的平均尺寸是约300-400碱基,那么约4589到6118个的额外的外显子可以被检测到。此外,图10表明读段的比对获得不依赖读段深度的基因组覆盖率的增加,且与使用未分离的样品相比,使用分离的样品(B组)时,使用更小的读段深度就可以获得同样的基因组覆盖率。分析中,通过随机抽取生成读段子集,然后分别与参考基因组比对。基因组覆盖率在IOOMbp的读段深度上的差异是20%,在IGbp上是30%。d)针对带注释的小鼠基因组的RNA-Seq分析结合基因组和转录组彳目息,对在已知基因的上下游的最闻为1000喊基的相当窄的界限内的可能的未知外显子进行表征。在此,从NCBI4数据库(NCBI Build 37,mm9,C57BL/6J,July 2007)下载的完整的有注释的参考小鼠基因组用作参考。再次采用CLC基因组平台(Genomics Workbench)进行RNA-Seq分析。为了包含上下游1000核苷酸的带注释的基因序列,修改了参数组(额外的上游碱基=1000 ;额外的下游碱基=1000 ;生成未组装读段的列表=是;外显子发现=是;错配最大数目(短读段)=2 ;推定的外显子的最小长度=50 ;最小读段数=10 ;生物体种类=真核生物;非特异性匹配限制=10 ;采用色彩空间编码=否;采用基因注释=是;表达值=RPKM ;最低外显子覆盖比例=0. 2 ;最小长度比例(长读段)=0. 9)。数据组A的整合揭示了 207个推定的新型外显子,其中至少73个是通过A组单独唯一检测到的。数据组B明显地增加了这些数字,并且产生256个推定的新型外显子,其中至少122个是单独通过B唯一发现的。因此,分离作用将揭示更多的新信息,甚至是对于已知的基因。e)在所有基因的背景下的个体基因的转录物变体的分离如d中,带注释的参考小鼠基因组被用来采用CLC基因组平台(GenomicsWorkbench)在RNA-Seq分析7中测定表达值(RPKM)。将单独的子池和合并的6个子池 之间的基因表达值进行对比。对比子池6和联合的子池的散点图示于图11。因为随机分布将导致围绕1/6线的散点,图11清晰地表明,分离发生了,因为散点跨越所有6个区段分布。这意味着个体基因的转录物变体被分离到不同子池,这与它们在样品中的浓度相关。例如,画于5/6线以上的基因在该池中有一或更多种转录物变体,这些转录物变体占该基因所有转录物变体的浓度的大于5/6。表2示出根据所有子池的snRPKM值的分布进行分组的总结。在基因组NCBI数据库中被注释的基因总数为31781。在所有的6个子池中,共11478个基因被检测到。被绘入第六部分以上的基因共2688个或者23. 4%。对于这些基因,比起分离,不分离更难检测其它子池中的样品间(即对于其它转录物变体)的浓度变化。表2 :每子池的总和归一化RPKM (snRPKM)值的分布,通过0. 825 Mio读段比所有6个子池的全部4. 95Mio读段的总和归一化的RPKM (snRPKM)得到。
6部分子池I 子池2 子池3 子池4 子池5 子池6~L3,069 3,435 3,092 3,389 3,842 3,023~
~1,597 1,472 1,918 1,441 1,128 1,909~
~1,114 9311,520 8904721,610~
~631575556354120633
~29434413814150200
~453478441315187500
6. +44394368566权利要求
1.对衍生自潜在地多样的RNA分子池的核酸分子片段序列进行划分的方法,包括 任选地逆转录所述RNA分子以提供cDNA分子池, 从所述模板RNA或cDNA池分离核酸,选择潜在地不同的模板,所述模板具有所分离的模板共有的核酸区别特征,从而提供至少第一核酸子池, 任选地进一步从所述模板RNA或cDNA分离核酸一次或多次,选择性地分离具有不同的核酸区别特征的核酸,从而提供一或多个进一步的核酸子池, 通过片段化或者获得所述分离的核酸分子的片段拷贝生成所述分离的核酸分子的片段,其中通过物理分离子池或通过给所述子池的片段添加识别子池的标记使每个子池或合并的子池的片段保持可与其它子池或其它合并的子池的片段分开,或者测定所述分离的核酸分子的部分序列并优选地将至少两个序列或部分序列比对成连接的序列。
2.权利要求I的方法,其特征在于所述分离步骤包括从所述模板RNA或cDNA池分离核酸,选择潜在地不同的模板,所述模板具有所分离的模板共有的至少一个给定核酸类型,所述给定核酸类型位于距离全长模板核酸分子序列的5’或3’端100个核苷酸以内的某个位置,从而提供至少第一核酸子池。
3.权利要求I和2的方法,其还包括测定第一子池和任选地其它子池的片段的序列或部分序列,优选地其中测定至少10个核苷酸、尤其优选至少18个核苷酸、甚至更优选至少25个核苷酸的部分序列。
4.权利要求I、2或3的方法,其特征在于所述RNA分子来源于生物学样品,优选地来源于病毒、原核生物或真核生物。
5.权利要求1-4中任一项的方法,其特征在于分离的核酸分子的片段化包括优选通过物理手段,尤其优选通过剪切作用、超声处理或升温进行的随机片段化。
6.权利要求1-5中任一项的方法,其特征在于所述片段由10-10000个核苷酸组成,优选由25-500个核苷酸组成。
7.权利要求1-6中任一项的方法,其特征在于所述核酸特征为位于所述核酸分子的特定位置的给定的核苷酸类型,优选地所述核苷酸类型选自A、T、U、G、C中的任何一种,优选地,所述位置位于所述核酸分子5’或3’末端100个核苷酸以内。
8.权利要求7的方法,其特征在于针对紧接5’和/或3’端的10个核苷酸内的共同的核苷酸选择所述核酸,优选地,针对一或多个共同的5’和/或3’端核苷酸类型选择所述核酸。
9.权利要求1-8中任一项的方法,其特征在于所述RNA分子为全长RNA和/或所述分离的核酸分子包含全长或完整cDNA或RNA的序列。
10.权利要求3的方法,其特征在于序列测定包含从所述片段,尤其是从其5’或3’端测定至少5个,优选至少8个核苷酸的序列,更优选的是测定所述片段的全序列。
11.权利要求ι- ο中任一项的方法,其特征在于所述核酸被分为子池,其中所有子池的至少10%包含所有子池的核酸平均量+/-50%。
12.权利要求1-11中任一项的方法,其特征在于所述核酸被分为子池,其中至少10%的子池含有2个或更少的核酸,优选地含有I个核酸。
13.权利要求1-12中任一项的方法,其特征在于分离核酸包括特异性扩增来自所述模板池的核酸。
14.权利要求13的方法,其特征在于通过从引物延伸核苷酸进行扩增,优选通过PCR进行,尤其优选的是,其中扩增使用选择非特异性引物部分后面的至少一个,优选选择至少两个,尤其至少两个相邻的不同核苷酸的引物进行,由此包含所选的作为子池特异性核酸特征的核苷酸的核酸分子被扩增。
15.权利要求1-14中任一项的方法,其特征在于使子池特异性标记与所述片段连接。
16.权利要求15的方法,其特征在于所述子池特异性标记为一或多个核苷酸,其优选地在如权利要求3中定义的测序中被共同测定。
17.权利要求1-16中任一项的方法,还包括扩增所述核酸分子,优选在分离之后而在序列测定之前扩增,尤其优选的是,所述扩增通过PCR进行并且至少一种核苷酸分子被扩增至PCR的饱和阶段,尤其优选的是不同核苷酸分子中的至少10%被扩增至PCR的饱和阶段。
18.权利要求1-17中任一项的方法,其特征在于从序列测定中排除具有高丰度核酸分子的子池,其中具有高丰度核酸分子的子池为包含多于所有子池平均量的1000%的核酸分子的子池。
19.权利要求1-18中任一项的方法,其特征在于在核酸的分离中,一条所选的链被分离或一条所选的链被标记,其中优选地,所选的链的片段也被标记。
全文摘要
本发明涉及一种对衍生自潜在地多样的RNA分子池的核酸分子序列进行划分的方法,包括任选地逆转录所述RNA分子以提供cDNA分子池;从所述模板RNA或cDNA池中分离核酸,选择潜在地不同的模板,所述模板具有所分离的模板共有的区别性核酸特征,从而提供至少第一核酸子池;任选地进一步从所述模板RNA或cDNA分离核酸一或多次,选择性地分离具有不同的区别性核酸特征的核酸,从而提供一或多个进一步的核酸子池;通过片段化或获得所述分离的核酸分子的片段拷贝生成所述分离的核酸分子的片段,其中通过物理分离子池或通过给子池的片段添加识别子池的标记使每个子池或合并的子池的片段保持可与其它子池或其它合并的子池的片段分开,或者测定所述分离的核酸分子的部分序列并优选地将至少两个序列或部分序列比对成连接的序列。
文档编号C12Q1/68GK102782152SQ201080056185
公开日2012年11月14日 申请日期2010年12月10日 优先权日2009年12月11日
发明者A·塞茨, L·保罗, M·J·范米恩 申请人:莱克斯奥根有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1