将靶标富集的序列读出分配到基因组位置的方法_2

文档序号:9810886阅读:来源:国知局
-basedtargeted genomic enrichment for prec1us DNA samples BMC B1technol.2012 12:20)中所述的那些。
[0038]当在本文中使用时,“捕获序列”指的是能够与靶核酸杂交的核苷酸序列,例如含有来自感兴趣的基因组位置的序列的基因组片段,其可被用来相对于不感兴趣的其它核酸富集样品中的靶核酸。捕获序列可包含与靶核酸互补的核苷酸序列。
[0039]当在本文中使用时,“子序列”指的是被包含在更长核苷酸序列中的核苷酸序列。因此,核苷酸序列的子序列具有与核苷酸序列或其反向互补物的至少一部分相同的核苷酸序列。核苷酸序列的子序列可比核苷酸序列短Int (核苷酸)或更多,例如,2nt或更多,包括3nt或更多、4nt或更多、5nt或更多、6nt或更多、7nt或更多、8nt或更多、9nt或更多、1nt或更多、15nt或更多、20nt或更多、25nt或更多、30nt或更多、或50nt或更多。核苷酸序列的子序列的长度可以为3nt直至比核苷酸序列的长度短Int,例如4nt直至比核苷酸序列的长度短3nt的长度,包括5nt直至比核苷酸序列的长度短5nt的长度,6nt直至比核苷酸序列的长度短1nt的长度。
[0040]术语“数据结构”指的是便于数据使用的组织数据的方式。数据结构可包括表(例如散列表(hash table))、数据库、阵列、集合、图等。
[0041]当在本文中使用时,在表的语境中,“序列密匙”指的是被用来定位与表中的序列密匙相关联的值的要素的序列,例如核苷酸的序列。因此,储存核苷酸序列的表可将源自核苷酸序列的序列密匙映射(map)到核苷酸序列。例如,序列密匙可以是核苷酸序列的子序列。
[0042]详细说曰月
[0043]在描述多种实施方式之前,应该理解:本公开的教导不限于所述特定实施方式,并因而当然可以变化。还应该理解:本文中所用术语仅为了描述【具体实施方式】,并没有意图是限制性的,因为本教导的范围将仅由所附的权利要求限定。
[0044]本文所使用的节标题仅为了组织目的,其不应以任何方式被解释为限制被描述的主题。虽然结合多种实施方式描述本教导,但这并不意味着本教导限于这些实施方式。相反地,本教导包含本领域技术人员理解的各种替代选择、改变和等价物。
[0045]在提供数值范围的情况下,应理解,在本公开中包含在该范围的上下限之间的、除非上下文另有明确指示到下限单位的十分之一的每个中间值和所述范围中的任何其它所示值或中间值。
[0046]对任何出版物的引用是其在申请日前的公开,并不应当解释为承认本权利要求无权凭借在先发明早于这些出版物。此外,所提供的出版物的日期可不同于实际公开日期,其可能需要独立确认。
[0047]必须注意:当在本文和所附权利要求中使用时,除非上下文明确指出相反情况,否则不使用数量词时涵盖复数的指代物。还应注意:权利要求可撰写成排除任何任选要素。因此,该陈述旨在作为使用与权利要求要素的引述相联系的这些排他性术语如“仅仅”、“仅”等或使用“否定性”限制的在先基础。
[0048]正如本领域技术人员在阅读本公开后显而易见的,本文描述的和示例的每个单独的实施方式有独立的组成和特征,其可以很容易地与任何其它几种实施方式的特征分开或组合而不脱离本教导的范围或精神。任何记载的方法可以以记载的事件顺序进行或逻辑上可行的任何其它顺序进行。
[0049]本领域的普通技术人员应理解,本发明在其应用中不局限于在本文的描述或附图中阐述的结构、组件排列、类别选择、加权、预定信号极限、或步骤的细节。本发明能够拥有其它实施方式并以许多不同方式加以实践或实施。
[0050]除非另有说明,本公开内容的多个实施方式的实践应用生物化学、化学、分子生物学、基因组和重组DNA的常规技术,它们在本领域技术人员的能力范围内。参见,例如,Green 和 Sambrook, MOLECULAR CLONING:A LABORATORY MANUAL,第 4 版(2012) ;SHORTPROTOCOLS IN MOLECULAR B1LOGY (F.M.Ausubel 等人编(1995)) !METHODS IN ENZYM0L0GY系列(Academic Press, Inc.);和 PCR 2:A PRACTICAL APPROACH(M.J.MacPherson, B.D.Hames 和 G.R.Taylor 编(1995))。
[0051]本文提供了将序列读出分配到基因组位置的计算机实施方法,S卩,识别在测序运行中被识别的核苷酸序列在其源自的基因组内的位置的方法。在某些实施方式中,应用主题方法将获自核酸样品的序列读出分配到基因组位置,其中所述核酸样品已通过与多个捕获序列杂交而被富集,其中所述捕获序列靶向多个感兴趣的基因组位置。当使用靶标富集方法获得序列读出时,富集的生物化学方法限制了可以是读出(或读出对)来源的可能基因组位置。这大大降低了匹配空间的复杂度,即从?3X 19个位置(例如,整个人类基因组)至最多?2.5 X 16个位置(例如,人类外显子组),且对于许多含有多个捕获序列的靶标富集组,仅几千个可能的位置。
[0052]本文还提供包括用于进行主题方法的指令的序列读出分配程序、含序列读出分配程序的计算机可读存储介质、和在计算机系统上使用序列读出分配程序执行主题方法的方法。下文描述了本公开的进一步细节。
[0053]将序列读出分配到基因组位置的方法
[0054]如上文所概述,本公开的一些方面涉及用于将序列读出分配到基因组位置的计算机实施方法。所述方法的一些方面包括:a)访问含序列读出的文件,其中所述序列读出获得自已通过与多个捕获序列杂交而被富集的核酸样品;和《通过下述将所述序列读出分配到基因组位置:i)如果所述序列读出包含捕获序列的一个或更多个子序列,则将捕获序列识别为与所述序列读出的匹配;ii)使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和iii)如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置。将参照图1和2更详细地描述本公开的一个实施方式。
[0055]如图1中所示,可对获得自通过与多个捕获序列杂交而被富集的样品的序列读出(102)执行本方法。在某些实施方式中,序列读出(102)获得自已针对特定基因组区域被富集的样品,即,含有对应于特定基因组区域的基因组DNA的片段的样品,其中所述片段已从片段化的总基因组DNA中被富集。在一些情况下,富集的基因组区域可包含这样的基因,所述基因具有与一种或更多种癌症相关的突变,所述癌症例如,乳腺癌、黑素瘤、肾癌、子宫内膜癌、卵巢癌、胰腺癌、白血病、结直肠癌、前列腺癌、间皮瘤、胶质瘤、成神经管细胞瘤(medul1bastoma)、红血球增多症、淋巴瘤、肉瘤或多发性骨髓瘤等(参见,例如,ChialProto-oncogenes to oncogenes to cancer.Nature Educat1n 2008 1:1)。感兴趣的基因包括但不限于,PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFRl、EGFR、CDK4、BRAF、RET、P⑶FRA、KIT和ERBB2。在特定情况下,样品可包含已被富集的对应于多个不同基因组区域(例如,若干不同区域,例如,至少2个、至少5个、至少10个、至少50个、至少100个或至少1000个或更多个不同、不重叠的区域)的基因组DNA的片段,其中每个区域可对应于基因,例如致癌基因。
[0056]可采用任何便利的方法,例如采用与寡核苷酸捕获探针杂交或采用基于连接的方法,从初始基因组样品中富集经富集的基因组区域。在一些实施方式中,可如下富集基因组区域:在溶液中与一种或更多种生物素化的寡核苷酸捕获探针(在某些情况下,其可以是RNA寡核苷酸)杂交,其中所述捕获探针的长度可以为20-200nt,例如长度100_150nt,以捕获感兴趣的区域。在这些实施方式中,捕获后,可使用例如链霉亲和素珠将含有与寡核苷酸杂交的基因组DNA片段的双链体与其它片段分离。在另一些实施方式中,可采用Dahl等人(Multiplex amplificat1n enabled by selective circularizat1n of large setsof genomic DNA fragments.Nucleic Acids Res.2005 33: e71)所述的方法富集感兴趣的区域。在该方法中,可使用一种或更多种限制酶将基因组样品片段化,并使其变性。在该方法中,使捕获探针文库或组与靶向的片段杂交。每个捕获探针是被设计为与靶向的DNA限制片段的两端杂交的寡核苷酸,从而指导靶向的片段形成环状DNA分子。所述环状分子然后通过连接被闭合,这是保证仅完美杂交的片段被环化的极为精确的反应。然后,扩增环状DNA革El标。另一些富集方法可被描述在,例如,Hedges等人(Comparison of three targetedenrichment strategies on the SOLiD sequencing platform.PLoS One 2011 6:el8595)和 Shearer 等人(Solut1n-based targeted genomic enrichment for prec1us DNAsamples BMC B1technol.2012 12:20)中。
[0057]在一些情况下,每个捕获探针包含被设计为与核酸(例如,靶向的DNA限制片段)的一端杂交的捕获序列。在这种情况下,可通过与样品中核酸的一端杂交的多个捕获序列,针对靶标片段(例如,靶标基因组限制片段)富集核酸样品(例如,片段化基因组样品)。在某些实施方式中,捕获序列包含这样的序列,所述序列与预期在通过酶促切割基因组样品产生的基因组限制片段的末端的基因组位点杂交。捕获探针的每一端的捕获序列的长度可以在 10bp-50bp 的范围内,例如 12bp-40bp,包括 15bp_30bp、17bp_25bp 或 18bp_22bp。在某些情况下,在捕获探针的每一端的捕获序列的长度为约20bp ο在某些实施方式中,捕获探针文库或靶标富集组中的捕获序列代表约10-约10'例如,约50-约109,包括约100-约10s、约13-约18或约10 4_约18个不同的序列。
[0058]捕获探针可包含方便来自样品的靶标核酸的富集、测序和/或分析的额外功能性序列和部分,例如,引物结合位点、条码序列、结合构件例如生物素等。因此,捕获探针可包含在环化期间被整合的方法特异性测序基序。在一些情况下,捕获探针被生物素化且可使用链霉亲和素珠得到靶向的片段。
[0059]捕获探针还可包含将每个单独的核酸分子彼此区分开的识别标签。换言之,捕获探针的识别标签从溶液(例如,捕获探针在其中与样品核酸杂交以用于富集的溶液)中存在的所有其它捕获探针中唯一地识别捕获探针。在某些实施方式中,识别标签可以是条码寡核苷酸序列,其是捕获探针寡核苷酸的子序列。因此,条码序列允许随后序列读出与序列读出源自的核酸群体(例如,富集的基因组片段的扩增产物)的关联。
[0060]基因组DNA可分离自任何生物体。所述生物体可以是原核生物或真核生物。在某些情况下,所述生物体可以是植物(例如,拟南芥(Arabidopsis)或玉米)或动物(包括爬行动物、哺乳动物、鸟、鱼和两栖动物)。在一些情况下,初始基因组样品可分离自人类或啮齿动物,例如小鼠或大鼠。在一些示例性实施方式中,初始基因组样品可包含来自哺乳动物细胞(例如,人类、小鼠、大鼠
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1