将靶标富集的序列读出分配到基因组位置的方法

文档序号:9810886阅读:528来源:国知局
将靶标富集的序列读出分配到基因组位置的方法
【技术领域】
[0001]靶标富集方法被用在诊断和临床研究领域中以加速下一代测序(NextGenerat1n Sequencing,NGS)工作流程。这种方法从样品DNA中仅分离这样的片段,即所述片段匹配被设计为靶向一套(a suite)感兴趣的基因组区域的探针。
【背景技术】
[0002]在许多情况下,从NGS数据中提取诊断信息的第一个处理步骤是将每个序列读出(sequence read)(或读出对)用其可能的基因组位置标签化。可用于该目的的通用比对程序(general purpose aligners)例如 Burrows-Wheeler Aligner (BffA)是尝试在整个基因组中找到每个读出(或读出对)的最佳匹配的程序。然而,类似BWA的程序使用仅由每个读出的序列和全基因组参考数据提供的信息来比对序列。因此,当序列读出获自使用靶标富集组(target enrichment panel)富集的样品时,通用比对程序不将革E标富集参数整合在匹配算法中,从而导致较长的处理时间和降低的标签化精确度。

【发明内容】

[0003]本文提供用于将序列读出分配到基因组位置的计算机实施方法等,除了其它步骤之外,所述方法包括:a)访问含有序列读出的文件,其中所述序列读出获得自已通过与多个捕获序列杂交而被富集的核酸样品;和b)通过下述将所述序列读出分配到基因组位置:i)如果所述序列读出包含捕获序列的一个或多个子序列(subsequence),则将捕获序列识别为与所述序列读出的匹配;ii)使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和iii)如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置。
[0004]在某些实施方式中,识别步骤i)包括:如果序列读出的末端区域包含一个或多个捕获序列的一个或多个子序列,则将所述一个或多个捕获序列识别为与序列读出的匹配。在这样的实施方式中,所述末端区域可以在距序列读出的末端10bp-50bp的范围内。在某些实施方式中,所述一个或多个子序列的长度在5bp-15bp的范围内。
[0005]在任何上述实施方式中,所述捕获序列的一个或多个子序列选自捕获序列的4-20个子序列。
[0006]在任何上述实施方式中,子序列在整个捕获序列上平铺(tile)。
[0007]在任何上述实施方式中,计算的评分基于匹配的捕获序列和序列读出之间的序列同一性的长度、匹配的捕获序列和序列读出之间的字符串编辑距离(string editdistance)、每个错配在序列读出内的位置、或它们的组合。
[0008]在任何上述实施方式中,步骤i)还包括生成数据结构,其中捕获序列被储存在数据结构中作为由含捕获序列之子序列的序列密匙(key)所映射(map)的值,且识别步骤包括:如果序列读出包含一个或多个序列密匙,则将一个或多个捕获序列识别为与序列读出的匹配。
[0009]在任何上述实施方式中,序列读出是末端配对的序列读出(paired-end sequenceread)。
[0010]在任何上述实施方式中,富集的样品包括片段化基因组核酸的扩增拷贝,其中所述片段化基因组核酸通过与多个捕获序列杂交而被富集。在这样的实施方式中,片段化基因组核酸可通过在预定位点酶促切割基因组核酸而被片段化。
[0011]在任何上述实施方式中,核酸样品通过多个与核酸末端杂交的多个捕获序列而被富集。
[0012]在任何上述实施方式中,分配步骤b)还包括:如果序列读出不含捕获序列的任何子序列,则丢弃所述序列读出。
[0013]在任何上述实施方式中,对多个序列读出执行所述方法,从而将多个序列读出分配到基因组位置。
[0014]在任何上述实施方式中,分配步骤b)还包括:iv)将在所有匹配的捕获序列中具有最高的计算评分的匹配捕获序列识别为最佳匹配;和V)通过将序列读出添加到匹配最佳匹配捕获序列的独特(unique)序列读出集合(set)来将序列读出分配到基因组位置,其中所述集合中的每个独特序列读出包含与所述集合中的所有其它序列读出的子序列相同的子序列。在这样的实施方式中,与所述集合中的所有其它序列读出的子序列相同的子序列可以是条码(barcode)序列。在某些实施方式中,所述方法还包括:对分配到捕获序列的独特序列读出的集合的数目进行计数。
[0015]在任何上述实施方式中,捕获序列包含12-1O8个不同的序列。
[0016]本文还提供将序列读出分配到基因组位置的方法,所述方法涉及:a)将用于通过与集合中的多个捕获序列杂交来富集核酸样品的捕获序列集合输入含序列读出分配程序的计算机系统中,其中所述序列读出分配程序包括以下的指令:i)访问含序列读出的文件,其中所述序列读出获得自经富集的核酸样品;和ii)通过下述将所述序列读出分配到基因组位置:如果所述序列读出包含捕获序列的一个或多个子序列,则将捕获序列识别为与所述序列读出的匹配;使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置;b)将含序列读出的文件输入序列读出分配程序;和c)执行序列读出分配程序。
[0017]本文还提供包含序列读出分配程序的计算机可读存储介质,其包括以下的指令:a)访问含序列读出的文件,其中所述序列读出获得自已通过与多个捕获序列杂交而被富集的核酸样品;和《通过下述将所述序列读出分配到基因组位置:i)如果序列读出包含捕获序列的一个或多个子序列,则将所述捕获序列识别为与所述序列读出的匹配;ii)使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和iii)如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置。
[0018]下文更详细描述了这些和另一些实施方式和实施。
【附图说明】
[0019]本领域技术人员将理解,下述附图仅用于阐释目的。附图不旨在以任何方式限制本教导的范围。
[0020]图1是阐释本公开的一个实施方式的流程图。
[0021]图2是阐释本公开的另一个实施方式的流程图。
【具体实施方式】
[0022]
[0023]除非另外定义,否则本发明使用的所有技术和科学术语具有本公开所属的技术领域的普通技术人员通常理解的相同含义。
[0024]术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”、“核酸分子”、“核酸序列”和“寡核苷酸”可以互换使用,且根据所用术语的语境也可以各自包含它们每一个的复数。它们是指,任意长度的核苷酸(脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA)或其类似物)的聚合形式。多核苷酸可以具有任意的三维结构,且可以执行已知的或未知的任何功能。以下是多核苷酸的非限制性实例:基因或基因片段的编码区域或非编码区域、由连锁分析(linkageanalysis)确定的基因位点、外显子、内含子、信使RNA(mRNA)、转运RNA(tRNA)、核糖体RNA、核酶、小干扰RNA(siRNA)、微小RNA(miRNA)、小核RNA(snRNA)、cDNA、重组多核苷酸、支化多核苷酸、质粒、载体、任意序列的经分离DNA(A,B以及Z结构)、PNA、锁核酸(LNA)、TNA(苏糖核酸,treose nucleic acid)、任意序列的经分离RNA、核酸探针、以及引物。LNA通常被称为不可及(inaccessible) RNA,其是经修饰的RNA核苷酸。LNA核苷酸的核糖部分通过连接2’位和4’碳的外部桥而被修饰。这个桥将核糖“锁”在3’ -内结构构象,该构象在A型DNA或RNA中很常见,这种构象能够显著提高热稳定性。
[0025]根据语境,核苷酸或核苷酸序列可以指核苷酸或核酸分子中所含的序列信息,SP,构成核酸分子的核苷酸类型或核苷酸类型的序列。
[0026]当在本文中使用时,术语“测序”指的是获取多核苷酸的至少10个连续核苷酸的身份(例如,至少20个、至少50个、至少100个或至少200个或更多个连续核苷酸的身份)
的方法。
[0027]术语“下一代测序”指的是Illumina、Life Technologies和Roche等目前采用的所谓并行化边合成边测序或边连接边测序平台。下一代测序方法还可包括纳米孔测序方法或基于电子检测的方法例如被Life Technologies商业化的离子激流(1n Torrent)技术。
[0028]术语“序列读出”指的是测序运行的输出。序列读出用一串核苷酸来代表。序列读出可伴随关于序列质量的度量。例如,序列中的每个核苷酸可与那个位置的碱基调用(即,测定核苷酸是G、A、T或C)的可信度有关。
[0029]当在本文中使用时,术语“扩增”指的是:使用靶核酸作为模板,产生靶核酸的一个或更多个拷贝。
[0030]“杂交”指的是这样的反应,其中一个或更多个多核苷酸反应以形成凭借核苷酸残基的碱基之间的氢键而稳定的复合体。氢键可通过Watson-Crick碱基配对、Hoogstein结合、或以任何其它序列特异性方式存在。复合体可包含形成双链结构的两条链、形成多链复合体的三条或更多条链、单一的自杂交链、或这些的任意组合。
[0031]如本领域技术人员所知,杂交可在多种严格性的条件下进行。合适的杂交条件是这样的:捕获序列和靶核酸之间的识别相互作用既足够特异又足够稳定。提高杂交反应的严格性的条件众所周知且在本领域中被公开。参见,例如,Green等人,(2012),下文。
[0032]“多个/种”包含至少2个/种成员。在某些情况下,多个可具有至少10个/种、至少100、至少1000、至少10,000、至少100,000、至少106、至少107、至少18或至少10 9或更多个/种成员。
[0033]术语“参考序列”指的是可将候选序列与其比较的已知序列,例如来自公共或内部数据库的序列。参考序列可以是参考基因组序列。
[0034]当在本文中使用时,术语“基因组位置”或“基因组区域”可互换使用,用于指基因组(例如,动物或植物基因组例如人类、猴子、大鼠、鱼或昆虫或植物的基因组)的区域。
[0035]关于序列读出,术语“分配”、“关联”、“标签化”在本文中可互换使用,用于指这样的过程,其中用序列读出可能源自的一个或更多个来源来注释序列读出。序列读出的来源可由用于富集序列读出所源自之核酸样品的捕获序列来表示,或者可由参考基因组的位置来表示等。
[0036]术语“经富集样品”指的是包含与基因组的其余部分分离的基因组DNA片段的样品。根据使用的片段化方法,经富集片段可为任何长度。在某些实施方式中,片段的长度可在100bp-3kb的范围内,例如100bp-2500bp长度,包括200bp_1000bp长度,尽管可使用在该范围之外的片段。取决于如何进行片段化和/或富集,对于任何一个经富集区域,片段分子的末端可以是相同的或不同的。
[0037]关于基因组,术语“富集”指的是将基因组的一个或更多个区域与基因组的其余部分分离,以产生与基因组的其余部分分离的产物。可使用多种方法进行富集,包括例如Hedges 等人(Comparison of three targeted enrichment strategies on the SOLiDsequencing platform.PLoS One 2011 6:el8595)和 Shearer 等人(Solut1n
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1