将靶标富集的序列读出分配到基因组位置的方法_3

文档序号:9810886阅读:来源:国知局
或猴细胞)的基因组DNA。制备用于分析的基因组DNA的方法在本领域是常规且已知的,例如Ausubel,F.M.等人,(1995),上文和Green等人,(2012),上文描述的那些。初始基因组样品可包含基因组DNA或其扩增版本(例如,利用Lage等人(Genome Res.2003 13:294-307)、Zong 等人(Science.2012 338:1622-1626)或公开的专利申请US20040241658的方法通过全基因组扩增方法扩增的基因组DNA)。可通过利用物理方法(例如,声处理、雾化或剪切)、化学地、酶促地(例如,利用罕见-切割限制酶(rare-cutting restrict1n enzyme))或利用可转座元件(参见,例如,Carucc1MethodsMol.B1l.2011 733:241-55 ;Kaper 等人,Proc.Natl.Acad.Sc1.2013 110:5552-7 !Marine等人,Appl.Environ.Microb1l.2011 77:8071-9 和 US20100120098)使基因组片段化来制备片段。
[0061]在某些实施方式中,富集的样品包含通过与多个捕获序列杂交而被富集的片段化基因组核酸。在这种情况下,片段化基因组核酸可以是:基于使用的限制酶,在预定位点被酶促切割的基因组核酸。
[0062]样品可由培养的细胞或临床样品的细胞(例如,组织活检、刮擦或灌洗)或法医样品的细胞(即,在犯罪现场收集的样品的细胞)制备。在特定实施方式中,核酸样品可获得自生物样品例如细胞、组织、体液和粪便。感兴趣的体液包括但不限于,血液、血清、血楽、唾液、黏液、痰(phlegm)、脑脊髓液(cerebral spinal fluid)、胸膜液、泪液、乳糜管液(lactal duct fluid)、淋巴液、痰液(sputum)、脑脊液(cerebrospinal fluid)、滑液、尿液、羊水和精液。在特定实施方案中,样品可获自个体,例如,人类,并可在用于本方法之前被加工。例如,核酸可在使用之前从样品提取,其方法是已知的。在特定实施方案中,基因组样品可来自福尔马林固定石蜡包埋(FFPE)样品。
[0063]根据实施哪种方法,初始样品(即,在富集之前)可包含已连接衔接子(adaptor)的基因组DNA的片段。在另一些实施方式中,可在富集片段后,将它们与衔接子连接。
[0064]在一些情况下,可合并样品。在这些实施方式中,片段可具有指示它们来源的分子条码。在一些实施方式中,被分析的DNA可来源于单一来源(例如,单一生物体、病毒、组织、细胞、受试者等),而在另一些实施方式中,核酸样品可以是从多个来源提取的核酸合并物(例如,来自多个/种生物体、组织、细胞、对象等的核酸合并物),其中“多个/种”表示两个/种或更多个/种。因而,在某些实施方式中,样品可包含来自2或更多个/种来源、3或更多个/种来源、5或更多个/种来源、10或更多个/种来源、50或更多个/种来源、100或更多个/种来源、500或更多个/种来源、1000或更多个/种来源、5000或更多个/种来源、直至并包括约10,000或更多个/种来源的核酸。如上所述,分子条码可允许在分析来自不同来源的序列之后区分它们。
[0065]在获得富集的样品之后,其被扩增并测序。在某些实施方式中,使用与在例如Illumina的可逆性终止法、Roche的焦磷酸测序法(454)、Life Technologies的边连接边测序法(SOLiD平台)或Life Technologies的1n Torrent平台中使用兼容的引物扩增片段。这样的方法的实例被描述在以下参考文献中:Margulies等人(Nature 2005437:376 - 80) ;Ronaghi 等人(Analytical B1chemistry 1996 242:84 - 9) ;Shendure 等人(Science 2005 309:1728-32) ; Ime I fort 等人(Brief B1inform.2009 10:609-18);Fox等人(Methods Mol B1l.2009 ;553:79-108) ;Appleby 等人(Methods Mol B1l.2009 ;513:19-39)和Morozova等人(Genomics.2008 92:255-64),这些文献通过引用方法以及方法的具体步骤,包括每个步骤的所有起始产物、试剂和最终产物的一般性描述而并入。
[0066]在一个实施方式中,可利用纳米孔测序(例如,如Soni等人2007 Clin.Chem.53:1996-2001中所述或如Oxford Nanopore Technologies所述)对分离的产物进行测序。纳米孔测序是单分子测序技术,其中单个DNA分子在通过纳米孔时被直接测序。纳米孔是小洞,其直径Inm左右。将纳米孔浸入传导流体并越过它应用电势(电压)导致微电流,这是因为离子通过纳米孔被传导。流过的电流量对纳米孔的尺寸和形状敏感。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸不同程度阻塞纳米孔,从而不同程度地改变通过纳米孔的电流的量级。因此,这种DNA分子穿过纳米孔时的电流改变代表DNA序列的读出。纳米孔测序技术在美国专利号 5,795,782、6,015,714、6,627,067、7,238,485 和 7,258,838以及美国专利申请号2006003171和20090029477中被公开。
[0067]在一些实施方式中,对于每个富集的区域,测序可产生至少100个、至少1000个、至少10000个直至100000个或更多个序列读出(102)。序列读出(102)的长度可根据例如所使用的平台有很大变化。在一些实施方式中,序列读出(102)的长度可在30-800个碱基的区域内,在一些情况下,可包含末端配对的序列读出。
[0068]如图1中所示,本公开的一些方面包括用于将序列读出分配到基因组位置的计算机实施方法,除了其它步骤之外,所述方法包括:访问包含序列读出的文件(104),所述序列读出例如通过如上所述的测序获得自已通过与多个捕获序列杂交而被富集的核酸样品。包含序列读出的文件可存在于实施主题方法的相同计算机上,或可存在于被配置为与实施主题方法的计算机通讯的不同计算机上,例如在远程服务器上。在某些实施方式中,访问文件(104)涉及打开文件以使文件的内容例如来自测序运行的序列读出(102)可被读取并被分配到基因组位置。在一些实施方式中,待被分配到基因组位置的序列读出被读入工作存储器中。
[0069]在访问包含序列读出的文件(104)之后,除了其它步骤之外,将序列读出分配到基因组位置的本方法包括:如果序列读出包含捕获序列(110)的一个或更多个子序列,则将捕获序列识别为与所述序列读出的匹配。当一个核苷酸序列包含与第二核苷酸序列的子序列或其反向互补物相同的序列即子序列时,则出现第一核苷酸序列和第二核苷酸序列之间的匹配。换言之,如果第一核苷酸序列包含具有与第二核苷酸序列的子序列或其反向互补物的长度和5’ -3’方向的核苷酸顺序(例如,对于DNA,A、G、T或C)分别相同的长度和核苷酸序列的子序列时,则第一核苷酸序列和第二核苷酸序列匹配。可使用任何合适的方法来确定两个核苷酸序列/子序列之间的同一性。
[0070]因此,在某些实施方式中,如果序列读出包含一个或更多个与捕获序列(110)的子序列相同的子序列,则捕获序列被识别为与序列读出的匹配。在某些实施方式中,与序列读出匹配的捕获序列的一个或更多个子序列的长度在4bp-20bp的范围内,例如,4-18bp,包括5-15bp或6-10bp。在某些实施方式中,捕获序列在例如3-30个,包括3_25个、4_20个、4-10个或4-8个子序列之间分开,如果序列读出匹配捕获序列,则其中的一个或更多个被包含在序列读出中。因此,在某些实施方式中,将捕获序列的一个或更多个子序列与选自捕获序列的例如,3-30个,包括3-25个、4-20个、4_10个或4_8个子序列的捕获序列的子序列进行比较。
[0071 ] 在某些实施方式中,捕获序列的子序列跨越整个捕获序列。在这种情况下,组合的所有子序列包含整个捕获序列。在某些实施方式中,捕获序列的子序列跨越整个捕获序列平铺,以使没有子序列与捕获序列的任何其它子序列重叠。在一些实施方式中,捕获序列的子序列跨越整个捕获序列,其中子序列在滑动窗中沿着捕获序列分布,以使连续的子序列彼此偏离I个核苷酸至子序列的长度的范围内的数目。
[0072]在某些实施方式中,如果序列读出的末端区域包含捕获序列的一个或更多个子序列,则捕获序列被识别为与与序列读出的匹配。在某些实施方式中,包含捕获序列的一个或更多个子序列的序列读出的末端区域在距序列读出的末端5bp_10bp的范围内,例如,7bp_80bp,包括10bp_50bp、12bp_40bp或15bp_30bp。在某些实施方式中,如果序列读出的末端区域包含一个或更多个与捕获序列的子序列相同的子序列,则捕获序列被识别为与序列读出的匹配。
[0073]可使用任何合适的方法来确定序列读出是否包含一个或更多个与捕获序列的子序列相同的子序列。图2显示了本方法的一种实施,其中将序列读出分配到基因组位置的步骤包括产生数据结构(205)。可如下产生数据结构:首先访问包含用于富集靶标核酸的捕获序列(201)的文件(203),和将捕获序列储存在数据结构中作为由包含捕获序列的子序列的序列密匙(205)所映射的值。包含序列读出的子序列的读出序列密匙可提取自序列读出,例如,序列读出的末端区域(206)。在这种情况下,识别步骤包括:使用读出序列密匙(208)搜索包含捕获序列的数据结构,和如果序列读出包含一个或更多个序列密匙(210),则将一个或更多个捕获序列识别为与序列读出的匹配。
[0074]在某些实施方式中,如果序列读出不包含捕获序列的任何子序列,则没有捕获序列可以匹配序列读出。在这种情况下,可使用不同的捕获序列的子序列集合重复该方法,或者可使用相同的捕获序列的子序列集合但利用较低的匹配严格性标准重复该方法,即,捕获序列子序列和序列读出子序列之间低于100%的同一性可被认定为捕获序列和序列读出之间匹配。在某些实施方式中,从进一步分析中丢弃被识别为不与捕获序列匹配的序列读出。
[0075]如图1和2中所示,识别序列读出和捕获序列之间的匹配之后(110、210),计算指示每个匹配的捕获序列与序列读出之间的序列相似性程度的评分(112、212)。因此,本公开的另一方面包括:使用计算机计算指示每个匹配的捕获序列与序列读出之间的序列相似性程度的评分(112、212)。当在本文中使用时,在两个核酸序列的语境中,“序列相似性”或“相似性”涉及:在特定的比较窗上,为了获得最大的对应性进行比对时,如通过序列比较算法或通过目测所测量的两个序列之间的序列同一性的特定程度。如下文更详细描述的,用于计算评分的计算机可以是任何合适的计算机。
[0076]在一些实施方式中,指示序列相似性程度的评分可以是两个序列之间的同一性百分比。当在本文中使用时,“序列同一性百分比”表示:通过在比较窗上比较两个最佳比对的序列测定的值,其中与参考序列(其不包括添加或缺失)相比,比较窗中的多核苷酸序列的部分可包括添加或缺失(即,缺口)以最佳地比对两个序列。如下计算百分比:确定两个序列中出现相同核酸碱基的位置的数目以产生匹配位置的数目,用匹配位置的数目除以比较窗中的位置的总数,并将结果乘以100以产生序列同一性的百分比。
[0077]可使用任何合适的序列比对方法用于比较。因此,可使用数学算法来完成
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1