将靶标富集的序列读出分配到基因组位置的方法_5

文档序号:9810886阅读:来源:国知局
2、202)和捕获序列的文件的本地计算机上执行序列读出分配程序。在某些实施方式中,可在远程位置(例如,远程服务器)执行序列读出分配程序,且含序列读出(102、202)和捕获序列的文件也可被储存在一个或多个远程位置。在这种情况下,输入可包括:在本地计算机上输入一个或多个储存含序列读出(102,202)和捕获序列的文件的远程位置,和将位置信息传送到执行序列读出分配程序的远程位置。
[0094]下文描述了主题方法的一种实施。靶标富集试剂盒由与位于基因组的靶向区域中的DNA片段选择性杂交的捕获探针的集合来限定。仅捕获的DNA片段被扩增且能够产生测序读出。
[0095]将序列读出分配到基因组位置的方法包括:
[0096]?读取来自靶标富集设计的探针的所有捕获序列和它们被设计为匹配的基因组位置。
[0097].构建一些这些探针的快速访问表,其密匙是匹配由需要展示的那些探针捕获的读出的短DNA子序列。不同的表使用捕获区域的不同子序列以使得:如果DNA片段具有与捕获区域关于其设计的参考序列略微不同的序列(基因组变体),则一些由读出计算的密匙将不匹配但其它将匹配。
[0098].对于来自测序运行的每个读出(或读出对):
[0099]i)提取预期匹配相关表中的一个或几个探针的短子序列密钥的集合。
[0100]ii)通过评估读出和每个探针之间的匹配的生物化学有效性来对匹配的质量进行评分。例如,如果读出和探针的捕获区域之间的匹配随错配碱基的数目增加而减少,且朝向读出开头的错配具有更显著的效果,则评分可以是匹配序列的长度减去读出和探针匹配区域之间的字符串编辑距离,再加上第一错配的指数(或序列全长(如果没有错配))。
[0101]iii)若有的话,用具有高于给定阈值的评分匹配的所有探针ID标签化读出。
[0102]iv)如果无探针匹配高于阈值,则应用扩展的匹配处理。这是不期望经常被调用的算法集合,如果生物学允许,其可使用昂贵的(时间和存储器上)方法来尝试模拟非常罕见的匹配情况,如同不太可能(但却可能)的读出错误和多探针匹配。
[0103]V)如果绝对不匹配可被识别,则写入单独的输出文件作为通过其它方法进一步处理的读出。
[0104].此时,
[0105]i)将标签化的读出写入输出文件或流;或
[0106]ii)添加到匹配最佳探针匹配的独特读出的集合。独特表示:读出序列(或序列对)和分子条码序列的集合(如果有的话)是独特的。如果集合已经具有读出和条码的集合的条目(entry),则合并两个读出的质量值以储存对那个特定序列集合观察到的最佳质量。
[0107].如果读出已被探针序列储存,处理大的读出集合或所有读出(典型地,如果存储器已满,则停止以卸载存储器)之后,将每个探针ID独特读出/条码的集合写入输出文件中或将数据结构传递至另一模块用于进一步处理,例如变体调用(variant calling)。
[0108].如果在之前的步骤中,处理数据产生一些中间文件,则通过探针ID来合并之前的文件并且写每个探针文件的总体读出。对于工程级计算机(16GB RAM或更多),在一次传送(pass)中,可将非常大的数据集合与最大的探针集合匹配,而不需要写之后需要被合并的中间文件。
[0109]应用
[0110]本文公开的方法和方法的软件实施可用于多种序列分析应用中,例如,将获自经富集基因组样品的序列读出映射到参考基因组。因为本文公开的方法利用可获自用于产生序列读出的靶标富集板设计的额外信息,所以基因组位置标签化的计算时间可减少约10倍,且避免了标签化到与实验设计不相容的位置,否则这可发生在2-3%的序列读出中。
[0111]使用多种不同的方法,分配的序列读出可被用于组装多个离散序列,其中每个离散序列对应于独特的基因组片段,包括任何潜在变体。可使用任何合适的方法组装分配的序列读出,所述方法的基本步骤被描述在多种出版物中,例如Myers等人(Science2000 287:2196 - 204)、Batzoglou 等人(Genome Research 2002 12:177 - 89)、Dohm 等人(Genome Research 200717:1697 - 706)和 Boisvert 等人(Journal of Computat1nalB1logy 2010 17:1519 - 33),它们全部通过引用这些方法的公开被并入。对于每个富集的区域,可组装分配的序列读出以产生单个堆积(pile-up),所述单个堆积被检测以识别在特定位置具有核苷酸变体(例如,取代、插入或缺失)的序列读出。还可以通过将每个读出与参考序列(例如,参考基因组)进行比对来组装分配的序列读出。
[0112]本公开的方法可被用在来源于获自患者的生物样品(例如,活检)的序列读出上。例如,该方法可被用作测序方案流水线的一部分以识别和/或估计生物样品中基因组位点的突变拷贝的量,其包含基因组位点的野生型拷贝和基因组位点的突变拷贝二者,所述突变体拷贝具有与基因组位点的野生型拷贝相关的点突变。在这个实例中,样品可包含为基因组位点的突变体拷贝的至少100倍(例如,至少1000倍、至少5000倍、至少10000倍、至少50000倍或至少100000倍)的基因组位点的野生型拷贝。
[0113]所述方法还可用于从富集的核酸中映射序列读出以检测致癌突变(其可以是体细胞突变),例如,在 PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFRl、EGFR、CDK4、BRAF, RET、P⑶FRA、KIT或ERBB2中,所述突变可与乳腺癌、黑色素瘤、肾癌、子宫内膜癌、卵巢癌、胰腺癌、白血病、结直肠癌、前列腺癌、间皮瘤、神经胶质瘤、成神经管细胞瘤、红细胞增多症、淋巴瘤、肉瘤或多发性骨髓瘤相关(参见,例如,ChialProto-oncogenes to oncogenes tocancer.Nature Educat1n 2008 1:1)。
[0114]在本说明书中引用的所有出版物和专利申请都通过引用并入本文中,犹如具体和分别指明每个单独出版物或专利申请通过引用并入一样。对任何出版物的引用是为了其在申请日之前的公开,不应该理解为承认本发明无权通过在先发明先于这些出版物。
【主权项】
1.一种用于将序列读出分配到基因组位置的计算机实施方法,所述方法包括: a)访问含序列读出的文件,其中所述序列读出获得自已通过与多个捕获序列杂交而被富集的核酸样品;和 b)通过下述将所述序列读出分配到基因组位置: i)如果序列读出包含捕获序列的一个或更多个子序列,则将捕获序列识别为序列读出的匹配; ?)使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和 iii)如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置。2.根据权利要求1所述的方法,其中 所述识别步骤i)包括:如果序列读出的末端区域包含捕获序列的一个或更多个子序列,则将一个或更多个捕获序列识别为与所述序列读出的匹配,其中所述末端区域任选地在距序列读出的末端1bp (碱基对)至50bp的范围内;和/或 所述识别步骤i)还包括产生数据结构,其中捕获序列被存储在所述数据结构中作为由含捕获序列的子序列的序列密匙所映射的值,以及所述识别步骤包括:如果序列读出包含一个或更多个序列密匙,则将一个或更多个捕获序列识别为与所述序列读出的匹配。3.根据权利要求1或2所述的方法,其中 所述一个或更多个子序列的长度在5bp-15bp的范围内;和/或 所述捕获序列的一个或更多个子序列选自所述捕获序列的4-20个子序列,其中所述子序列任选地穿过整个捕获序列平铺。4.根据权利要求1-3中任一项所述的方法,其中计算的评分基于匹配的捕获序列和序列读出之间的序列同一性的长度、匹配的捕获序列和序列读出之间的字符串编辑距离、序列读出内每个错配的位置,或它们的组合来计算。5.根据权利要求1-4中任一项所述的方法,其中富集的样品包括片段化基因组核酸的扩增拷贝,其中所述片段化基因组核酸通过与多个捕获序列杂交而被富集,以及其中所述片段化基因组核酸任选地通过在预定位置酶促切割基因组核酸而被片段化。6.根据权利要求1-5中任一项所述的方法,其中对多个序列读出执行所述方法,从而将多个序列读出分配到基因组位置。7.根据权利要求1-6中任一项所述的方法,其中所述分配步骤b)还包括: iv)将在所有匹配的捕获序列中具有最高计算评分的匹配的捕获序列识别为最佳匹配-M V)通过将序列读出添加到匹配最佳匹配的捕获序列的独特序列读出集合来将所述序列读出分配到基因组位置,其中集合中的每个独特序列读出包含与集合中的所有其它序列读出的子序列相同的子序列, 以及其中所述分配步骤任选地包括:如果序列读出不含捕获序列的任何子序列,则丢弃所述序列读出。8.根据权利要求7所述的方法,其中与集合中的所有其它序列读出的子序列相同的子序列是条码序列,其中所述方法任选地还包括:对分配到捕获序列的独特序列读出集合的数目进行计数。9.一种将序列读出分配到基因组位置的方法,所述方法包括: a)将用于富集核酸样品的捕获序列集合输入含序列读出分配程序的计算机系统中,所述富集通过与集合中的多个捕获序列杂交进行,其中所述序列读出分配程序包括以下指令: i)访问含序列读出的文件,其中所述序列读出获得自经富集的核酸样品;和 ii)通过下述将所述序列读出分配到基因组位置: 如果所述序列读出包含捕获序列的一个或更多个子序列,则将捕获序列识别为与序列读出的匹配; 使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和 如果对匹配的捕获序列计算的评分高于阈值,则将所述序列读出分配到基因组位置; b)将含所述序列读出的文件输入所述序列读出分配程序;和 c)执行所述序列读出分配程序。10.包含序列读出分配程序的计算机可读存储介质,所述序列读出分配程序包括以下指令: a)访问含序列读出的文件,其中所述序列读出获得自已通过与多个捕获序列杂交而被富集的核酸样品;和 b)通过下述将所述序列读出分配到基因组位置: i)如果所述序列读出包含捕获序列的一个或更多个子序列,则将捕获序列识别为与序列读出的匹配; ?)使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和 iii)如果对匹配的捕获序列计算的评分高于阈值,则将所述序列读出分配到基因组位置。
【专利摘要】本发明涉及将靶标富集的序列读出分配到基因组位置的方法。本文提供用于将序列读出分配到基因组位置的计算机实施方法等等,所述方法包括:a)访问含有序列读出的文件,其中所述序列读出获得自已通过与多个捕获序列杂交而被富集的核酸样品;和b)通过下述将所述序列读出分配到基因组位置:i)如果所述序列读出包含捕获序列的一个或多个子序列,则将捕获序列识别为所述序列读出的匹配;ii)使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分;和iii)如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置。
【IPC分类】G06F19/18
【公开号】CN105574360
【申请号】CN201510742430
【发明人】克里斯提安·勒·科寇, 马格纳斯·伊萨克森, 阿舒拓史, 莱纳斯·佛斯马克
【申请人】安捷伦科技有限公司
【公开日】2016年5月11日
【申请日】2015年11月4日
【公告号】EP3018604A1, US20160125130
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1