数据库驱动的原始测序数据的初步分析的制作方法_4

文档序号:9204259阅读:来源:国知局
6个或更多。
[0198] 15.任一前述项目的方法,其中k-mer是不相交的子序列的串联。
[0199] 16.任一前述项目的方法,其中针对数据库查询来自给定序列的k-mer以确定 k-mer在一个或多个参考序列中的存在和k-mer在所述一个或多个参考序列中的位置。
[0200] 17.项目16的方法,其中只在k-mer存在时才查询位置。
[0201] 18.任一前述项目的方法,其中为返回的参考计算得分。
[0202] 19.任一前述项目的方法,其中为识别的参考序列计算得分,所述得分与在给定的 参考序列中发现的来自一个或多个序列的k-mer数目相关联。
[0203] 20.任一前述项目的方法,其中为识别的参考计算得分,所述得分通过在参考序列 中发现的来自一个或多个序列的k-mer的平均局部集中度与连续性或近似连续性相关联。
[0204] 21.任一前述项目的方法,其中为识别的参考计算得分,所述得分与在参考序列中 的k-mer数目相关联,所述k-mer也存在于来自所述来源的k-mer的子集中。
[0205] 22.任一项目18至21的方法,其中根据所述得分对可能的来源参考排名。
[0206] 23.任一前述项目的方法,其中查询来自一个来源序列或短读段的所有k-mer并 且为所述来源序列或短读段计算一个或多个得分。
[0207] 24.项目23的方法,还包括:查询来自第二来源序列或短读段,优选来自第三来源 序列或短读段的所有k-mer等。
[0208] 25.任一前述项目的方法,其中一旦以预定义的统计概率识别出一参考生物体,那 么可以停止数据库查询。
[0209] 26.任一前述项目的方法,其中如果在数据库中没找到预定分段的k-mer,那么可 以停止数据库查询。
[0210] 27.任一前述项目的方法,其中数据库输出关于一个或多个可能参考的下列信息 中的一个或多个:可能参考的分类学名称、所述可能参考的近亲、所述参考的来源、一组另 外相关的参考。
[0211] 28.任一前述项目的方法,其中所述数据库输出最可能的参考的序列,优选其中所 述数据库输出最可能的参考物种的全基因组序列。
[0212] 29.任一前述项目的方法,其中来自具有非常相似的序列的参考的结果或者来自 另外相关的参考的结果在输出中分组。
[0213] 30.任一前述项目的方法,其中执行该方法的几次迭代,如在第一次迭代中,识别 最丰富的参考并从所述来源序列或短读数中去除来自所述最丰富的参考的序列。
[0214] 31.项目30的方法,还包括在第二次迭代中,识别第二最丰富的参考,去除来自所 述第二最丰富的参考的序列等。
[0215] 32.项目30的方法,还包括在第二次迭代中,识别插入物的可能参考。
[0216] 33.任一前述项目所述的方法,该方法还包括最初去除与来自预定义的参考的序 列对准的来源序列。
[0217] 34.任一前述项目的方法,其中所述方法包括如果数据库中不存在来自一个来源 序列或短读段的预定义数目的k-mer,那么从所述来源序列或短读段忽略k-mer。
[0218] 35.任一前述项目的方法,其中查询涉及忽略来自一个或多个预定义的参考的 k-mer〇
[0219] 36.任一前述项目的方法,其中当从核酸测序仪获得原始序列时查询所述原始序 列。
[0220] 37. -种包括有参考序列的k-mer的数据库,所述数据库包括:
[0221] a)来自参考序列的k-mer的第一集合,和
[0222] b)每个k-mer在参考序列中的位置的第二集合。
[0223] 38.项目37的数据库,其中所述数据库还包括关于与给定参考相关联的全长序列 的信息,和/或所述参考的来源,和/或所述参考的一个或多个分类学描述符。
[0224] 39.项目37-38的数据库,其中在数据库中的k-mer进行哈希函数运算,向每个独 一无二的k-mer分配唯一密钥。
[0225] 40.任一项目37-39的数据库,其中在第一集合中的每个独一无二的k-mer由矢量 与关于有k-mer存在的那些参考的信息相关联。
[0226] 41.任一项目37-40的数据库,其中在第二集合中的每个独一无二的k-mer由矢量 与关于该k-mer存在时,其在每个参考中的位置信息相关联。
[0227] 42.项目 37-41 的数据库,其中 k-mer 的长度为 4、8、12、16、20、24、28、32、36、40、 44、48、52、56、60、64 或更长。
[0228] 43.任一项目37-42的数据库,其中k-mer是非重叠的。
[0229] 44.任一项目37-43的数据库,其中k-mer是重叠的并且增量为至少一个碱基或氨 基酸,例如至少两个,如至少3个,例如至少4个,如至少5个,例如至少6个或更多。
[0230] 45.任一项目37-44的数据库,其中数据库包括来自每个参考的完整序列的 k-mer〇
[0231] 46.任一项目37-46的数据库,其中所述数据库包括来自人类、动物、哺乳动物、鸟 类、鱼类、真菌、昆虫、植物、细菌、古细菌、病毒和/或质粒的序列信息。
[0232] 47.任一项目37-46的数据库,其中所述数据库被分成存储在几个不同服务器中 的子数据库。
[0233] 48.任一项目37-47的数据库,其中根据选自门、纲、目、科、属和种的一种或多种 分类学描述符,或一种或多种环境描述符,如来源、分布、起源和过去查询的频率,使所述数 据库组织成子数据库。
[0234] 49. 一种用于识别来源序列的可能来源的数据处理系统,该系统包括输入装置、中 央处理单元、存储器和输出装置,其中,所述数据处理系统中存储有表示在执行时使得项目 1-36的方法得以被执行的系列指令的数据,所述存储器还包括根据任一项目37-49的数据 库。
[0235] 50.项目49的系统,其中所述数据库存储在服务器中,并且输入和输出装置是客 户端,所述客户端和服务器经由数据通信连接来连接。
[0236] 51.任一项目49-50的系统,其中所述客户端选自个人计算机、台式PC、便携式PC、 手持式计算装置,如智能电话。
[0237] 52.任一项目49-51的系统,其中所述客户端包括使客户端采样来源序列的子集, 将这些来源序列分段成k-mer,并将这些来源序列传送到服务器的一系列指令。
[0238] 53.项目49-52的系统,所述客户端还包括允许其基于从服务器传送到客户端的 序列,执行将来源序列组装成一个或多个更大的序列的一系列指令。
[0239] 54.任一项目49-53的系统,通过数据连接与测序设备相连接。
[0240] 55. -种计算机软件产品,含有在执行时使得项目1-36的方法得以被执行的系列 指令。
[0241] 56. -种集成电路产品,含有在执行时使得项目1-36的方法得以被执行的系列指 令。 实施例
[0242] 具有k-mer的序列的快速识别
[0243] 这里,我们提出了新方法,Tapir,即能够迅速地指向DNA或RNA的可能来源并能 够直接在从DNA测序仪获得的原始读段上工作。我们的系统包括参照已知DNA的服务器, 以及具有待量化的DNA数据的客户端。为了说明如何使用,我们已参考了数千细菌基因组、 噬菌体基因组、噬菌体和质粒,以及人类基因组、小鼠基因组、拟南芥和来自真菌、古细菌的 各种序列。我们也已经在Web浏览器上实施了客户端运行,并能够处理来自便携式计算装 置的数据中的数亿个碱基的数据。该方法依赖于索引k-mer,以及向服务器传输有限量的 数据。它能够在几秒钟内从Android智能手机完成其任务,消耗适度数量的带宽与服务器 通信,并且尽我们的知识提供了一种不同于任何现有工具的使用简便性。它在我们的核心 设施上使用,以测序运行来进行常规的即时质量检查,并且可获自http://tapir, cbs. dtu. dk〇
[0244] 介绍
[0245] DNA测序在过去十年已经越来越实惠 [13],扼要的讲对DNA测序进行叙述再次成 为绝对平常化。今天的高端测序仪具有处理相当于几个人类基因组或几百个细菌的能力, 并且下一代测序仪已经开始变得可用,因此需要低得多的初始投资,并提供灵活的测序量。 完整细菌分离株的测序是一天的事,并且很快就是几小时的事。最近发布的纳米孔测序 [12]呈现了一个USB供电的装置,能够直接测序DNA,以及因为测序装置将是一次性的,故 而资本投资水平前所未有的低。Oxford Nanopore,在该未来产品背后的公司已经在2012 年发布新款[8]。提取DNA是相对简单的过程,并且可以预见,DNA测序将很快在分子生物 学中成为常规和廉价的过程。患者将被常规测序,通过他们的DNA追踪传染原的暴发,水和 食品的质量也通过DNA测序监测。
[0246] 在分析方面,利用如Smith-Waterman算法[14]的开拓性的工具进行序列的局部 比对已经成为生物信息学的基石。一旦将它应用到查询集合和参考集合之间,将允许对比 对排名,使研宄者对新测序的DNA或RNA从它与现有序列的相似性来推断其起源和功能。 虽然有批评该方法有时是不准确的[2,11],但其受欢迎程度仍然是不争的,公共数据库中 有大量的功能注释提到"通过序列同源性"。然而,在数据库中实现将新获得的DNA与存档 的现有数据库比对仍是相对苛刻的计算任务。BLAST[1]和随后的BLAT[5]提高了速度,但 在网络搜索引擎几乎立即返回结果的时代,用目前可用的序列数量针对已知序列的池搜索 新序列可能需要相当长的时间。设计用于短读段测序的新工具自从被开发出来也仅仅命名 了两个,如Bowtie[6]和BWA[7],但这些工具是被设计成针对给定参考来比对所有测序读 段。为了实现速度,这样的工具将参考的索引加载到存储器中,并以此限定可以被处理的参 考DNA的量。
[0247] 我们注意到在找到查询序列和参考的集合之间的绝对最佳比对的计算需求任务 与从一组查询序列快速识别与它们最匹配的参考之间的距离。据我们所知,没有任何一种 工具采用短DNA或RNA序列集,如来自DNA测序仪的读段,并返回该集所代表的参考的列 表,无论是全基因组或个体基因。要做到这一点,我们提出了与在BLAT和SSAHA[9,10]两 者中使用来自比对种子以及在MUSCLE [3]中的k-mer计数不同的方式使用k-mer,以几秒或 者更短时间相当准确地识别DNA序列的来源。
[0248] 材料和方法
[0249] 将获自EBI和NCBI的公众可得的基因组、重叠群、质粒和个体基因下载作为参考 DNA。每个参考序列被分成重叠 k-mer(on_overlapping k-mer)并且对于遍布所有参考的 所有k-mer,创建键值对存储或NoSQL数据库(使用KyotoCabinet [4]),关联到每个k-mer 体(数据库中的密钥),对应于具有该k-mer的参考的标识符列表(图1)。称它为存在数 据库。同样地,在参考中发现该k-mer的位置存储在被称为位置数据库的地方(图1)。参 考标识符和信息,如描述行和数据源之间的关联性,储存在单独的SQL数据库中。
[0250] 为了对一组短查询序列或读段评分,对它们的随机样品进行迭代(图2)。对于每 个序列,对通过在整个序列上滑动宽度k的窗口所获得的连续k-mer进行迭代。对于每个 k-mer,如果它之前并未被计数并且在存在数据库中发现它,那么将查询参考的位置。一旦 对读段的所有k-mer进行处理,查找在参考中匹配的连续位置的数目并且只考虑最大匹配 簇,即,在所有匹配参考中源自相同读段的匹配k-mer的最大集中度。对于每个这样的簇, 将k-mer数加上可能之前用于该参考的加数并且更新已经计数的k-mer列表。然后处理下 一个序列或读段。获得与发现匹配的k-mer计数相关联的参考列表。对于每对〈参考,计 数〉,计数除以查询集中独一无二的k-mer的数量,提供了在给定参考匹配的被查询子集中 DNA量的粗略得分。如果查询集完全匹配该序列,那么得分将是1,否则会降低;例如,如果 查询集是两个参考的等比例混合物,那么对两个参考的得分都将是〇. 5左右。该计数也可 以除以参考的大小(参考序列中的独一无二的k-mer数目),得到由该查询表示的参考部分 的粗略得分;该第二得分有助于对匹配参考进行分选,并避免偏向最大参考。最终的得分被 计算为这两个得分的加权和,默认是相等的加权。如果查询集很大,例如,如果考虑来自一 轮DNA测序的所有读段,那么仅使用该集的随机样品。
[0251] 为了方便该服务使用,实施作为在Web浏览器中的网页运行的HTML5/JavaScript 客户端。在编写时,Firefox 15.0是实现所有需要的功能的唯一浏览器,并测试在Linux、 Mac OS X、微软的 Windows 和 Android 4.0 上的工作。
[0252] 为了基准化该原本设计为识别测序数据中的细菌的系统,反复取得在2012年可 从EBI获得的细菌的所有序列,也就是747个细菌基因组。对于每一个基因组,从基因组序 列产生随机可能重叠的子序列,以模拟从DNA测序仪获得的读段;使用长度为50、100、150、 200和250个碱基的子序列。还以0% (没有错误)、1%、5%和10%的比率引入了碱基的 均匀的随机置换,以模拟一类测序错误和在实际样品中的准时突变的存在。对于每个基因 组,长度和置换率,取100个子序列或读段的随机样品并且该采样重复十次。
[0253]
[0254] 对于每一种细菌基因组,采取了 100个随机模拟读段,并使用我们的方法,在参考 中,针对于包括那些细菌基因组的数据库对它们评分,记录该查询基因组在25个最佳得分 列表中的排名。平均排名和排名的标准差如图4所示。
[0255] 平均排名越接近1,评分越好,而排名的标准差越小,对采样影响越不敏感。写入每 个单个面板的丢失的排名数,对应于没有在25个最高得分的基因组数量。
[0256] 读段在长度为50个碱基时性能低于最佳,但在100个碱基的读段时已经有显著的 改善,所查询基因组在97%和99%的时间具有低置换率,在前5位具有较低置换率而在前 15位时具有更高的置换率。读段长度增加至250个碱基有助于补偿更高置换率对平均排名 的负面影响。
[0257] 使用的长度范围和置换率与从新一代测序平台,例如lllumina(100个碱 基,具有约 〇. 1-1 % 的错误率),Life Technologies 的 SOLiD 5500 (75nt 读段,具有 0.01%的错误率),Ion Torrent PGM(200-300个碱基,具有1%的错误率),或Pacific Bi〇SCienCe(3,000个碱基,具有15%的错误率)获得的范围是可比的。我们的方法在这 些范围内执行良好,并且我们预期因增加对双末端测序(一种用于提供替代较长读段的技 术)的支持而实现了性能进一步提高。我们的方法似乎对于测序错误(例如碱基置换)相 对不敏感,并且对于我们的测试查询的预期较低的排名随置换率增加而使影响最小。
[0258] 得益于NoSQL数据库的使用,随着基因组数据越来越丰富,预计规模会扩大,并且 不断能够在比较实惠的电脑系统上索引和查询越来越大的参考集合。
[0259] 为了便于使用我们的方法,开发了一种基于浏览器的客户端。我们用高达2GB的 原始FASTQ文件测试,并监控到其在RAM中只用了稍微超过200MB并在20秒内返回结果。
[0260]
[0261] 基于TAPIR的概念相当简单。已经宣布了 DNA数据库规模的增长,并至少观察了十 多年,但最近在DNA测序技术的发展使
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1