数据库驱动的原始测序数据的初步分析的制作方法_5

文档序号：9204259阅读：来源：国知局

得快速且经济实惠的数据生成成为现实。我们主张对所有已知的DNA的匹配实验获得的DNA序列是生物信息学中最重要的挑战之一。我们在这里表明，这可以用与互联网网络搜索巨头已经让公众使用相匹配的速度和易用性完成。当考虑用桌面DNA测序仪进行诸如实时监控、患者感染、生物防御或食品安全的任务时，我们的方法提供了一种立即早期步骤，在此期间搜索空间可以缩小并且此后可以执行更先进的分析方法。
[0262] 实施例2
[0263] 在本实施例中，参考了来自细菌、病毒、噬菌体、质粒、以及人类、小鼠、植物、真菌和古细菌的数以万计的基因组和基因组区域。还实施了在Web浏览器上运行的客户端，并且证明采用该客户端在几秒钟内处理并识别来自商品化便携式计算装置的千兆字节的原始测序数据，同时消耗适度量的带宽与服务器通信。因此，在本实施例中，示出了来自原始读段的DNA的识别可以与查询搜索引擎一样简单。
[0264] 杳询DNA序列针对参考的全而集合的兀配集
[0265] 查找比对程序的主观方式是将它们分成两个主要类别：一类试图针对已知参考的集合映射一个查询序列（如BLAST)，和一类试图尽可能快地映射针对一种指定参考的大量短序列（例如，Bowtie或BWA)。我们提出了一个可对大量短序列识别很好的参考的折衷办法；我们匹配了针对于参考序列的集合的若干序列并且选出了哪些参考在查询集中得到最好的体现。
[0266] 在本实施例中提出的方法不涉及在索引k-mer期间的任何选择步骤，该功能从序列的集合构建时极大地简化了复杂性。这以空间为代价而得到，有潜在的较少信息的k-mer 被索引，但是这通过以下好处得到弥补：该过程对于参考集合的总大小是线性的，并且可以平行进行。这使得索引所有已知的DNA最终似是可信的（类似于在互联网上的所有文件的网络搜索引擎的索引。）
[0267] 在这个例子中，我们的算法并不仅仅是计数k-mer，并且它不执行完整的映射或比对。该算法考虑了在每个读段内的匹配k-mer，以及彼此接近的匹配k-mer的簇。
[0268] 在本实施例中，使用非重叠的k-mer进行索引，同时在查询中使用重叠的k-mer，如图5所示，但我们认为这是一个实施细节并且可以很容易地使用重叠的k-mer进行索引和在查询中的不重叠的k-mer同时对给定分数保持相同的指导原则以匹配参考。
[0269] 如果将树或哈希用于k索引和查找，那么在使用k-mer索引的大小为u的参考中确定长度为P的串η次出现的位置的时间复杂度为O(p+n log u)或O(p+n)复杂度。
[0270] 当为了诊断目的要识别DNA数据的查询集，如来自测序仪的原始读段时，我们认为包括针对于全面的参考数据库映射所有读段的蛮力方法有两个主要的缺点：成百兆或千兆字节的数据的大部分或者从测序设施传送到计算中心，并且执行该任务必须的计算资源是至关重要的。假设一个参考集合包含10, 〇〇〇大肠杆菌规模的细菌并且需要30秒优化比对器，如BWA和bowtie2来处理250Mb的原始测序数据（如果基因组是4Mb大小，平均覆盖为约60x)，尽管这可以在多个CPU上并行进行处理，但是这样的CPU处理会花费3天半。
[0271] 除了时间复杂度，数据传输将是250MbaseS的DNA，将测序数据传送到存放有参考的数据中心。我们基于k-mer的方法减少了对小的参考集的详细的调查，如映射读段或SNP 判读，甚至基于模板的从头组装。当评估性能时，随意选择，如果正确的答案是在5个建议的匹配集中，那么最初只是考虑搜索成功。针对那些参考映射所有读段的以准确识别哪个是最佳匹配这项任务可以在12分钟内在相同的CPU上完成，或者如果在规定的3天半的时间内获得了强大的多核体系结构，那么任务可以在更短时间内完成。传输全部的基因组将代表约20 Mbases的DNA，它可以很容易地通过3G移动互联网连接来完成。我们的方法使得移动测序设施，如Ion总线[15]能够在现场的偏远位置执行关键的诊断和科学任务。如果有未映射的读段，因为存在较小的区域，如质粒、毒力基因、病毒或细菌的混合物，这些读段可以被类似地处理，并且全部内容通过几次迭代来识别。
[0272] 律立基准
[0273] 为了基准化该原本设计为识别测序数据中的细菌的系统，反复取得在2012年可从EBI获得的细菌的所有序列，也就是747个细菌基因组。除了这些以外，所含的所有的参考数据库为：来自NCBI的细菌参考、噬菌体和病毒、质粒以及人类基因组（见下文表1)。表 1示出在2012年开始的基因组参考（参考的来源和数目）的快照。参考是完整基因组或质粒的混合物，和诸如重叠群或基因的基因组片段的混合物。
[0274] 表L基因组参考

[0276] 对于每种基因组，从基因组序列产生随机可能的重叠子序列，以模拟从DNA测序仪获得的读段；使用长度为50、100、150、200和250个碱基的子序列。还以0%(没有错误）、1%、5%和10%的比率引入了均匀的碱基随机置换，以便模拟一类测序错误和实际样品中的准时突变的存在。对于每种基因组、长度和置换率，执行100个子序列或读段的随机样品，并且采样重复5次。
[0277] 目的是评估当考虑到诸如测序错误或突变的不确定性时，在样品或足够接近的基因组中是否可以找到有哪种已知的DNA。
[0278] 预测性能
[0279] 对每个细菌基因组，采取100个随机模拟的读段，并使用我们的方法，针对包括那些细菌基因组的数据库，从其他细菌、噬菌体、植物、真菌、病毒和哺乳动物序列和基因组的较大集合中，对它们评分，记录查询基因组中25个最佳匹配的参考列表中的排名。为了评估对每种测试细菌基因组的结果的变异性，这对每个基因组重复5次并且平均排名和对该排名的标准偏差如图9所示。
[0280] 读段在长度为50个核苷酸时性能相对较差，但读段长度增加时观察到了显著提高，在测序碱基中的长度为100的读段已经接近最大性能。最好的结果是示出了正确的基因组在97%的时间是在低错误率的结果列表中，在前5位具有较低置换率，并且在前15位具有较高置换率。增加读段长度达250个碱基帮助补偿错误率增加带来的负面影响。增加被发送用于识别的随机样品中的读段数并没有产生太大的影响，参见图7中的随机样品中：1〇〇个读段是少量的数据，但它在大量情形下似乎足以识别DNA。
[0281] 如前面所详述，我们的方法旨在返回在提出的匹配集中的正确参考并且通过如此做，简化了粗苯的方法需要利用计算指令程序来探索的搜索空间。将我们限制为在前五个结果中找到查询序列很可能比需要的还要严格，因为运行所有25个分析相比于穷举搜索仍将是至关重要的，但是指出该方法已经能够返回在非常小的候选答案集中的正确答案。
[0282] 在迭代搜索和识别的情况下，可以考虑指出正确的细菌物种，即使不是正确的精确株或基因组参考，已经是比较成功的答案。图6示出了以超过个核苷酸的读段进行的识别过程执行得很好。
[0283] 使用的长度范围和置换率与从新一代测序平台，例如Illumina(150个碱基，具有约 0.1-1 % 的错误率），Life Technologies 的 SOLiD 5500(最大 75nt 读段，具有 0.01 % 的错误率），Ion Torrent PGM(最大200-300个碱基，具有1 %的错误率），或Pacific Bi〇SCienCe(3,000个碱基，具有15%的错误率）获得的范围是可比的。我们的方法在这些范围内执行良好，并且我们预期因增加对双末端测序（一种用于提供替代较长读段的技术）的支持而实现了性能进一步提高。我们的方法似乎对于测序错误（例如碱基置换）相对不敏感，并且对于我们的测试查询的预期较低的排名随置换率增加而使影响最小。
[0284] 我们也尝试基于来自Ion Torrent PGM的、从病毒和细菌分离株到宏基因组学混合物的范围的测序数据的方法。索引的参考的集合中的非常相似的基因组，如几株同一物种，通过增加密切相关的基因组比正确参考的基因组有更低的排名的概率可以有助于性能的劣化。这是通过考虑物种增加的性能而不是精确的参考所确认的，并且这是中度不便的，即可以在第二迭代期间消除歧义。最后，因为我们已经考虑读段范围内的k-mer，而不是孤立的实体，我们从来自不同哺乳动物的样品测序获得了非常令人鼓舞的结果，并预测能够在不久的将来可靠地识别它们。
[0285] 计筧件能
[0286] 服务器：
[0287] 在服务器上的存储器使用量可以保持最低限度使用基于磁盘的键值存储和调优的性能可以通过这些缓存到存储器中运行可在计算机上实现。由于使用的NoSQL数据库，我们也期望能规模达的基因组数据得到越来越丰富，并不断能够引用索引和查询越来越大集合比较实惠的电脑系统上。与当前的实现既索引系统和服务器在Python中实现，在使用 8芯（英特尔至强，2. 93GHz的）几个小时来执行的参照DNA 44Gbases的索引，和一个输入样品的处理以几秒钟。甲显著加速可与优化的努力来实现，例如移动到C的瓶颈，但它也可以由专更多内核增加的更多的请求的处理全球演出，在需要变得显而易见。
[0288] 客户：
[0289] 为了方便使用我们的方法，开发了使用JavaScript和HTML5特征的基于浏览器的客户端，其可以在http://tapir. cbs. dtu. dk访问。该客户端目前正在最新的Firefox版本（版本15或更高）上运行。
[0290] 随着具有在主频为2. 53GHz的Intel Core i5CPU的相对普通的笔记本电脑上 Firefox，可在30秒内处理大小高达2Gb的FASTQ文件的原始读段，文件越小越快，使用在 RAM中稍小于300Mb，并且与服务器通信几秒。
[0291] 还实施了基于控制台的命令行工具来执行我们的算法和随后的比对。该实施可获自流行的软件库 https://bitbucket. org/lgautier/dnasnout-client。该实施使用我们的算法以抓取参考基因组，并用bowtie2进行所有读段的索引和映射。当考虑前10个读段时，完整的迭代花费不到一分钟并且在98%的情况下一次迭代就足够了。随着浏览器的快速发展，预计很快就能仅使用网络浏览器开展与流行病学实验室用台式测序所作相似的工作流程。
[0292] 讨论
[0293] 我们主张针对所有已知的DNA匹配实验获得的DNA序列是生物信息学中最重要的挑战之一。我们在这里表明，这可以用与互联网网络搜索巨头已经使公众习惯相匹配的速度和易用性来完成。当考虑诸如实时监控，患者感染、生物防御或食品安全的任务时，今天的桌面DNA测序如Ion Torrent PGM或lllumina MiSeq已经不能胜任此任务并且我们的方法提供了一种立即早期步骤，在此期间搜索空间可以缩小而且可以事后在本地执行更先进的分析方法，而不需要在执行DNA测序的实验室和计算设施之间传输大量的原始数据。
[0294] 方法
[0295] 基因组参考的来源：
[0296] 下载公众可获得的基因组、重叠群、质粒和可从EBI和NCBI获得的个体基因作为参考DNA。参考的确切组成将随着时间扩大，但在表1中列出了用于本实施例的快照。
[0297] 参考索引：
[0298] 每个参考序列被分成不重叠的k-mer并且对于所有参考的所有k-mer，创建键值对存储或NoSQL的数据库（使用KyotoCabinet [4])，关联每个k-mer (在数据库中的密钥），对应于具有该k-mer的参考的标识符列表。称这为存在数据库。同样地，在该参考中发现该k-mer的位置被存储在称作位置数据库的地方。k被选择为等于16,因为它给出了满意的结果，并且作为4的倍数很好地适用于位包装。参考标识符和信息，如描述行和数据源之间的关联，储存在单独的SQL数据库。
[0299] 评分：
[0300] 为了对短查询序列或读段集评分，对它们的随机样品迭代。样品大小越大，可靠的准确性越大。对于每个序列，对在通过在序列上滑动宽度k的窗口所获得的连续k-mer迭代。对于每个k-mer，如果它之前并未被计数并且在存在数据库中发现它，那么将查询参考的位置。一旦对读段的所有k-mer进行处理，查找在参考中匹配的连续位置的数目并且只考虑最大匹配簇，即，在所有匹配参考中源自相同读段的匹配k-mer的最大集中度。对于每个这样的簇，将k-mer数加上可能之前用于该参考的加数并且更新已经计数的k-mer列表。然后处理下一个序列或读段。当处理了所有读段后，获得与发现匹配的k-mer计数相关联的参考列表。对于每对〈参考，计数〉，计数除以查询集中独一无二的k-mer的数量，提供了在给定参考匹配的被查询子集中DNA量的粗略得分。利用示出的评分原则，如果查询集完全匹配该序列，那么得分将是1，否则会降低；例如，如果查询集是两个参考的等比例混合物，那么对两个参考的得分都将是0. 5左右。该计数也可以除以参考的大小，得到由该查询表示的参考部分的粗略得分；该第二得分有助于对匹配参考进行分选，并避免偏向最大参考。最终的得分被计算为这两个得分的加权和，其中使用相等的加权。如果查询集很大，例如，如果考虑来自一轮DNA测序的所有读段，那么仅使用该集的随机样品。
[0301] 客户端的实施：
[0302] 为了方便使用该服务，实施在Web浏览器的页面运行的HTML5/JavaScript客户端。对于目前的研宄，使用Firefox 15版本，并且测试它在Linux、Mac OS X、微软 Windows (各种笔记本和台式机）以及在Android 4.0(平板ASUS TFlOl-预计它也将在高端智能手机上工作）的运行。然而，本领域技术人员将理解，其他合适的浏览器也可以是有用的。该客户端也被实施为Python库和命令行工具以便于在现有的工作流程和管线中评估和整合。
[0303] 其它技术规格：
[0304] 除了结合到诸如KyotoCabinet库以外的所有实施是在服务器端利用Python版本 2. 7. 3进行。网络应用是使用微框架Flask并由Iighttp服务。为Python版本3. 3开发客户端库和命令行工具。
[0305] 本领域技术人员将理解，算法或部分算法的实施可以由其它合适的和一般公知的编程语言来实现，例如C编程语言，其可以通过降低用于查询的时间，提高该方法的性能。
[0306] 参考文献
[0307] [1] Stephen F. Altschul, Warren Gish1Webb Miller1Eugene ff. Myers, and David J.Lipman.Basic local alignment search tool.Journal of Molecular Biology, 215(3):403-410, October 1990.
[0308] [2]Damien Devos and Alfonso Valencia. Practical limits of function prediction. Proteins : Structure, Function, and Genetics,41 (I):98-107, October 2000.
[0309] [3]R. C. Edgar. MUSCLE!multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research, 32(5):1792-1797, March 2004.
[0310] [4]Mikio

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6