数据库驱动的原始测序数据的初步分析的制作方法_6

文档序号:9204259阅读:来源:国知局
Hirabayashi. Kyoto cabinet:a straightforward implementation of DBM.
[0311] http://fallabs.com/kyotocabinet/
[0312] [5] W. J. Kent. BLAT-The BLAST-Like alignment too I. Genome Research, 12(4) : 656-664, March 2002.
[0313] [6] Ben Langmeadj Cole Trapnel 1,Mihai Pop, and Steven L Salzberg. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology, 10(3) :R25, 2009.
[0314] [7]H. Li and R. Durbin. Fast and accurate short read alignment with burrows-wheeIer transform. Bioinformatics, 25(14):1754-1760, May 2009.
[0315] [8]Christopher E Mason and Olivier Elemento. Faster sequencers, larger datasets, new challenges. Genome Biology, 13 (3) : 314, 2012.
[0316] [9] Z. Ning. SSAHA: a fast search method for large DNA databases. Genome Re search,11 (10):1725-1729, October 2001.
[0317] [10] Zemin Ningj W. Spooner, A. Spargoj S. Leonard, M. Raej and A. Cox. The SSAHA trace server,pages 519-520.1 EEE.
[0318] [11]Burkhard Rost. Enzyme function less conserved than anticipated. Journal of Molecular Biology,318 (2):595-608,April 2002.
[0319] [12] Nicole Rusk. Cheap third-generation sequencing. Nature Methods, 6 (4) :244-244, April 2009.
[0320] [13]Jay Shendure and Hanlee Ji. Next-generation DNA sequencing. Nature Biotechnology,26 (10):1135-1145, October 2008.
[0321] [14] T. F. Smith and M. S. Waterman. Identification of common molecular subsequences. Journal of Molecular Biology,147 (I):195-197,March 1981.
[0322] [16]. Rumble SMjLacroute PjDalca AVjFiume MjSidow A, et al. (2009) SHRiMP: accurate mapping of short color-space reads. PLoS Computational Biology 5:e100 0386.
[0323] [17]. Li H,Homer N(2010)A survey of sequence alignment algorithms for next-generation sequencing. Briefings in Bioinformatics 11:473-483.
[0324] [18]. Babraham bioinformatics-FastQ screen.
[0325] http://www. bioinformatics, babraham. ac. uk/projects/fastq screen/. URL
[0326] http://www. bioinformatics, babraham. ac. uk/projects/fastq_screen/.
【主权项】
1. 一种识别生物序列,如短读段,的可能来源的方法,该方法包括: a) 从一来源采样序列或短读段的子集, b) 将来自所述子集的序列分段成k-mer, c) 针对包括参考序列的k-mer的第一集合,查询来自所述子集的一个或多个k-mer, d) 针对包括k-mer在参考序列中的位置的第二集合,查询来自所述子集的一个或多个 k-mer? e) 确定哪个/哪些参考含有所述一个或多个k-mer,和 f) 返回对可能的来源参考的描述, 其中所述包括参考序列的k-mer的第一集合与包括k-mer在参考序列中的位置的第二 集合是分离的。2. 如权利要求1的方法,其中所述方法不涉及对序列数据使用比对算法,例如采用评 分矩阵的比对算法。3. 如任一前述权利要求的方法,其中所述查询进一步包括确定k-mer在所述参考序列 中的位置。4. 如任一前述权利要求的方法,其中存在和位置被用来确定查询k-mer在参考序列中 的的连续性。5. 如任一前述权利要求的方法,其中所述生物序列是氨基酸序列。6. 如权利要求1-4的方法,其中所述生物序列是DNA或RNA序列。7. 如任一前述权利要求的方法,其中k-mer查询涉及确定查询k-mer和参考k-mer之 间的完全匹配。8. 如任一前述权利要求的方法,其中查询涉及从至少一个来源序列或短读段查询所有 k-mer,优选从至少50,例如从至少100,如从至少150,例如从至少200,如从至少250,例如 从至少300,如从至少400,例如从至少500,如从至少750,例如从至少1000,例如从至少 1500,如从至少2000,例如从至少2500,如从至少5000或更多个序列。9. 如任一前述权利要求的方法,其中所述源序列是至少50个碱基的核苷酸序列,优选 至少100个碱基,如至少150个碱基,例如至少200个碱基,如至少250个碱基,例如至少 300个碱基,如至少400,至少500或更多个碱基。10. 如任一前述权利要求的方法,其中序列的子集包括至少1%的离散序列,例如至少 2%,如至少4%,例如至少5%,如至少6%,例如至少7、5%,例如至少10%,如至少15%, 例如至少25%,如至少30%,例如至少35%,如至少40%,例如至少50%。11. 如任一前述权利要求的方法,进一步包括选择序列的一个或多个另外的子集并将 它们执行权利要求1的步骤a)至步骤f)。12. 如任一前述权利要求的方法,其中所述子集是随机的或过滤的。13. 如任一前述权利要求的方法,其中k-mer的大小为4、8、12、16、20、24、28、32、36、 40、44、48、52、56、60、64 或更长。14. 如任一前述权利要求的方法,其中k-mer是连续的。15. 如任一前述权利要求的方法,其中k-mer是重叠的并且增量为至少一个碱基或氨 基酸,例如至少两个,如至少3个,例如至少4个,如至少5个,例如至少6个或更多。16. 如任一前述权利要求的方法,其中k-mer是不相交的子序列的串联。17. 如任一前述权利要求的方法,其中针对数据库查询来自给定序列的k-mer以确定 k-mer在一个或多个参考序列中的存在和k-mer在所述一个或多个参考序列中的位置。18. 如权利要求17的方法,其中只在k-mer存在时才查询位置。19. 如任一前述权利要求的方法,其中为返回的参考计算得分。20. 如任一前述权利要求的方法,其中为识别的参考序列计算得分,所述得分与在给定 的参考序列中发现的来自一个或多个序列的k-mer数目相关联。21. 如任一前述权利要求的方法,其中为识别的参考计算得分,所述得分通过在参考序 列中发现的来自一个或多个序列的k-mer的平均局部集中度与连续性或近似连续性相关 联。22. 如任一前述权利要求的方法,其中为识别的参考计算得分,所述得分与在参考序列 中的k-mer数目相关联,所述k-mer也存在于来自所述来源的k-mer的子集中。23. 如任一权利要求19至22的方法,其中根据所述得分对可能来源参考排名。24. 如任一前述权利要求的方法,其中查询来自一个来源序列或短读段的所有k-mer 并且为所述来源序列或短读段计算一个或多个得分。25. 如任一前述权利要求的方法,其中为参考序列获得匹配k-mer的计数。26. 如任一前述权利要求的方法,其中通过将参考序列的匹配k-mer的计数除以被查 询子集中的独一无二的k-mer的数目来获得得分。27. 如权利要求24-26的方法,其中通过将参考序列的匹配k-mer的计数除以参考序列 的大小来获得得分。28. 如权利要求24-27的方法,其中参考序列的得分被计算为权利要求26和27的得分 的加权和。29. 如任一前述权利要求的方法,还包括查询来自第二来源序列,优选来自第三来源序 列的所有k-mer。30. 如任一前述权利要求的方法,其中一旦以预定的统计概率识别出参考生物体,就可 以停止数据库查询。31. 如任一前述权利要求的方法,其中如果在数据库中没找到预定分段的k-mer,就可 以停止数据库查询。32. 如任一前述权利要求的方法,其中所述数据库输出关于一个或多个可能参考的下 列信息中的一个或多个:序列的任何注释、编码序列、调控序列、可能参考的分类学名称、所 述可能参考的近亲、所述参考的来源、一组另外相关的参考、参考是从哪里获得的(例如土 壤、海洋、内脏或下水道)、参考序列是何时获得的、分类学分类、近缘物种、关于参考序列是 从哪个数据库(例如NCBI或EBI/Sanger数据库)下载的信息。33. 如任一前述权利要求的方法,其中所述数据库输出最可能的参考的序列,优选其中 所述数据库输出最可能的参考物种的全基因组序列。34. 如任一前述权利要求的方法,其中来自具有非常相似的序列的参考的结果或者来 自另外相关的参考的结果在输出中分组。35. 如任一前述权利要求的方法,其中执行该方法的几次迭代,如在第一次迭代中,识 别最丰富的参考并从所述来源序列或短读数中去除来自所述最丰富的参考的序列。36. 如权利要求35的方法,还包括在第二次迭代中,识别第二最丰富的参考,去除来自 所述第二最丰富的参考的序列等。37. 如权利要求36的方法,还包括在第二次迭代中,识别插入物的可能参考。38. 如任一前述权利要求的方法,该方法还包括最初去除与来自预定的参考的序列对 准的源序列。39. 如任一前述权利要求的方法,其中所述方法包括如果数据库中不存在来自一个来 源序列的预定义数目的k-mer,就从所述来源序列忽略k-mer。40. 如任一前述权利要求的方法,其中查询涉及忽略来自一个或多个预定的参考的 k_mer〇41. 如任一前述权利要求的方法,其中当从核酸测序仪获得原始序列时查询这些原始 序列。42. 如任一前述权利要求的方法,其中使用适应采样。43. -种在权利要求1-42所限定的方法中使用的、包括有参考序列的k-mer的数据库, 所述数据库包括: a) 来自参考序列的k-mer的第一集合,和 b) 每个k-mer在参考序列中的位置的第二集合。44. 如权利要求43的数据库,其中所述数据库还包括关于与给定参考相关联的全长序 列的信息,和/或所述参考的来源,和/或所述参考的一个或多个分类学描述符。45. 如任一权利要求43-44的数据库,其中在数据库中的k-mer进行哈希函数运算,向 每个独一无二的k-mer分配唯一密钥。46. 如任一权利要求43-45的数据库,其中在第一集合中的每个唯一k-mer由矢量与关 于有k-mer存在的那些参考的信息相关联。47. 如任一权利要求43-46的数据库,其中在第二集合中的每个独一无二的k-mer由矢 量与关于该k-mer存在时,其在每个参考中的位置的信息相关联。48. 如任一权利要求43-47的数据库,还包括第三集合或数据库,其具有选自下组的参 考标识符和信息类型:描述行、数据来源、序列的任何注释、编码序列、调控序列、可能参考 的分类学名称、所述可能参考的近亲、所述参考的来源、一组另外相关的参考、参考是从哪 里获得的(例如土壤、海洋、内脏或下水道)、参考序列是何时获得的、分类学分类、近缘物 种、关于参考序列是从哪个数据库(例如NCBI或EBI/Sanger数据库)下载的信息。49. 如任一权利要求43-48的数据库,其中k-mer的长度为4、8、12、16、20、24、28、32、 36、40、44、48、52、56、60、64 或更长。50. 如任一权利要求43-49的数据库,其中k-mer是非重叠的。51. 如任一权利要求43-50的数据库,其中k-mer是重叠的并且增量为至少一个碱基或 氨基酸,例如至少两个,如至少3个,例如至少4个,如至少5个,例如至少6个或更多。52. 如任一权利要求43-51的数据库,其中所述数据库包括来自每个参考的完整序列 的k-mer〇53. 如任一权利要求43-52的数据库,其中所述数据库包括来自人类、动物、哺乳动物、 鸟类、鱼类、真菌、昆虫、植物、细菌、古细菌、病毒和/或质粒的序列信息。54. 如任一权利要求43-53的数据库,其中所述数据库被分成被存储在几个不同服务 器中的子数据库。55. 如任一权利要求43-54的数据库,其中根据选自门、纲、目、科、属和种的一种或多 种分类学描述符,或一种或多种环境描述符,如来源、分布、起源和过去查询的频率,使所述 数据库组织成子数据库。56. -种用于识别来源序列的可能来源的数据处理系统,该系统包括输入装置、中央 处理单元、存储器和输出装置,其中,所述数据处理系统存储有表示在执行时使得权利要求 1-42的方法得以被执行的系列指令的数据,所述存储器还包括根据任一权利要求43-55的 数据库。57. 如权利要求56的系统,其中所述数据库存储在服务器中,并且输入装置和输出装 置是客户端,所述客户端和服务器经由数据通信连接来连接。58. 如任一权利要求56-57的系统,其中所述客户端选自个人计算机、台式PC、便携式 PC、手持式计算装置如智能电话。59. 如任一权利要求56-58的系统,其中所述客户端包括使客户端能够采样来源序列 的子集,将这些来源序列分段成k-mer,并将这些来源序列传送到服务器的一系列指令。60. 如权利要求56-59的系统,所述客户端还包括允许其基于从服务器传送到客户端 的序列将来源序列组装成一个或多个更大的序列的一系列指令。61. 如任一权利要求56-60的系统,通过数据连接与测序设备相连接。62. -种计算机软件产品,含有在执行时使得权利要求1-42的方法得以被执行的系列 指令。63. -种集成电路产品,含有在执行时使得权利要求1-42的方法得以被执行的系列指 令。
【专利摘要】本发明涉及一种识别含有原始测序读段的样品中的生物序列的来源的方法。该方法可以用于识别未知DNA的来源并且可以用于诊断、生物防御、食品安全和质量以及卫生应用。在另一方面,本发明涉及可以用于本发明方法的参考序列数据库。
【IPC分类】G06F19/22
【公开号】CN104919466
【申请号】CN201380065692
【发明人】L·戈蒂埃, O·伦德
【申请人】丹麦技术大学
【公开日】2015年9月16日
【申请日】2013年10月11日
【公告号】EP2915084A1, US20150294065, WO2014060305A1
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1