数据库驱动的原始测序数据的初步分析的制作方法_3

文档序号:9204259阅读:来源:国知局
误的序列或完 全未知序列的情况时可能如此。
[0127] 来自查询过程的输出可以是根据一个或多个所述得分排名的可能的来源参考列 表。数据库输出的其它实例包括关于一个或多个可能参考的下列信息中的一个或多个:可 能参考的分类学名称、所述可能参考的近亲、所述参考的来源、遗传连锁信息、关于SNP、基 因在序列中的位置和注释的信息。
[0128] 在一个具体的实施方式中,数据库输出最可能的参考的序列,优选地,其中所述 数据库输出最可能的参考物种的全基因组序列。这允许用户使用现有技术的比对算法, 针对最可能的物种的全基因组序列比对来源序列,以进一步调查是否有突变或插入或染 色体异常(anomaly),异常(abnormality)或畸变。然而,在本发明的一个实施方式中, 本发明的方法不涉及对序列数据使用比对算法,如,例如使用得分矩阵的算法,如,例如 Smith-Waterman algorithm[14], BLAST[1], BLAT[5], Bowtie, BWA, SHRiMP[16],或熟练技 术人员已知的其他比对算法。
[0129] 在许多情况下,例如,当查询微生物的序列时,该数据库可包括许多密切相关的序 列,如来自相同物种的不同分离株的序列。在这样的情况下,来自具有非常相似的序列的参 考的结果可在输出中被分组。这还可以允许用户更容易地识别来自以较低量存在的另一物 种或不同物种中的小片插入的DNA。
[0130] 在许多情况下,样品包含物种的混合种群并且全基因组测序这将导致来自几个物 种的基因组DNA的混合物。在这种情况下,该方法可以涉及执行该方法的几次迭代,例如在 第一次迭代中识别最丰富的参考。在第二迭代中,从来源序列中除去来自最丰富的物种的 序列,然后查询数据库或者该方法可以涉及忽略来自该物种的进一步的结果。
[0131] 可替代地,来自本发明的方法的一个迭代的输出可以包括用于所识别的所有参考 的信息和得分。在这种情况下的得分可以包括在不同参考之间的百分比分布。
[0132] 本实施方式也可以用于识别插入物的参考,例如病毒插入物、转基因或来自另一 细菌物种的插入物。
[0133] 在许多实施方式中,用户将最初知晓在样品中存在来自一个参考的序列或短读 段,并且随后的任务是识别在该样品中存在的任何其它序列或短读段的可能的参考。这在 诊断学的情况下会是如此,其中样品包含人类DNA和来自可能的病原体的DNA两者。其它 实例包括对食物样品中有害细菌的识别,其中,已知样品含有来自食物源(如沙拉、番茄、 黄瓜、来自特定物种的肉)的DNA并且任务是识别任何污染的DNA的存在和身份。在这样 的方法中,该方法可以包括最初去除与来自预先定义的参考的序列对准的来源序列。或者, 该方法可以涉及忽略来自一个或多个预先定义的参考的k-mer。
[0134] 在一个实施方式中,该方法涉及在从核酸测序仪获得原始读段时采样并查询它 们。
[0135] 当为了诊断目的识别DNA数据的查询集(如来自测序仪的短读段或原始读段) 时,我们认为包括映射或比对针对于全面的参考数据库的所有读段的蛮力方法有两个主要 的缺点:首先是几百兆或千兆字节的数据的大部分或者从测序设施转移到计算中心,其次 是执行该任务必须的计算资源是至关重要的。假设一个参考集合包含10, 〇〇〇大肠杆菌规 模的细菌并且需要30秒优化比对器,如BWA和bowtie2来处理250Mb的原始测序数据(如 果基因组是4Mb大小,平均覆盖为约60x),尽管可以在多个CPU上并行进行处理,但是这样 的CPU处理会花费3天半。可以进行精化使得基因组串联但代价是需要日益增加的存储器 容量,向初始参考基因组分配映射位置的后处理运算,以及参考接近的基因组时不可避免 的多个匹配,这是短读段比对器往往不适的方面。使用FM-索引在大小为u的参考中定位长 度P的串的η个出现次数具有上限O(p+n log ε u),这意味着,尽管随着参考大小(以log ε 定义的术语)的增加,复杂性增长缓慢,但它与高度相似的基因组的数量呈线性增长。我 们的方法包含了巨大的参考数据库的观点,并且不试图在一台计算机的所有RAM中容纳它 们。
[0136] 数据库
[0137] 在一个方面,本发明涉及包含参考序列的k-mer的数据库,所述数据库包括:
[0138] a.来自参考序列的k-mer的第一集合,和
[0139] b.每个k-mer在该参考序列中的位置的第二个集合。
[0140] 数据库架构允许非常快速地查询来自来源序列的k-mer,如示于所附实施例中,其 证明了结果可在几秒钟内被返回。
[0141] 该数据库可以进一步包括关于与给定参考相关联的全长序列,和/或所述参考的 来源,和/或所述参考的一种或多种分类学描述符的信息。可以被存储的附加信息是关于 DNA序列中的基因注释的信息。
[0142] 当建立该数据库时,k-mer可以进行哈希函数,向每个独一无二的k-mer分配唯一 的密钥。其他的可能性包括搜索树或哈希函数和搜索树的组合。该唯一的密钥可以与关于 k-mer所在的那些参考的信息相关联。
[0143] 在第二集合中,第二集合中的每个独一无二的k-mer也可以用作密钥,并通过哈 希表、搜索树或它们的组合与关于在每个参考中k-mer(k-mer在该参考中存在)的位置的 信息相关联。此集合可以包括关于k-mer存在的位置的进一步的信息,例如与序列如编码 序列、调节序列等的任何注解的关联性。
[0144] 关于存在给定k-mer的参考序列的一个或多个另外的信息,例如与序列的任何注 释的关联性、编码序列、调控序列、可能参考的分类学名称、所述可能参考的近亲、所述参考 的来源、一组另外相关的参考、参考是从哪里获得的(例如土壤、海洋、内脏、下水道等)、参 考序列是何时获得的、分类学分类、近缘物种、关于参考序列是从哪个数据库(例如NCBI、 EBI/Sanger)下载的信息,或者其他信息都可存储在单独的数据库中,例如SQL数据库,其 可以另外用于提取关于根据本发明的参考序列的信息。
[0145] 术语"一组另外相关的序列"是指来自取自诸如土壤、海洋、内脏、下水道等的相似 环境的样品的序列。
[0146] 因此,在本发明的一个实施方式中,包括参考序列的k-mer的数据库包括:
[0147] a)来自参考序列的k-mer的第一集合,和
[0148] b)每一 k-mer在该参考序列中的位置的第二集合。
[0149] c)第三集合或数据库,其具有选自下组的参考标识符和一或多个信息:描述行、 数据来源、可能参考的分类学名称、所述可能参考的近亲、所述参考的来源、一组另外相关 的参考的信息、参考是从哪里获得的(例如土壤、海洋、内脏、下水道等)、参考序列是何时 获得的、分类学分类、近缘物种、关于参考序列是从哪个数据库(例如NCBI、EBI/Sanger或 其他数据库)下载的信息。
[0150] 在一个优选的实施方式中,k-mer的第一集合是关联到每个k-mer (数据库中的密 钥)的键值对存储或NoSQL数据库,例如KyotoCabinet,对应于具有该k-mer的参考的标识 符列表如图1中所示。k-mer在参考序列中的位置的第二集合也可以被存储在键值对存储 或NoSQL数据库,例如KyotoCabinet中(参见图1)。参考标识符和信息条(例如描述行和 数据来源)之间的关联性被存储在单独的SQL数据库中。
[0151] 虽然假定有足够的查找表,但k-mer在数据库中的长度优选匹配k-mer在来源序 列中的长度。然而,k-mer在数据库中优选不重叠。使用重叠的k-mer将增加数据处理时 间。
[0152] 根据本发明,在数据库中参考序列的索引的k-mer可以是重叠或非重叠的。在优 选实施方式中,索引的参考序列的k-mer是非重叠的。本领域技术人员可以理解,相似的评 分原则可以用于参考序列中的非重叠或重叠的k-mer的索引数据库。
[0153] 如果将树或哈希用于k个索引和查找,在以k-mer索引的大小为u的参考中定位 长度P的串的η个出现的时间复杂度具有0(p+n log u)或0(ρ+η)的复杂度。
[0154] 这并不排除这样的实施方式,其中k-mer是重叠的并且增量为至少一个碱基或氨 基酸,例如至少两个,如至少3个,例如至少4个,如至少5,例如至少6个或更多。
[0155] 在优选的实施方式中,给定参考的完整基因组序列被分段成k-mer并上传到数据 库中。还可以设想仅基于给定参考的转录组或给定参考的蛋白质组建立数据库。
[0156] 如果目的只是为了识别来源序列的可能的参考,该数据库不必是完整的。提供对 来自特定参考的基因组DNA的随机选择可能就足够。该选择也可以是非随机的,例如排除 重复DNA以及所谓的垃圾DNA的拉伸。
[0157] 对于生物序列、蛋白质、RNA、DNA每种类型,可以构建一个包含所有可用信息的数 据库。在其他实施方式中,可以构建用于专门目的的专门的数据库,例如目的仅仅是为了从 来源序列识别给定参考序列的存在或不存在。例如,该数据库可以包括来自人类、动物、哺 乳动物、鸟类、鱼类、真菌、昆虫、植物、细菌、古细菌、病毒和/或质粒的序列信息。如果没有 找到具有足够高的得分的匹配参考,也可以通过一个服务器向一个或几个其他服务器转发 的关于读段的请求来建立数据库网络。
[0158] 为了不损害速度而最佳利用硬件资源,该数据库可以被划分成存储在几个不同的 服务器中的子数据库。
[0159] 在其他实施方式中,根据选自门、纲、目、科、属和种的一种或多种分类学描述符, 或一种或多种环境描述符,如来源、分布、起源和通常的搜索频率,使所述数据库组织成子 数据库。
[0160] 该数据库可以按照在图1中的描述来构建并使用被称为键值对存储的数据库引 擎(例如BSDDB、KyotoCabinet、LevelDB、MongoDB和其他)存储。因此,在本发明的一个 实施方式中,使用选自BSDDB、KyotoCabinet、LevelDB、MongoDB的组中的键值对存储来存 储数据库。
[0161] 算法的应用
[0162] 本发明的方法和系统可以在需要识别在样品中发现的DNA的可能来源的多种应 用中使用。
[0163] 诊断
[0164] 在药物治疗中,需要快速识别感染的可能来源。这可以使用根据本发明的方法来 完成。由此可以选择将以最有效的方式和最少的副作用治疗感染的合适的治疗。
[0165] 进一步的诊断应用涉及识别癌细胞中的病毒插入物。在本申请中,有利的是从获 自原始读段的序列过滤全长人类序列或者简单地忽略在数据库中识别的所有人类命中。这 将允许识别人基因组中的相对小的病毒插入物。
[0166] 牛物防御
[0167] 在生物防御应用中,有必要进行快速可靠地识别所遇到的传染性物种或致病剂。 本发明提供了对该来源没有先验知识时快速识别该来源的可能性。本发明的方法允许没有 对病原体物种的先验知识时区别物种。
[0168] 生物防御的其它应用包括识别转基因病原体,其中已经插入了例如有毒的转基 因。该数据库有利也包含来自现有技术的质粒的序列信息。这将允许容易地识别插入物的 侧翼区。如果转基因是来自在数据库中发现的生物体,它也将可能识别转基因的来源。在 这种情况下,数据库可以返回病原体的名称、该转基因来源的生物体的名称、该转基因编码 的基因以及用于插入该转基因的质粒。
[0169] 畲品安全和质量
[0170] 目前用于鉴定食品中潜在的有害传染的方法缓慢(基于传染性生物体的分离和 生长)或需要传染源的以前的知识(基于PCR的方法)。本方法不需要如此,并允许当局和 制造商简单地分离基因组DNA,测序DNA并上传原始读段到能够操作本发明的方法的系统。
[0171] 当在食物样品中寻找细菌、真菌或病毒时,有利的可能是查询只包含来自细菌、真 菌或病毒的序列的数据库的一小部分。以这种方式,来自食物(蔬菜、水果、肉)的任何基 因组序列都将被识别为在数据库中不存在,从而提高了该方法的性能。
[0172] 其他应用包括质量控制。一种可能的应用是识别肉的种类,如肉末、肉酱、即食餐、 方便食品。有许多企图诈骗的实例,其中昂贵的肉,如牛或羊肉被用更便宜的肉类,如猪肉 替换或"稀释"。
[0173] 其他可能的质量控制应用包括确定植物的品种,如葡萄、苹果、土豆等。
[0174] 再其他的可能性包括水质的控制。
[0175] 卫牛和预防
[0176] 本发明提供了通过能够快速鉴定取自与清洁程序相连的样品中的DNA来源来进 行卫生控制的可能性。进一步的应用包括识别污染的可能来源从而能够应用最适于消除特 定传染原的卫生技术。
[0177] 项目
[0178] 现在,本发明描述为任意编号的项目1到56,这将被视为本发明的实施方式。进一 步参照所附的权利要求定义本发明。
[0179] 1. -种识别生物序列的可能来源的方法,该方法包括:
[0180] a)从一来源采样序列或短读段的子集,
[0181] b)将来自该子集的序列分段成k-mer,
[0182] c)针对包括参考序列的k-mer的数据库,查询来自所述子集的k-mer,
[0183] d)确定哪个(哪些)参考含有该k-mer,和
[0184] e)返回对可能的来源参考的描述。
[0185] 2.项目1的方法,其中生物序列或短读段是氨基酸序列。
[0186] 3.项目1的方法,其中所述生物序列或短读段是DNA或RNA序列。
[0187] 4.任一前述项目的方法,其中k-mer查询涉及确定查询k-mer和参考k-mer之间 的完全匹配。
[0188] 5.任一前述项目的方法,其中所述查询进一步包括确定k-mer在参考序列中的位 置。
[0189] 6.任一前述项目的方法,其中存在和位置被用来确定在参考序列中的查询k-mer 的连续性。
[0190] 7.任一前述项目的方法,其中查询涉及从至少一个来源序列或短读段查询所有的 k-mer,优选从至少50,例如从至少100,如从至少150,例如从至少200,如从至少250,例如 从至少300,如从至少400,例如从至少500,如从至少750,例如从至少1000,例如从至少 1500,如从至少2000,例如从至少2500,如从至少5000或更多个序列。
[0191] 8.任一前述项目的方法,其中所述来源序列是至少50个碱基的核苷酸序列,优选 至少100个碱基,如至少150个碱基,例如至少200个碱基,如至少250个碱基,例如至少 300个碱基,如至少400,至少500或更多个碱基。
[0192] 9.任一前述项目的方法,其中序列的子集包括至少1%的离散序列,例如至少 2%,如至少4%,例如至少5%,如至少6%,例如至少7、5%,例如至少10%,如至少15%, 例如至少25%,如至少30%,例如至少35%,如至少40%,例如至少50%。
[0193] 10.任一前述项目的方法,进一步包括选择序列的一个或多个另外的子集并将它 们进行项目1的步骤a)至步骤e))。
[0194] 11.任一前述项目的方法,其中所述子集是随机的或过滤的。
[0195] 12.任一前述项目的方法,其中 k-mer 的大小为 4、8、12、16、20、24、28、32、36、40、 44、48、52、56、60、64 或更长。
[0196] 13.任一前述项目的方法,其中k-mer是连续的。
[0197] 14.任一前述项目的方法,其中k-mer是重叠的并且增量为至少一个碱基或氨基 酸,例如至少两个,如至少3个,例如至少4个,如至少5个,例如至少
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1