数据库驱动的原始测序数据的初步分析的制作方法_2

文档序号:9204259阅读:来源:国知局
是图7中示出的完全相同的参考的匹配百分比,以及正确物种不在顶部 25个匹配的情形下的百分比。对于短读段(50nt)性能相对较差,噪音进一步降低它(第一 行的条线图),但从IOOnt变得非常好,并保持对噪声的稳健性。
[0061] 本发明的详细描述
[0062] 本发明平衡了对来自样品中发现的蛋白质、DNA或RNA的生物序列信息的可能来 源执行识别的速度和精度。
[0063] 在本发明方法中要使用的序列信息可以例如是来自核酸测序仪或者来自蛋白质 的C-或N-端测序或来自质谱蛋白质测序的原始读段。因此,在本发明的语境中的措词采 样序列是指这种也被称为短读段的原始读段。
[0064] 在图2中描述的本发明一个【具体实施方式】可以涉及:
[0065] ?用参考DNA创建数据库(参见图1)。该数据库是两部分:1)相对于参考来索引 的所有参考DNA的k-mer的数据库和2)来自数据库1的k-mer与在该参考序列中的位置 之间的关联性的数据库。因而参考k-mer ID和位置被存储在两个不同的数据库中。
[0066] 图1示出了数据库构建的一个实施方式。用来创建数据库的输入是来自公共或专 有数据库的DNA。这些然后都被分成k-mer,其可以优选是不重叠的以节省空间。k-mer还 可以是2比特位类型的(2-bit bit packed),这意味着每个碱基只占用存储器的2个比特。 为了加快存储k-mer,优选在插入数据库之前对这些k-mer进行分选。此外在该k-mer所来 源的参考序列中的名称和位置可以存储在单独的数据库中。
[0067] ?针对参考数据库,搜索来自一来源的查询序列的分解成k-mer的读段的选择。
[0068] ?由来自该查询序列的k-mer数计算主要得分,该k-mer可以在数据库中的给定参 考序列中找到。
[0069] ?将建议的序列返回用户,并且可以用于更大量且传统的分析。
[0070] 本发明的这一实施的特征是:
[0071] ?在搜索期间,只有完全匹配的k-mer被登记。
[0072] ?查询读段分解成多个k-mer,如长度为16。每个k-mer的起点增量为1。
[0073] ?不是"传统"的从头、比对或映射方法。
[0074] 图2示出了用于搜索k-mer数据库的一个可能的算法。使用具有一个步长的滑动 窗将读段分成k-mer。如果在当前搜索中已经遇到(访问)k-mer,那么选择下一个k-mer。 随后在k-mer数据库中查找该k-mer。如果它在数据库中,那么提取在参考序列中的身份和 位置。然后计算读段的近似连续性,并且如果最大连续节段超过阈值,那么命中计数增加。 这对于读段中的所有k-mer进行重复。对于每个读段,将得分计算为命中数(命中计数) 除以查询序列的长度,并且计算命中计数除以匹配参考序列的长度。这对多个读段进行重 复,这可以依赖于所获得的得分被先验或动态定义。得分被分选并且将最佳匹配返回给用 户。
[0075] 完全匹配不是在读段水平进行。评分允许沿读段缺失k-mer匹配(因此确保了对 生物样品中的测序错误和突变的稳健性)。
[0076] 该系统的概述是:
[0077] ?索引所有已知的参考DNA序列为k-mer,存储参考(例如物种)和在参考序列中 的位置。这一步优选只在参考DNA序列通过增加新序列或通过添加更多的序列信息来更新 时进行。
[0078] ?客户端,可以通过将DNA的短序列分成k-mer,针对数据库匹配它们并计数对参 考序列的命中数,优选以位置信息精化该匹配,来存储它们。
[0079] 获得的参考随后可用于:
[0080] ?过滤掉匹配参考的读段,并且找到是否存在来自另一不同参考但低丰度的DNA
[0081] ?针对该参考执行比对,或利用数据库中的参考反复构建更大的片段,这导致比通 过利用预先组装的参考进行从头组装更好的性能;此外,该性能将随着数据库大小增大而 提高并且加入了更多的组装好的参考
[0082] ?识别各种生物体或基因(例如与用于诊断目的相关)的可能存在。
[0083] 因为只有原始读段的子样品是必要的,这可以减少为执行基本的诊断(如识别传 染剂)而被传输的数据量。在更小的序列实验的情况下,这也允许一些分析通过客户端在 商品化硬件上进行。
[0084] 随着低通量桌面测序仪(或一次性测序单元)的发展以及更便宜的GPU或FPGA 的兴起,联合了允许对测序数据进行实时或接近与实时的初步分析的技术。
[0085] 算法
[0086] 在一个方面,本发明涉及识别生物序列的可能来源的方法,该方法包括:
[0087] a)从一来源采样序列或短读段的子集,
[0088] b)将来自该子集的序列分段成k-mer,
[0089] b)针对包含参考序列的k-mer的数据库,查询来自所述子集的k-mer,
[0090] d)确定哪个(哪些)参考包含该k-mer,和
[0091] e)返回对可能的来源参考的描述。
[0092] 术语"从一来源的序列"被用于指定从包含生物序列的样品中获得的序列。样品 可以是环境样品、来自受试者(如患者)的样品、来自犯罪现场的样品、食品样品、水样品 等。样品进行现有技术的DNA/RNA或蛋白质分离和测序方法。结果是一组表征该样品的序 列(也称为读段)。该序列通常是在一定间隔内的随机长度。该序列也通常是随机重叠的。 来自样品(称为来源序列)的每个序列可进行本发明的方法。
[0093] 根据本发明的术语"参考"包括存储在数据库中的序列的描述符。参考的典型例 子是特定物种或栽培物,或分离株的全长基因组序列。参考也可以由特定物种或特定条件 的物种的转录组或蛋白质组组成。物种的转录组和蛋白质组可以响应于年龄和环境条件随 时间而改变,而例如物种的基因组序列仍随时间或多或少恒定。数据库可存储关于参考的 额外信息。
[0094] 本发明的方法可以适用于任何生物序列信息,例如氨基酸序列和核苷酸序列如 DNA和RNA序列。在优选的实施方式中,序列是DNA序列。
[0095] 在最广泛的方面,本发明仅依赖于从查询或来源序列中识别k-mer的存在。在这 种情况下,从算法输出的是参考列表和在参考中识别的相应命中数目。然而,由于一些基因 组,例如人类基因组并且特别是一些植物基因组的大小,许多k-mer可能偶然存在于这些 非常大的基因组中。因此,在优选的实施方式中,查询还包括确定k-mer在参考序列中的位 置。这允许使用存在和位置来确定查询k-mer在参考序列中的连续性。这使得查询更精确, 因为可使用同时基于k-mer在参考中的存在和位置,或近似连续性的得分。因此本发明的 一个优选实施方式涉及一种识别生物序列的可能来源的方法,该方法包括:
[0096] a)从一来源采样序列或短读段的子集,
[0097] b)将来自该子集的序列分段成k-mer,
[0098] c)针对包括参考序列的k-mer的第一集合,查询来自所述子集的一个或多个 k-mer?
[0099] d)针对包括k-mer在参考序列中的位置的第二集合,查询来自所述子集的一个或 多个k_mer,
[0100] e)确定哪个(哪些)参考含有该k-mer,和
[0101] f)返回对可能的来源参考的描述,
[0102] 其中包括参考序列的k-mer的集合与包括k-mer在参考序列中的位置的集合是分 离的。
[0103] 在本发明的一个甚至更优选的实施方式中,针对包括k-mer在参考序列中的位置 的第二集合的查询仅仅是当在包括参考序列的k-mer的第一集合中已经发现(即存在)给 定k-mer时才进行(参见图2)。
[0104] 在本发明的一个优选实施方式中,当使用上述步骤a)到f)时,在查询随后的 k-mer之前,确定给定k-mer的存在和位置。因此本发明的一个优选实施方式涉及一种识别 生物序列的可能来源的方法,该方法包括:
[0105] a)从一来源采样序列或短读段的子集,
[0106] b)将来自该子集的序列分段成k-mer,
[0107] c)针对包括参考序列的k-mer的第一集合,查询来自所述子集的k-mer,
[0108] d)针对包括k-mer在参考序列中的位置的第二集合,查询来自所述子集的所述 k-mer?
[0109] e)确定哪个(哪些)参考含有该k-mer,和
[0110] f)返回对可能的来源参考的描述,
[0111] 其中包括参考序列的k-mer的集合与包括k-mer在参考序列中的位置的集合是分 离的。
[0112] 本发明的一个显著的特点是,只将从测序获得的序列的子集用于查询数据库。这 使使得在测序和查询非常大的基因组时可能是限速步骤的数据传输最小化。因此序列的子 集可以包括离散序列中的至少1 %,例如至少2 %,如至少4 %,例如至少5 %,如至少6 %,例 如至少7. 5 %,例如至少10 %,如至少15 %,例如至少25 %,如至少30 %,例如至少35 %,如 至少40%,例如至少50%。
[0113] 本发明的一个特征在于k-mer查询涉及确定查询k-mer和参考k-mer之间的精确 匹配。
[0114] 当查询来源序列或短读段时,查询优选涉及查询来自至少一个来源序列的所有 k-mer。这允许对连续性或近似连续性的最佳计算。优选地,查询来自至少50个来源序列 的所有k-mer,例如来自至少100,如至少150个,例如至少200个,如至少250个,例如至少 300个,如至少400个,例如至少500个,如至少750,例如至少1000个,例如至少1500个, 如至少2000个,例如至少2500个,如至少5000或更多个序列。所查询的来源序列的确切 数目特别是通过网络和计算能力、时间限制、统计要求和全长来源序列的大小和与不同参 考的源的相关性来确定。
[0115] 如在实施例中所示,每个来源序列优选是给定的最小长度以得到源生物体、品种、 栽培物或分离株的特性指纹。在来源序列是核苷酸序列的情况下,来源序列优选至少50个 核苷酸碱基,更优选至少75个核苷酸碱基,例如75至200个核苷酸碱基,如75个核苷酸碱 基至100个核苷酸碱基,或100个核苷酸碱基至125个核苷酸碱基,或125个核苷酸碱基至 150个核苷酸碱基,或150个核苷酸碱基至175个核苷酸碱基,或175个核苷酸碱基至200个 核苷酸碱基,甚至更优选至少100个核苷酸碱基,例如100-300个核苷酸碱基如,如100个 核苷酸碱基至150个核苷酸碱基,或150个核苷酸碱基至200个核苷酸碱基,或200个核苷 酸碱基至250个核苷酸碱基,或250个核苷酸碱基至300个核苷酸碱基,如至少100个核苷 酸碱基,例如100个核苷酸碱,例如200个核苷酸碱基,如至少250个核苷酸碱基,例如300 个核苷酸碱基,如400个核苷酸碱基,至少500或更多个核苷酸碱基。
[0116] 在许多实际实施中,初始查询序列的一个子集。如果这还不足以以足够高的确定 性来确定参考,该方法可以进一步包括选择序列的一个或多个另外的子集并将它们进行本 发明方法的步骤a)至f)。
[0117] 原则上,该方法允许使用任何大小的k-mer或k-字。然而,在一个优选实施方式 中,k-mer的大小可以被4整除。因此,k-mer可以是大小为4、8、12、16、20、24、28、32、36、 40、44、48、52、56、60、64或更长。更优选地,k-mer的长度为16和64之间,更优选16和32 之间。更长的k-mer使该方法对测序错误更敏感而更短的k-mer增加随机命中的数量,从 而提供噪声。
[0118] 在一个实施方式中,k-mer是连续的,并且优选地,存储在数据库中的k-mer是连 续的,以便覆盖整个参考序列。
[0119] 优选地,来自来源序列的k-mer是重叠的并且增量为至少一个碱基或氨基酸,例 如至少两个,如至少3个,例如至少4个,如至少5个,例如至少6个或更多。这相当于横跨 序列滑动宽度为k的窗口。横跨序列可以滑动一、二或更多个碱基/氨基酸的窗口。通过 从来源序列进行重叠和增量k-mer,该方法对测序错误或点突变变得不敏感,因为将在查询 中识别在例如单个碱基突变/错误的任一侧的k-mer。因此,可以以更高的精度计算连续 性。
[0120] 使用从来源序列的不相交子序列的串联得到的不相交的k-mer也是可能的。
[0121] 优选地,根据该方法,针对数据库查询来自给定序列的k-mer以确定在一个或多 个参考序列中k-mer的存在以及该k-mer在所述一个或多个参考序列中的位置。为了优化 数据库使用,优选仅当k-mer存在于数据库中时查询位置。
[0122] 为了允许定量评价所述查询,该方法涉及为所识别的参考序列计算得分,所述得 分与在给定的参考序列中找到的来自一个或多个序列的k-mer数目相关联。这个得分可以 例如被来源序列的长度整除。可为识别的参考计算进一步的得分,所述进一步的得分与在 参考序列中找到的来自一个或多个序列的k-mer的连续性相关联。例如,该得分可以是来 自在数据库中找到的一个来源序列的k-mer和在该数据库的一个参考序列中找到的k-mer 的最长序列的百分比。
[0123] 类似地,对于每个识别的参考序列,可以为识别的参考计算得分,所述得分与在参 考序列中的k-mer数目相关联,所述k-mer也存在于来自所述来源的k-mer的子集中。一 个实例可以是数据库中来自来源序列中发现的一个参考的k-mer的百分比。在许多实际应 用中,查询数百个来源序列并评分,以获得满意的确定性。这个得分还可以包括基于所识别 的k-mer的连续性的得分。
[0124] 优选地,为每个不同的来源序列计算这些得分,例如其中查询来自一个来源序列 的所有k-mer并且为所述来源序列计算一或多个得分。优选地,该方法还涉及查询来自第 二来源序列,优选来自第三来源序列的所有k-mer等。对于不同的来源序列的得分可例如 通过将它们以来源序列的长度加权而合并。
[0125] 在本发明的一个实施方式中,一旦对为读段所生成的所有k-mer进行处理,在参 考中匹配的连续位置的数目被用来隔离最大的匹配簇,即,在所有匹配参考中源自相同读 段的最大集中度的匹配k-mer。对于每个这样的簇,计数是通过将在一个簇中的k-mer数量 加上给定的参考序列的计数来计算的。当该方法是对给定样品的一个以上的读数迭代时, 该计数可通过将在一个簇中的k-mer的数量加上从先前的读段获得的参考序列的计数来 更新。即,计数可以通过加上用于该参考的k-mer数量来更新并且已经计数的k-mer列表 被更新。然后可以处理下一个序列或读段。获得与发现匹配的k-mer计数相关联的参考列 表。对于每对〈参考,计数〉,计数除以查询集中独一无二的k-mer的数量,提供了在给定参 考匹配的被查询子集中DNA量的粗略得分。如果被查询的子集是完全匹配该序列,那么得 分将是1,否则会降低;例如,如果所查询的子集是两个参考的等比例混合物,那么对两个 参考的得分都将是0.5左右。该计数也可以除以参考的大小(或在参考序列中独一无二的 k-mer的数量),得到由所查询的子集表示的参考部分的粗略得分;该第二得分有助于对匹 配参考进行分选,并避免偏向最大参考。最终的得分是这两个得分的加权和,例如其中对每 个得分使用相等的加权。
[0126] 在本发明的一个实施方式中,查询预先选定数目的来源序列并返回结果。然而,在 其他实施方式中,一旦以预定义的统计概率识别出参考生物体,那么就可以停止数据库查 询。同样,如果在数据库中没有找到预定义分数的k-mer或扩展更多的来源序列,或以松弛 参数计算的得分,那么可以停止数据库查询。这在垃圾序列,具有许多测序错
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1