适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法_2

文档序号:8375970阅读:来源:国知局
不相 同;当多样本的数量为4n,且n为大于等于1的自然数时,多样本的错位碱基序列在相同位 置上的碱基类型为A、T、C和G均匀分布;当多样本的数量为4n+m,且n为大于等于1的自 然数,m为1、2或3时,其中,多样本中的4n个样本的错位碱基序列在相同位置上的碱基类 型为A、T、C和G均匀分布;剩余m个样本的错位碱基序列在相同位置上的碱基类型按照m 的不同分别为A、T、C和G中的任意1种、2种或3种。
[0023] 现有技术的扩增子文库构建的引物是利用保守区域的序列作为多个样本的通用 引物进行扩增,所构建得到的文库在测序时,测序仪在读取完标签序列之后,接着读取的是 每个样本的扩增片段,但由于扩增片段的起始部分都是通用的保守区域序列,序列相似性 较高,多样性较低,当序列相似性较高时,测序仪的信噪比会降低,同时会出现错误识别碱 基信号或者丢失碱基信号现象,导致测序质量下降。因而,会导致部分样本的序列错误或丢 失,导致测序质量下降。另一方面,为了增加扩增片段的多样性,在扩增子文库测序时通常 会在文库中增加X-DNA文库或其他碱基均衡性较高的DNA文库(这类文库俗称平衡文库, 其添加方式是按照所测数据量比例添加,如illuminamiseq测序仪,一次测序可得到25M 数据,如果是扩增子文库,会按照扩增子文库为20M数据,平衡文库为5M的比例进行添加。 平衡文库在构建时不会引入平衡文库标签序列,因而在最后的数据分析阶段,平衡文库的 数据是不会用到的),当通用的保守区域序列扩增的目标片段的差异性较低时,需要增加的 平衡文库的占比就较高,测序所得数据中目标片段的数据占比就相对较少,因而测序有效 数据量较低。
[0024] 相比现有技术,本发明的上述引物是在现有技术的通用引物的基础上,在其前面 增加1个或多个错位碱基,使得所构建的文库在读取多个样本的目标扩增片段时,从不同 的碱基位置开始读取其保守区扩增序列,减少了将多个不同样本的相同的保守区域的相同 碱基同时读取的概率,而且,在相同位置上的错位碱基的类型尽量不同,增加了相同位置的 碱基类型的多样性,使得测序仪更容易分辨不同样本来源的序列相似较高的序列,提高了 测序质量,同时由于扩增片段本身的序列多样性相对增加,也减少了平衡文库的占比,使得 所得测序数据中目标片段的数据占比提高,即有效数据量得到提高。也就是说,在保守区扩 增序列之前增加错位碱基序列使得各样本所构建的扩增子文库中的保守区扩增序列位于 不同的碱基位置处,即各样本的保守区扩增序列的相同碱基并不会在同一轮的测序结果中 出现,因而测序仪不会将相似度较低的序列错报为同一条序列,使得测序质量得到提高。
[0025] 在上述引物中,错位碱基序列中错位碱基的数目可以根据样本数目的多少进行合 理确定,只要错位碱基数目能够提高多个样本的扩增片段多样性,便于测序仪将多个不同 样本区分开来即可。本发明考虑到错位碱基序列在测序仪的测序读长中也占有一定的比 例,若其数目过大,则在测序所得数据中,错位碱基序列所占的碱基数越多,其后面读取的 目标片段的长度就相对越短,因而本发明优选错位碱基的数目小于等于5。将错位碱基的数 目控制在1~5之间,一方面能够增加目标片段的多样性,提高测序仪的分辨率,提高测序 质量;另一方面又不占用过多的测序读长,提高测序数据有效量。当然,当目标片段比较短, 测序仪的读长大于目标片段与错位碱基序列的总和时,为了进一步提高目标片段的多样性 和测序仪的分辨率,错位碱基的数目还可以适当增加。
[0026] 上述引物是适用于多样本的扩增子文库的构建,根据所欲扩增的样本的数量的不 同,不同样本之间的上述引物也存在不同的要求或规律。在本发明一种优选的实施例中, 当样本的数量小于等于5时,任意两个样本之间的错位碱基序序列中碱基的数目至少相差 1个。当样本的数量小于等于5时,如样本的数量为5时,第一个样本的错位碱基序列可以 为1个碱基;第二个样本的错位碱基序列为2个碱基组成的序列,第三个样本的碱基序列为 3个碱基组成的序列,第四个样本的错位碱基序列为4个碱基组成的序列,第五个样本的碱 基序列为5个碱基组成的序列,这样,不同样本不仅序列不同,而且保守区域碱基出现的顺 序也不同。当每个样本读取1个碱基后,第一个样本即开始读取保守区域的第1个碱基,而 此时,第二至第五个样本读取的是其第2个错位碱基;当每个读取2个碱基后,第一个样本 读取保守区域的第2个碱基,第二个样本读取保守区域的第1个碱基;第三至第五个样本读 取的是其第3个错位碱基。依次类推,每个样本的保守区域的碱基并不是同时被测序仪读 取,因而能够将相同保守区域后面的序列相似性较高的目标片段的样本来源区分开来。
[0027] 上述由不同碱基数目所形成的多个样本的错位碱基序列,相比由相同碱基数目所 形成的不同序列构成的错位喊基序列,更有利于增加序列的多样性,提尚测序仪的分辨率, 从而提高测序质量。由于相同碱基数目所形成的错位碱基序列,在读取相同数目的碱基之 后,仍会面临同样的保守区域碱基相同的状况,此时仍可能会将后续读取的来源于不同样 本的碱基误读为同一样本的碱基,这样测序质量仍相对较低。
[0028] 在本发明另一种优选的实施例中,当样本的数量大于5时,至少两个样本的错位 碱基序列中的碱基数目相同。基于测序文库中不同数目的错位碱基序列相对均衡考虑,当 多个样本的数量大于5时,本发明优选按照组成错位碱基序列的碱基数目,从1个到5个依 次使用,不构成5的倍数的剩余的样本可以从1~5个碱基的错位碱基序列中随机选择。这 样,相对于现有技术中保守区域读取的碱基100%相同的几率,大于5的样本中虽然至少两 个样本的错位碱基序序列中的碱基数目相同,但所构建的文库在读取保守区域的碱基时, 由于有其他错位碱基数目不同的样本的存在,样本间的序列多样性大大提高,因而读取相 同碱基的概率就大大降低。
[0029] 本发明的引物,通过含有上述错位碱基序列大大提高所构建文库的质量和有效数 据量,为了进一步简化建库流程,提高建库效率,在本发明一种优选的实施例中,如图1所 示,上述引物除了包括错位碱基序列2和保守区扩增序列3外,还包括样本标签序列1,样 本标签序列1为6~12个碱基随机排列所形成的序列。该优选实施例中,将用于区别样本 来源的样本标签序列1与带有错位碱基序列2的目标片段扩增序列3共同置于同一条引物 上,只需通过一步PCR的过程即可完成目标片段扩增步骤和样本标签连接步骤,既简化工 艺步骤,又提高了文库测序数据的质量和有效量。而样本标签序列1为本领域通常所用的 6~12个碱基随机排列而成的序列,不同样本带有不同的标签序列。根据该标签序列的不 同,可以对测序所得的数据的样本来源进行区分。更优选采用6~8个碱基随机排列而成 的序列作为样本标签序列,利于标签序列的区分,且不占用太多的测序读长。
[0030] 本发明的上述引物最常见的是用于微生物种群多样性的扩增子的扩增,只需要在 保守区域引物前端加上不同数目的错位碱基序列,就能显著提高测序质量和产出的有效数 据量。在本发明又一优选的实施例中,上述引物为16SV4、18SV4或ITS1多样本扩增子文 库构建的引物;当引物为16SV4多样本扩增子文库构建的引物时,上述引物包括:16SV4 正向序列:SEQIDNO:1、SEQIDNO:2、SEQIDNO:3、SEQIDNO:4 和SEQIDNO:5 ;16S V4反向序列:SEQIDNO:6、SEQIDNO:7、SEQIDNO:8、SEQIDNO:9和SEQIDNO:10 ;当 弓丨物为18SV4多样本扩增子文库构建的引物时,上述引物包括:18SV4正向序列:SEQID NO:11、SEQIDNO:12、SEQIDNO:13、SEQIDNO:14 和SEQIDNO:15 ;18SV4 反向序列: SEQIDN0:16、SEQIDN0:17、SEQIDN0:18、SEQIDN0:19 和SEQIDN0:20;当引物为 ITS1多样本扩增子文库构建的引物时,上述引物包括:ITS1正向序列:SEQIDNO:21、SEQ IDNO:22、SEQIDNO:23、SEQIDNO:24和SEQIDNO:25 ;ITS1 反向序列:SEQIDNO:26、 SEQIDNO:27、SEQIDNO:28、SEQIDNO:29 和SEQIDNO:30。
[0031] 在上述优选的
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1