适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法

文档序号:8375970阅读:821来源:国知局
适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法
【技术领域】
[0001] 本发明涉及高通量测序领域,具体而言,涉及一种适用于多样本的扩增子文库构 建的引物、扩增子文库及其构建方法。
【背景技术】
[0002] 扩增子测序是对特定长度的PCR产物或者捕获的片段进行测序,主要包括16S rDNA测序、18SrDNA测序、ITS测序及功能基因检测等。采用illuminaMiSeq第二代高通 量测序平台测定的16S/18S/ITS某个高变区域的序列,来反应环境样品在细菌、真菌、古菌 分类方面物种之间的差异,对研宄海洋、土壤、肠道粪便等环境中的微生物构成有重要的指 导作用;同样,也可通过对某些功能基因片段的测序,挖掘更多的生物学信息。
[0003] 16SrDNA是编码细菌核糖体小亚基的DNA序列,分子大小约1540bp,由9个可变 区和10个保守区交叉排列组成。保守区能反映物种间亲缘关系,可变区在不同菌种间存在 差异。根据保守区序列设计引物,将可变区扩增出来进行测序,通过测序数据与相应数据库 的比对,即可确定微生物在进化树中的位置,从而鉴定样本中可能存在的细菌种类。研宄表 明,V4靶基因区域(约300bp)对微生物进行分类较为准确。
[0004] ITS1是位于真核生物的18SrRNA和5. 8SrRNA之间的内转录区域,ITS2位于真核 生物的5. 8SrRNA和28SrRNA之间的内转录区域。由于进化相对于18SrRNA、5. 8SrRNA 和28SrRNA迅速而具多态性,因而适合于等级水平较低的系统学研宄。根据保守区序列设 计引物,将其扩增出来进行测序,通过测序数据与相应数据库的比对,即可确定微生物在进 化树中的位置,从而鉴定样本中可能存在的真菌种类,是目前非常常见的分析真菌方法。
[0005] 微生物扩增子区域的测序,首先是对目标样本进行PCR扩增,然后构建适用于二 代测序平台的文库。目前现有的扩增方法均为设计各菌株所通用的引物(即保守区扩增 序列)对保守区进行扩增,由于16S、18S、ITS保守性较强,不同菌种的差异性较低,序列相 似性较高,在测序过程中会影响测序仪的信噪比和簇成像,造成测序质量差(Q20占60%~ 80%,Q20是指illumina的测序质量,它是由Q= -101〇gl0(E)这个公式推导出来的,E代 表该碱基测序错误率,如E= 0.01,那么Q值为20,同理可以算出E= 0.001,Q为30。那 么Q(20) = 80%代表在该测序结果中,碱基测序质量在Q20以上的碱基数在总碱基数中 的比例为80%,也就说这个值越大越好),导致需要添加的平衡文库高(占总文库数量的 20% -50% )、有效数据量低(只有50% -70% )等缺点。
[0006] 因此,仍需要对现有的扩增子文库构建方法进行改进,以提高扩增子文库测序数 据的质量和有效数据量。

【发明内容】

[0007] 本发明的主要目的在于提供一种适用于多样本的扩增子文库构建的引物、扩增子 文库及其构建方法,以提高多样本的扩增子文库测序数据的质量和有效数据量。
[0008] 为了实现上述目的,根据本发明的一个方面,提供了一种适用于多样本的扩增子 文库构建的引物,该引物包括错位碱基序列和保守区扩增序列;错位碱基序列是一个或多 个碱基排列形成的序列,且当多样本的数量小于4时,多样本的错位碱基序列在相同位置 上的碱基的类型各不相同;当多样本的数量为4n,且n为大于等于1的自然数时,多样本的 错位碱基序列在相同位置上的碱基类型为A、T、C和G均匀分布;当多样本的数量为4n+m, 且n为大于等于1的自然数,m为1、2或3时,其中,多样本中的4n个样本的错位碱基序列 在相同位置上的碱基类型为A、T、C和G均匀分布;剩余m个样本的错位碱基序列在相同位 置上的碱基类型按照m的不同分别为A、T、C和G中的任意1种、2种或3种。
[0009] 进一步地,错位碱基序列中碱基的数目小于等于5。
[0010] 进一步地,当多样本的数量小于等于5时,任意两个样本之间的错位碱基序序列 中的碱基的数目至少相差1个。
[0011] 进一步地,当多样本的数量大于5时,至少两个样本的错位碱基序序列中的碱基 数目相同。
[0012] 进一步地,引物还包括样本标签序列,样本标签序列为6~12个碱基随机排列所 形成的序列。
[0013] 进一步地,引物为16SV4、18SV4或ITS1多样本扩增子文库构建的引物;当引物 为16SV4多样本扩增子文库构建的引物时,引物包括:16SV4正向序列:SEQIDNO:l、SEQ IDNO:2、SEQIDNO:3、SEQIDNO:4和SEQIDNO:5 ;16SV4反向序列:SEQIDNO:6、SEQ IDNO:7、SEQIDNO:8、SEQIDNO:9 和SEQIDNO: 10 ;当引物为 18SV4 多样本扩增子文 库构建的引物时,引物包括:18SV4正向序列:SEQIDNO:11、SEQIDNO:12、SEQIDNO: 13、SEQIDN0:14 和SEQIDN0:15;18SV4 反向序列:SEQIDN0:16、SEQIDN0:17、SEQ IDNO:18、SEQIDNO:19和SEQIDNO:20 ;当引物为ITS1多样本扩增子文库构建的引物 时,引物包括:ITS1 正向序列:SEQIDNO:21、SEQIDNO:22、SEQIDNO:23、SEQIDNO: 24和SEQIDN0:25;ITS1 反向序列:SEQIDN0:26、SEQIDN0:27、SEQIDN0:28、SEQID NO:29 和SEQIDNO:30。
[0014] 为了实现上述目的,根据本发明的一个方面,提供了一种多样本的扩增子文库的 构建方法,该构建方法包括:利用目标区域扩增引物分别对多个不同样本的目标区域进行 扩增,得到多个样本的目标片段;对多个样本的目标片段进行接头连接,得到多样本的扩增 子文库;其中,目标区域扩增引物为上述任一种引物;或者目标区域扩增引物为上述任一 种引物和由样本标签序列和保守区扩增序列组成的引物。
[0015] 进一步地,当目标区域扩增引物为上述任一种引物和由样本标签序列和保守区扩 增序列组成的引物时,多样本的扩增子文库中含有0~5个碱基排列形成的错位碱基序列。
[0016] 进一步地,接头连接的步骤中,在多个样本的目标片段两端分别连上P5和P7接 头,得到多样本的扩增子文库。
[0017] 根据本发明的又一个方面,提供了一种多样本的扩增子文库,该扩增子文库采用 上述任一种构建方法构建而成。
[0018] 应用本发明的技术方案,通过在现有技术的通用引物的基础上,在其前面增加1 个或多个错位碱基,使得所构建的文库在读取多个样本的目标扩增片段时,从不同的碱基 位置开始读取其保守区扩增序列,减少了将多个样本的保守区域的相同碱基同时读取的概 率;因而,更容易分辨不同样本来源的序列相似较高的序列,提高了测序质量;同时由于扩 增片段本身在相同位置处的碱基类型相对均匀分布,更提高了保守区扩增序列的多样性, 减少了平衡文库的占比,使得所得测序数据中目标片段的数据占比提高,即有效数据量得 到提尚。
【附图说明】
[0019] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示 意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0020] 图1示出了根据本发明的优选实施例中适用于多样本的扩增子文库构建的引物 的结构示意图。
【具体实施方式】
[0021] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将结合实施例来详细说明本发明。
[0022] 现有技术中在利用通用的保守区扩增序列扩增来源不同的样本时,由于样本间的 序列相似性较高,在测序时存在测序质量差、有效数据量低等缺陷。为改善这一缺陷,在本 发明一种典型的实施方式中,提供了一种适用于多样本的扩增子文库构建的引物,该引物 包括错位碱基序列和保守区扩增序列;错位碱基序列是一个或多个碱基排列形成的序列, 且当多样本的数量小于4时,多样本的错位碱基序列在相同位置上的碱基的类型各
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1