一种构建全基因组高通量测序的文库的方法和试剂盒与流程

文档序号：23817521发布日期：2021-02-03 13:52阅读：485来源：国知局

[0001]
本发明涉及一种构建全基因组高通量测序的文库的方法和试剂盒。更具体地，本发明涉及一种可降低冗余和序列标签（index）串扰的构建全基因组高通量测序的文库的方法和试剂盒。

背景技术：

[0002]
全基因组测序（whole
ꢁ
genome
ꢁ
sequencing，wgs）是利用高通量测序平台对人类不同个体或群体进行全基因组测序，并在个体或群体水平上进行生物信息学分析。可全面挖掘dna水平的遗传变异，为筛选疾病的致病及易感基因和研究发病及遗传机制提供重要信息。相较于全外显子组测序来说，全基因组测序由于结果包含完整丰富的信息，可以得到外显子测序或靶向测序不能得到的更多信息，具有其独特的优势。且随着近年来测序技术的不断进步、测序成本的不断降低，使得全基因组测序变得触手可及。而且全基因组测序在鉴定单核苷酸变异（snp）、插入和缺失突变（indel）时更有优势，所以全基因组测序逐渐成为了临床和基础研究的另一种选择。
[0003]
在全基因组测序文库的制备，可分为含pcr扩增和不包含pcr扩增的（pcr-free）两种文库制备方法。对比两种文库制备方法，pcr流程的优点是对dna模板量的要求较低，缺点是操作复杂，且存在pcr扩增偏好，容易引入扩增错误；pcr-free流程的优点是省略了pcr过程，操作更为简单，并且因为可以避免由pcr扩增带来的偏好和扩增错误，具有比pcr流程更优的罕见突变检测灵敏度和准确性，缺点是比pcr流程需要更多的样本量，且存在比pcr流程更高的序列标签（index）串扰率（index hopping ratio）。
[0004]
给每个样品加上特定标签，同一条lane中共同上机，在后续数据分析时再将不同样品数据分开，这是二代测序常用的提高测序通量，避免仪器浪费的方法。这种用于区分不同样品的dna序列标签就是index。发生序列标签（index）串扰也就意味着无法根据index完全正确地区分不同样本。普通pcr-free建库流程的序列标签（index）串扰率增加，意味着分到一个index的较多占比的数据来自于其他样本，检测准确性会受到很大影响。为了解决这个问题，一般采用双标签序列接头（dual index），给一个样本加上2个标签，在数据拆分时只有两个标签同时正确的序列才被认为可靠，带有错误标签组合的序列被识别出来并丢弃。这种方法可以保证拆分出的数据确定来自于同一个样本，解决了序列标签（index）串扰带来的检测准确性问题，但是却因标签数量增多而增加了接头制备和维护难度。
[0005]
另外，采用图案化流动槽技术（patterned flow cell）的测序平台（如novaseq
™ꢀ
system）的冗余度（redundancy）很高，并且冗余度随着测序数据量的增加而增加。冗余是由于一个分子被多次测序产生的数据，对数据分析没有帮助，因此冗余是需要在数据分析前去除的。冗余度越高意味着越多的测序数据不能用，测序成本越高。作为对数据量需求非常高的检测项目，全基因组测序比其他检测项目更加需要降低测序冗余度来节约测序成本。

技术实现要素：

[0006]
鉴于目前全基因组测序检测中所遇到的高序列标签（index）串扰比和冗余度问题，本申请提供了一种可降低冗余和序列标签（index）串扰的构建全基因组高通量测序文库的方法。所述高通量测序文库的方法适用于采用图案化流动槽技术（patterned flow cell）的测序平台（如novaseq
™ꢀ
system），包括现有和以后推出的采用图案化流动槽技术（patterned flow cell）的测序平台。
[0007]
本发明是基于以下发现：本发明人发现，基于图案化流动槽技术的测序平台上，序列标签（index）串扰是由于文库中残留的未参与连接的index接头造成，index接头越多，序列标签（index）串扰越严重（例如pcr-free文库的序列标签（index）串扰率显著高于pcr文库，是因为pcr文库的pcr扩增过程对接头有稀释作用，index接头残余量较低）。推测产生原理如下：由于带有index的p7接头序列位于3’端，其与测序流动槽（flowcell）上的p7引物匹配后发生扩增，形成带有index的引物簇，在文库模板链落入后，该引物簇作为引物参与模板链扩增，从而将模板链自身带有的index替换掉，从而形成序列标签（index）串扰。为了解决这个问题，将接头带有index的p7端改变方向，由3’端变为5’端，这样只有接头的p5链可以与流动槽上的p5引物形成引物簇，因为p5上没有index，也就不会发生替换模板链index的情况。基于此发现，本发明人做了改变接头的方向的设计，来防止序列标签（index）串扰的发生。
[0008]
另外，本发明人还发现，pcr-free文库在采用图案化流动槽技术（patterned flow cell）的测序平台上机时，生成簇的过程中，可能会因快速扩增导致文库模板链脱落，落入临近的孔生成另一个簇，这个过程有可能多次发生。由此发生将1个模板测了两次或多次的情况，这是冗余产生的原因之一。在接头5’端增加一段高gc序列，可以在簇生成过程中牵拉住模板链，使其不易脱落。直接合成这样的接头存在一些问题，主要是序列过长，合成难度大，且成本过高。因此，本发明设计了含有高gc序列的夹板接头，在做y型接头连接的同时，高gc夹板接头与y型接头的5’端也发生连接，达到不增加操作步骤而在接头5’端增加一段高gc序列的效果，从而降低在采用图案化流动槽技术（patterned flow cell）的测序平台上机的冗余。
[0009]
综合以上两种发现，本发明将这两种设计结合在一起，设计出反向互补y型接头结合高gc夹板接头的新型接头组合，用于全基因组高通量测序建库，从而达到同时降低冗余和序列标签（index）串扰的目的。
[0010]
因此，在第一个方面，本发明提供一种可降低冗余和序列标签（index）串扰的构建全基因组高通量测序文库的方法，其特征在于包括以下步骤：1）提取样本gdna；2）将所述样本gdna酶切片段化、末端补平、加a，获得加a后的gdna；3）将所述加a后的gdna与接头组合连接，获得连接产物，所述接头组合包含两个部分：y型反向接头和高gc夹板接头；4）纯化所述连接产物，获得纯化产物；5）对所述纯化产物进行片段筛选，获得测序文库。
[0011]
根据本发明一个优选的实施方案，所述y型反向接头序列与普通y型接头序列反向互补，其序列如下：
序列2：5
’ꢀ
cgtatgccgtcttctgcttgcacgcagtc3’。
[0034]
序列1的5’端、序列2的5’端和3’端需进行末端封闭。
[0035]
根据本发明一个优选的实施方案，所述高gc夹板接头退火后形成如下结构：。
[0036]
在第五个方面，本发明提供一种接头组合，其特征在于，其包含上述的y型反向接头和上述的高gc夹板接头。
[0037]
根据本发明一个优选的实施方案，所述新型接头组合的两个组分在连接步骤时通过碱基互补原则退火并连接在一起，然后连接到gdna片段上形成最终的文库。
[0038]
如本发明所使用，术语“反向互补”是指，如高gc夹板接头中，一条序列中的部分序列：5
’-
gactgcgtg-3’与另一条序列中部分序列3
’-ꢀ
ctgacgcac-5’，方向相反（一条方向是5’到3’，另一条是3’到5’），序列互补(碱基配对原则，即腺嘌呤a与胸腺嘧啶t配对，鸟嘌呤g与胞嘧啶c配对)，即这两条序列互为反向互补序列。
[0039]
本发明中高gc夹板接头中的部分序列：3
’-
gttcgtcttctgccgtatgc-5’与y型反向互补接头的部分序列:5
’-ꢀ
caagcagaagacggcatacg-3’也互为反向互补序列，高gc夹板接头和y型反向互补接头通过这部分反向互补的序列在碱基互补配对原则和连接酶的作用下连接在一起形成本发明所述的新型接头组合。
[0040]
在一个实施例中，分别使用普通y型接头（trueseq接头），y型反向接头、新型接头组合（高gc夹板接头与y型反向接头），分别构建全基因组高通量测序文库，在novaseq平台上进行测序，经数据分析比较，证实了使用新型接头组合构建的文库的冗余度最低，表明新型接头组合能够有效降低冗余。
[0041]
在另一个实施例中，采用人的基因组dna，分别用y型接头（trueseq接头）和新型接头组合构建pcr-free文库，与phix文库一起上机测序，分析文库中测到的phix 的序列数，计算index的串扰比。phix序列在人类基因组上不存在，因此正常情况下，人类基因组构建的文库中不会检测到phix文库的序列。只有发生了序列标签（index）串扰，phix序列带上了上述人类基因组文库的标签（index），在数据分析时，根据标签（index）拆分到了人类基因组的文库中才会检测到。也就是说，人类基因组文库中拆分出的phix序列的占比反应了该文库的序列标签（index）串扰比。因此可以通过计算实际检测到phix文库序列数在总文库序列数的占比得到序列标签（index）串扰比。结果发现，使用新型接头组合构建的文库中序列标签（index）串扰比明显低于使用普通y型接头构建文库的，表明新型接头组合能够有效降低序列标签（index）串扰情况。
[0042]
在一个实施例中，测试了不同dna投入量，发现投入量小于300ng时，虽在质控分析上差异不大，但是对于性能分析上会有一定的影响，可能是由于dna投入量不足时，其文库的丰度低，因此影响性能分析结果的准确性，所以至少要保证300ng的投入量。
[0043]
在一个实施例中，测试了同一文库测不同数据量下，对其质控分析和性能分析结果进行比较，发现数据量太小时，无论是质控结果还是性能分析结果，都不能满足分析要求，而随着数据量增加，到一定程度后，质控结果和性能分析结果不再有明显提升。因此可以确定一个最优测序数据量，既不造成浪费，又可以满足分析需求。
[0044]
与目前已有的全基因组高通量测序文库构建方法相比，本发明采用了pcr-free的
方式构建文库，可以减少因扩增产生的偏好性，采用本发明的新型接头组合有效降低了序列标签（index）串扰以及在novaseq平台上的冗余，节约了测序成本，并且本发明在一管中即可完成建库，操作简便，大大缩短了建库时间。
[0045]
下面将参考附图并结合实施例来详细说明本发明。需要说明的是，本领域的技术人员应该理解本发明的附图及其实施例仅仅是为了例举的目的，并不能对本发明构成任何限制。在不矛盾的情况下，本申请中的实施例及实施例中的特征可以相互组合。
附图说明
[0046]
图1显示根据本发明的全基因组高通量测序文库构建方法的流程图。
[0047]
图2显示普通y型接头（truseq接头）结构，由p7、p5序列，index序列和测序引物序列（r1 sp和r2 sp）组成。
[0048]
图3显示根据本发明的y型反向接头结构，由反向互补的p7、p5序列，index序列和测序引物序列（r1 sp和r2 sp）组成。
[0049]
图4显示根据本发明的新型夹板接头组合，由y型反向互补接头和高gc夹板接头组成。
[0050]
图5显示根据本发明的全基因组高通量测序文库结构，打断、末端补平和加a的gdna与新型接头组合连接形成的二代测序文库。
[0051]
图6显示根据本发明的实施例3中不同投入量dna文库的插入片段分布图。
[0052]
图7显示根据本发明的实施例3中不同投入量dna文库的测序深度密度分布图。
具体实施方式
[0053]
下面将参考附图并结合实施例来详细说明本发明。
[0054]
以下实施例所使用的普通y型接头（truseq接头）的具体序列如下：5
’ꢀ
aatgatacggcgaccacc gagatctacactctttccct acacgacgctcttccgat*c*t3
’5’
pgatcggaagagcacacgtctgaactccagtcacnnnnnnnatctcgtatgccgtcttctg cttg 3'其中 n代表随机简并碱基a/t/c/g，并且*代表硫代修饰, p代表磷酸化修饰。
[0055]
普通y型接头（truseq接头）结构如图2所示。
[0056]
实施例1：以标准细胞系na12878基因组dna，分别使用普通y型接头（truseq接头）、根据本发明的y型反向接头、根据本发明的新型接头组合（y型反向接头+高gc夹板接头）构建pcr-free文库，以pcr文库为对照。上机测序，数据分析，比较三种不同接头构建的pcr-free文库和pcr文库的测序数据。
[0057]
根据本发明的y型反向接头结构如图3所示；根据本发明的新型接头组合（y型反向接头+高gc夹板接头）的结构如图4所示。
[0058]
该实施例以na12878 gdna为样本，分别使用普通y型接头、根据本发明的y型反向接头、根据本发明的y型反向接头+高gc夹板接头构建pcr-free全基因组高通量测序文库，将文库在novaseq上进行150pe双端测序，利用生物信息学对测序结果进行分析，以下为具体方案。
[0059]
本发明的全基因组高通量测序文库构建方法的流程图如图1所示。
[0060]
步骤1：制备如表1所示的反应混合液，制备3管，用于后续连接3种不同的接头，然
后一起运行表2所示的打断、末端补平和加a反应程序。
[0061]
热盖温度70℃，体积25μl步骤2：在步骤1的打断、末端补平和加a反应液中分别加入连接需要的各个反应组分如表3中1、2、3所示，运行表4所示的连接程序。
[0062]
步骤3：使用高通量测序文库构建 dna 纯化试剂盒 (磁珠法)对扩增产物进行纯化。
[0063]
步骤4：使用高通量测序文库构建dna纯化试剂盒（磁珠法）对已经纯化的文库进行片段筛选，筛选条件为0.49x 磁珠结合后，弃磁珠，取上清，再加入0.15x磁珠结合、清洗和
洗脱。
[0064]
步骤5：纯化筛选所得文库进行qpcr定量。
[0065]
步骤6：根据qpcr定量结果，按照测序仪标准操作规程操作，将文库进行novaseq 150pe双端测序。
[0066]
步骤7：将测序结果进行基本统计以及性能分析，基本统计结果见表5注：表5中第一列na12878为pcr流程对照，样本及用量都与本实施例一致，使用pcr扩增的方法构建文库，作为对照。分析结果表明：同等数据量下，根据本发明的新型接头组合所构建的文库的冗余度（4.78%）明显低于其他文库（14.69%、27.6% 18.25%），由于其冗余度明显低于其他三个文库，其平均测序深度较深，20x覆盖度比例较高，与pcr流程构建的文库表现相当。说明根据本发明的新型接头组合的使用有效降低了pcr-free文库的冗余度，且整体质控数据表现最优。
[0067]
性能分析结果如表6，其中snp的精确度新型接头组合的结果与其他文库和pcr对照的表现相当，灵敏度新型接头组合与y型反向接头结果相当略高于普通y型接头文库和pcr文库；indel的精确度和灵敏度，根据本发明的新型接头组合与y型反向接头的表现相当且都高于普通y型接头文库和pcr对照。根据本发明的新型接头组合文库cnv的精确度与pcr文库相当，高于普通y型接头文库和y型反向接头文库，灵敏度较均高于其他三个文库；repeat的一致率也明显高于其他三个文库。结果表明使用新型接头组合所构建的文库在性能分析中整体数据表现优于其他三种接头的文库。
[0068]
实施例2：采用人类基因组dna，分别用普通y型接头（trueseq接头），y型反向接头，以及普通y型接头与高gc夹板接头组合和本发明的新型接头组合构建pcr-free文库，与phix文库一起上机测序，分析文库中测到的phix 序列数，计算index的串扰比，同时对比同等数据量下的冗余。
[0069]
该实施例使用phix的测试串扰比的原理：phix文库插入片段来源于病毒基因组dna。其基因序列已精确知晓，gc比例约为40，与人类的基因组的gc比例接近。其基因序列又与人类的基因序列相去甚远，且不含有index。因此用待测文库与phix共同上机测序,分析拆分到文库中phix 序列数，计算其占文库总序列数比例即为串扰比。以下为具体方案：步骤1：分别用四种接头构建pcr-free文库步骤2：根据qpcr定量结果，按照测序仪标准操作规程操作，将phix文库和四种不同接头构建的pcr-free文库一起进行150pe双端测序。
[0070]
步骤3：将测序结果与人类基因组参考序列和phix基因序列进行比对，统计比对到人类基因组参考序列的序列数和比对到phix基因序列的序列数。统计结果如下表7。
[0071]
结果表明:y型反向接头的串扰比普通y型接头文库的低；同时y型反向接头+高gc夹板的pcr-free文库的串扰比较普通y型接头+高gc夹板的低。无论是否加高gc夹板，使用了y型反向接头的pcr文库都表现出了更低的串扰比，表明y型反向接头的这种特殊结构能够有效降低index的串扰情况。无论与普通y型接头还是y型反向接头配合，高gc夹板接头均能有效降低冗余度。
[0072]
实施例3：使用不同的模板投入量构建文库，上机测序，数据分析，比较不同投入量的测序数据质量以及性能分析结果。
[0073]
该实施例使用根据本发明所述的新型接头组合，以na12878基因组dna为样本，分别构建投入量为200ng和300ng的全基因组高通量测序文库，将文库在novaseq上进行150pe双端测序，利用生物信息学对测序结果进行分析，分析不同接头构建文库的文库质量，以下为具体方案。
[0074]
步骤1：制备如表8所示的反应混合液，制备四管，两管dna投入量为200ng，另两管dna投入量为300ng，然后一起运行表9所示的打断、末端补平和加a反应程序。
[0075]
热盖温度70℃，体积25μl步骤2：在步骤1的打断、末端补平和加a反应液中分别加入连接需要的各个反应组分如表10中所示，运行表11所示的连接程序。
[0076]
热盖温度：off；体积：50μl步骤3：使用高通量测序文库构建 dna 纯化试剂盒 (磁珠法)对扩增产物进行纯化。
[0077]
步骤4：使用高通量测序文库构建dna纯化试剂盒（磁珠法）对已经纯化的文库进行片段筛选，筛选条件为0.49x磁珠结合后，弃磁珠，取上清，再加入0.15x磁珠结合、清洗和洗脱。
[0078]
步骤5：纯化筛选所得文库进行qpcr定量。
[0079]
步骤6：根据qpcr定量结果，按照测序仪标准操作规程操作，将文库进行novaseq 150pe双端测序。
[0080]
步骤7：将测序结果进行基本统计以及性能分析，基本统计结果见表12。
[0081]
分析结果表明：从基本统计上看，200ng投入量的文库质量与300ng投入量文库质量相当。附图6图7分别是插入片段分布图和深度密度分布图。文库的插入片段大小和深度密度分布图没有明显差别。插入片段分布图横坐标是片段大小（bp），纵坐标是数量，反应的是文库中dna片段的大小分布。深度密度分布图横坐标是测序深度，纵坐标是数量，反应的是测序的均匀程度，峰越窄，说明每个位置的测序深度越接近，也就是数据在全基因组的覆盖越均匀，对突变检测和cnv检测越有利。
[0082]
性能分析结果如表13，两种不同投入量的snp&indel的灵敏度和精确度数据表现相当，cnv的灵敏度也表现相当，repeat的结果表现也基本相当；但是300ng投入量cnv的精确度明显高于200ng。
[0083]
实施例4：构建全基因组高通量测序文库，上机测序，分别截取15x，30x，40x测序深度的数据量，进行数据分析，基本统计和性能分析，比较不同测序深度下的数据表现。
[0084]
该实施例使用根据本发明所述的新型接头组合，以na12878基因组dna为样本，以300ng的投入量构建全基因组高通量测序文库，将文库在novaseq上进行150pe双端测序，利用生物信息学对测序结果进行分析，分析不同接头构建文库的文库质量，以下为具体方案。
[0085]
步骤1：制备如表14所示的反应混合液，然后运行表2所示的打断、末端补平和加a反应程序。
[0086]
热盖温度70℃，体积25μl步骤2：在步骤1的打断、末端补平和加a反应液中加入连接需要的各个反应组分如表16中所示，运行表17所示的连接程序。
[0087]
热盖温度：off；体积：50μl步骤3：使用高通量测序文库构建 dna 纯化试剂盒 (磁珠法)对扩增产物进行纯化。
[0088]
步骤4：使用高通量测序文库构建dna纯化试剂盒（磁珠法）对已经纯化的文库进行片段筛选，筛选条件为0.49x磁珠结合，取上清，与0.15x磁珠结合，弃上清，清洗和洗脱。
[0089]
步骤5：纯化筛选所得文库进行qpcr定量。
[0090]
步骤6：根据qpcr定量结果，按照测序仪标准操作规程操作，将文库进行novaseq 150pe双端测序。
[0091]
步骤7：将测序结果经理论计算后进行从头截取数据量，分别截取15x，30x和40x的
数据进行基本统计分析，（注：理论计算的数据量与实际截取到到数据量会存在一定的偏差，按照理论计算截取15x 30x 40x数据量，实际截取到的数据量分别是17x，33x，38x）结果见表18。
[0092]
分析结果表明：随着测序深度的增加，20x的覆盖度也越来越高，当测序深度为17x时，20x覆盖度只有20-23%；其他质控点：数据量、平均测序深度和冗余度会随着测序深度的增加稍有提高。总体而言，17x的基本统计结果较差，而33x和38x的基本统计结果相当。
[0093]
性能分析结果如表19，snp的精确度和灵敏度在不同测序深度下表现相当，indel的精确度和灵敏度在17x时都较33x时低，而33x和38x表现相当；cnv的精确度在17x时较33x高，33x与38x表现相当，cnv的灵敏度在17x时较33x低，33x与38x表现相当；repeat的一致率在17x时较33x低，33x与38x表现相当。总体而言，17x的性能分析表现较33x差一些，不能满足分析需求，而38x的性能分析结果与33x基本相当。从测序结果以及成本考虑，33x的测序深度为最优测序深度。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张建光;陈迪;商玲
技术所有人：北京贝瑞和康生物技术有限公司
我是此专利的发明人

上一篇：基于近场通信的外卖配送装置及配送识别方法与流程
上一篇：一种数控张力装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。