本发明属于生物测序领域,具体涉及测序用dna文库、以及该测序用dna文库在二代测序中的应用。
背景技术:
现有的illuminahiseq/miseq是基于桥式pcr扩增和sbs测序原理的高通量芯片型测序平台,是迄今为止dna高通量芯片型第二代测序平台中测序通量最高,单碱基判断准确度最高的平台。由于该平台芯片密度高,单芯片能产出上百g的数据量,大大超过分析一个生物样品所需要的信息量,通常需要在文库构建过程中对在同一个芯片内进行测序的样本加上唯一标签(dna条码)的标记,在测序后进行序列进行标签拆分。
由于二代测序的原理需要对每一轮测序反应标记4种碱基的光/化学信号进行扫描成像,如果单轮测序反应的碱基复杂度太低,会造成光密度过高/过低,单轮成像的曝光过度/不足,导致信号识别质量下降。存在这种问题的文库类型包括例如:单基因扩增子文库,pcr扩增子序列都是单一的,有连续且固定的碱基排列;甲基化文库,经过bs处理后由原来的4种碱基复杂度减少为3种;限制性内切酶简单化文库,起始序列就是限制性内切酶的固定碱基排列;限制性内切酶简单甲基化文库,兼具以上三种特征。
如果这种单轮碱基复杂度较低的文库在测序芯片文库池中比例过高,会大大降低芯片读到的碱基信息的可信程度,导致测序结果不可用。
技术实现要素:
鉴于上述现有技术中存在的不足,本发明的目的在于提供一种能够增加单轮测序反应中碱基读取复杂度、从而提高测序质量的测序用dna文库、该测序用dna文库的构建方法、以及该测序用dna文库在二代测序中的应用。
本发明的发明人发现:单轮测序反应中碱基复杂度较单一时的读取困难,除了序列本身的原因外,另外一个主要原因是由于需要进行桥式pcr进行信号放大,桥式引物p7、p5是在文库制备过程中固定添加到dna序列的5’和3’端的,而测序反应中read1和read2的测序引物在illumina的标准文库制备流程中是分别和p7、p5是绑定的,而在扩增子文库中一般的设计习惯于使上游引物与p7/p5绑定在一起,下游引物与另外一端桥式引物绑定在一起。这种定向的文库制备方式导致了碱基读取的复杂度的降低。
与此相对,本发明中通过倒置测序引物,实现了在测序反应中同时读取待读取dna序列的5’端和3’端的信息,增加了测序反应的碱基复杂度,显著的提高了测序的质量。
本发明包括:
1.一种测序用dna文库,其包括第一双链dna分子,
所述第一双链dna分子包括第一dna链,该第一dna链从5'端起依次包括位于5'端的桥式引物dna序列1、目的片段特异性扩增引物dna序列1、待读取dna序列s、目的片段特异性扩增引物dna序列2的反向互补序列以及位于3'端的桥式引物dna序列2的反向互补序列,
所述桥式引物dna序列1和所述桥式引物dna序列2是测序芯片上的dna序列,所述桥式引物dna序列1包含测序引物dna序列1,所述桥式引物dna序列2包含测序引物dna序列2,
所述测序引物dna序列1和所述测序引物dna序列2是在对待读取dna序列s进行读取测序时使用的引物dna序列,
所述目的片段特异性扩增引物dna序列1和所述目的片段特异性扩增引物dna序列2是用于对包含待读取dna序列s的目的dna片段进行特异性扩增的引物dna序列,
所述第一双链dna分子还包括与所述第一dna链完全互补的第二dna链,
该测序用dna文库还包括第二dna双链分子,
所述第二双链dna分子包括第三dna链,该第三dna链从5'端起依次包括位于5'端的桥式引物dna序列2、目的片段特异性扩增引物dna序列1、待读取dna序列s、目的片段特异性扩增引物dna序列2的反向互补序列以及位于3'端的桥式引物dna序列1的反向互补序列,
所述第二双链dna分子还包括与所述第三dna链完全互补的第四dna链。
2.根据项1所述的测序用dna文库,其是扩增子dna文库。
3.根据项1或2所述的测序用dna文库,其中,所述测序引物dna序列1和所述测序引物dna序列2的长度分别为25~40个核苷酸,优选30~35个核苷酸。
4.根据项1~3中任一项所述的测序用dna文库,其中,所述目的片段特异性扩增引物dna序列1和所述目的片段特异性扩增引物dna序列2的长度分别为18~22个核苷酸。
5.根据项1~4中任一项所述的测序用dna文库,其中,所述第一dna链、第二dna链、第三dna链和/或第四dna链还包括标签dna序列。
6.一种用于构建项1~5中任一项所述的测序用dna文库的方法,其包括:
步骤1:使用引物组a1和引物组a2对包含待读取dna序列s的模板进行pcr扩增,得到扩增产物;以及
步骤2:使用引物组b对所述步骤1的扩增产物进行再次pcr扩增;
其中,
所述引物组a1包含引物af1和引物ar1,所述引物af1从5'端起依次包括位于5'端的桥式引物dna序列1的部分序列和位于3'端的目的片段特异性扩增引物dna序列1,所述引物ar1从5'端起依次包括位于5'端的桥式引物dna序列2的部分序列和位于3'端的目的片段特异性扩增引物dna序列2,
所述引物组a2包含引物af2和引物ar2,所述引物af2从5'端起依次包括位于5'端的桥式引物dna序列2的部分序列和位于3'端的目的片段特异性扩增引物dna序列1,所述引物ar2从5'端起依次包括位于5'端的桥式引物dna序列1的部分序列和位于3'端的目的片段特异性扩增引物dna序列2,
所述引物组b包含引物bf和引物br,所述引物bf是桥式引物dna序列1,所述引物br是桥式引物dna序列2。
7.根据项6所述的方法,其中,
所述桥式引物dna序列1的部分序列包含测序引物dna序列1,和/或
所述桥式引物dna序列2的部分序列包含测序引物dna序列2。
8.根据项6或7所述的方法,其中,所述引物af1、引物ar1、引物af2和/或引物ar2还包含标签dna序列。
9.根据项6~8中任一项所述的方法,其中,所述引物bf和/或引物br还包含标签dna序列。
10.一种用于构建测序用dna文库的试剂盒,其包括:引物af1、引物ar1、引物af2、引物ar2、引物bf和引物br;
所述引物af1从5'端起依次包括位于5'端的桥式引物dna序列1的部分序列和位于3'端的目的片段特异性扩增引物dna序列1,所述引物ar1从5'端起依次包括位于5'端的桥式引物dna序列2的部分序列和位于3'端的目的片段特异性扩增引物dna序列2,
所述引物af2从5'端起依次包括位于5'端的桥式引物dna序列2的部分序列和位于3'端的目的片段特异性扩增引物dna序列1,所述引物ar2从5'端起依次包括位于5'端的桥式引物dna序列1的部分序列和位于3'端的目的片段特异性扩增引物dna序列2,
所述引物组b包含引物bf和引物br,所述引物bf是桥式引物dna序列1,所述引物br是桥式引物dna序列2。
11.一种测序方法,其中,以项1~5中任一项所述的测序用dna文库作为对象进行测序。
12.根据项11所述的测序方法,其中,所述测序利用illumina平台进行。发明效果
通过以本发明的测序用dna文库作为对象进行测序,能够增加单轮测序反应中碱基读取复杂度、从而提高测序质量。此外,本发明的测序用dna文库可以在匹配illumina平台文库构建方法的前提下,不明显增加制备时间,提高测序质量和/或降低成本。
发明的具体实施方式
本说明书中提及的科技术语具有与本领域技术人员通常理解的含义相同的含义,如有冲突以本说明书中的定义为准。
首先,在一个方面中,本发明提供一种测序用dna文库(本发明的测序用dna文库),所述第一双链dna分子包括第一dna链,该第一dna链从5'端起依次包括位于5'端的桥式引物dna序列1、目的片段特异性扩增引物dna序列1、待读取dna序列s、目的片段特异性扩增引物dna序列2的反向互补序列以及位于3'端的桥式引物dna序列2的反向互补序列,
所述桥式引物dna序列1和所述桥式引物dna序列2是测序芯片上的dna序列,所述桥式引物dna序列1包含测序引物dna序列1,所述桥式引物dna序列2包含测序引物dna序列2,
所述测序引物dna序列1和所述测序引物dna序列2是在对待读取dna序列s进行读取测序时使用的引物dna序列,
所述目的片段特异性扩增引物dna序列1和所述目的片段特异性扩增引物dna序列2是用于对包含待读取dna序列s的目的dna片段进行特异性扩增的引物dna序列,
所述第一双链dna分子还包括与所述第一dna链完全互补的第二dna链,
该测序用dna文库还包括第二dna双链分子,
所述第二双链dna分子包括第三dna链,该第三dna链从5'端起依次包括位于5'端的桥式引物dna序列2、目的片段特异性扩增引物dna序列1、待读取dna序列s、目的片段特异性扩增引物dna序列2的反向互补序列以及位于3'端的桥式引物dna序列1的反向互补序列,
所述第二双链dna分子还包括与所述第三dna链完全互补的第四dna链。
优选地,所述测序引物dna序列1和所述测序引物dna序列2的长度分别为25~40个核苷酸,优选30~35个核苷酸。
优选地,所述目的片段特异性扩增引物dna序列1和所述目的片段特异性扩增引物dna序列2的长度分别为18~22个核苷酸。
在本说明书中,反向互补序列是指互补且方向相反的序列,例如5'-atcg-3'(seqidno:1)的反向互补序列是5'-cgat-3'(seqidno:2)。
优选地,所述第一dna链、第二dna链、第三dna链和/或第四dna链还可以包括标签dna序列。
优选地,本发明的测序用dna文库可以是扩增子dna文库。
本发明的测序用dna文库例如可以通过使用不同的引物组对包含待读取dna序列s的dna样本进行两次pcr扩增来制备。因此,在另一方面中,本发明还提供一种用于构建测序用dna文库的方法(例如本发明的测序用dna文库),其包括:
步骤1:使用引物组a1和引物组a2对包含待读取dna序列s的模板进行pcr扩增,得到扩增产物;以及
步骤2:使用引物组b对所述步骤1的扩增产物进行再次pcr扩增;
其中,所述引物组a1包含引物af1和引物ar1,所述引物af1从5'端起依次包括位于5'端的桥式引物dna序列1的部分序列和位于3'端的目的片段特异性扩增引物dna序列1,所述引物ar1从5'端起依次包括位于5'端的桥式引物dna序列2的部分序列和位于3'端的目的片段特异性扩增引物dna序列2,
所述引物组a2包含引物af2和引物ar2,所述引物af2从5'端起依次包括位于5'端的桥式引物dna序列2的部分序列和位于3'端的目的片段特异性扩增引物dna序列1,所述引物ar2从5'端起依次包括位于5'端的桥式引物dna序列1的部分序列和位于3'端的目的片段特异性扩增引物dna序列2,
所述引物组b包含引物bf和引物br,所述引物bf是桥式引物dna序列1,所述引物br是桥式引物dna序列2。
优选地,所述桥式引物dna序列1的部分序列可以包含测序引物dna序列1,和/或,所述桥式引物dna序列2的部分序列可以包含测序引物dna序列2。
优选地,所述引物af1、引物ar1、引物af2和/或引物ar2还可以包含标签dna序列。
优选地,所述引物bf和/或引物br还可以包含标签dna序列。
所述pcr扩增反应的条件可由本领域技术人员根据需要适宜选择。
在另一个方面中,本发明还提供一种用于构建测序用dna文库(例如本发明的测序用dna文库)的试剂盒,其包括上述引物af1、引物ar1、引物af2、引物ar2、引物bf和引物br。
优选地,所述引物af1、引物ar1、引物af2、引物ar2、引物bf和引物br可以分别包装。
在常规的二代测序中,桥式引物p7、p5是在文库制备过程中固定添加到dna序列的5'和3'端的,而测序反应中read1和read2的测序引物在常规dna文库制备流程中是分别和p7、p5是绑定的,而在扩增子文库中一般的设计习惯于使上游引物与p7/p5绑定在一起,下游引物与另外一端桥式引物绑定在一起。这种定向的文库制备方式导致了碱基读取的复杂度的降低。
本发明中可以分别把基因的上游引物和p7-rd1sp和p5-rd2sp分别绑定进行扩增,这样在进行序列读取的时候同一轮测序反应可以同时读到基因5'端和3'端的碱基,增加了这一轮反应的碱基复杂度,显著的提高了测序的质量。
本发明中可以在用一个测序引物rd1sp/rd2sp进行测序反应的时候,读取dna互补双链的信息,而不是目前的单链定向信息。这种碱基复杂度较低的文库测序的时候,原理上只要通过倒置rd1sp/rd2sp的读取起始就可以实现。
因此,本发明还提供一种测序方法(本发明的测序方法),其中,以本发明的测序用dna文库作为对象进行测序。所述测序可以为二代测序,优选利用illumina平台进行。本发明的测序方法优选适用于碱基复杂度低的dna文库(例如单基因扩增子文库、甲基化文库、限制性内切酶简单甲基化文库)的测序。
实施例
以下通过实施例对本发明进行更具体的说明。应当理解,此处所描述的实施例是用于解释本发明,而非用于限定本发明。
取8个细菌基因组dna样本(编号:s1~s8)进行16s(v3+v4)区扩增,分别使用本发明技术与现有技术对低碱基复杂度的16s(v3+v4)区进行扩增,构建文库,对比两种技术的实验流程以及上机测序的测序质量。
实施例1(本发明技术)
分别取10ng样本s1~s8的基因组dna作为起始样本,在反应体系中加入:10×pcrbuffer(takara),5mmdntpsolutionset(takara),25pmolprimerf,25pmolprimerr(详见表1),1uextaq(takara),补ddh2o至25μl。pcr反应程序设定为:95℃3min;(95℃30s,55℃30s,72℃30s)25cycles;72℃5min;4℃forever。扩增完成后进行16s扩增产物纯化:使用0.9×ampurebeads回收纯化反应体系中的dna,用31μleb洗脱。使用qubit2.0荧光计测定dna浓度。
根据测定的浓度,将上一步样本s1~s8的扩增产物等量混合,取1ng作为pcr反应起始样本,在反应体系中加入20pmolann公共引物,20pmolannindex-x,2×hifimix(kapa),补ddh2o至50μl。pcr反应程序设定为:95℃3min;(95℃30s,55℃30s,72℃30s,)10cycles;72℃5min;4℃forever。扩增完成后进行pcr产物纯化:使用0.9×ampurebeads回收纯化反应体系中的dna,用31μleb洗脱。16s文库构建完成。文库检测:使用agilent2100bioanalyzer检测文库产量,使用qpcr定量检测文库产量。
ann公共引物序列(seqidno:3):
(5'-aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatct-3'),
annindex-x引物序列(seqidno:4):
(5'-caagcagaagacggcatacgagatcgtgatgtgactggagttcagacgtgtgctcttccgatct-3')
表1
上机测序结果
对比例1(现有技术)
分别取10ng样本s1~s8的基因组dna作为起始样本,在反应体系中加入:10×pcrbuffer(takara),5mmdntpsolutionset(takara),25pmolprimerf,25pmolprimerr(详见表2),1uextaq(takara),补ddh2o至25ul。pcr反应程序设定为:95℃3min;(95℃30s,55℃30s,72℃30s)25cycles;72℃5min;4℃forever。扩增完成后进行16s扩增产物纯化:使用0.9×ampurebeads回收纯化反应体系中的dna,用31μleb洗脱。使用qubit2.0荧光计测定dna浓度。
根据测定的浓度,将上一步样本s1~s8的扩增产物等量混合,取1ng作为pcr反应起始样本,在反应体系中加入20pmolann公共引物,20pmolannindex-x,2×hifimix(kapa),补ddh2o至50μl。pcr反应程序设定为:95℃3min;(95℃30s,55℃30s,72℃30s)10cycles;72℃5min;4℃forever。扩增完成后进行pcr产物纯化:使用0.9×ampurebeads回收纯化反应体系中的dna,用31μleb洗脱。文库构建完成。文库检测:使用agilent2100bioanalyzer检测文库产量,使用qpcr定量检测文库产量。
表2:
上机测序结果:
由实施例和对比例可知,对于同一个碱基复杂度低的文库,例如样本s5,本发明技术的rawq30basesrate(%)为90.78522,现有技术的rawq30basesrate(%)为71.94701,即本发明显著提高了测序质量。
ann公共引物序列(seqidno:3):
(5'-aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatct-3'),
annindex-x(seqidno:4):
(5'-caagcagaagacggcatacgagatcgtgatgtgactggagttcagacgtgtgctcttccgatct-3')
rawreads:原始判读数。
cleanreadsrate:过滤后有效读数比率。
low-qualityreadsrate:低质量读数比率。
rawq30basesrate:过滤前999/1000正确率碱基判读比例。
cleanq30basesrate:过滤后999/1000正确率碱基判读比例。
工业实用性
根据本发明,提供了一种能够增加单轮测序反应中碱基读取复杂度、从而提高测序质量的测序用dna文库、该测序用dna文库的构建方法、以及该测序用dna文库在二代测序中的应用。
序列表
<110>安诺优达基因科技(北京)有限公司
<120>一种测序用dna文库
<130>1626sgcn
<160>20
<170>patentinversion3.3
<210>1
<211>4
<212>dna
<213>人工序列
<400>
atcg4
<210>2
<211>4
<212>dna
<213>人工序列
<400>
cgat4
<210>3
<211>58
<212>dna
<213>人工序列
<400>ann公共引物
aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatct58
<210>4
<211>64
<212>dna
<213>人工序列
<400>annindex-x
caagcagaagacggcatacgagatcgtgatgtgactggagttcagacgtgtgctcttccgatct64
<210>5
<211>45
<212>dna
<213>人工序列
<400>p7f-s1引物
gtgactggagttcagacgtgtgctcttccgatctatcatgcctacgggnggcwgcag57
<210>6
<211>57
<212>dna
<213>人工序列
<400>p7f-s2引物
gtgactggagttcagacgtgtgctcttccgatcttgagctcctacgggnggcwgcag57
<210>7
<211>57
<212>dna
<213>人工序列
<400>p7f-s3引物
gtgactggagttcagacgtgtgctcttccgatctgcgtgacctacgggnggcwgcag57
<210>8
<211>57
<212>dna
<213>人工序列
<400>p7f-s4引物
gtgactggagttcagacgtgtgctcttccgatctcatcaccctacgggnggcwgcag57
<210>9
<211>57
<212>dna
<213>人工序列
<400>p5f-s5引物
tacactctttccctacacgacgctcttccgatctccactacctacgggnggcwgcag57
<210>10
<211>57
<212>dna
<213>人工序列
<400>p5f-s6引物
tacactctttccctacacgacgctcttccgatctatgtagcctacgggnggcwgcag57
<210>11
<211>57
<212>dna
<213>人工序列
<400>p5f-s7引物
tacactctttccctacacgacgctcttccgatcttgcagccctacgggnggcwgcag57
<210>12
<211>57
<212>dna
<213>人工序列
<400>p5f-s8引物
tacactctttccctacacgacgctcttccgatctgatgctcctacgggnggcwgcag57
<210>13
<211>55
<212>dna
<213>人工序列
<400>p5r引物
tacactctttccctacacgacgctcttccgatctgactachvgggtatctaatcc55
<210>14
<211>55
<212>dna
<213>人工序列
<400>p7r引物
gtgactggagttcagacgtgtgctcttccgatctgactachvgggtatctaatcc55
<210>15
<211>61
<212>dna
<213>人工序列
<400>p1-1引物
gtgactggagttcagacgtgtgctcttccgatctccactagactachvgggtatctaatcc61
<210>16
<211>62
<212>dna
<213>人工序列
<400>p1-2引物
gtgactggagttcagacgtgtgctcttccgatctatgtagcgactachvgggtatctaatcc62
<210>17
<211>63
<212>dna
<213>人工序列
<400>p1-3引物
gtgactggagttcagacgtgtgctcttccgatcttgcagcttgactachvgggtatctaatcc63
<210>18
<211>64
<212>dna
<213>人工序列
<400>p1-4引物
gtgactggagttcagacgtgtgctcttccgatctgatgctactgactachvgggtatctaatcc64
<210>19
<211>57
<212>dna
<213>人工序列
<400>p2-1引物
tacactctttccctacacgacgctcttccgatctatcatgcctacgggnggcwgcag57
<210>20
<211>58
<212>dna
<213>人工序列
<400>p2-2引物
tacactctttccctacacgacgctcttccgatcttgagctacctacgggnggcwgcag58