用于二代测序的接头的制作方法

文档序号:12813325阅读:5759来源:国知局
用于二代测序的接头的制作方法与工艺
本发明涉及生物
技术领域
中,用于二代测序的接头。
背景技术
:二代测序技术本身的错误率约为1%,这对于某些应用(例如遗传疾病致病基因、snp位点检测等)是可以接受的,但是对于宏基因组学、古生物基因组学、癌症等研究领域是非常大的阻碍,这些涉及深度测序、复杂异质性样本需要检测小于1%的稀有突变,而二代测序1%的背景突变使得小于1%的稀有突变无法识别,所以目前急需一种更为精确的测序方法以满足现在测序的需要。技术实现要素:本发明所要解决的技术问题是如何提高测序准确率。为解决上述技术问题,本发明首先提供了用于制备二代测序接头的成套试剂。本发明所提供的用于二代测序的成套试剂,为成套试剂甲或成套试剂乙;所述成套试剂甲由两条名称分别为a链和b链的单链dna组成;所述a链从5′端至3′端如式(ⅰ)所示:a1-a3-a2式(ⅰ);所述a3的每个核苷酸均为a、t、c或g;所述b链从3′端至5′端如式(ⅱ)所示:b1-b2式(ⅱ);所述成套试剂乙由两条名称分别为c链和d链的单链dna组成;所述c链由所述a1与所述a2组成,所述c链从5′端至3′端如式(ⅲ)所示:a1-a2式(ⅲ);所述d链由所述b1、所述b2与所述a3组成,所述d链从3′端至5′端如式(ⅳ)所示:b1-a3-b2式(ⅳ);所述a2与所述b2互补;所述a1与所述b1不互补;所述a3与所述b1及所述a1均不互补;所述a1和所述a2的序列不同;所述b1与所述b2的序列不同。所述a3为随机序列,故,所述成套试剂甲中所述a链的种类和所述成套试剂乙中所述d链的种类由所述a3的种类数决定。其中,所述互补的定义为两条单链dna长度相同时可以完全配对,两条单链dna长度不同时长度短的单链dna能完全与长度长的单链dna的一部分序列完全配对。所述不互补包括除所述互补外的所有情况。上述成套试剂中,所述a链与所述b链可独立包装,也可包装在一起。所述a链与所述b链的配比可为1:1。所述c链和所述d链可独立包装,也可包装在一起。所述c链和所述d链的配比可为1:1。上述成套试剂在二代测序中进行应用时,可先使所述a链的a2与所述b链的b2进行配对形成y型dna片段或使所述c链的a2与所述d链的b2进行配对形成y型dna片段,再利用所述y型dna片段进行下一步的文库构建。在本发明的一个实施例中,所述y型dna片段为图1中a所示的dna片段。为解决上述技术问题,本发明还提供了用于二代测序的dna片段。本发明所提供的二代测序的dna片段为下述g1)或g2):g1)通过尿嘧啶核苷酸连接所述a链的5′端与所述b链的3′端得到的dna片段;g2)通过尿嘧啶核苷酸连接所述c链的5′端与所述d链的3′端得到的dna片段。上述dna片段在二代测序中进行应用时,可先使所述dna片段的a2与b2进行配对形成u型dna片段,再利用所述u型dna片段作为接头进行下一步的文库构建。在本发明的一个实施例中,所述u型dna片段为图1中b所示的dna片段。上述文中,所述a3的长度可为h1)或h2):h1)8-18nt;h2)14nt。所述b链与所述c链的序列均可为illumina接头的序列。所述a1的长度可为15-25nt,如22nt。所述a1可为所述illumina接头的rd1sp的3′端第一位核苷酸开始的任意片段或rd1sp的全长。所述a1具体可为所述rd1sp3′端的22个核苷酸。所述b1的长度可为15-25nt,如22nt。所述b1可为与所述illumina接头的rd2sp的3′端第一位开始的任意片段或rd2sp的全长互补的序列。所述b1具体可为与所述rd2sp的3′端第一位开始的24个核苷酸互补的序列。所述a2和所述b2均可不为illumina接头的序列,所述a2用于平衡所述a链中四种核苷酸的比例,使所述a链中的四种核苷酸的比例基本一致;所述b2用于平衡所述d链中四种核苷酸的比例,使所述d链中的四种核苷酸的比例基本一致。所述illumina接头为利用illumina测序平台测序所用到的接头(adapter)。所述接头具体可为y型接头或u型接头。所述y型接头中组成所述接头的两条单链dna部分互补。所述y型接头中互补部分的长度为10-15nt,如13nt。所述u型接头为一条单链核酸分子,所述核酸分子5′端的10-15nt(13nt)与3′端的10-15nt(13nt)互补。所述a2中3′末端核苷酸可为硫代核苷酸。所述b2中5′末端核苷酸可为磷酸化修饰的核苷酸。所述a1与所述b1可通过尿嘧啶核苷酸相连。所述a1的序列具体可为序列表中序列1的第1-22位;所述a2的序列具体可为序列表中序列1的第37-50位;所述a3的序列具体可为序列表中序列1的第23-36位;所述b1的序列具体可为序列表中序列2的第14-37位;所述b2的序列具体可为序列表中序列2的第1-13位。所述a链的序列具体可为序列表中序列1。所述b链的序列具体可为序列表中序列2。所述dna片段的序列具体可为序列表中序列3。为解决上述技术问题,本发明还提供了下述r1)或r2):r1)所述成套试剂的制备方法,包括:依次连接所述a1、所述a3和所述a2得到所述a链,依次连接所述b1和所述b2得到所述b链,将所述a链和所述b链分别包装得到所述成套试剂;r2)所述dna片段的制备方法,包括:通过尿嘧啶核苷酸连接中所述a链的5′端与所述b链的3′端或通过尿嘧啶核苷酸连接所述c链的5′端与所述d链的3′端得到所述dna片段。为解决上述技术问题,本发明还提供了二代测序dna文库的构建方法。本发明所提供的二代测序dna文库的构建方法,包括:对待测样本的目的dna连接作为接头的所述成套试剂或所述dna片段,得到所述dna文库。上述方法中,对所述目的dna连接所述成套试剂或所述dna片段可通过t4连接酶进行。上述方法还可包括在对所述目的dna连接所述成套试剂或所述dna片段前对所述目的dna进行末端补齐和加a;所述末端补齐与所述加a在同一反应体系中进行,具体可利用kapabiosystems的kapahyperprepkits进行。kapahyperprepkits的为货号可为kk8504。解决上述技术问题,本发明还提供了二代测序的方法。本发明所提供的二代测序的方法,包括:对待测样本按照所述二代测序dna文库的构建方法建立dna文库,利用illumina测序平台进行测序,将测序结果中满足如下m1)、m2)和m3)的多条测序序列合并为一条序列,将合并后的序列命名为hf序列,即得到待测样本的测序结果;m1)所述多条测序序列为大于等于4条测序序列;m2)所述多条测序序列的所述a3序列均相同;m3)所述多条测序序列具有75%或75%以上的同一性。将所述多条测序序列合并为一条序列具体可按照如下方法进行:如果所述多条测序序列在相同位置的核苷酸不同,将占比超过50%(进一步可为75%)的核苷酸确定为hf序列相应位置的核苷酸;如果所述多条测序序列在相同位置的核苷酸相同,则该核苷酸即为hf序列相应位置的核苷酸。上述二代测序的方法中,所述方法还可包括对建立得到的dna文库进行富集。所述富集可通过pcr扩增进行,所述pcr扩增所用引物可为illumina测序平台中常用引物,只要满足能与所述成套试剂或所述dna片段配套使用即可(即所述pcr扩增所用引物能与所述成套试剂或所述dna片段配对)。为解决上述技术问题,本发明还提供了所述dna片段的制备方法。为解决上述技术问题,本发明还提供了下述任一应用:x1、所述成套试剂或所述dna片段在作为接头中的应用;x2、所述成套试剂或所述dna片段在作为二代测序接头中的应用;x3、所述成套试剂或所述dna片段在建立二代测序dna文库中的应用;x4、所述成套试剂或所述dna片段在制备建立二代测序dna文库产品中的应用;x5、所述成套试剂或所述dna片段在二代测序中的应用;x6、所述成套试剂或所述dna片段在制备二代测序产品中的应用。本发明中,所述目的dna和所述待测样本均可为片段化的基因组dna或者直接提取的游离dna(cfdna)。所述游离dna可为提取自人血浆、脑脊液或胸水等无细胞体液的游离dna。本发明中,所述二代测序可为利用illumina测序平台进行的测序。本发明提供一种针对二代测序平台文库构建过程对dna进行随机序列(a3)标记的方法,制备了可以作为接头用于二代测序的成套试剂和dna片段,以实现降低测序得到的假阳性突变目的。具体方法是在文库构建中使用加入随机序列(a3)标记的接头序列,连接到待测dna模板序列两端;同时为了减少建库过程dna模板序列的损失,将随机序列(a3)末端补齐和加a的过程合并为一个酶促反应。本发明使用的带有随机序列(a3)标签的接头有y型和u型两种,其中y型接头由illumina通用的y型接头加上14个随机序列(a3)以及为保持y型结构所添加的14/13个用于平衡接头中四种核苷酸比例的核苷酸组成,u型接头由y型接头远离待测片段的一端相互被碱基u(尿嘧啶核苷酸)连接组成。实验证明,本发明的可以作为接头的成套试剂和dna片段可以提高测序准确性,降低测序背景中的假阳性突变:突变频率小于等于20%的突变read条数大于等于1的测序错误突变,使用对照接头分析,共有87768条(mut>=1),使用本发明作为接头的成套试剂分析,下降到94条(hf>=1),下降了99.9%;突变频率小于等于20%的突变read条数大于等于2的测序错误突变,使用对照接头分析,共有20104条(mut>=2),使用本发明作为接头的成套试剂分析,下降到3条(hf>=2),下降了99.99%。由此可见,使用本发明作为接头的成套试剂建库和相应生物信息学分析,可以极其显著下降测序错误,降低假阳性突变数目。另外,观察该样本的包含在dbsnp数据库中的snp突变位点发现,使用对照接头和使用本发明作为接头的成套试剂分析对snp位点的检出没有影响,数目均为40个,表明,利用本发明作为接头的成套试剂不会在提高测序准确率的情况下漏检已知的snp位点,说明,利用本发明作为接头的成套试剂进行建库和测序具有很高的准确性和可靠性。本发明的作为接头的成套试剂和dna片段与测序方法能够简单高效的实现降低二代测序中的假阳性突变,从而更灵敏的对肿瘤异质性样本、嵌合体样本等异质性混合样本中的低频突变进行检出。附图说明图1为接头的结构与序列。图2为hf序列的合并。图3为突变频率小于等于20%的测序错误突变。图4为dbsnp数据库中已知snp突变位点在利用不同接头时的检测结果。具体实施方式下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的材料、试剂、仪器等,如无特殊说明,均可从商业途径得到。实施例1、作为接头的成套试剂可以提高高通量测序准确率本实施例提供了作为接头的用于二代测序的成套试剂,该成套试剂由两条名称分别为a链和b链的单链dna组成;a链从5′端至3′端如式(ⅰ)所示:a1-a3-a2(ⅰ);a3的每个核苷酸均为a、t、c或g,即a3为随机序列;b链从3′端至5′端如式(ⅱ)所示:b1-b2(ⅱ);a2与b2互补;a1与b1不互补;a3与b1及a1均不互补;a1和a2的序列不同;b1与b2的序列不同;a2中3′末端核苷酸为硫代核苷酸,即3′末端核苷酸中磷酸上带双键的氧原子被硫原子取代;b2中5′末端核苷酸为磷酸化修饰的核苷酸;a链:5′-ctacacgacgctcttccgatctnnnnnnnnnnnnnntcgaatggtactc*t-3′(序列表中序列1),*表示寡核苷酸的修饰方式为硫代核苷酸,n表示a、t、c或g;b链:5′-p-gagtaccattcgaagatcggaagagcacacgtctgaa-3′(序列表中序列2),5’-p-表示寡核苷酸的修饰方式为5′末端核苷酸为磷酸化修饰的核苷酸。将a链与b链等摩尔量混合,如下程序退火,得到如图1中a所示的接头结构,下文称为接头甲:94℃,5min;30℃,15min。储存在-20℃备用。提取一个正常人的血液基因组dna,并超声破碎将基因组dna片段化,得到片段化的基因组dna,按照如下方法进行测序,实验重复三次。利用接头甲′作为对照,对照实验中不包括步骤2中的2)。接头甲′为由两条名称分别为a′链和b′链的单链dna组成dna片段:a′链:5′-ctacacgacgctcttccgatcttcgaatggtactc*t-3′,*表示寡核苷酸的修饰方式为硫代碱基;b′链:5′-p-gagtaccattcgaagatcggaagagcacacgtctgaa-3′,5’-p-表示寡核苷酸的修饰方式为5’磷酸化。1、文库构建1)末端修复和加a按照如下反应体系与反应条件对片段化的基因组dna进行末端修复和加a:25μl片段化的基因组dna、3.5μler/atbuffer、1.5μler/atmix,总体系为30μl,混合均匀瞬时离心:20℃孵育30min;65℃孵育30min;4℃hold。反应结束后得到末端修复和加a的dna。其中,er/atbuffer与er/atmix均为北京康为世纪生物科技有限公司产品。2)连接接头甲对步骤1)得到的末端补齐和加a的dna连接接头甲:末端修复和加a的dna30μl,接头甲(50μm)2μl,ligationbuffer15μl,dnaligase5μl,h2o3μl,20℃孵育15min。。反应结束后得到连接接头的dna。3)磁珠纯化取充分混匀的ampurexpbeads(invitrogen)82.5μl,同连接接头的dna混合均匀(ampurexpbeads的体积为连接接头的dna的1.5倍),室温静置5min,在磁力架上静置5min,吸弃上清,ep管仍保持在磁力架上,用80%乙醇200μl清洗磁珠两次,彻底吸弃液体,开盖室温放置5min使乙醇挥发干净,使用39μlultrapuretmdnase/rnase-freedistilledwater(invitrogentm)洗脱磁珠吸附的dna序列,涡旋混合均匀,室温放置5min,置于磁力架上静置5min,吸取上清,得到纯化好的dna。4)pcr扩增富集使用扩增引物(pe1.0和pe2.0index)对纯化好的dna36μl进行扩增,扩增程序为98℃3min(1个循环);98℃20s,65℃30s,72℃30s(18个循环);72℃5min(1个循环)。将pcr产物用ampurexpbeads(invitrogen)进行纯化,磁珠的体积为pcr产物体积的1.5倍。其中pe1.0和pe2.0index序列如表1所示,pe2.0index包括但不限于表1中的pe2.0index001-pe2.0index007,在本实施例中所用pe2.0index为pe2.0index001和pe2.0index002。表1、扩增引物序列pe1.0aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatc*tpe2.0index001caagcagaagacggcatacgagatgtacactcgtgactggagttcagacgtgtgctcttccgat*cpe2.0index002caagcagaagacggcatacgagatacatcggtgactggagttcagacgtgtgctcttccgat*cpe2.0index003caagcagaagacggcatacgagatgcctaagtgactggagttcagacgtgtgctcttccgat*cpe2.0index004caagcagaagacggcatacgagattggtcagtgactggagttcagacgtgtgctcttccgat*cpe2.0index005caagcagaagacggcatacgagatcactgtgtgactggagttcagacgtgtgctcttccgat*cpe2.0index006caagcagaagacggcatacgagatattggcgtgactggagttcagacgtgtgctcttccgat*cpe2.0index007caagcagaagacggcatacgagatgatctggtgactggagttcagacgtgtgctcttccgat*c*表示寡核苷酸的修饰方式为硫代碱基。2、测序步骤1的4)中得到的纯化后的dna通过illuminahiseq2000进行高通量测序,得到测序的数据。测序数据分析的过程包括单核苷酸位点变异(snv/indel)分析过程和sv结构变异分析过程。单核苷酸位点变异(snv/indel)分析过程包括如下步骤:1)测序仪(illuminax10)获取原始短序列,即fastq文件.。然后采用cutadapt程序去掉fastq文件3'/5'端的通用引物序列,保留读出质量大于20和读取长度大于80bp的序列;2)将测序结果中满足如下m1)、m2)和m3)的多条测序序列合并为一条序列,将合并后的序列命名为hf序列;如果多条测序序列在相同位置的核苷酸不同,将占比超过50%的核苷酸确定为hf序列相应位置的核苷酸;如果多条测序序列在相同位置的核苷酸相同,则该核苷酸即为hf序列相应位置的核苷酸;3)m1)上述多条测序序列为大于等于4条测序序列;m2)上述多条测序序列的a3序列均相同;m3)上述多条测序序列具有75%以上的同一性;其中几条序列合并前后如图2所示。4)利用bwa软件,将上一步得到的hf序列重新比对到人类参考基因组(humangrch37/hg19)上,得到bam文件;5)利用bamtools软件,将bam文件里面的未比对上的reads、未paired比对上的reads和未properpair的reads过滤掉;6)为了减少pcr冗余所带来的影响,利用picard软件,对pcr冗余序列进行标记和去除;7)采用samtools的mpileup程序,产生mpileup文件,然后再利用varscan的mpileup2cns程序,得到记录了所有检测到的变异的vcf文件(具体参数:samtoolsmpileup-d100000-l100000sample.bam|varscanmpileup2cns--min-reads21--min-coverage1--strand-filter1--output-vcf1--variants1--min-var-freq0.0001--p-value1--min-avg-qual20,其中p-value为1、最大测序深度100000x、最低覆盖reads数1、最低检测突变频率千分之一);8)利用若干个数据库对每一个变异位点进行功能注释,这些数据库包括但不限于:hgmd、cosmic、dbsnp、refgene、esp6500siv2_all、1000g2015aug_all、exac、dbnsfp、clinvar和spidex;9)统计捕获效率、测序深度。结构变异sv分析流程包括如下步骤:1)将snv/indel分析过程中得到的bwa比对结果,即bam文件,提取其中的soft-clippedreads(具体参数:extractsclip.pl-isample.bam--ref_genomehg19.fa>extractsclip.log,其中参考基因组为hg19);2)对soft-clippedreads区域进行局部组装,获得一致性序列,从而找到断裂点;3)利用annovar软件和refgene数据库对对断裂点进行基因注释。在生物信息学分析过程中,统计使用含有14nt随机序列的接头(接头甲)分析得到的假阳性突变和使用不含有14nt随机序列的接头(接头甲′)分析得到的假阳性突变的数目变化。与参考基因组相比,对于一个特定的人的基因组来说,在一个具体的snp位点处的核苷酸为两种(杂合snp位点)或一种(纯合snp位点),所以理想的测序情况下(即测序完全准确),得到的多条测序序列中该位点的特定核苷酸的频率为50%或者100%。因此,对于一个snp的多条测序结果,如果该snp位点的某一核苷酸的频率偏离50%或者100%,则为测序过程中的测序错误突变(或假阳性突变,errorcount)。具体的说,突变频率小于等于20%的突变read条数大于等于1(或者大于等于2)的为测序错误结果(即假阳性突变),分别统计其在同一个样本中在利用不同接头进行测序下的数目,结果如图3所示。从图3中以明显看出:该样本的snp中,突变频率小于等于20%的突变read条数大于等于1的测序错误突变,使用接头甲′分析,共有87768条(mut>=1),使用接头甲分析,下降到94条(hf>=1),下降了99.9%;突变频率小于等于20%的突变read条数大于等于2的测序错误突变,使用接头甲′分析,共有20104条(mut>=2),使用接头甲分析,下降到3条(hf>=2),下降了99.99%。由此可见,使用本发明的接头甲建库和相应生物信息学分析,可以极其显著下降测序错误,降低假阳性突变数目。同时,观察该样本的包含在dbsnp数据库中的snp突变位点发现,使用接头甲′和使用接头甲分析对snp位点的检出没有影响,数目均为40个,如图4所示,表明,利用本发明的接头甲不会在提高测序准确率的情况下漏检已知的snp位点,表明,利用本发明的接头甲进行建库和测序具有很高的准确性和可靠性。<110>北京迈基诺基因科技股份有限公司<120>用于二代测序的接头<160>2<170>patentinversion3.5<210>1<211>50<212>dna<213>人工序列<220><221>misc_feature<222>(23)..(36)<223>nisa,c,g,ort<400>1ctacacgacgctcttccgatctnnnnnnnnnnnnnntcgaatggtactct50<210>2<211>37<212>dna<213>人工序列<220><223><400>2gagtaccattcgaagatcggaagagcacacgtctgaa37当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1