一种高通量核酸分析方法及其应用的制作方法

文档序号:509798阅读:987来源:国知局
一种高通量核酸分析方法及其应用的制作方法
【专利摘要】本发明涉及一种高通量基因分析方法及其应用,具体地,包括步骤:对于待分析的n种目的核酸片段,针对每个目的核酸片段,提供结合于所述目的核酸片段的不同结合区的至少2个特异探针,所述的各特异探针具有特异结合区和通用序列区,并且所述的特异结合区的序列与目的核酸片段的结合区的序列互补,而所述通用序列区的序列对应于高通量单分子或单分子扩增簇测序平台的测序引物序列,其中n为≥40的正整数;将含待分析的目的核酸片段的核酸样本与所述探针杂交,并连接所述探针,从而获得探针连接产物的混合物;用所述测序引物对探针连接产物混合物或其扩增产物进行测序,并进行分析,从而实现高通量目的基因片段的定量分析的目的。
【专利说明】—种高通量核酸分析方法及其应用
【技术领域】
[0001]本发明属于生物【技术领域】和分子诊断领域,具体地,本发明涉及一种高通量核酸分析方法及其应用。
【背景技术】
[0002]基因是遗传的物质基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列。除了部分病毒遗传物质是RNA外,几乎所有非病毒生物的遗传物质是DNA。不同物种都有其特异的基因序列,因此通过检测样品中的基因序列可以判断样品中存在的生物种性。
[0003]生命过程中,基因通过DNA转录成mRNA,然后以mRNA为模板,翻译出有生物活性的蛋白质分子,从而将贮存在DNA序列中遗传信息表现出来。通过分析不同组织中各mRNA的量,并结合不同组织的生理功能差异,可以了解基因的功能,因此基因的表达分析是分子生物学研究基因功能最基本的研究手段之一。
[0004]基因的表达受到多种调控因子的共同协调作用,其中DNA的甲基化是调控基因表达的重要方式之一。DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而达到控制基因表达的目的。绝大多数情况下,甲基化主要发生在CpG序列中的胞喃唳核苷酸的胞喃唳环的5位碳原子上。
[0005]另外,基因在复制过程中也会出现差错产生“突变”,这种突变包括点突变、大片段缺失/重复(称为拷贝数多态,CNV)、基因倒位或基因易位等。有的突变会严重影响关键基因的功能从而导致疾病,由于受到选择作用,尽管这类突变在群体中的频率非常低,相当一部分突变由于并未严重影响基因功能或影响的基因并不对个体造成生存压力,它们在群体中会保留下来并由于受到随机漂变以及奠基者效应发生频率的改变,从而成为群体中的一种遗传多态,对于单碱基或寡碱基改变的多态被称之为单核苷酸多态(SNP),而对于大区段的缺失或重复多态被称之为拷贝数多态(CNP)。遗传多态以及基因突变分析是研究基因功能以及遗传性疾病的致病机理最常见的遗传分析方法。
[0006]因此,基因鉴定、基因表达分析、DNA甲基化分析、突变筛查、SNP分型、CNP分型以及CNV检测是重要的分子遗传学研究手段,而且在临床分子诊断上也有着广泛的应用。正因为这些遗传分析的重要性,对于每一种分析,科学家及工程师们都开发出了多种检测方法。
[0007]早期的检测方法主要针对有限的目的片段分析。采用PCR扩增对目标基因鉴定,或采用实时荧光定量PCR进行基因表达水平、病毒含量、基因拷贝数以及甲基化水平的鉴定。常见的DNA甲基化分析主要针对亚硫酸处理后的DNA进行甲基化测序或甲基化特异PCR分析。突变筛查主要是采用PCR扩增和Sanger法测序,然后通过比较测序序列与参照序列获得突变情况。用于SNP检测的方法也很多,如TaqMan探针等位基因检测技术、限制性内切酶反应(RFLP)、高分辨率融解曲线反应、单碱基延伸技术(飞行时间质谱平台、MultiplexSNaPshot)、高温 连接酶检测技术(LDR,SNPscan)等。中小通量CNV的检测方法主要包括实时定量PCR、FISH、多重连接探针扩增技术(MLPA)、多重荧光竞争PCR技术(AccuCopy)等。上述方法灵活性很高,但最大的缺陷是通量太低,对于需要检测大量基因位点的研究项目或诊断需求时显得无能为力。
[0008]微阵列芯片(Microarray)以高密度探针阵列为特征,这些微阵列上〃印〃有大量已知部分序列的DNA探针,利用分子杂交原理,将各种处理过的荧光标记样本与微阵列探针进行杂交,然后经过洗涤去除非特异杂交信号,最后用扫描仪进行荧光检测,根据荧光信号的强弱以及荧光信号所在的阵列位置确认目的基因相关的信号量。该芯片能够同时实现成千上万甚至是数百万基因片段或多态位点的分析,被广泛应用于物种鉴定、表达谱分析、高通量SNP分析、全基因组甲基化水平分析以及全基因组拷贝数分析等等。微阵列芯片最大的优势就是高通量,能够在整个基因组水平上分析基因的变化,但其缺陷是由于普遍存在非特异性杂交,定量的准确性较差,同时需要昂贵的杂交及扫描仪器,成本高而且定制芯片时间长费用高,对未知基因无法实现检测。
[0009]第二代测序技术的出现给基因检测领域带来个革命性的变化。第二代测序技术的主要原理为芯片单分子PCR扩增后测序,如Illumina公司的MiSeq、GAIIx、Hiseq2000测序仪、ABI公司的1n PGM、Solid测序仪、Roche公司的454 GSFLX测序仪等。第二代测序技术能够同时实现数百万个甚至是数亿个单分子扩增产物的测序,它广泛应用于基因组重测序快速鉴定致病基因、转录组分析、甲基化谱、miCToRNA鉴定、全基因组水平的蛋白-DNA相互作用研究以及新物种的基因组测序等等。
[0010]新一代以单分子直接测序的技术也在快熟研究发展中,主要代表公司为PacificBiosciences及Helicos。这种高通量测序技术的最大的优势就是通量很大,而且能够同时实现对已知或未知基因进行鉴定并定量,应此特异性及效率都非常高。但也存在一些不足之处,主要是相对于常规测序,下一代测序的准确性稍差,单分子扩增引入的突变对最后的结果分析会造成影响,再则该技术平台适合整个基因组或转录组的检测,如果要实现对目的区域或一组基因的检测分析,需要事先对样本进行目的基因区段的富集。目前采用的富集方法有针对有限基因区域的多重PCR及微流体数字PCR等技术,而针对大量基因区域方法主要是利用覆盖目的区域的高密度探针序列与样本进行固相或液相杂交将目的区域富集。这些富集技术主要用于候选基因的突变检测,但由于这些富集过程在一定程度上消除了产物与原始模板量的正比关系,因此不能准确实现对富集的候选基因片段进行定量分析,如表达量以及拷贝数分析。
[0011]因此目前本领域对于基因的检测,特别是基因鉴定、基因表达分析、DNA甲基化分析、突变筛查、SNP分型、CNP分型以及CNV检测中,尚缺乏有效的检测方法,因此迫切需要开发一种有效的高通量基因分析方法。

【发明内容】

[0012]本发明的主要目的就是提供一种高通量基因分析方法及其应用。
[0013]在本发明的第一方面,提供了一种高通量核酸分析方法,包括步骤:
[0014](I)对于待分析的η种目的核酸片段,针对每个目的核酸片段,提供结合于所述目的核酸片段的不同结合区的至少2个特异探针,所述的各特异探针具有特异结合区和通用序列区,并且所述的特异结合区的序列与目的核酸片段的结合区的序列互补,而所述通用序列区的序列对应于测序引物的序列,其中η为> 40的正整数;[0015](2)将含有待分析的目的核酸片段的核酸样本与步骤(1)所述的探针杂交,并连接所述探针,从而获得探针连接产物的混合物,其中各探针连接产物的3’和5’端都是序列对应于测序引物序列的通用序列区;
[0016](3)对步骤(2)的探针连接产物的混合物进行测序,和/或分析,从而获得目的核酸的信息。
[0017]在另一优选例中,所述的测序引物为高通量单分子或单分子扩增簇测序平台的测序引物。
[0018]在另一优选例中,η为≤100的正整数,较佳地为:选自1000-10000的正整数。
[0019]在另一优选例中,所述通用序列区的序列对应于测序引物序列表示:通用序列区的序列与测序引物序列完全相同或至少8bp相同,或通用序列区的序列与测序引物序列完全互补或至少8bp互补。
[0020]在另一优选例中,所述特异探针还具有选自下组的一个或多个特征:
[0021](I)所述特异探针的长度< lOObp,优选地为30_70bp,更优选为40_50bp。
[0022](2)所述特异探针的特异结合区的长度为≤50bp,优选地为15_35bp,更优选为20_25bpo
[0023](3)特异探针的通用序列区长度为≥8bp,优选地为15-35bp,更优选为20_25bp。
[0024](4)所述特异探针的通用序列区的序列还对应于扩增引物序列;
[0025]( 5 )所述特异探针包括标签序列。
[0026]在另一优选例中,所述的标签序列为一段(优选3个一30个,更优选6个-9个)特异碱基组成的序列,用于区别不同样本来源的探针连接产物。
[0027]在另一优选例中,每个目的核酸片段对应的2个探针为:5’端探针和3’端探针,所述的5’端探针能够与位于待分析的目的核酸片段3’端的结合区互补,所述的3’端探针能够与位于待分析的目的核酸片段5’端的结合区互补。
[0028]在另一优选例中,所述5’端探针或3’端探针的结构如式I所示:
[0029]5’ -A—L—B-3,
[0030]式I
[0031]在式I中,
[0032]A代表通用序列区;
[0033]B代表特异结合区;
[0034]L代表A与B的核酸连接序列;
[0035]其中,A与B位置可以互换。
[0036]在另一优选例中,所述的L为O个碱基。
[0037]在另一优选例中,5’端探针和3’端探针之间的连接关系选自以下其中一组或多组:
[0038](a) 5’端探针和3’端探针为紧邻探针:即所述的5’端探针和3’端探针与待分析的目的核酸片段杂交后,二者之间距离O个碱基,在连接酶的作用下进行连接,从而获得探针连接产物;
[0039](b) 5’端探针和3’端探针距离1-500个碱基:所述的5’端探针和3’端探针与待分析的目的核酸片段杂交后,在DNA聚合酶和连接酶的作用下进行间隙聚合和连接,从而获得探针连接产物;
[0040](c)杂交体系除了 5’端探针和3’端探针外,还包括探针3,探针3分别与5’端探针和3’端探针紧邻,所述的三个探针与待分析的目的核酸片段杂交后,在连接酶的作用下连接,从而获得探针连接产物。
[0041 ] 在另一优选例中,所述探针3长度为l_500bp,优选地15_35bp,更佳地为20_25bp。
[0042]在另一优选例中,对(a)中所述的3’端探针的5’端进行磷酸化修饰。
[0043]在另一优选例中,对(a)中所述的3’端探针的3’端和5’端探针的5’端进行抗核酸外切酶的修饰保护。
[0044]在另一优选例中,所述的抗核酸外切酶修饰为硫代修饰。
[0045]在另一优选例中,在(b)中,5’端探针和3’端探针优选距离为1-10个碱基。
[0046]在另一优选例中,在(b)中,所述的DNA聚合酶没有5’ -3’外切酶活性。
[0047]在另一优选例中,步骤(2)和步骤(3)之间还包括步骤:对步骤(2)的获得的探针连接产物进行扩增。
[0048]在另一优选例中,在步骤(3)中,对步骤(2)获得的探针连接产物的混合物,直接利用高通量单分子或单分子扩增簇测序平台进行测序;或对探针连接产物的混合物的扩增产物,利用高通量单分子或单分子扩增簇测序平台进行测序。
[0049]在另一优选例中,在步骤(3)中,用第三代测序技术或第二代测序技术对探针连接产物的混合物或其扩增产物进行测序和分析。
[0050]在另一优选例中,步骤(3)中,所述的获得目的核酸的信息是指任选自下组的一个或多个信息=SNP分型信息、DNA甲基化信息、突变筛查信息、CNP分型信息、CNV信息、病原微生物基因信息、转基因动植物产品基因信息、基因表达水平。
[0051]在本发明的第二方面,提供了一种高通量SNP分型方法,包括步骤:使用第一方面所述的方法对来源于待测样本的探针连接产物的混合物进行测序和SNP分析,获得目的核酸的SNP分型信息。
[0052]在另一优选例中,所述的高通量SNP分型方法包括步骤:
[0053](1)对于待分析的η种目的核酸片段,针对每个目的核酸片段,提供结合于所述目的核酸片段的不同结合区的3个特异探针:2个5’端探针和1个3’端探针,所述的5’端探针为等位基因特异性探针,并且最后一个喊基对应相应的等位基因喊基,所述的3’端探针为共用探针,其中η为> 40的正整数;
[0054](2)将含有待分析的目的核酸片段的核酸样本与步骤(1)所述的探针杂交,并连接所述探针,从而获得探针连接产物的混合物,其中各探针连接产物的3’和5’端都是序列对应于测序引物序列的通用序列区;
[0055](3)用所述测序引物,对步骤(2)的探针连接产物的混合物进行测序和分析,获得目的核酸的SNP分型信息。
[0056]在本发明的第三方面,提供了一种检测CNV的方法,包括步骤:使用第一方面所述的方法对来源于待测样本的探针连接产物的混合物进行测序和CNV分析,获得目的核酸的CNV信息。
[0057]在另一优选例中,所述的检测CNV的方法包括步骤:[0058](I)每个目的基因片段设计特异性探针(优选地设计2条探针,I个5’端探针以及I个3’端探针);
[0059](2)将所有目的基因片段的连接探针与DNA模板变性_复性_连接(优选进行多次变性-复性-连接循环);
[0060](3)连接产物PCR扩增或不扩增直接用核酸酶消化,将不同样本的扩增产物混合后进行下一代高通量芯片测序;
[0061](4)测序数据分析,获得样本的目的基因拷贝数。
[0062]在本发明的第四方面,提供了一种高通量甲基化分析方法,包括步骤:使用第一方面所述的方法对来源于待测样本的探针连接产物的混合物进行测序和甲基化分析,获得目的核酸的甲基化信息。
[0063]在另一优选例中,所述高通量甲基化分析方法包括步骤:对基因组DNA采用甲基化敏感的限制性内切酶进行处理,针对切点处设计探针,用权利要求1所述的方法检测未被切断的基因组DNA量。
[0064]在另一优选例中,所述高通量甲基化分析方法包括步骤:对基因组DNA进行亚硫酸盐处理,针对目的基因片段分别设计甲基化特异探针及非甲基化特异探针,通过检测两种探针的连接产物量,获得基目的基因区段的甲基化水平。
[0065]在本发明的第五方面,提供了一种基因表达检测方法,包括步骤:使用第一方面所述的方法进行检测。
[0066]应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在
此不再一一累述。
【专利附图】

【附图说明】
[0067]下列附图用于说明本发明的具体实施方案,而不用于限定由权利要求书所界定的本发明范围。
[0068]图1显示了本发明一个具体实施例中高通量测定的技术思路I。
[0069]图2显示了本发明一个具体实施例中高通量测定的技术思路2。
[0070]图3显示基于单分子直接或扩增后测序的高通量连接产物检测技术用于高通量SNP分型的流程。
[0071]图4显示基于单分子直接或扩增后测序的高通量连接产物检测技术用于高通量CNV检测的流程。
[0072]图5显示基于单分子直接或扩增后测序的高通量连接产物检测技术用于高通量目的基因突变筛查的流程。
[0073]图6显示基于单分子直接或扩增后测序的高通量连接产物检测技术用于高通量候选基因表达分析的流程。
[0074]图7显示基于单分子直接或扩增后测序的高通量连接产物检测技术用于高通量基因甲基化水平分析的流程。
[0075]图8显示实施例2中DMD基因外显子缺失重复的检测结果。【具体实施方式】
[0076]本发明人经过广泛而深入的研究,首次利用多重连接探针扩增技术的高特异性以及对目的片段的数量信息的良好保存特性,利用下一代高通量测序技术平台对连接探针扩增产物进行测序鉴定并定量,从而实现高通量目的基因片段的定量分析。在此基础上完成了本发明。
[0077]具体地,包括步骤:对于待分析的η种目的核酸片段,针对每个目的核酸片段,提供结合于所述目的核酸片段的不同结合区的至少2个特异探针,所述的各特异探针具有特异结合区和通用序列区,并且所述的特异结合区的序列与目的核酸片段的结合区的序列互补,而所述通用序列区的序列对应于测序引物序列,其中η为>40的正整数;将含待分析的目的核酸片段的核酸样本与所述探针杂交,并连接所述探针,从而获得探针连接产物的混合物,其中各探针连接产物的3’和5’端都是序列对应于测序引物序列的通用序列区;用所述测序引物,对探针连接产物的混合物进行测序,并进行分析,从而实现高通量目的基因片段的定量分析。
[0078]多重连接探针扩增(MLPA )
[0079]多重连接探针扩增是一种能准确检测目的基因片段分子数目的技术,其基本流程包括探针和靶核酸序列进行杂交,之后通过连接、PCR扩增,产物毛细管电泳并收集数据,分析软件对收集的数据进行分析最后得出结论。
[0080]MLPA探针是一条包括一段引物序列和一段特异性序列的寡核苷酸片段。在MLPA反应中,这两者都与靶序列进行杂交,之后使用连接酶连接两部分探针。连接反应高度特异,只有当两个探针与靶序列完全杂交,即靶序列与探针特异性序列完全互补,连接酶才能将两段探针连接成一条完整的核酸单链;反之,如果靶序列与探针序列不完全互补,即使只有一个碱基的差别,就会导致杂交不完全,使连接反应无法进行或连接效率大大下降。
[0081]连接反应完成后,用一对通用引物扩增连接好的探针,每个探针的扩增产物的长度都是唯一的,范围在100~480个碱基对,然后通过毛细管电泳分离扩增产物,专用软件分析,得出结论。
[0082]只有当连接反应完成,才能进行随后的PCR扩增,并收集到相应探针的扩增峰,如果检测的靶序列发生点突变或缺失、扩增突变,那么相应探针的扩增峰便会缺失、降低或增加,因此,根据扩增峰的改变就可判断靶序列是否有拷贝数的异常或点突变存在。
[0083]多重连接探针扩增技术的优点是探针连接的特异性很高,因此在一个体系中能同时实现多个目的基因片段的分析,而且连接产物的量与原始模板量之间存在正比关系,同时由于不同基因片段的连接产物采用通用引物扩增,因此扩增产物的量很好地保留了原始模板的量的信息,利用该方法能够通过连接PCR产物终端分析检测原始模板目的基因的量。
[0084]多重连接探针扩增已经应用于多个领域研究,包括染色体非整倍体改变,SNP、点突变、染色体亚端粒的基因重排,以及常见的儿童遗传性疾病的检测。
[0085]该方法的不足之处主要在于:1、连接产物通常长度不同,而且采用一对通用PCR荧光引物进行扩增,根据荧光标记PCR产物长度不同采用电泳技术进行不同位点的扩增量进行确定,这样大大限制了一个反应体系检测位点的数量,同时只能检测40-50个核苷酸序列,通量较低;2、连接探针序列通常很长OlOObp),不能直接合成,只能利用Μ13克隆制备,比较繁琐;3、连接探针序列很长,而且不同位点的连接探针及连接产物长度差别可达数百个碱基,这样不同位点间的连接效率及扩增效率都会存在较大差异和波动,从而影响检测准确性。
[0086]高通量基因分析方法
[0087]本发明提供了一种高通量基因分析方法。该方法的技术思路如下:
[0088]思路1 (图1):以分析两个目的基因片段(Fl和F2)为例,包括下述步骤:
[0089]1.针对目的核酸片段设计特异性DNA探针,探针的设计有三种可选方法:
[0090]第一种方法是针对每一个目的片段设计两个紧邻探针(探针I和探针2),一个是5’端探针(即探针1),另一个是3’端探针(即探针2)。5’端探针前半部分序列(探针I的a)是后续PCR扩增引物相一致的通用序列,而后半部分(探针I的bl)为与目的核酸片段杂交的特异序列。3’端探针的5’端进行磷酸化修饰,前半部分(探针2的bl)为与目的核酸片段杂交的特异序列,后半部分(探针2的a)是后续PCR扩增引物相一致的通用序列。这两个探针与模板DNA杂交后,在连接酶作用下进行连接。
[0091]第二种方法同样设计两个探针(探针I和探针2),探针的结构同方法一,但这两个探针之间有数个至数十个碱基距离(该距离可选l_500bp,较佳地Ι-lObp),探针与模板DNA杂交后,在没有5’->3’外切酶活性的聚合酶作用下延伸,将两个探针之间的间隙补上,并连接酶作用下进行连接。
[0092]第三种方法是设计3对探针(探针1、探针2和探针3),5’端及3’端探针(探针I和探针2)的结构同方法一,但这两个探针之间有数十个至数百个碱基距离(较佳地20-25bp),中间探针(探针3)的5’端磷酸化,正好与5’端及3’端探针的间隙匹配,三个探针与模板DNA杂交后在连接酶作用下进行连接。为了增加连接产物的量,优选利用高温耐热聚合酶如Taq DNA Iigase进行变性-复性-连接多次循环。
[0093]2.利用一对与下一代测序平台扩增引物或测序引物相匹配的PCR引物,对连接产物进行扩增,获得含有完整特异序列的目的基因片段。
[0094]优选地,PCR引物具有一段数个至数十个碱基长度的标签序列(即index),不同样本的连接产物可以用带有不同标签序列的PCR引物进行扩增,这样不同样本的扩增产物可以混合在一起,在后续测序数据中根据该标签序列将测序序列归类到不同样本中去。
[0095]3.连接探针扩增产物利用下一代高通量芯片测序平台进行单分子扩增测序或直接单分子测序;
[0096]4.对测序数据进行分析,实现测序序列的样本归类,基因位点归类以及各个基因片段对应连接产物定量。
[0097]首先根据标签序列将测序获得的序列归到相应的样本上,然后根据每个序列的碱基组成将其归到相应基因片段的连接产物上,统计每个连接产物的测序序列数目可以估计该基因片段连接产物的相对量。
[0098]思路2 (图2):以分析两个目的基因片段(Fl和F2)为例,包括下述步骤:
[0099]1.针对目的核酸片段设计特异性DNA探针,探针的设计有三种可选方法:
[0100]第一种方法是设计两个紧邻探针(探针I和探针2),一个是5’端探针(探针1),另一个3’端探针(探针2)。5’端探针前半部分序列是与下一代测序平台扩增引物或测序引物相匹配的通用序列,而后半部分为与目的核酸片段杂交的特异序列,3’端探针的5’端进行磷酸化修饰,前半部分为与目的核酸片段杂交的特异序列,后半部分是与下一代测序平台扩增引物或测序引物相匹配的通用序列,5’端探针的5’末端几个碱基进行硫代修饰或其它保护基团修饰免受核算外切酶降解,3’端探针的3’末端几个碱基进行硫代修饰或其它保护基团修饰免受核算外切酶降解,这两个探针与模板DNA杂交后在连接酶作用下进行连接。
[0101]第二种方法同样设计两个探针,探针结构同方法一,但这两个探针之间有数个至数十个碱基距离(该距离可选l_500bp,较佳地Ι-lObp)),探针与模板DNA杂交后,在没有5’ ->3’外切酶活性的聚合酶作用下延伸,将两个探针间隙补上,然后在连接酶作用下进行连接。
[0102]第三种方法是设计3对探针,5’端及3’端探针结构同方法一,但这两个探针之间有数十个至数百个碱基距离(较佳地20-25bp),中间探针5’端磷酸化,正好与5’端及3’端探针的间隙匹配。通常情况下,5’端或3’端探针会加上一段数个至数十个碱基长度的标签序列,不同样本的连接产物带不同标签序列,这样不同样本的连接产物可以混合在一起,在后续测序数据中可以根据该标签序列将测序序列归类到不同样本中去。三个探针与模板DNA杂交后在连接酶作用下进行连接,为了增加连接产物的量,可以利用高温耐热聚合酶如Taq DNA Iigase进行变性_复性_连接多次循环。
[0103]2.连接反应产物用各种核酸外切酶联合作用如核酸外切酶I (exonucleasel)、核酸外切酶III (exonuclease III)及λ核酸外切酶(lamda exonuclease)共同消化处理,将所有非连接产物的单链或双链DNA去除后纯化(去除非连接产物的所有核酸序列,可不需要连接产物PCR扩增的步骤,测序结果能够更真实反应连接产物信息)。
[0104]3.非扩增连接产物直接用下一代高通量芯片测序平台进行单分子扩增测序或直接单分子测序。
[0105]4.对测序数据进行分析,实现测序序列的样本归类,基因位点归类以及各个基因片段对应连接产物定量:首先根据标签序列将测序获得的序列归到相应的样本上,然后根据每个序列的碱基组成将其归到相应基因片段的连接产物上,统计每个连接产物的测序序列数目可以估计该基因片段连接产物的相对量。
[0106]引物
[0107]如本文所用,术语“引物”指的是能与模板互补配对,在DNA聚合酶的作用合成与模板互补的DNA链的寡聚核苷酸的总称。引物可以是天然的RNA、DNA,也可以是任何形式的天然核苷酸,引物甚至可以是非天然的核苷酸如LNA或ZNA等。
[0108]引物“大致上”(或“基本上”)与模板上一条链上的一个特殊的序列互补。引物必须与模板上的一条链充分互补才能开始延伸,但引物的序列不必与模板的序列完全互补。t匕如,在一个3’端与模板互补的引物的5’端加上一段与模板不互补的序列,这样的引物仍大致上与模板互补。只要有足够长的引物能与模板充分的结合,非完全互补的引物也可以与模板形成引物-模板复合物,从而进行扩增。
[0109]在本发明中,引物包括(但不限于):简并引物、测序引物、接头引物等。本领域的普通技术人员可以使用常规方法进行引物的设计和优化。
[0110]高通量测序
[0111]基因组的“再测序”使得人类能够尽早地发现与疾病相关基因的异常变化,有助于对个体疾病的诊断和治疗进行深入的研究。
[0112]本领域技术人员通常可以采用三种第二代测序平台进行高通量测序:454FLX(Roche 公司)、Solexa Genome Analyzer (Illumina 公司)和 Applied Biosystems公司的SOLID等。这些平台共同的特点是极高的测序通量,相对于传统测序的96道毛细管测序,高通量测序一次实验可以读取40万到30亿条序列,根据平台的不同,读取长度从25bp到450bp不等,因此不同的测序平台在一次实验中,可以读取IG到300G不等的碱基数。
[0113]Solexa高通量测序包括DNA簇形成和上机测序两个步骤:PCR扩增产物的混合物与固相载体上固定的测序探针进行杂交,并进行固相桥式PCR扩增,形成测序簇;对所述测序簇用“边合成-边测序法”进行测序,从而得到样本中疾病相关核酸分子的核苷酸序列。
[0114]DNA簇的形成是使用表面连有一层单链引物(primer)的测序芯片(flow cell),单链状态的DNA片段通过接头序列与芯片表面的引物通过碱基互补配对的原理被固定在芯片的表面,通过扩增反应,固定的单链DNA变为双链DNA,双链再次变性成为单链,其一端锚定在测序芯片上,另一端随机和附近的另一个引物互补从而被锚定,形成“桥”;在测序芯片上同时有上千万个DNA单分子发生以上的反应;形成的单链桥,以周围的引物为扩增引物,在扩增芯片的表面再次扩增,形成双链,双链经变性成单链,再次成为桥,称为下一轮扩增的模板继续扩增;反复进行了 30轮扩增后,每个单分子得到1000倍扩增,称为单克隆的DNA 簇。
[0115]DNA簇在Solexa测序仪上进行边合成边测序,测序反应中,四种碱基分别标记不同的荧光,每个碱基末端被保护碱基封闭,单次反应只能加入一个碱基,经过扫描,读取该次反应的颜色后,该保护集团被除去,下一个反应可以继续进行,如此反复,即得到碱基的精确序列。在Solexa多重测序(MultiplexedSequencing)过程中会使用Index(标签orbarcode)来区分样品,并在常规测序完成后,针对Index部分额外进行7个循环的测序,通过Index的识别,可以在I条测序甬道中区分高达1000种以上不同的样品。
[0116]应用
[0117]本发明还提供了所述高通量基因分析方法的应用。
[0118]SNP 分型
[0119]使用本发明的方法检测SNP,每个反应可检测成百上千甚至是成千上万个SNP位点。在一个具体的实施例中,步骤如下(图3):
[0120]1.每个SNP位点优选地设计3条探针,2个5’端等位基因特异性探针以及I个3’端共用探针,每个等位基因特异性探针的最后一个碱基对应相应的等位基因碱基,为了增加连接的特异性,在该探针的倒数第2-4位中的某一处改变碱基引入额外的不匹配增加连接的特异性;
[0121 ] 2.将所有SNP位点的连接探针与DNA模板进行变性-复性-连接,为了增加连接产物的量,可进行多次变性-复性-连接循环;
[0122]3.连接产物PCR进行扩 增,或不扩增直接用核算酶消化纯化,不同样本的扩增产物混合后进行下一代高通量芯片测序;
[0123]4.测序数据分析,根据两个等位基因连接产物的比例进行基因型判读,或者在出现非特异连接情况下,可取多个样本的两个连接产物数量数据进行聚类分析(预计会有3个聚集区,对应三种基因型),根据聚类结果进行基因型判读。
[0124]CNV 检测
[0125]使用本发明的方法检测CNV,每个反应可检测成百上千甚至是成千上万个目的基因片段。在一个具体的实施例中,步骤如下(图4):
[0126]1.每个反应体系至少包含I个参照基因片段,参照基因片段是认为在检测物种群体中不存在拷贝数多态的基因片段,用于校正不同样本的取样差异;
[0127]2.每个目的基因或参照基因片段优选地设计2条探针,I个5’端探针以及I个3’端探针;
[0128]3.将所有目的基因或参照基因片段的连接探针与DNA模板变性-复性-连接,为了增加连接产物的量,可进行多次变性-复性-连接循环;
[0129]4.连接产物PCR扩增或不扩增直接用核酸酶消化,不同样本的扩增产物混合后进行下一代高通量芯片测序;
[0130]5.测序数据分析:将每个目的基因对应连接产物的检测数量除以参照基因片段连接产物的检测数量获得校正值R如图中NT1/NK1,然后将该R值除以参照样本的R值后获得校正值RR,如果参照基因多于I个,则对每个参照基因片段都计算一个RR值,然后取其中位数即为该目的基因的相对拷贝数值,将该数值乘以参照样本的拷贝数即获得该样本的目的基因拷贝数如图中CNT1。
[0131]目的基因突变筛查
[0132]使用本发明的方法筛查目的基因突变(图5),在一个具体的实施例中,步骤如下:由于连接探针对应DNA模板如果出现显突变会严重降低连接效率,针对目的区域设计高密度平铺探针,采用CNV检测的检测步骤与数据分析方法获得每个探针区域的拷贝数,对于拷贝数偏离正常值的探针区域可作为存在突变位点的候选区域,该区域可用常规测序进行验证。
[0133]多重候选基因表达水平分析
[0134]使用本发明的方法分析多重候选基因表达水平(图6),每个反应可检测成百上千甚至是成千上万个目的基因的表达水平。在一个具体的实施例中,步骤如下:针对每个基因可设计多个探针,可区分不同剪切体的表达比例,以反转录获得的cDNA或直接以RNA为模板进行探针连接,连接产物扩增后进行进行下一代高通量芯片测序。测序结果进行分析,每个基因目的区域的连接产物数量经多个参照基因校正后可取中位数作为该基因相对表达水平,用于不同样本间该基因表达水平的差异分析。
[0135]高通量甲基化分析
[0136]使用本发明的方法分析甲基化平,每个反应可检测成百上千甚至是成千上万个CpG岛的甲基化水平。在一个具体的实施例中,方法如下(图7):
[0137]一种方法是将基因组DNA采用甲基化敏感的限制性内切酶进行处理,针对切点处设计探针检测未被切断的基因组DNA量;另一种方法是将基因组DNA进行亚硫酸盐处理后,针对目的基因片段分别设计甲基化特异探针及非甲基化特异探针,通过检测两种探针的连接产物量估计基目的基因区段的甲基化水平。
[0138]探针连接产物进行下一代高通量芯片测序,获取每个探针连接产物的量。采用第一种方法是,需要选取基因组中存在的全部甲基化或半甲基化区域作为参照DNA片段,同时选取未进行限制性内切酶处理的样本作为参照样本。采用第二种方法是,需要选取一个参照DNA样本,该DNA样本在所有目标基因区域的甲基化比例已知,该样本的制备可采用全基因扩增产物与甲基化修饰后的全基因组扩增产物按一定比例混合,通常为1:1混合获取50%甲基化比例的参照样本。
[0139]病原微生物或转基因动植物鉴定
[0140]使用本发明的方法鉴定病原微生物或转基因动植物,每个反应可检测成百上千甚至是成千上万个物种特异基因片段。
[0141]针对每种微生物或转入基因设计多个特异探针,同时也针对掺入参照基因片段设计探针。探针连接产物进行下一代高通量芯片测序。对于每个探针连接产物量进行掺入参照基因片段校正后确认检测样本所含的病原微生物种类以及转基因作物的种类。
[0142]本发明的主要优点在于:
[0143](I) 一个反应可同时检测成千上万个基因片段信息,检测通量提高;在非专有检测平台上应用,不需额外设备投入,同时一个检测反应能够完成成千上万个基因片段的分析,因此单个基因片段的检测成本大大降低;针对任意需要检测的目的基因片段能够快速建立检测体系,应用灵活:
[0144](2)相对传统的芯片杂交而言,本发明采用测序进行连接产物的鉴定,采用数字计数进行定量,不存在非特异杂交以及检测背景影响,因此大大提高准确性;
[0145](3)本发明所有连接产物长度都比较一致,采用通用引物进行扩增时不同片段之间扩增效率差异比较小,相对于采用不同长度区分连接产物的毛细管电泳来说,在该技术中,扩增产物中各连接产物比例与扩增前的比例更倾向于一致;
[0146](4)采用连接产物经各种核酸外切酶处理纯化后直接进行高通量芯片测序,不经过PCR扩增,减少了由于不同连接产物的PCR扩增效率差异引入的各连接产物彼此相关比例的偏差;
[0147](5)采用单分子扩增产物测序的序列鉴定以及数字计数定量方法,大大提供灵敏度。
[0148]下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如 Sambrook 等人,分子克隆:实验室手册(New York: ColdSpring Harbor LaboratoryPress, 1989)中所述的条件,或按照制造厂商所建议的条件。
[0149]实施例1
[0150]检测48个SNP位点的分型
[0151]针对48个SNP位点设计连接探针,每个位点各设计3条探针,2个5’端等位基因特异性探针以及I个3’端共有序列,5’端探针的前半部分加接与illumina 二代测序平台兼容的通用PCR序列,而5’端探针的后半部分加接与illumina 二代测序平台兼容的另一通用PCR序列。探针在与模板配对良好情况下在TaqDNA Iigase作用下进行连接,连接产物利用与illumina 二代测序平台兼容通用PCR引物扩增,不同样本分别用带有不同标签序列的通用引物进行扩增,然后均匀混合纯化后上Illumina GAIIx测序仪上进行1x72测序。Sequencing reads用软件读出后根据标签序列区分不同样本来源,然后确定每个Sequencing read来源与哪个连接产物,并对每个连接产物进行那个READS统计。根据两个等位基因特异连接产物的Sequencing reads数目比例进行基因型判读。
[0152]实验流程:
[0153]样本来自上海瑞金医院常规体检正常个体全血样本,全血样本呢采用酚氯仿抽提出DNA后用IXTE溶解。
[0154]取100-200ng DNA,用IxTE稀释到10μ 1,98°C温浴5分钟后,立即冰置;
[0155]用IxTE配置探针混合液(ProbeMix),每个探针0.005 μ M ;
[0156]配置2xLigation Premix, 10 μ 1:2 μ I 10*Taq ligase buffer, I μ I 40U/ μ I TaqLigase, I μ I ProbeMix, 6 μ I ddH20 ;
[0157]将ΙΟμΙ 2xLigation Premix加入到变性后的10 μ I DNA样本中,轻微振荡混匀;
[0158]用以下程序进行连接反应:4X (95°C 30s,58°C 4h),连接反应结束后立即冰置待用或将其存放于_20°C以下备用;
[0159]配置PCR 引物混合液 Pmixl、Pmix2 及 Pmix3,分别由 NGMPCRF 和 NGMPCRR001,NGMPCRF 和 NGMPCRR002,NGMPCRF 和 NGMPCRR003 组成,各引物浓度均为 2 μ M ;
[0160]取连接产物1μ I作为模板进行PCR反应,反应体系20μ 1,包含2μ I IOxPCRbuffer, 2 μ I 2.5mM dNTP mix, 2 μ I Pmixl for SI(或Pmix2 for S2,或Pmix3 for S3),
Iμ I Ligation product,0.2 μ I 5U/μ I Taq DNA polymerase,12.8 μ I Mill1-Q water ;其 PCR 程序为:95°C 5min ;8x(94°C 20s,54。。40s, 72°C lmin);26x(94°C 20s, 68°C 1.5min);hold at 4°C ;
[0161]电泳检测扩增效率,然后根据产物浓度将3个PCR产物均匀混合,电泳分离割胶用QIAquick Gel Extraction Kit 纯化 100bp_150bp 之间的片段;
[0162]纯化产物OD定量后估计分子数,然后与其它项目样本混和后根据TruSeqSRCluster Kit v2要求进行芯片上的桥式扩增;
[0163]扩增产物用TruSeq SBS Kit v5在Illumina GAIIX进行1x72+7测序,仪器控制及数据米集米用 Genome Analyzer Data Collection Software SCS2.8,测序选择的 recipe为 GA2-PEM_MP_72+7Cycle_v〈#> ;
[0164]根据标签序列将测序的读序分到不同样本中,然后同expected Iigationproductlibraries对照连接产物库进行比对;每个读序作为等位基因连接产物进行鉴定,计算每个等位基因连接产物的数目;
[0165]根据每个位点两个连接产物测序读序数目比例以及不同样本的比例分布来确定该位点基因型:如果连接特异性很强,某个allele连接产物是另外一个的10倍以上或1/10以下,通常可直接判定为优势Allele的纯合子,如果不是可在多个样本中进行比较看是否存在聚类现象(如分成3类,即对应3种基因型)。
[0166]本实施例中使用的通用引物序列如下:
[0167]NGMPCRF (SEQ ID NO:1)
[0168]AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACNGMPCRR001 (SEQ ID NO:2)
[0169]CAAGCAGAAGACGGCATACGAGATAAACTTGTGACTGGAGTTCAGACGTG
[0170]NGMPCRR002 (SEQ ID NO:3)
[0171]CAAGCAGAAGACGGCAT ACGAGATTCCGGTGTGACTGGAGTTCAGACGTG
[0172]NGMPCRR003 (SEQ ID NO:4)[0173]CAAGCAGAAGACGGCATACGAGATCCAACTGTGACTGGAGTTCAGACGTG
[0174]三个样本SNP位点和genotype calling (基因型判读)测序深度结果见表1。
[0175]表1
【权利要求】
1.一种高通量核酸分析方法,其特征在于,包括步骤: (1)对于待分析的η种目的核酸片段,针对每个目的核酸片段,提供结合于所述目的核酸片段的不同结合区的至少2个特异探针,所述的各特异探针具有特异结合区和通用序列区,并且所述的特异结合区的序列与目的核酸片段的结合区的序列互补,而所述通用序列区的序列对应于测序引物的序列,其中η为> 40的正整数; (2)将含有待分析的目的核酸片段的核酸样本与步骤(1)所述的探针杂交,并连接所述探针,从而获得探针连接产物的混合物,其中各探针连接产物的3’和5’端都是序列对应于测序引物序列的通用序列区; (3)对步骤(2)的探针连接产物的混合物进行测序,和/或分析,从而获得目的核酸的信息。
2.如权利要求1所述的方法,其特征在于,所述特异探针还具有选自下组的一个或多个特征: (1)所述特异探针的长度≤lOObp,优选地为30-70bp,更优选为40-50bp ; (2)所述特异探针的特异结合区的长度为≤50bp,优选地为15-35bp,更优选为20_25bp ; (3)特异探针的通用序列区长度为≥8bp,优选地为15-35bp,更优选为20-25bp ; (4)所述特异探针的通用序列区的序列还对应于扩增引物序列; (5)所述特异探针包括标签序列。
3.如权利要求1所述的方法,其特征在于,每个目的核酸片段对应的2个探针为:5’端探针和3’端探针,所述的5’端探针能够与位于待分析的目的核酸片段3’端的结合区互补,所述的3’端探针能够与位于待分析的目的核酸片段5’端的结合区互补。
4.如权利要求3所述的方法,其特征在于,所述5’端探针或3’端探针的结构如式I所示: 5,-A—L—B-3, 式I 在式I中, A代表通用序列区; B代表特异结合区; L代表A与B的核酸连接序列; 其中,A与B位置可以互换。
5.如权利要求3或4所述的方法,其特征在于,5’端探针和3’端探针之间的连接关系选自以下其中一组或多组: (a)5’端探针和3’端探针为紧邻探针:即所述的5’端探针和3’端探针与待分析的目的核酸片段杂交后,二者之间距离O个碱基,在连接酶的作用下进行连接,从而获得探针连接产物; (b)5’端探针和3’端探针距离1-500个碱基:所述的5’端探针和3’端探针与待分析的目的核酸片段杂交后,在DNA聚合酶和连接酶的作用下进行间隙聚合和连接,从而获得探针连接产物; (c)杂交体系除了5’端探针和3’端探针外,还包括探针3,探针3分别与5’端探针和3’端探针紧邻,所述的三个探针与待分析的目的核酸片段杂交后,在连接酶的作用下连接,从而获得探针连接产物。
6.如权利要求1所述的方法,其特征在于,步骤⑵和步骤(3)之间还包括步骤:对步骤(2)的获得的探针连接产物进行扩增。
7.如权利要求1所述的方法,其特征在于,在步骤(3)中,用第三代测序技术或第二代测序技术对探针连接产物的混合物或其扩增产物进行测序和分析。
8.如权利要求1所述的方法,其特征在于,在步骤(3)中,所述的获得目的核酸的信息是指任选自下组的一个或多个信息=SNP分型信息、DNA甲基化信息、突变筛查信息、CNP分型信息、CNV信息、病原微生物基因信息、转基因动植物产品基因信息、基因表达水平。
9.一种高通量SNP分型方法,其特征在于,包括步骤:使用权利要求1所述的方法对来源于待测样本的探针连接产物的混合物进行测序和SNP分析,获得目的核酸的SNP分型信息。
10.一种检测CNV的方法,其特征在于,包括步骤:使用权利要求1所述的方法对来源于待测样本的探针连接产物的混合物进行测序和CNV分析,获得目的核酸的CNV信息。
11.一种高通量甲基化分析方法,其特征在于,包括步骤:使用权利要求1所述的方法对来源于待测样本的探针连接产物的混合物进行测序和甲基化分析,获得目的核酸的甲基化信息。
【文档编号】C12Q1/68GK103898199SQ201210581830
【公开日】2014年7月2日 申请日期:2012年12月27日 优先权日:2012年12月27日
【发明者】姜正文, 杨锋 申请人:上海天昊生物科技有限公司, 天昊生物医药科技(苏州)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1