一种基于Primer3的多重PCR引物设计方法与流程

文档序号:14246085阅读:1478来源:国知局
一种基于Primer3的多重PCR引物设计方法与流程
本发明涉及一种基于primer3的多重pcr引物设计方法。
背景技术
:聚合酶链式反应(polymerasechainreaction,pcr)技术又称体外基因扩增技术,是目前广为使用的分子生物学技术,它是利用dna聚合酶对特定基因在体外或试管内进行大量合成的技术。其基本工作原理就是以拟扩增的dna分子为模板,以一对分别与模板互补的寡核苷酸片段为引物,在dna聚合酶的作用下,按照碱基互补配对原则沿着模板链延伸直至完成新的dna合成。不断重复这个过程,可使目的dna片段得到扩增。顺着pcr技术的发展,产生出多种类的相关技术,其中多重pcr(multiplexpcr)早在1988年就被用来快速检测人杜氏肌营养不良相关基因外显子的缺失情况,可大幅度提高pcr效率。同时,这种通过在同一pcr反应体系里提供两对或两对以上引物的pcr技术能够同时扩增出多个核苷酸片段。虽然多重pcr技术具有简便、高效、灵敏等优点,但是正因为是在反应过程中加入多对引物,必然会增加引物设计的难度以及针对不同扩增产物的最佳退火温度、延伸时间、循环次数等诸多复杂因素的抉择而极易导致非特异性扩增反应的发生。多重pcr引物的设计不仅考虑到引物与dna模板结合的特异性问题,还要考虑引物与引物之间的相互干扰重组问题,而且随着引物的增加,多重pcr实验中引物的特异性大幅度减低。例如,假设一个反应管中同时存在20条引物,则可能的重组引物对数目可以达到210(如果要考虑上单个引物也能自身作为上下游引物的最坏的打算的话)。那么如何合理的设计出多重pcr实验所需要的引物对,是多重pcr实验成功与否的关键。primer3是现在最广泛被使用的开源的pcr引物设计软件。它最基本的功能包括设计pcr引物和设计杂交探针,虽然它具有免费、开源、跨平台等优点,但它一次只能对一个目标序列进行设计引物,而且不能回避单核苷酸高频多态性位点,不能评估引物的特异性和计算简并碱基的计算;不能识别序列相距较近的目标序列并设计兼并引物;不能很好的对多条目标基因序列设计出合理的多重pcr引物。因此,如何提供一种能够减少非特异性扩增,设计出特异性较强的多重pcr引物的多重pcr引物设计方法成为了业界需要解决的问题。技术实现要素:针对现有技术的缺点,本发明的目的是提供一种基于primer3的多重pcr引物设计方法,其能够减少非特异性扩增,设计出特异性较强的多重pcr引物。为了实现上述目的,本发明提供了一种基于primer3的多重pcr引物设计方法,多重pcr引物设计方法包括:s1:获取目标dna序列的原始序列;s2:primer3对目标序列进行pcr引物设计,并生成候选引物;s3:用pe模型或se模型对多重pcr引物进行评估,并筛选出合格的多重pcr引物;s4:改变引物筛选参数,再次对未能设计出引物的目标dna序列进行设计和筛选,最终获得所有目标dna序列的多重pcr引物。本发明通过融合pe模型和se模型,解决多重pcr引物设计中,因特异性等问题导致的非特异性扩增问题;能快速设计出高特异性高灵敏性的多重pcr引物。根据本发明另一具体实施方式,多重pcr引物设计方法进一步包括兼并引物的设计,兼并引物的设计包括:若两目标序列区域相距很近,则两目标序列的引物会因为相互干扰而出现非特异性扩增,导致扩增失败;因此需将两目标区域合并设计兼并引物。本方案中,非特异性扩增的发生是因为两相近的上游引物或下游引物与模板dna链相结合,形成新的上下游引物关系;有时甚至前一个目标序列的下游引物和后一个目标序列的上游引物也能形成新的上下游引物关系。根据本发明另一具体实施方式,步骤s1中,获取目标dna序列的原始序列包括:构建目标序列的坐标文件,并使坐标文件的每一行包括一个基因序列坐标。根据本发明另一具体实施方式,基因序列坐标的形式为bed文件形式,bed文件形式为:染色体位置,制表符,起始坐标,制表符,终止坐标。本方案中,获取目标dna序列的参考基因组为hg19,其为人类(homosapiens)标准参考基因组(grch37/hg19),是国际通用的作为筛选目标序列突变位点或snp位点的参考基因序列,即ncbigenbankassemblyaccession:gca_000001405.1。根据本发明另一具体实施方式,步骤s3中,pe模型对多重pcr候选引物的筛选参数包括:gc含量:指引物序列中gc的含量,只是dna序列的一个重要特征,直接影响退火强度,设定为:20%~80%。tm值:指寡核苷酸的解链温度,即在一定盐浓度下,50%寡核苷酸双链解链温度,设定为:59℃~61℃。primersize:指引物长度,由于反应的特异性,温度和退火时间都部分依赖于引物的长度,设定为:18~27。ampliconsize:指扩增子长度,dna或rna扩增后的一段核苷酸序列,设定为:200~260。target_side:指目标序列左右两端设计引物的局域长度,设定:100。buffer:指引物3’到目标区域的缓冲区域,设定:5。根据本发明另一具体实施方式,步骤s3中,pe模型或se模型对多重pcr引物进行评估,并筛选出合格的多重pcr引物中的pe模型和se模型为预测模型,通过代码和算法实现pcr实验的过程,并预测多重pcr引物的特异性,预防多重pcr实验的引物非特异性扩增情况;预测过程通过代码实现。根据本发明另一具体实施方式,步骤s3中,用pe模型或se模型对多重pcr引物进行评估,并筛选出合格的多重pcr引物中的引物评估和筛选候选引物包括:对候选引物的特异性进行评估;对候选引物是否会形成引物二聚体等结构进行评估;对候选引物的单核苷酸高频多态性位点情况进行评估;对候选引物的退火温度,解链温度,gc值进行评估;筛除解链温度不在设定范围内的候选引物;筛除gc值不在设定范围内的候选引物;筛除单核苷酸高频多态性位点超过阈值的候选引物;筛除没有特异性的候选引物;筛除会形成引物二聚体等结构的候选引物;筛除存在风险的候选引物。本方案中,对候选引物的退火温度,解链温度,gc值进行评估包括:对引物的tm值进行计算,计算公式为:tm=△h°/(△s°+rlnct);其中△h°和△s°分别为杂交反应的标准焓变和熵变,r为气体常数1.987cal/kmol,ct为dna分子的摩尔浓度(当dna分子为非对称序列时其摩尔浓度取ct/4)。对候选引物的单核苷酸高频多态性位点情况进行评估包括对目标dna序列提取dna多态性数据中的高频多态性位点。提取dna多态性数据中的高频多态性位点包括:从dna多态性数据中提取与目标dna序列的坐标文件相对应的高频多态性位点。根据本发明另一具体实施方式,步骤s4中,获得所有目标dna序列的多重pcr引物的方法包括:对于因为gc值,tm值,缺少特异性导致不能设计出引物的目标dna序列,在不影响之前已经设计好的引物的前提下,通过改变扩增子的长度,目标序列左右两端设计引物的局域长度来增加候选引物的数量,选择出合适的候选引物;如果还不能选出合适的引物,通过合理扩大tm值和gc值来筛选出合适的候选引物;对于因为单核苷酸高频多态性位点超过阈值而不能设计出合适的候选引物的目标序列,在不影响已经设计好的引物的前提下,通过上调阈值来筛选出合适的引物;对于因为引物二聚体等结构而不能设计出合适候选引物的目标dna序列,在不影响之前已经设计好的引物的前提下,通过改变评估系统来寻找合适的候选引物。本方案中,可改用se模型来对引物进行评估;se模型没有比pe模型引入更多的参数,但也能选出特异性强的候选引物。与现有技术相比,本发明具备如下有益效果:本发明可识别序列相距较近的目标序列并设计兼并引物,进而减少因相距较近的目标序列的引物相互干扰而导致的非特异性扩增;系统性评估所设计引物的特异性,减少因非特异性扩增、出现引物二聚体和发夹结构等原因导致的扩增失败,为多重pcr实验设计出特异性较强的多重pcr引物。下面结合附图对本发明作进一步的详细说明。附图说明图1是实施例1的多重pcr引物设计方法的流程图;图2是实施例1的多重pcr引物设计方法中,相近目标序列合并且设计兼并引物示意图;图3是实施例1的多重pcr引物设计方法中,两相近的上游引物或下游引物和模板dna链相结合形成新的上下游引物关系的示意图;图4是实施例1的多重pcr引物设计方法中,前一个目标序列的下游引物和后一个目标序列的上游引物形成新的上下游引物关系的示意图;图5是实施例1的多重pcr引物设计方法中,未调整筛选参数前候选引物的设计情况统计图;图6是实施例1中,设计的46个肿瘤个体化化疗用药指导基因的58个snp位点的测序深度图。具体实施方式实施例1本实施例提供了一种基于primer3的多重pcr引物设计方法,如图1所示,其包括:s1:获取目标dna序列的原始序列;s2:primer3对目标序列进行pcr引物设计,并生成候选引物;s3:用pe模型或se模型对多重pcr引物进行评估,并筛选出合格的多重pcr引物;s4:改变引物筛选参数,再次对未能设计出引物的目标dna序列进行设计和筛选,最终获得所有目标dna序列的多重pcr引物。本实施例提供了一种基于primer3的多重pcr引物设计方法,解决了引物与dna模板的错误匹配和非特异性扩增、出现引物二聚体和发夹结构等原因导致的扩增失败问题,系统性评估所设计引物的特异性,确保多重pcr实验的成功。本实施例涉及46个肿瘤个体化化疗用药指导基因的58个snp位点(表1),对这些snp位点构建目标序列的坐标文件(表2),并设计多重pcr引物;46个肿瘤个体化化疗用药指导基因的58个snp位点如下:表1肿瘤个体化化疗用药指导相关的snp位点基因snp位点构建目标序列的坐标文件格式为bed文件,bed文件形式为:染色体位置,制表符,起始坐标,制表符,终止坐标。本实施例的坐标文件如下:表2snp位点构建目标序列的坐标文件多重pcr引物设计方法进一步包括兼并引物的设计,兼并引物的设计包括:若两目标序列区域相距很近,则两目标序列的引物会因为相互干扰而出现非特异性扩增,导致扩增失败;因此需将两目标区域合并设计兼并引物。本方案中,非特异性扩增的发生是因为两相近的上游引物或下游引物与模板dna链相结合,形成新的上下游引物关系;有时甚至前一个目标序列的下游引物和后一个目标序列的上游引物也能形成新的上下游引物关系。如图2所示,目标序列a和目标序列b的区域分别为(a,b)和(c,d),两目标序列相距较近的情况有两种:情况一为两目标序列相距很近但无公共区间,情况二为两目标序列相距很近切有公共区域;无论是何种情况,均可以把目标序列合并为兼并序列(a,d),此部分合并由代码实现。如图3所示,两相近的上游引物或下游引物与模板dna链相结合形成新的上下游引物关系导致扩增失败:引物a和引物b扩增目标序列a,引物c和引物d扩增目标序列b;但引物a和引物c形成新的上下游引物关系扩增出非特异性扩增条带ac,引物b和引物d形成新的上下游引物关系扩增出非特异性扩增条带bd;而正常情况是扩增出ab和cd这两个特异性扩增条带。如图4所示,前一个目标序列的下游引物和后一个目标序列的上游引物形成新的上下游引物关系导致扩增失败:附引物a和引物b扩增目标序列a,引物c和引物d扩增目标序列b;但引物c和引物b形成新的上下游引物关系,扩增出非特异性条带bc;引物a和引物d形成新的上下游关系扩增出非特异性条带ad;而正常情况是扩增出ab和cd这两个特异性扩增条带。步骤s1中,获取目标dna序列的原始序列包括:构建目标序列的坐标文件,并使坐标文件的每一行包括一个基因序列坐标。基因序列坐标的形式为bed文件形式,bed文件形式为:染色体位置,制表符,起始坐标,制表符,终止坐标。本方案中,获取目标dna序列的参考基因组为hg19,其为人类(homosapiens)标准参考基因组(grch37/hg19),是国际通用的作为筛选目标序列突变位点或snp位点的参考基因序列,即ncbigenbankassemblyaccession:gca_000001405.1。步骤s3中,pe模型对多重pcr候选引物的筛选参数包括:gc含量:指引物序列中gc的含量,只是dna序列的一个重要特征,直接影响退火强度,设定为:20%~80%。tm值:指寡核苷酸的解链温度,即在一定盐浓度下,50%寡核苷酸双链解链温度,设定为:59℃~61℃。primersize:指引物长度,由于反应的特异性,温度和退火时间都部分依赖于引物的长度,设定为:18~27。ampliconsize:指扩增子长度,dna或rna扩增后的一段核苷酸序列,设定为:200~260。target_side:指目标序列左右两端设计引物的局域长度,设定:100。buffer:指引物3’到目标区域的缓冲区域,设定:5。步骤s3中,pe模型或se模型对多重pcr引物进行评估,并筛选出合格的多重pcr引物中的pe模型和se模型为预测模型,通过代码和算法实现pcr实验的过程,并预测多重pcr引物的特异性,预防多重pcr实验的引物非特异性扩增情况;预测过程通过代码实现。步骤s3中,用pe模型或se模型对多重pcr引物进行评估,并筛选出合格的多重pcr引物中的引物评估和筛选候选引物包括:对候选引物的特异性进行评估;对候选引物是否会形成引物二聚体等结构进行评估;对候选引物的单核苷酸高频多态性位点情况进行评估;对候选引物的退火温度,解链温度,gc值进行评估;筛除解链温度不在设定范围内的候选引物;筛除gc值不在设定范围内的候选引物;筛除单核苷酸高频多态性位点超过阈值的候选引物;筛除没有特异性的候选引物;筛除会形成引物二聚体等结构的候选引物;筛除存在风险的候选引物。本方案中,对候选引物的退火温度,解链温度,gc值进行评估包括:对引物的tm值进行计算,计算公式为:tm=△h°/(△s°+rlnct);其中△h°和△s°分别为杂交反应的标准焓变和熵变,r为气体常数1.987cal/kmol,ct为dna分子的摩尔浓度(当dna分子为非对称序列时其摩尔浓度取ct/4)。对候选引物的单核苷酸高频多态性位点情况进行评估包括对目标dna序列提取dna多态性数据中的高频多态性位点。提取dna多态性数据中的高频多态性位点包括:从dna多态性数据中提取与目标dna序列的坐标文件相对应的高频多态性位点。步骤s4中,获得所有目标dna序列的多重pcr引物的方法包括:对于因为gc值,tm值,缺少特异性导致不能设计出引物的目标dna序列,在不影响之前已经设计好的引物的前提下,通过改变扩增子的长度,目标序列左右两端设计引物的局域长度来增加候选引物的数量,选择出合适的候选引物;如果还不能选出合适的引物,通过合理扩大tm值和gc值来筛选出合适的候选引物;对于因为单核苷酸高频多态性位点超过阈值而不能设计出合适的候选引物的目标序列,在不影响已经设计好的引物的前提下,通过上调阈值来筛选出合适的引物;对于因为引物二聚体等结构而不能设计出合适候选引物的目标dna序列,在不影响之前已经设计好的引物的前提下,通过改变评估系统来寻找合适的候选引物。本方案中,可改用se模型来对引物进行评估;se模型没有比pe模型引入更多的参数,但也能选出特异性强的候选引物。在对候选引物进行筛选的时候,主要考虑以下几点内容:筛除tm值不在设定范围内的候选引物;筛除gc值不在设定范围内的候选引物;筛除引物长度不在设定范围内的候选引物;筛除单核苷酸高频多态性位点超过阈值的候选引物;筛除没有特异性的候选引物;筛除会形成引物二聚体等结构的候选引物;筛除存在风险的候选引物。其中,由于解链温度tm值是寡核苷酸的解链温度,即在一定盐浓度条件下,50%寡核苷酸双链解链的温度,因此tm值为pcr反应退火温度的重要参考依据,对于引物来说,最佳的解链温度范围为:52℃~58℃,一般不解链温度设定不超过65℃,避免二次退火的出现。因此在进行引物设计的时候要筛除tm值不在用户设定范围内的候选引物。引物的gc值是dna序列的重要特征,直接影响退火强度。如果引物的gc含量过低时要适当的延长引物序列,因此要筛除gc含量不在设定范围内的候选引物。由于反应温度以及退火时间都部分依赖于引物的长度,因此该参数的设定非常重要;由于每增加一个核苷酸引物特异性提高四倍,所以大多数应用的最短引物长度为18个核苷酸,这样可以尽量减少引物和二次载体位点二次杂交或插入的机会,所以进行引物设计的时候要筛除引物长度不在设定范围内的候选引物。若所设计的候选引物存在snp多态性位点和indel多态性位点,则会导致实际应用中某些样本的扩增效率降低甚至无法扩增得到产物;因此针对引物上存在多态性位点,为了提高引物的扩增效率需要筛除snp超过设定阈值的候选引物。通过pe模型来预测候选引物是否会进行非特异性扩增,从而将非特异性扩增的候选引物筛除。表3为候选引物的筛选参数,参数包括tm值,gc含量,引物长度:primer_size,扩增子长度:amplicon_size,目标序列左右两端设计引物的局域长度:target_side,指引物3’到目标区域的缓冲区域:buffer,允许正向引物的3’端序列和模板链3’端完全匹配数:forward_perfect,允许正向引物的3’端序列和模板链3’端错配数:forward_mismatch,允许反向引物的3’端序列和模板链3’端完全匹配数:reverse_perfect,允许反向引物的3’端序列和模板链3’端错配数:reverse_mismatch,单核苷酸高频多态性位点阈值:maf表3候选引物筛选参数通过初步的引物设计和候选引物的筛选,对46个肿瘤个体化化疗用药指导基因的58个snp位点中两个相近位点设计出兼并引物,同时对其它位点也进行引物设计;但是仅设计出39个合适的引物,还有18个位点没有设计出合适的引物,具体情况如图5所示。对于未设计出合适引物的位点做出整理(表4),然后改变引物筛选参数,再次对未能设计出引物的这些位点进行设计和再次筛选。表4中统计了未能设计出候选引物的位点的原因,其中undesigned包括因为tm值,gc含量,引物长度等原因没能设计出引物的位点,uniqueness是指引物缺少特异性而没能设计出引物来,snp是指单核苷酸高频多态性位点超过阈值所以没能设计出引物。表4未能设计出引物的位点统计表第一步,改变筛选引物的参数中的tm值,扩增子长度:amplicon_size,目标序列左右两端设计引物的局域长度:target_side,引物长度:primer_size。具体改变情况参照表5。表5修改后的筛选引物参数项目通过范围amplicon_size195-249primer_size18-30gc20%~80%tm58~65target_side130buffer5forward_perfect<9forward_mismatch<11reverse_perfect<3reverse_mismatch<7maf0.005通过改变以上参数,没能设计出引物的18个位点中,14个位点设计出了合适的候选引物,还有4个位点未能设计出合适的候选引物;其中有两个因为特异性问题而未能设计出引物,还有两个是因为单核苷酸高频多态性位点超过阈值所以没能设计出引物。具体情况参照表6表6第一步后未能设计出引物的位点统计表第二步,提高单核苷酸高频多态性位点的阈值,让因为单核苷酸高频多态性位点超过阈值而未能设计出引物的位点设计出候选引物。将maf值提高到0.27。通过提高maf值,设计出因为单核苷酸高频多态性位点超过阈值而未能设计出引物的位点的候选引物。第三步,对因特异性而未能设计出候选引物的位点进行设计和改变筛选系统,使用se模型系统对这些点进行候选引物的筛选,最终获得所有位点的多重pcr引物。通过以上步骤,对46个肿瘤个体化化疗用药指导基因的58个snp位点,一共设计出57对引物,其中一对引物为兼并引物;并且保证每个snp位点都能被覆盖。57对引物进行pcr扩增后的电泳实验出现了大小正确的条带,并符合pcr合格结果;根据实验,得到兼并引物xl170915034510的扩增产物在1000bp以下有两个主要条带,且主要产物条带的大小与预期结果接近。由此说明,本实施例提供的兼并引物能解决两目标序列因相距较近而不能设计出合适引物的问题。本实施例提供的多重pcr引物设计方法能够减少引物与dna模板的错误匹配,减少因非特异性扩增、出现引物二聚体和发夹结构等原因导致的扩增失败,系统性评估所设计引物的特异性,同时能识别两相近目标序列并设计兼并引物,为多重pcr实验设计出特异性较强的多重pcr引物。为了说明本实施例提供的多重pcr引物设计方法能够运用于高通量测序中,本实施例设计了46个肿瘤个体化化疗用药指导基因的58个snp位点所需要的57对引物,经过多重pcr扩增和建库后,在illuminamiseq高通量测序平台上进行测序,最终经生物信息分析得到深度分布图(如图6所示):57个扩增子都成功扩增,其中最低深度为503,最高深度为793,相差小于200个bp;扩增子平均深度为650~700之间,所有扩增子都在5倍平均深度内;可以认为各扩增子的测序深度均一,测序质量符合预期。虽然本发明以较佳实施例揭露如上,但并非用以限定本发明实施的范围。任何本领域的普通技术人员,在不脱离本发明的发明范围内,当可作些许的改进,即凡是依照本发明所做的同等改进,应为本发明的范围所涵盖。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1