一种基于Primer3的bPrimer批量PCR引物设计方法_2

文档序号:9929734阅读:来源:国知局
R引物的方法,解决了现有PCR引物设计方法 在设计PCR引物时因没有预防遗传多样性而导致引物设计失败的问题。
[0044] 为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实 施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中的技术 方案作进一步详细的说明。
[0045] 请参考附图1,附图1示出了本发明实施例提供的基于PrimerS的bPrimer批量PCR 引物设计方法的流程图。从附图1中能够看出本发明实施例提供的基于Primerf的bPrimer 批量PCR引物设计方法包括:
[0046] SOl:从基因组序列文件中获取FASTA格式的目标DNA序列的原始序列;
[0047] S02:依据所述目标DNA序列的原始序列提取VCF格式的DNA多态性数据中的高频多 态性位点;
[004引S03:对所述高频多态性位点进行标记;
[0049] S04:输出标记高频多态性位点的注释序列,所述注释序列和所述原始序列的碱基 长度相同,且在序列文件中的顺序也保持一致;
[00加]S05:读取所述注释序列,并计算解链溫度(melting temperature ,Tm)和生成候选 引物;
[00y] S06:筛选候选引物,得到引物。
[0052] 本发明实施例提供的基于Primerf的bPrimer批量PCR引物设计方法能够回避高频 多态性位点,进而减少因目标人群遗传多样性而导致的扩增失败,达到所设计的引物扩增 成功的概率。
[0053] 进一步,本发明实施例提供的基于PrimerS的bPrimer批量PCR引物设计方法还包 括长目标片段的自动分割。若目标DNA序列的原始序列未获得候选引物,则需要对较长的目 标DNA序列的原始序列片段进行分割,从而实现引物的设计。对较长的目标DNA序列的原始 序列片段进行分割时,先将较长的目标DNA序列的原始序列片段平均分为两个子序列,然后 对两个子序列分别进行引物设计。若上述两个子序列中仍然没有得到候选引物,则将两个 子序列再次进行平均分割,并再次分别进行引物设计。若分成的子序列中仍然没有得到候 选引物,则继续平均分割,直到目标DNA序列的原始序列有候选引物或所分得子序列的长度 小于预设最低产物的长度。
[0054] 具体来讲,请参考附图2,附图2示出了本发明实施例提供的基于Primer3的 bPrimer批量PCR引物设计方法中长目标片段自动分割的示意图。从附图2中得知,若原目标 区域的坐标为(A,B),则二分得到子目标区域1(4,4+111*((8-4+5)/2)),和子目标区域2(八+ int((B-A-S)/2),B);其中,S为预先设定的重叠区域长度。当然,在实际应用中,长目标片段 的自动分割功能是使用伪代码实现的。
[0055] 本发明实施例提供的基于PrimerS的bPrimer批量PCR引物设计方法的步骤SOl中 获取目标DNA序列的原始序列包括构建目标DNA序列的坐标文件,并使所述坐标文件的每一 行包括一个基因组坐标,进而形成目标DNA序列的原始序列。组成坐标文件的基因组坐标的 形式为ChrA: B+C的形式,例如MED12_exonlchrX: 70360484巧0360706。其中,A表示染色体编 号,B和C分别表示目标区域的起始和结束坐标,且起始和结束坐标是1-based的,即染色体 的第一个碱基坐标为1;"+"号表示染色体的正链,号表示染色体的负链,例如"chrX: 7036048片7036070护就表示X染色体正链上从70360484到70360706位碱基的区域。在所构 建的目标DNA序列的坐标文件中,第一列设置目标名称,由于目标名称会影响目标区域和引 物的命名,因此目标名称与基因组坐标用制表符分割开,推荐长度不超过15个英文、数字或 下划线字符。如果不提供目标名称,则默认将基因组坐标本身作为目标名称。
[00?]基于目标DNA序列的坐标文件的构建,本发明实施例提供的基于PrimerS的 bPrimer批量PCR引物设计方法在提取DNA多态性数据中的高频多态性位点时需要从DNA多 态性数据中提取与所构建的目标DNA序列的坐标文件相对应的高频多态性位点。在提取到 高频多态性位点后,需要对所提取到高频多态性位点进行标注,标注时WIUPAC标准简并 码、"<〉"和"[]"分别对所述高频多态性位点中的单核巧酸高频多态性位点(Single Nucleotide Polymo巧hisms,SNP)、插入缺失标记位点(insertion-deletion, INDEX)和目 标DNA序列进行标注,其中IUPAC标准简并码如表2所示。
[0化7] 表2: IUPAC标准简并码 [0化引
[0059] 对标记了的高频多态性位点进行输出,并形成注释序列,所形成的注释序列和原 始序列的碱基长度相同,且注释序列和原始序列在序列文件中的顺序必须一致,W避免后 续的计算结果出错。进一步,读取注释序列,并由Primerf软件按照注释序列生成候选引物 和计算Tm。由于在使用注释序列计算Tm时,该Tm值由于注释序列含有简并码而存在误差,因 此,当注释序列和原始序列都存在,则需要重新计算化值,此时的Tm值使用原始序列进行计 算。若所设计的候选引物包含IUPAC简并码,并且未提供原始序列,则会由Primerf软件计算 所有可能引物的化,并输出化的取值范围。
[0060] 本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法在对候选引物 进行筛选时,主要考虑W下几点内容:筛除Tm不在设定范围内的候选引物;筛除SNP超过设 定阔值的候选引物;筛除3'端含有SNP的候选引物;筛除3'端含有IND化的候选引物;筛除3' 端5个碱基范围内含有简并碱基的候选引物;筛除非特异性扩增的候选引物;筛除存在风险 的候选引物。
[0061 ]其中,由于解链溫度Tm是DNA的双螺旋结构在加热时失去一半时的溫度,因此Tm值 为PCR反应退火溫度的重要参考依据,进而在进行引物设计时,需要筛除化值不在用户设定 范围内的候选引物。
[0062]若所设计出的候选引物存在SNP多态性位点和IND化多态性位点,则会导致实际应 用中在某些样本的扩增效率降低甚至无法扩增得到产物,因此针对引物上存在多态性位 点,为了提高引物的扩增效率需要筛除SNP超过设定阔值的候选引物、3'端含有SNP的候选 引物W及3'端含有IN呢L的候选引物。
[0063] 当3'端的5个碱基范围内含有简并碱基时,需要将该候选引物筛除,具体的,简并 碱基用小写字母,标准碱基用大写字母,然后设置Primer3软件过滤掉3'端的5个碱基范围 内含小写字母的候选引物。
[0064] 对于非特异性扩增的候选引物,本发明实施例通过使用iPCRess软件和In-SilicoPCR软件来预测候选引物是否非特异性扩增,从而将非特异性扩增的候选引物筛除。 在预测候选引物是否非特异性扩增时,循环调用iPCRess,只截取3'端部分序列来构建配置 文件并且指定最大错配数的范围,从而完成候选引物非特异性扩增的预测,其中,预测候选 引物非特异性扩增的标准请参见表3。
[0065] 表3:预测候选引物非特异性扩增标准表
[0066]
[0067] 对已经进行过上述筛除的候选引物,还需要对存在高风险的候选引物进行筛除。 筛除高风险的候选引物时按照预先设定的过滤标准进行筛除,在筛选时原则上优先选取序 号数低、位于表格前列的引物,该过滤标准请参见表4。在实际应用中,通过标准可W按照用 户的自身经验进行设定。
[006引表4:过滤标准 「00691
本发明提供的基于Primerf的bPrimer批量PCR引物设计方法能够回避高频多态性 位点,进而减少因目标人群遗传多样性而导致的扩增失败。同时,本发明提供的引物设计方 法能够批量检测引物的特异性,进而减少非特异扩增、引物二聚体等原因导致的扩增失败, 并且能够用于评估现有引物的特异性。
[0071] 本发明实施例还提供了对本发明引物设计方法的验证,用W验证实验的指导价 值。在引物设计阶段,挑选了3对典型的预测非特异扩增的引物,W及随机挑选了2对预测特 异扩增的引物,其中,3对典型的预测非特异扩增的引物为411659_尸7、化邸166_尸12和1_ 301_F7,2对预测特异扩增的引物为化rl-51-FO、化rl-69-FO,将上述引物按照本
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1