一种用于基因测序的引物设计方法及系统与流程

文档序号:17473334发布日期:2019-04-20 05:57阅读:1304来源:国知局
一种用于基因测序的引物设计方法及系统与流程

本发明涉及生物基因测序领域,具体涉及一种用于基因测序的引物设计方法及系统。



背景技术:

聚合酶链式反应(polymerasechainreaction,简称pcr)是体外酶促合成特异dna片段的一种方法,由高温变性、低温退火(复性)及适温延伸等反应组成一个周期,循环进行,使目的dna得以迅速扩增,具有特异性强、灵敏度高、操作简便等特点。而pcr结合二代测序的方式更是由于能实现对数十数百个模板同时进行扩增测序,大幅降低实验成本,提高实验效率的优点,而越来越受到研究者们的欢迎。

在进行pcr反应之前,必须设计合适的引物。引物是一小段单链dna或rna,作为dna复制的起始点,在核酸合成反应时,作为每个多核苷酸链进行延伸的出发点而起作用的多核苷酸链。引物设计的好坏直接影响整个实验的结果。引物设计的效果受到很多因素影响,包括引物长度、gc含量、溶解温度(tm)、特异性等等,设计合适的引物是一项艰巨的任务。

目前已有很多引物设计软件,但大部分只能一次性设计少量引物,操作麻烦,效率低,并且很大一部分只能设计面对面pcr引物,满足不了利用二代测序批量进行pcr扩增测序、以及多种引物方式的需求。另外,一般设计引物的策略是设定各项特征阈值,当搜索到满足所有要求的引物就停止,但可能搜索完了都没有满足条件的引物时,需要重新降低各项特征阈值,然后重新搜索,然后降低阈值再搜索,可能反反复复需要降低三四次阈值才能把所有的引物设计出来;这样不仅操作麻烦、效率低下,且对于设计出来的引物并不是最优引物。



技术实现要素:

本发明要解决的技术问题:针对现有技术的上述问题,提供一种用于基因测序的引物设计方法及系统,本发明通过一次性搜索所有可能的引物并评估引物的各项特征后进行综合检测,从而一次性就能挑出所有的最优引物,具有挑出来的引物效果最优、操作方便快捷、引物设计效率高的优点。

为了解决上述技术问题,本发明采用的技术方案为:

一种用于基因测序的引物设计方法,实施步骤包括:

1)针对输入的模板序列按不同位置不同长度进行遍历得到候选引物序列;

2)计算每一个候选引物的各项基本特征值;

3)针对每一个候选引物,分别对各项基本特征值进行量化,并将所有的量化结果进行求和得到该候选引物的引物综合量化特征值;

4)对候选引物序列中的候选引物进行筛选简化;

5)针对筛选简化后的候选引物在符合方向要求的前提下进行两两组合得到组合候选引物,所述在符合方向要求的前提具体是指若被设计引物为面对面引物,则针对两两组合得到组合候选引物挑选方向相反的所有组合候选引物,若被设计引物为同向引物,则针对两两组合得到组合候选引物挑选方向相同的所有组合候选引物;

6)针对每一对组合候选引物,分别计算组合间距特征值以及距离特征值;

7)针对每一对组合候选引物,分别对组合间距特征值、距离特征值进行量化,并将量化结果与对应两个候选引物的引物综合量化特征值进行综合,从而得到组合候选引物综合特征值;

8)判断被设计引物的类型,若被设计引物为针对目标检测点设计,则选择组合候选引物综合特征值最优的一对组合候选引物输出;若被设计引物为针对整个区域设计,则在等距离的前提下选择该区域附近引物综合量化特征值最佳的候选引物输出。

可选地,步骤2)中候选引物的各项基本特征值包括:3′末端是否有a、3′末端poly结构评估值、引物长度、溶解温度、gc含量、3′末端gc含量与5′首端gc含量之差、gc最大差值、特异性。

可选地,所述3′末端poly结构评估值的计算步骤包括:获取候选引物中所有的poly结构,计算各个poly结构的长度及其到候选引物3′末端之间的距离得到单个poly结构特征信息,并综合所有poly结构特征信息得到3′末端poly结构评估值。

可选地,所述特异性的计算步骤如下:将候选引物与参考基因组进行比对,针对每个候选引物3′末端碱基匹配上的比对位置提取比对区域序列,计算该区域与候选引物的溶解温度tm,若溶解温度tm大于预设阈值,则认为该引物会扩增该区域,最终得到各个候选引物能扩增的区域数和相应各个区域的溶解温度tm。

可选地,步骤3)和步骤7)中进行量化的详细步骤包括:预先针对待量化特征值确定最优量化值,并根据已有设计知识与经验确定待量化特征值的取值范围以及取值范围中对应最优量化值的最优取值区间,在进行量化时根据式(1)计算待量化特征值对应的量化结果;

式(1)中,s为待量化特征值对应的量化结果,v为待量化特征值,(min,max)为待量化特征值的取值范围,(minb,maxb)为待量化特征值的取值范围中的最优取值区间,score为最优量化值;且针对特异性进行量化时,如果候选引物能扩增的区域数为1,则判定该候选引物特异性的量化结果为预设的最优量化值;如果候选引物能扩增的区域数大于或等于2,则根据次大溶解温度采用式(1)进行量化得到该候选引物特异性的量化结果。

可选地,步骤4)中对候选引物序列的候选引物进行筛选简化的详细步骤包括:

4.1)将所有的候选引物按照位置排序,用minpos表示候选引物序列的最小位置,maxpos指候选引物的最大位置;

4.2)将变量当前起始位置s和当前结束位置e初始化为候选引物的最小位置minpos;

4.3)将当前起始位置s往更小的方向扩展指定范围后成为新的当前起始位置s、当前结束位置e往更大的方位扩展指定范围后成为新的当前结束位置e;

4.4)判断当前起始位置s和当前结束位置e构成的区间范围内是否有候选引物,如果有候选引物,则跳转执行下一步;否则,跳转执行步骤4.3);

4.5)在当前起始位置s和当前结束位置e构成的区间范围内选择最优的候选引物加入筛选简化后的结果,然后将选择的最优候选引物的位置及其间隔距离之和作为下一个当前起始位置s和当前结束位置e;

4.6)判断当前起始位置s小于候选引物的最大位置maxpos是否成立,如果成立则跳转执行步骤4.3);否则,结束并跳转执行步骤5)。

可选地,步骤6)中计算组合间距特征值以及距离特征值的详细步骤包括:计算组合候选引物中两条候选引物之间的距离,获得组合间距特征值;若被设计引物为针对目标检测点设计,则计算组合候选引物中末端的候选引物和目标检测点的距离作为距离特征值;若被设计引物为针对整个区域设计,则判定距离特征值为0。

本发明还提供一种用于基因测序的引物设计系统,包括计算机设备,计算机设备被编程以执行本发明前述用于基因测序的引物设计方法的步骤;或者所述计算机设备的存储介质中存储有被编程以执行本发明前述用于基因测序的引物设计方法的计算机程序。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有被编程以执行本发明前述用于基因测序的引物设计方法的计算机程序。

本发明还提供一种用于基因测序的引物设计系统,包括:

候选引物生成程序单元,用于针对输入的模板序列按不同位置不同长度进行遍历得到候选引物序列;

基本特征计算程序单元,用于计算每一个候选引物的各项基本特征值;

引物综合特征值计算程序单元,用于针对每一个候选引物,分别对各项基本特征值进行量化,并将所有的量化结果进行求和得到该候选引物的引物综合量化特征值;

筛选简化程序单元,用于对候选引物序列中的候选引物进行筛选简化;

候选引物组合程序单元,用于针对筛选简化后的候选引物在符合方向要求的前提下进行两两组合得到组合候选引物,若被设计引物为面对面引物,则挑选方向相反的所有组合候选引物,若被设计引物为同向引物,则挑选方向相同的所有组合候选引物;

组合间距特征值以及距离特征值计算程序单元,用于针对每一对组合候选引物,分别计算组合间距特征值以及距离特征值;

组合候选引物综合特征值计算程序单元,用于针对每一对组合候选引物,分别对组合间距特征值、距离特征值进行量化,并将量化结果与对应两个候选引物的引物综合量化特征值进行综合,从而得到组合候选引物综合特征值;

候选引物输出程序单元,用于判断被设计引物的类型,若被设计引物为针对目标检测点设计,则选择组合候选引物综合特征值最优的一对组合候选引物输出;若被设计引物为针对整个区域设计,则在等距离的前提下选择该区域附近引物综合量化特征值最佳的候选引物输出。

和现有技术相比,本发明具有下述优点:本发明实施步骤包括计算每一个候选引物的各项基本特征值,获取对各项基本特征值量化求和计算引物综合量化特征值;对候选引物进行筛选简化、两两组合得到组合候选引物并计算组合候选引物综合特征值;若被设计引物为针对目标检测点设计,则选择一组组合候选引物综合特征值最优的组合候选引物输出;否则在等距离的前提下选择该区域附近引物综合特征值最佳的候选引物输出,本发明通过一次性搜索所有可能的引物并评估引物的各项特征后进行综合检测,从而一次性就能挑出所有的最优引物,具有挑出来的引物效果最优、操作方便快捷、引物设计效率高的优点。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例中筛选简化候选引物的流程示意图。

具体实施方式

如图1所示,本实施例用于基因测序的引物设计方法的实施步骤包括:

1)针对输入的模板序列按不同位置不同长度进行遍历得到候选引物序列;

2)计算每一个候选引物的各项基本特征值;

3)针对每一个候选引物,分别对各项基本特征值进行量化,并将所有的量化结果进行求和得到该候选引物的引物综合量化特征值;

4)对候选引物序列中的候选引物进行筛选简化;

5)针对筛选简化后的候选引物在符合方向要求的前提下进行两两组合得到组合候选引物,所述在符合方向要求的前提具体是指若被设计引物为面对面引物,则针对两两组合得到组合候选引物挑选方向相反的所有组合候选引物,若被设计引物为同向引物,则针对两两组合得到组合候选引物挑选方向相同的所有组合候选引物;

6)针对每一对组合候选引物,分别计算组合间距特征值以及距离特征值;

7)针对每一对组合候选引物,分别对组合间距特征值、距离特征值进行量化,并将量化结果与对应两个候选引物的引物综合量化特征值进行综合,从而得到组合候选引物综合特征值;

8)判断被设计引物的类型,若被设计引物为针对目标检测点设计,则选择组合候选引物综合特征值最优的一对组合候选引物输出;若被设计引物为针对整个区域设计,则在等距离的前提下选择该区域附近引物综合量化特征值最佳的候选引物输出。

本实施例中,步骤2)中候选引物的各项基本特征值包括:3′末端是否有a、3′末端poly结构(相同的碱基重复三个以上,例如:aaa、gggggg等)评估值、引物长度、溶解温度、gc含量、3′末端gc含量与5′首端gc含量之差、gc最大差值、特异性。

本实施例中,3′末端poly结构评估值的计算步骤包括:获取候选引物中所有的poly结构,计算各个poly结构的长度及其到候选引物3′末端之间的距离得到单个poly结构特征信息,并综合所有poly结构特征信息得到3′末端poly结构评估值。因为理论上,poly结构越长越接近3末端引物效果越不好,所以本实施例中综合上述信息得到3′末端poly结构评估值。

本实施例中,特异性的计算步骤如下:将候选引物与参考基因组进行比对,针对每个候选引物3′末端碱基匹配上的比对位置提取比对区域序列,计算该区域与候选引物的溶解温度tm,若溶解温度tm大于预设阈值(本实施例中预设阈值为45),则认为该引物会扩增该区域(扩增效率与溶解温度tm值有关,溶解温度tm越高则扩增效率越高),最终得到各个候选引物能扩增的区域数和相应各个区域的溶解温度tm。

本实施例中,步骤3)和步骤7)中进行量化的详细步骤包括:预先针对待量化特征值确定最优量化值,并根据已有设计知识与经验确定待量化特征值的取值范围以及取值范围中对应最优量化值的最优取值区间,在进行量化时根据式(1)计算待量化特征值对应的量化结果;

式(1)中,s为待量化特征值对应的量化结果,v为待量化特征值,(min,max)为待量化特征值的取值范围,(minb,maxb)为待量化特征值的取值范围中的最优取值区间,score为最优量化值;且针对特异性进行量化时,如果候选引物能扩增的区域数为1,则判定该候选引物特异性的量化结果为预设的最优量化值;如果候选引物能扩增的区域数大于或等于2,则根据次大溶解温度采用式(1)进行量化得到该候选引物特异性的量化结果。本实施例中,以(score,minb,maxb,min,max)表示各个各项基本特征值的量化参数取值,各个各项基本特征值的某个量化参数取值实例及其说明如下:

3′末端是否有a:该基本特征值以0表示没有a,以1表示有a。该基本特征值的量化参数取值为(8,0,0,0,1),最优量化值为8,最优取值区间(minb,maxb)取值为(0,0),取值范围(min,max)为(0,1)。根据式(1)可知,如果3′末端没有a,则量化结果为8;如果3′末端有a,则量化结果为0。

3′末端poly结构评估值:该基本特征值的量化参数取值为(15,0,5,0,20),最优量化值为15,最优取值区间(minb,maxb)取值为(0,5),取值范围(min,max)为(0,20)。根据式(1)可知,若poly结构评估值为0~5,则量化结果为15,若为10,则量化结果为15*(1-(10-5)/(20-5))=10,若为20以上,则量化结果为0。

引物长度:该基本特征值的量化参数取值为(7,25,30,20,35),最优量化值为7,最优取值区间(minb,maxb)取值为(25,30),取值范围(min,max)为(20,35)。

溶解温度:该基本特征值的量化参数取值为(22,70,75,65,80),最优量化值为22,最优取值区间(minb,maxb)取值为(70,75),取值范围(min,max)为(65,80)。

gc含量:该基本特征值的量化参数取值为(2,0.5,0.65,0.3,0.8),最优量化值为2,最优取值区间(minb,maxb)取值为(0.5,0.65),取值范围(min,max)为(0.3,0.8)。

3′末端gc含量与5′首端gc含量之差:该基本特征值的量化参数取值为(6,-0.50,-0.25,-1,0.75),最优量化值为6,最优取值区间(minb,maxb)取值为(-0.50,-0.25),取值范围(min,max)为(-1,0.75)。

gc最大差值:该基本特征值的量化参数取值为(12,0,0.5,0,0.75),最优量化值为12,最优取值区间(minb,maxb)取值为(0,0.5),取值范围(min,max)为(0,0.75)。

特异性:该基本特征值的量化参数取值为(28,0,40,0,55),最优量化值为28,最优取值区间(minb,maxb)取值为(0,40),取值范围(min,max)为(0,55)。如果候选引物能扩增的区域数为1,则判定该候选引物特异性的量化结果为预设的最优量化值28;如果候选引物能扩增的区域数大于或等于2,则根据次大溶解温度采用式(1)进行量化得到该候选引物特异性的量化结果,如果次大溶解温度为0-40,则该候选引物特异性的量化结果为28;若次大溶解温度为55以上,则该候选引物特异性的量化结果为0。

本实施例中,步骤3)中对各项基本特征值以及特异性特征值进行量化时,对各项特异性特征值的详细步骤包括:针对各项特异性特征值进行量化具体是指将所有的特异性特征值量化为一项特异性量化结果,如果能扩增的区域数为1,则判定特异性量化结果为预设的最优量化值,否则针对溶解温度tm的历史数据确定其取值范围、最优取值区间,如果溶解温度tm在最优取值区间内则特异性量化结果为预设的最优量化值,否则判定特异性量化结果为0。例如:最优量化值最小值minb、最优量化值最大值maxb、最小值min、最大值max分别是(0,40,0,55),即0-40时最优量化值,40-55时递减到0分。本实施例中,3′末端是否有a的最优量化值为8分,3′末端是否有poly结构的最优量化值为15分,引物长度的最优量化值为7分,溶解温度的最优量化值为22分,gc含量的最优量化值为2分,3′末端gc含量与5′首端gc含量之差的最优量化值为6分,gc最大差值的最优量化值为12分,特异性量化结果的最优量化值为28分,总分为100分。

一般仅仅一条引物扩增的特异性不好,所以大部分情况需要设计两条引物配合扩增,来保证引物的特异性,两条引物可以是面对面pcr扩增,可以是同向类巢式扩增,可以针对目标位点设计,也可以全区域设计。通过前文步骤1)~步骤3)出来的所有候选引物结果,由于引物数多会导致两两组合数过多,所以为了提高运行速度,需要筛选简化引物数量。如图2所示,步骤4)中对候选引物序列的候选引物进行筛选简化的详细步骤包括:

4.1)将所有的候选引物按照位置排序,用minpos表示候选引物序列的最小位置,maxpos指候选引物的最大位置;

4.2)将变量当前起始位置s和当前结束位置e初始化为候选引物的最小位置minpos;

4.3)将当前起始位置s往更小的方向扩展指定范围后成为新的当前起始位置s、当前结束位置e往更大的方位扩展指定范围后成为新的当前结束位置e;

4.4)判断当前起始位置s和当前结束位置e构成的区间范围内是否有候选引物,如果有候选引物,则跳转执行下一步;否则,跳转执行步骤4.3);

4.5)在当前起始位置s和当前结束位置e构成的区间范围内选择最优的候选引物加入筛选简化后的结果,然后将选择的最优候选引物的位置及其间隔距离之和作为下一个当前起始位置s和当前结束位置e;

4.6)判断当前起始位置s小于候选引物的最大位置maxpos是否成立,如果成立则跳转执行步骤4.3);否则,结束并跳转执行步骤5)。

本实施例中,步骤6)中计算组合间距特征值以及距离特征值的详细步骤包括:计算组合候选引物中两条候选引物之间的距离,获得组合间距特征值;若被设计引物为针对目标检测点设计,则计算组合候选引物中末端的候选引物和目标检测点的距离作为距离特征值;若被设计引物为针对整个区域设计,则判定距离特征值为0。

本实施例中,步骤7)中将量化结果与对应两个候选引物的引物综合量化特征值进行综合时,具体是指将组合间距特征值的量化结果、距离特征值的量化结果、组合候选引物中两条候选引物两个候选引物的引物综合量化特征值四者进行求和。

本实施例还提供一种用于基因测序的引物设计系统,包括计算机设备,该计算机设备被编程以执行本实施例前述用于基因测序的引物设计方法的步骤。

本实施例还提供一种用于基因测序的引物设计系统,包括带有存储介质的计算机设备,该存储介质中存储有被编程以执行本实施例前述用于基因测序的引物设计方法的计算机程序。

本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程以执行本实施例前述用于基因测序的引物设计方法的计算机程序。

本实施例还提供一种用于基因测序的引物设计系统,包括:

候选引物生成程序单元,用于针对输入的模板序列按不同位置不同长度进行遍历得到候选引物序列;

基本特征计算程序单元,用于计算每一个候选引物的各项基本特征值;

引物综合特征值计算程序单元,用于针对每一个候选引物,分别对各项基本特征值进行量化,并将所有的量化结果进行求和得到该候选引物的引物综合量化特征值;

筛选简化程序单元,用于对候选引物序列中的候选引物进行筛选简化;

候选引物组合程序单元,用于针对筛选简化后的候选引物在符合方向要求的前提下进行两两组合得到组合候选引物,所述在符合方向要求的前提具体是指若被设计引物为面对面引物,则针对两两组合得到组合候选引物挑选方向相反的所有组合候选引物,若被设计引物为同向引物,则针对两两组合得到组合候选引物挑选方向相同的所有组合候选引物;

组合间距特征值以及距离特征值计算程序单元,用于针对每一对组合候选引物,分别计算组合间距特征值以及距离特征值;

组合候选引物综合特征值计算程序单元,用于针对每一对组合候选引物,分别对组合间距特征值、距离特征值进行量化,并将量化结果与对应两个候选引物的引物综合量化特征值进行综合,从而得到组合候选引物综合特征值;

候选引物输出程序单元,用于判断被设计引物的类型,若被设计引物为针对目标检测点设计,则选择组合候选引物综合特征值最优的一对组合候选引物输出;若被设计引物为针对整个区域设计,则在等距离的前提下选择该区域附近引物综合量化特征值最佳的候选引物输出。

以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1