一种作物不同分离群体间QTL比较的方法及系统与流程

文档序号:16848186发布日期:2019-02-12 22:30阅读:333来源:国知局
一种作物不同分离群体间QTL比较的方法及系统与流程

本发明属于生物信息学领域,具体涉及一种不同分离群体间qtl比较的方法及系统。



背景技术:

在油菜遗传和育种研究中,大多数农艺性状是数量性状位点(qtl),受很多的基因控制,且容易受到环境的影响。基于高密度遗传连锁作图的qtl定位的方法是解析数量性状控制位点(基因)以便进行基因图位克隆和分子辅助选择育种(mas)最经典可靠的手段。在过去的二十多年间,研究者利用各种分子标记(主要是以pcr为基础的aflp、ssr和sts等和近年来的单核苷酸多态性即snp标记)进行遗传连锁图的构建和qtl的定位分析。油菜6k和60ksnp芯片被广泛使用前,不同的研究者利用不同的群体进行qtl定位分析时,一般会在网上数据库搜索或者利用已发表的一些标记验证其在自己构建的群体的多态性,同时自己也会开发一部分来构建遗传连锁图,这就造成了不同群体间标记的不统一。另外近年来广泛使用的snp标记与传统的pcr基础标记的本质差异,使得早些年检测到qtl与现在的研究比较起来更加困难。

一般来说,实现qtl目的基因的克隆,需要稳定可靠的qtl为保障。新颖qtl的发现将为品种改良提供新的基因资源,具有更大的研究价值。鉴别qtl稳定性和新颖性就是研究者进行不同群体间比较的必要性。另外,将qtl通过其紧密连锁的标记线性化到基因组上,可以使得比较更加准确,同时也为候选基因的鉴定提供候选区间。

不同群体间qtl比较的现有技术方案,主要是通过从文献中获得qtl紧密连锁的标记名称及其附带的标记序列数据,同时借助油菜分子标记数据库(如油菜数据中心:http://www.rapedata.com/rapedata/marker/index.htm),利用标记名字或者序列的同一性,借助biomecater软件进行比较。

对于基于snp的图谱检测的qtl与先前的以pcr为基础标记检测的,通常都是具有一定生物信息学基础的研究人员开展,利用搜集整理引物和snp探针序列,excel整理,再使用ncbi提供的本地blast功能和基于linux平台下的e-pcr软件,将qtl线性化到基因组上去比较。

现有技术在基于pcr类型标记和snp标记的研究之间的比较上具有很多困难。

(1)首先,在早期主要基于pcr基础标记的研究中,不同群体间qtl的比较依赖于标记名字和标记的引物序列,根据是否有相同的紧密连锁的标记来确定是不是同一个qtl。由于各个研究中遗传标记命名的不严格统一,需要通过引物序列进一步确认,然后借助软件进行图谱间映射,借助紧密连锁的标记从而比较qtl。

(2)在查找pcr基础引物序列时,比较繁琐,因为没有一个比较全面和完善的在线标记序列数据库可用,往往需要到多个数据库中去搜索,但也不一定可以找到。这使得pcr类型的标记引物序列获取困难、耗时且繁琐。

(3)在油菜60ksnp芯片被广泛使用之后,因为snp标记是单核苷酸多态性标记,利用基于snp的图谱检测的qtl与先前的以pcr为基础的标记的研究没法进行映射比较。通常我们采用将qtl紧密连锁的pcr基础的标记利用e-pcr,snp标记利用blastn线性化到基因组上之后,利用它们的定位进行比较。这种比较方法虽然解决了不同早期pcr基础标记和现在snp标记研究间qtl比较的问题,但是依然面临pcr基础类型标记的序列查找问题,且对于大多数没有生物信息学基础的研究者来说,e-pcr和blastn直接阻碍了分析的进行。对于有一定生信基础的研究者来说,引物序列查找,snp探针序列调取,数据的整理,以及频繁的系统切换、软件切换和标记正确基因组位置鉴别,这些繁琐的程序使得比较效率低且很容易出错。



技术实现要素:

本发明解决了现有技术不同分离群体间qtl比较过程中,pcr类型的标记引物序列的获取困难、耗时且繁琐;遗传标记命名的不严格统一,导致需要通过引物序列进一步确认;而且需要手工完成许多重复、易混淆、需要频繁切换操作系统的技术问题,提供了一种作物不同分离群体间qtl比较的方法和系统。

根据本发明的第一方面,提供了一种作物不同分离群体间qtl比较的方法,含有以下步骤:

(1)构建遗传标记数据库:所述数据库含有作物不同分离群体基于dna杂交的分子标记名称和序列信息,还含有作物不同分离群体基于pcr分子标记的引物名称和序列信息,还含有所述作物不同分离群体snp分子标记的名称和其探针序列信息;

(2)构建查询目标:所述查询目标包含作物不同分离群体qtl名称及与该qtl连锁的分子标记名称,所述目标性状qtl含有至少一个连锁的分子标记,所述目标性状qtl名称和与此qtl连锁的分子标记名称的组合作为一个查询目标;

(3)匹配分子标记序列:将步骤(2)所述的查询目标与步骤(1)所述的遗传标记数据库进行匹配,调取步骤(2)所述查询目标对应的分子标记序列;

(4)基因组定位:若步骤(3)所述的分子标记序列是基于dna杂交的分子标记序列或snp分子标记序列,那么将步骤(3)所述的分子标记序列在所述作物的基因组序列数据库中进行blast比对,得到的比对热点作为该标记潜在的基因组定位;若步骤(3)所述的分子标记序列是基于pcr分子标记序列,那么将步骤(3)所述的分子标记序列的正向引物和反向引物序列分别在所述作物的基因组序列数据库中进行blast比对,若这两段引物序列的匹配热点位于同一条染色体上300bp-500bp范围内,且正向引物和反向引物的匹配热点分别为dna序列的正链和反链,那么将该两段引物序列的匹配位点作为该标记潜在的基因组定位;

(5)剔除假阳性结果:判断步骤(4)所述的潜在基因组定位与对应的qtl所在染色体是否为同一条染色体;若步骤(4)所述的潜在基因组定位与对应的qtl所在染色体不是同一条染色体,则所述潜在基因组定位为假阳性,剔除该假阳性结果;然后使用箱式图法进行二次筛选,筛去与qtl连锁的各个分子标记中偏离聚集区的基因组定位;

(6)确定目标性状qtl对应的基因组区域:将步骤(5)得到的基因组定位中聚集在同一条染色体上聚集区域内的反应位点所对应的区间,确定为该目标性状qtl对应的基因组区域;根据各个不同分离群体的qtl是否对应同一个的基因组区域,判断是否为同一qtl。

优选地,步骤(1)所述基于dna杂交的分子标记为甘蓝型油菜基于dna杂交的分子标记;步骤(1)所述的snp分子标记为甘蓝型油菜6k或60ksnp芯片分型的标记;步骤(1)所述的基于pcr分子标记为甘蓝型油菜基于pcr的分子标记。

优选地,步骤(2)中所述查询目标还包括与所述qtl连锁的分子标记所在染色体的信息。

优选地,步骤(1)中所述遗传标记数据库还包括pcr分子标记引物序列、snp分子标记探针序列或基于dna杂交的分子标记序列所在染色体的位置信息。

按照本发明的另一方面,提供了一种作物不同分离群体间qtl比较系统,包括:

遗传标记数据库模块:所述遗传标记数据库模块用于收集遗传标记数据;所述数据库含有作物不同分离群体基于dna杂交的分子标记名称和序列信息,还含有作物不同分离群体基于pcr分子标记的引物名称和序列信息,还含有所述作物不同分离群体snp分子标记的名称和其探针序列信息;

查询目标模块:所述查询目标模块用于收集不同分离群体间待比较的目标性状qtl连锁的分子标记;所述查询目标包含不同分离群体目标性状qtl名称及与该qtl连锁的分子标记名称,所述目标性状qtl含有至少一个连锁的分子标记,所述目标性状qtl名称和与此qtl连锁的分子标记名称的组合作为一个查询目标;

匹配分子标记序列模块:用于将查询目标与遗传标记数据库进行匹配;将所述的查询目标与所述的遗传标记数据库进行匹配,调取遗传标记数据库中所述查询目标对应的分子标记序列;

基因组定位模块:用于鉴定潜在的基因组定位;若所述的分子标记序列是基于dna杂交的分子标记序列或snp分子标记序列,那么将所述的分子标记序列在所述作物的基因组序列数据库中进行blast比对,得到的比对热点作为该标记潜在的基因组定位;若所述的分子标记序列是基于pcr分子标记序列,那么将所述的分子标记序列的正向引物和反向引物序列分别在所述作物的基因组序列数据库中进行blast比对,若这两段引物序列的匹配热点位于同一条染色体上300bp-500bp范围内,且正向引物和反向引物的匹配热点分别为dna序列的正链和反链,那么将该两段引物序列的匹配位点作为该标记潜在的基因组定位;

剔除假阳性结果模块:用于剔除偏离qtl预测区域的匹配热点;判断所述的潜在基因组定位与对应的qtl所在染色体是否为同一条染色体;若所述的潜在基因组定位与对应的qtl所在染色体不是同一条染色体,则所述潜在基因组定位为假阳性,剔除该假阳性结果;再使用箱式图法进行二次筛选,筛去与qtl连锁的各个分子标记中偏离聚集区的基因组定位;

确定目标性状qtl对应的基因组区域模块:用于确定qtl在基因组上的位置区间;将基因组定位中聚集在同一条染色体上聚集区域内的反应位点所对应的区间,确定为该目标性状qtl对应的基因组区域;根据各个不同分离群体的qtl是否对应同一个的基因组区域,判断是否为同一qtl。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:

(1)同一个遗传标记在不同的文献中可能具有不同的命名,这些不同的命名之间会存在一定程度上的差异。本发明通过在确认其遗传标记序列相同的前提下,自动剔除遗传标记名中的部分常见、不影响遗传标记识别的特征(如短横线、下划线、大小写差异、倒数第二位为数字时最后一位的字母等),实现来自不同文献中遗传标记数据的整合,并建成遗传标记库。在从查询目标向遗传标记进行引用映射的时候,由于查询目标本身不会带有序列信息,因此可能会查询到多个近似匹配但序列一致的遗传标记结果。本发明所述方法会保留所有此类模糊匹配的遗传标记映射结果,以保留人工回溯检查正确性的资料。

(2)本发明构建了一个易于扩展的分子标记本地数据库。本发明将基于dna杂交的分子标记及序列、基于pcr的分子标记及引物序列和甘蓝型油菜60ksnp芯片的探针序列整合到一个数据库里,所以查找qtl紧密连锁的标记序列信息时就不用再去文献里找或者去各个在线数据库里搜索,只需直接输入通用标记名字,软件自行去本地数据库中提取。为了将标记map到基因组上,需要从文献中获得qtl紧密连锁的标记序列信息。现有技术中,各文献提供的数据格式不统一,数据分散,需要人工在多个数据库中分别执行一次查询。本发明提供了一个格式统一的、可复用的、可扩展的遗传标记序列数据库,按照特定的输入格式对各文献提供的数据进行一次整理即可将新数据添加入该数据库,在此之后,只需直接输入标记名字即可,对本数据库执行一次查询即可,不再需要每次都从不同格式的数据中分别执行查询。

(3)本发明可以一步完成基因组位置信息获取。获取标记的基因组位置信息,现有技术中,对于基于pcr类型的标记利用e-pcr方法,而snp标记利用blastn方法来实现,该过程中,linux下的e-pcr和blastn需要单独运行,并可能需要系统间的切换,十分繁琐。本方法根据遗传标记数据库和用户想要查询的目标,用自动的方法调用blastn,blastn的结果可以用于组合为潜在的pcr反应位点。本发明的目标是鉴定qtl在基因组的定位,在多个紧密连锁标记的组合筛选下,可以较为便利地去除假阳性反应位点。本发明将标记名字或者容错名字txt文件准备好后,软件自行去库中提取序列,在windows系统下blastn分析,然后获得标记对应的基因组位置。

(4)本发明同时实现标记在基因组中位置的自动筛查。甘蓝型油菜是一个异源四倍体物种,基因组中存在大量的重复序列。所以标记经e-pcr和blastn通常会被map到多个位置。为了确定该标记的真实位置,通常只是通过人为分辨。本发明可以利用qtl紧密连锁的标记之间所存在的连锁关系,进行标记真实位置的筛选确认。

(5)本发明的系统运行环境为windows,使用语言为c++,只提供两个有限定格式的数据输入接口(遗传标记库、查询目标)和一个数据输出接口(qtl预测信息),其内部原本需要人工进行处理的大部分工作均以自动化的方式完成,在提前进行了去重、规范化,以及常见的、明显错误的数据筛选(如错误字符)后,可能发生数据异常的处理过程大大减少。且由于c++完全编译后才运行、强类型限定的特点,其模块间传递数据的结构错误可能性大大减小。所有的数据处理均在windows环境下进行,不需要用户操作linux系统中的工具。现有技术需要在多个系统之间频繁切换,系统之间的数据交流依赖人工转化格式和人工搬运,既降低效率又易发生错误。本发明系统内部的各模块交流和外部的程序调用,都有数据完整性筛查,格式转化稳定,可以减少甚至避免人工失误。

(6)本方法不仅可以进行甘蓝型油菜qtl研究间的比较,也适用于其他作物的qtl比较研究,只是需要将本地引物数据库和基因组数据库调整成相应物种的即可。

附图说明

图1是甘蓝型油菜不同分离群体间含油量qtl比较的流程图。

图2为利用该发明鉴定的甘蓝型油菜不同分离群体含油量qtl在基因组的定位。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1为本发明中甘蓝型油菜不同分离群体间含油量qtl比较的流程图。本发明不同分离群体间含油量qtl比较的方法,包含以下步骤:

(1)构建遗传标记数据库

收集已报道的甘蓝型油菜中基于dna杂交(如rflp)和pcr的分子标记引物(如rapd、srap、aflp、ssr和indel等)和甘蓝型油菜6k和60ksnp芯片探针序列信息,构建甘蓝型油菜分子标记库。其中分子标记名称与序列信息的组合作为唯一标志符和不可重复的主键。基于pcr的分子标记,其序列信息由正反向引物序列构成;基于dna杂交的标记(包括snp标记)由一段探针序列构成。

(2)构建待查询目标数据

收集已发表的利用甘蓝型油菜不同分离群体进行的含油量qtl定位的结果,构建待查询目标数据。所述待查询目标数据含有待查询分子标记的名称和该分子标记所属的不同群体检测到的含油量qtl名称,每一个分子标记的名称与该分子标记所属的qtl名称的组合作为一个查询目标;分子标记名称与不同群体含油量qtl标记名称的组合作为唯一标志符和不可重复的主键。

(3)将遗传标记与查询目标相匹配

不同研究者在进行甘蓝型油菜qtl研究时,基于dna杂交和pcr的标记有时会检测出两个或更多多态性信息,通常研究者会对分子标记进行适当的修饰,以区分该标记的不同多态性。例如,nia001具有两个多态性时,分别命名为nia001a和nia001b。因此同一标记因不同多态性其命名有所不同,但序列信息却时一致的。所以在进行遗传标记名称匹配时需要采用模糊匹配。每个查询目标可能会与多个遗传标记相匹配,每个遗传标记也可能会与多个查询目标相匹配,由查询目标记录其所引用的遗传标记。

(4)利用ncbi的本地blast程序对查询目标所引用的序列进行blast比对

查询目标会引用大量重复或非重复的dna序列,这些序列会经过去重与编号后,以明文的方式输出为fasta文件。使用的外部工具为来自ncbi的本地blast,使用的基因组数据库为“darmor-dzh”参考基因组(下载自:http://www.genoscope.cns.fr/blat-server/cgi-bin/colza/webblat)。筛选结束后,blast程序的输出结果采用其自带的format6,文本格式明文编码。该格式可以被本程序识别,并被受到查询目标引用的dna序列引用。

(5)将blast结果直接或间接地转化为其在基因组的定位

甘蓝型油菜基于dna杂交、6k和60ksnp芯片探针序列为单序列,其blast在基因组上匹配的位点所在位置即为其潜在的基因组定位。甘蓝型油菜基于pcr标记的引物序列为正反向2条序列,其blast在基因组上匹配的位点必须延伸方向相反且距离足够近才可成为潜在的匹配位点,其最近距离需要研究者根据不同类型标记的pcr产物长度为参考,进行程序参数设定。

(6)筛选假阳性结果

在上一步骤中,潜在匹配位点存在部分假阳性结果。根据qtl所在染色体信息(大多数分离群体的qtl研究会提供qtl所在的染色体信息)进行初步筛查,去除假阳性结果。使用箱式图的方式进行二次筛选,筛去qtl连锁的各个分子标记无规律不集中的基因组定位。

(7)判断qtl基因组位置

通过假阳性筛选后的结果会显示,qtl连锁的标记的基因组定位会限定一个小范围,用于二次筛选的箱式图提供了一个四等分位点的范围,将其作为qtl对应的染色体区间。

(8)将来自各个群体检测到的含油量qtl进行上诉实施步骤后,即获得了目前报道的含油量所有qtl的基因组定位,然后将其与我们kn群体检测的含油量qtl的基因组定位进行比较,鉴定稳定和新颖的qtl,如图2所示,图2为利用该发明鉴定的甘蓝型油菜不同分离群体含油量qtl在基因组的定位(以a09染色体为例),图2中左边竖杠为a09染色体,右边暗色竖条为qtl,其水平位置对应左边染色体位置为其基因组定位。qtl旁是染色体名字,其后缀为检测到该qtl对应的分离群体,如qoc-a9-1-tn为分离群体tn检测到的a9上的一个qtl。为将来的分子辅助选择(mas)育种和图位克隆提供参考。

步骤(1)中所述的数据库,用户提供的遗传标记名称和序列信息只是最小的数据需求,可以扩展添加诸如用户自定义标签、预设qtl名、预设染色体位置等额外的辅助信息。

步骤(2)中所述的数据,用户提供的查询目标名称和qtl名称只是最小的数据需求,可以扩展添加诸如用户自定义标签、预设染色体位置等额外的辅助信息。

步骤(3)中所述的模糊匹配方法,因为遗传标记普遍的命名规则具有一定的差异而又有相同的共性,所以在模糊匹配的方法中,所忽略的命名特征为:下划线与短横线分隔符、字母大小写、在倒数第二位为数字的情况下的末位字母。模糊匹配方案通过将以上受忽略的命名特征剔除的方法,构造一个仅含小写字母与数字的替代名,对该替代名进行精确匹配,以实现对遗传标记命名的模糊匹配。

步骤(4)中所述的外部软件为来自于ncbi的、公开使用、开源的本地blast程序。所使用的模块为其blast程序套装中的blastn.exe。

步骤(4)所述,使用的blast程序输出格式为其自带的formatno.6,便于后续处理。其他的格式亦可使用。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1