基于rad图谱完善ssr图谱的方法

文档序号:6623178阅读:611来源:国知局
基于rad图谱完善ssr图谱的方法
【专利摘要】本发明涉及一种基于RAD图谱完善SSR图谱的方法,获得样品的SSR图谱和RAD图谱,判断各scaffold所对应的真实连锁群和冲突连锁群,建立SSR连锁群和RAD连锁群的一一对应关系;根据无冲突的scaffold的标记的遗传距离和标记在scaffold上的物理位置,通过计算确定各scaffold在连锁群内的排列顺序和方向,已建立一一对应关系的SSR连锁群和RAD连锁群,以SSR图谱中的SSR连锁群内的scaffold为骨架,将RAD连锁群内除共有scaffold外的其他scaffold补充到SSR图谱的SSR连锁群中,组装成整合图谱,从而得到染色体组装序列。本发明的基于RAD图谱完善SSR图谱的方法将SSR图谱信息和RAD图谱信息整合在一起,相互纠正,相互补充,可以有效地提高图谱精度和图谱长度的。
【专利说明】基于RAD图谱完善SSR图谱的方法

【技术领域】
[0001] 本发明涉及一种测序结果的处理方法,尤其是基于RAD图谱完善SSR图谱连接并 辅助组装的方法,属于生物信息学领域。

【背景技术】
[0002] 简单序列重复SSR (Simple Sequence Repeats)标记是近年来发展起来的一种以 特异引物PCR为基础的分子标记技术,也称为微卫星DNA(Microsatellite DNA),是一类由 几个核苷酸(一般为1?6个)为重复单位组成的长达几十个核苷酸的串联重复序列。每个 SSR两侧的序列一般是相对保守的单拷贝序列。目前,该技术广泛应用于遗传连锁图谱构 建、种质鉴定、遗传多样性及基因定位与克隆等研究。具有以下优点:(1)数量丰富;(2)具 有多等位基因的特性,提供的信息量高;(3)以孟德尔方式遗传,呈共显性;(4)每个位点由 设计的引物顺序决定,便于不同的实验室相互交流合作开发引物。但是,SSR标记仍然存在 以下不足之处:(1) SSR标记的开发局限于已知基因组信息的物种;(2)序列去冗余拼接软 件和SSR搜索及引物设计软件存在一定的局限性,从而影响SSR标记的准确性;(3) SSR标 记多态性较低;(4) SSR标记密度一般比较低。
[0003] SSR测序方法是现有公知的测序方法,可参见外文文献《High-throughput targeted SSR marker development in peach (Prunus persica)〉〉出版于〈〈Genome〉〉杂志 2002年第45卷第2期319?328页,作者为Ying Wang、Laura L Georgi等;外文文献《SSR marker based DNA fingerprinting and diversity study in rice (Oryza sativa. L))) 出版于《African Journal of Biotechnology》2006年第5卷第9期684?688页,作者为 B. Kalyan Chakravarthi 和 Rambabu Naravaneni。中国专利文献 CN102936627 (申请号: 201210465639. 8)公开了一种香菇香九菌种的SSR标记指纹图谱与应用,该指纹图谱由7对 基于香菇基因组序列开发的SSR标记的特异等位片段组合而成。
[0004] RAD (Restriction-site Associated DNA)是与限制性核酸内切酶识别位点相关 的DNA。基于酶切的简化基因组测序(RAD-Seq)对酶切获得的RAD tag进行高通量测序, 大幅降低基因组的复杂度,操作简便,同时不受参考基因组的限制,可快速鉴定出高密度的 SNP位点。基于高密度的SNP位点通过图谱构建方法得到高密度遗传图谱。RAD-seq技术具 有操作简便,周期短,实验成本低,不受参考基因组的限制,一次实验即获得的大量SNP信 息,可以用于任何物种的高密度图谱的构建、基因(QTLs)定位及群体遗传分析等优点。但 是,RAD图谱准确度相对SSR图谱有些差距。
[0005] RAD测序方法是现有公知的测序方法,可参见外文文献《Rapid and cost-effective polymorphism identificationand genotyping using restriction site associated DNA (RAD) markers》出版于《Genome Research》杂志 2007 年第 17 卷 240 ?248 页,作者为 Michael R. Miller、Joseph P.Dunham、Angel Amores 等;外文文献《RAD marker microarrays enable rapid mapping of zebrafish mutations〉〉出版于〈〈Genome Biology)) 杂志 2007 年第 8 卷第 6 期,作者为 Michael R Miller、Tressa S Atwood、B Frank Eames 等。


【发明内容】

[0006] 本发明解决的技术问题是,提出一种将SSR图谱信息和RAD图谱信息整合在一起, 相互纠正,相互补充,可以有效地提高图谱精度和图谱长度的基于RAD图谱完善SSR图谱的 方法。
[0007] 为了解决上述技术问题,本发明提出的技术方案是:一种基于RAD图谱完善SSR图 谱的方法,包括以下具体步骤: A. 采用现有的SSR测序方法和RAD测序方法分别对样品进行测序获得样品的SSR图 谱和RAD图谱; B. 在SSR图谱和RAD图谱中,分别确定标记在各scaffold上的物理位置,统计 scaffold在连锁群上的分布,确定scaffold与连锁群的对应关系; C. 在SSR图谱和RAD图谱中,判断各scaffold所对应的真实连锁群和冲突连锁群;当 真实SSR连锁群和真实RAD连锁群有共有的scaffold时,建立真实SSR连锁群和真实RAD 连锁群的--对应关系;当scaffold有冲突连锁群时,去除冲突连锁群中所述scaffold的 标记,得到无冲突的scaffold的标记; D. 在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离,确定各 scaffold在连锁群内的排列顺序; E. 在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离和标记 在scaffold上的物理位置,确定各scaffold在连锁群内的方向; F. 已建立一一对应关系的SSR连锁群和RAD连锁群,根据SSR图谱和RAD图谱中各 scaffold在连锁群内的排列顺序和方向,以SSR图谱中的SSR连锁群内的scaffold为骨 架,将RAD连锁群内除共有scaffold外的其他scaffold补充到SSR图谱的SSR连锁群中, 组装成整合图谱; G. 将整合图谱中的scaffold连接起来,得到染色体组装序列。
[0008] 上述技术方案的一种优选是:上述步骤E中,判断所述scaffold在连锁群内的方 向的具体步骤是: 分别计算出无冲突的scaffold的标记的遗传距离,将各标记的遗传距离从小到大排 列得到标记在连锁群内的遗传距离序号,再根据所述标记在连锁群内的遗传距离序号和在 所述scaffold上的物理位置计算出相关系数; 所述相关系数的计算公式是:

【权利要求】
1. 一种基于RAD图谱完善SSR图谱的方法,其特征在于,包括以下具体步骤: A. 采用现有的SSR测序方法和RAD测序方法分别对样品进行测序获得样品的SSR图 谱和RAD图谱; B. 在SSR图谱和RAD图谱中,分别确定标记在各scaffold上的物理位置,统计 scaffold在连锁群上的分布,确定scaffold与连锁群的对应关系; C. 在SSR图谱和RAD图谱中,判断各scaffold所对应的真实连锁群和冲突连锁群;当 真实SSR连锁群和真实RAD连锁群有共有的scaffold时,建立SSR连锁群和RAD连锁群的 --对应关系;当scaffold有冲突连锁群时,去除冲突连锁群中所述scaffold的标记,得 到无冲突的scaffold的标记; D. 在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离,确定各 scaffold在连锁群内的排列顺序; E. 在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离和标记 在scaffold上的物理位置,确定各scaffold在连锁群内的方向; F. 已建立一一对应关系的SSR连锁群和RAD连锁群,根据SSR图谱和RAD图谱中各 scaffold在连锁群内的排列顺序和方向,以SSR图谱中的SSR连锁群内的scaffold为骨 架,将RAD连锁群内除共有scaffold外的其他scaffold补充到SSR图谱的SSR连锁群中, 组装成整合图谱; G. 将整合图谱中的scaffold连接起来,得到染色体组装序列。
2. 根据权利要求1所述的基于RAD图谱完善SSR图谱的方法,其特征在于,所述步骤E 中,判断所述scaffold在连锁群内的方向的具体步骤是: 分别计算出无冲突的scaffold的标记的遗传距离,将各标记的遗传距离从小到大排 列得到标记在连锁群内的遗传距离序号,再根据所述标记在连锁群内的遗传距离序号和在 所述scaffold上的物理位置计算出相关系数; 所述相关系数的计算公式是:
其中,Xi是所述scaffold上的第i个标记的遗传距离序号,yi是所述scaffold上的第 i个标记在scaffold上的物理位置,η是所述scaffold上的标记数,rx,y是所述scaffold 的相关系数; 当相关系数为正数时,所述scaffold的方向是正向的;当相关系数为负数时,所述 scaffold的方向是反向的;当无法计算出相关系数时,所述scaffold的方向默认是正向 的。
3. 根据权利要求2所述的基于RAD图谱完善SSR图谱的方法,其特征在于:所述步骤 E中,当共有scaffold在SSR图谱和RAD图谱中都能计算出相关系数时,所述scaffold的 方向是scaffold在SSR图谱中的方向;当共有scaffold在SSR图谱和RAD图谱中都不能 计算出相关系数时,所述scaffold的方向默认是正向的;当共有scaffold在SSR图谱中能 计算出相关系数,在RAD图谱中不能计算出相关系数时,所述scaffold的方向是scaffold 在SSR图谱中的方向;当共有scaffold在SSR图谱中不能计算出相关系数,在RAD图谱中 能计算出相关系数时,所述scaffold的方向是scaffold在RAD图谱中的方向。
4. 根据权利要求1所述的基于RAD图谱完善SSR图谱的方法,其特征在于,所述步骤C 中,判断所述scaffold所对应的真实连锁群和冲突连锁群的具体步骤是: 当所述scaffold对应一个SSR连锁群或RAD连锁群时,确定该连锁群为所述scaffold 所对应的真实SSR连锁群或真实RAD连锁群; 当所述scaffold对应一个以上的SSR连锁群或RAD连锁群,且其中一个连锁群的标记 数比其他连锁群的标记数多时,确定标记数多的连锁群是所述scaffold所对应的真实SSR 连锁群或真实RAD连锁群,其他连锁群是所述scaffold的冲突SSR连锁群或冲突RAD连锁 群; 当已确定的真实SSR连锁群和真实RAD连锁群有共有的scaffold时,建立真实SSR连 锁群和真实RAD连锁群的 对应关系; 当所述scaffold对应一个以上的SSR连锁群或RAD连锁群,且这些连锁群的标记数相 同时,如果SSR图谱中的scaffold在RAD图谱中有所对应的真实RAD连锁群,则确定与该 真实RAD连锁群对应的SSR连锁群是所述scaffold所对应的真实SSR连锁群,其他连锁群 是所述scaffold的冲突SSR连锁群;如果RAD图谱中的scaffold在SSR图谱中有所对应 的真实SSR连锁群,则确定与该真实SSR连锁群对应的RAD连锁群是所述scaffold所对应 的真实RAD连锁群,其他连锁群是所述scaffold的冲突RAD连锁群;否则将所述scaffold 在图谱中的信息去除。
5. 根据权利要求1所述的基于RAD图谱完善SSR图谱的方法,其特征在于,所述步骤D 中,判断所述scaffold在连锁群内的排列顺序的具体步骤是: 分别计算出无冲突的scaffold的标记的遗传距离,将各标记的遗传距离从小到大排 列得到标记在连锁群内的遗传距离序号,再根据所述标记在连锁群内的遗传距离序号,计 算出所述scaffold在连锁群内的平均位置参数,将各scaffold的平均位置参数从小到大 排列确定各scaffold在连锁群内的排列顺序; 所述平均位置参数的计算公式是:
其中,Xi是所述scaffold上的第i个标记的遗传距离序号,η是所述scaffold上的标 记数,?是scaffold在连锁群内的平均位置参数。
6. 根据权利要求1至5之一所述的基于RAD图谱完善SSR图谱的方法,其特征在于: 所述步骤F中,当SSR图谱中的scaffold在RAD图谱上找不到时,根据所述scaffold与 共有scaffold之间的遗传距离和所补充的RAD图谱中的scaffold的长度,判断其与共有 scaffold之间的距离,从而确定所述scaffold在整合图谱中的位置。
7.根据权利要求1至5之一所述的基于RAD图谱完善SSR图谱的方法,其特征在于: 所述步骤G中,scaffold之间连接一定数量的η, η表示未知序列。
【文档编号】G06F19/18GK104156633SQ201410393446
【公开日】2014年11月19日 申请日期:2014年8月12日 优先权日:2014年8月12日
【发明者】曾亮, 陶晔, 陈华, 林芹 申请人:上海美吉生物医药科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1