基于高通量分型的高密度遗传图谱的构建和评价的制作方法

文档序号：6513517阅读：1227来源：国知局

基于高通量分型的高密度遗传图谱的构建和评价的制作方法
【专利摘要】本发明提出一种基于高通量分型的高密度遗传图谱HighMap构建方法，包括步骤：1）通过高通量测序方法对遗传分离群体标记开发和分型；2）对两两标记进行遗传连锁检验，划分连锁群；3）利用SGS算法线性排序并计算遗传距离，利用KNN算法对样品分型数据中的分型错误和分型缺失进行纠错和补缺失；4）对所构建图谱进行准确性评估，运用可视化方法直观展现图谱质量。本发明提出的HighMap构建方法通过分型纠所错有效消除高通量测序分型带来的分型错误和分型缺失，显著提高了所构建图谱的准确性；采用SGS排序算法，排序速度快，可完成单个连锁群超过1,000标记的高密度图谱构建，作图效率显著提升；对原始分型数据的要求进一步降低，对分型错误的容忍度大大提升。
【专利说明】基于高通量分型的高密度遗传图谱的构建和评价
【技术领域】
[0001]本发明属于生物化学领域，具体涉及一种遗传工程数据图谱的构建方法，以及对图谱的评价方法。
【背景技术】
[0002]随着具有高通量、低成本、测序错误率低、测序读长短特点的新一代测序技术和生物信息学的发展，高通量标记开发逐渐成为性价比最高的分子标记开发方式。SLAF-seq、RAD-seq及GBS等简化基因组技术可在全基因组范围内进行分子标记开发和大规模分型，这些技术在不同物种的应用产生了海量标记分型数据，使得构建高密度遗传图谱成为可能，同时也对图谱构建所需的方法和软件提出了新的要求，而传统构图软件和方法在处理与测序深度相关的分型错误和分型缺失上表现乏力。
[0003]HighMap (高密度遗传图谱构建方法)是一种构建高密度遗传图谱的有效方法，利用高通量测序产生的群体大规模分型数据，基于生物信息学和统计方法进行海量分子标记的高效准确定位，根据生物学重组规律对测序分型错误和缺失进行高效纠错，以保证所构建遗传图谱的密度，质量和准确性。对于具有分型错误和缺失的高通量测序分型数据，HighMap通过抽样技术和数学算法解决传统方法作图效率低和准确性不高的问题，提高生物学分析的准确性，通过对群体高通量测序数据的高效利用，进一步降低成本，提高效率。对于高杂合群体，目前尚未见利用HighMap构建高密度遗传连锁图谱的报道。

【发明内容】

[0004]针对现有技术存在的不足，本发明提供一种基于高通量分型的高密度遗传图谱构建方法一HighMap，该技术首先采用SGS抽样技术对分子标记进行准确定位和快速排序，在此基础上利用KNN算法对高通量测序产生的具有分型噪音的数据进行纠错处理，进一步通过多轮次标记排序和分型纠错，进行不同物种不同遗传分离群体的高密度遗传图谱的高准确性、高通量构建。本发明所述方法可为遗传学领域研究提供高质量的遗传图谱，特别适用于高杂合分离群体的遗传图谱构建。
[0005]本发明的另一目的是提出一种遗传图谱的评价方法。
[0006]实现本发明上述目的技术方案为:
[0007]—种基于高通量分型的高密度遗传图谱构建方法，包括步骤:
[0008]I)通过高通量测序方法对遗传分离群体进行全基因组标记开发和分型，获得遗传分离群体的基因分型数据；
[0009]2)对两两标记进行遗传连锁检验，将分子标记划分为不同的连锁群，与目标物种的染色体建立对应关系；
[0010]3)利用SGS算法获得每个连锁群内标记的线性排序并计算相邻位点之间的遗传距离，基于SGS算法得到的标记顺序，利用KNN算法进行纠错和补缺失处理，终获得遗传图谱；[0011]4)从标记排序和遗传图距估计的准确性两个角度，对所构建的遗传图谱进行全面评估，通过可视化方法直观展示最终所得遗传图谱的质量；
[0012]其中，所述遗传分离群体为性状分离群体，选自Fl、F2、BCl、DH中的一种或多种目标性状分离的群体。
[0013]其中，所述步骤2)中，包括步骤a、构架二维棋盘表；b、统计分型频数；c、计算独立性检验统计量，进行连锁群划分，具体为:
[0014]a、根据每一标记位点可能的分型构建二维棋盘表，所述二维棋盘表为2X2、2X3、2X4、3X3、3X4或4X4的棋盘表；
[0015]b、统计每一个棋盘表中每种分型频数，其中R，C，T和O分别为行频数，列频数，总频数及每一棋盘表中每种分型的频数，并根据行频数，列频数，总频数计算每种分型出现的理论频数E:
[0016]E=R*C/T(I)
[0017]C、基于观测和理论频数，计算独立性检验统计量G:
[0018]
【权利要求】
1.一种基于高通量分型的高密度遗传图谱构建方法，包括步骤: 1)通过高通量测序方法对遗传分离群体进行全基因组标记开发和分型，获得遗传分离群体的基因分型数据； 2)对两两标记进行遗传连锁检验，将分子标记划分为不同的连锁群，与目标物种的染色体建立对应关系； 3)利用SGS算法获得每个连锁群内标记的线性排序并计算相邻位点之间的遗传距离，基于SGS算法得到的标记顺序，利用KNN算法进行纠错和补缺失处理，终获得遗传图谱； 4)从标记排序和遗传图距估计的准确性两个角度，对所构建的遗传图谱进行全面评估，通过可视化方法直观展示最终所得遗传图谱的质量。
2.根据权利要求1所述的遗传图谱构建方法，其特征在于，所述遗传分离群体为性状分离群体，选自Fl、F2、BCl、DH中的一种或多种目标性状分离的群体。
3.根据权利要求1所述的遗传图谱构建方法，其特征在于，所述步骤2)中，包括步骤a、构架二维棋盘表；b、统计分型频数；c、计算独立性检验统计量，进行连锁群划分。
4.根据权利要求1所述的遗传图谱构建方法，其特征在于，所述步骤3)中SGS为空间抽样、模拟退火和吉布斯抽样方法的组合；所述利用KNN算法对样品分型数据中的分型错误和分型缺失进行纠错和补缺失处理。
5.根据权利要求1-4任一所述的遗传图谱构建方法，其特征在于，所述步骤3)中基于SGS算法的标记顺序和基于KNN算法的纠错和补缺失处理的操作循环进行3-10次。
6.根据权利要求1-4`任一所述的遗传图谱构建方法，其特征在于，所述步骤4)中可视化方法包括: a、利用物种本身或近缘物种的参考基因组，通过共线性图谱来检验遗传图谱标记排序的准确性； b、利用热图检查每一标记在图谱上的定位是否与相邻分子标记的遗传重组相容，检验每一标记排序和定位与观测数据的相容度； C、通过重组图谱直观展示样品分离群体的重组情况，检查样品分型数据矩阵中的分型错误。
7.一种遗传图谱质量的评价方法，其特征在于，从标记排序和遗传图距估计的准确性两个角度，通过可视化方法评估遗传图谱的质量。
8.根据权利要求7所述的评价方法，其特征在于，所述可视化方法包括: a、利用物种本身或近缘物种的参考基因组，通过共线性图谱来检验遗传图谱标记排序的准确性； b、利用热图检查每一标记在图谱上的定位是否与相邻分子标记的遗传重组相容，检验每一标记排序和定位与观测数据的相容度； C、通过重组图谱直观展示样品分离群体的重组情况，检查样品分型数据矩阵中的分型错误。
9.根据权利要求7所述的评价方法，其特征在于，所述标记排序的准确性是通过与自身或近缘物种的参考基因组的比较基因组分析来验证。
【文档编号】G06F19/26GK103525917SQ201310449422
【公开日】2014年1月22日申请日期:2013年9月24日优先权日:2013年9月24日
【发明者】郑洪坤申请人:北京百迈客生物科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑洪坤
技术所有人：北京百迈客生物科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。