染色体跨度的单体型图及其构建方法

文档序号:9327188阅读:2300来源:国知局
染色体跨度的单体型图及其构建方法
【技术领域】
[0001] 本发明涉及单体型图谱构建领域,具体而言,涉及一种染色体跨度的单体型图及 其构建方法。
【背景技术】
[0002] SNP是指在染色体基因组水平上单个核苷酸的变异引起的DNA序列多态性。位于 一条染色体上的或某一区域的一组SNP等位位点被称为单体型(haplotype)。单体型是 单倍体型的简称,是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合。按 照某一指定基因座上基因重组发生的数量,单体型甚至可以指至少两个基因座或整个染色 体。高质量的单体型在物种进化历史、表型性状的关联分析等方面有重要的价值。
[0003] 目前,国内在单体型的构建方面,采用的方法主要是基于对长片段序列(长片段 序列是指从头测到尾的几Kb~几十Kb的片段)、大片段文库(大片段文库是指2K、5K、IOK 或20Κ等长度的mate-pair文库,一般进行双末端测序,例如,用ΡΕ100的测序策略,那么测 出的数据是首端IOObp和尾端的IOObp)、fosmid文库等的测序数据组装构建单体型,其准 确性和分辨率非常高,但是所构建的单体型的长度仅有几百Kb~1Mb。
[0004] 此外,也有染色体跨度的单体型构建的报道,但这种染色体跨度的单体型的构建 方法是基于染色体显微切割或者单精子等单倍体测序来构建的,其构建方法具体如下:1) 首先,通过显微切割获得微量的单倍体DNA遗传物质;2)采用MALBAC或者多重置换扩增 (MDA)等全基因组扩增技术提高DNA的起始量;3)构建小片段文库,进行二代测序获得短序 列数据(PE reads) ;4)短序列数据(PE reads)与已经发表的参考基因组比对,检测单核苷 酸位点多态性(SNPs),构建单倍体的单体型。
[0005] 上述染色体跨度的单体型构建方法,对于实验技术和实验仪器有着很高的要求, 在取材方面非常受限,只能用于一些符合严格减数分裂的物种。最重要的是,为了达到建库 的最低起始量,需要对DNA进行扩增。在扩增过程中会引入一些错误,并且随着不断的扩增 会导致误差的进一步放大。而且,扩增过程中的碱基偏好性都会影响SNP检测的准确性和 全面性,从而对最终单体型构建的结果造成一定的误差。此外,上述方法整个实验过程时间 较长,通常需要3个月以上。
[0006] 因此,仍需要对现有技术进行改进,以提供一种适用范围广、准确性高、染色体跨 度大的个体单体型的构建方法。

【发明内容】

[0007] 本发明的主要目的在于提供一种染色体跨度的单体型图及其构建方法,以提供一 种适用范围广、准确性高以及染色体跨度大的个体单体型图的构建方法。
[0008] 为了实现上述目的,根据本发明的一个方面,提供了一种染色体跨度的单体型图 的构建方法,该构建方法包括:步骤S1,对包含待测样本基因组交联位点的测序文库进行 测序,得到PE reads;步骤S2,将PE reads分别与参考基因组上的序列进行第一次比对,得 到第一比对结果;步骤S3,根据第一比对结果构建来源于待测样本的PE reads的一致性序 列,获得高质量的SNP位点;以及步骤S4,根据所获取的高质量的SNP位点对每一条reads 进行筛选,并提取至少含有2个杂合SNP位点的reads ;并利用杂合SNP位点构建染色体跨 度的单体型图。
[0009] 进一步地,在步骤S2之前,构建方法还包括判断测序文库是否合格的步骤;判断 测序文库是否合格的步骤包括:步骤a,抽取部分PE reads作为待质控文库;步骤b,将待质 控文库与参考基因组上的序列进行第二次比对,得到第二比对结果;步骤c,利用第二比对 结果计算待质控文库的插入片段在参考基因组上的跨度;步骤d,若跨度大于10kb,且跨度 大于IOkb的插入片段在待质检文库中的比例为50%以上,则判断测序文库合格。
[0010] 进一步地,在步骤Sl之后,以及在步骤S2之前,构建方法还包括对PE reads进行 质控的步骤;质控的步骤包括:检测PE reads中是否存在外源样本污染,和/或对PE reads 进行低质量数据过滤。
[0011] 进一步地,在步骤S2之前,还包括对参考基因组上的序列进行前处理的步骤;前 处理的步骤包括:基于BWA和SAMtools对参考基因组上的序列进行索引文件的构建;对参 考基因组上的序列的长度、碱基含量和空缺的比例进行统计;以及获取构建测序文库时所 使用的限制性内切酶在参考基因组的序列上的分布位置和数目。
[0012] 进一步地,步骤S2包括:利用BWA软件的mem模块,将PE reads通过第一次比对 分别比对到建好索引文件的参考基因组的序列上,得到第一比对结果。
[0013] 进一步地,步骤S2在得到第一比对结果后,还包括对PE reads进行覆盖均匀性进 行检测的步骤,覆盖均匀性检测的步骤包括:检测在不同测序深度下,PE reads对参考基因 组的覆盖程度和覆盖深度,覆盖程度是指PE reads覆盖参考基因组上的序列的长度与参考 基因组上的序列的总长度的比值;覆盖深度是指参考基因组相应位置被PE reads覆盖到 的次数。
[0014] 进一步地,步骤S3包括:根据第一比对结果,利用SAMtools软件构建PE reads的 一致性序列,以及获取一致性序列中存在的高质量的SNP位点。
[0015] 进一步地,步骤S4包括:从高质量的SNP位点中提取至少含有2个杂合SNP位点 的reads ;以杂合SNP位点为点,以两个杂合SNP之间的片段长度为边,构建单体型块;基于 交联位点之间的线性距离小于30Mb的两侧片段上的杂合SNP位点,将多个单体型块进行连 接,得到候选单体型图;对候选单体型图的完整性和分辨率进行评估,并对评估结果依次按 照完整性和分辨率的高低进行排序,挑取在完整性最高条件下分辨率最高的候选单体型图 作为染色体跨度的单体型图;其中,挑选交联位点之间的线性距离小于30Mb的两侧片段的 步骤包括:根据染色体的位置,对第一比对结果进行排序,得到PE reads中的每一条reads 在参考基因组的序列上的位置信息;根据PE reads中的每一条reads在参考基因组的序列 上的位置信息,将构成交联位点两端的reads进行配对,得到交联位点在参考基因组上的 线性距离;根据线性距离,挑选得到交联位点之间的线性距离小于30Mb的两侧片段。
[0016] 进一步地,在步骤Sl之前,构建方法还包括:利用空间构象捕获的方法构建得到 包含待测样本基因组交联位点的测序文库;利用空间构象捕获的方法构建测序文库的步骤 包括:对待测样本的DNA进行交联固定;利用限制性内切酶对DNA进行酶切,产生具有酶切 缺口的DNA片段;利用生物素标记的寡核苷酸将具有酶切缺口的DNA片段上的酶切缺口进 行补平;利用核酸连接酶将DNA片段进行连接,得到连接交联DNA片段;对连接交联DNA片 段进行解交联,得到解交联DNA ;以及对解交联DNA进行片段化文库构建,得到测序文库。
[0017] 根据本发明的另一方面,提供了一种染色体跨度的单体型图,该单体型图利用上 述任一种构建方法构建而成。
[0018] 应用本发明的技术方案,通过以待测样本全基因组上带有交联位点的测序数据为 处理对象,能够获取全基因组上存在的重组交换位点,利用这些重组交换位点中的SNP位 点构建而成的单体型图在基因组上的跨度较大,能够达到染色体跨度水平,且这种基于全 基因组的交联位点的测序数据更全面,因而得到的染色体跨度的单体型图的准确性和分辨 率都很高。相比现有技术的构建方法,该方法不局限于某些特定的物种,具有物种适应范围 广的优势;且实验过程避免了扩增带来的偏好性及误差,相对提高了本发明所构建的单体 型图的准确性和分辨率。
【附图说明】
[0019] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示 意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0020] 图1和图2示出了根据本发明的优选实施例中将测序数据与参考基因组上的序列 进行比对并构建成一致性序列的示意图;其中,
[0021] 图1示出了具体测序序列与参考基因组上的序列的详细序列比对结果,其中第一 行表示参考基因组上的序列的碱基位置,第二行表示参考基因组上的序列的碱基信息;第 三行表示一致性序列;第四行及其以下行表示测序所得序列;
[0022] 图2示出了存在SNP位点的序列比对信息,其中,左侧框中表示第一个单体型块; 右侧框中表示另一个单体型块;
[0023] 图3示出了在本发明一种优选的实施例中单体型块及候选单体型图的构建流程 示意图;
[0024] 图4示出了多个候选单体型图的各种参数值;
[0025] 图5示出了本发明的一种优选实施例中的构建方法所构建的单体型图在完整性 方面与现有技术的比对结果图;
[0026] 图6示出了本发明的一种优选实施例中的构建方法所
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1