一种基于人工减数分裂的辅助基因组组装方法与流程

文档序号:11505999阅读:545来源:国知局

本发明涉及基因组学领域,具体地说,涉及一种基于人工减数分裂的辅助基因组组装方法。

技术背景

基因组dna序列是生物体遗传信息的主要载体,借助全基因组测序以及对序列信息的解读,可以在分子水平上揭示许多重要物种的生长发育原理,也可以在群体水平上探究个体之间基因的差异变化,对探索与认识生命本质等基础生物科学研究、人类重要遗传病防治及动植物遗传育种等应用性研究均具有十分重要的意义。

全基因组测序技术由第一代双脱氧链终止法到边合成边测序的第二代测序方法,再发展到以单分子纳米孔为标志的第三代测序技术。其中二代测序技术相比其他测序技术具有通量高,准确性高,单碱基分辨率及成本低的巨大优势,目前仍然是是基因组测序的首选平台。

随着基因组测序数据爆炸式增长,与之相配套的基因组组装方法也在迅速发展。最先开展的人类基因组计划中采用的是克隆重叠群法进行基因组组装,主要是通过福斯质粒(fosmid)克隆或者细菌人工染色体(bacterialartificialclone,简称bac)克隆的指纹信息对克隆进行排序,以确定涵盖基因组的最少克隆集合,然后测定这些去冗余的克隆片段,最后实现基因组的拼接。相对人类基因组计划采取的策略,craigventer提出的鸟枪法省去了构建物理图谱的繁琐过程,利用基于重叠群的图算法将从基因组中测序得到的高覆盖度的片段交给计算机来组装,但其通量低,价格昂贵,不易大范围推广。后来发展出的一套以k-mer为节点的debruijn图策略成为现阶段基因组组装的主流计算技术,代表性软件有velvet、allpath-lg、abyss、bambus、cabog、msr-ca、sga、sharcgs、ssake及soap-denovo等。

由于基因组中存在着大量的重复序列,导致二代测序数据在组装过程中的contigs比较短,拼接获得的基因组草图仍然有不少的scaffolds/contigs仍未挂载到染色体水平,而且对于高重复,高杂合,以及复杂区域,其组装结果往往差强人意,很大程度上限制了参考基因组序列的可靠性和完整性,单纯依靠二代测序数据拼接难以达到很好的组装效果,因而借助遗传图谱及物理图谱以及新发展起来的三代测序技术等手段辅助基因组拼接的作用就显得尤为重要。

smrt单分子实时测序技术、bionano光学图谱技术、体外hi-c技术等新技术的兴起和发展,使基因组组装水平提升到一个新的高度。这些方法的技术聚焦在远距离长片段的定位,能有效解决一些拼接难度较大的重复区,但其应用通常需要配置昂贵的检测仪器,具有较高的成本,并且这些新兴的技术手段不能获得基因组全局性的序列连接信息,只能提升基因组部分片段的组装效率,因此要将基因组组装达到染色体水平,仍然离不开传统的遗传图谱或物理图谱。

遗传图谱的方法是利用减数分裂时期的姊妹染色单体联会后不同dna片段共交换的频率来判断dna片段的相对位置,但对于某些生长周期较长的物种,构建作图群体会消耗较多的时间,如要提高定位精度,还需要扩大作图群体来获得更高的标记密度,并且挂载确定scaffolds/contigs的染色体位置容易受限于物种的群体规模和交换频率。因此辅助基因组拼接更为经典的可靠方式是基于物理图谱的方法,即通过构建相应的bac克隆文库,然后通过限制性内切酶酶切这些大片段,然后将这些大片段指纹信息展示出来,以此构建比较完整的物理图谱。

1998年剑桥大学mcr实验室发表了一种简便的物理图谱构建方法——单倍体dna排序方法(haploiddnasamplesanalysedusingthepolymerasechainreactionmapping,简称happymap),在实验设计的简便性、测序策略及算法的灵活高效等方面都有较大的发展空间。该实验方案自1998年提出来后应用在了人类14号染色体构建、隐孢子虫物理图谱构建、盘基网柄菌基因组组装,热带爪蟾物理图谱构建等。但传统的happymap实验标记分型主要是靠单点单个样本的pcr实验验证,无法实现高通量的标记分型,因此,难以在辅助全基因组组装上广泛应用。此外,在plosone杂志上发布了该实验的升级版,主要是利用bac三维超级池的策略代替原来的dna分样实验,在标记分型上采用高通量测序而不是传统的pcr实验。但实验操作上仍然需要展库,挑克隆、建池等繁琐的fosmid文库构建方法,费时费力,使其大规模的应用受到限制。

综上所述,目前的基因组组装方法存在诸多缺陷,因此,亟待设计一种准确度高、操作简便、周期短、成本低的辅助基因组组装方法。



技术实现要素:

基于现有技术的不足,本发明提供一种基于人工减数分裂的辅助基因组组装方法,即将基因组以克隆文库的形式等分,建立随机的人工减数分裂样本,并通过hpaii甲基转移酶和fspei甲基修饰依赖型内切酶进行处理,形成高密度的分型标记,进而分析获得分型标记的排序信息,实现scaffold的进一步组装或者pacbio测序reads直接串联组装。

本发明为了实现上述目的所采取的技术方案是:

一种基于人工减数分裂的辅助基因组组装方法,其特征在于,包括以下步骤:

(1)实验文库构建:提取基因组dna,构建fosmid克隆文库;对所述fosmid克隆文库进行抽样涂布并计数克隆,作为其余样本的克隆数目估计;收集覆盖50×基因组的克隆文库,根据抽样涂布得到的克隆数目估计将所述覆盖50×基因组的克隆文库均匀等分成100-150份样本,每份样本的dna量为0.5×单倍体基因组dna,提取质粒dna;

(2)分型文库的构建:利用hpaii甲基转移酶对所述质粒dna进行甲基化处理,使用fspei甲基修饰依赖型内切酶对甲基化处理后的质粒dna进行酶切,获得高密度的分型标记,并且完成测序;

(3)标记解码:对测序得到的原始数据进行质量过滤,并对过滤后的分型标记进行聚类获得代表性序列,根据所述代表性序列的深度信息对所述代表性序列进行分型,得到每份样本的代表性序列分型信息;

(4)标记排序:根据所述代表性序列在不同样本中的分型信息建立所述分型标记两两之间的距离邻接矩阵;通过所述距离邻接矩阵中的距离关系反演出所述分型标记的最优线性排序顺序,进而获得分型标记的物理图谱;

(5)基因组的组装:根据分型标记的物理图谱,将包含分型标记信息的scaffold或者pacbio测序reads进一步串联组装至染色体水平。

进一步地,步骤(1)中克隆文库构建完成后进行转导,并通过涂布平板计数进行分样,以pooling文库代表单个样本,所述pooling文库代表混合克隆文库,即单份样本中有800-1000个左右具有不同插入片段的单克隆的集合。

进一步地,步骤(2)中质粒dna经甲基转移酶与甲基修饰依赖型内切酶处理,产生32bp的分型标记。

进一步地,步骤(4)中采用层次标记排序算法对分型标记进行排序。

进一步地,步骤(5)中具体方法为:通过scaffold所包含的单拷贝分型标记序列的顺序和距离对scaffold进行排序拼接,或者将pacbio测序得到的reads直接挂载分型标记进行排序拼接,进一步地串联组装到染色体水平。

进一步地,步骤(5)中根据分型标记之间的物理距离推断出scaffold之间的gap距离。

有益效果:本发明公开了一种基于人工减数分裂的辅助基因组组装方法,将基因组以克隆文库的形式等分,相当于人工减数分裂产生多个配子,结合随机抽样,降低了标记错排的可能性。在随机抽样的基础上,直接通过混合克隆实现基因组覆盖,省去了传统的酶切pcr克隆解码方式。

通过甲基转移酶将ccgg位点转化为cmcgg位点,形成甲基修饰依赖型内切酶的识别位点,进而通过甲基修饰依赖型内切酶进行酶切获得高密度的分型标记,提高了分型标记的有效利用率,保证后续分析得到的物理图谱具有高分辨率和高覆盖率。以fosmid克隆片段中包含的分型标记作为克隆片段的解码信息,无需进行展库或维持大量单克隆,操作更为简便。

解码过程中每一份单倍体dna也相当于配子,根据分型标记在配子中出现的概率推测分型标记之间的距离和顺序,使得克隆解码更加精准、高效,最终借助大片段的物理图谱实现sacffold的进一步组装,获得的基因组图谱更为精细。

采用层次标记排序算法降低了分型标记组装的复杂度,同时结合随机抽样使得样本信息利用率最大化,降低错排的可能性,使得获得的物理图谱更加精细可靠。

拼接时可直接借助分型标记的物理图谱,将包含分型标记信息的scaffold或者pacbio测序reads进一步串联组装至染色体水平,无需参照基因组,在保证准确率的同时使得操作更加简便。

综上所述,基于人工减数分裂的组装策略具有实验操作简单、周期短、成本低等优点,能够在有限的人力物力条件下进行高覆盖率和准确率的基因组拼接,在基因组相对复杂并且高度杂合的物种中有更大的应用前景。

附图说明

图1为本发明实验流程图。

具体实施方式

下面结合实施例对本发明作进一步详述:

实施例

以拟南芥为例进行研究,拟南芥基因组的组装流程如图1所示。

(1)实验文库构建

1)拟南芥基因组dna的提取

采用酚/氯仿法提取拟南芥基因组dna,对提取得到的dna进行下列检测:

a)dna凝胶电泳检测:电泳条件为:100v,30min;电泳所用的琼脂糖凝胶浓度为1%,tae配制;所用的marker为50ng/μl的λdna。完成凝胶电泳后,eb染色10min,凝胶成像仪检测电泳结果。

b)dna纯度检测:利用紫外分光光度计分别测量od230、od260、od280各值,计算od260/od280及od260/od230值,a260/a280需要在1.8-2.0之间,a260/a230需要≥2,才符合实验要求;然后用qubit2.0进行精准浓度的定量。

2)拟南芥克隆文库构建

a)拟南芥fosmid克隆文库的构建包括:基因组dna的末端修复、目的dna片段的琼脂糖回收、目的片段与载体的连接和连接产物的包装。

b)完成包装之后,取10μl包装产物加入到制备好100μlepi300-t1r菌液中,轻弹混匀,37℃孵育1小时。

c)转导1h结束后,从中随机抽样进行涂布,平板中加入12.5μg/ml氯霉素,其余样本不做涂布处理,直接加入添加有12.5μg/ml氯霉素的lb培养基中过夜培养。次日,对随机抽样涂布平板进行克隆计数,求其平均值,该平均值作为其余样本的克隆数目的估计。收集覆盖50×基因组的克隆文库,根据抽样涂布得到的克隆数目估计将覆盖50×基因组的克隆文库均匀等分成100-150份样本,每份样本的dna量为0.5×单倍体基因组dna,提取质粒dna。

对克隆进行涂板分样计数,保证了克隆在分样中的均匀性。单份样本中有800-1000个左右具有不同插入片段的单克隆的集合,形成混合克隆文库,即pooling文库,使得分样过程不存在挑单克隆的繁琐操作,极大降低了实验的劳动量,节约了实验时间。

(2)分型文库的构建

利用hpaii甲基转移酶对质粒dna进行甲基化处理,选择性地添加甲基基团化学修饰,使质粒dna序列中的ccgg位点转化为cmcgg位点,即引入了fspei甲基修饰依赖型内切酶的识别位点;使用fspei甲基修饰依赖型内切酶对甲基化处理后的质粒dna进行酶切,质粒dna序列中cmcgg位点两侧产生切口,产生等长的32bp碱基片段,该碱基片段即为包含fspei酶切位点的分型标记。进一步地,对构建的分型文库进行illumina测序。

通过hpaii甲基转移酶与fspei甲基修饰依赖型内切酶的处理,获得高密度的分型标记,提高分型标记的有效利用率,使得目标区域的测序更加均匀,保证后续分析得到的物理图谱具有高分辨率和高覆盖率。以fosmid克隆片段中包含的分型标记作为克隆片段的解码信息,无需进行展库或维持大量单克隆,操作更为简便。

(3)标记解码

对测序得到的原始数据进行质量过滤,即去除含有n的reads以及大于5个碱基的质量值小于10的reads。利用stacks软件对过滤后的分型标记进行聚类,允许的错配数为2。根据denovo聚类得到的代表性序列的深度信息进行分型,对每一个样本而言,深度超过2的分型为“1”,否则分型为“0”;所有的样本中“1”的次数在10和130之间的位点进入后续分型标记的物理图谱构建。

测序的分型文库高质量reads所占比例为98.9%,高质量的分型标记聚类获得100834个代表性序列,通过数据过滤分析最终共获得97%以上可靠的分型信息,分型标记覆盖了基因组中预测的单拷贝标记的80%。

(4)标记排序

根据代表性序列在不同样本中的分型信息建立分型标记两两之间的距离邻接矩阵;通过距离邻接矩阵中的距离关系反演出分型标记的最优线性排序顺序,进而获得分型标记的物理图谱;上述实验产生的标记的数目是万级别的,而常用的标记排序算法计算通量都比较低,不满足该策略的标记排序要求。为了解决高通量标记排序问题,本发明提出了层次标记排序算法来降低标记组装的复杂度,同时结合了随机抽样技术来降低标记错排的可能性,以期获得一个可靠精确的物理图谱。

首先在所有的样本中随机抽取80%的个体,计算两两标记之间的遗传距离;设置分群的阈值,将所有的标记分入不同的连锁群中。如果两个标记之间的遗传距离小于阈值时,g(mi,mj)++。随机抽样100次后,如果g(mi,mj)>80那么标记mi和标记mj分到同一个连锁群中,最终所有标记分在m个连锁群中,单个连锁群内的标记利用最小支撑树的方法进行排序。随后,对得到的连锁群进行迭代,对不同连锁群之间的排序同样采用随机抽样技术,来建立不同连锁群之间的排序关系,循环迭代直到连锁群的数目不发生变化,获得分型标记的物理图谱。

利用代表性序列分型信息进行连锁群迭代组装,构建的分型标记物理图谱覆盖96%的拟南芥基因组,提供了一个可用于基因组组装和其他基因组应用的高分辨物理图谱。

(5)基因组的组装

根据分型标记的物理图谱中分型标记之间的物理距离推断出scaffold之间的gap距离,并根据scaffold所包含的单拷贝分型标记序列的顺序和距离对scaffold进行排序拼接至染色体水平;或者将20×pacbio测序得到的reads直接挂载分型标记进行排序拼接,串联组装至染色体水平。通过本发明方法进行基因组组装,拼接的contign50片段长度较利用二代测序数据直接拼接提升8-50倍,连接准确率达到95—99%。

综上所述,本发明通过hpaii甲基转移酶和fspei甲基修饰依赖型内切酶处理获得高密度的分型标记,能够显著提高标记密度,获得高分辨率的物理图谱,与随机抽样的混合克隆文库结合,解决了高通量的标记分型的问题,省去了传统的酶切pcr克隆解码方式;通过高效获得大量标记信息实现克隆解码,最终实现借助大片段的物理图谱实现scaffold的进一步组装,获得更为精细的基因组图谱,基因组组装成本更低、效率更高。并且相对于最新的opticalmap,bionano等基于光学仪器的物理图谱构建方法,本发明实施的门槛相对较低,只要contig或者scaffold中有一个酶切位点就可以通过分型标记的物理图谱进行连接,直接将reads挂靠标记进行连接,无需占用大量的计算资源,能够简化传统拼接计算的复杂性及高运算量,极大的简化了组装的难度。此外,对于广泛应用于小麦等重复序列比例比较高的物种的物理图谱构建方案wgp而言,本发明分型标记的物理图谱可以保留基因组中所有单拷贝的标记的信息,不需单克隆的指纹信息即可进行解码,更为省时省力。

以上仅是本发明的优选实施方式,本发明的保护范围并不仅限制于本文所示的实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干修改和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1