一种组装基因组序列的方法和系统的制作方法

文档序号:8218621阅读:559来源:国知局
一种组装基因组序列的方法和系统的制作方法
【技术领域】
[0001]本发明涉及生物信息技术领域,尤其涉及一种组装基因组序列的方法和系统。
【背景技术】
[0002]Illumina的二代测序技术,以其高能量和准确性,成为了很多科研工作地的首选平台,目前它的平均读长为10bp?300bp,由于它的高能量、较低成本,极大地推进了生物信息学的发展,有非常多的基因组是基于这个平台进行研宄的。但是由于读长的局限性,同时复杂基因组中包含着许多高GC,高度重复的区域,Illumina在这些基因组的组装上表现并不理想。
[0003]PacB1 RSII是目前市场上应用最成熟的三代测序平台,它的平均测序读长从一开始的2k到目前的14k,可以跨越大部分的重复区域,在基因组的组装中有极大的优势,极大地克服了二代读长短的缺点,目前它非常成熟地运用在微生物完成图的拼接中。
[0004]但是,由于于单分子实施测序的错误率相对较高,单次测序错误率15%,循环测序误差8%左右,其准确度与第二代测序技术有很大的差距,传统的纠错方法非常耗计算资源,大基因组的计算量非常巨大,使得目前只有少数机构能承能使用这种技术。

【发明内容】

[0005]本发明的目的是解决以上提出的问题,提供一种组装基因组序列的方法和系统,将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装,提高组装效率和准确率。
[0006]一方面,本发明提供了一种组装基因组序列的方法,包括以下步骤:
[0007](I)利用第二代测序技术对样品进行测序,获得高精度短片段序列;
[0008](2)对获得的所述高精度短片段序列进行拼接,获得一个高精度的框架图;
[0009](3)利用单分子测序技术对与上述同样来源的样品进行测序,获得所述同样来源样品的三代测序数据;
[0010](4)将步骤(3)获得的所述三代测序数据比回所述框架图中,得到三代测序数据和框架图的详细对比信息;
[0011](5)利用步骤(4)获得的详细对比信息对所述三代测序数据进行聚类并构建基因组骨架,对所述基因组骨架进行纠错,利用高精度短片段序列的大片断构建scaffold,小片断数据进行补洞,得到基因组精细图。
[0012]作为优选,所述步骤⑷包括:利用BffT和LCS算法,将步骤(3)获得的所述三代测序数据比回所述框架图中,得到三代测序数据和框架图的详细对比信息。
[0013]作为优选,所述步骤(5)中对所述基因组骨架进行纠错包括:
[0014]A、使用HGAP中自带的纠错模块,使用所述三测序代数据进行自纠错;
[0015]B、使用LoRDEC软件利用Illumina第二代测序技术获得的高精度短片段序列来纠正所述基因组骨架。
[0016]作为优选,所述的第二代测序技术采用的是HiSeq测序仪,所述的单分子测序技术采用的是PacB1 RSII测序仪。
[0017]作为优选,所述步骤(2)采用的是S0APdenOVO2软件对获得的所述高精度短片段序列进行拼接。
[0018]作为优选,所述步骤(5)使用SSPACE软件来构建scaffold,最后使用GapCloser来进行补洞。
[0019]另一方面,本发明还提供了一种组装基因组序列的系统,包括:
[0020]接收模块I,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
[0021]拼接模块I,与接收模块I相连,用于对获得的样品的高精度短片段序列进行拼接,获得高精确度的框架图;
[0022]接收模块II,用于接收利用单分子测序技术获得的样品的长片段序列;
[0023]定位模块,与所述拼接模块I和所述接收模块II相连,用于将所述三代测序数据比对回所述框架图上;
[0024]骨架模块,利用所述三代测序数据与所述框架图的详细对比信息系对所述三代测序数据进行聚类构图,搭建基因组骨架;
[0025]纠错模块I,与骨架模块相连,利用骨架模块中的聚类关系,使用HGAP纠错和三代测序数据进行自纠错。
[0026]作为优选,该系统还包括:
[0027]纠错模块II,所述的纠错模块II与纠错模块I相连,用于使用LoRDEC软件和所述高精度短片段序列对所述基因组骨架进行纠错;
[0028]Scaffold&补洞模块,利用高精度短片段序列进行scaffold构建和补洞,生成最终的基因组精细图。
[0029]本发明的有益效果如下:
[0030]1、本发明利用二代测序得到的高精度短片段序列进行组装,再结合1X的三代数据
[0031](http://blog.pacificb1sciences.com/2014/02/data-release-54x-long-read-coverage-for.ht ml),contig N50达到279k,与二代测序组装的技术方案相比,contigN50提高了 10多倍,组装效果显著提升;
[0032]2、本发明结合了第二代测序数据组装的框架图和三代测序数据,利用第二代测序技术的高准确度纠正单分子实时测序数据组装的高错误率,效果显著,而且,本发明的方法能够节省数据整理的时间;
[0033]3、将三代测序数据先比对回框架图中,利用三代测序数据和框架图的详细对比信息进行聚类并构建基因组骨架;
[0034]4、三代测序数据和框架图比对时利用BWT和LCS算法,与目前常用的blasr软件相比,可以大大提高比对的准确度和速度;
[0035]5、采用HGAP和LoRDEC进行纠错,能够对基因组骨架进行全面的纠错,并且应用起来更加有效、方便。
【附图说明】
[0036]图1是本发明组装基因组序列方法的流程示意图;
[0037]图2是本发明组装基因组序列方法的一个实施例的流程示意图;
[0038]图3是利用第二代测序数据结合S0APdenOVO2软件组装的一个实施例的流程示意图;
[0039]图4是PacB1与二代的框架图进行比对,构建骨架,并进行纠错的示意图;
[0040]图5是本发明组装基因组序列装置的一个实施例的结构示意图。
【具体实施方式】
[0041]下面结合附图对本发明的实施例进行进一步详细说明:
[0042]高效快速的de novo拼接有助于发现大片段的结构变异,对理解疾病相关基因组和存在融合基因、拷贝数变异和大范围结构变异的疾病遗传变化具有重要意义。高质量的基因组装配对于基因组注释和比较基因组分析也非常重要。本发明的方法充分利用了第三代测序仪PacB1 RSII的读长优势,将其生成的数据和第二代测序仪生成的精确短读序数据结合在一起,使得基因组装配结果准确性大幅提高,拼接的重叠群平均长度是第二代测序仪所能得到的两倍以上。
[0043]图1是本发明组装基因组序列方法的流程示意图。
[0044]如图1所示,该流程包括A、B、C、D、E五个步骤:
[0045]A、对同样来源的样品分别进行二代测序和三代测序(即单分子测序),对二代测序得到的高精度短片段序列进行组装成框架图;
[0046]B、将二代测序得到的高精度短片段序列组装的框架图定位到三代测序数据中;
[0047]C、处理框架图和三代测序数据的详细对比信息,进行聚类和构图;
[0048]D、得到基因组骨架;
[0049]E、对基因组骨架进行纠错。
[0050]图2是本发明组装基因组序列方法的一个实施例的流程示意图。
[0051]如图2所示,该实施例包括以下步骤:
[0052]S101,利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列。其中,随即打散样品基因组,扩增片段长度在150?500bp之间的短克隆,并直接进行双末端测序。第二代测序技术平台454、Illumina和SOLID均可用于本本发明。本发明的样品没有限制,可以是基因组较大的植物、动物、真菌,也可以是基因组较小的物种,例如微生物和病毒,还可以是需要检测突变的基因组的一部分。
[0053]本发明一个实施例中,优选二代的HiSeq测序仪进行DNA测序,HiSeq测序仪是iIIumina公司推出的高通量测序仪,测序通量可达300Gb/run,一次运行可独立测试16个样品,其原理是基于DNA单分子簇的边合成边测序技术和专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flow cell),这些DNA片段经过延伸和桥式扩增后,在Flow cell上形成了数以亿计的Cluster,每个Cluster是具有数千份相同模板DNA的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性终止的SBS (边合成边测序)技术对待测的模板DNA进行测序。这种新方法确保了高精确度和真实的一个碱基接一个碱基的测序,为同聚物和重复序列的测序提供了一个很好的解决方案。
[0054]S102,对SlOl获得的高精度短片段序列进行拼接,获得一个高精度的框架图。基于第二代测序数据的基因组序列拼接,通常包括以下几个部分:1)数据的预处理阶段。该阶段通过特定的方法,移除测序数据中的错误碱基;2)基因组连续片段(contigs)生成阶段。该阶段将reads拼接成contigs ;3)超长序列片段(scaffoldings)组装阶段。该阶段使用配对数据,确定conntigs之间的方向和位置关系,生成scaffoldings。目前,基于第二代测序数据的全基因组从头测序拼接主要的策略有贪心(greedy)、交叠-排列-生成共有序列(Overlap-Layout-Consensus, OLC)与 De Bruijn 图。
[0055]本发明优选使用S0APdenovo2软件进行高精度短序列的拼接。0APdenovo2软件对于短读长组装起来速度快,消耗的内存相对较少,且拼接的连续性好。图3所示为利用S0APdenovo2软件对HiSeq测序仪测序数据进行拼接的流程图,结合图中步骤可以得出具体流程分为A到F的过程:A.随即打散基因组,扩增长度在150?500bp之间的短克隆,并进行双末端直接测序。B.将未处理(或者未经纠正的)reads读入到内存中,并且用deBruijin图数据结构来表示reads间的O
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1