一种第二代、三代基因组测序数据联用的拼接方法及系统的制作方法

文档序号：9235646阅读：1227来源：国知局

一种第二代、三代基因组测序数据联用的拼接方法及系统的制作方法
【技术领域】
[0001] 本发明设及生物信息技术和计算生物学领域，尤其设及一种第二代、=代基因组测序数据联用的拼接方法及系统。（此处无需加入本发明特点，故删除）
【背景技术】
[000引基因组是生物体内包含在DNA(对于部分病毒是RNA)内的所有遗传信息。DNA是由A、C、T、G四种碱基组成的互补双链，依据生物学的"中屯、法则"，DNA的碱基顺序指导RNA 的转录，W及进一步的蛋白质的翻译合成过程，因此，认识DNA的碱基顺序是认识生物规律的重要基础，通过测序技术获得DNA的部分碱基序列（reads),用于拼接出完整的基因组序列，从而用于进一步分析和研究。
[0003] DNA测序技术主要经历了S个阶段的发展，分别是第一代测序技术、第二代测序技术和第=代测序技术，第一代测序技术是Sanger于1977年发明的双脱氧链终止反应测序法，正是使用改进后的Sanger测序法，研究者完成了人类基因组计划（Human Genome Project,HGP，1995~2003)几乎所有的测序；第二代测序技术诞生于21世纪初，代表仪器是454、Illumina和ABI公司相继推出的新一代测序仪（即第二代测序仪），该些测序仪能够同时并行进行大量的测序反应，从而大幅降低了测序时间和成本，与传统测序方法相比，第二代测序技术的显著优势是测序通量高，比如S0LiD3测序仪单次运行可W得到20GB测序数据，其缺点是；产生的DNA读长比Sanger测序法要短很多，比如Sanger测序产生的读长可W达到9(K)bp，而454测序仪的读长为250-4(K)bp，Solexa读长为50-7化P，短的序列长度使拼接算法难于解决重复序列区域，导致拼接出现碎片化，此外，第二代测序技术的错误率也更高；第=代测序技术始于2008年，其特点是采用"单分子测序"策略进行测序，主要有BioScience公司的HeliScope单分子测序技术、Pacific Biosciences公司的单分子实时测序技术和化化rd Nanopore Technology Ltd公司的纳米孔纳米孔单分子测序技术，单分子测序技术显著特征是不再对样本进行扩增，并且最大程度上保证了测序数据（即 reads)在基因组上的均匀覆盖，单分子测序产生的reads长达3化~20化，其潜在的优势在于可W解决长重复序列的拼接，缺点是reads错误率较高（约5%~15% )。
[0004] 无论是第一代Sanger测序法，还是第二代、第S代测序法，都只能每次"读"出DNA 中的一个短的片段，并不能在一次运行中就将基因组从头到尾完整读出，因此，需要将短的片段组装成完整的基因组，该个过程被称之为"从头序列拼接"值e Novo assembly)。
[0005] 常见的=代测序数据拼接策略有：
[0006] AHA拼接软件的混合拼接策略；首先将=代数据联配到二代数据拼接产生的重叠群（contigs)上，然后利用该些S代reads作为连接产生scafTolds图，结合从Illumina， Roche 454 序列数据和化cBio 序列，进行 scaffolding, overlap-layout-consensus 和错误处理，最终产生完整的基因组，其缺点是将=代数据联配到完整基因组上相对正确，而联配到相对较短的contigs上准确性有所下降。
[0007] SSPACE-Lon浊ead拼接软件的混合拼接策略；不断迭代地拼装已经产生的 contigs，但使用一种快速可靠的方式进行scafTolding，同AHA类似，其缺点是将S代数据联配到完整基因组上相对正确，而联配到相对较短的contigs上准确性有所下降。
[000引 PBcR拼接软件的混合拼接策略；利用它的de novo序列拼接的潜力，一种方案是用短的高准确率的序列来纠正长的单分子的序列，比如PBcR(PacBio corrected Reads)作为Celera拼接器的一部分，通过回贴短的reads到单个长的reads上并且产生高准确率一致短的reads来剪除和纠正单个长的read,纠正之后的混合的reads单独进行de novo的拼接，或者与其他数据混合拼接，其缺点是需要利用大量的计算资源进行纠错。
[0009] HGAP (Hierarchical Genome-assembly Process)拼接软件的拼接策略；使用一个长插入距离鸟枪DNA文库并结合单分子实时（SMRT)DNA测序技术，来进行高质量de novo微生物基因组序列拼接，HGAP使用最长的reads作为种子收集所有其他的reads,并通过基于有向无环图的构建一致性过程来预拼接reads,然后使用现成的长reads拼接器进行拼接，与混合拼接的策略不同，HGAP不需要高准确率的reads进行纠错。其缺点是要得到高质量的拼接结果，需要很高的测序深度，该样就增加了测序成本。
[0010] 使用第二代数据对第=代测序数据进行纠错，由于两种数据的量都很大，会消耗很大的计算资源，迭代地用化cBio数据拆解用第二代数据形成的contigs,仍然有长的重复序列渗杂在其中，很难进行拆解。
[0011] 另一方面，直接用S代数据进行拼接，需要消耗大量的时间用于自纠错；同时为保证良好的拼接效果，必须使用足够高的测序深度，该就极大的增加了实验的成本。
[0012] 通常认为在测序深度不是很高的情况下，化R(长连续reads)不能用于高质量的拼接，化in et al.提出了一种新的非联合方式HGAP，只用CLR完成细菌基因组序列拼接，尽管测序深度需要达到50X来进行纠错，更高的测序深度用于跨越重复序列区域，还需要手工干预来纠错，从测序成本角度考虑，该需要相对更高的成本完成单基因组的拼接，特别是真核生物。
[0013] 目前，有一种联合拼接方式试图对CLR进行纠错，原则上，用化cBio CCS或者短的 NGS (或者混合两者）该是可行的，一些利用二代数据和S代数据提高拼接长度的方法已经被提出，该些方法进一步加入混合拼接的策略，如Celera, MIRA和ALLPATHS-LG，尽管取得了很好的结果，利用二代数据纠错需要较长的reads (reads^^p)和较高的测序深度，还有较多的计算资源，PacBioToCA纠错流程同样支持非混合化cBio拼接。
[0014] 在scafTolding中，AHA策略是最常用的策略，在该一策略中，CLR只用作对拼接二代数据产生的contig进行scafTolding，它通常产生不完整的拼接结果，并且不适用于大规模的基因组，最近，Cerulean作为一个新的混合拼接工具发布出来，它利用ABySS产生的 contig图信息和没有纠错的化R来产生scafTolds，尽管产生了很好的结果，Cerulean需要 ABySS产生的contigs,其他的拼接软件可能产生更好地拼接结果，最后，一些用于化cBio reads填充scafTolds中的间隙软件开发出来，该些软件中有PBJelly。由于第二代测序数据长度和第=代测序数据错误率的局限，完整地拼接原核生物和真核生物依然比较困难。

【发明内容】

[0015] 针对现有技术的不足，本发明提出一种第二代、=代基因组测序数据联用的拼接方法及系统。
[0016] 本发明提出一种第二代、S代基因组测序数据联用的拼接方法，包括：
[0017] 步骤1，获取第二代基因组测序数据，通过所述第二代基因组测序数据中部分碱基序列reads的质量信息，对所述第二代基因组测序数据进行预处理，构建de化uUn图；
[0018] 步骤2,对所述de化uijn图进行测序错误处理，生成新的de化uijn图，对所述新的de化uijn图进行压缩，生成压缩de化uijn图，获取所述压缩de化uijn图中压缩边的序列重数；
[0019] 步骤3,获取第=代基因组测序数据，将所述第=代基因组测序数据回帖到所述第二

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卜东波;张仁玉;陈挺;李帅成;孙世伟;刘兴武;许情;郑全刚;王超;
技术所有人：中国科学院计算技术研究所;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。