一种基于三代PacBio测序数据的scaffold构建方法

文档序号:10655812阅读:1117来源:国知局
一种基于三代PacBio测序数据的scaffold构建方法
【专利摘要】本发明提供一种基于三代PacBio测序数据的scaffold构建方法,大大降低了比对时间,从而明显提高了构建scaffold的速度。本法先从contig中提取unique?kmer,再使用unique?kmer作为seed,将contig比对到三代PacBio数据,最后处理比对信息来构建scaffold。基于本法来构建scaffold,通常情况在一天的时间内就能完成scaffold构建。
【专利说明】
-种基于H代PacB i O测序数据的scaffo I d构建方法
技术领域
[0001] 本发明设及生物信息技术领域,具体设及基因组装中的构建Scaffold,它使用 化cBio的长读长数据,来对contig进行定位和构建scaffold。
【背景技术】
[0002] S代化CBio的测序W长读长著称,目前使用的P6-C4试剂,可W使化CBio的平均读 取长度提升到10-1化,并且测序没有明显的GC偏向性,理论上能很好地提高基因组构建 scaffold的水平。目前基于S代化CBio测序数据构建scaffold的软件,有AHA和SSPACE3.0, 它们都是基于blasr运个比对软件来构建scaffold。由于blasr软件的比对速度很慢,导致 整个构建scaffold的时间非常漫长。特别是对于大于IG的基因组,测序深度大于IOX的情 况,通常需要耗费好几个月的时间。

【发明内容】

[0003] 本发明的目的是解决W上提出的问题,设计了一种基于S代化CBiO测序数据的 scaf f 01 d构建方法,大大降低了比对时间,从而明显提高了构建scaf f 01 d的速度。基于本法 来构建scaffold,通常情况在一天的时间内就能完成scaffold构建。
[0004] 本发明是通过W下技术方案实现的:
[0005] 本发明是一种基于S代化cBio测序数据的scaf fold构建方法,所述scaf fold构建 方法包括W下步骤:
[0006] (1)从contig 中提取 unique-kmer;
[0007] (2)使用unique-kmer作为seed,将contig比对到S代化cBio测序数据;
[000引(3)利用比对信息来构建scaffold。
[0009] 作为优化,在步骤(1)中,使用Jellyfish软件对contig数据进行k-mer统计,把出 现一次的k-mer作为unique-kmer,使用比特文件或GATB开源包,对运些unique-kmer进行存 储。
[0010] 作为优化,对于k《17的情况,使用一个大小为2G的比特文件(*.bit)来存储;而对 于k> 17的情况,使用GATB开源框架把unique-kmer存入GATB开源包中的(*. h5)文件中。
[0011] 作为优化,步骤(2)包括W下步骤:
[0012] 2.1 使用unique-kmer 作为seed;
[0013] 2.2事先对seed的比对关系进行聚类,算出最优的比对范围;
[0014] 如果两条read能比对得上,那么它们具有共线性,并且运些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域;
[00巧]2.3分区域进行比对;
[0016]将比对上的区域划分成IOObp的小区域,假设划分为n个区域,共有a个碱基,再将 运些小区域进行LCS计算相似度,假设相似度大于0.8的区域有b个,运些小区域总体的相似 碱基为C个,分两个维度评价相似度:区域相似度=b/n,碱基相似度=c/a,只保留两个评价 相似度的值都大于0.7的比对数据。
[0017] 作为优化,步骤(3)依据步骤(2)的比对结果构建scaffold,先过滤掉低质量的比 对信息,再将比对信息转化为对应contig的连接信息和构图信息,依据构图信息进行 contig连接,完成scaffold的构建。
[0018] 与现有的软件相比,本方法的优点在于:
[0019] 1、从contig中提取出unique-kmer,提高比对准确率,降低对比时间。
[0020] 在基因组中,存在许多重复序列,有些短重复序列甚至出现成百上千次,从而会影 响比对软件的准确度,增加比对的时间。为了提高比对的准确度和降低比对时间,我们提取 在contig中只出现一次的k-mer,作为unique-kmer,在比对中只用unique-kmer作为比对使 用的seed。运里我们使用扣117'13]1软件来统计4-11161'分布,并筛选出11]119116-1〇1161'。对于4< = 17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于k〉17的情况,使用GATB(开 源框架),把unique-kmer存入文件(*. h5文件)
[0021] 2、将contig比对到S代化CBio数据
[0022] 很多比对软件,都使用了最长公共子序列化CS)的算法,本法也是使用运个算法, 但是做了 W下=方面的改进:
[0023] 1)使用unique-kmer 作为seed;
[0024] 2)事先对seed的比对关系进行聚类,算出最优的比对范围;
[00巧]3)分区域进行比对。
[0026] 大多比对软件都是直接对整体区域进行最长公共子序列化CS)计算,但对于较大 的比对区域来说,例如大于100k的比对区域,对整体区域进行计算,不仅浪费内存而且会耗 费大量时间,本法所做的改进解决了 W上问题,同时准确度也得到明显的提升。
【附图说明】
[0027] 图1:本发明流程图。
【具体实施方式】
[0028] 下面结合附图对本发明的实施例进行进一步详细说明:
[0029] 实施例:
[0030] 1、从contig 中提取 unique-kmer,使用 JellWish软件对contig 数据进行k-mer统 计,把出现一次的k-mer作为unique-kmer,对于k《17的情况,使用一个大小为2G的比特文 件(*. bit)来存储;而对于k> 17的情况,使用GATB开源框架把unique-kmer存入GATB开源包 中的(*.h5)文件中。其中,将所有的数据打断成长度为k的片断称为k-mer。
[0031] 根据上述方法,实现了一个程序,用来提取unique-kmer,具体操作使用说明如下:
[0032]
[0033] 将contig文件的路径,放入一个文件file. 1st中: [00341
[0(X3日]然后运行程序,来获取unique-kmer,具体操作命令如下:
[0036]
[0037] 因为选取k = 17,将结果存入比特文件中:kl7.bit
[0038] 2、使用unique-kmer作为seed,将contig比对到S代F*acBio测序数据:
[0039] 其中,S代化CBio测序数据是指通过化CBio公司测序仪获得的S代测序数据;
[0040] 2.1 使用 unique-kmer 作为 seed;
[0041] 2.2事先对seed的比对关系进行聚类,算出最优的比对范围;
[0042] 如果两条read能比对得上,那么它们具有共线性,并且运些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域;
[0043] 2.3分区域进行比对;
[0044] 将比对上的区域划分成IOObp的小区域,假设划分为n个区域,共有a个碱基,再将 运些小区域进行LCS计算相似度,假设相似度大于0.8的区域有b个,运些小区域总体的相似 碱基为C个,分两个维度评价相似度:区域相似度=b/n,碱基相似度=c/a,只保留两个评价 相似度的值都大于0.7的比对数据。
[0045] 3、利用比对信息构建S caff 01 d。
[0046] 利用上一步骤contig比对到S代化cBio数据所得的比对信息构建scaffold。先过 滤掉低质量的比对信息,再将比对信息转化为对应contig的连接信息和构图信息,依据构 图信息进行contig连接,完成scaffold的构建。
[0047] 将上述比对信息过滤,转化和构建scaffold方法,封装为一个流程,方便调用,用 法如下:
[0。…1
[0
[0
[0化1 ]
[0052] W上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技 术人员来说,在不脱离本发明核屯、技术特征的前提下,还可W做出若干改进和润饰,运些改 进和润饰也应视为本发明的保护范围。
【主权项】
1. 一种基于三代PacBio测序数据的scaffold构建方法,其特征在于,所述scaffold构 建方法包括以下步骤: (1) 从 contig 中提取 un i que-kmer; (2) 使用unique-kmer作为seed,将contig比对到三代PacBio测序数据; (3) 利用比对信息构建scaffold。2. 根据权利要求书1所述的基于三代PacBio测序数据的scaffold构建方法,其特征在 于,在步骤(1)中,使用Jellyfish软件对contig数据进行k-mer统计,把出现一次的k-mer作 为unique-kmer,使用比特文件或GATB开源包,对这些unique-kmer进行存储。3. 根据权利要求书2所述的基于三代PacBio测序数据的scaffold构建方法,其特征在 于,对于17的情况,使用一个大小为2G的比特文件(*. bit)来存储;而对于k> 17的情况, 使用GATB开源框架把unique-kmer存入GATB开源包中的(*. h5)文件中。4. 根据权利要求书1所述的基于三代PacBio测序数据的scaffold构建方法,其特征在 于,步骤(2)包括以下步骤: 2 · 1使用unique-kmer作为seed; 2.2事先对seed的比对关系进行聚类,算出最优的比对范围; 如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1,将聚 到最多点的直线作为比对上的区域; 2.3分区域进行比对; 将比对上的区域划分成l〇〇bp的小区域,假设划分为η个区域,共有a个碱基,再将这些 小区域进行LCS计算相似度,假设相似度大于0.8的区域有b个,这些小区域总体的相似碱基 为c个,分两个维度评价相似度:区域相似度= b/n,碱基相似度= c/a,只保留两个评价相似 度的值都大于0.7的比对数据。5. 根据权利要求书1所述的基于三代PacBio测序数据的scaffold构建方法,其特征在 于,步骤(3)依据步骤(2)的比对结果构建scaffold,先过滤掉低质量的比对信息,再将比对 信息转化为对应contig的连接信息和构图信息,依据构图信息进行contig连接,完成 scaffold的构建。
【文档编号】G06F19/24GK106022003SQ201610326888
【公开日】2016年10月12日
【申请日】2016年5月17日
【发明人】王军, 王军一, 詹东亮, 范崇仪, 蔡庆乐, 何荣军, 王兆宝, 岳伟
【申请人】杭州和壹基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1