一种基于三代PacBio测序数据的补洞方法

文档序号:10655811阅读:354来源:国知局
一种基于三代PacBio测序数据的补洞方法
【专利摘要】本发明提出了一种基于三代PacBio测序数据的补洞方法,大大降低了补洞过程中的比对时间,基因组补洞的速度得到明显提高。通过相应软件,将三代PacBio测序数据比对上基因组中洞的两端,截取比对上的三代PacBio测序数据的部分区域,并依据该数据所属的洞对截取的数据进行聚类,使用dazcon软件进行纠错,用纠错后的数据进行序列连接。
【专利说明】
-种基于H代PacB i O测序数据的补洞方法
技术领域
[0001] 本发明设及生物信息技术领域,具体设及DNA组装的补桐方法,它使用S代化CBio 测序数据来进行基因组数据的补桐。
【背景技术】
[0002] S代化CBiO测序W长读长著称,目前测序使用的P6-C4试剂,可使测序数据的平均 读长达到10-1化,并且测序没有明显的GC偏向性,理论上能很好地对基因组进行补桐。目前 基于S代化CBio测序数据补桐的软件,有PBjelly,但它是基于blasr比对软件的,由于 blasr软件比对速度非常慢,导致整个构建scaffold的时间也非常漫长。特别是对于大于IG 的基因组,测序深度大于IOX的情况,通常需要耗费几个月的时间。

【发明内容】

[0003] 本发明的目的是解决W上提出的问题,提出了一种基于S代化CBiO测序数据的补 桐方法,大大降低了补桐过程中的比对时间,基因组补桐的速度得到明显提高。通过相应软 件,将S代化CBio测序数据比对上基因组中桐的两端,截取比对上的S代化CBio测序数据 的部分区域,并依据该数据所属的桐对截取的数据进行聚类,使用dazcon软件进行纠错,用 纠错后的数据进行序列连接。
[0004] 本发明是通过W下技术方案实现的:
[0005] 本发明是一种基于S代化CBio测序数据的补桐方法,所述补桐方法包括W下步 骤:
[0006] (1)从contig 中提取 unique-kmer;
[0007] (2)使用unique-kmer作为seed,进行比对,并截取比对上的区域;
[000引(3)对比对上的区域进行聚类和纠错;
[0009] (4)使用纠错后的数据进行连接。
[0010] 作为优化,在步骤(1)使用Jell^ish软件对二代Illumina测序数据进行k-mer统 计,把出现一次的k-mer作为unique-kmer,使用比特文件或GATB开源包,对运些unique- kmer 进行存储。
[0011] 作为优化,对于k《17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于 k> 17的情况,把unique-kmer存入GATB开源包中的(*.h5)文件中。
[0012] 作为优化,所述步骤(2)包括W下步骤:
[0013] 2.1 使用unique-kmer 作为seed;
[0014] 2.2事先对seed的比对关系进行聚类,算出最优的比对范围;
[0015] 如果两条read能比对得上,那么它们具有共线性,并且运些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。
[0016] 2.3分区域进行比对;
[0017] 首先将比对的整体区域划分成IOObp的小区域,假设划分为n个区域,共有a个碱 基,再对运些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,运些小区域总 体的相似碱基为C个,分W下两个维度评价相似度:
[001引区域相似度=b/n
[0019] 碱基相似度=c/a
[0020] 最后只保留两个评价相似度的值都大于0.7的比对数据。
[0021] 作为优化,所述步骤(3)和(4)包括W下步骤:
[0022] 3.1将比对上的区域前后延伸一定长度(可W设定为5(K)bp)进行截取,并记录运个 区域所对应的桐;
[002引3.2将截取的区域,按所属的桐进行聚类;
[0024] 3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。
[0025] 与现有的软件相比,本方法的优点在于:
[0026] 1、从contig中提取出uni que -kmer,提高准确率,降低对比时间。
[0027] 在基因组中,存在许多重复序列,有些短重复序列甚至出现成百上千次,从而会影 响比对软件的准确度,增加比对的时间。为了提高比对的准确度,降低比对时间,本法提取 在contig中只出现一次的k-mer,作为unique-kmer,在比对中只用unique-kmer作为比对使 用的seed。运里使用扣11钟1311软件来进行4-1]1日1'统计,并筛选出11]11911日-1〇]161'。
[002引2、将S代化CBio测序数据比对上基因组中桐的两端,并截取数据,节约内存,节约 对比时间,提高准确度。
[0029] 很多比对方法,都使用了最长公共子序列化CS)的算法,本法进行比对,也是使用 运个算法,但是做了 W下=方面的改进:
[0030] 1)使用unique-kmer 作为seed
[0031] 2)事先对seed的比对关系进行聚类,算出最优的比对范围。
[0032] 如果两条read能比对得上,那么它们具有共线性,并且运些seed之间的斜率为1。 我们将聚到最多点的直线作为比对上的区域。
[0033] 3)分区域进行比对。
[0034] 大多比对软件都是直接对整体区域进行最长公共子序列化CS)计算,但对于较大 的比对区域来说,例如大于IOOk的比对区域,对整体区域进行计算,不仅浪费内存而且会耗 费大量时间。本法所做的改进解决了 W上问题,同时准确度也得到明显的提升。
[0035] 对于进行比对的S代化Cbio测序数据,选取比对上的区域两端各自延伸一定长度 (通常设定为500bp)的部分进行截取,运样就可W保证S代化CBio测序数据与比对上的桐 两端的DNA序列有共同的区域。
[0036] 3、对比对上的S代化CBio测序数据进行聚类,纠错并连接,节约纠错时间。
[0037] 将上一步骤截取的数据依据各自所属的桐进行聚类,使用dazcon软件对每个桐的 聚类数据纠错,并依据纠错后的数据和桐两端的存在的共同序列,进行序列连接,完成补 桐。运样做的优点是只对桐的区域进行纠错,不必对整条序列进行纠错,从而大大地节约了 纠错时间。
【附图说明】
[003引图1:本发明流程图。
【具体实施方式】
[0039] 下面结合附图对本发明的实施例进行进一步详细说明:
[0040] 实施例:
[0041 ] 1、从Cont ig中提取 unique-kmer,在步骤(1)使用 JellWish 软件对二代I Ilumina 测序数据进行k-mer统计,把出现一次的k-mer作为unique-kmer,对于k《17,使用一个大小 为2G的比特文件(*. bit文件)来存储,而对于k> 17的情况,把unique-kmer存入GATB开源包 中的(*.h5)文件中。其中,将所有的数据打断成长度为k的片断称为k-mer,二代Illumina测 序数据是指通过111皿ina公司测序仪获得的二代测序数据。
[0042] 根据上述方法编写了程序,用法如下:
[0043]
[0044]
[0049] 因为选取k = 17,将结果存入比特文件中:kl7.bit
[(K)加]2、使用unique-kmer作为seed,进行比对,并截取比对上的区域;
[0化1] 2.1 使用unique-kmer 作为seed;
[0052] 2.2事先对seed的比对关系进行聚类,算出最优的比对范围;
[0053] 如果两条read能比对得上,那么它们具有共线性,并且运些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。
[0化4] 2.3分区域进行比对。
[0055]首先将比对的整体区域划分成IOObp的小区域,假设划分为n个区域,共有a个碱 基,再对运些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,运些小区域总 体的相似碱基为C个,分W下两个维度评价相似度:
[0化6]区域相似度=b/n [0化7] 碱基相似度=c/a
[005引最后只保留两个评价相似度的值都大于0.7的比对数据。
[0059] 3、对比对上的区域进行聚类和纠错,使用纠错后的数据进行连接。
[0060] 3.1将比对上的区域前后延伸一定长度(可W设定为50化p)进行截取,并记录运个 区域所对应的桐;
[0061] 3.2将截取的区域,按所属的桐进行聚类;
[0062] 3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。
[0063] 根据上述比对和补桐的方法,讲比对和补桐方法写成一个流程,方便调用,用法如 下:
[00641
[(
[(
[0067]
[0068] W上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技 术人员来说,在不脱离本发明核屯、技术特征的前提下,还可W做出若干改进和润饰,运些改 进和润饰也应视为本发明的保护范围。
【主权项】
1. 一种基于三代PacBio测序数据的补洞方法,其特征在于,所述补洞方法包括以下步 骤: (1) 从 contig 中提取 un i que-kmer; (2) 使用unique-kmer作为seed,进行比对,并截取比对上的区域; (3) 对比对上的区域进行聚类和纠错; (4) 使用纠错后的数据进行连接。2. 根据权利要求书1所述的基于三代PacBio测序数据的补洞方法,其特征在于,在步骤 ⑴使用Jellyfish软件对二代Illumina测序数据进行k-mer统计,把出现一次的k-mer作为 unique-kmer,使用比特文件或GATB开源包,对这些unique-kmer进行存储。3. 根据权利要求书2所述的基于三代PacBio测序数据的补洞方法,其特征在于,对于k 彡17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于k>17的情况,把unique-kmer存入GATB开源包中的(*. h5)文件中。4. 根据权利要求书1所述的基于三代PacBio测序数据的补洞方法,其特征在于,所述步 骤(2)包括以下步骤: 2 · 1使用unique-kmer作为seed; 2.2事先对seed的比对关系进行聚类,算出最优的比对范围; 如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1,将聚 到最多点的直线作为比对上的区域。 2.3分区域进行比对; 首先将比对的整体区域划分成l〇〇bp的小区域,假设划分为η个区域,共有a个碱基,再 对这些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,这些小区域总体的相 似碱基为c个,分以下两个维度评价相似度: 区域相似度= b/n 碱基相似度= c/a 最后只保留两个评价相似度的值都大于0.7的比对数据。5. 根据权利要求书1所述的基于三代PacBio测序数据的补洞方法,其特征在于,所述步 骤(3)和(4)包括以下步骤: 3.1将比对上的区域前后延伸一定长度进行截取,并记录这个区域所对应的洞; 3.2将截取的区域,按所属的洞进行聚类; 3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。
【文档编号】G06F19/24GK106022002SQ201610325767
【公开日】2016年10月12日
【申请日】2016年5月17日
【发明人】詹东亮, 蔡庆乐, 王兆宝, 罗亚丹, 范崇仪, 王军, 王军一, 范玉美
【申请人】杭州和壹基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1